Meta está haciendo una apuesta a fondo por la IA generativa, y hoy lo ha ratificado con la presentación de AudioCraft. Se trata de un nuevo software de código abierto capaz de crear música y efectos de sonido a partir de texto. El anuncio sale a la luz apenas semanas después de la introducción de LLaMA 2, su más reciente modelo de inteligencia artificial, también Open Source.
A través de AudioCraft, Meta ofrece la posibilidad de generar "música y sonidos realistas de alta calidad". Vale mencionar que esta plataforma utiliza tres modelos para brindar los resultados prometidos: MusicGen, AudioGen y el decodificador EnCodec.
Según se explicó, el primero se entrenó utilizando tanto música licenciada como perteneciente a la compañía de Menlo Park. En tanto que para el adiestramiento del segundo se usó un catálogo público de efectos de sonido. En cuanto a EnCodec, los de Mark Zuckerberg afirman que se trata de una versión optimizada que permite obtener resultados de calidad requiriendo de "menos artefactos".
¿Cómo funciona AudioCraft? Al igual que en plataformas capaces de generar imágenes (Dall-E 2, Midjourney), o en chatbots conversacionales (ChatGPT, Bard), el usuario debe ingresar un prompt de texto y la herramienta se encarga del resto.
Así, se le puede pedir a AudioCraft que genere el sonido de las sirenas de una patrulla de policía acercándose y alejándose. O que componga una canción de un determinado género musical, usando instrumentos específicos o hasta incluyendo un solo. El primer ejemplo se concretaría a través de AudioGen, mientras que el segundo mediante MusicGen.
AudioCraft, la nueva IA generativa de Meta para crear música y efectos de sonido
Según Meta, las distintas herramientas que componen AudioCraft no solo han sido diseñadas para que sean fáciles de usar y ofrezcan resultados inmediatos de calidad. También, para que sus creaciones sean consistentes en el largo plazo. Al brindar esta inteligencia artificial como software de código abierto, los californianos pretenden que expertos sean capaces de usarlo para entrenar sus propios modelos con sus propios sets de datos. No obstante, también se lanzarán versiones preentrenadas del modelo AudioGen para simplificar la creación de efectos de sonido con información preexistente.
"Si bien hemos visto mucho entusiasmo en torno a la IA generativa para imágenes, video y texto, el audio parece estar un poco rezagado. Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar fácilmente con él. La generación de audio de alta fidelidad de cualquier tipo requiere el modelado de señales y patrones complejos en diferentes escalas. Podría decirse que la música es el tipo de audio más difícil de generar, ya que se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos".
Meta, sobre el lanzamiento de AudioCraft.
Será interesante ver cómo el enfoque Open Source de AudioCraft ayuda a su adopción entre investigadores y entusiastas de la IA generativa. De todos modos, es lógico pensar que las nuevas herramientas de Meta puedan llegar a ser un potencial foco de conflicto en el futuro. Especialmente MusicGen, considerando que las herramientas para crear música con inteligencia artificial ya están generando controversia.
De hecho, Google se adelantó a AudioCraft con una herramienta similar. MusicLM nació para generar canciones a partir de una simple orden de texto y se entrenó con más de 280.000 horas de música. Sin embargo, aún no se encuentra disponible para el público masivo porque los de Mountain View no logran resolver un problema nada menor: el plagio. Alrededor del 1 % de la música que genera esta IA es una réplica de material protegido por las leyes de derechos de autor. Algo que en principio parece menor, pero que puede significar un fuerte dolor de cabeza legal.
Universal Music Group, una de las principales discográficas del mundo, pidió a Apple y Spotify que bloqueen a los bots que extraen letras y melodías de las canciones de sus artistas. Según la compañía, ese material protegido con copyright luego se usa para entrenar modelos de inteligencia artificial capaces de crear música parecida a la de intérpretes o compositores como Taylor Swift y Elton John. ¿Estará AudioCraft en el punto de mira de los pesos pesados de la industria musical? Lo sabremos muy pronto.