Les mostramos partidas de ajedrez y se convirtieron en rivales imbatibles; les dejamos leer nuestros textos y se pusieron a redactar. También aprendieron a pintar y retocar fotografías. ¿Acaso alguien dudaba que la inteligencia artificial no iba a ser capaz de hacer lo mismo con los discursos y la música?

La división de investigación de Google ha presentado AudioLM (paper), un framework para generar audio de alta calidad que se mantenga consistente a largo plazo. Para ello, parte de una grabación de apenas unos segundos de duración, y es capaz de prolongarla de forma natural y coherente. Lo más reseñable es que lo logra sin ser entrenada con transcripciones o anotaciones previas pese a que el discurso generado sea plausible sintáctica y semánticamente plausible. Además, mantiene la identidad y la prosodia del hablante al punto de hacer que el oyente no sea capaz de discernir qué tramo del audio es original y cuál ha sido generado por una inteligencia artificial.

Los ejemplos de esta inteligencia artificial son sorprendentes. No solo es capaz de replicar la articulación, tono, timbre e intensidad, sino que es capaz de introducir el sonido de la respiración del hablante y de formar frases con sentido. Si no parte de un audio de estudio, sino de uno con ruido de fondo, AudioLM lo replica para darle continuidad. En la web de AudioLM, pueden escucharse más muestras.

Google Brain

Una inteligencia artificial entrenada en semántica y acústica

¿Cómo lo logra? La generación de audio o música no es nada nuevo. Pero sí lo es la forma que han discurrido los investigadores de Google para abordar el problema. De cada audio se extraen unos marcadores semánticos para codificar una estructura de alto nivel (fonemas, léxico, semántica…), y unos marcadores acústicos (identidad del hablante, calidad de la grabación, ruido de fondo…). Con estos datos ya procesados y comprensibles para la inteligencia artificial, AudioML comienza su labor estableciendo una jerarquía en la que predice primero los marcadores semánticos, que luego se emplean como condicionantes para predecir los marcadores acústicos. Estos últimos se vuelven a utilizar al final para convertir los bits en algo que los humanos podamos escuchar.

Esta separación semántica de la acústica, y su jerarquía, no solo es una práctica beneficiosa para entrenar modelos de lenguaje que generen discursos. Según los investigadores, también es más efectivo para continuar composiciones de piano, como muestran en su web. Es mucho mejor que los modelos que solo se entrenan mediante marcadores acústicos.

Lo más significativo de la inteligencia artificial de AudioLM no es que sea capaz de continuar discursos y melodías, sino que puede hacer todo a la vez. Es, por tanto, un único modelo de lenguaje que se pueda emplear para pasar texto a voz —un robot podría leer libros enteros y dar descanso a los dobladores profesionales— o para hacer que cualquier dispositivo pueda comunicarse con las personas mediante una voz familiar. Esta idea ya fue estudiada Amazon, que se planteó usar la voz de los seres queridos en sus altavoces Alexa.

¿Apasionante o peligroso?

Programas como Dalle-2 y Stable Diffusion son herramientas excepcionales que permiten esbozar ideas o generar recursos creativos en pocos segundos, como la ilustración usada en la portada de este artículo. El audio puede ser más importante incluso, y uno puede imaginar que la voz de un locutor se use bajo demanda por varias empresas. Incluso podrían doblarse películas con las voces de actores ya fallecidos. El lector se estará preguntando si esta posibilidad, aunque apasionante, no será peligrosa. Toda grabación de audio se podría manipular con fines políticos, legales o judiciales. Google dice que, aunque los humanos tengan dificultades para detectar qué proviene del hombre y qué de la inteligencia artificial, un ordenador sabe detectar si el audio es orgánico o no. Es decir, no solo la máquina nos puede reemplazar, sino que para valorar su trabajo será imprescindible contar con otra máquina.

De momento AudioLM no está abierto al público, es sólo un modelo de lenguaje que se podrá integrar en diferentes proyectos. Pero esta demostración, junto al programa de música Jukebox de OpenAI, demuestra lo rápido que nos estamos introduciendo en un nuevo mundo donde ya nadie sabrá, o no le importará, si esa fotografía está hecha por una persona o si al otro lado del teléfono hay una persona o una locución generada artificialmente en tiempo real.