DALL-E 2, desarrollada por OpenAI, es, sin duda, uno de los mejores ejemplos de lo que es capaz de hacer una IA generativa. Este modelo se ha vuelto extremadamente popular en redes sociales por los resultados que puede ofrecer con tan solo introducir una breve descripción de texto. Su uso, sin embargo, va mucho más allá de una publicación en Twitter.

DALL-E 2, así como otros modelos similares, pueden ser especialmente útiles para ilustrar contenidos profesionales, como la imagen de portada de un artículo —algo que hemos hecho en varias ocasiones en Hipertextual—, o, incluso, una escena de un vídeo. Esto último es, precisamente, lo que ha hecho el cantante Rayden en su último videoclip.

El vídeo musical de ‘Multiverso’, single principal del cantante para su próximo álbum, es, de hecho, uno de los mejores ejemplos de lo que una IA como DALL-E 2 puede hacer, pese a tener múltiples limitaciones.

El videoclip, en concreto, narra la historia de lo que podría haber pasado si Rayden hubiese tomado diferentes decisiones a lo largo de su vida; un concepto que durante los últimos meses hemos visto en diferentes películas. Lo interesante, no obstante, está en una escena que hace un claro guiño a Todo a la vez en todas partes y que está producida casi en su totalidad mediante la inteligencia artificial de OpenAI.

YouTube video

Sucede casi al final del vídeo. Y, en esta, podemos ver a Rayden conectar con sus diferentes multiversos. Cada fotograma es una versión totalmente distinta del cantante. Es, precisamente, una escena cuya grabación tradicional —llamémoslo así—, podría haber resultado muy compleja.

De hecho, tal y como ha detallado a Hipertextual Joaquín Reixa, de Omglobal y quien ha dirigido el videoclip de Rayden, filmar los poco más de 10 segundos que dura la escena podría haberse realizado de dos maneras. “Una era creando de cero las imágenes, bien de forma digital, o bien caracterizando a Rayden y haciendo fotos de cada momento”, detalla. La segunda, y la escogida, era utilizando inteligencia artificial. 

Rayden, un croma, un trípode y 283 fotografías

Reixa subraya que usar inteligencia artificial era la manera más sencilla y barata de poder filmar esta escena. Y tal y como ha explicado Rayden a este medio, tan solo han sido necesarios tres elementos. “Lo grabamos sobre un croma, yo fijo y con un trípode con la luz en diferentes posiciones orbitando para luego poder incrustar mis facciones en inteligencia artificial”, ha destacado el cantante. El resultado bruto, por tanto, es una secuencia compuesta por 283 imágenes en las que aparece Rayden con una luz que va moviéndose alrededor de su cara para simular un vídeo en movimiento.

Después, esas 283 imágenes se procesan, una a una, a través de DALL-E, en la opción que permite subir tu propia imagen y con el objetivo de que genere una nueva fotografía. Para conservar el rostro de Rayden se utiliza una herramienta de la propia plataforma, que permite limitar aquellas áreas de la imagen para que la IA no cree su propio diseño sobre ellas. “Le metíamos en DALL-E 2, le pintábamos lo que no queríamos que eliminase, y le metíamos cosas locas. Algunas de ellas generadas por la propia inteligencia artificial”, menciona Reixa.

El resto del proceso, eso sí, no es tan sencillo como podíamos esperar. DALL-E 2 es conocida por generar imágenes mediante una breve descripción de texto, pero estas, en algunas ocasiones, pueden no adaptarse a las necesidades de cada proyecto. Por ejemplo, para el videoclip, Reixa necesitaba que las imágenes estuviesen adaptadas a un formato más alargado. DALL-E, sin embargo, únicamente las ofrece en un formato cuadrado. Para transformar la relación de aspecto, por tanto, es necesario utilizar herramientas adicionales.

Photoshop y su herramienta de IA para hacer lo que DALL-E 2 no puede hacer

En este caso, el equipo de Omglobal usó Photoshop y la función, también potenciada mediante inteligencia artificial, que permite ampliar la imagen basándose en el contenido. Aquellas fotografías con un diseño más complejo que incluso la IA de Photoshop no podía replicar y ampliar, volvían a pasar por DALL-E 2. Y, más concretamente, por su opción de extender la imagen con la finalidad de aumentar su tamaño hasta poder recortar la fotografía en un formato alargado sin que pierda calidad.

“A veces la IA no es perfecta y crea cosas raras que necesitan ser pulidas”

Photoshop también permitió pulir aquellos errores que aparecían en las imágenes generadas a través de DALL-E. Entre ellos, “algún pixel blanco muy raro”, dedos que no se definen bien, etc. “A veces la IA no es perfecta y creas cosas raras que necesitan ser pulidas para entrar en un videoclip”, afirma Reixa. El último paso es volver a ordenar esas fotografías y establecer una duración de un fotograma para generar una imagen con continuidad, donde cada frame es completamente distinto, y donde también se han incluido fotogramas de otros videoclips de Rayden para darle un estilo más único. Es, además, la primera vez que se utiliza inteligencia artificial para completar una escena de un video musical en España.

La IA puede ser muy buena aliada en la producción audiovisual

Rayden, Inteligencia artificial, DALL-E 2
Rayden, en el set de grabación.

El vídeo musical de ‘Multiverso’ es, reiteramos, el mejor ejemplo de las capacidades y las aplicaciones de DALL-E 2. Esto, sin embargo, es solo una pequeña parte de lo que puede hacer la inteligencia artificial en este tipo de contenidos. Hay, incluso, plataformas que hacen uso de diferentes modelos de inteligencia artificial para generar vídeos desde cero.

Una de ellas es QuickVid, que permite crear un clip guionizado gracias a ChatGPT; con voz en off, a través de la API de texto a voz de Google Cloud; y con contenido multimedia, mediante DALL-E 2. De este modo, el usuario, o incluso aquellos creadores de contenido más profesionales, solo deberán introducir una breve descripción del contenido que tienen en mente y dejar que la IA haga el resto del trabajo.

Otra IA similar es la de Movio. Se trata de startup cuyo modelo a la creación de vídeos promocionales para empresas y que destaca por la posibilidad de utilizar humanos considerablemente realistas capaces de replicar a voz cualquier texto escrito. Tal vez es pronto para ver contenido audiovisual generado en su totalidad por una inteligencia artificial. Y es muy probable, además, que el humano todavía necesite pulir pequeños detalles que la IA podrían pasar por alto, pero no hay duda de que pueden ser muy buenas aliadas en la producción profesional.

Recibe cada mañana nuestra newsletter. Una guía para entender lo que importa en relación con la tecnología, la ciencia y la cultura digital.

Procesando...
¡Listo! Ya estás suscrito

También en Hipertextual: