Es curioso cómo el advenimiento de la inteligencia artificial parece estar llegando por el lado que no esperábamos. Los intentos para que una IA nos ayude a conducir vehículos autónomos o sea el cerebro de robots que nos sustituyan en las tareas más repetitivas —con las implicaciones laborales que eso tiene—, parecen estar todavía lejos de llegar. Al menos, de forma masiva. Sin embargo, las imágenes que estas últimas semanas han recorrido internet con creaciones realizadas por DALL-E 2 e IMAGEN, las dos IA generativas más potentes jamás creadas, nos indican que, si en algo sí que parece que se está acercando la IA a los humanos no es en tareas mecánicas para darnos tiempo libre, sino en las más creativas.

DALL-E 2 es la segunda versión de la IA generativa creada por OpenAI, empresa fundada en sus orígenes por Elon Musk, quien luego saldría de su dirección, y que ha recibido una importante financiación por parte de Microsoft. DALL-E 2 funciona trabajando con bases de datos ingentes de las que es capaz de extraer y reconocer referencias tanto en texto como en imagen, formulando resultados que dejan con la boca abierta; en una mezcla de estupefacción y temor.

Esta es una de las varias opciones que da a la respuesta que DALL-E 2 da a la frase “osos de peluche trabajando en un laboratorio con estética steampunk”.

"Lo que parece evidente es que propuestas como DALL-E 2 van a convulsionar industrias enteras. La primera que viene a la mente es la de las imágenes de stock. Si con solo una frase podemos tener decenas de resultados, algunos realistas, otros en forma de ilustración, de fantasía, los bancos de imágenes pierden mucha relevancia, explica a Hipertextual Javier Ideami, ingeniero informático que ha desarrollado toda su carrera con un pie en lo técnico y otro en lo artístico, y que ahora mismo anda inmerso en las posibilidades de las IA generativas con su propia propuesta, Geniverse.co, una especie de lienzo digital que también devuelve imágenes partiendo de nuestras indicaciones.

A ello se ha sumado IMAGEN, un proyecto similar por parte de Google que se ha dado a conocer también estos días, en su caso mucho más enfocado a la generación de imágenes con enfoque realista.

“Creo que en muy pocos años, cuando estas tecnologías sean de dominio público y estén integradas en todos los dispositivos que usamos (inclusive los móviles), van a ser un agente del cambio con consecuencias que a día de hoy es muy difícil de predecir”, apunta por su parte Javier López, fundador de Erasmusu y que en los últimos tiempos se ha interesado e investigado en las posibilidades que ofrece estas nuevas formas de generación de imágenes.

Con ellos dos vamos a hacer un recorrido por cómo funciona DALL-E 2 y los retos y oportunidades que plantea.

“Funciona de forma similar al cerebro humano cuando evocamos recuerdos”

Imagen generada por DALL-E 2

Ideami cuenta con acceso a la beta de DALL-E, lo que le ha permitido ver todo su potencial. No la consiguió directamente a raíz de su actividad con Geniverse, sino por algo mucho más mundano. “En Miami, nos cruzamos con Sam Altman, el CEO de OpenAI, le comentamos nuestras iniciativas y nos dio acceso a la beta”.

Una IA generativa como DALL-E, funciona tomando como referencia un texto que le da un humano, una imagen de partida, o a veces ambas cosas, y se pone a identificar entre sus referencias imágenes que encajan con esas peticiones, para después transformarlas.

Ideami nos explica que el principal factor diferencial de DALL-E es el enorme dataset con el que trabaja (la cantidad de registros de los que toma información) y su forma de conectar peticiones tanto de texto y de imagen y entrelazarlas.

Lo diferencial de DALL-E es el enorme dataset con el que trabaja y cómo combina imágenes y texto al procesar

El proceso por el cual DALL-E 2 acaba generando cosas tan increíbles como las imágenes que hemos visto es realmente complejo, pero para Ideami, hay algo fundamental como punto de partida para entenderlo. “La semejanza con cómo funciona el cerebro humano a la hora de recordar es un buen punto de partida. Nosotros recogemos información en un momento dado, que almacenamos. Pasado un tiempo, evocamos esa información en forma de recuerdo. No va a ser siempre igual, sino que la vamos modificando cada vez. Trasladado a IA, parte de la información que le damos, busca en su dataset, y genera la imagen que nos da”, ejemplifica.

Metiéndonos en harina, la secuencia de DALL-E 2 funciona así:

  • Se capta la información: En primer lugar, se introduce un texto en un codificador que se entrena para asignar el texto a un espacio de representación concreto. Saber lo mejor posible qué estamos pidiendo.
  • Se busca en su enorme banco de ‘recuerdos’: A continuación, un modelo llamado prior asigna la codificación de texto a una codificación de imagen correspondiente que capta la información semántica del mensaje. La IA empieza a hacer match entre texto e imagen.
  • Se evoca la imagen: Por último, un modelo de decodificación de imágenes genera estocásticamente una imagen que es una manifestación visual de esta información semántica que entiende que le hemos dado.

Según nos sigue explicando Ideami, otro factor determinante de DALL-E es cómo consigue unir semánticamente texto e imágenes para generar mejores imágenes. Ahí entra en escena otro modelo de OpenAI llamado CLIP (Contrastive Language-Image Pre-training).

CLIP se entrena con cientos de millones de imágenes y sus subtítulos asociados, aprendiendo la relación que tiene un determinado fragmento de texto con una imagen. Es decir, en lugar de intentar predecir un pie de foto a partir de una imagen, CLIP se limita a aprender qué relación tiene un pie de foto determinado con una imagen. Este objetivo contrastivo, más que predictivo, permite a CLIP aprender el vínculo entre las representaciones textuales y visuales de un mismo objeto abstracto.

Imagen generada por DALL-E 2
Imagen generada por DALL-E 2

“CLIP es capaz de coger un montón de imágenes y de texto, trabajarlo en lo que en IA denominados un mismo espacio latente, y trabajar con ellos a nivel de alta abstracción desde el inicio”, explica el ingeniero.

Por último, entra en funcionamiento la descompresión de esa imagen para darnos el producto que vemos, que la máquina de OpenAI hace con su propio modelo de difusión, llamado GLIDE, de nuevo optimizado.

Si a estas alturas te sientes más perdido que los osos de peluche que habíamos dejado investigando una IA en la Luna durante los años 80, quizá esta infografía hecha también por Ideami te ayude:

La industria de las imágenes de stock puede ser la primera en caer por DALL-E 2

Ahora bien, ¿qué implicaciones puede tener una tecnología así? ¿Creativos, diseñadores o ilustradores deben sentirse amenazados?

Tanto Ideami como López creen que la industria de las fotos de stock es la que estaría más en la cuerda floja. Con respecto a actividades creativas, piensan que también podría obliga a una reformulación, aunque no necesariamente para mal.

“Con el tiempo, y en según qué verticales, pienso que algunos puestos de trabajo se redefinirán por completo o dejarán de existir tal y como lo conocemos. Me refiero a que en unos pocos meses o como mucho dos o tres años, cuando estás tecnologías estén algo más maduras, cualquier persona podrá generar una ilustración o fotografía de alta calidad sin necesitar un ilustrador o un fotógrafo”, argumenta López.

También puede tener un efecto directo en un mercado y concepto tan amplio como el de la propiedad intelectual. "Por otro lado, el hecho de que estos datasets se nutran de fotografías e ilustraciones de otros artistas, hará que quizás tengan que replantearse las leyes del copyright. Aunque por otro lado, cuando un humano dibuja también se inspira en obras de otros artistas… aunque ese “dataset” lo tenga en su cabeza, en vez una base de datos digital", añade López.

“Puede que contar con herramientas así limite muchas creaciones inicialmente, pero creo que también puede fomentar la creatividad en sí mismo. Que modelos como DALL-E 2 sean el punto de partida en tormentas de ideas o para llegar a un concepto. La creatividad, conforme más sabemos de ella, entendemos que va más de combinar ideas que de esta surjan porque sí”, sostiene Ideami, quien no obstante también se ha topado con algunos indicios inquietantes.

“Vi un post en Reddit de un adolescente que decía que quería estudiar arte, pero que tras ver lo que era capaz, Dall-E 2 ha decidido que no. Eso me dio que pensar que también hay que educar mucho en su función como complemento, y no como suplantador”.