DALL-E mini, la IA de código abierto para crear imágenes a partir de texto

Crear imágenes realistas a partir de texto y en pocos segundos, eso es lo que propone DALL-E. El modelo de inteligencia artificial de OpenAI ha probado ser realmente espectacular; y DALL-E 2 está en boca de todos porque es capaz de generar imágenes realistas y arte a partir de una descripción en leguaje natural, comprendiendo exitosamente —y con originalidad— hasta las órdenes más complejas y retorcidas que podamos imaginar. Es, sin dudas, una maravilla tecnológica; pero no está al alcance de cualquiera. Hasta el momento solo se le ha permitido el acceso a un número muy limitado de personas, pero afortunadamente existen proyectos que buscan remediarlo. Entre tantos se destaca DALL-E mini.

DALL-E mini es una reproducción de DALL-E, pero de código abierto. Lo que propone esta herramienta, desarrollada por Boris Dayma, es que cualquier persona pueda crear sus propias imágenes originales a partir de una descripción en texto. Y al ser open source, cualquier desarrollador puede acceder al repositorio en GitHub y comenzar a entrenar su propio modelo de inteligencia artificial.

De acuerdo con su creador, el entrenamiento de DALL-E mini ha consistido en exponer la IA a millones de imágenes disponibles en la web con sus respectivas anotaciones. De esta manera, a medida que "absorbe" los conceptos de cada una de ellas, aprende a generar nuevas imágenes según lo que se solicite a través de una orden en texto. Vale aclarar, de todos modos, que el proyecto sigue en etapa de entrenamiento, aunque los primeros resultados son interesantes.

Algunos de los conceptos se aprenden de memoria ya que pueden haber sido visto en imágenes similares. Sin embargo, también puede aprender a crear imágenes únicas que no existen, como "la torre Eiffel aterrizando en la Luna", combinando varios conceptos.
Boris Dayma, creador de DALL-E mini

DALL-E mini ofrece buenos resultados, pero aún le falta camino por recorrer

Que quede claro, DALL-E mini tiene un potencial espectacular y los resultados que ofrece ante las descripciones que le presentamos están bien. Pero no esperes que funcione al mismo nivel que la inteligencia artificial de OpenAI, al menos por ahora. Y es lógico que así ocurra, pues estamos hablando de iniciativas gestadas con escalas y recursos muy diferentes entre sí.

Eso le da un valor incluso más importante a DALL-E mini, pese a los problemas con los que podamos encontrarnos al probarla. A continuación pueden ver los resultados que obtuvimos con "Homer Simpson playing football" (Homer Simpson jugando al fútbol). Si decimos que los resultados son surrealistas, probablemente nos quedemos cortos.

Otro punto interesante es que los comandos en texto no necesariamente deben estar en inglés. Obtuvimos resultados muy similares en español, en este caso con "Homer Simpson jugando al tenis".

Y aquí puedes ver lo que se generó con "a dog using a computer" (un perro usando un ordenador).

Mientras que si las descripciones se vuelven todavía más complicadas, DALL-E mini aún no logra dar en la tecla con la generación de imágenes. Cuando ingresamos "a horse riding a motorcycle under the rain" (un caballo montando una motocicleta bajo la lluvia), ha quedado en evidencia que aún debe pulir unos cuantos detalles del resultado final.

Volvemos sobre lo mismo: el potencial está ahí. DALL-E mini es capaz de reconocer las piezas que forman parte del "rompecabezas" que le proponemos en cada descripción de texto; una vez que la inteligencia artificial ajuste las tuercas para unir todo en una imagen de calidad, dará el salto evolutivo definitivo.

El verdadero poder de DALL-E mini es que es un proyecto independiente y de código abierto que seguro mejorará a medida que más gente lo use. Si quieres probarlo, puedes hacerlo en este enlace. Ten en cuenta que puedes recibir alertas frecuentes de exceso de tráfico, y que las imágenes finales aún no se pueden guardar con gran calidad.

DALL-E mini, así es la IA de código abierto que te permite crear imágenes a partir de texto y sin esperar una invitación

DALL-E mini ofrece buenos resultados, pero aún le falta camino por recorrer

One reply on “DALL-E mini, así es la IA de código abierto que te permite crear imágenes a partir de texto y sin esperar una invitación”