Microsoft anuncia su propia DALL-E: lo sorprendente es que puede hasta crear vídeos o expandir imágenes

DALL-E, de OpenAI, no es la única inteligencia artificial capaz de generar imágenes a través de una breve descripción de texto. Google también presentó hace unas semanas 'Imagen', una alternativa a la IA de la compañía fundada por Elon Musk (entre otros) que, según la propia firma de Mountain View, es capaz de crear diseños mucho más realistas y de mayor calidad. Ahora, a la competición se ha unido Microsoft. Lo hace con NUWA-Infinity, una IA que no solo es capaz de producir imágenes a partir de texto, sino también de convertir un diseño estático en un vídeo.

Microsoft describe NUWA como "un modelo generativo multimodal diseñado para generar imágenes y videos de alta calidad a partir de una entrada de texto, imagen o video determinada". Su funcionamiento, por tanto, no difiere mucho de lo que puede hacer DALL-E o, incluso, Imagen (Google). No obstante, tiene una serie de ventajas respecto a ambos modelos de inteligencia artificial. Es la única IA que puede generar un vídeo a partir de una imagen creada mediante una descripción de texto. La IA, además, también puede generar vídeo directamente a través de una descripción.

"En comparación con DALL-E, Imagen y Parti, NUWA-Infinity puede generar imágenes de alta resolución con tamaños arbitrarios y admitir además la generación de vídeo de larga duración".

NUWA, la IA de Microsoft también puede extender cualquier tipo de imagen

NUWA, la IA de Microsoft que genera imágenes y vídeos a partir de una descripción de Texto, también es capaz de "extender" cualquier imagen y crear una de mayor tamaño y resolución. La inteligencia artificial, en concreto, detecta la información que se muestra en la fotografía original y, a partir de los parámetros de esta, genera otra mucho más completa. NUWA, por ejemplo, puede extender 'La noche estrellada', la obra de Vincent van Gogh. Lo hace, además, con un detalle idéntico al que se presenta en el diseño original y una continuación muy precisa.

Microsoft, por el momento, no ha ofrecido más detalles de NUWA, más allá de algunos ejemplos que muestran el potencial de esta IA y cómo es capaz de convertir un texto en imagen, una imagen en vídeo, o un texto en vídeo, así como la posibilidad de expandir cualquier diseño. Es, sin duda, una opción interesante a DALL-E e Imagen, aunque ambos algoritmos también tienen sus ventajas.

Imagen, por ejemplo, genera diseños mucho más realistas, aunque todavía no está disponible para los usuarios. DALL-E, en cambio, ofrece imágenes menos realistas, pero es más accesible para los usuarios, pues está disponible a través de una beta pública —aunque con un acceso limitado–.

github: https://t.co/LKjrX23T3o pic.twitter.com/rqObJvbeor
— AK@ICML (@_akhaliq) July 21, 2022