Google ha demostrado en multitud de ocasiones lo que son capaces de hacer sus diferentes algoritmos de aprendizaje automático, como MUM o LaMDA, y continúa reflejando esos avances con un nuevo modelo de inteligencia artificial llamado 'Imagen'. Este, según Jeff Dean, máximo responsable de la división de IA de la compañía, promete "liberar la creatividad conjunta entre humanos y ordenadores", y es capaz de generar imágenes basándose en una simple y breve descripción de texto.
'Imagen' es muy similar a DALL-E 2, la inteligencia artificial desarrollada por Open AI (compañía fundada por Elon Musk) que también permite generar imágenes basadas en una descripción de texto. No obstante, hay varias diferencias entre ambos modelos, como el nivel de detalle y la eficiencia al crear esa imagen.
Google, en concreto, asegura que su IA ofrece resultados con un nivel de detalle mucho más precisos respecto a otros sistemas. Para comprobarlo, la compañía creó un punto de referencia llamado DrawBench, el cual compara su modelo de IA con otros similares, como VQ-GAN+CLIP, Latent Diffusion Models o, incluso, DALL-E 2, y expuso los resultados "lado a lado" para que los "evaluadores humanos" puedan diferenciarlos y escoger el más realista. Estos evaluadores, según la compañía, concluyeron que las imágenes generadas por 'Imagen' tienen una mayor calidad y una mejor "alineación imagen-texto" respecto al resto de modelos.
La IA de Google es más rápida y eficiente que otras, también entiende descripciones más complejas
'Imagen', la IA de Google que genera imágenes a partir de una breve descripción de texto, también es "más eficiente en computación, más eficiente en memoria y converge más rápido" gracias a una arquitectura propia llamada U-Net. Los resultados, por tanto, son imágenes hiperrealistas generadas de forma más precisa que cualquier otro modelo y a partir de cualquier tipo de descripción de texto.
"Un pájaro extremamente enfadado", "una foto de un mapache con casco de astronauta, mirando por la ventana por la noche" o "un cerebro montando una nave espacial en dirección a la luna", son frases que Google ha utilizado como ejemplos para demostrar lo que es capaz de hacer su modelo de inteligencia artificial. Estos son algunos que podemos encontrar en su web.
Google, por otro lado, asegura que 'Imagen' también puede crear imágenes con descripciones basadas en lugares específicos o, incluso, con textos enrevesados. Por ejemplo, si el usuario escribe "Un Procyon lotor (mapache) proponiendo matrimonio a un Phascolarctos cinereus (koala) en DisneyLand", la IA de la compañía debería crear una imagen en base a esta descripción y entender los nombres científicos de ambos animales, así como el lugar.
'Imagen' por el momento, es un proyecto interno y no está disponible para el público, pues puede dar lugar a la creación de imágenes que contengan "estereotipos y representaciones perjudiciales", destaca la compañía.
'Imagen' se basa en codificadores de texto entrenados en datos a escala web no curados y, por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos lingüísticos. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones perjudiciales, lo que guía nuestra decisión de no liberar Imagen para uso público sin más salvaguardias.
Google.