La IA de Gemini genera imágenes con «imprecisiones históricas»

En los últimos días, varios usuarios han compartido imágenes generadas con Gemini, la inteligencia artificial de Google. Algunas de ellas han dado de qué hablar, puesto que exponen algunas «imprecisiones históricas» y de contexto. Por ejemplo, una persona le pidió a la herramienta que ilustrara a un rey medieval de Inglaterra. En respuesta, la IA mostró un monarca negro.

Tras los señalamientos, Jack Krawczyk, responsable de supervisar el desarrollo de Gemini, declaró que se trata de «imprecisiones en representaciones de imágenes históricas», pero ya trabajan para solucionarlo de inmediato.

Google lanzó Gemini, su sistema de inteligencia artificial más potente, en diciembre pasado. Desde entonces, ha incorporado versiones del modelo en varias de sus herramientas. Entre ellas, su chatbot, que antes se llamaba Bard, pero que desde este mes también se llama Gemini.

En una de las últimas actualizaciones, Google habilitó la función de crear imágenes a partir de instrucciones de texto. La herramienta no reconoce todavía solicitudes en español, pero puedes hacer el pedido en inglés y así generar contenido con inteligencia artificial en cuestión de segundos. El único inconveniente tiene que ver con las imágenes históricas.

«Los contextos históricos tienen más matices y los afinaremos aún más para adaptarnos a ellos», explicó Krawczyk en su perfil en X (antes Twitter). Y agregó: «Esto es parte del proceso de alineación: iteración con base en la retroalimentación».

¿Por qué la inteligencia artificial de Google genera estas imágenes?

Google explicó que parte de los principios de la inteligencia artificial detrás de Gemini es reflejar su base de usuarios global. Es decir, que los contenidos como las imágenes reflejen diversidad étnica, de género y edad, entre otros aspectos. «Nos tomamos en serio la representación y el sesgo», resaltó Krawczyk.

We are aware that Gemini is offering inaccuracies in some historical image generation depictions, and we are working to fix this immediately.

As part of our AI principles https://t.co/BK786xbkey, we design our image generation capabilities to reflect our global user base, and we…
— Jack Krawczyk (@JackK) February 21, 2024

Los sesgos es, precisamente, uno de los señalamientos más importantes en contra de las herramientas de inteligencia artificial generativa. Y es que lo pueden llegar a hacer muy mal. Bloomberg, por ejemplo, revisó más de 5.000 imágenes creadas con Stable Diffusion, otro de los modelos más famosos y avanzados actualmente. El análisis, publicado en junio de 2023, descubrió que este sistema creaba imágenes estereotipadas basadas en prejuicios racistas y machistas.

Stable Diffusion mostró mayoritariamente hombres blancos cuando el equipo de Bloomberg le pidió que dibujara a políticos, abogados, jueces y CEO. Tal era el sesgo que la inteligencia artificial ni siquiera reflejaba las desigualdades que existen en la realidad, sino que las llevaba al extremo. La subrepresentación en términos de género y etnia se invertía cuando le pedían a la herramienta que genera grupos criminales o profesiones menos valoradas socialmente.

Uno de los principios de Google para el desarrollo de su inteligencia artificial es «evitar crear o reforzar prejuicios injustos». En su declaración de valores para esta tecnología, la tecnológica reconoce que «distinguir los prejuicios justos de los injustos no siempre es sencillo y difiere según las culturas y sociedades». Pero se compromete a trabajar con especial atención cualquier «característica sensible», como etnia, género, nacionalidad y orientación sexual, entre otros.

Este principio en contra de los estereotipos es lo que lleva a Gemini a crear imágenes que reflejen la diversidad de etnias y géneros, sean representaciones actuales o históricas. «Continuaremos haciendo esto para indicaciones abiertas (¡las imágenes de una persona paseando a un perro son universales!)», dijo Krawczyk. Pero, según dijo, pronto no podrás pedirle al chatbot de Google que cree un rey medieval negro.

La inteligencia artificial de Gemini está creando imágenes con «imprecisiones históricas»

¿Por qué la inteligencia artificial de Google genera estas imágenes?

También en Hipertextual: