La inteligencia artificial ayudará a personas ciegas a ver el mundo

Los desarrolladores están aprovechando la inteligencia artificial multimodal para generar soluciones dirigidas a las personas ciegas. Estos sistemas tienen la capacidad de procesar texto e imágenes y, a partir de estos datos, generar respuestas conversacionales. Las herramientas que utilizan esta tecnología pueden describir con más precisión y en tiempo real detalles visuales del entorno. El resultado: una mayor independencia para las personas con esta condición.

Envision, por ejemplo, se lanzó en 2018 como una aplicación para teléfonos que permitía leer textos en imágenes. Desde 2021 estuvo disponible para Google Glass. Y este año, en mayo, anunció el lanzamiento de Ask Envision, un asistente visual virtual basado en GPT-4, el modelo creado por OpenAI y que impulsa el famoso ChatGPT.

Ask Envision puede reconocer caras, objetos, colores e incluso describir escenas alrededor del usuario. Es capaz, por ejemplo, de leer un menú y responder preguntas sobre precios, restricciones dietéticas o variedad de postres. Incluye también una opción para videollamadas a familiares y amigos.

Richard Beardsley, uno de los primeros en probar Ask Envision, tiene incorporada la herramienta en sus Google Glass. Contó a Wired que para él es fundamental tener esta opción «manos libres». Gracias a esto, puede escanear un texto mientras sostiene la correa de su perro guía. «Tener esto realmente hace la vida mucho más fácil», dijo Beardsley.

El reconocimiento facial de esta inteligencia artificial permite a los usuarios saber quién está en la habitación. También traduce textos en 60 idiomas y puede reconocer billetes en más de 100 monedas.

Otros asistentes de inteligencia artificial para personas ciegas

Envision no es la única opción. Be My Eyes (Sé mis ojos) es otra aplicación orientada a personas ciegas o con problemas de visión que ya abrazó la inteligencia artificial. Al principio, solo funcionaba como una plataforma que conectaba a voluntarios con personas con déficit de visión para apoyarles en tareas cotidianas: el reconocimiento de colores, comprobar si las luces están encendidas o preparar la cena.

Be My Eyes presentó hace poco una nueva integración con GPT-4. Los usuarios pueden enviar imágenes a través de la aplicación a un asistente virtual. Sus desarrolladores explican que una persona puede, por ejemplo, enviar una foto del interior de su refrigerador. La inteligencia artificial responderá, no solo identificando lo que contiene, sino también con una propuesta de recetas que se pueden preparar con esos ingredientes. Le asistirá, además, paso a paso en la preparación de la comida.

Interfaz del asistente virtual para personas ciegas de Be My Eyes.

Sina Bahram, informático con ceguera y consultor en accesibilidad de empresas como Google y Microsoft, contó a Wired que hace dos semanas iba caminando por una calle de Nueva York con un acompañante. En un momento, la otra persona se detuvo para ver algo más de cerca. Bahram aprovechó Be My Eyes y así supo que su acompañante estaba viendo una colección stickers, algunos de dibujos animados y otros con textos. Esto «es algo que no existía hace un año fuera del laboratorio... Sencillamente, no era posible», contó.

Ahora Microsoft está probando la versión beta de la aplicación. «Be My Eyes ha jugado un papel importante en mejorar la forma en que Microsoft puede brindar un soporte técnico efectivo, que incluye a todos nuestros clientes y sus necesidades», dijo Neil Barnett, director de Contratación Inclusiva y Accesibilidad de la firma tecnológica. La Federación Nacional de Ciegos de Estados Unidos también se ha asociado con esta iniciativa.

Microsoft también lanzó este año su propia aplicación: Seeing AI. La presentó como una herramienta gratuita «que narra el mundo que te rodea». Está disponible en varios idiomas y ofrece funciones similares de reconocimiento visual.

Los riesgos a tener en cuenta

Los riesgos asociados a estas herramientas son los mismos identificados hasta el momento para la inteligencia artificial. Danna Gurari, profesora adjunta de Informática en la Universidad de Colorado en Boulder, explicó a Wired que ha comprobado cómo algunos sistemas de apoyo para personas con ceguera pueden inventar información. Lo mismo que se ha reportado para modelos como ChatGPT o Bard.

Gurari organiza un taller llamado "Viz Wiz" en la conferencia Computer Vision and Pattern Recognition, que reúne a investigadores de inteligencia artificial y usuarios de tecnología que padecen ceguera. En 2018 convocó solo cuatro equipos. Este año, se inscribieron más de 50.

«La mayor parte de lo que se les puede confiar son solo los objetos de alto reconocimiento, como un automóvil, una persona o un árbol», señaló la experta. No es menor cosa. «Cuando las personas con ceguera reciben esta información, sabemos por entrevistas previas que prefieren algo a nada».

Pero el mayor problema está en cuando se confía en estas herramientas para tomar decisiones más delicadas. Por ejemplo: qué medicamento tomar. El uso de estos modelos de lenguaje también dejaría expuestas a las personas ciegas a los sesgos étnicos o de géneros detectados en la inteligencia artificial.