Google ha dedicado el inicio de su presentación en I/O 2024 para hablar de los adelantos en inteligencia artificial. Uno de los más notables es Project Astra, definido por DeepMind como "el futuro de los asistentes".

De acuerdo con Demis Hassabis, cofundador de Google DeepMind, el objetivo de los ingenieros siempre ha sido construir un agente de IA universal que sea útil en todos los aspectos de la vida cotidiana. "Un agente como estos debe entender y responder a un mundo complejo y dinámico, tal como lo hacemos nosotros", dijo Hassabis. "Deberá recordar lo que ve para entender el contexto y adoptar medidas".

Este agente gozaría de todas las características que siempre hemos buscado en un asistente personal. Sería capaz de mirar, aprender y conversar con nosotros en tiempo real, sin retrasos. Esto último es uno de los retos más importantes para DeepMind, aunque han logrado un avance significativo.

Project Astra es un nuevo proyecto a futuro basado en agentes de IA. El primer prototipo permite reconocer objetos con la cámara del móvil. El usuario le pide que identifique objetos que produzcan sonido, que señale partes de un altavoz e incluso que responda de manera creativa sobre unos crayones. Tal vez lo más sorprendente es que el asistente también puede reconocer código en una pantalla de ordenador y explicar su funcionamiento, o ubicar el lugar de la ciudad en donde te encuentras con solo mirar por la ventana.

La demostración de Project Astra va más lejos y muestra la interacción con otros dispositivos. En algún momento, el usuario cambia el móvil por unos anteojos inteligentes que tienen integrado al asistente potenciado por Gemini. A primera vista se trata de las Google Glass con AR que se mostraron en 2022.

YouTube video

Qué se esconde detrás de Project Astra

Durante su participación en I/O 2024, el cofundador de DeepMind reveló que Project Astra está impulsado por la inteligencia artificial de Gemini.

Los ingenieros de Google desarrollaron agentes que pueden procesar la información más rápido al codificar continuamente fotogramas de video, combinando la entrada de video y voz en una línea de tiempo de eventos y almacenando en caché esta información para recuperarla de manera eficiente

"Estos agentes pueden comprender mejor el contexto en el que te encuentras y pueden responder rápidamente en una conversación", dijo Hassabis. "Con tecnología como esta, es fácil imaginar un futuro en el que las personas puedan tener un asistente experto en IA a su lado, a través de un teléfono o unas gafas"

Project Astra todavía se encuentra lejos, aunque algunos de estos avances llegarán a la app de Gemini y la versión web a finales de año.