Meta no quiere ceder terreno a Google y Microsoft en la carrera por crear la mejor inteligencia artificial. Para mostrar que su compromiso va en serio, la empresa de Mark Zuckerberg presentó ImageBind, un modelo de IA que busca aprender del mismo modo que los seres humanos. Para ello, los ingenieros de Meta adoptaron un esquema multisensorial que involucra imágenes, texto, video y audio, así como también datos de profundidad, térmicos y de inercia.
ImageBind es parte de la iniciativa de Meta de crear sistemas multimodales que puedan aprender de diversos tipos de datos. El modelo de IA no solo comprende un elemento, sino que es capaz de enlazarlo con otras características. Por ejemplo, será capaz de determinar el sonido, forma, temperatura y el modo como se mueven los objetos de una fotografía.
"En los sistemas típicos de IA, existe una incorporación específica (es decir, vectores de números que pueden representar datos y sus relaciones en el aprendizaje automático) para cada modalidad respectiva. ImageBind muestra que es posible crear un espacio de incorporación conjunto a través de múltiples modalidades sin necesidad de entrenar en datos con cada combinación diferente de modalidades."
Meta
La empresa asegura que ImageBind supera a otros modelos entrenados para una modalidad en particular. A diferencia de las IA generativas como ChatGPT o Midjourney, la alternativa de Meta vincula seis tipos de datos en un índice multidimensional. Los investigadores podrían usar cualquiera de estos como método de entrada, o realizar una referencia cruzada de ellos.
La IA de Meta aprende por asociación
Una de las características de ImageBind es que utiliza un concepto de aprendizaje similar al de las personas. "Cuando los humanos absorben información del mundo, usamos múltiples sentidos de manera innata", dijo Meta. La empresa dice que los seres humanos somos capaces de generar experiencias sensoriales al visualizar una imagen. Por ejemplo, al ver la foto de un Ferrari podrías pensar en el sonido del motor o la velocidad a la que viaja.
"ImageBind usa la propiedad vinculante de las imágenes, lo que significa que coexisten con una variedad de modalidades y pueden servir como un puente para conectarlas, como vincular texto a imagen usando datos web o vinculando movimiento a video usando datos de video capturados de cámaras portátiles con sensores IMU."
Meta
La investigación arrojó que el modelo de Meta puede mejorar usando pocos ejemplos de entrenamiento. Aunque los primeros resultados son prometedores, todavía falta un tiempo para que veamos aplicaciones al estilo ChatGPT usando ImageBind. No obstante, eso no ha impedido que la empresa hable sobre las posibilidades que tendrían las personas al usarla.
Por ejemplo, ImageBind sería capaz de generar una pista de audio adecuada para un video del mar que grabaste durante tus vacaciones. O una experiencia en realidad virtual que simula que viajas en un bote y agrega todos los elementos necesarios para volverla inmersiva. Los diseñadores podrían crear cortos animados basándose en una imagen y un archivo de sonido.
Meta anunció que ImageBind será de código abierto, por lo que los interesados podrán acceder al repositorio en GitHub. A diferencia de OpenAI, el gigante tecnológico confirmó que mantendrá su estrategia de abrir el código a todos con el fin de mejorarlo o detectar fallos.