Era solo cuestión de tiempo hasta que Meta se lanzara al ámbito de la creación de vídeos con inteligencia artificial, y ahora ha dado ese paso de la mano de Movie Gen. La firma de Menlo Park anunció una nueva colección de modelos de IA que pueden generar clips hiperrealistas —y con audio— a partir de una descripción de texto.

Meta Movie Gen quiere ganarse un espacio en un segmento que ya tiene exponentes interesantes como Sora, de OpenAI, y Gen-3 Alpha, de Runway. La nueva herramienta de los dirigidos por Mark Zuckerberg se compone de dos modelos fundacionales: Movie Gen Video, de 30.000 millones de parámetros, y Movie Gen Audio, de 13.000 millones de parámetros.

Según explica Meta, el funcionamiento de Movie Gen es bastante similar al de otras utilidades de este tipo. Con solo una descripción de texto es posible crear un vídeo de entre 4 y 16 segundos de duración, a 16 cuadros por segundo. La IA también permite editar clips ya existentes utilizando diferentes prompts de texto, o incluso crear vídeos personalizados subiendo una foto del usuario.

El propio Zuckerberg entregó un primer vistazo a las capacidades de Meta Movie Gen a través de una publicación en Instagram. En ella se lo ve haciendo ejercicio, mientras distintos elementos del fondo, su ropa o los aparatos van cambiando según lo que se le pide a la inteligencia artificial.

Más allá de que los vídeos creados con Movie Gen son breves, lo que llama la atención es que Meta se haya inclinado por hacerlos a 16 FPS. Otro punto a tener en cuenta es que, si bien la empresa dice que el material tiene calidad Full HD, esto se debe tomar con pinzas.

Meta Movie Gen puede crear vídeos realistas a partir de texto

Meta Movie Gen puede crear vídeos en diferentes relaciones de aspecto (1:1, 16:9, etc.), pero el material original es generado con una resolución de 768 x 768 píxeles. El clip luego se escala a 1080p y se ajusta a la relación de aspecto requerida.

Uno de los principales elementos diferenciadores de Meta Movie Gen es su habilidad de generar sonidos para los vídeos en cuestión. Tengamos en cuenta que herramientas como Sora, por ejemplo, no ofrecen esta posibilidad. Según explican sus creadores, el modelo de 13.000 millones de parámetros puede usar un vídeo y una descripción en texto para generar una pista de audio que se acople a lo que sucede en la imagen.

Entre los ejemplos que compartió Meta se observa un quad acelerando y dando un salto, escuchándose el ruido del motor de fondo junto con música. Asimismo se puede ver una serpiente moviéndose entre la vegetación, con el ruido de las hojas y el acompañamiento musical correspondiente también creados con IA.

Los clips de audio que puede generar Meta Movie Gen tienen una duración de hasta 45 segundos y abarcan tanto efectos de sonido, como sonidos de ambiente y música instrumental. Lo que no se soporta es la generación de voces o diálogos, lo cual seguramente responda a cuestiones de seguridad para evitar deepfakes.

La nueva IA de Meta llegará a Instagram el próximo año

En cuanto a los materiales usados para entrenar Meta Movie Gen, los de Menlo Park indican que se utilizó "una combinación de sets de datos licenciados y disponibles públicamente", sin brindar mucho más. La compañía ha publicado un extenso paper de investigación con detalles más técnicos sobre el funcionamiento de los modelos.

Y si bien Zuckerberg indicó que la herramienta llegará a Instagram —y seguramente a las demás apps con soporte para Meta AI— en 2025, Meta no planea liberar el código fuente de Movie Gen, como sí ha hecho con los de los modelos Llama.