Stable Virtual Camera: la IA que genera videos 3D a partir de imágenes

Stability AI, los creadores de Stable Diffusion, presentaron un nuevo modelo de lenguaje capaz de generar videos con profundidad. Conocida como Stable Virtual Camera, esta IA promete transformar imágenes 2D en videos 3D inmersivos con profundidad y perspectiva realistas. El modelo permite el control dinámico de la cámara, ofreciendo trayectorias predefinidas y personalizadas sin necesidad de un preprocesamiento complejo para cada escena.

De acuerdo con una publicación en su blog oficial, Stable Virtual Camera se centra en el uso de cámaras virtuales, un componente esencial en la animación 3D. Estas cámaras permiten capturar y navegar por escenas en tiempo real, ofreciendo encuadres personalizados. La ventaja de esta IA es que puede generar videos 3D fluidos a partir de una sola imagen de entrada (o un máximo de 32 imágenes), a diferencia de los modelos de video 3D que requieren un conjunto de datos extenso.

Una de las innovaciones más significativas de Stable Virtual Camera es su capacidad para mantener la consistencia 3D en secuencias de video extensas. El modelo puede producir videos de hasta 1.000 fotogramas, compatibles con diversas relaciones de aspecto, como cuadrado (1:1), vertical (9:16) y horizontal (16:9). Esta consistencia garantiza transiciones fluidas y la posibilidad de reproducir videos en bucle sin artefactos perceptibles, incluso al revisar perspectivas anteriores.

Cómo funciona Stable Virtual Camera

El modelo de Stability AI ofrece diversas opciones de control dinámico de cámara, entre las que se incluyen:

Rotación de 360°: Permite vistas circulares completas alrededor de un punto focal.
Lemniscata (∞): Sigue una trayectoria en forma de ocho para una exploración dinámica de la escena.
Espiral: Se mueve en una trayectoria helicoidal para enfatizar la profundidad.
Dolly Zoom In/Out: Crea un efecto de zoom cinematográfico con distancias focales variables.
Panorámica y balanceo: Permite movimientos horizontales, verticales y rotatorios.
Avanzar/Retroceder: Simula el avance o retroceso en la escena.

Los usuarios pueden combinar estos movimientos para crear trayectorias personalizadas, logrando un movimiento de cámara fluido y natural. Esta posibilidad de navegar y manipular la cámara resulta especialmente atractiva para cineastas, animadores e investigadores.

Notable, más no perfecto

Si bien Stable Virtual Camera representa un avance en la generación de video 3D, presenta algunas limitaciones. El modelo puede producir resultados de menor calidad al procesar imágenes de personas, animales o texturas dinámicas como el agua. Asimismo, pueden aparecer artefactos de parpadeo cuando las trayectorias de la cámara se cruzan con superficies complejas o cuando el punto de vista objetivo difiere significativamente de las imágenes de entrada.

Stability AI ha revelado que su nuevo modelo se ofrece bajo una licencia no comercial, lo que permitirá a cualquiera experimentar con él y mejorarlo sobre la marcha. Stable Virtual Camera está disponible gratuitamente a través de Hugging Face, mientras que los desarrolladores pueden descargar el código directamente desde GitHub.