OpenAI, compañía fundada por Elon Musk para el desarrollo de la inteligencia artificial, tiene una nueva herramienta. Tras el exitoso DALL-E —la IA generadora de imágenes— y ChatGPT, su contraparte orientada a la generación de textos y respuestas naturales, ahora estrenan Point-E. Su propósito es muy claro: revolucionar el mundo del modelado 3D.
A día de hoy, la industria de las imágenes 3D generadas por ordenador constituye una de las más grandes. Se usan en casi todo lugar. En la construcción y diseño arquitectónico, producción de películas y series, videojuegos y mucho más. Con Point-E, OpenAI promete revolucionar la utilización y desarrollo de estos modelos tridimensionales, facilitando su creación de forma dramática.
Si bien OpenAI no es la primera en desarrollar una inteligencia artificial capaz de generar imágenes 3D, sí que es una de las propuestas más llamativas. A diferencia de competidores como DreamFusion de Google, Point-E es una herramienta mucho más ligera en el consumo de recursos. Así, es capaz de ofrecer resultados en un tiempo bastante menor.
Point-E puede producir "nubes de puntos 3D" que generan la imagen deseada. De esta forma, reducen el tiempo de espera de competidores que usualmente tardaban horas en mostrar un resultado, a un minuto o dos para cada modelo generado.
"Nuestro método genera primero una vista sintética única utilizando un modelo de difusión de texto a imagen y, a continuación, produce una nube de puntos 3D utilizando un segundo modelo de difusión que condiciona la imagen generada."
OpenAI
Point-E, una tecnología de generación de modelos 3D que se basa en tecnologías más tradicionales
La tecnología utilizada para conseguir los resultados en Point-E es bastante impresionante. El modelo bebe directamente de otros más tradicionales de imágenes 2D, como DALL-E y Craiyon —anteriormente conocido como DALL-E mini—. Estos últimos se han vuelto notablemente populares en los últimos tiempos, dejando cada vez más sorprendidos a los usuarios de internet con su capacidad de generación.
Point-E se basa en estos modelos. Genera un gran compendio de imágenes a través de texto, para seguir instrucciones más diversas y complejas. A partir de esto, utiliza un conjunto de datos más pequeño de pares para generar la nube de puntos que dará forma a la geometría del objeto 3D. Lo mejor de todo es que todos estos pasos se realizan en cuestión de segundos, y es bastante ligero en consumo de recursos y optimización.
Si quieres generar, por ejemplo, la imagen de un gato con auriculares, solo tienes que pedírselo a Point-E. Posteriormente, se generará una vista sintética en 3D del gato con auriculares, para después crear una nube de puntos RGB en 3D de la imagen inicial. Primero, se produce un modelo de nube bastante grueso, con 1.024 puntos, a partir del cual se generará uno más fino de 4.096 puntos.
"Aunque nuestro método obtiene peores resultados en esta evaluación que las técnicas más avanzadas, produce muestras en una pequeña fracción del tiempo."
Equipo de OpenAI
El código fuente del proyecto ya se encuentra disponible en Github, así que si quieres echarle un vistazo, únicamente debes dirigirte al repositorio. Solo es cuestión de tiempo que veamos nuevas propuestas basadas en Point-E, y cada vez más capaces de generar imágenes tridimensionales en pocos minutos.