OpenAI lanza ChatGPT Images 2.0 con razonamiento y texto multilingüe

OpenAI ha dado un golpe sobre la mesa con el lanzamiento de ChatGPT Images 2.0, su nuevo modelo para generar imágenes. A unas semanas de anunciar un reajuste en las prioridades, la compañía lanzó una actualización que deja atrás las limitaciones técnicas de su predecesor. La nueva versión adquiere capacidades de razonamiento profundo parecidas a las que vemos en los modelos de la serie O.

De acuerdo con una publicación en su web, la diferencia principal de ChatGPT Images 2.0 respecto a otros modelos es que ahora la IA investiga y planifica la estructura de la imagen antes de ejecutar el renderizado. La nueva arquitectura permite gestionar bloques de texto extensos, infografías y mapas con una precisión que en la versión anterior simplemente era imposible.

En términos de funciones, ChatGPT Images 2.0 puede generar texto legible en múltiples idiomas, incluyendo japonés, coreano o chino. Los usuarios podrán crear infografías, mapas, interfaces gráficas e incluso mangas. OpenAI señala que las imágenes deben funcionar como un lenguaje propio capaz de organizar y revelar información compleja, no solo como elemento decorativo.

La IA tiene la capacidad de producir imágenes con continuidad de personajes y objetos, los cuales conservan su identidad en diferentes ángulos y contextos. OpenAI señala que esta coherencia se apoya en una arquitectura que maneja razonamiento espacial complejo y perspectivas en 3D mediante instrucciones sencillas.

ChatGPT Images 2.0 "piensa" antes de generar una imagen

En el nuevo modo de Pensamiento, el sistema no se limita a dibujar a partir de un texto, sino que analiza materiales subidos por el usuario, como archivos de PowerPoint o documentos de estrategia corporativa. ChatGPT Images 2.0 identifica jerarquías de datos, logotipos y estilos específicos para transformar la información en carteles o materiales internos que conservan la precisión del contenido original.

Esta modalidad de Pensamiento es parecida a lo que vemos en ChatGPT, donde el modelo tarda más en responder porque lleva a cabo un análisis profundo sobre diseño, materiales y objetos. En contraste, el modelo base responde más rápido y es capaz de seguir instrucciones de un modo preciso con resultados finales listos para implementarlos en tus proyectos.

Otro detalle que llama la atención de ChatGPT Images 2.0 es su precisión tipográfica. El texto ha sido uno de los puntos flacos de las imágenes generadas por IA y una de las características por las que la gente fácilmente las identifica como contenido sintético. OpenAI menciona que su modelo ofrece soporte para distintos alfabetos y puede crear diagramas científicos o mapas históricos con texto totalmente legible y frases gramaticalmente correctas.

Según reporta VentureBeat, la compañía ha estado probando ChatGPT Images 2.0 en LM Arena bajo el nombre clave "duct tape". Los primeros resultados confirmaron que cuenta con una capacidad para replicar interfaces de usuario y capturas de pantalla de sitios web conocidos con un realismo extremo. Además, el modelo puede realizar búsquedas web en tiempo real para asegurar que los elementos visuales estén actualizados.

ChatGPT Images 2.0 ya está disponible para todos los usuarios

Al igual que hemos visto en otros lanzamientos, OpenAI ha lanzado ChatGPT Images 2.0 bajo tres esquemas de acceso. Los usuarios con cuentas gratuitas utilizan el modelo base, mientras que los suscriptores Plus y Pro accederán a las herramientas de razonamiento, búsqueda web y creación de múltiples imágenes. Por otro lado, los desarrolladores que tengan acceso a la API gpt-image-2 podrán crear imágenes en resolución 4K con múltiples relaciones de aspecto.

OpenAI señala que ha implementado protocolos de seguridad que incluyen marcas de agua, filtros y políticas contra contenido dañino o abusivo. Es probable que ChatGPT Images 2.0 llegue con restricciones para evitar generar contenido protegido por derechos de autor. Si tu intención es crear un manga de One Piece, es probable que tengas que pensar en alternativas para sortear los bloqueos.