El nuevo modelo de lenguaje GPT-4 de OpenAI acaba de ser anunciado este martes con importantes mejoras en su capacidad de análisis de problemas complejos y más opciones de comunicación con él. El usuario ya no estará limitado a la interacción mediante textos cortos como preguntas simples, sino que puede subir una imagen o textos de gran extensión, papers completos o incluso libros breves, para su resumen, análisis o búsqueda de patrones complejos.
Por supuesto, las capacidades intelectuales del servicio también han sido mejoradas, y OpenAI asegura que su capacidad de razonar sobre problemas complejos es ahora más humana y menos proclive a cometer errores obvios como los que hemos podido detectar en su anterior versión GPT-3.5.
OpenAI ofreció una demostración de sus capacidades y limitaciones en su canal de YouTube.
¿Qué mejoras incorpora GPT-4?
La nueva versión GPT-4 es capaz de manejar más de 25.000 palabras de texto, lo que permite casos de uso como la creación de contenidos largos, conversaciones extensas y búsqueda y análisis de documentos provistos por el usuario. Esto permite traducir documentos o simplificar el trabajo de los editores en busca de faltas de ortografía o gramaticales y redundancias. Puede servir, incluso, para detectar el estilo general o una posible autoría si se siguen expandiendo estas capacidades. Ya conocemos casos donde la inteligencia artificial ha sido empleada para rescatar y averiguar la autoría de muchos manuscritos.
OpenAI ha trabajado en su correcta alineación, el principal quebradero de cabeza de los investigadores en busca de una inteligencia artificial general, durante seis meses. Es decir, que se porte correctamente, no mienta y no dé recomendaciones dañinas a sus usuarios como a veces acababa haciendo después de “alucinar”. «GPT-4 tiene un 82% menos de probabilidades de responder a solicitudes de contenido no permitido y un 40% más de probabilidades de producir respuestas objetivas que GPT-3.5 en nuestras evaluaciones internas».
La alineación de las inteligencias artificiales es uno de los temas candentes en Silicon Valley. Para algunos investigadores, es extremadamente peligroso que estas no estén correctamente alineadas con los intereses éticos del ser humano y puedan dar información falsa o perjudicial para el conjunto de la sociedad. Sin embargo, otros opinan que una alineación muy estricta pudiere favorecer a ciertas organizaciones políticas en detrimento del interés general y el pluralismo. OpenAI aboga por ofrecer libertad al usuario dentro de un amplio espectro de lo que la humanidad puede considerar «correcto», pero para brindar esta posibilidad, necesitan ir mejorando su alineamiento, aseguró su presidente Sam Altman en numerosas ocasiones.
Al respecto, dijo que GPT-4 soporta un nuevo mensaje a través de la API para desarrolladores, que pronto se extenderá a todos los usuarios de ChatGPT, para personalizar su comportamiento. «Si quieres que la IA te conteste siempre como si fuera Shakespeare o sólo en JSON [un formato de lenguaje de datos usado en programación] podrás hacerlo con esta nueva versión». En la demostración, se mostró un cuadro para que el usuario personalizase la personalidad y capacidades de GPT-4. Por ejemplo, puedes decirle que sea un gestor que calcule tus impuestos con sumo cuidado. «Es muy bueno haciendo cálculos ahora», asegura Greg Brockman, cofundador de OpenAI.
Aseguró también el pasado lunes que «necesitamos más regulación en IA», pese al acelerado ritmo de actualizaciones e innovación de su empresa con ChatGPT que están propiciando que numerosos expertos en ética y desinformación alcen públicamente la voz ante sus peligros.
Pese a ser menos propenso a mentir, OpenAI dice que GPT-4 es más creativo que la anterior versión de ChatGPT porque puede generar, editar y ayudar al usuario en la creación de textos en prosa y verso con un estilo y sentido del humor más refinados como la composición de canciones, guiones de película o generar artículos a partir de uno que haya realizado para replicar su estilo y vocabulario.
Ahora también entiende imágenes
GPT-4 es capaz de recomendarte qué comer si compartes con él una fotografía del interior de tu nevera. Esta pequeña mejora y utilidad demuestra un gran salto en las capacidades cognitivas de su modelo de lenguaje. Cualquier IA tiene que ser entrenada con miles de fotografías de cada verdura, fruta u hortaliza para reconocerlas, ya que su capacidad de abstracción no es como la de los humanos. Varios modelos se están empleando ya para catalogar bosques, detectar nidos de aves o localizar dónde están los animales en peligro de extinción. Pero GPT-4 es de carácter general y abierto al público; no solo está entrenado para reconocer un tipo de mamífero, por ejemplo, sino cualquier objeto, producto o paisaje.
Ahora es capaz de interpretar un esquema hecho a lápiz de una página web y transformarlo en código HTML, CSS y Javascript con títulos y botones funcionales.
Algunos rumores indicaban que esta nueva versión de ChatGPT sería multimodal, es decir, que permitiría la creación de imágenes, algo que ya hace Dalle-2, de la propia compañía, vídeo o audios, pero Altman ya advirtió de que la gente se «decepcionaría con expectativas tan altas».
La capacidad de subir imágenes para que GPT-4 las interprete todavía no está abierta a los usuarios, aunque el modelo ya esté entrenado para ello porque la compañía prefiere «ir poco a poco y pulir los últimos detalles». Durante la presentación, usaban un canal de Discord conectado a la API para enviar las imágenes.
De momento, esta última actualización del modelo de lenguaje solo está disponible para los suscriptores de ChatGPT Plus, que cuesta $20 dólares al mes.
Microsoft, que se ha aliado con OpenAI para integrar las capacidades de su modelo de lenguaje en productos como Bing, celebrará un evento sobre inteligencia artificial el 16 de marzo, donde seguramente se presente una colaboración más estrecha.