GPT-4 también supera a ChatGPT en los exámenes universitarios

El lanzamiento de GPT-4, el nuevo modelo de lenguaje de OpenAI, se está robando todos los titulares por estas horas. Y la propia startup de Sam Altam no duda en presumir las capacidades de la tecnología que ya está disponible en ChatGPT Plus y más de una docena de aplicaciones y servicios. De hecho, la compañía ha publicado un documento que demuestra que su nueva inteligencia artificial es todavía mejor que ChatGPT para aprobar exámenes universitarios o de posgrado.

El reporte técnico de GPT-4 le dedica una buena sección al desempeño obtenido por el modelo de lenguaje al afrontar una importante cantidad de pruebas académicas. En la mayoría de los casos, la nueva tecnología de OpenAI supera los resultados logrados por GPT-3.5, por ejemplo.

Así las cosas, los desarrolladores de la inteligencia artificial han compartido una tabla con los resultados obtenidos en el examen para acceder al colegio de abogados, como en la prueba de admisión a la Facultad de Derecho (LSAT), los tests estandarizados de ingreso universitario de Estados Unidos (SAT) y los exámenes de registro para escuelas de posgrado (GRE), entre muchos otros.

La mayoría de los resultados obtenidos por GPT-4 han sido mejores a los de GPT-3.5, y en algunos casos están por encima de la puntuación media. Según menciona The Princeton Review, por ejemplo, la puntuación más alta que se puede obtener en la LSAT es de 180, mientras que la media es de 152. Para obtener esta última se deben responder correctamente unas 60 preguntas, de un total que suele estar entre 99 y 102. En este caso, la inteligencia artificial de OpenAI logró un puntaje de 163, contra los 149 de su predecesora.

GPT-4 sigue mejorando al tomar exámenes universitarios o de posgrado

A la hora de afrontar las pruebas para acceder al colegio de abogados, GPT-4 obtuvo un puntaje de 298 sobre 400. Vale destacar que, en este caso, los resultados comprenden tres exámenes diferentes: el Multistate Bar Examination (MBE), el Multistate Essay Examination (MEE) y el Multistate Performance Test (MPT). Cada uno de ellos se lleva a cabo bajo una modalidad diferente, como pruebas de opción múltiple o preguntas que deben resolverse en una determinada cantidad de minutos.

En los SAT de matemática y lectura y escritura basada en evidencia, también mostró muy buenos resultados. Allí obtuvo puntuaciones de 700 y 710 sobre 800, respectivamente. Una clara mejora sobre GPT-3.5, que había logrado 590 y 670 sobre 800, respectivamente.

Mientras que en los GRE, GPT-4 destacó a nivel verbal y cuantitativo, pero no pudo mejorar su desempeño en el examen escrito. En dichos exámenes de posgrado logró puntajes de 169/170 (verbal), 163/170 (cuantitativo) y 4/6 (escrito). Como comparación, los resultados de GPT-3.5 habían sido de 154/170, 147/170 y 4/6 en las mismas modalidades.

OpenAI asegura que los exámenes que tomó su nuevo modelo de lenguaje fueron los mismos que cualquier humano debe afrontar en los niveles académicos correspondientes. Y sostiene que no se llevó a cabo ningún entrenamiento específico sobre dichas pruebas. "Una minoría de los problemas incluidos en los exámenes fueron vistos por el modelo durante el entrenamiento. Para cada examen ejecutamos una variante con estas preguntas eliminadas e informamos el puntaje más bajo de los dos. Creemos que los resultados son representativos", indica la startup.

La IA evoluciona, pero mantiene problemas ya conocidos

Más allá de la evolución que representa GPT-4, que en algunos aspectos ya está dejando en ridículo a la versión original de ChatGPT, sigue acarreando problemas conocidos. OpenAI ha mencionado que las limitaciones de su nuevo modelo de lenguaje siguen siendo similares a la de su predecesor. Algo que se aprecia especialmente al "inventar" hechos a la hora de brindar respuestas, lo cual impacta en su confiabilidad.

A pesar de sus capacidades, GPT-4 tiene limitaciones similares a las de los modelos GPT anteriores. Lo que es más importante, todavía no es completamente confiable ("alucina" hechos y comete errores de razonamiento). Se debe tener mucho cuidado al usar los resultados del modelo de lenguaje, particularmente en contextos de alto riesgo, con el protocolo exacto (como revisión humana, conexión a tierra con contexto adicional o evitar usos de alto riesgo por completo) que coincida con las necesidades de aplicaciones específicas.
OpenAI, sobre las limitaciones de GPT-4.

Ahora bien, volviendo al tema de las pruebas académicas, el hype por la "habilidad" de GPT-4 de superarlas no se hizo esperar. Pero volvemos a lo mismo que planteamos cuando ChatGPT hizo lo propio con exámenes de medicina o derecho: no sirve de nada que la IA los apruebe.

Caemos otra vez en la vieja historia de querer antropomorfizar a la inteligencia artificial. Por enésima vez, no: que GPT-4 supere exámenes de admisión no significa que pueda aplicar como estudiante en Stanford o cualquier otra universidad de renombre en Estados Unidos.

Joshua Levy, un experto en IA, dejó un concepto muy interesante al respecto. "GPT-4 pasando los LSAT o GRE es increíblemente impresionante. Al mismo tiempo, creo que necesitamos un recordatorio de una falacia lógica que veremos mucho esta semana: que el software pueda pasar una prueba diseñada para humanos no implica que tenga las mismas habilidades que los humanos que pasan la misma prueba. Los exámenes para humanos no evalúan las habilidades que la mayoría o todos los humanos tienen. Lo que prueban son las habilidades que les resultan más difíciles", tuiteó.