Por estos días tenemos a ChatGPT hasta en la sopa. Y con razón. El chatbot de inteligencia artificial de OpenAI ha tomado el mundo por asalto gracias a sus impactantes capacidades. Desde dar respuesta a toda pregunta que se le realice, hasta generar textos completos sobre la temática que imagines, entre tantas otras. Aunque es probable que nada haya provocado tantas reacciones como su “habilidad” para aprobar exámenes de escuelas de leyes, negocios y hasta medicina, de algunas de las universidades más prestigiosas de Estados Unidos. Pero, ¿realmente importa?
Que no se malinterprete. Que ChatGPT haya sido capaz de superar los citados exámenes es una muestra más del inmenso potencial del modelo de lenguaje en el que está basado. Pero no deberíamos darle mucha más relevancia que esa, puesto que no se trata de una destreza especial que hoy la ubique a un paso de reemplazar a médicos, abogados u otros profesionales. Nada más lejos de la realidad.
El problema está en el enfoque que se le da en los medios de comunicación a estos logros de ChatGPT. Algo que, la mayoría de las veces, se traslada a las redes sociales, donde se amplifica. Con una rápida búsqueda en Twitter podemos encontrar decenas de tuits virales que remarcan la habilidad del chatbot de inteligencia artificial para aprobar exámenes universitarios, pero sin brindar siquiera un ápice de contexto sobre por qué, en primer lugar, a alguien se le ocurrió someterlo a este tipo de pruebas. O si determinadas temáticas le resultaron más desafiantes que otras para su resolución.
Pero si ChatGPT hoy puede aprobar un examen de medicina, los médicos quedarán obsoletos en pocos años, ¿verdad? Lamento decirles, amigos, que el panorama es mucho más complejo que ese. Y no importa qué tan avanzada se encuentre la IA, ni cuánto vaya a evolucionar en los próximos años. Que hoy el bot sea capaz de superar una prueba académica no lo convierte en médico, abogado o economista. Y por un simple motivo: no podemos evaluarlo en términos humanos.
La "habilidad" de ChatGPT para superar exámenes no prueba demasiado
La inteligencia artificial que potencia a ChatGPT ha sido entrenada con millones de páginas de contenido disponibles públicamente en la web. Por ende, es lógico que pueda superar un examen universitario en segundos. Después de todo, a diferencia de una persona, no necesita de semanas o meses de arduo estudio para aprender, comprender y retener la información importante que se necesita para responder las preguntas que presentan los profesores.
Es más, ni siquiera debe preocuparse por retener los datos porque puede volver a consultarlos cuando sea necesario, sin demasiado esfuerzo. Además, quienes decidieron someter a ChatGPT a los exámenes de leyes o medicina no lo hicieron pensando en probar que la inteligencia artificial puede hacer el trabajo de los profesionales humanos con menos esfuerzo.
Jon Choi, profesor de derecho en la Universidad de Minnesota, explicó que su intención fue probar el potencial de ChatGPT a la hora de ayudar a estudiantes a completar exámenes, o a los abogados durante su práctica. "ChatGPT tuvo problemas con los componentes más clásicos de los exámenes de la facultad de derecho, como la detección de posibles problemas legales y el análisis profundo de la aplicación de reglas legales a los hechos de un caso. Pero podría ser muy útil para producir un primer borrador que luego un estudiante podría refinar", explicó.
En los cuatro cursos que completó el chatbot de OpenAI en la escuela de leyes, su desempeño no fue particularmente destacado. De acuerdo con los profesores a cargo de las correcciones, las calificaciones de la plataforma de IA fueron equivalentes a las de un estudiante que obtiene un C+. Es decir, una nota baja, pero suficiente para aprobar los exámenes.
En tanto que en un curso de gestión de negocios de la Universidad de Pennsylvania, sus resultados fueron mejores. Allí obtuvo calificaciones de B y B-. De acuerdo con un profesor, destacó en las preguntas sobre gestión de operaciones y análisis de procesos. Sin embargo, presentó dificultades en ejercicios más complejos. Al punto tal que se cometió "errores sorprendentes" al lidiar con matemática básica.
Por otra parte, ChatGPT fue utilizado para completar el Examen de Licencia Médica de los Estados Unidos. El chatbot sorprendió a los investigadores, quienes destacaron que completó las preguntas en un nivel cercano o superior al umbral de aprobación. Sin embargo, también indicaron que su potencial podría ser de ayuda en el proceso educativo para quienes aspiran a ser doctores, o hasta para colaborar en la toma de decisiones en el ámbito clínico en el futuro. Pero nada de reemplazar a los médicos en lo inmediato.
El viejo dilema de antropomorfizar a la IA
Decir que la "habilidad" de ChatGPT para superar exámenes académicos hoy no tiene ningún valor, suena duro, pero no es una postura hater. Por el contrario, busca poner los pies sobre la tierra al hablar de las cualidades del chatbot de inteligencia artificial y sus implicaciones sobre la vida cotidiana.
Hasta que no podamos contratar a una IA para que nos defienda en un juicio, no podremos decir que habrá reemplazado a los abogados. Hasta que no sea capaz de curarnos sin ningún tipo de injerencia humana, tampoco podremos decir que habrá reemplazado a médicos, enfermeros o especialistas. Y lo mismo aplica para cualquier otro tipo de profesión que se vea mayor o menormente afectada por ChatGPT o herramientas de este tipo.
Uno de los grandes dilemas de lidiar con modelos de lenguaje avanzados, o que operan a una escala cada vez mayor, es su antropomorfización. Es decir, que la gente que interactúe con ellos les otorgue dotes o cualidades humanas, aunque no las tenga. Esto no es algo nuevo, y se remonta a los primeros experimentos con software de procesamiento de lenguaje natural en los años sesenta. Aunque, ciertamente, ha tomado otra dimensión en años más recientes gracias a la evolución de la IA.
Es evidente que ChatGPT no escapa de esta situación. En apenas un par de meses ha cambiado drásticamente la interacción del público con herramientas avanzadas de inteligencia artificial que, hasta no mucho tiempo atrás, eran inaccesibles para el común de la gente. Pero todavía debe resolver graves inconvenientes, como los sesgos y la incorporación de datos erróneos —o directamente falsos— que pueden pasar por ciertos si no se les presta debida atención. Algo que puede agravarse si se cree que existe algún tipo de conciencia detrás de la generación de la respuesta.
Esta problemática ya ha sido advertida en el pasado por algunos de los investigadores más prominentes del mundo de la IA. Margaret Mitchell y Timnit Gebru, quienes se desempeñaron en Google hasta 2020, lo describieron de esta forma:
La tendencia de los interlocutores humanos a imputar significado donde no lo hay puede engañar tanto a los investigadores del procesamiento de lenguaje natural, como al público en general, a considerar el texto sintético como significativo. [...]
El texto generado por un modelo de lenguaje no se basa en la intención comunicativa, ningún modelo del mundo o ningún modelo del estado mental del lector. [...]
El problema es que si un lado de la comunicación no tiene significado, entonces la comprensión del significado implícito es una ilusión que surge de nuestra singular comprensión humana del lenguaje (independientemente del modelo). Al contrario de lo que pueda parecer cuando observamos lo que genera, un modelo de lenguaje es un sistema para unir al azar secuencias de formas lingüísticas que ha observado en sus vastos datos de entrenamiento, de acuerdo con información probabilística sobre cómo se combinan, pero sin ninguna referencia al significado. Es un loro estocástico.
Fragmento de "Sobre los peligros de los loros estocásticos: ¿Pueden los modelos de lenguaje ser demasiado grandes?".
ChatGPT todavía tiene mucho espacio para mejorar y evolucionar, y nada hace pensar que no sea para bien. Pero creer que por aprobar exámenes académicos ya está listo para regir ámbitos más importantes de nuestra vida cotidiana, no es más que un delirio. Disfrutemos de la tecnología y de sus logros, pero no caigamos en presunciones alimentadas por la falta de contexto, o por el hype tras un producto nuevo.