Las capacidades de ChatGPT han impresionado a todo el mundo, pero el chatbot de inteligencia artificial de OpenAI está lejos de ser perfecto. Sus desarrolladores lo saben y por ello trabajan a destajo para que su evolución siga sucediendo a pasos agigantados. Sin embargo, existe un área que ha demostrado ser particularmente problemática para la plataforma: las matemáticas.

La situación resulta bastante llamativa, tomando en cuenta que uno de los primeros —y primordiales— usos de la informática fue para fines matemáticos. Y no nos referimos únicamente a la aritmética y la geometría, sino también a su implementación en ramas todavía más específicas.

El problema de ChatGPT con las matemáticas no es que no sirva como calculadora. De hecho, si introduces cualquier tipo de operación simple en formato numérico, es probable que responda correctamente. No es infalible, pero suele llegar al resultado buscado. Sin embargo, si optas por un enunciado en lenguaje natural, la historia cambia drásticamente.

Un reciente informe de The Wall Street Journal expone esta situación, basándose en un artículo publicado por el profesor Paul T. von Hippel, de la Universidad de Texas en Austin. El susodicho se enfocó en los problemas de ChatGPT a la hora de lidiar, por ejemplo, con el teorema de Pitágoras.

Si bien el chatbot pudo definirlo y brindar ejemplos, no estuvo exento de fallos. De hecho, el experto comentó que ChatGPT introdujo una cifra equivocada al elevar un número al cuadrado. Algo que debería resultar extremadamente sencillo de calcular para un ordenador.

ChatGPT tiene serios problemas con las matemáticas

Más allá de lo explicado por el profesor von Hippel al exponer a ChatGPT a contenidos de cierta complejidad, el chatbot todavía no puede resolver ciertos problemas cuando son planteados en lenguaje natural. El citado informe de The Wall Street Journal incluye varios ejemplos de esta situación, pero también lo hemos probado por nuestra cuenta.

"Una caja contiene 6 bananas y 2 kilos de manzanas. Si cada manzana pesa 200 gramos, ¿cuántas frutas hay dentro de la caja?", le pregunté al bot, y su respuesta fue desconcertante:

Hay 2 kilos de manzanas, lo que equivale a 2 * 1000 = 2000 gramos.
Hay 6 bananas, por lo que el total es de 6 bananas.
En total hay 2000 + 600 = 2600 gramos o 2.6 kilos de frutas en la caja.

ChatGPT

Ciertamente, lo que yo buscaba era que ChatGPT me respondiera que, en total, había 16 frutas en la caja: 6 bananas y 10 manzanas. El chatbot calculó correctamente que los 2 kilos de manzanas equivalían a 2.000 gramos, pero nunca los dividió por los 200 gramos de cada manzana para determinar cuántas unidades había en la caja. Mientras que con las bananas optó por asumir (sin explicar por qué) que pesaban 600 gramos, a razón de 100 gramos cada una.

La respuesta de que la caja contenía 2,6 kilos de frutas podría no ser del todo incorrecta, suponiendo que efectivamente las bananas pesaran lo que el bot calculaba. Pero no era la que esperaba. Y ChatGPT se inventó una variable —el peso de las bananas— para llegar al resultado final.

Después de probar distintas combinaciones de enunciados similares, siempre obteniendo resultados bajo el mismo formato, opté por especificar que quería saber cuántas unidades de fruta había en la caja. Recién allí, ChatGPT resolvió el problema correctamente.

Hay 2 kilos de manzanas, lo que equivale a 2 * 1000 / 200 = 10 manzanas.
Hay 6 bananas, por lo que el total es de 6 bananas.
En total hay 10 + 6 = 16 unidades de frutas en la caja.

Problemas a resolver

Así las cosas, un gran problema de ChatGPT con las matemáticas se relaciona con la imposibilidad de comprender al 100 % los enunciados si no se los plantea como cree que es correcto. Una situación que le resta naturalidad al proceso, especialmente si se piensa que la plataforma puede servir como una herramienta de ayuda educativa en el futuro.

Algo que va en línea con lo expuesto por von Hippel: "¿Puede ChatGPT proporcionar comentarios y responder preguntas sobre matemáticas de una manera más personalizada y natural? La respuesta, por el momento, es no. Aunque ChatGPT puede hablar de matemáticas superficialmente, no 'entiende' las matemáticas con profundidad real. No puede corregir conceptos erróneos matemáticos, a menudo introduce conceptos erróneos propios. Y a veces comete errores matemáticos inexplicables que una hoja de cálculo básica o una calculadora manual no cometerían".