ChatGPT no es tan bueno en programación. Un equipo de investigadores de la Universidad de Purdue (Indiana, Estados Unidos) diseñó un examen con más de 500 preguntas sobre el desarrollo de software, con el objetivo de poner a prueba el famoso chatbot de OpenAI. El resultado fue decepcionante: la inteligencia artificial erró en más de la mitad de las respuestas.
El estudio analizó las respuestas de ChatGPT a 517 interrogantes de Stack Overflow, una plataforma de preguntas y respuestas para programadores. El equipo tomó en cuenta la veracidad, consistencia, exhaustividad y concisión del chatbot. Y, al final, descubrieron que 52% de lo que contestó era incorrecto.
ChatGPT, sin embargo, es muy bueno para convencer a los demás de que está en lo cierto. Los investigadores también hicieron un examen a una docena de programadores, en las que tenían que escoger entre las respuestas de ChatGPT y otras contestadas por usuarios de Stack Overflow. Ninguno sabía cuál pertenecía al chatbot.
Las respuestas de ChatGPT fueron preferidas el 39,34% de las veces. Sin embargo, el 77% de estas resoluciones eran incorrectas. El reporte explica que el estilo de lenguaje bien articulado le da una aparente exhaustividad. Casi todas las respuestas de la inteligencia artificial fueron descritas como «verborrágicas».
El reporte dice que ChatGPT quedó en evidencia ante los voluntarios solo cuando el error era obvio. Pero, incluso cuando la falla era evidente, un promedio de 2 de cada 12 escogió igual lo propuesto por el chatbot de OpenAI.
Las muletillas de ChatGPT para hacerte creer que sabe de programación
ChatGPT cometió más errores conceptuales sobre programación que factuales. «Muchas respuestas son incorrectas debido a la incapacidad de ChatGPT para entender el contexto subyacente de la pregunta que se hace», explica el estudio.
Los investigadores también resaltaron el chatbot suele utilizar un lenguaje que sugiere logro o hazaña. Sin embargo, no suele describir los riesgos, como sí ocurre con las publicaciones de Stack Overflow. ChatGPT usaba palabras y frases como «por supuesto que puedo ayudarte» o «esto lo arreglará seguro» para transmitir certidumbre. En líneas generales, suele expresarse de manera más positiva.
«La forma en que ChatGPT transmite con confianza información perspicaz gana la confianza del usuario, lo que hace que prefieran la respuesta incorrecta», comentó Samia Kabir, una de las autoras de la investigación, a The Register.
El equipo destaca la necesidad de ser muy precavidos al momento de emplear las respuestas de ChatGPT en tareas de programación. «Esperamos que este trabajo fomente más investigación sobre la transparencia y la comunicación de la inexactitud en las respuestas generadas por máquinas», señalaron en el informe.