GPT-4 supera el test de Turing por primera vez: ¿qué implica?

Una inteligencia artificial habría superado el test de Turing por primera vez. GPT-4, el modelo de lenguaje de OpenAI, pasó experimento que evalúa la capacidad de una máquina para exhibir un comportamiento inteligente. Un estudio afirma que algunas personas no pudieron distinguir la IA de un humano durante una conversación.

Investigadores de la Universidad de California en San Diego llevaron a cabo un estudio con 500 personas a quienes les pidieron conversar con diversos interlocutores. Los participantes charlaron con tres programas de inteligencia artificial y otras personas en sesiones de hasta cinco minutos. Tras evaluar los resultados, los científicos descubrieron que un 54 % de los participantes identificó a GPT-4 como si fuera una persona real.

El estudio, publicado en arXiv como preprint, evaluó tres sistemas en un test de Turing aleatoria. Los investigadores echaron mano de GPT-3.5, GPT-4 y ELIZA, uno de los primeros programas de procesamiento de lenguaje natural creado por el Instituto de Tecnología de Massachusetts entre 1964 y 1966. Aunque era claro que este último no superaría las pruebas, los científicos lo emplearon como un punto de referencia para los participantes.

Cada participante fue asignado a un grupo aleatorio en el que entablaron conversaciones con humanos o inteligencia artificial a través de una aplicación de mensajería de texto. Tras una sesión de cinco minutos, los participantes debían emitir un veredicto sobre si pensaban que charlaban con una persona o una IA.

Algunos humanos no saben distinguir entre GPT-4 y una persona real

Los resultados del estudio han dejado helados a los científicos. Luego de analizar los datos, el grupo de investigadores descubrió que más de la mitad de los participantes no supieron distinguir entre una IA y un ser humano.

54 % creyeron que GPT-4 era una persona real
50 % pensaron que GPT-3.5 era una inteligencia artificial
22 % supusieron que ELIZA tenía cualidades humanas

Los investigadores afirman que los sistemas que pueden hacerse pasar por humanos tendrían consecuencias económicas y sociales generalizadas. "Podrían desempeñar funciones reservadas para los trabajadores humanos, engañar al público en general o a sus propios operadores, erosionando la confianza social en las interacciones auténticas", indicaron.

Resultados del test de Turing para GPT-4

Aunque GPT-4 consiguió superar el test, los científicos consideran que el test de Turing puede ser demasiado simplista, puesto que no considera el estilo conversacional o los factores emocionales. "Los factores estilísticos y socioemocionales juegan un papel más importante para aprobar el test que las nociones tradicionales de inteligencia", añadieron.

Qué es el test de Turing y por qué es relevante

El test de Turing, propuesta por Alan Turing en 1950, es una forma clásica de evaluar la capacidad de una máquina para exhibir un comportamiento inteligente. En esta prueba, un juez humano conversa con dos entidades ocultas — otro humano y una máquina — a través de texto o voz. Si la máquina puede engañar al juez una parte significativa del tiempo, entonces se considera que ha alcanzado una inteligencia de nivel humano.

Esta prueba ha sido un punto de referencia importante en la investigación de la inteligencia artificial. Sin embargo, también ha generado debates sobre la naturaleza de la misma inteligencia y la conciencia. El test de Turing no mide necesariamente la verdadera comprensión o creatividad, por lo que algunos científicos afirman que las máquinas podrían pasarlo al memorizar respuestas o imitar patrones de conversación.

Alan Turing predijo que a finales del siglo XX, "las máquinas jugarían tan bien el juego de la imitación que un interrogador promedio no tendría más del 70 % de posibilidades de realizar la identificación correcta después de cinco minutos".