La última gran clasificación de IAs que ha realizado la LMSYS destrona a GPT-4 del primer puesto. El innovador sistema Elo ha permitido a los investigadores conocer el nuevo mejor gran modelo de lenguaje. Se trata de Claude 3 Opus, creado por Anthropic, un sistema que ya supera a la joya de OpenAI.

El sistema Elo se ha utilizado durante mucho tiempo para clasificar jugadores de ajedrez, y ahora, se ha descubierto su potencial para evaluar inteligencias artificiales. Se nutre del factor humano para emitir las votaciones y basa su eficacia en la comparativa directa de modelos de lenguaje masivos (LLM).

El último ranking deja en muy buen lugar a OpenAI con GPT-4 y a Anthropic con Claude 3 Opus, que copan los primeros puestos con sus diversas actualizaciones. Entre el TOP 5 se deja ver Bard (Gemini Pro) de Google a una distancia prudencial.

Claude 3 domina y supera a GPT-4

El modelo de lenguaje de Anthropic ha conseguido 1.253 puntos, una cifra que es suficiente para coronarse como la IA con mejor rendimiento y resultados. Es importante recalcar que la puntuación está fijada con un sistema Elo, el cual, utiliza votaciones humanas para determinar la clasificación.

GPT-4 y Claude 3 ranking

Claude 3 Opus ha sido probado por un total de 33,250 personas y es el único lenguaje que ha conseguido un +5/-5 en la tabla. Eso sí, GPT-4 se queda muy cerca con un total de 1.251 puntos y un +4/-4 en la tabla. Como dato importante, el modelo de OpenAI ha sido votado por 54.141 personas.

Según Simeón Emanuilov, la consistencia y rendimiento de Claude 3 Opus está por encima de GPT-4 en estos momentos, además, supera con creces a otros modelos en comprensión y generación de lenguaje.


OpenAI no ha dicho la última palabra

Si bien este ranking Elo ha situado a GPT-4 como la segunda mejor IA del momento, hay detalles que no podemos pasar por alto. Que esté 4 veces en la lista no es casualidad. Sus diferentes actualizaciones muestran que OpenAI mejora a pasos agigantados con cada versión.

Los avances de los grandes modelos de lenguaje son diarios y masivos, por lo que esta lista tiene una fecha de caducidad temprana. Cada actualización supera a la anterior, por lo que, probablemente, los mejores resultados a lo largo de los meses se consoliden en las compañías con mayor capacidad de mejora.

No se le puede restar mérito a Anthropic por lo que ha conseguido con Claude 3, pero tampoco se puede negar que OpenAI está al acecho y muy probablemente, más pronto que tarde, acabe colmando esa primera posición con una futura actualización.

Recibe cada mañana nuestra newsletter. Una guía para entender lo que importa en relación con la tecnología, la ciencia y la cultura digital.

Procesando...
¡Listo! Ya estás suscrito

También en Hipertextual: