Google lanza Gemini 1.5 y destroza a OpenAI y GPT-4

Google acaba de presentar Gemini 1.5, la primera gran actualización de su modelo de inteligencia artificial de última generación. Y llega con la promesa de poner en ridículo tanto a OpenAI como a GPT-4. Esta nueva versión estará disponible inicialmente para desarrolladores y clientes empresariales, mientras que próximamente llegará al público general.

La evolución de Gemini a la versión 1.5 llega de la mano de Gemini 1.5 Pro. Esta es la variante de uso general de la IA que, por ejemplo, potencia a Gemini, el chatbot antes conocido como Bard y que también ha llegado para reemplazar al Asistente de Google. Por lo pronto, los de Mountain View no han comentado cuándo se actualizarán Gemini Nano y Gemini Ultra a 1.5.

Uno de los primeros puntos a destacar de Gemini 1.5 es que promete un salto de rendimiento formidable en Pro, en comparación con el original. Los desarrolladores de esta tecnología aseguran que logra resultados similares a los de Gemini 1.0 Ultra, consumiendo menos recursos computacionales.

Otro elemento que Google ha destacado es que Gemini 1.5 Pro llega con una ventana de contexto de 1 millón de tokens. ¿Esto qué significa? Que la inteligencia artificial puede cotejar mucha más información en simultáneo y comprender solicitudes bastante más complejas. De acuerdo con los californianos, es la ventana de contexto más grande de cualquier modelo fundacional lanzado a la fecha, independientemente de su escala.

La ventana de contexto más grande jamás vista en un modelo fundacional

Vale aclarar que el millón de tokens no estará disponible para todos los usuarios en lo inmediato. Google te hará pagar para acceder a esta característica. En principio, Gemini 1.5 Pro ofrecerá una ventana de contexto de 128.000 tokens, la misma que actualmente brinda GPT-4 Turbo. La compañía luego introducirá una escala de precios para opciones más amplias hasta llegar al millón de tokens.

Para comprender mejor la importancia de este asunto, es importante mencionar que la versión 1.0 de Gemini Pro tenía una ventana de contexto de solo 32.000 tokens. Claude 2.1, de Anthropic, llegaba a los 200.000. Pero Google no se ha detenido en 1 millón de tokens. La compañía asegura que durante la investigación y el desarrollo de Gemini 1.5 Pro llegaron a experimentar con hasta 10 millones.

¿Qué se puede lograr con 1M de tokens? De acuerdo con Google, Gemini 1.5 Pro puede procesar sobre la marcha "1 hora de vídeo, 11 de horas de audio y bases de código con 300.000 líneas de código o más de 700.000 palabras". En el siguiente vídeo, por ejemplo, la IA muestra cómo puede resolver problemas en un bloque con más de 100.000 líneas de código:

La nueva versión de la inteligencia artificial desarrollada en Mountain View también ha destacado por su mayor capacidad de razonamiento. Según sus creadores, puede comprender grandes volúmenes de información, como documentos con cientos de páginas, para analizarlos, resumirlos o marcar porciones específicas, a partir de una única solicitud o prompt. Lo mismo sucede al lidiar con vídeos, donde puede identificar elementos de un clip tanto a partir de descripciones de texto como de imágenes.

Algunos afortunados ya están probando Gemini 1.5 Pro con una ventana de contexto de 1 millón de tokens de forma preliminar. Esto se está realizando con clientes y desarrolladores seleccionados a través de Vertex AI y AI Studio. Aunque desde Google han explicado que es una característica experimental y que los tiempos de espera aún no están optimizados.

Gemini 1.5 Pro destroza a su predecesor

Google Gemini | Inteligencia artificial | Gemini 1.5

El salto de Gemini de la versión 1.0 a la 1.5 es sencillamente brutal. El modelo de inteligencia artificial no solo logra resultados similares a los de Gemini 1.0 Ultra, sino que la variante Pro destruye a su predecesora.

Según Google, Gemini 1.5 Pro supera a Gemini 1.0 Pro en el 87 % de los benchmarks utilizados para desarrollar los modelos de lenguaje de gran tamaño de la compañía. Esto se debe en parte a que los de Mountain View han implementado una arquitectura MoE (Mixture-of-Experts) que hace más eficiente el proceso de entrenamiento e implementación de la IA.

Esto se debe a que Gemini 1.5 ya no depende de una red neuronal única y de gran escala, sino de múltiples redes neuronales más pequeñas y especializadas en cuestiones específicas. Esto permite que, dependiendo de lo que le solicitan los usuarios, se activen solo las conexiones entre las redes neuronales dedicadas a ese tipo de conocimientos o características puntuales.

En materia de seguridad y ética, Gemini 1.5 sigue los mismos lineamientos y compromisos tenidos en cuenta para el desarrollo de la versión original. Google se ha comprometido a seguir realizando evaluaciones al respecto. Como así también a desarrollar nuevas pruebas enfocadas en las capacidades ampliadas de la IA gracias a su ventana de contexto más grande.

Estaremos atentos a las novedades sobre el salto de Gemini Nano y Gemini Ultra a la versión 1.5. Si bien Google no lo ha especificado, todo hace pensar que Gemini 1.5 Pro llegará pronto a la versión web del chatbot Gemini (gemini.google.com) y a sus versiones para iOS y Android.

La ventana de contexto más grande jamás vista en un modelo fundacional

Gemini 1.5 Pro destroza a su predecesor

One reply on “Google lanza Gemini 1.5 y destroza a OpenAI y GPT-4”