ChatGPT: OpenAI presenta dos nuevos modelos de audio

Dentro de poco va a ser complicado adivinar por qué modelo de ChatGPT vamos, y eso es una buena noticia. La compañía no para, y en lo que llevamos de año OpenAI está impulsando como ninguna otra el mercado de la inteligencia artificial. En este sentido, OpenAI sorprendía ayer con el lanzamiento de ChatGPT o1-pro, uno de los modelos más caros de la compañía hasta la fecha.

Según la compañía, es uno de los modelos más avanzados hasta el momento, y, por tanto, trae consigo un aumento significativo de los costes. o1-pro utiliza más recursos informáticos que el modelo estándar, pero ofrece respuestas consistentemente mejores. No obstante, de momento es un lanzamiento muy limitado: solo está disponible para desarrolladores selectos

Las diferencias de precios para acceder a un modelo como el 01-pro son significativas. Muy significativas. OpenAI cobra $150 dólares por millón de tokens (aproximadamente 750,000 palabras) introducidos en el modelo y otros $600 por millón de tokens generados por el modelo. Es, en otras palabras, el doble que ChatGPT-4 y diez veces más que precio de o1 estándar.

No obstante, no está claro que, en realidad, sea diez veces más potentes que el 01 con relación a su precio, añadiendo todos los matices a esto último. Las primeras impresiones de o1-pro en su lanzamiento limitado dentro del programa Pro de OpenAI, no fueron muy positivas. Tal como apuntan en Techcrunch, los usuarios descubrieron que el modelo tenía ciertas dificultades para resolver sudokus o ilusiones ópticas.

De hecho, los análisis internos de OpenAI de finales del año pasado mostraron que o1-pro tenia un rendimiento solo un poco mejor que el o1 estándar en codificación y matemáticas. El coste, por tanto, está relacionado con cuestiones de exigencia computacional.

Nuevos modelos de voz de nueva generación para ChatGPT

Lo que sí es extremadamente interesante son los modelos de audio de próxima generación que OpenAI también presentó ayer. De esta forma, la compañía lanza dos nuevos modelos de audio de voz a texto y de texto a voz en la API, lo que en esencia permite crear sistema de IA por voz más potentes, personalizables e inteligentes, y son especialmente competentes en situaciones complejas como acentos idiomáticos, entornos ruidosos y velocidades de voz variables:

Los nuevos modelos de voz gpt-4o-transcribe y gpt-4o-mini-transcribe incluyen mejoras en la tasa de error de palabras y mejor reconocimiento y precisión del idioma, en comparación con los modelos Whisper originales. De esta forma, son capaces de capturar mejor los matices del habla, reducir los reconocimientos erróneos y aumentar la confiabilidad de las transcripciones.

Como siempre, el precio para usar estos nuevos modelos dependerá de si es GPT-40 o GPT-40 mini. Para el primero, tendrás que pagar 6 dólares por un millón de tokens de entrada de audio, 2,50 dólares por millón de tokens de entrada de texto y 10 dólares por millón de tokens de salida de texto. Y para la versión mini, 3 dólares por millón de tokens de audio de entrada, 1,25 dólares por millón de tokens de entrada cuando sea de texto y 5 dólares por millón de tokens de entrada de audio.