ChatGPT está a punto de cambiar para siempre. OpenAI ha anunciado la actualización de su chatbot de inteligencia artificial, que en adelante podrá hablar y mantener conversaciones en voz alta con los usuarios. Una evolución drástica y que llevará a la plataforma a otro nivel, puesto que ya no estará limitada a las interacciones a través de texto.
El soporte para audio llegará a ChatGPT a través de sus aplicaciones para iOS y Android. Quienes accedan a la nueva versión tendrán la posibilidad de dialogar de forma directa con el chatbot de IA, pudiendo seleccionar qué voz desean otorgarle entre 5 opciones diferentes.
Según explicó OpenAI, esta característica de ChatGPT se basa en un nuevo modelo de conversión de texto a voz que permite generar respuestas habladas a partir de una muestra de audio de pocos segundos. Esto, sumado al trabajo junto a actores de voz profesionales, hace que las interacciones con la inteligencia artificial se sientan más humanas.
Los desarrolladores explicaron, además, que la nueva versión de ChatGPT utiliza el sistema de reconocimiento de voz Whisper para convertir las preguntas de los usuarios de audio a texto. En la siguiente publicación en X (Twitter) pueden ver cómo funciona una conversación hablada con el chatbot.
Es importante mencionar que las opciones de voz de ChatGPT no llegarán activadas de forma predeterminada. Quienes deseen conversar con el chatbot a través de esta vía deberán habilitarlo manualmente en Ajustes > Nuevas características. Una vez hecho esto, podrán seleccionar qué tipo de voz desean otorgarle al chatbot.
ChatGPT ahora puede ver, escuchar y hablar
Tengan en cuenta que la adición de las características de voz se dará de forma gradual. Esto significa que no todos los usuarios de las apps de ChatGPT para móviles podrán utilizarlas desde el primer día. OpenAI asegura que esta nueva función se activará paulatinamente y llegará primero a los suscriptores de ChatGPT Plus y Enterprise. Esto sucederá en el transcurso de las próximas dos semanas.
La compañía indicó que limitará esta tecnología a las conversaciones con el chatbot dentro de las apps para evitar usos malintencionados. "La nueva tecnología, capaz de crear voces sintéticas realistas a partir de tan solo unos segundos de voz real, abre las puertas a muchas aplicaciones creativas y centradas en la accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude", indicaron los de Sam Altman.
Vale mencionar que, con esta actualización, ChatGPT no solo puede escuchar y hablar, sino también ver. Esto significa que los usuarios de las apps para iOS y Android podrán interactuar con el chatbot utilizando fotografías. Así, por ejemplo, podrán tomar una imagen y pedirle a la IA ayuda para concretar alguna tarea en particular.
Un dato interesante es que, más allá de la captura de la foto en sí, será posible "dibujar" sobre alguna sección para que la inteligencia artificial se enfoque en ella. De acuerdo con OpenAI, esta nueva característica es potenciada por una plataforma multimodal que se basa tanto en GPT-3.5 como en GPT-4.
"Al igual que otras funciones de ChatGPT, la visión consiste en ayudarte con tu vida diaria. Lo hace mejor cuando puede ver lo que tú ves", indican los desarrolladores. De todas maneras, la startup también ha aplicado limitaciones a esta característica basada en imágenes. Esto significa que, por ejemplo, no funcionará cuando las fotos sean de personas. "ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de los individuos", explicaron desde OpenAI.