La traducción es uno de los servicios en donde Google ha sido capaz de probar distintos modelos de inteligencia artificial. El más reciente tiene que ver con la traducción voz-a-voz sin necesidad de utilizar texto de por medio.

Conocido como Translatotron, el sistema es el primero en su tipo y utiliza un modelo de extremo a extremo que no depende del uso de texto. Este enfoque es más preciso que el modelo de cascada, que involucra el reconocimiento de voz para capturar el texto, traducirlo y convertirlo a voz nuevamente.

Translatotron está basado en una red de secuencia a secuencia que captura la voz y la procesa como un espectrograma, que cosiste en una representación visual del espectro de frecuencias. El modelo genera espectrogramas del contenido traducido en el lenguaje de destino con la posibilidad de generar una voz similar a la original.

Google dice que el modelo de secuencia a secuencia utiliza un objetivo multitareas para predecir las transcripciones de origen y destino al mismo tiempo que genera los espectrogramas de destino. Luego utiliza un vocoder neuronal que convierte los espectrogramas de salida en formas de onda, y opcionalmente, un codificador para mantener el carácter de la voz de origen.

La empresa ha compartido los primeros resultados de Translatotron utilizando una traducción de español a inglés con distintos acentos. En algunos casos la traducción es precisa, sobre todo en frases cortas. El sistema todavía necesita trabajo en frases en las que el sujeto habla bajo o simplemente no sabe expresar correctamente la idea.

Traducción voz a voz de español a inglés

Entrada (Español)
Traducción de Referencia (Inglés)
Traducción por sistema de cascada
Traducción por Translatotron (voz canónica)
Traducción por Translatotron (voz original)

Google está consciente de que la calidad de traducción del Translatotron todavía no supera a lo conseguido por un sistema de cascada convencional, aunque menciona que han consegido demostrar la viabilidad de la traducción directa voz-a-voz de extremo a extremo.

La tecnológica espera que este trabajo sirva como un punto de partida para futuras investigaciones sobre sistemas de traducción voz a voz.