Desde que se desarrollara el subtitulado para las piezas visuales en la década de los 70 poco o nada ha cambiado en la tecnología. Lo que vemos hoy es muy parecido a lo de varias décadas atrás, un texto en la parte inferior que permite ver a los espectadores la traducción de lo que se dice en el vídeo. Hoy y utilizando la tecnología Dynamic Captioning, científicos de China anuncian un modelo revolucionario que ofrece nuevas ventajas sobre los más de 66 millones de personas en todo el mundo que sufren de impedimentos auditivos.

Se trataría de un método de subtítulos donde el texto aparecería sobre bocadillos transparentes a modo de cómic, bocadillos que variarían su espacio y tipografía según la intensidad o locutor en el vídeo.

Una técnica que ha sido desarrollada por la Universidad de Tecnología de Hefei y que ha tenido al científico Wang Meng como principal investigador del proyecto. EL propio Meng explicaba el mismo:

La técnica fue motivada para la solución de las dificultades de los espectadores con discapacidad auditiva al ver vídeos. Estos espectadores tienen dificultad en reconocer que o quién está hablando, así que pusimos las secuencias de comandos alrededor de la cara del que habla; ellos tenían dificultades en el seguimiento de las secuencias de subtítulos, por lo que sincronizamos de manera destacada las secuencias de subtítulos.

Y es que como indican los investigadores, el subtitulado convencional puede considerarse estático ya que todas las palabras habladas están representadas de la misma forma en la parte inferior de la pantalla independientemente de la dinámica del vocablo o de lo que dicen y su importancia. Por esta razón la nueva técnica es definida como dinámica ya que el texto aparece en diferentes lugares y estilos para reflejar la identidad del locutor o la propia dinámica de la conversación, por ejemplo, según la intensidad o volumen de la voz.

Además, a través de Dynamic Captioning todas estas características pueden implementarse de forma automática sin intervención manual. Los investigadores han desarrollado algoritmos para identificar automáticamente las voces llegando a detectar el movimiento de los labios.

No sólo eso, usando una técnica de prominencia visual la tecnología puede encontrar de forma automática una posición óptima para la colocación del bocadillo y que interfiera mínimamente con la escena visual. En el caso de que exista un narrador en off o el interlocutor esté fuera de la pantalla, el sistema vuelve a los subtítulos "estáticos" de toda la vida. Un sistema que según cuentan, calcula el volumen de las voces, tanto en palabras como en frases, mediante el cálculo de la potencia de audio en 30 milisegundos.

A partir de aquí se tratará de mejorar la tecnología. El mismo proceso de subtitulado no se puede procesar mientras se ejecuta el vídeo aunque tarda en realizarlo lo mismo que dura la pieza visual. En cualquier caso, un trabajo que ayudará a las personas con discapacidad auditiva a disfrutar de la experiencia en piezas visuales.

Dínamo

Dínamo es el nuevo podcast de Hipertextual donde hablamos, discutimos, analizamos y nos obsesionamos con Apple.