¿Cuánto puede inferir la apariencia de una persona en base a su forma de hablar? Esa es la pregunta con la que un grupo de investigadores del Instituto de Tecnología de Massachusetts (MIT, por sus siglas en inglés) inició un proyecto que tiene como objetivo lograr que un algoritmo sea capaz de generar los rasgos físicos más característicos de una persona únicamente con su habla. Como resultado, crearon Speech2Face, una IA que consigue crear un rostro virtual muy similar al de un humano únicamente reproduciendo unos segundos de un audio con su voz.

Speech2Face, en concreto, se basa en un sistema de red neuronal capaz de reconocer algunos elementos físicos de un ser humano solo con su voz. Entre ellos, la raza, la edad o el género. Para ello, la IA se ha sometido a un proceso de entrenamiento que consiste en aprender las correlaciones que existen entre la voz y la cara de miles de personas que aparecen en vídeos de YouTube.

De este modo, el algoritmo puede tener multitud de referencias que le permitan crear un rostro sin necesidad de ninguna imagen.

El resultado es la creación de rostros virtuales muy similares a los de personales reales. No obstante, no 100 % precisos, como los que sí se pueden obtener con una inteligencia artificial que compara las caras sintéticas con fotografías de caras reales. De hecho, y tal como detallan los investigadores del MIT en su artículo, el objetivo no es crear una imagen que replique el rostro de una persona, sino generar una que recupere "los rasgos físicos característicos que están correlacionados" con el habla.

Algunos rostros generados por IA son hasta más confiables que los reales

Rostros reales (R) y creados por IA (S).

A diferencia de la IA denominada Speech2Face y que puede crear un avatar de una persona únicamente escuchando la voz, hay sistemas de aprendizaje automático capaces de generar caras tan similares a las de una persona real, que incluso el ser humano no puede diferenciar. Una investigación publicada en la revista PNAS, de hecho, demuestra que la mayoría de personas que participaron en un estudio cuyo objetivo era comprobar si podían distinguir los rostros reales de los virtuales, encontraron más confiables aquellos generados por inteligencia artificial, que los reales.

Este tipo de caras virtuales se crean utilizando un sistema compuesto por dos redes neuronales. La primera se encarga de generar los avatares a partir de una matriz de píxeles. La segunda, en cambio, se dedica a comparar el rostro creado por IA con uno real. Si encuentra diferencias, penaliza al primer sistema para que este no vuelva a cometer el mismo error. Así, hasta conseguir que la imagen sea extremadamente parecido al real.

Estos sistemas de aprendizaje pueden tener importantes beneficios si se consiguen aplicar en el día a día. Por ejemplo, la IA capaz de crear un rostro a partir de la voz puede resultar útil para generar avatares de delincuentes. No obstante, también suponen un importante peligro. Sobre todo, teniendo en cuenta que la facilidad con la que se puede crear un rostro para, entre otros usos, suplantar la identidad de una persona.