Cómo la clonación de voz por IA perfeccionó las estafas telefónicas

Ruth Card contestó el teléfono: era la voz desesperada de su nieto, Brandon. Le dijo que estaba en la cárcel, sin móvil y sin billetera. Que, por favor, lo ayudara. Ruth —de 73 años— no dudó. Junto a su esposo, corrieron a dos sucursales de sus bancos a retirar el dinero necesario para pagar la fianza. Retiró 3.000 dólares canadienses —unos 2.000 euros— en la primera sucursal. En la segunda, sin embargo, el gerente la frenó: le contó que ya había atendido a otro cliente con una llamada similar y le explicó que, probablemente, ese a quien había escuchado no era su nieto.

Ruth estaba siendo víctima de una nueva metodología de estafa telefónica que utiliza clonación de voz por inteligencia artificial. La lógica sigue siendo la misma: un estafador se hace pasar por alguien de confianza —un familiar o amigo— y convence a la víctima de que le envíe dinero para atender una emergencia. Lo que ocurre es que la trampa ahora logra un nivel impresionante de veracidad gracias a la gran variedad de herramientas disponibles en internet —muchas de ellas a costos bajísimos— que permiten replicar la voz de cualquier persona.

Este caso, descrito por The Washignton Post, es solo uno de muchos. El medio estadounidense asegura que se trata de una tendencia en aumento en este país. Ya en 2022, las estafas por suplantación de identidad fueron el segundo fraude más común en Estados Unidos: fueron cerca de 36.000 casos de víctimas estafadas, según datos de la Comisión Federal de Comercio. Del total, 5.100 fueron estafas telefónicas por un valor de alrededor de 11 millones de dólares. No se sabe cuántas se efectuaron utilizando IA.

¿Cómo funciona la clonación de voz por IA?

Puedes generar un discurso completo con una sola muestra de audio de voz que incluya unas pocas oraciones. Muchos delincuentes están obteniendo estas muestras de videos publicados en YouTube, pódcast, Instagram, TikTok y otras redes.

El software de inteligencia artificial que permite la clonación analiza aspectos que hacen que una voz sea única: el acento, la edad o hasta el género. Luego buscan en grandes bases de datos de voces hasta encontrar voces similares y replicar patrones.

“Es aterrador... Es una especie de tormenta perfecta con todos los ingredientes que necesitas para crear el caos”, declaró Hany Farid, profesor de ciencia forense digital en la Universidad de California, a The Washington Post. De acuerdo al experto, un audio de 30 segundos sería suficiente para lograr una clonación convincente de una voz por IA.

Las voces falsas son capaces de hackear la seguridad de los bancos

El riesgo no solo lo corren familiares y amigos asustados. Los bancos en los Estados Unidos y Europa han hecho alarde de la identificación de voz como una forma segura de iniciar sesión en su cuenta. Pero un periodista de Vice logró burlar el sistema de seguridad de su banco gracias a un sistema de IA de clonación de voz. Ni siquiera tuvo que pagar; usó ElevenLabs, una herramienta gratuita.

Elevenlabs fue lanzada a finales de enero pasado. Salió al ruedo en una prueba abierta y sin mayores controles. Y pasó lo inevitable: a los días era posible escuchar la voz de celebridades y personajes políticos diciendo improperios que, en realidad, nunca pronunciaron. Hasta David Guetta se armó un discurso con la voz falsa de Eminem para un tema que dejó correr en redes.

Thank you everyone for your advice. We love what you’re creating, but a set of actors use our tech for malicious purposes. We decided to take the following steps to address the issues:
— ElevenLabs (@elevenlabsio) January 31, 2023

Otro lanzamiento que ocurrió en enero fue el de VALL-E, el sistema de clonación de voz de Microsoft. La compañía utilizó la biblioteca de audio "LibriLight" de Meta, que contiene unas 60 mil horas de audios en inglés de más de 7.000 personas diferentes. Sin embargo, decidió no abrir el código al público, por los riesgos que esto podría implicar.