– Jul 7, 2019, 17:30 (CET)

¿Verdadero o falso? Los ‘deepfakes’ son el primer gran reto de la IA

Cada vez son más las posibilidades para que la creación de deepfakes y vídeos falsos esté al alcance de cualquiera. Un horizonte que difumina las barreras para saber qué es verdadero y falso.

La semana pasada aparecía la noticia del escándalo y posterior retirada de una aplicación que, gracias a inteligencia artificial, recreaba el supuesto cuerpo desnudo de cualquier mujer a partir de una foto vestida. La aplicación, llamada 'Deepnude', desapareció a las pocas horas empujada por el escándalo y ante el riesgo de sus desarrolladores de ser sepultados por multas. Sin embargo, su creación y lanzamiento fue suficiente para hacerse una idea de hasta qué punto los montajes mediante sistemas de IA han pasado en poco tiempo de estar restringidos a unos cuantos expertos y programas muy potentes a tener el potencial de caber en el smartphone de cualquiera.

La primera vez que escuchamos la palabra 'deepfake' fue en 2017. Un hilo en Reddit creado por un usuario con ese nombre mostraba GIFs de películas porno en las que se había sustituido los rostros de las actrices originales por celebridades como Gal Gadot o Emilia Clarke.

El usuario supuestamente había creado esas imágenes a partir de aplicaciones mejoradas con TensorFlow, un software liberado por Google de aprendizaje automático que la compañía pone a disposición de investigadores y desarrolladores interesados en machine learning. Después de que los vídeos manipulados aparecieran en distintas webs, multitud de plataformas decidieron eliminarlos. ¿De verdad era tan sencillo comprometer la imagen de algún personaje famoso? Parecía que sí, pero el porno manipulado era quizá la cara más suave del potencial manipulador que iban a tener los 'deepfakes'.

Para entonces ya se había hablando hasta la saciedad de la contaminación de las noticias falsas, 'Posverdad' había sido elegido palabra del año por el diccionario de Oxford, y aunque aún no conocíamos los niveles a los que nos puede exponer nuestra vida digital, el caso de Cambridge Analytica estallaría unos meses más tarde. En definitiva, ya estábamos prevenidos de en qué mundo nos movíamos. Pero dos años después, de vuelta a la actualidad, ya se da por hecho que campañas como las presidenciales de 2020 en Estados Unidos pueden verse seriamente afectadas por la manipulación de vídeos y sonidos de los candidatos, principalmente porque la curva de aprendizaje tanto de los programas como de los usuarios se está recortando hasta el punto de que, seguramente pronto, cualquiera con un ordenador decente y unos mínimos conocimientos de edición pueda poner en quién quiera las palabras que quiera.

'Deepfakes' 2017-2019: de pruebas universitarias a Zuckerberg 'revelando' su plan maestro

En 2017, meses antes de que aparecieran los deepfakes pornográficos en Reddit, un equipo de de la Universidad de Washington cobró atención mediática gracias a un vídeo Barack Obama generado por ordenador que parecía completamente real. Habían creado un programa que a partir de piezas de audio del Presidente generaba movimientos vocales y los insertaba en un vídeo. En total habían necesitado 17 horas de vídeos anteriores de Obama mirando a cámara con planos parecidos de gran calidad para lograr el resultado.

Este Obama 'sintetizado' y su programa podría usarse según los investigadores para mejorar aplicaciones de vídeo-llamada en situaciones de mala conexión. Simplemente, imagina usar Skype: entrenas a la IA con imágenes de tu rostro y luego puedes mantener una conversación solo con audio. La máquina cogerá un vídeo de tu rostro y modelará tu boca según lo que digas.

Parece mentira que solo dos años más tarde esta aplicación tan 'buenista' suene tan naíf. En 2018, un primer vídeo humorístico mezclaba a Jennifer Lawrence poniéndole la cara de Steve Buscemi, y era genial. Un año después, el mes pasado un 'deepfake' de Mark Zuckerberg lo mostraba hablando a cámara y 'revelando' su plan maestro: “Imagine que un solo hombre tiene acceso a los datos y vidas de miles de millones de personas”.

Este falso Zuck había sido creado por una empresa de publicidad que había conseguido desarrollar su propio software para realizar 'deepfakes'. A su vez simbolizaba también un 'trolleo' directo al creador de Facebook que solo unos días antes se había negado a retirar de su red social un vídeo de Nancy Pelosi, Presidenta de la Cámara de Representantes de Estados Unidos, donde por medio de edición cinematográfica -no entraba aquí IA alguna, solo se había ralentizado la imagen y el audio- se simulaba que estaba borracha.

Facebook se negó a retirar el vídeo de Pelosi aludiendo a que según las normas de su comunidad no se elimina contenido solo por ser ficticio, ya que esto limitaría en gran medida las parodias o contenidos humorísticos, aunque sí que tomó la decisión de que apareciera claramente un aviso de que ese vídeo era falso. Tampoco retiró el montaje de Zuckerberg, recogiendo así el guante. Google y por lo tanto Youtube, sí que decidieron eliminar el de Pelosi.

El rostro de Katie Jones, creado por una IA.

Ambos vídeos sirvieron como una clara apelación al potencial manipulador que tienen los 'deepfakes', pero no era el primer caso ni el vídeo el único formato en que actúan. Paul Winfree, un joven miembro del Gabinete de Donald Trump, quedó en entredicho en marzo de 2018 después de que AP publicara que había aceptado una invitación de Linkdin procedente de un perfil de una chica llamada Katie Jones que en realidad nunca había existido y cuya imagen había sido creada por una IA. La cosa fue a más cundo la investigación concluyó que era posible que redes de espionaje estuvieran usando perfiles falsos para acceder a personas influyentes.

Así se crean los 'deepfakes' y pronto habrá aplicaciones para que los hagamos todos

La imagen de la pelirroja Katie Jones, al igual que los montajes generados por vídeos para hacer que alguien diga lo que no ha dicho, son elaborados con el mismo sistema. A partir de una base de imágenes reales (y cuanto más grande, mejor) el software va superponiendo imágenes sintéticas hasta crear el 'deepfake'. Esto se consigue gracias a un proceso de aprendizaje automático o machine learning llamado red de confrontación generativa (GAN por sus siglas en inglés) que consigue que la 'máquina' cada vez genere imágenes más realistas.

Las GAN pueden resumirse como dos inteligencias artificiales que van trabajando y compitiendo en paralelo, es una especie de reto continuo. Una de estas redes -la llamada generativa- crea un rostro artificial en base a la información que se le ha dado. La otra -llamada discriminatoria- evalúa el rostro y dice en qué falla o se puede mejorar. Así la pelota vuelve al punto de partida, de la que saldrá una imagen mejor sucesivamente.

Hasta ahí un sistema que lógicamente exige de unos conocimientos y un control que no están al alcance de todo el mundo... hasta que aparezca la aplicación de smartphone o escritorio que nos permita hacerla a cualquier usuario. 'Deepnude', la app de desnudos surgida esta semana, era en gran medida eso, pero ya en 2018 FakeApp, un programa surgido al calor de los vídeos porno falsos de Reddit, también se prodigó.

FakeApp funciona como una aplicación de escritorio a la que entregas vídeo de la persona que quieras falsear y después va modulando las imágenes originales hasta crear el montaje. Tiene algunas limitaciones para que la pueda usar cualquiera: requiere de un ordenador bastante potente y vídeos de altísima calidad, y aún con todo su nivel de exigencia puede tener a computadoras potentes trabajando durante horas. ¿Pero cuánto tardará en llegar una opción más ligera y sencilla?

El primer reto de una IA ya está aquí, y depende del uso que le demos

Google, Samsung o Adobe están trabajando con software que ya permite realizar vídeos y simular movimientos a partir de imágenes fijas. Y este mes de junio investigadores de la Universidad de Stanford, el Instituto Max Planck de Informática, la Universidad de Princeton y Adobe Research mostraron un nuevo software que utiliza el aprendizaje automático para permitir a los usuarios editar la transcripción del texto de un vídeo para agregar, eliminar o cambiar las palabras que salen de la boca de alguien. Tan sencillo como eso. Escribes un nuevo discurso y el software edita el vídeo.

A continuación, se puede ver una serie de ejemplos, incluida una versión editada de la famosa cita de Apocalypse Now: “me encanta el olor a napalm por la mañana" cambiada por "me encanta el olor a tostada francesa por la mañana." Este software está en etapa de investigación en este momento y no está a la venta, pero probablemente no pasará mucho tiempo hasta que haya servicios similares.

En Estados Unidos, estados como Virginia o Texas han comenzado a ser pioneros en regular el uso de montajes y 'deepfakes', el primero enfocado más en su uso a nivel de vídeos falsos pornográficos y en Texas con respecto a su uso durante la campaña.

La ciencia-ficción ha especulado decenas de veces con Inteligencias Artificiales que se rebelan contra nosotros, pero el primer reto que nos plantean es mucho más sencillo y perverso a la vez. Las IA de generación de imágenes funcionan a la perfección y cada vez lo hacen más rápido; el único problema es el uso que les demos y de qué mecanismos nos dotaremos para distinguir una imagen real de una creada.