Los videomontajes hiperrealistas podrían conducirnos a un escenario donde tendría validez el eslogan que promocionó Dentro del laberinto: “El lugar en el que todo parece posible, pero nada es lo que parece”. Como muestra de ello, basta con echar un vistazo a esta farsa publicada en BuzzFeed el pasado abril y en la que Obama afirma que Trump es “un completo idiota”.
El alter ego del expresidente de Estados Unidos en esta recreación es el actor y cineasta Jordan Peele, director de la oscarizada Déjame salir y cuñado de Jonah Peretti, fundador de BuzzFeed. Ambos idearon este experimento para advertir de los potenciales peligros de aplicar la inteligencia artificial (IA) para fabricar noticias falsas en formato audiovisual, lo que se ha bautizado como deepfakes, es decir, mentiras profundas.
Según Francisco Javier Ordóñez, director de Inteligencia Artificial en StyleSage, este vídeo es una prueba de concepto que ilustra sobre las posibilidades de una serie de algoritmos que se conocen como modelos generativos y que son capaces de memorizar cuáles son las características de una fuente de datos para después crear nuevos ejemplos de esos datos desde cero. “De esta forma, si la fuente de datos son imágenes de Obama, el algoritmo es capaz de generar las expresiones y gestos faciales necesarios para simular un discurso que no existe”, apunta Ordóñez.
Pero detrás de la manipulación hay un arduo y lento trabajo. No en vano, esos 70 segundos del vídeo de BuzzFeed necesitaron más de 56 horas de renderización, un procesamiento automático posterior a la edición que en este caso fue realizada con Adobe After Effects y FakeApp, el software de inteligencia artificial que generó polémica a principios de año porque sus técnicas de deep learning se usaron para sustituir las caras de actrices de películas porno por las de famosas de Hollywood en vídeos que después se compartían en Reddit.
Por muy bueno que sea el resultado, un deepfake puede ser detectado rápidamente por alguien familiarizado con los modelos generativos y las técnicas del style transfer que replican los movimientos de un rostro en otro distinto. Por ejemplo, Jorge Muñoz, socio cofundador de Serendeepia, saca a relucir aspectos de las imágenes que no parecen naturales, como el movimiento del cuerpo y la entonación de la voz, aunque reconoce que ya existen montajes muy realistas, como los llamados deep video portraits, que superan esas limitaciones. “El mayor problema de estas técnicas es que requieren una gran cantidad de datos para poder entrenarlas, por lo que hoy en día únicamente veremos contenidos así sobre personas famosas de las que se pueden encontrar millones de horas de vídeo de alta calidad en Internet”, asegura.
Aun así, Raúl Arrabales, director de Inteligencia Artificial en Psicobótica, matiza que realizar un montaje con un busto parlante es mucho más fácil que con otro tipo de escenas en las que la complejidad es mayor, lo cual propicia la llegada de los contenidos en vídeo al ámbito de las fake news, ya que aunque un experto puede notar que el mensaje de Obama es falso, “para el gran público puede pasar por verdadero”. Para comprobarlo, hemos mostrado el trabajo de BuzzFeed a Julio Montes, cofundador de Maldito Bulo, quien manifiesta su preocupación así de tajante: “Si te llega este vídeo, te lo cuelan fijo. No hay duda de que el peligro es claro, pero la cuestión es que ahora mismo los malos, los que desinforman, los que ganan pasta o buscan influir ideológicamente con desinformaciones ni siquiera necesitan ese nivel de perfección para conseguir su objetivo”.
Según Montes, hoy en día hay dos formatos principales a la hora de divulgar un bulo: las imágenes con capturas de titulares inventados y los audios falsos con testimonios sobre algo malo que va a pasar (como una amenaza de atentado). “De momento, lo que recibimos para verificar no llega a la perfección del montaje de Obama, pero los deepfakes se van a generalizar y debemos estar preparados para hacerles frente, algo para lo que se necesita la unión de periodistas, ingenieros, universidades y otras plataformas”. De entrada, hace unos días la FAPE trasladó al Ministerio de Trabajo la propuesta de incluir una asignatura de periodismo en los cuatro cursos de la ESO para enseñar a distinguir entre noticias reales y falsas.
- Buenos y malos con las mismas armas
Los propios algoritmos de deep learning pueden usarse para detectar deepfakes de forma automática e incluso para generar “falsificaciones de laboratorio” que sirvan como ejemplares de entrenamiento para detectores de vídeos, imágenes y documentos falsos. De esta forma se podrán bloquear dichos contenidos o al menos advertir al consumidor final de que está viendo algo generado por ordenador. Sin embargo, esto puede derivar en una competición constante entre modelos que generan vídeos hiperrealistas y modelos que detectan esos vídeos generados. “Aquí la clave está en que la red que publica los contenidos tenga más capacidad de cómputo, mejores algoritmos y mejor entrenamiento que los autores de los contenidos maliciosos. Como en otros aspectos de la ciberseguridad, se establece una carrera entre los buenos y los malos y el que esté más avanzado tecnológicamente tendrá ventaja sobre el otro”, comenta Arrabales.
Rizando el rizo, Ordóñez apunta que una de las consecuencias de que los modelos generativos tengan dicha capacidad de imitación es que se pueden configurar para engañar a otros algoritmos, generando datos que no puedan detectarse como falsos. Esto tiene su lado oscuro en otros muchos ámbitos, no solo en el de las fake news, ya que el poder generar datos sintéticos indistinguibles de los datos reales puede usarse para engañar algoritmos de IA que estén integrados en sistemas críticos y de seguridad. La técnica para explotar esta vulnerabilidad se ha bautizado como “ataque antagónico” y según Ordóñez podría emplearse para burlar controles automáticos de seguridad (como los de los aeropuertos) o engañar sistemas críticos basados en IA (como el sistema de control de un coche autónomo, haciendo que el vehículo no reconozca las señales correctamente).
En las tripas de un ‘deepfake’
Las más recientes revoluciones de la inteligencia artificial (IA) proceden de unos algoritmos concretos: las redes neuronales profundas o deep learning. Según Francisco Javier Ordóñez, director de IA en StyleSage, estos algoritmos están teniendo un éxito sin precedentes en la manipulación de imágenes, vídeo, audio y texto debido fundamentalmente a los avances en tres áreas.
1. Procesamiento computacional. Alrededor de 2012, los ordenadores empezaron a usar para la IA los chips gráficos que tradicionalmente se han usado para procesamiento de vídeo (conocidas como GPU), lo cual propició un aumento exponencial en la capacidad computacional de las máquinas.
2. Datos disponibles. La llegada del big datasupuso un grandísimo impulso para los algoritmos basados en redes neuronales, dado que aprenden mejor a medida que tienen más datos disponibles.
3. Mejoras algorítmicas. También alrededor de 2012, una serie de optimizaciones en los algoritmos, propuestas por diversos investigadores, hizo posible que estos pudieran hacer uso de todos los datos disponibles actualmente.
Fuente: Retina El Pais