Gracias al avance de la tecnología deepfake, es cada vez más fácil clonar las voces de las personas. Algunos usos de la tecnología, como la creación de voces en off para llenar los vacíos en Roadrunner , el documental sobre Anthony Bourdain lanzado el verano pasado, son inofensivos (aunque incluso la ética de este movimiento se debatió acaloradamente cuando salió la película). En otros casos, sin embargo, las voces fingidas se utilizan para fines que son claramente nefastos, como robar millones de dólares.
Un artículo publicado la semana pasada por Forbes que un grupo de ciberdelincuentes en los Emiratos Árabes Unidos utilizó tecnología deepfake como parte de un atraco a un banco que transfirió un total de 35 millones de dólares fuera del país a cuentas de todo el mundo.
Money Heist, Edición de voz
Todo lo que necesitas para hacer una versión falsa de la voz de alguien es una grabación de esa persona hablando. Al igual que con cualquier sistema de aprendizaje automático cuya salida en función de la cantidad y calidad de sus datos de entrada, una voz falsa sonará más como algo real si hay más grabaciones de las que el sistema puede aprender.
En este caso, los delincuentes utilizaron software deepfake para recrear la voz de un ejecutivo de una gran empresa (los detalles de la empresa, el software utilizado y las grabaciones para entrenar dicho software no parecen estar disponibles). Luego hicieron llamadas telefónicas a un gerente de banco con quien el ejecutivo tenía una relación preexistente, lo que significa que el gerente del banco conocía la voz del ejecutivo. Los imitadores también enviaron correos electrónicos falsificados al gerente del banco confirmando los detalles de las transacciones solicitadas. Entre los correos electrónicos y la voz familiar, cuando el ejecutivo le pidió al gerente que autorizara la transferencia de millones de dólares entre cuentas, el gerente no vio ningún problema en seguir adelante y hacerlo.
El fraude tuvo lugar en enero de 2020, pero la semana pasada se presentó un documento judicial relevante en los EE. UU. Los funcionarios de los Emiratos Árabes Unidos están pidiendo a los investigadores de los EE. UU. Que ayuden a rastrear $ 400,000 del dinero robado que se destinó a cuentas bancarias estadounidenses en el Centennial Bank.
Nuestras voces, nosotros mismos
La forma antigua (“antigua” en este contexto, que significa antes del aprendizaje automático era tan omnipresente como lo es hoy) de hacer una voz humana falsa era grabar una voz humana real, dividir esa grabación en muchas sílabas distintas del habla y luego pegar esas sílabas juntas en innumerables permutaciones para formar las palabras que querías que dijera la voz. Fue tedioso y produjo una voz que no sonaba en absoluto realista.
Es fácil diferenciar las voces de las personas cercanas a nosotros y reconocer las voces famosas, pero no solemos pensar en los muchos componentes que a que una voz sea única. Está el timbre y el tono, que se nombran a dónde cae una voz en un intervalo de notas de bajo a alto. Está la cadencia, que es el ritmo del hablante y las variaciones en el tono y el énfasis en diferentes palabras o partes de una oración. Hay pronunciación y peculiaridades como acentos regionales o ceceo.
En resumen, nuestras voces son completamente únicas, lo que hace que sea aún más espeluznante que se vuelvan más fáciles de recrear sintéticamente.
Voces falsas por venir
¿Es el atraco al banco de los Emiratos Árabes Unidos un presagio de crímenes por venir? Desafortunadamente, la respuesta es muy probable que sí. No es el primer intento de este tipo, pero es el primero en lograr robar una suma tan grande de dinero con una voz fingida. En 2019, un grupo de delincuentes fingió la voz del director ejecutivo de una empresa de energía con sede en el Reino Unido para que se transfirieran 243.000 dólares a una cuenta bancaria húngara.
Muchas versiones diferentes de software de audio deepfake ya están disponibles comercialmente, incluidas versiones de compañías como Lyrebird (que solo necesita una grabación de un minuto para crear una voz falsa, aunque ligeramente vacilante y parecida a un robot), Descript , Sonantic y Veritone , para nombrar solo algunos.
Estas empresas tienen la intención de que sus productos se utilicen para bien, y ciertamente existen algunos casos de uso positivo; las personas con discapacidades del habla o parálisis podrían usar el software para comunicarse con quienes les rodean, por ejemplo. Veritone comercializa su software para que lo utilicen personas famosas que quieran licenciar sus voces para cosas como la promoción de productos. Sonantic creó recientemente un clon de voz para Val Kilmer , cuya voz resultó dañada por su batalla contra el cáncer de garganta. La grabación de audiolibros o podcasts de noticias también podría ser una aplicación productiva de la tecnología, ya que en este momento una persona tiene que leer en voz alta durante las horas o el oyente obtiene una voz artificial computarizada que no es muy agradable de escuchar.
Otras empresas ya están utilizando la IA para luchar contra la IA; Video Authenticator de Microsoft , lanzado hace poco más de un año, analiza videos e imágenes y les dice a los usuarios el porcentaje de probabilidad de que hayan sido manipulados artificialmente. Del mismo modo, Reality Defender de la Fundación AI utiliza algoritmos de detección de medios sintéticos para identificar contenido falso. Facebook , Twitter y YouTube han tomado medidas para intentar prohibir y eliminar deepfakes de sus sitios.
Pero esta tecnología solo se volverá más sofisticada y en todos los ámbitos: voz, imagen y video. Combatir la tecnología con más o mejor tecnología puede ser una de nuestras mejores esperanzas, pero también es importante crear conciencia sobre los deepfakes e inculcar un amplio sentido de escepticismo en las personas en torno al contenido que ven en línea.
Esperemos que el incidente del atraco a un banco en los Emiratos Árabes Unidos infunda un escepticismo similar en las personas que trabajan en los bancos, de modo que las voces fingidas que ayudan a los estafadores a robar dinero no se conviertan en algo más común.
Crédito de la imagen: John McGehjee / Wikimedia Commons
Ramirez, VB (2021g, 21 de octubre). Criminales expertos en inteligencia artificial clonan la voz de un ejecutivo en un atraco bancario de $ 35 millones en Deepfake. Recuperado 21 de octubre de 2021, de https://singularityhub.com/2021/10/20/ai-savvy-criminals-pulled-off-a-35-million-deepfake-bank-heist/