Su acento, emoción y entonación son míos del todo. Y, sin embargo, ahora sueno como una mujer joven de voz aguda. Este “revestimiento de voz” femenina es obra de Modulate.ai, una compañía de Massachusetts (EE.UU.). La empresa utiliza aprendizaje automático para copiar, modelar y manipular las propiedades de la voz de una forma nueva y poderosa.
Aquí está mi voz real:
Esta tecnología va más allá de los simples filtros de voz que pueden hacernos sonar como Kylo Ren. El sistema permite adoptar cualquier edad, género o tono que desee, todo en tiempo real. También permite apropiarse de la voz de una celebridad. E incluso podría mantener una larga conversación telefónica con la voz de Katie si quisiera.
Visité las oficinas centrales de Modulate para hablar sobre su tecnología y ambiciones, y para aclarar las implicaciones éticas de usar inteligencia artificial (IA) para copiar la voz de otra persona. En una cabina insonorizada, probé algunos de los disfraces vocales de la compañía.
Este soy yo con otra voz distinta:
Aunque la tecnología de modificación de voz no es perfecta, me parece extraordinariamente buena y mejora a medida que recibe más datos de voz. También muestra cómo los avances en el aprendizaje automático están comenzando a alterar rápidamente la realidad digital. Modulate utiliza las redes generativas antagónicas (GAN) para capturar y modelar las propiedades de audio de una señal de voz. Las GAN enfrentan dos redes neuronales entre sí en una batalla para capturar y reproducir las propiedades de un conjunto de datos de una manera convincente (ver El señor de las GAN: el hombre que dio imaginación a las máquinas).
El aprendizaje automático ha hecho posible intercambiar las caras de dos personas en un vídeo. Para ello solo hace falta un software que se puede descargar de forma gratuita. Los investigadores de IA están utilizando las GAN y otras técnicas para manipular escenas de vídeos e incluso inventar caras falsas increíblemente realistas pero que no existen.
Modulate tiene una voz de demostración de Barack Obama en su página web, y el cofundador y CEO, Mike Pappas, afirma que, con los datos suficientes, podría generar un disfraz con la voz de cualquiera. Pero añade que la compañía no pondrá a disposición la voz de nadie sin el permiso del propietario. También insiste en que el engaño no es el objetivo principal. Pappas defiente: “No se trata de una tecnología creada para imitar a las personas. Está hecha para ofrecer nuevas oportunidades”.
El objetivo de Modulate está en los juegos online como Fornite o Call of Duty, en los que los jugadores pueden hablar con extraños a través de un micrófono. La tecnología podría mejorar el juego, pero también puede abrir la puerta al abuso y al acoso.
El CEO detalla: “Cuando queremos interactuar online y tener experiencias realmente profundas, las voces son cruciales. Pero algunas personas no están dispuestas a poner su voz real ahí afuera. En algunos casos, les gustaría permanecer en el anonimato. En otros casos, les preocupa revelar su edad o género por si acaban siendo acosados”.
El profesor de la Universidad de Nueva York (EE.UU.) especializado en difusión de información falsa Charles Seife cree que esta tecnología parece mucho más avanzada que otras tecnologías de modificación de voz. Y opina que la capacidad actual de la IA de manipular vídeo y audio tiene el potencial de alterar los medios de una manera fundamental. El experto sentencia: “Tenemos que empezar a pensar en qué constituye la realidad”.
El especialista en síntesis y manipulación de voz en la Universidad de Tampere (Finlandia) Tuomas Virtanen agrega: “Hasta ahora, la calidad de la tecnología de conversión de voz era baja, por lo que uno podía distinguir fácilmente una voz convertida. Pero imagino que dentro de poco la calidad será lo suficientemente buena como para que la conversión no se pueda detectar fácilmente”.
Modulate es consciente de que su tecnología puede ser utilizada de forma indebida. Por eso asegura que buscará garantías de que cualquier cliente que copie la voz de alguien tenga permiso de esa persona. También ha desarrollado una tecnología de marca de audio que podría utilizarse para detectar una voz copiada. Este sistema emitiría una alerta si alguien está utilizando una voz falsa en una llamada, por ejemplo.
El cofundador y CTO, Carter Huffman, asegura: “Hemos incorporado garantías éticas desde cero, desde cómo distribuimos nuestra tecnología, hasta cómo seleccionamos las voces que ofrecemos, y cómo marcamos nuestras grabaciones de audio para detectarlas en algunos sistemas sensibles”.
Modulate puede limitar el uso indebido de su propia tecnología, pero en realidad, cualquiera podría crear una tecnología similar de forma independiente y cedérsela a personas para su uso indebido. Así que lo que toca preguntarse es, ¿hasta qué nivel podría ser usado con malas intenciones, y si la sociedad se volverá más cuidadosa en ese aspecto?
Pappas se muestra optimista y cree que el potencial de las falsificaciones de la IA a menudo es exagerado. El CEO concluye: “Definitivamente es algo de lo que nos gustaría estar al tanto, pero las facetas de la sociedad no se están derrumbando por eso. Tenemos herramientas para manejarlo”.
Fuente: technologyreview.es