u voz revela más sobre ti de lo que crees. Para el oído humano, su voz puede revelar instantáneamente su estado de ánimo, por ejemplo, es fácil saber si está emocionado o molesto. Pero las máquinas pueden aprender mucho más: inferir su edad, género, etnia, estatus socioeconómico, condiciones de salud y más. Los investigadores incluso han podido generar imágenes de rostros a partir de la información contenida en los datos de voz de las personas.
A medida que las máquinas se vuelven mejores para comprenderlo a través de su voz, las empresas están sacando provecho. Los sistemas de reconocimiento de voz, desde Siri y Alexa hasta aquellos que usan su voz como contraseña, han proliferado en los últimos años a medida que la inteligencia artificial y el aprendizaje automático han desbloqueado la capacidad de comprender. no sólo lo que estás diciendo sino quién eres. Big Voice puede ser una industria de $ 20 mil millones dentro de unos pocos años. Y a medida que el mercado crece, los investigadores centrados en la privacidad buscan cada vez más formas de proteger a las personas de que sus datos de voz se utilicen en su contra.
Tanto las palabras que dice como la forma en que las dice pueden usarse para identificarlo, dice Emmanuel Vincent, científico investigador principal especializado en tecnologías de voz en el Instituto Nacional de Investigación en Ciencia y Tecnología Digital (Inria) de Francia, pero esto es solo el comienzo. . “También encontrará otra información sobre sus emociones o su condición médica”, dice Vincent.
“Esta información adicional ayuda a crear un perfil más completo, luego se usaría para todo tipo de anuncios dirigidos”, dice Vincent. Además de que sus datos de voz podrían alimentar el vasto ámbito de los datos utilizados para mostrarle anuncios en línea, también existe el riesgo de que los piratas informáticos puedan acceder a la ubicación donde se almacenan sus datos de voz y usarlos para hacerse pasar por usted. Ya ha ocurrido un pequeño número de estos incidentes de clonación , lo que demuestra el valor que tiene su voz. Las estafas de llamadas automatizadas simples también han registrado a personas que dicen “sí” para usar la confirmación en estafas de pago .
El año pasado, TikTok cambió sus políticas de privacidad y comenzó a recopilar huellas de voz , un término impreciso para los datos que contiene su voz, de personas en los EE. UU. junto con otros datos biométricos, como su huella facial. En términos más generales, los centros de llamadas están utilizando IA para analizar el “comportamiento y las emociones” de las personas durante las llamadas telefónicas y evaluar el “tono, el ritmo y el tono de cada palabra” para desarrollar perfiles de personas y aumentar las ventas . “Estamos casi en una situación en la que existen los sistemas para reconocer quién es usted y vincular todo, pero la protección no está allí, y todavía está bastante lejos de ser fácilmente utilizable”, dice Henry Turner, quien investigó la seguridad de sistemas de voz en la Universidad de Oxford.
Tu voz se produce a través de un proceso complejo que involucra los pulmones y la laringe, la garganta, la nariz, la boca y los senos paranasales. Más de cien músculos se activan cuando hablas, dice Rébecca Kleinberger, investigadora de voz en el MIT Media Lab. “También es mucho el cerebro”, dice Kleinberger.
Los investigadores están experimentando con cuatro formas de mejorar la privacidad de su voz, dice Natalia Tomashenko, investigadora de la Universidad de Avignon, Francia, que ha estado estudiando la voz y es la primera autora de un artículo de investigación sobre los resultados de un desafío de ingeniería de privacidad de voz . Ninguno de los métodos es perfecto, pero se están explorando como posibles formas de aumentar la privacidad en la infraestructura que procesa sus datos de voz.
Primero está la ofuscación, que trata de ocultar por completo quién es el hablante. Piense en una representación de Hollywood de un hacker que distorsiona totalmente su voz durante una llamada telefónica mientras explica un complot diabólico o un rescate (o los videos promocionales del colectivo hacktivista Anonymous ). El hardware de cambio de voz simple permite que cualquier persona cambie rápidamente el sonido de su voz. Los sistemas de voz a texto a voz más avanzados pueden transcribir lo que está diciendo y luego revertir el proceso y decirlo con una nueva voz .
En segundo lugar, dice Tomashenko, los investigadores están analizando el aprendizaje distribuido y federado, donde sus datos no salen de su dispositivo, pero los modelos de aprendizaje automático todavía aprenden a reconocer el habla al compartir su entrenamiento con un sistema más grande . Otro enfoque consiste en construir una infraestructura encriptada para proteger las voces de las personas de la intromisión. Sin embargo, la mayoría de los esfuerzos se centran en la anonimización de la voz.
La anonimización intenta que su voz suene humana mientras elimina la mayor cantidad posible de información que podría usarse para identificarlo. Los esfuerzos de anonimización del habla actualmente involucran dos líneas separadas: anonimizar el contenido de lo que alguien dice eliminando o reemplazando cualquier palabra sensible en los archivos antes de que se guarden y anonimizando la voz en sí. La mayoría de los esfuerzos de anonimización de voz en este momento implican pasar la voz de alguien a través de un software experimental que cambiará algunos de los parámetros en la señal de voz para que suene diferente. Esto puede implicar alterar el tono, reemplazar segmentos de voz con información de otras voces y sintetizar el resultado final.
¿Funciona la tecnología de anonimización? Los clips de voz masculinos y femeninos que se anonimizaron como parte del Voice Privacy Challenge en 2020 definitivamente suenan diferentes. Son más robóticos, suenan un poco doloridos y podrían, al menos para algunos oyentes, ser de una persona diferente a los clips de voz originales. “Creo que ya puede garantizar un nivel de protección mucho más alto que no hacer nada, que es el estado actual”, dice Vincent, quien ha podido reducir la facilidad para identificar a las personas en la investigación de anonimización.. Sin embargo, los humanos no son los únicos oyentes. Rita Singh, profesora asociada en el Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, dice que la desidentificación total de la señal de voz no es posible, ya que las máquinas siempre tendrán el potencial de establecer vínculos entre atributos e individuos, incluso conexiones que no son claras. a humanos. “¿La anonimización es con respecto a un oyente humano o es con respecto a un oyente de máquina?” dice Shri Narayanan, profesor de ingeniería eléctrica e informática en la Universidad del Sur de California.
“La verdadera anonimización no es posible sin cambiar completamente la voz”, dice Singh. “Cuando cambias completamente la voz, entonces no es la misma voz”. A pesar de esto, aún vale la pena desarrollar tecnología de privacidad de voz, agrega Singh, ya que ningún sistema de privacidad o seguridad es totalmente seguro. Las huellas dactilares y los sistemas de identificación facial de los iPhone se han falsificado en el pasado , pero, en general, siguen siendo un método eficaz para proteger la privacidad de las personas.
Su voz se utiliza cada vez más como una forma de verificar su identidad. Por ejemplo, un número creciente de bancos y otras empresas están analizando sus huellas de voz, con su permiso, para reemplazar su contraseña. También existe la posibilidad de que el análisis de voz detecte enfermedades antes de que otros signos sean evidentes. Pero la tecnología para clonar o falsificar la voz de alguien avanza rápidamente.
Si tiene algunos minutos de la voz de alguien grabada, o en algunos casos algunos segundos, es posible recrear esa voz usando el aprendizaje automático . Los actores de voz de Los Simpson podrían ser reemplazados por clones de voz profundamente falsos , por ejemplo. Y las herramientas comerciales para recrear voces están fácilmente disponibles en línea . “Definitivamente hay más trabajo en la identificación del hablante y la producción de voz a texto y de texto a voz que en la protección de las personas de cualquiera de esas tecnologías”, dice Turner.
Muchas de las técnicas de anonimización de voz que se están desarrollando en este momento todavía están muy lejos de ser utilizadas en el mundo real. Cuando estén listos para usarse, es probable que las empresas tengan que implementar herramientas por sí mismas para proteger la privacidad de sus clientes; actualmente, hay poco que las personas puedan hacer para proteger su propia voz. Evitar las llamadas con centros de llamadas o empresas que usan análisis de voz y no usar asistentes de voz podría limitar cuánto se graba su voz y reducir posibles oportunidades de ataque.
Pero las mayores protecciones pueden provenir de casos y protecciones legales. El RGPD de Europa cubre los datos biométricos, incluidas las voces de las personas, en sus protecciones de privacidad. Las pautas dicen que se debe informar a las personas cómo se utilizan sus datos y dar su consentimiento si se los identifica, y que se deben imponer algunas restricciones a la personalización. Mientras tanto, en los EE. UU., los tribunales de Illinois, sede de algunas de las leyes biométricas más estrictas del país, están inspeccionando cada vez más casos que involucran datos de voz de personas. McDonald’s, Amazon y Google enfrentan un escrutinio judicial sobre cómo usan los datos de voz de las personas. Las decisiones en estos casos podrían establecer nuevas reglas para la protección de la voz de las personas.
Fuente:
Burgess, M. (2022, 1 junio). The Race to Hide Your Voice. WIRED UK. Recuperado 7 de junio de 2022, de https://www.wired.co.uk/article/voice-recognition-privacy-speech-changer