Así se entrenan los asistentes de voz para entender problemas de habla

Spread the love

Los asistentes de voz ejemplifican a la perfección el hecho de que las nuevas tecnologías no son neutras. Estos sesgos pueden advertirse en muchos campos. Por ejemplo, es conocida la polémica de los algoritmos de reconocimiento de imagen que confundían a personas de raza negra con primates. También podemos remontarnos más atrás en el tiempo y ver que el cinturón de seguridad de los coches se diseñó con la anatomía masculina en mente. En el caso de los asistentes de voz, se utiliza el aprendizaje de máquinas para comprender a los usuarios y las bases de datos suelen basarse en la dicción estándar. Eso significa que un gran porcentaje de la población con dolencias como la parálisis cerebral o problemas de tartamudez queda marginada cuando, en muchas ocasiones, son quienes más los necesitan. Por suerte, tal como ya existen sistemas para reconocer el lenguaje de los sordomudos, las grandes empresas tecnológicas están trabajando en mejorar el reconocimiento de voz. Una de las últimas ha sido Apple, que ha publicado un artículo sobre su trabajo con una base de datos que cuenta con 32 000 registros a partir de podcasts.

El objetivo de la empresa fundada por Steve Jobs es que su asistente de voz Siri pueda interpretar pausas, prolongaciones, repeticiones y palabras incompletas. Los resultados preliminares, basados en la base de datos Stuttering Events in Podcasts (Casos de tartamudez en podcasts) y FluencyBank, apuntan a una mejora en la precisión del 28 % y el 24 % respectivamente. Hasta ahora, uno de los principales problemas de Siri es que interpretaba las pausas propias de la tartamudez como el fin de la frase, lo que ofrecía resultados de baja calidad. Los investigadores, que han publicado el artículo en arXiv, un archivo abierto para investigaciones científicas, afirman que la tecnología también puede ampliarse a personas afectadas por la disartria, esto es, las dificultades para articular fonemas debido a lesiones del sistema nervioso.

Un esfuerzo conjunto de las grandes tecnológicas

Apple no es la única compañía que está orientando sus esfuerzos a sistemas de reconocimiento de voz más inclusivos. Por un lado, Google está recopilando muestras de habla con mayor diversidad para atender las necesidades de este sector de la población. Además, en el marco del proyecto Euphonia, ya está probando un prototipo de app mediante el cual las personas con dicción atípica podrán entrenar sus dispositivos para que tomen en consideración su manera específica de hablar.

Por otro lado, Amazon anunció en diciembre de 2020 la integración de la tecnología de una startup israelí en su asistente Alexa. La tecnología, de manera similar al proyecto de Google, permitirá a cada usuario entrenar el algoritmo con sus propias particularidades. Se espera que la opción esté operativa a lo largo de 2021.

Hasta ahora, los asistentes de voz se basaban en patrones de voz y tonalidades comunes que trascendían los acentos concretos. Sin embargo, se considera que el reto de ampliar el reconocimiento de voz a personas con tartamudez y disartria es mucho más complejo. En primer lugar, porque las bases de datos son más reducidas y, en segundo lugar, porque la variabilidad de los hablantes es infinitamente mayor. Por suerte, los avances en inteligencia artificial y aprendizaje de máquinas están abriendo la puerta a una nueva era de accesibilidad para todos en el campo de los asistentes de voz. Si te interesa saber más acerca de este tipo de aplicaciones, te recomendamos este artículo sobre uso de wearables y móviles para mejorar la accesibilidad.

Fuente: Wall Street Journal

Un esfuerzo conjunto de las grandes tecnológicas

Leave a Reply Cancel reply