Uno de los mayores desafíos que enfrenta la optimización del aprendizaje automático en el reconocimiento de voz hoy en día es la inserción de números, como fechas y direcciones. Este tipo de datos son cruciales para los sectores donde los números son críticos, como las finanzas, el desarrollo de software y la atención médica.
Para combatir este problema, el proveedor de reconocimiento de voz de IA Speechmatics ha lanzado ‘Formato de entidad’ para su plataforma. Esta actualización utiliza la normalización de texto inverso (ITN) para interpretar con mayor precisión cómo deben aparecer en forma escrita entidades como números, monedas, porcentajes, direcciones, fechas y horas. Esto, a su vez, hace que las transcripciones sean más legibles y reduce las tareas administrativas posteriores al procesamiento.
En una conversación con Information Age, el líder del equipo de precisión de Speechmatics, John Hughes , analizó por qué los valores numéricos son un obstáculo tan grande en este espacio y cómo las organizaciones pueden aprovechar al máximo esta tecnología.
¿Por qué los modelos de aprendizaje automático tienen problemas con el formato de números?
El formato de entidades como números, fechas, horas y direcciones es un gran desafío para el aprendizaje automático. Los números vienen en muchas formas diferentes y se usan en muchos contextos diferentes. Intuitivamente, nosotros, como humanos, sabemos cómo se usa un número en casi cualquier contexto. Sin embargo, para las máquinas, esto es mucho más difícil. Y hasta ahora, el problema para los usuarios finales de la tecnología de reconocimiento de voz ha sido que tienen que descifrar o corregir manualmente las transcripciones que produce el software. Es una pérdida de tiempo revisar las entidades que aparecen como lenguaje básico. Por ejemplo, el motor de aprendizaje automático debe poder comprender que la frase hablada ‘ochenta y tres por ciento’ debe aparecer como ‘83%’, o que debe poder comprender que ‘oh’ podría ser una exclamación, pero podría también ser el hablante refiriéndose al número cero.
De hecho, esto ocurre incluso antes de que comencemos a abordar las complejidades de lograr esto en varios idiomas. Las cifras financieras y las monedas son otro buen ejemplo: solo tiene que imaginar cómo se verían 32.574,82 libras esterlinas en el texto si se escribieran en su totalidad. Tener en cuenta estos matices y ambigüedades en el lenguaje es lo que hace que esta sea un área tan difícil de abordar y, sin embargo, obtener los números correctos en industrias particulares es fundamental, por lo que los clientes deben poder confiar en su tecnología para hacerlo bien. Muchos clientes de nivel empresarial utilizan nuestro software en finanzas, medios y una variedad de otras industrias donde los números se usan continuamente en muchos contextos.
¿Cómo ayudarán las últimas actualizaciones del reconocimiento de voz autónomo de Speechmatics a los CTO a generar valor a partir del aprendizaje automático?
A medida que los CTO buscan la transformación digital y la adopción de la innovación para optimizar los procesos, el aprendizaje automático tiene un papel importante que desempeñar. Para los líderes tecnológicos, el principal beneficio de esta última incorporación al motor Speechmatics será el tiempo. Por lo general, el trabajo de procesamiento posterior de las transcripciones es una tarea que requiere mucho tiempo y requiere que alguien corrija manualmente cualquier error que haya cometido el motor. Este puede ser un proceso frustrante, especialmente si ha incorporado tecnología de reconocimiento de voz en su pila para crear eficiencias. Hay muchas industrias en las que obtener los números correctos para las tareas de voz a texto es crucial, y los clientes que operan en industrias numéricamente intensivas deben estar seguros de que su tecnología es una ayuda y no un obstáculo.
¿Cómo pueden las organizaciones mejorar el reconocimiento de voz/audio dentro del aprendizaje automático?
Al igual que con muchos de los mayores desafíos del aprendizaje automático, todo se reduce a los datos. El uso de datos etiquetados manualmente puede ser una gran limitación en términos de dar a los modelos de aprendizaje automático suficiente contexto para realizar tareas complejas. Sin embargo, mediante el uso de modelos de aprendizaje autosupervisados, podemos aumentar enormemente la cantidad de fuentes de datos disponibles. Este método toma grandes cantidades de datos sin etiquetar y utiliza alguna propiedad de los datos mismos para construir una tarea supervisada, sin necesidad de intervención humana. Así es como logramos enfrentar este desafío particular: la tecnología de reconocimiento de voz autónomo de Speechmatics ahora está entrenada en 1,1 millones de horas de audio sin etiquetar y 30,000 horas de audio etiquetado (como se usaba antes del reconocimiento de voz autónomo).
¿Hay otras áreas contextuales que el equipo de Speechmatics esté buscando mejorar, como los acentos y el formato del habla?
En Speechmatics, siempre estamos buscando formas de mejorar nuestro motor y mantener nuestra posición de líder en el mercado. El reconocimiento de voz estará cada vez más interconectado a lo largo de nuestras vidas; por ejemplo, incluso ahora, el 50 por ciento de todas las búsquedas se completan con la voz y esto no muestra signos de desaceleración. En última instancia, queremos que el reconocimiento de voz entienda cada voz. La innovación perpetua es el núcleo de lo que hacemos: nuestro equipo de expertos líderes en la industria busca constantemente formas de lograrlo, ya sea en idiomas, acentos, dialectos, etnias, tono y más.
Fuente:
Hurst, A. (2022ad, junio 15). Q&A: machine learning optimisation through speech recognition. Information Age. Recuperado 17 de junio de 2022, de https://www.information-age.com/qa-machine-learning-optimisation-through-speech-recognition-123499563/