Algunas personas carecen del poder del habla, mientras que otras pueden encontrarse en entornos ruidosos donde pronunciar comandos de voz en voz alta simplemente no funcionará. Esas personas podrían tener uso para las gafas EchoSpeech, que leen las palabras habladas en silencio de sus usuarios.
Las gafas experimentales están siendo desarrolladas por un equipo del Laboratorio de Interfaces de Computadoras Inteligentes para Interacciones Futuras (SciFi) de la Universidad de Cornell.
Dos altavoces en miniatura orientados hacia abajo están montados en la parte inferior del marco debajo de una lente, mientras que dos mini micrófonos están ubicados debajo de la otra. Los parlantes emiten ondas de sonido inaudibles, que se reflejan en la boca en movimiento del usuario y regresan a los micrófonos.
Esos ecos se analizan en tiempo real mediante un algoritmo de aprendizaje profundo en un teléfono inteligente conectado de forma inalámbrica. Ese algoritmo fue entrenado para asociar ecos específicos con movimientos específicos de la boca, que a su vez están asociados con comandos específicos hablados en silencio.
Actualmente, EchoSpeech es capaz de reconocer 31 de estos comandos con un 95% de precisión y solo requiere unos minutos de entrenamiento para cada usuario. Y lo que es más importante para las personas preocupadas por la privacidad, el sistema no incorpora ninguna cámara ni envía información a Internet.
Además, debido a que no utiliza una cámara que consume mucha energía, puede funcionar hasta 10 horas con una sola carga de su batería. Por el contrario, los investigadores afirman que los sistemas experimentales basados en cámaras solo son buenos para unos 30 minutos de uso por carga.
La universidad ahora está trabajando en la comercialización de la tecnología.
“Para las personas que no pueden vocalizar el sonido, esta tecnología de voz silenciosa podría ser una excelente entrada para un sintetizador de voz”, dijo el estudiante de doctorado Ruidong Zhang, quien dirige el estudio. “Podría devolverles a los pacientes la voz”.
SciFi Lab desarrolló previamente un sistema algo similar llamado EarIO , que utiliza un dispositivo de oído equipado con sonar para capturar las expresiones faciales del usuario, aunque se utiliza principalmente para crear avatares digitales. Dicho esto, el sistema EarCommand de la Universidad de Buffalo lee palabras habladas en silencio a través de un auricular que detecta deformaciones distintivas del canal auditivo producidas por movimientos específicos de la boca.
EchoSpeech se demuestra en el siguiente video.
Fuente: Universidad de Cornell
Coxworth, B. (2023, 6 abril). Sonar-enabled glasses read wearers’ silently spoken voice commands. New Atlas. https://newatlas.com/wearables/echospeech-glasses-silently-spoken-voice-commands/