Meta diseña el modelo avanzado de traductor multimodal con inteligencia artificial (IA) generativa, SeamlessM4T, con reconocimiento automático de voz y capaz de traducir de forma instantánea conversaciones de voz a voz en un centenar de idiomas. La revista Nature publica este importante avance tecnológico que puede ser el precursor de traducciones simultáneas para cualquier idioma.
El modelo de inteligencia artificial (IA) generativa liderado por la compañía Meta,SeamlessM4T, puede traducir y transcribir voz y texto de forma automática en 101 idiomas de origen y hasta 36 idiomas de destino: genera texto traducido a 96 idiomas, pero solo puede producir una traducción hablada en 35.
Este sistema de traducción multilingüe es un avance significativo en sistemas de traducción más rápidos, fiables y transfronterizos. La compañía dirigida por Mark Zuckerberg ya publicó una demo junto con una primera versión del estudio en agosto de 2023.
La aplicación incorpora aspectos fonológicos y fonéticos poco explorados hasta ahora que mejoran el ritmo, los matices y la emoción del habla, lo que proporciona traducciones más auténticas y expresivas y una latencia en el proceso de apenas dos segundos. En términos de rendimiento, este modelo traductor supera a los mejores sistemas anteriores en diversas métricas, con una mejora de más del 20%.
El modelo agrupa tecnologías anteriormente desarrolladas en I+D en IA (SeamlessExpressive, SeamlessStreaming y Seamless) e integra capacidades combinadas de modelos de traducción de habla a habla (S2ST), habla a texto (S2TT),texto a habla (T2ST) y texto a texto (T2TT).
Para mejorar el rendimiento y reducir los errores y retrasos en los procesos de traducción, aprovecha lo conseguido en otros modelos de la marca con No Language Left Behind (NLLB) –Ningún idioma se queda atrás- del proyecto de inteligencia artificial de Meta.
Los impulsores de este avance científico que se publica en la revista científica Nature afirman que los recursos empleados para desarrollarse se pondrán a disposición del público para uso no comercial. Se considera el modelo como un posible primer paso para que las aplicaciones de traducción simultánea automática se conviertan en pocos años en algo cotidiano.
“Es un estudio muy interesante, y aunque ya no tan reciente”, la investigación incorpora varias innovaciones destacables”, explica Andreas Kaltenbrunner, investigador líder del grupo AI and Data for Society de la Universitat Oberta de Catalunya (UOC), en la plataforma Science Media Centre España.
“En primer lugar, es un sistema unificado que gestiona todos los aspectos de la traducción (voz y texto) en un solo entorno, en lugar de depender de varios sistemas independientes”.
“Otro aspecto relevante es la amplia cantidad de idiomas que soporta: más de 100 idiomas de entrada y docenas de idiomas de salida. Además, destaca por su robustez frente a desafíos del mundo real, como el manejo de ruido y la comprensión de diferentes acentos, aspectos que suelen causar dificultades a otros sistemas”.
Maite Martín, catedrática del departamento de Informática de la Universidad de Jaén e investigadora del grupo de investigación SINAI (Sistemas Inteligentes de Acceso a la Información), apunta que “el artículo presenta un modelo unificado de traducción automática multimodal y multilingüe llamado SemalessM4T, desarrollado para superar las limitaciones actuales en la traducción de texto y habla, incluyendo traducciones entre lenguajes de pocos recursos”.
“Uno de los aspectos más destacados del modelo es su enfoque en estudiar e incorporar idiomas con pocos recursos, como el maltés y el suajili, que han sido históricamente excluidos de los avances tecnológicos en traducción automática”, apunta esta experta.
“Estos idiomas, al carecer de grandes volúmenes de datos etiquetados y recursos específicos, suelen quedar rezagados en el desarrollo de herramientas lingüísticas avanzadas”, prosigue. “El trabajo realizado aborda esta brecha mediante la creación de un corpus masivo de datos de habla y texto alineados. Combina datos etiquetados manualmente con recursos generados automáticamente, lo que permite ampliar significativamente el alcance y la precisión del modelo en lenguas menos representadas, un avance en la inclusión lingüística”.
Raquel Fernández, catedrática de Lingüística Computacional y Sistemas de Diálogo y y vicedirectora de Investigación del Instituto de Lógica, Lenguaje y Computación (ILLC) de la Universidad de Ámsterdam, agrega que “los sistemas de traducción automática tienden a funcionar razonablemente bien para idiomas que están bien representados en internet (inglés, chino o español, por ejemplo), pero no tanto para idiomas con menos hablantes o menos datos digitales disponibles (como maltés, suajili o urdu)”.
“Además, la traducción automática se ha limitado principalmente al texto escrito. El modelo presentado en este artículo supone un avance substancial al incluir la capacidad de traducir hacia y desde el habla (además del texto) y al hacerlo para una gran cantidad de idiomas diferentes”.
Para Martín es relevante que se haya decidido poner estos datos y herramientas a disposición de la comunidad científica para uso no comercial, un enfoque que fomenta la investigación colaborativa al permitir que otros desarrolladores e investigadores utilicen estos recursos para seguir avanzando en la traducción automática, especialmente en contextos multilingües y multimodales.
“La publicación de estos recursos no solo consolida el modelo como un referente en innovación tecnológica, sino que también impulsa el desarrollo de soluciones más inclusivas y equitativas, sentando las bases para un ecosistema de investigación más abierto y dinámico”.
Víctor Etxebarria, catedrático de Ingeniería de Sistemas y Automática en la Universidad del País Vasco (UPV/EHU), agrega que el traductor, sobre todo en su versión de traducción directa de voz a voz, puede resultar muy útil, intentando imitar el servicio efectuado por las personas dedicadas a la traducción simultánea en el contexto internacional.
“SeamlessM4T logra una mayor precisión y robustez que los sistemas de traducción tradicionales. Las métricas reportadas indican que el modelo es resistente al ruido y a variaciones en los hablantes”, añade por su parte Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC).
“Es interesante destacar que el modelo incorpora estrategias para mitigar sesgos de género y toxicidad, garantizando traducciones más inclusivas y seguras. Representa un paso adelante en la construcción de sistemas inclusivos y accesibles, ofreciendo un puente efectivo entre culturas y lenguajes para su aplicación en contextos tanto digitales como presenciales”.
Limitaciones al estudio
El modelo, sin embargo, también enfrenta limitaciones importantes. “Aunque supone un avance significativo, todavía queda trabajo por hacer para optimizar su implementación en escenarios prácticos”, apunta Martín. Fundamentalmente, la aplicación no tiene en cuenta las inflexiones vocales ni otros componentes emocionales del habla viva que pueden dejar imprecisa la traducción final y dar lugar a malentendidos.
“Aunque mejora la precisión en la traducción de lenguajes con pocos recursos, los resultados aún son inferiores a los obtenidos con idiomas de alta disponibilidad. Y siguen siendo desafíos la interacción en tiempo real, la expresividad de la voz traducida o sesgos de género, señala.
Para Etxevarría, el traductor es “un producto tecnológico avanzado y probablemente muy útil, pero cerrado a los principios de la ciencia abierta”.
“El modelo tampoco evita por ahora los retrasos ni los errores de traducción ni su enmienda en tiempo real que sí realizan las personas traductoras”.
Asimismo, lamenta que los especialistas independientes no tienen permiso de reproducibilidad, comprobación o mejora de las bases tecnológicas, y solo tienen acceso a conectarse al traductor para efectuar ejemplos superficiales de traducciones. “Junto a sus múltiples limitaciones tecnológicas y legales”, prosigue este experto, “otra desventaja es que solo puede utilizarse a través de la API (Application Programming Interface) remoto por internet impuesto por Meta”.
“El software no cumple los principios de la IA en código abierto tal y como lo define la Open Source Initiative: usar, estudiar, modificar y compartir para cualquier propósito”, por lo que “no contribuye al avance científico” y “no es coherente con los principios de la ciencia abierta”.
Kaltenbrunner, por su parte, ve por su parte que es digno de elogio que el estudio incluya un análisis sobre si las traducciones incrementan la toxicidad de los textos o cómo abordan posibles sesgos de género pese a que Meta, recientemente, “parece haber decidido abandonar los esfuerzos en este sentido con su nueva política de moderación de contenidos”.
Rodolfo Zevallos, investigador del grupo de Tecnologías del Lenguaje del BSC (Barcelona Supercomputing Center), apunta por su parte que sería interesante “profundizar en el proceso de tokenización (segmentación de palabras), particularmente para lenguas morfológicamente complejas, donde una representación adecuada es crucial para mejorar la calidad de las traducciones”.
¿Hay que seguir estudiando idiomas?
Aunque es un avance significativo, tiene algunas limitaciones reseñables, añade Haya Coll. Recuerda que SeamlessM4T fue publicado en abierto por Meta en agosto de 2023. “El artículo que se publica ahora en Nature no parece que difiera de lo que ya explicó Meta en su día y puso en abierto en su repositorio de github donde se puede probar esta tecnología”.
La calidad de las traducciones que realiza la aplicación varían según el idioma, explica, “especialmente en lenguas de bajos recursos, y según el género, acento y demografía. Puede enfrentar dificultades al traducir nombres propios, jerga y expresiones coloquiales”.
“Hay que tener en cuenta que el habla no se limita a ser texto hablado; incorpora una variedad de componentes prosódicos, como el ritmo, el énfasis, la entonación y el tono, así como elementos emocionales que requieren una investigación más exhaustiva. Para desarrollar sistemas S2ST que resulten orgánicos y naturales, es fundamental centrar los esfuerzos en que el audio generado preserve la expresividad del lenguaje”.
Además, “para aumentar la adopción de estos sistemas es preciso mayor investigación en sistemas que permitan traducción en streaming, es decir, traducir de forma incremental una oración a medida que se pronuncia”.
Fernández reconoce que este modelo “representa un progreso sustancial en la traducción hablada, ya que traducir a voz sigue siendo más complejo que generar una traducción escrita: Además, el habla producida automáticamente puede no siempre ser expresiva y natural. De manera similar, al traducir de voz a texto, el modelo puede tener problemas para procesar el habla en función de factores como el género, el acento o el idioma”.
Y “si bien tiene el potencial de mejorar la comunicación multilingüe en muchos escenarios cotidianos, aún no permite la traducción en tiempo real o simultánea, es decir, la traducción de una oración a medida que se produce”.
Los propios autores destacan en el estudio que estas aplicaciones deben entenderse como herramientas de apoyo diseñadas para asistir en la traducción, en lugar de reemplazar la necesidad de aprender idiomas o contar con intérpretes humanos: especialmente crucial en contextos como la toma de decisiones legales o médicas.
El inglés, origen y meta
“La traducción automática ha evolucionado desde sistemas basados en reglas y cálculos estadísticos hasta los actuales grandes modelos lingüísticos o LLMs, gracias al poder computacional. Dentro de este contexto, la publicación presenta un avance en sistemas de traducción más rápidos, fiables y universales”, explica en SMC Rocío Romero Zaliz, profesora titular del departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada.
“Destaca la capacidad de realizar traducciones de voz a voz directamente, sin pasos intermedios (voz-texto, traducción texto-texto, texto-voz), acelerando el proceso. Además, soporta múltiples idiomas, acercándonos cada vez más a la utopía de un traductor automático universal”. Las mejoras no se basan en una mayor cantidad de parámetros del modelo al ser entrenado, sino en un preprocesamiento más inteligente de la información disponible, incorporando incluso nuevas fuentes de información adicionales para mejorar las traducciones”.
Hasta ahora, “la mayoría de los traductores automáticos traducen de un idioma X a Y usando el inglés como intermediario. Sin embargo, esta publicación propone traducciones directas de un idioma X a otro idioma Y, eliminando así errores acumulados. Esto se consigue gracias al uso de un espacio de representación común donde oraciones con significados similares están próximas, independientemente del idioma”.
Sin embargo, “el entrenamiento utilizado sigue basándose en gran medida en traducciones desde o hacia el inglés”. Es más, todas las pruebas y test mostrados en el texto principal de la publicación se han realizado entre un idioma X y el inglés o viceversa. Será entonces necesario revisar el material complementario de la publicación y probar el sistema propuesto una vez disponible entre parejas de idiomas que no incluyan el inglés o algún otro idioma mayoritario, lo cual sigue siendo un desafío”.
Fuente.
Expansión (2025, 15 de enero). Meta desarrolla un traductor de voz simultáneo con IA generativa para un centenar de idiomas. Recuperado el 16 de enero de 2025, de: https://www.expansion.com/directivos/estilo-vida/salud/2025/01/14/67850c59468aebe35c8b4599.html