La startup neoyorquina Hume AI surgió de la clandestinidad hace dos años y desde entonces ha recaudado millones de dólares en financiación gracias a su tecnología que crea voces emotivas de inteligencia artificial para su uso en aplicaciones empresariales.
Hoy, está llevando su oferta un paso más allá con un nuevo modelo de lenguaje y voz de gran tamaño llamado “motor de texto y voz omnicapaz”, u Octave para abreviar, diseñado para producir un habla realista y con matices emocionales para su uso en diferentes formas de contenido, desde audiolibros hasta diálogos de personajes de videojuegos pregrabados y películas/TV/video.
Hume afirma que Octave es el primer sistema de texto a voz impulsado por un gran modelo de lenguaje (LLM) entrenado no solo en texto sino también en tokens de habla y emoción, lo que le permite comprender palabras en contexto y ajustar el tono, el ritmo y la cadencia en consecuencia, y que el usuario puede ajustar a nivel de oración con indicaciones de texto.
“Estamos lanzando el primer LLM para texto a voz, un modelo que entiende las palabras en contexto, predice las emociones, el ritmo, la cadencia y el énfasis correctos, haciendo que el habla suene más humana que nunca”, dijo Alan Cowen, cofundador y director ejecutivo de Hume AI, en una entrevista por videollamada con VentureBeat.
Las capacidades de Octave van más allá de la generación básica de voces. Puede interpretar los rasgos y el estilo de los personajes a partir de un guión, ajustando las inflexiones vocales para que coincidan con las emociones implícitas. Un comentario sarcástico se pronunciará con sarcasmo, una frase provocada por el pánico sonará urgente y un secreto susurrado se silenciará, todo ello sin necesidad de una dirección explícita.
Además, si al usuario no le gusta la voz generada o quiere ajustarla, puede hacerlo de forma granular a través del lenguaje natural simplemente escribiendo una instrucción de texto en Octave, como “más feliz, más triste, más frustrado, más enojado, más sarcástico, más sincero”, etc.
“Puedes describir un personaje, como un campesino medieval sarcástico, y el modelo creará instantáneamente esa voz, ajustando emociones como la ira, la tristeza o la felicidad según tus instrucciones”, agregó Cowen. “La modulación de voz funciona a nivel de oración, pero también puedes ajustar partes de una oración, instruyendo al modelo para que transmita emociones matizadas como una ligera frustración mezclada con humor o exasperación”.
El modelo también tiene en cuenta el contexto más allá de las oraciones individuales. “A diferencia de los modelos tradicionales que procesan el texto palabra por palabra, nuestro modelo tiene en cuenta párrafos enteros y captura el contexto para ofrecer un discurso más natural y emocionalmente preciso”, explicó.
Si bien la versión actual se centra en el habla en inglés, Octave también admite español y se espera que amplíe sus capacidades lingüísticas en el futuro cercano.
Diseñado para la creación de contenidos
Octave está diseñado para creadores de contenido y producción de medios, y ofrece aplicaciones en audiolibros, podcasts, personajes de videojuegos y voces en off de videos.
“Este nuevo modelo está diseñado para la conversión de texto a voz sin conexión, perfecto para audiolibros, podcasts, voces en off de videos y personajes de videojuegos, donde los creadores necesitan voces realistas y específicas de los personajes”, explicó Cowen.
Sin embargo, el usuario debe acceder a él a través del sitio web de Hume, ya sea en su página de Proyectos o a través de una interfaz de programación de aplicaciones (API). El componente “sin conexión” se refiere al hecho de que este modelo está diseñado para producir archivos de audio discretos que se pueden agregar a proyectos como videos o audiolibros. No está diseñado para mantener conversaciones en tiempo real, aunque en teoría eso podría permitirse mediante la canalización de consultas de texto al sitio web.
La API de Hume permite a los desarrolladores realizar hasta 50 solicitudes del nuevo modelo Octave por minuto, con una longitud máxima de texto de 5000 caracteres y descripciones limitadas a 1000 caracteres. Cada solicitud puede generar hasta cinco salidas y los formatos de audio admitidos incluyen MP3, WAV y PCM.
La serie de modelos EVI anterior de Hume permite interacciones en tiempo real, de ida y vuelta, y sigue estando disponible y seguirá desarrollándose.
Hume AI ofrece un modelo de precios basado en suscripción con niveles que van desde una opción gratuita hasta los planes Creator, Creator Pro y Enterprise.
A continuación se presenta un resumen conciso de las ofertas:
- Gratis ($0/mes) : 10,000 caracteres de texto a voz por mes (~10 minutos) con voces personalizadas ilimitadas.
- Starter ($3/mes) : 30 000 caracteres (aproximadamente 30 minutos) más soporte para hasta 20 proyectos.
- Creador ($10/mes) : 100,000 caracteres (~100 minutos), precio basado en el uso para caracteres adicionales ($0.20/1,000) y soporte para hasta 1,000 proyectos.
- Pro ($50/mes) : 500,000 caracteres (~500 minutos), precio más bajo basado en el uso ($0,15/1,000) y soporte para hasta 3,000 proyectos.
- Escala ($150/mes) : 2,000,000 de caracteres (~2,000 minutos), precios basados en el uso aún más reducidos ($0.13/1,000) y soporte para hasta 10,000 proyectos.
- Empresas ($900/mes) : 10 000 000 de caracteres (~10 000 minutos), precios basados en el uso aún más bajos ($0,10/1000) y soporte para hasta 20 000 proyectos.
- Empresa (precio personalizado) : uso ilimitado, términos legales personalizados, garantías de seguridad, precios por volumen con importantes descuentos y soporte prioritario.
En total, Hume enfatizó que el precio de Octave TTS es aproximadamente la mitad del costo de la startup competidora de creación de voz con IA ElevenLabs , lo que demuestra la creciente competencia en el espacio de texto a voz.
Además, Hume AI realizó un estudio comparativo a ciegas con 180 evaluadores humanos para comparar Octave con ElevenLabs. Los resultados mostraron que Octave era el preferido en términos de calidad de audio (71,6 % de los ensayos), naturalidad (51,7 % de los ensayos) y qué tan bien coincidía el habla con las descripciones de la voz deseada (57,7 % de los ensayos), en 120 indicaciones diferentes.
Para evaluar más a fondo su rendimiento, Hume AI también lanzó Expressive TTS Arena, un punto de referencia público diseñado para probar qué tan bien los modelos de IA manejan un discurso más largo y expresivo, un área que los puntos de referencia TTS anteriores han pasado por alto en gran medida.
Decenas de billones de tokens de lenguaje
A diferencia de los sistemas tradicionales de conversión de texto a voz que se basan en conjuntos de datos de voz limitados, Octave TTS está construido sobre un LLM entrenado en decenas de billones de tokens de idioma.
“Los modelos tradicionales de texto a voz se entrenan con datos de voz limitados, pero el nuestro está construido sobre un LLM entrenado con decenas de billones de tokens, lo que le permite razonar, pensar e inferir emociones a partir del texto”, dijo Cowen.
El modelo se entrenó utilizando millones de horas de datos públicos de habla extensa y conjuntos de datos patentados de Hume AI de nuevas voces grabadas por los participantes de la encuesta.
“Recopilamos datos de personas que se grababan a sí mismas a través de cámaras web, reaccionaban naturalmente a los videos, contaban historias y hablaban con otros, incluidos amigos y familiares, para capturar una amplia gama de expresiones emocionales”, dijo Cowen.
Este entrenamiento extenso permite al modelo inferir el contexto emocional y seguir instrucciones detalladas, creando voces que coinciden con las descripciones y atributos específicos de los personajes.
Voces de personajes consistentes y limitaciones.
Octave TTS mantiene voces de personajes consistentes en contenidos de larga duración.
“Con nuestra plataforma, puedes generar voces únicas para cada personaje de un audiolibro (como un orco de mediana edad) y mantener la voz de ese personaje a lo largo de la historia”, dijo Cowen.
Esta capacidad está respaldada por la página “Proyectos” de Hume AI, que maneja contenido de formato largo, como audiolibros, fragmentando automáticamente el texto mientras preserva la consistencia de los caracteres y el contexto en todos los capítulos.
Hume tiene barreras técnicas integradas en su sitio web y API que prohíben la creación de voces infantiles realistas e imitaciones de individuos específicos, pero más allá de eso, está abierto para su uso en una amplia gama de contenidos y temas, incluidas escenas potencialmente no seguras para el trabajo, como las de las novelas románticas populares.
“Damos libertad a los desarrolladores, permitiendo contenidos en una amplia gama de experiencias humanas, aunque restringimos la creación de voces infantiles realistas e imitaciones de individuos específicos”, explicó Cowen.
Además, Cowen dijo que la compañía podría ajustar estas barreras de protección para clientes específicos a pedido, como por ejemplo un editor de libros infantiles que busca crear voces para audiolibros infantiles.
Hume AI está trabajando en una función de clonación de voz que estará disponible próximamente y que permitirá a los usuarios replicar una voz a partir de tan solo cinco segundos de audio. La empresa está desarrollando medidas de seguridad para garantizar un uso ético antes de lanzar la función al público.
Con su combinación de conciencia contextual, expresión emocional y personalización de personajes, Octave TTS tiene como objetivo brindar a los creadores de contenido más control y flexibilidad, ofreciendo voces que suenan realistas y emocionalmente atractivas.
Fuente.
VentureBeat (2025, 26 de febrero). Hume lanza el nuevo modelo de texto a voz Octave que genera voces de IA personalizadas con emociones ajustables. Recuperado el 26 de febrero de 2025, de: https://venturebeat.com/ai/hume-launches-text-to-speech-model-octave/