Observatorio Tecnológico de Hidalgo

Category: Inteligencia Artificial

Alibaba busca superar a DeepSeek con nuevo modelo de IA

La china Alibaba anunció su modelo de IA, QwQ-32B, el cual asegura que tiene capacidades robustas que podrían superar a sus competidores.

Alibaba Group presentó un modelo de Inteligencia Artificial (IA) de razonamiento de código abierto, QwQ-32B, que de acuerdo con especialistas tiene capacidades que le permiten competir con plataformas como DeepSeek.

QwQ-32B es una herramienta de código abierto, ya disponible en las plataformas Hugging Face y Model Scope bajo la licencia Apache 2.0, de forma gratuita.

Además, una de sus características, que compite directamente con DeepSeek, es que tiene costos de implementación significativamente reducidos, además de que el modelo se puede implementar de forma eficiente en hardware de consumo.

La IA presentada por Alibaba se caracteriza también por tener un modelo de razonamiento compacto con sólo 32 mil millones de parámetros, que ofrece un rendimiento comparable a otros modelos de vanguardia más grandes, que son sus competidores.

La compañía de origen chino destacó que QwQ-32B ha destacado en diversos puntos de referencia o parámetros, incluidos el razonamiento matemático; su competencia en codificación; en la contaminación del conjunto de pruebas y evaluación objetiva; la capacidad de seguir instrucciones; así como capacidades de llamada de herramientas y funciones.

Informó que, a pesar de contar con 32 mil millones de parámetros, una cifra relativamente modesta, el nuevo modelo de Alibaba igualó o superó al modelo R1 de DeepSeek, que tiene 671 mil millones de parámetros.

Las acciones de Alibaba cotizaron al alza esta semana tras el anuncio de su nuevo modelo de Inteligencia Artificial. Inmediatamente después de su anuncio, que previó una mayor eficiencia que el R1 de DeepSeek, las unidades de Alibaba subieron entre el 7 y 8.4 por ciento.

El lanzamiento del último modelo de razonamiento de Alibaba, un tipo de sistema de IA diseñado para pensar, reflexionar y autocríticar para resolver problemas complejos, se produce menos de dos meses después de que el R1 de DeepSeek sacudiera la industria tecnológica global y los mercados bursátiles en enero.

Fuente.

DPL News (2025, 07 de marzo). Alibaba busca superar a DeepSeek con nuevo modelo de IA. Recuperado el 10 de marzo de 2025, de: https://dplnews.com/alibaba-busca-superar-deepseek-con-nueva-ia/

10 March, 2025
¿Podemos confiar en la IA? Razones para ser críticos, señalan expertos de la UNAM

Durante el ciclo “Jueves de Ciencia. Nuestra nueva realidad. Documentales y Diálogo con académicos”, organizado por Fundación UNAM y transmitido por TVUNAM, se abordaron las implicaciones de la IA en nuestras relaciones y en la sociedad en general.

La inteligencia artificial (IA) vino a revolucionar diversos aspectos de nuestra vida cotidiana, desde la automatización de tareas hasta la personalización de servicios. Sin embargo, expertos de la Universidad Nacional Autónoma de México (UNAM) advierten sobre la necesidad de adoptar una postura crítica frente a esta tecnología emergente.

Durante el ciclo “Jueves de Ciencia. Nuestra nueva realidad. Documentales y Diálogo con académicos”, organizado por Fundación UNAM y transmitido por TVUNAM, se abordaron las implicaciones de la IA en nuestras relaciones y en la sociedad en general.

¿Podemos confiar en la IA? Razones para ser críticos según la UNAM

Carlos Ignacio Hernández Castellanos, investigador del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) de la UNAM, señaló que la IA ha llegado para quedarse, pero advirtió sobre los peligros de adoptarla en nuestras relaciones sentimentales. Según Hernández, esta tecnología puede adaptarse a nuestras necesidades, dándonos la razón constantemente y estando siempre atenta, lo que podría llevar a una dependencia emocional hacia sistemas artificiales. Esto plantea el riesgo de preferir interacciones virtuales sobre las reales, afectando nuestra capacidad para relacionarnos auténticamente con otras personas.

Araxi Urrutia, investigadora del Instituto de Ecología de la UNAM, añadió que la IA podría fomentar el aislamiento de ideas y argumentos. Al interactuar principalmente con sistemas que refuerzan nuestras propias opiniones, corremos el riesgo de aislarnos de perspectivas diferentes, limitando nuestra capacidad de debate y reflexión crítica. Este fenómeno ya se observa en las redes sociales, donde los algoritmos nos muestran contenido alineado con nuestras preferencias, reduciendo la exposición a opiniones contrarias.

Educación y pensamiento crítico en la era de la IA

Jaime Urrutia Fucugauchi, investigador emérito de la UNAM, enfatizó la importancia de educar a las nuevas generaciones en el uso responsable de las tecnologías emergentes. La IA tiene la capacidad de influir en nuestra comprensión del entorno y en cómo establecemos nuestras relaciones personales.

El experto señaló que si nos dejamos guiar únicamente por lo que la IA nos proporciona, podríamos perder la capacidad de definir nuestras propias necesidades y deseos.

Por ello, es esencial fomentar la crítica y autocrítica a través de la educación, clave para seguir avanzando.

Uso de IA, con potencial para ensanchar brechas

Eduardo Morales, investigador del Instituto Nacional de Astrofísica Óptica y Electrónica, y experto en aprendizaje computacional y robótica, destacó que en los últimos años la inteligencia artificial ha experimentado un desarrollo acelerado con impacto en todas las áreas del conocimiento. Se espera que ello continúe, “pues tiene el potencial de brindar grandes beneficios; sin embargo, debemos asegurarnos de que lo haga bien”.

Esta disciplina brinda la solución más probable, porque desconoce lo que es verdadero o falso, o no tiene por ahora la noción del mundo físico, por lo que debemos cambiar la mentalidad de que se trata de máquinas infalibles, que todos los cálculos lo hacen bien. Por ello se requiere fomentar el pensamiento crítico en los estudiantes, pero son necesarias políticas públicas que la incluyan y también su regulación.

Para el científico, tiene el potencial de ensanchar la brecha entre ricos y pobresen donde la gente que tenga acceso a ella obtendrá beneficios en salud, educación, etcétera, mientras que la población que menos tiene no se verá favorecida, por lo que es necesario pensar cómo hacer que sea de beneficio global.

Fuente.

El Economista (2025, 09 de marzo). ¿Podemos confiar en la IA? Razones para ser críticos, señalan expertos de la UNAM. Recuperado el 10 de marzo de 2025, de: https://www.eleconomista.com.mx/tecnologia/confiar-ia-razones-criticos-senalan-expertos-unam-20250309-749687.html

10 March, 2025
OpenAI lanza consorcio para acelerar uso de IA en ciencia y educación

La iniciativa presentada por OpenAI cuenta con una inversión de 50 millones de dólares en subvenciones, recursos computacionales y acceso a APIs.

OpenAI presentó NextGenAI, un consorcio pionero que reúne a 15 instituciones de investigación del mundo con el objetivo de utilizar la Inteligencia Artificial (IA) para acelerar avances científicos y transformar la educación.

La iniciativa cuenta con una inversión de 50 millones de dólares en subvenciones, recursos computacionales y acceso a APIs (interfaces de programación de aplicaciones) para apoyar a estudiantes, educadores e investigadores en la expansión de los límites del conocimiento en IA.

Dentro de las instituciones miembros de NextGenAI, se encuentran Caltech, el sistema de la Universidad Estatal de California, la Universidad de Duke, la Universidad de Georgia, la Universidad de Harvard, la Universidad de Howard, el Instituto Tecnológico de Massachusetts (MIT), la Universidad de Míchigan, la Universidad de Misisipi y la Universidad Estatal de Ohio.

También la Universidad de Oxford, Sciences Po, la Universidad Texas A&M, el Hospital Infantil de Boston y la Biblioteca Pública de Boston.

Cada una de estas entidades está aplicando la IA para abordar desafíos de alto impacto, desde revolucionar la atención médica hasta reinventar la educación y buscarán empoderar a la próxima generación para que sea competente en IA.

OpenAI afirmó que este consorcio también fortalece la conexión entre la academia y la industria.

La Biblioteca Bodleiana de la Universidad de Oxford está utilizando la API de OpenAI para transcribir textos antiguos, mejorando su capacidad de búsqueda y accesibilidad. De manera similar, la Biblioteca Pública de Boston está empleando la IA para digitalizar materiales de dominio público, haciendo que la información sea más accesible para todos los usuarios.

Este esfuerzo se basa en compromisos previos de OpenAI para apoyar la educación, incluyendo el lanzamiento de ChatGPT Edu en mayo de 2024, que amplió el acceso a ChatGPT en universidades.

NextGenAI, en ese sentido, da un paso más al ofrecer a las instituciones financiación directa y soporte tecnológico para impulsar nuevas innovaciones.

Con NextGenAI, OpenAI y sus socios buscan acelerar el progreso de la investigación y catalizar una nueva generación de instituciones equipadas para aprovechar el poder transformador de la IA.

Fuente.

DPL News (2025, 06 de marzo). Open AI lanza consorcio para acelerar uso de IA en ciencia y educación. Recuperado el 07 de marzo de 2025, de: https://dplnews.com/openai-lanza-consorcio-acelerar-uso-de-ia-en-ciencia/

7 March, 2025
8M | Mujeres de vanguard-IA

La Inteligencia Artificial (IA) puede ser una de las mayores fuerzas transformadoras del siglo XXI y la protagonista de la Cuarta Revolución Industrial, debido a su impacto transversal en todos los sectores y prácticamente todos los ámbitos de la vida humana.

Como cualquier otra tecnología, la IA se ha desarrollado desde una visión en el mundo que hasta ahora ha sido predominantemente masculina.

Si bien la brecha de género sigue siendo profunda, cada vez más las mujeres están ocupando espacios estratégicos en la IA. Y aunque no siempre a la luz de los reflectores, forman parte de los equipos que moldean los sistemas que serán ampliamente adoptados o que buscan innovar en la aplicación de esta tecnología.

Algunas han sido pioneras como Ada Lovelace, la primera programadora que creó el que se considera el primer algoritmo. Otras son las líderes modernas como Mira Murati, quien fue directora de Tecnología de OpenAI desde su fundación y ahora es CEO de Thinking Machines Lab.

Lo cierto es que las oportunidades son tan grandes como los desafíos.

Para que la IA sea realmente disruptiva, tiene que ser inclusiva, diversa y abierta, como lo advierte la conclusión a la que llegó la Cumbre de Acción sobre IA que se realizó en febrero de este 2025.

Como cada año, en el marco del Día Internacional de la Mujer, que se conmemora el 8 de marzo, DPL News elabora un informe especial en el que aborda y destaca las aportaciones de las mujeres en la tecnología y los retos a los que se enfrentan.

Este 2025, en el año en el que la IA promete materializar algunas de sus mayores promesas económicas y sociales, queremos resaltar la visión de las mujeres sobre esta tecnología disruptiva y los liderazgos que se tejen alrededor de ella, a través de análisis y entrevistas a mujeres especialistas, ejecutivas o empresarias que trabajan de primera mano con la IA.

Además, este informe pone sobre la mesa cómo la Inteligencia Artificial impacta en la vida de las mujeres, en áreas como la educación, el trabajo, la salud, el acceso a oportunidades y la igualdad.

Pese a sus múltiples beneficios, la IA presenta desafíos específicos para las mujeres; entre ellos, la perpetuación de estereotipos debido a los sesgos de género en el entrenamiento de los sistemas, la posibilidad de desplazarlas en ciertas ocupaciones laborales o su uso indebido en nuevas formas de violencia.

La brecha de género en el mundo de la IA se refleja desde su concepción. Persiste una falta de representación femenina en la investigación y desarrollo de la IA, lo cual limita las perspectivas y soluciones que pueden derivarse de esta tecnología e impide que las necesidades específicas de las mujeres sean adecuadamente abordadas en la creación de soluciones derivadas de la IA.

Aunque en los últimos años hemos visto una aceleración de la IA y cada vez más entusiasmo por adoptarla, justo ahora nos encontramos en un momento oportuno para codificar el tipo de IA que queremos para nuestras sociedades.

Promover la participación de las mujeres en la IA es crucial para garantizar que tengan una voz activa en la configuración del futuro digital. Las mujeres deben ocupar posiciones de poder no sólo como desarrolladoras y científicas, sino también en cargos ejecutivos y de toma de decisiones, para que la IA se construya de manera equitativa y justa.

DPL News (2025, 07 de marzo). 8M | Mujeres de vanguard-IA. Recuperado el 07 de marzo de 2025, de: https://dplnews.com/8m-mujeres-de-vanguard-ia-2/

7 March, 2025
Cisco y Nvidia trabajan juntas para acelerar la adopción de IA en empresas

Cisco y Nvidia dijeron que la asociación tiene como objetivo ofrecer a las organizaciones flexibilidad y opciones para satisfacer la demanda de cargas de trabajo de IA.

Ciscoy Nvidia quieren acelerar la adopción de Inteligencia Artificial (IA) en las empresas.

Por ello, anunciaron la ampliación de su colaboración para ofrecer soluciones tecnológicas de IA, y aunque las empresas reconocen la importancia de esta tecnología para su crecimiento, aún están en las primeras etapas de su adopción, enfrentándose a la complejidad técnica y las exigencias de seguridad propias de operar centros de datos preparados para la IA.

Esta asociación ampliada, dijo Cisco, tiene como objetivo ofrecer a las organizaciones flexibilidad y opciones para satisfacer la demanda de cargas de trabajo de IA que requieren conectividad de alto rendimiento, baja latencia y alta eficiencia energética tanto dentro como entre centros de datos, Nubes y usuarios.

La plataforma de red Ethernet NVIDIA Spectrum-X, basada en el silicio de Cisco y Nvidia, formará la base para muchas cargas de trabajo de IA en las empresas. Al habilitar la interoperabilidad entre las arquitecturas de red de ambas compañías, estas están priorizando las necesidades de los clientes con soluciones simplificadas y de pila completa.

“Las empresas están bajo una inmensa presión para desplegar la Inteligencia Artificial de manera rápida y efectiva, y muchos líderes luchan para justificar la inversión mientras equilibran los riesgos.

“Juntos, Cisco y Nvidia están colaborando para eliminar barreras y garantizar que los clientes puedan optimizar sus inversiones en infraestructura para liberar el poder de la IA”, dijo Chuck Robbins, presidente y CEO de Cisco.

La compañía explicó que al facilitar la integración y estandarización de la tecnología de ambas empresas, los clientes se beneficiarán de los avances tecnológicos presentes y futuros en la plataforma NVIDIA Spectrum-X, como enrutamiento adaptativo, telemetría, control de congestión y baja latencia, así como del portafolio más amplio de redes, seguridad y resiliencia digital de Cisco.

“Un ecosistema de Inteligencia Artificial robusto y escalable es clave para impulsar el poder transformador de la IA. Esta asociación ampliada entre Cisco y Nvidia, al igual que nuestra estrategia y soluciones Verizon AI Connect, se orienta a acelerar y habilitar cargas de trabajo de IA intensivas en recursos en el borde de la red”, dijo Hans Vestberg, presidente y CEO de Verizon.

Cisco explicó que el objetivo de la asociación ampliada es permitir que los clientes optimicen sus inversiones en infraestructura de IA con una arquitectura común, utilizando sus herramientas y procesos de gestión.

Fuente.

DPL News (2025, 27 de febrero) Cisco y Nvidia trabajan juntas para acelerar la adopción de IA en empresas. Recuperada el 03 de febrero de 2025, de: https://dplnews.com/cisco-y-nvidia-trabajan-acelerar-adopcion-ia-empresas/

3 March, 2025
OpenAI presenta GPT-4.5: lo que sabemos sobre el último modelo de ChatGPT

OpenAI calificó a GPT-4.5 como su “modelo más grande y con mayor conocimiento hasta el momento” en un documento que resume el nuevo chatbot, y afirmó que la interacción del usuario con él se siente más natural.

La potencia de inteligencia artificial OpenAI anunció el jueves su último modelo de chat, iniciando una implementación limitada de GPT-4.5, que el jefe de OpenAI, Sam Altman, llamó un modelo “gigante” y “costoso” que “se siente como hablar con una persona reflexiva”.

Datos clave

OpenAI calificó a GPT-4.5 como su “modelo más grande y con mayor conocimiento hasta el momento” en un documento que resume el nuevo chatbot, y afirmó que la interacción del usuario con él se siente más natural.

OpenAI afirmó que el nuevo modelo presenta una base de conocimiento más amplia, mejor inteligencia emocional y una comprensión contextual mejorada, y señaló que las mejoras lo hacen adecuado para tareas de resolución de problemas, escritura y programación.

Se supone que el nuevo modelo tiene menos alucinaciones, un eufemismo común para cuando los modelos de IA producen resultados inexactos o engañosos.

¿Qué tan potente es GPT-4.5?

GPT-4.5 tiene más de 10 veces la eficiencia computacional de GPT-4, según el documento, lo que significa que se necesitan menos tiempo y recursos para resolver un problema.

¿Quién puede utilizar Gpt-4.5?

GPT-4.5 solo está disponible para usuarios suscritos a ChatGPT Pro, un plan de 200 dólares al mes que ofrece a los usuarios el máximo nivel de acceso a los productos de OpenAI. Altman dijo en un tuit que OpenAI quería lanzar el nuevo modelo en los planes ChatGPT Plus y ChatGPT Pro simultáneamente, pero no pudo debido a la escasez de unidades de procesamiento gráfico necesarias para respaldar dicho lanzamiento. Altman añadió que OpenAI añadirá decenas de miles de GPU la semana que viene, lo que permitirá que GPT-4.5 esté disponible en el plan ChatGPT Plus, que cuesta 20 dólares al mes.

Valoración de Forbes

Estimamos el patrimonio neto de Altman en 1.100 millones de dólares , una cifra establecida a través de las inversiones del CEO en Reddit, Stripe y la empresa de energía de fusión Helion.

Antecedentes clave

El lanzamiento de GPT-4.5 llega un poco menos de dos años después de que OpenAI lanzara GPT-4 y apenas unas semanas después de que la compañía revelara ” Operator “, un asistente de IA diseñado para realizar tareas en Internet para los usuarios, como pedidos de comestibles, compras de boletos y descargas de conferencias. OpenAI también está considerando una ronda de financiación que podría duplicar su valor a la asombrosa cifra de 340 mil millones de dólares. La ronda de financiación, si se completa, colocaría la valoración de OpenAI muy por encima de competidores como xAI, propiedad de Elon Musk (valorada en aproximadamente 50 mil millones de dólares) y la firma de inteligencia artificial respaldada por Amazon Anthropic, que está valorada en 18 mil millones de dólares y, según se informa, está en conversaciones para una ronda de financiación que aumentaría su valoración a 60 mil millones de dólares.

Fuente.

Forbes México (2025, 28 de febrero). OpenAI presenta GPT-4.5: lo que sabemos sobre el último modelo de ChatGPT. Recuperado el 28 de febrero de 2025, de: https://forbes.com.mx/openai-presenta-gpt-4-5-lo-que-sabemos-sobre-el-ultimo-modelo-chatgpt/

28 February, 2025
Musk presenta Grok 3, la nueva versión de su chatbot de IA “aterradoramente inteligente”

La compañía de inteligencia artificial (IA) de Elon Musk presentó este lunes Grok 3, la última versión de su robot conversacional con la que el multimillonario espera competir de frente contra ChatGPT y la china DeepSeek.

Calificándolo de “aterradoramente inteligente”, Musk destacó que Grok 3 cuenta con 10 veces más recursos computacionales que su predecesor, lanzado en agosto del año pasado.

El producto estrella de su compañía xAI emplea mecanismos de autocorrección que evitan los errores -conocidos como “alucinaciones”- que plagan algunos chatbots de IA y los llevan a procesar datos falsos o engañosos como hechos.

“Grok 3 tiene capacidades de razonamiento muy potentes, así que en las pruebas que hemos hecho hasta ahora, está superando todo lo que se ha lanzado, que sepamos, así que es una buena señal”, dijo Musk en una videollamada la semana pasada con la Cumbre Mundial de Gobiernos en Dubái.

Este chatbot actualizado entra en un campo de batalla abarrotado de productos de IA cada vez más sofisticados y rentables.

La empresa china DeepSeek sorprendió al sector el mes pasado con el lanzamiento de su plataforma R1 de bajo costo y alta calidad, un desafío directo a las ambiciones de Estados Unidos liderar el desarrollo mundial de esta tecnología.

Grok 3 también competirá con ChatGPT, el chatbot de OpenAI, lo que enfrentará de nuevo a Musk con Sam Altman, antiguo colaborador y ahora acérrimo rival.

El lanzamiento se produce, además, cuando el hombre más rico del mundo está desplegando los enormes poderes que le ha otorgado el presidente de Estados Unidos, Donald Trump, para reestructurar y desmantelar agencias federales.

Este recorte de gastos sin precedentes ha suscitado dudas sobre conflictos de intereses, dado que muchas de esas agencias supervisan elementos del extenso imperio empresarial de Musk, que incluye la red social X, Tesla y SpaceX.

Fuente.

El Economista (2025, 18 de febrero). Musk presenta Grok 3, la nueva versión de su chatbot de IA “aterradoramente inteligente”. Recuperado el 27 de febrero de 2025, de: https://www.eleconomista.com.mx/tecnologia/musk-presenta-grok-3-nueva-version-chatbot-ia-aterradoramente-inteligente-20250218-746827.html

27 February, 2025
Google desarrolla un compañero de inteligencia artificial para investigadores científicos

La nueva herramienta, probada por científicos de la Universidad de Stanford y el Imperial College de Londres, usa razonamiento avanzado para ayudar a sintetizar grandes cantidades de literatura.

Google informó el miércoles que ha desarrollado una herramienta de inteligencia artificial (IA) para que actúe como colaborador virtual de científicos biomédicos.

La nueva herramienta, probada por científicos de la Universidad de Stanford en Estados Unidos y el Imperial College de Londres, usa razonamiento avanzado para ayudar a sintetizar grandes cantidades de literatura y generar hipótesis novedosas, según la empresa.

Tras el éxito de ChatGPT y otros modelos similares el año pasado, la inteligencia artificial se usa cada vez más en el lugar de trabajo, desde la atención telefónica a la investigación jurídica.

La unidad de IA de Google, DeepMind, ha hecho de la ciencia una prioridad, y el jefe de DeepMind, Demis Hassabis, recibió el año pasado el Premio Nobel de Química por una tecnología desarrollada en la unidad de IA.

En un experimento sobre la fibrosis hepática, Google afirmó que todos los enfoques sugeridos por su nueva inteligencia artificial científica mostraron una actividad prometedora para inhibir las causas de la enfermedad.

Google añadió que se demostró la capacidad de mejorar las soluciones generadas por los expertos.

“Aunque se trata de un hallazgo preliminar que requiere una mayor validación, sugiere una vía prometedora para que los sistemas de IA capaces (…) aumenten y aceleren el trabajo de los científicos expertos”, dijo.

Los científicos que trabajaron en el proyecto afirmaron que complementaría a los investigadores en lugar de sustituirlos.

“Esperamos que la colaboración científica aumente, en lugar de disminuir”, dijo Vivek Natarajan, científico de Google.

Fuente.

El Economista (2025, 19 de febrero). Google desarrolla un compañero de inteligencia artificial para investigadores científicos. Recuperado el 26 de febrero de 2025, de: https://www.eleconomista.com.mx/tecnologia/google-desarrolla-companero-inteligencia-artificial-investigadores-cientificos-20250219-747062.html

26 February, 2025
Hume lanza el nuevo modelo de texto a voz Octave que genera voces de IA personalizadas con emociones ajustables
La startup neoyorquina Hume AI surgió de la clandestinidad hace dos años y desde entonces ha recaudado millones de dólares en financiación gracias a su tecnología que crea voces emotivas de inteligencia artificial para su uso en aplicaciones empresariales.

Hoy, está llevando su oferta un paso más allá con un nuevo modelo de lenguaje y voz de gran tamaño llamado “motor de texto y voz omnicapaz”, u Octave para abreviar, diseñado para producir un habla realista y con matices emocionales para su uso en diferentes formas de contenido, desde audiolibros hasta diálogos de personajes de videojuegos pregrabados y películas/TV/video.

Hume afirma que Octave es el primer sistema de texto a voz impulsado por un gran modelo de lenguaje (LLM) entrenado no solo en texto sino también en tokens de habla y emoción, lo que le permite comprender palabras en contexto y ajustar el tono, el ritmo y la cadencia en consecuencia, y que el usuario puede ajustar a nivel de oración con indicaciones de texto.

“Estamos lanzando el primer LLM para texto a voz, un modelo que entiende las palabras en contexto, predice las emociones, el ritmo, la cadencia y el énfasis correctos, haciendo que el habla suene más humana que nunca”, dijo Alan Cowen, cofundador y director ejecutivo de Hume AI, en una entrevista por videollamada con VentureBeat.

Las capacidades de Octave van más allá de la generación básica de voces. Puede interpretar los rasgos y el estilo de los personajes a partir de un guión, ajustando las inflexiones vocales para que coincidan con las emociones implícitas. Un comentario sarcástico se pronunciará con sarcasmo, una frase provocada por el pánico sonará urgente y un secreto susurrado se silenciará, todo ello sin necesidad de una dirección explícita.

Además, si al usuario no le gusta la voz generada o quiere ajustarla, puede hacerlo de forma granular a través del lenguaje natural simplemente escribiendo una instrucción de texto en Octave, como “más feliz, más triste, más frustrado, más enojado, más sarcástico, más sincero”, etc.

“Puedes describir un personaje, como un campesino medieval sarcástico, y el modelo creará instantáneamente esa voz, ajustando emociones como la ira, la tristeza o la felicidad según tus instrucciones”, agregó Cowen. “La modulación de voz funciona a nivel de oración, pero también puedes ajustar partes de una oración, instruyendo al modelo para que transmita emociones matizadas como una ligera frustración mezclada con humor o exasperación”.

El modelo también tiene en cuenta el contexto más allá de las oraciones individuales. “A diferencia de los modelos tradicionales que procesan el texto palabra por palabra, nuestro modelo tiene en cuenta párrafos enteros y captura el contexto para ofrecer un discurso más natural y emocionalmente preciso”, explicó.

Si bien la versión actual se centra en el habla en inglés, Octave también admite español y se espera que amplíe sus capacidades lingüísticas en el futuro cercano.

Diseñado para la creación de contenidos

Octave está diseñado para creadores de contenido y producción de medios, y ofrece aplicaciones en audiolibros, podcasts, personajes de videojuegos y voces en off de videos.

“Este nuevo modelo está diseñado para la conversión de texto a voz sin conexión, perfecto para audiolibros, podcasts, voces en off de videos y personajes de videojuegos, donde los creadores necesitan voces realistas y específicas de los personajes”, explicó Cowen.

Sin embargo, el usuario debe acceder a él a través del sitio web de Hume, ya sea en su página de Proyectos o a través de una interfaz de programación de aplicaciones (API). El componente “sin conexión” se refiere al hecho de que este modelo está diseñado para producir archivos de audio discretos que se pueden agregar a proyectos como videos o audiolibros. No está diseñado para mantener conversaciones en tiempo real, aunque en teoría eso podría permitirse mediante la canalización de consultas de texto al sitio web.

La API de Hume permite a los desarrolladores realizar hasta 50 solicitudes del nuevo modelo Octave por minuto, con una longitud máxima de texto de 5000 caracteres y descripciones limitadas a 1000 caracteres. Cada solicitud puede generar hasta cinco salidas y los formatos de audio admitidos incluyen MP3, WAV y PCM.

La serie de modelos EVI anterior de Hume permite interacciones en tiempo real, de ida y vuelta, y sigue estando disponible y seguirá desarrollándose.

Hume AI ofrece un modelo de precios basado en suscripción con niveles que van desde una opción gratuita hasta los planes Creator, Creator Pro y Enterprise.

A continuación se presenta un resumen conciso de las ofertas:
- Gratis ($0/mes) : 10,000 caracteres de texto a voz por mes (~10 minutos) con voces personalizadas ilimitadas.
- Starter ($3/mes) : 30 000 caracteres (aproximadamente 30 minutos) más soporte para hasta 20 proyectos.
- Creador ($10/mes) : 100,000 caracteres (~100 minutos), precio basado en el uso para caracteres adicionales ($0.20/1,000) y soporte para hasta 1,000 proyectos.
- Pro ($50/mes) : 500,000 caracteres (~500 minutos), precio más bajo basado en el uso ($0,15/1,000) y soporte para hasta 3,000 proyectos.
- Escala ($150/mes) : 2,000,000 de caracteres (~2,000 minutos), precios basados en el uso aún más reducidos ($0.13/1,000) y soporte para hasta 10,000 proyectos.
- Empresas ($900/mes) : 10 000 000 de caracteres (~10 000 minutos), precios basados en el uso aún más bajos ($0,10/1000) y soporte para hasta 20 000 proyectos.
- Empresa (precio personalizado) : uso ilimitado, términos legales personalizados, garantías de seguridad, precios por volumen con importantes descuentos y soporte prioritario.
En total, Hume enfatizó que el precio de Octave TTS es aproximadamente la mitad del costo de la startup competidora de creación de voz con IA ElevenLabs , lo que demuestra la creciente competencia en el espacio de texto a voz.

Además, Hume AI realizó un estudio comparativo a ciegas con 180 evaluadores humanos para comparar Octave con ElevenLabs. Los resultados mostraron que Octave era el preferido en términos de calidad de audio (71,6 % de los ensayos), naturalidad (51,7 % de los ensayos) y qué tan bien coincidía el habla con las descripciones de la voz deseada (57,7 % de los ensayos), en 120 indicaciones diferentes.

Para evaluar más a fondo su rendimiento, Hume AI también lanzó Expressive TTS Arena, un punto de referencia público diseñado para probar qué tan bien los modelos de IA manejan un discurso más largo y expresivo, un área que los puntos de referencia TTS anteriores han pasado por alto en gran medida.

Decenas de billones de tokens de lenguaje

A diferencia de los sistemas tradicionales de conversión de texto a voz que se basan en conjuntos de datos de voz limitados, Octave TTS está construido sobre un LLM entrenado en decenas de billones de tokens de idioma.

“Los modelos tradicionales de texto a voz se entrenan con datos de voz limitados, pero el nuestro está construido sobre un LLM entrenado con decenas de billones de tokens, lo que le permite razonar, pensar e inferir emociones a partir del texto”, dijo Cowen.

El modelo se entrenó utilizando millones de horas de datos públicos de habla extensa y conjuntos de datos patentados de Hume AI de nuevas voces grabadas por los participantes de la encuesta.

“Recopilamos datos de personas que se grababan a sí mismas a través de cámaras web, reaccionaban naturalmente a los videos, contaban historias y hablaban con otros, incluidos amigos y familiares, para capturar una amplia gama de expresiones emocionales”, dijo Cowen.

Este entrenamiento extenso permite al modelo inferir el contexto emocional y seguir instrucciones detalladas, creando voces que coinciden con las descripciones y atributos específicos de los personajes.

Voces de personajes consistentes y limitaciones.

Octave TTS mantiene voces de personajes consistentes en contenidos de larga duración.

“Con nuestra plataforma, puedes generar voces únicas para cada personaje de un audiolibro (como un orco de mediana edad) y mantener la voz de ese personaje a lo largo de la historia”, dijo Cowen.

Esta capacidad está respaldada por la página “Proyectos” de Hume AI, que maneja contenido de formato largo, como audiolibros, fragmentando automáticamente el texto mientras preserva la consistencia de los caracteres y el contexto en todos los capítulos.

Hume tiene barreras técnicas integradas en su sitio web y API que prohíben la creación de voces infantiles realistas e imitaciones de individuos específicos, pero más allá de eso, está abierto para su uso en una amplia gama de contenidos y temas, incluidas escenas potencialmente no seguras para el trabajo, como las de las novelas románticas populares.

“Damos libertad a los desarrolladores, permitiendo contenidos en una amplia gama de experiencias humanas, aunque restringimos la creación de voces infantiles realistas e imitaciones de individuos específicos”, explicó Cowen.

Además, Cowen dijo que la compañía podría ajustar estas barreras de protección para clientes específicos a pedido, como por ejemplo un editor de libros infantiles que busca crear voces para audiolibros infantiles.

Hume AI está trabajando en una función de clonación de voz que estará disponible próximamente y que permitirá a los usuarios replicar una voz a partir de tan solo cinco segundos de audio. La empresa está desarrollando medidas de seguridad para garantizar un uso ético antes de lanzar la función al público.

Con su combinación de conciencia contextual, expresión emocional y personalización de personajes, Octave TTS tiene como objetivo brindar a los creadores de contenido más control y flexibilidad, ofreciendo voces que suenan realistas y emocionalmente atractivas.

Fuente.

VentureBeat (2025, 26 de febrero). Hume lanza el nuevo modelo de texto a voz Octave que genera voces de IA personalizadas con emociones ajustables. Recuperado el 26 de febrero de 2025, de: https://venturebeat.com/ai/hume-launches-text-to-speech-model-octave/
26 February, 2025
Elon Musk acaba de lanzar una IA que es más inteligente que ChatGPT: aquí explicamos por qué es importante

La startup de inteligencia artificial xAI de Elon Musk ha presentado Grok 3 , su último modelo de IA que, según la empresa, supera a sus principales competidores en los principales parámetros técnicos. El anuncio marca una escalada significativa en la carrera por desarrollar sistemas de IA más potentes.

El lanzamiento se produce apenas unos días después de la fallida oferta de 97.400 millones de dólares de Musk para adquirir OpenAI , la empresa que cofundó con Sam Altman en 2015. Durante una demostración transmitida en vivo en X, Musk caracterizó a Grok 3 como “un orden de magnitud más capaz que Grok 2” y enfatizó su capacidad para razonar sobre problemas complejos.

Las primeras pruebas parecen respaldar algunas de las afirmaciones de xAI. El modelo encabezó la influyente clasificación de Chatbot Arena , con una puntuación superior a la de GPT-4o de OpenAI, Gemini de Google y el modelo V3 de DeepSeek en pruebas de usuarios a ciegas. Los puntos de referencia publicados muestran que Grok 3 logra puntuaciones superiores en matemáticas (AIME ’24), razonamiento científico (GPQA) y tareas de codificación.

Dentro de la enorme infraestructura informática de Grok 3: 200.000 GPU y un nuevo centro de datos

“Grok 3 claramente tiene capacidades de pensamiento de última generación”, escribió el ex investigador de OpenAI Andrej Karpathy en una publicación de X después de las pruebas de acceso anticipado. “Pocos modelos logran esto de manera confiable. Los mejores modelos de pensamiento de OpenAI también lo logran, pero todos los DeepSeek-R1, Gemini 2.0 Flash Thinking y Claude no lo logran”.

El desarrollo del modelo requirió recursos computacionales masivos. xAI duplicó su clúster de GPU a 200.000 chips Nvidia para entrenamiento, alojados en un nuevo centro de datos en Memphis. Esta inversión en infraestructura pone de relieve las crecientes demandas computacionales del desarrollo de IA avanzada, a medida que las empresas compiten por construir sistemas más capaces.

DeepSearch y razonamiento avanzado: cómo Grok 3 pretende ser más inteligente que ChatGPT y Google Gemini

Una innovación clave es la función “DeepSearch” de Grok 3, que combina la búsqueda en la web con capacidades de razonamiento para analizar información de múltiples fuentes. El sistema también incluye modos especializados para la resolución de problemas complejos, incluida una función “Think” que muestra su proceso de razonamiento y un modo “Big Brain” que asigna potencia computacional adicional a tareas difíciles.

“Lo que realmente hay que tener en cuenta en la IA es la velocidad de aprendizaje. Y @xai aprende mucho más rápido que cualquier otro”, publicó el veterano de la industria tecnológica Robert Scoble , citando una conversación con el cofundador de Siri de Apple, Tom Gruber.

Sin embargo, durante las pruebas surgieron algunas limitaciones. Karpathy señaló que el modelo a veces inventa citas y tiene dificultades con ciertos tipos de humor y tareas de razonamiento ético. Estos desafíos son comunes en los sistemas de IA actuales y ponen de relieve las dificultades actuales para desarrollar una inteligencia artificial verdaderamente similar a la humana.

El director ejecutivo de Scale.ai, Alexandr Wang , elogió el lanzamiento y tuiteó: “¡Grok 3 es el nuevo mejor modelo del mundo del equipo @xai!”. Destacó su rendimiento superior en varios puntos de referencia y expresó su entusiasmo por una colaboración futura.

La competencia en la industria de la IA se intensifica: qué significa el lanzamiento de Grok 3 para OpenAI, DeepSeek y el futuro de la inteligencia artificial

El modelo estará disponible a través de la suscripción Premium+ de X ($40/mes) y un nuevo servicio independiente “ SuperGrok ” ($30/mes). El acceso a la API empresarial está previsto para las próximas semanas.

Este lanzamiento intensifica la competencia en la industria de la IA, en particular porque la startup china DeepSeek demostró recientemente un rendimiento comparable con requisitos computacionales supuestamente más bajos. El desarrollo también plantea interrogantes sobre la sostenibilidad de la carrera armamentista computacional en la IA, ya que las empresas invierten miles de millones en infraestructura de hardware cada vez más potente.

Musk enfatizó que Grok 3 sigue en fase beta y se esperan mejoras “ casi todos los días ”. La compañía planea agregar capacidades de interacción por voz en unas semanas y abrirá el código fuente de su modelo anterior, Grok 2, una vez que la nueva versión se estabilice.

Sin embargo, tal vez el aspecto más revelador del debut de Grok 3 no sean sus especificaciones técnicas o sus resultados de referencia, sino lo que representa: la creciente tensión entre Musk y sus antiguos colegas de OpenAI . Apenas unos días después de su fallida oferta de 97.400 millones de dólares para adquirir OpenAI, Musk ha presentado un modelo que desafía su supremacía, lo que sugiere que en la carrera de alto riesgo por el dominio de la IA, incluso un pretendiente rechazado puede convertirse en un rival formidable.

Fuente.

VentureBeat (2025, 18 de febrero). Elon Musk acaba de lanzar una IA que es más inteligente que ChatGPT: aquí explicamos por qué es importante. Recuperado el 25 de febrero de 2025, de: https://venturebeat.com/ai/elon-musk-just-released-an-ai-thats-smarter-than-chatgpt-heres-why-that-matters/

25 February, 2025