Microsoft está duplicando el potencial de los modelos de lenguaje pequeños (SLMs) con la presentación de rStar-Math , una nueva técnica de razonamiento que se puede aplicar a modelos pequeños para mejorar su desempeño en problemas matemáticos utilizando técnicas de razonamiento: un desempeño similar al del modelo o1-preview de OpenAI y, en algunos casos, superior.
Aunque todavía se encuentra en fase de investigación (como se describe en un artículo publicado en el sitio de revisión previa arXiv.org y acreditado a ocho autores de Microsoft, la Universidad de Pekín y la Universidad de Tsinghua en China), la técnica se aplicó a varios modelos de código abierto más pequeños, incluidos el propio Phi-3 mini de Microsoft, el Qwen-1.5B de Alibaba (un modelo de 1.500 millones de parámetros) y el Qwen-7B (un modelo de 7.000 millones de parámetros). Mostró un rendimiento mejorado en todos ellos, incluso superando al modelo más avanzado anterior de OpenAI en el punto de referencia de terceros MATH (resolución de problemas de palabras) de 12.500 preguntas que abarcaban varias ramas como geometría y álgebra, y todos los niveles de dificultad.
En última instancia, según una publicación en Hugging Face , los investigadores planean hacer que su código y datos estén disponibles en Github en https://github.com/microsoft/rStar , aunque uno de los autores del artículo, Li Lyna Zhang, escribió en los comentarios de la publicación de Hugging Face que el equipo “aún está en el proceso de revisión interna para el lanzamiento de código abierto”. Como tal, “el repositorio sigue siendo privado por ahora. ¡Por favor, permanezca atento!”
Los miembros de la comunidad expresaron su entusiasmo, calificaron las innovaciones de “impresionantes” y elogiaron la combinación de Monte Carlo Tree Search (MCTS) con el razonamiento paso a paso. Un comentarista destacó la simplicidad y utilidad de usar valores Q para la puntuación de pasos, mientras que otros especularon sobre futuras aplicaciones en pruebas geométricas y razonamiento simbólico.
Esta noticia llega poco después de la publicación del código abierto del modelo Phi-4 de Microsoft, un sistema de inteligencia artificial más pequeño de 14 mil millones de parámetros ahora disponible en Hugging Face bajo la licencia permisiva del MIT.
Si bien el lanzamiento de Phi-4 ha ampliado el acceso a modelos pequeños de alto rendimiento, rStar-Math muestra un enfoque especializado: utilizar sistemas de IA más pequeños para lograr resultados de vanguardia en razonamiento matemático.
rStar-Math funciona utilizando varios modelos y componentes diferentes para ayudar a que un modelo pequeño objetivo “autoevolucione”.
La clave de rStar-Math es que aprovecha el método Monte Carlo Tree Search (MCTS), que imita el “pensamiento profundo” humano refinando iterativamente soluciones paso a paso a problemas matemáticos.
Los investigadores utilizaron MCTS porque “descompone problemas matemáticos complejos en tareas de generación de un solo paso más simples, reduciendo la dificultad” para modelos más pequeños.
Sin embargo, no se limitaron a aplicar MCTS como lo han hecho otros investigadores, sino que, en un golpe de brillantez, también pidieron al modelo que entrenaron que siempre generara sus pasos de razonamiento de “cadena de pensamiento” como descripciones en lenguaje natural y como código Python.
Ordenaron que el modelo incluiría las respuestas en lenguaje natural como comentarios de código Python, y solo aquellas salidas que usaran Python se usarían para entrenar el modelo.
Los investigadores también entrenaron un “modelo de políticas” para generar pasos de razonamiento matemático y un modelo de preferencia de procesos (PPM) para seleccionar los pasos más prometedores para resolver los problemas, y los mejoraron a ambos a lo largo de cuatro rondas de “autoevolución”, en las que cada modelo mejoraba al otro.
Para sus datos iniciales, los investigadores dijeron que utilizaron “747.000 problemas matemáticos de fuentes disponibles públicamente”, junto con sus soluciones, pero generaron nuevos pasos para resolverlos con los dos modelos descritos anteriormente.
Resultados récord
Después de cuatro rondas de autoevolución, rStar-Math logró hitos importantes:
• En el punto de referencia MATH , la precisión del modelo Qwen2.5-Math-7B aumentó del 58,8 % al 90,0 %, superando a OpenAI o1-preview.
• En el Examen Americano de Invitación de Matemáticas (AIME) , resolvió el 53,3% de los problemas, ubicándose entre el 20% superior de los competidores de escuela secundaria.
Estos resultados resaltan el poder de los SLM para manejar el razonamiento matemático complejo, tradicionalmente dominado por sistemas más grandes.
¿Cuanto más pequeño, mejor?
En los últimos años, la innovación en IA se ha basado en gran medida en la ampliación de los modelos lingüísticos, y el aumento de los parámetros se ha considerado una forma de mejorar el rendimiento. Sin embargo, los altos costos asociados a estos modelos masivos, desde los recursos computacionales hasta el consumo de energía, han planteado dudas sobre la escalabilidad.
Microsoft ofrece un camino alternativo, centrado en la eficiencia. El lanzamiento de rStar-Math subraya aún más este compromiso al demostrar cómo los SLM pueden rivalizar (y en algunos casos superar) las capacidades de sus homólogos de mayor tamaño.
Los lanzamientos duales de Phi-4 y el documento rStar-Math de Microsoft sugieren que los modelos compactos y especializados pueden proporcionar alternativas poderosas a los sistemas más grandes de la industria.
Además, al superar a competidores más grandes en indicadores clave, estos modelos desafían la idea de que cuanto más grande, mejor. Abren las puertas a organizaciones medianas e investigadores académicos para acceder a capacidades de vanguardia sin la carga financiera o ambiental de los modelos masivos.
Fuente:
VentureBeat(2025, 09 de enero). La nueva técnica rStar-Math de Microsoft mejora los modelos pequeños para superar a la versión preliminar o1 de OpenAI en problemas matemáticos. Recuperado el 10 de enero de 2025 de: https://venturebeat.com/ai/microsofts-new-rstar-math-technique-upgrades-small-models-to-outperform-openais-o1-preview-at-math-problems/