Un nuevo artículo de investigadores de Google Research y la Universidad de California, Berkeley, demuestra que un enfoque sorprendentemente sencillo de escalamiento en tiempo de prueba puede potenciar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM). ¿La clave? Ampliar la búsqueda basada en muestreo, una técnica que se basa en la generación de múltiples respuestas y el uso del propio modelo para verificarlas.
El hallazgo principal es que incluso una implementación minimalista de búsqueda basada en muestreo, mediante muestreo aleatorio y autoverificación, puede mejorar el rendimiento de razonamiento de modelos como Gemini 1.5 Pro por encima del de o1-Preview en benchmarks populares. Estos hallazgos pueden tener implicaciones importantes para las aplicaciones empresariales y cuestionar la suposición de que un entrenamiento altamente especializado o arquitecturas complejas siempre son necesarios para lograr un rendimiento de primer nivel.
Los límites del escalamiento computacional en tiempo de prueba actual
El método popular actual para el escalamiento del tiempo de prueba en LLM consiste en entrenar el modelo mediante aprendizaje por refuerzo para generar respuestas más largas con trazas de cadena de pensamiento (CoT). Este enfoque se utiliza en modelos como OpenAI o1 y DeepSeek-R1 . Si bien son beneficiosos, estos métodos suelen requerir una inversión considerable en la fase de entrenamiento.
Otro método de escalamiento en tiempo de prueba es la autoconsistencia, donde el modelo genera múltiples respuestas a la consulta y elige la que aparece con mayor frecuencia. La autoconsistencia alcanza sus límites al gestionar problemas complejos, ya que en estos casos la respuesta más repetida no es necesariamente la correcta.
La búsqueda basada en muestreo ofrece una alternativa más sencilla y altamente escalable al escalado en tiempo de prueba: permite que el modelo genere múltiples respuestas y seleccione la mejor mediante un mecanismo de verificación. La búsqueda basada en muestreo puede complementar otras estrategias de escalado computacional en tiempo de prueba y, como escriben los investigadores en su artículo, «también tiene la ventaja única de ser vergonzosamente paralela y permitir un escalado arbitrario: simplemente se muestrean más respuestas».
Más importante aún, la búsqueda basada en muestreo se puede aplicar a cualquier LLM, incluidos aquellos que no han sido entrenados explícitamente para el razonamiento.
Cómo funciona la búsqueda basada en muestreo
Los investigadores se centran en una implementación minimalista de la búsqueda basada en muestreo, utilizando un modelo de lenguaje para generar respuestas candidatas y verificarlas. Se trata de un proceso de autoverificación, en el que el modelo evalúa sus propios resultados sin depender de respuestas externas de verdad fundamental ni de sistemas de verificación simbólica.
El algoritmo funciona en unos sencillos pasos:
1—El algoritmo comienza generando un conjunto de posibles soluciones al problema dado mediante un modelo de lenguaje. Esto se logra presentando al modelo la misma instrucción varias veces y utilizando una configuración de temperatura distinta de cero para crear un conjunto diverso de respuestas.
2—La respuesta de cada candidato se somete a un proceso de verificación en el que se le solicita al LLM varias veces que determine si la respuesta es correcta. Los resultados de la verificación se promedian para obtener la puntuación final de verificación de la respuesta.
3— El algoritmo selecciona la respuesta con la puntuación más alta como respuesta final. Si hay varios candidatos con una distancia muy cercana, el LLM debe compararlos por pares y elegir el mejor. La respuesta que obtenga más comparaciones por pares se elige como respuesta final.
Los investigadores consideraron dos ejes clave para escalar el tiempo de prueba:
Muestreo: El número de respuestas que el modelo genera para cada problema de entrada.
Verificación: La cantidad de puntajes de verificación calculados para cada solución generada
Cómo se compara la búsqueda basada en muestreo con otras técnicas
El estudio reveló que el rendimiento del razonamiento continúa mejorando con la búsqueda basada en muestreo, incluso cuando el cómputo en tiempo de prueba se escala mucho más allá del punto donde la autoconsistencia se satura.
A una escala suficiente, esta implementación minimalista mejora significativamente la precisión del razonamiento en pruebas de razonamiento como AIME y MATH. Por ejemplo, el rendimiento de Gemini 1.5 Pro superó al de o1-Preview, que se entrenó explícitamente en problemas de razonamiento, y Gemini 1.5 Flash superó a Gemini 1.5 Pro.
“Esto no solo resalta la importancia de la búsqueda basada en muestreo para la capacidad de escalamiento, sino que también sugiere la utilidad de la búsqueda basada en muestreo como una línea de base simple sobre la cual comparar otras estrategias de escalamiento computacional en tiempo de prueba y medir mejoras genuinas en las capacidades de búsqueda de los modelos”, escriben los investigadores.
Cabe destacar que, si bien los resultados del muestreo basado en búsqueda son impresionantes, los costos también pueden resultar prohibitivos. Por ejemplo, con 200 muestras y 50 pasos de verificación por muestra, una consulta de AIME generará alrededor de 130 millones de tokens, lo que cuesta $650 con Gemini 1.5 Pro. Sin embargo, este es un enfoque muy minimalista para la búsqueda basada en muestreo y es compatible con las técnicas de optimización propuestas en otros estudios. Con métodos de muestreo y verificación más inteligentes, los costos de inferencia pueden reducirse considerablemente mediante el uso de modelos más pequeños y la generación de menos tokens . Por ejemplo, al usar Gemini 1.5 Flash para realizar la verificación, los costos se reducen a $12 por pregunta.
Estrategias eficaces de autoverificación
Existe un debate en curso sobre si los LLM pueden verificar sus propias respuestas. Los investigadores identificaron dos estrategias clave para mejorar la autoverificación mediante el uso de cómputo en tiempo de prueba:
Comparación directa de las respuestas candidatas: Las discrepancias entre las soluciones candidatas son un claro indicio de posibles errores. Al proporcionar al verificador múltiples respuestas para comparar, el modelo puede identificar mejor los errores y las alucinaciones, lo que soluciona una debilidad fundamental de los LLM. Los investigadores describen esto como un ejemplo de «escalamiento implícito».
Reescritura específica de la tarea: Los investigadores proponen que el estilo óptimo de salida de un LLM depende de la tarea. La cadena de pensamiento es eficaz para resolver tareas de razonamiento, pero las respuestas son más fáciles de verificar cuando se redactan en un estilo más formal y matemáticamente convencional. Los verificadores pueden reescribir las respuestas de los candidatos en un formato más estructurado (p. ej., prueba de teoremas y lemas) antes de la evaluación.
“Prevemos que las capacidades de autoverificación de los modelos mejorarán rápidamente a corto plazo, a medida que los modelos aprendan a aprovechar los principios de escalamiento implícito y la idoneidad del estilo de salida, e impulsen tasas de escalamiento mejoradas para la búsqueda basada en muestreo”, escriben los investigadores.
Implicaciones para aplicaciones en el mundo real
El estudio demuestra que una técnica relativamente simple puede lograr resultados impresionantes, reduciendo potencialmente la necesidad de arquitecturas de modelos o regímenes de entrenamiento complejos y costosos.
Esta técnica también es escalable, lo que permite a las empresas aumentar el rendimiento al asignar más recursos computacionales al muestreo y la verificación. Además, permite a los desarrolladores llevar los modelos de lenguaje de vanguardia más allá de sus limitaciones en tareas complejas.
“Dado que complementa otras estrategias de escalamiento computacional en tiempo de prueba, es paralelizable y permite escalamiento arbitrario, y admite implementaciones simples que son demostrablemente efectivas, esperamos que la búsqueda basada en muestreo desempeñe un papel crucial a medida que los modelos de lenguaje se encargan de resolver problemas cada vez más complejos con presupuestos computacionales cada vez mayores”, escriben los investigadores.
Fuente.
VentureBeat (2025, 21 de marzo). Menos es más: UC Berkeley y Google liberan el potencial de LLM a través de un muestreo simple. Recuperado el 24 de marzo de 2025, de: https://venturebeat.com/ai/less-is-more-uc-berkeley-and-google-unlock-llm-potential-through-simple-sampling/