Dos de los principales actores de San Francisco en el campo de la inteligencia artificial han desafiado al público a que proponga preguntas capaces de poner a prueba las capacidades de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como Google Gemini y o1 de OpenAI. Scale AI, que se especializa en preparar las grandes cantidades de datos con las que se entrenan los LLM, se asoció con el Centro para la Seguridad de la IA (CAIS, por sus siglas en inglés) para lanzar la iniciativa, Humanity’s Last Exam.
Con premios de $5,000 para aquellos que respondan las 50 mejores preguntas seleccionadas para la prueba, Scale y CAIS dicen que el objetivo es probar qué tan cerca estamos de lograr “sistemas de IA de nivel experto” utilizando la “coalición de expertos más grande y amplia de la historia”.
¿Por qué hacer esto? Los principales estudiantes de máster ya están aprobando muchas pruebas establecidas en inteligencia, matemáticas y derecho , pero es difícil estar seguro de qué tan significativo es esto. En muchos casos, es posible que hayan aprendido de antemano las respuestas debido a las enormes cantidades de datos con las que se capacitan, incluido un porcentaje significativo de todo lo que hay en Internet.
Los datos son fundamentales en todo este ámbito. Están detrás del cambio de paradigma de la informática convencional a la IA, de “decirles” a “mostrarles” a las máquinas qué hacer. Esto requiere buenos conjuntos de datos de entrenamiento, pero también buenas pruebas. Los desarrolladores suelen hacer esto utilizando datos que no se han utilizado anteriormente para el entrenamiento, conocidos en la jerga como “conjuntos de datos de prueba”.
Si los estudiantes de máster no son capaces de aprender de antemano las respuestas a exámenes establecidos, como los exámenes de abogacía, probablemente lo serán pronto. El sitio de análisis de IA Epoch AI estima que 2028 marcará el punto en el que las IA habrán leído efectivamente todo lo que los humanos hayan escrito. Un desafío igualmente importante es cómo seguir evaluando a las IA una vez que se haya cruzado ese punto.
Por supuesto, Internet está en constante expansión y se agregan millones de nuevos elementos todos los días. ¿Podría eso solucionar estos problemas?
Tal vez, pero esto deriva en otra dificultad insidiosa, conocida como “ colapso del modelo ”. A medida que Internet se inunda cada vez más de material generado por IA que recircula en futuros conjuntos de entrenamiento de IA, esto puede hacer que las IA tengan un rendimiento cada vez peor . Para superar este problema, muchos desarrolladores ya están recopilando datos de las interacciones humanas de sus IA y agregando datos nuevos para el entrenamiento y las pruebas.
Algunos especialistas sostienen que las IA también necesitan encarnarse: moverse en el mundo real y adquirir sus propias experiencias, como lo hacen los humanos. Esto puede parecer descabellado hasta que te das cuenta de que Tesla lo ha estado haciendo durante años con sus autos. Otra oportunidad involucra dispositivos portátiles humanos, como las populares gafas inteligentes Meta de Ray-Ban . Están equipadas con cámaras y micrófonos y se pueden usar para recopilar grandes cantidades de datos de video y audio centrados en el ser humano.
Pruebas estrechas
Sin embargo, incluso si estos productos garantizan suficientes datos de entrenamiento en el futuro , aún existe el enigma de cómo definir y medir la inteligencia, en particular la inteligencia artificial general (AGI), es decir, una IA que iguala o supera la inteligencia humana.
Las pruebas tradicionales de coeficiente intelectual humano han sido controvertidas durante mucho tiempo por no captar la naturaleza multifacética de la inteligencia, que abarca todo, desde el lenguaje hasta las matemáticas, la empatía y el sentido de orientación.
Existe un problema análogo con las pruebas que se utilizan en las IA. Existen muchas pruebas bien establecidas que cubren tareas como resumir texto, comprenderlo, extraer inferencias correctas de la información, reconocer poses y gestos humanos y visión artificial.
Algunas pruebas se están retirando, generalmente porque las IAs se desempeñan muy bien en ellas, pero son tan específicas de una tarea que son medidas muy estrechas de inteligencia. Por ejemplo, la IA que juega al ajedrez Stockfish está muy por delante de Magnus Carlsen, el jugador humano con mayor puntuación de todos los tiempos, en el sistema de clasificación Elo . Sin embargo, Stockfish es incapaz de realizar otras tareas, como comprender el lenguaje. Claramente sería un error mezclar sus capacidades ajedrecísticas con una inteligencia más amplia.
Pero ahora que las IA demuestran un comportamiento inteligente más amplio, el desafío es idear nuevos puntos de referencia para comparar y medir su progreso. Un enfoque notable proviene del ingeniero francés de Google François Chollet. Sostiene que la verdadera inteligencia radica en la capacidad de adaptar y generalizar el aprendizaje a situaciones nuevas e inéditas. En 2019, ideó el “corpus de abstracción y razonamiento” (ARC), una colección de acertijos en forma de cuadrículas visuales simples diseñadas para probar la capacidad de una IA para inferir y aplicar reglas abstractas.
A diferencia de los puntos de referencia anteriores que prueban el reconocimiento visual de objetos entrenando a una IA con millones de imágenes, cada una con información sobre los objetos que contiene, ARC le proporciona ejemplos mínimos por adelantado. La IA tiene que descifrar la lógica del rompecabezas y no puede simplemente aprender todas las respuestas posibles.
Aunque las pruebas de ARC no son particularmente difíciles de resolver para los humanos, hay un premio de $600,000 para el primer sistema de IA que alcance una puntuación del 85 por ciento. Al momento de escribir esto, estamos muy lejos de ese punto. Dos LLM líderes recientes, o1 preview de OpenAI y Sonnet 3.5 de Anthropic, ambos obtienen una puntuación del 21 por ciento en la tabla de clasificación pública de ARC (conocida como ARC-AGI-Pub ).
Otro intento reciente con GPT-4o de OpenAI obtuvo un 50 por ciento , pero de manera un tanto controvertida porque el método generó miles de posibles soluciones antes de elegir la que ofrecía la mejor respuesta para la prueba. Incluso así, esto todavía estaba muy lejos de activar el premio o de igualar los desempeños humanos de más del 90 por ciento .
Si bien ARC sigue siendo uno de los intentos más creíbles de comprobar la inteligencia genuina en la IA en la actualidad, la iniciativa Scale/CAIS demuestra que la búsqueda de alternativas convincentes continúa. (Es fascinante que nunca veamos algunas de las preguntas premiadas. No se publicarán en Internet para garantizar que las IA no echen un vistazo a los exámenes).
Necesitamos saber cuándo las máquinas se están acercando al razonamiento de nivel humano, con todas las cuestiones de seguridad, éticas y morales que esto plantea. En ese punto, presumiblemente nos quedará una pregunta de examen aún más difícil: cómo comprobar si existe una superinteligencia. Esa es una tarea aún más compleja que debemos resolver.
Este artículo se publica nuevamente en The Conversation bajo una licencia Creative Commons. Lea el artículo original .
Crédito de la imagen: Steve Johnson / Unsplash
Rogoyski, A. (2024, 15 octubre). AI Has a Secret: We’re Still Not Sure How to Test for Human Levels of Intelligence. Singularity Hub. https://singularityhub.com/2024/10/15/ai-has-a-secret-were-still-not-sure-how-to-test-for-human-levels-of-intelligence/