El año pasado , los investigadores de DeepMind escribieron que los futuros desarrolladores de IA pueden dedicar menos tiempo a programar algoritmos y más tiempo a generar ricos mundos virtuales en los que entrenarlos.
En un nuevo artículo publicado esta semana sobre el servidor de preimpresión arXiv, parece que están tomando muy en serio la última parte de esa predicción.
Los autores del artículo dijeron que han creado un campo de juego virtual infinitamente desafiante para la IA. El mundo, llamado XLand, es un videojuego vibrante administrado por un señor supremo de la IA y poblado por algoritmos que deben aprender las habilidades para navegar por él.
La IA que administra el juego vigila lo que los algoritmos de juego están aprendiendo y genera automáticamente nuevos mundos, juegos y tareas para enfrentarlos continuamente con nuevas experiencias.
El equipo dijo que algunos algoritmos veteranos enfrentaron 3.4 millones de tareas únicas mientras jugaban alrededor de 700,000 juegos en 4,000 XLand mundos. Pero lo más notable es que desarrollaron un conjunto de habilidades generales no relacionadas con ningún juego en particular, pero útiles en todos ellos.
Estas habilidades incluyeron experimentación, uso de herramientas simples y cooperación con otros jugadores. Habilidades generales en la mano, los algoritmos funcionaron bien cuando se enfrentaron a nuevos juegos, incluidos los más complejos, como capturar la bandera, esconderse y buscar y etiquetar.
Esto, dicen los autores, es un paso hacia la solución de un desafío importante en el aprendizaje profundo. La mayoría de los algoritmos entrenados para realizar una tarea específica, como, en el caso de DeepMind, para ganar en juegos como Go o Starcraft, son sabios. Son sobrehumanos en la única tarea que conocen e inútiles en el resto. Pueden derrotar a campeones del mundo en Go o ajedrez, pero tienen que volver a entrenarse desde cero para hacer cualquier otra cosa.
Al presentar los algoritmos de aprendizaje por refuerzo profundo con un mundo abierto y siempre cambiante del que aprender, DeepMind dice que sus algoritmos están comenzando a demostrar un aprendizaje “cero” en nuevas tareas nunca antes de vistas. Es decir, no visto necesario reentrenamiento para realizar tareas novedosas a un nivel decente, sin ser.
Este es un paso hacia algoritmos con capacidad más general que pueden interactuar, navegar y resolver problemas en el mundo real, también infinitamente novedoso.
Pero XLand no es el primer indicio de generalización de la comunidad de IA en los últimos tiempos.
El GPT-3 de OpenAI puede generar extraños pasajes escritos, su propósito principal, pero también puede hacer otras cosas, como aritmética simple y programación. Y se puede ajustar con unos pocos ejemplos. (OpenAI dice que GPT-3 demuestra un aprendizaje de “pocas oportunidades”).
Y el año pasado, DeepMind desarrolló un algoritmo que escribió una pieza clave de su propio código llamada función de valor, que guía sus acciones proyectando recompensas. Sorprendentemente, después de haber sido entrenado en “mundos de juguete” muy simples, el algoritmo pasó a jugar 14 juegos de Atari que nunca había encontrado un nivel sobrehumano, funcionando, a veces, a la par con la IA diseñado por humanos.
En particular, mientras más “mundos de juguete” se entrenara el algoritmo, mejor podría generalizar. En ese momento, el equipo especuló que con suficientes mundos de entrenamiento bien diseñado, el enfoque podría producir un algoritmo de aprendizaje por refuerzo de propósito general.
El aprendizaje abierto de XLand nos lleva más adelante en ese camino. Sin embargo, hasta dónde llega el camino es una cuestión abierta y muy debatida.
Aquí, los algoritmos están jugando juegos bastante simples en un mundo relativamente simple (aunque inteligentemente ajustado para mantener las cosas frescas). No está claro qué tan bien funcionarían los algoritmos en juegos más complejos, y mucho menos en el mundo en general. Pero si XL y es una prueba de concepto, sus hallazgos pueden sugerir que mundos cada vez más sofisticados darán lugar a algoritmos cada vez más sofisticados.
De hecho, los investigadores de DeepMind recientemente pusieron en juego el terreno, argumentando (filosóficamente, al menos) que el aprendizaje reforzado, el método detrás de los éxitos más espectaculares de la organización, es todo lo que necesitamos para llegar a la inteligencia artificial general . Mientras tanto, OpenAI y otros buscan el aprendizaje profundo sin supervisión a gran escala para el procesamiento avanzado del lenguaje natural y la generación de imágenes.
No todo el mundo está de acuerdo. Algunos creen que el aprendizaje profundo chocará contra una pared y tendrá que emparejarse con otros enfoques, como la IA simbólica . Pero tres de los pioneros del campo, Geoffrey Hinton, Yoshua Bengio y Yann LeCun, recientemente coescribieron un artículo en el que argumentan lo contrario. Reconocen las deficiencias del aprendizaje profundo, incluida su falta de flexibilidad e ineficiencia, pero creen que superará sus desafíos sin recurrir a otras disciplinas.
Dejando de lado los argumentos filosóficos, la IA estrecha ya está teniendo un gran impacto.
DeepMind lo demostró recientemente con su algoritmo AlphaFold , que predice las formas de las proteínas. La organización acaba de publicar las formas previstas de 350.000 proteínas , incluidas casi todas las proteínas del cuerpo humano. Dijeron que otros 100 millones están en camino.
Para poner eso en perspectiva, los científicos han elaborado la estructura de unas 180.000 proteínas durante décadas. La caída de proteína de DeepMind casi duplicó el recuento de una sola vez. Los científicos no han confirmado rigurosamente la biblioteca de proteínas recién acuñada, pero será una herramienta valiosa para ellos. En lugar de comenzar desde una pizarra en blanco, tendrán una plantilla (quizás mucho más) para trabajar.
Independientemente de lo que suceda con la búsqueda de la inteligencia artificial general, parece que todavía hay mucho espacio para correr para sus precursores más vocacionales.
Fuente:
Dorrier, J. (2021b, 31 de julio). El vibrante nuevo mundo virtual de DeepMind entrena una IA flexible con un juego sin fin. Recuperado 2 de agosto de 2021, de https://singularityhub.com/2021/08/01/deepminds-vibrant-new-virtual-world-trains-flexible-ai-with-endless-play/