En 2020, el algoritmo de aprendizaje automático GPT-3 de OpenAI sorprendió a la gente cuando, después de ingerir miles de millones de palabras extraídas de Internet, comenzó a escupir oraciones bien elaboradas . Este año, DALL-E 2, un primo de GPT-3 entrenado en texto e imágenes, causó un revuelo similar en línea cuando comenzó a generar imágenes surrealistas de astronautas a caballo y, más recientemente, a crear rostros extraños y fotorrealistas de personas que no no existe.
Ahora, la compañía dice que su última IA ha aprendido a jugar Minecraft después de ver unas 70.000 horas de video que muestra a personas jugando en YouTube.
escuela de minas
En comparación con numerosos algoritmos anteriores de Minecraft que funcionan en versiones del juego mucho más simples, la nueva IA juega en el mismo entorno que los humanos, utilizando comandos estándar de teclado y mouse.
En una publicación de blog y una preimpresión que detalla el trabajo, el equipo de OpenAI dice que, de inmediato, el algoritmo aprendió habilidades básicas, como talar árboles, hacer tablones y construir mesas de trabajo. También lo observaron nadar, cazar, cocinar y “saltar pilares”.
“Hasta donde sabemos, no hay ningún trabajo publicado que opere en el espacio de acción humana completo y sin modificar, que incluye la gestión de inventario de arrastrar y soltar y la elaboración de artículos”, escribieron los autores en su artículo.
Con el ajuste fino, es decir, entrenando el modelo en un conjunto de datos más enfocado, encontraron que el algoritmo realizaba todas estas tareas de manera más confiable, pero también comenzaron a avanzar en su destreza tecnológica al fabricar herramientas de madera y piedra y construir refugios básicos, explorar aldeas y asaltar cofres.
Después de un mayor ajuste con el aprendizaje por refuerzo, aprendió a construir un pico de diamante, una habilidad que los jugadores humanos tardan unos 20 minutos y 24 000 acciones en completar.
Este es un resultado notable. AI ha luchado durante mucho tiempo con el juego abierto de Minecraft. Juegos como el ajedrez y Go, que la IA ya domina, tienen objetivos claros y se puede medir el progreso hacia esos objetivos. Para conquistar Go, los investigadores utilizaron el aprendizaje por refuerzo , donde a un algoritmo se le asigna una meta y se le recompensa por el progreso hacia esa meta. Minecraft, por otro lado, tiene una gran cantidad de objetivos posibles, el progreso es menos lineal y los algoritmos de aprendizaje de refuerzo profundo generalmente se dejan hacer girar sus ruedas.
En la competencia MineRL Minecraft de 2019 para desarrolladores de IA, por ejemplo, ninguna de las 660 presentaciones logró el objetivo relativamente simple de la competencia de extraer diamantes .
Vale la pena señalar que para recompensar la creatividad y mostrar que arrojar potencia informática a un problema no siempre es la respuesta, los organizadores de MineRL impusieron límites estrictos a los participantes: se les permitió una GPU NVIDIA y 1000 horas de juego grabado. Aunque los concursantes se desempeñaron admirablemente, el resultado de OpenAI, logrado con más datos y 720 GPU NVIDIA, parece mostrar que la potencia informática todavía tiene sus beneficios.
La IA se vuelve astuta
Con su algoritmo de preentrenamiento de video (VPT) para Minecraft, OpenAI volvió al enfoque que se usa con GPT-3 y DALL-E: preentrenamiento de un algoritmo en un conjunto de datos imponente de contenido creado por humanos. Pero el éxito del algoritmo no fue posible solo con el poder de cómputo o los datos. Entrenar una IA de Minecraft en tanto video no era práctico antes.
Las secuencias de video sin procesar no son tan útiles para las IA de comportamiento como lo son para los generadores de contenido como GPT-3 y DALL-E. Muestra lo que la gente está haciendo, pero no explica cómo lo están haciendo. Para que el algoritmo vincule el video a las acciones, necesita etiquetas. Un cuadro de video que muestre la colección de objetos de un jugador, por ejemplo, debería etiquetarse como “inventario” junto con la tecla de comando “E” que se usa para abrir el inventario.
Etiquetar cada cuadro en 70,000 horas de video sería… una locura. Entonces, el equipo pagó a los contratistas de Upwork para registrar y etiquetar las habilidades básicas de Minecraft. Usaron 2000 horas de este video para enseñar a un segundo algoritmo cómo etiquetar videos de Minecraft, y ese algoritmo, IDM, anotó las 70 000 horas de metraje de YouTube. (El equipo dice que IDM fue más del 90 por ciento preciso al etiquetar los comandos del teclado y el mouse).
Este enfoque de humanos que entrenan un algoritmo de etiquetado de datos para desbloquear conjuntos de datos de comportamiento en línea también puede ayudar a la IA a aprender otras habilidades. “VPT allana el camino para permitir que los agentes aprendan a actuar viendo la gran cantidad de videos en Internet”, escribió el investigador. Más allá de Minecraft, OpenAI cree que VPT puede traer nuevas aplicaciones del mundo real, como algoritmos que operan computadoras en un aviso (imagínese, por ejemplo, pedirle a su computadora portátil que encuentre un documento y se lo envíe por correo electrónico a su jefe).
Los diamantes no son para siempre
Quizás para disgusto de los organizadores de la competencia MineRL, los resultados parecen mostrar que el poder y los recursos informáticos aún mueven la aguja en la IA más avanzada.
No importa el costo de la informática, OpenAI dijo que solo los contratistas de Upwork cuestan $ 160,000. Aunque para ser justos, el etiquetado manual de todo el conjunto de datos habría costado millones y habría tomado un tiempo considerable para completarlo. Y aunque la potencia informática no era despreciable, el modelo era bastante pequeño. Los cientos de millones de parámetros de VPT son órdenes de magnitud menores que los cientos de miles de millones de GPT-3.
Aún así, el impulso para encontrar nuevos enfoques inteligentes que usen menos datos y computación es válido. Un niño puede aprender los conceptos básicos de Minecraft viendo uno o dos videos. La IA de hoy requiere mucho más para aprender incluso habilidades simples. Hacer que la IA sea más eficiente es un desafío grande y valioso.
En cualquier caso, OpenAI está de humor para compartir esta vez. Los investigadores dicen que VPT no está exento de riesgos: controlaron estrictamente el acceso a algoritmos como GPT-3 y DALL-E en parte para limitar el uso indebido, pero el riesgo es mínimo por ahora. Han abierto los datos, el entorno y el algoritmo y se están asociando con MineRL. Los concursantes de este año son libres de usar, modificar y ajustar lo último en Minecraft AI.
Fuente:
Dorrier, J. (2022i, junio 26). OpenAI’s New AI Learned to Play Minecraft by Watching 70,000 Hours of YouTube. Singularity Hub. Recuperado 27 de junio de 2022, de https://singularityhub.com/2022/06/26/openais-new-ai-learned-to-play-minecraft-by-watching-70000-hours-of-youtube/