¿Alguna vez has visto a una gacela bebé aprender a caminar? Un cervatillo, que es básicamente un papá mamífero de patas largas, se pone de pie, cae, se para y vuelve a caer. Eventualmente, se para el tiempo suficiente para agitar sus piernas parecidas a palillos de dientes en una serie de casi caídas… ejem, pasos. Sorprendentemente, unos minutos después de esta exhibición entrañable, el cervatillo salta como un viejo profesional.
Bueno, ahora tenemos una versión robot de esta clásica escena del Serengeti.
El cervatillo en este caso es un perro robótico de la Universidad de California, Berkeley. Y también es un aprendiz sorprendentemente rápido (en relación con el resto de los robots). El robot también es especial porque, a diferencia de otros robots más llamativos que hayas visto en línea, utiliza inteligencia artificial para aprender a caminar.
Comenzando de espaldas, agitando las piernas, el robot aprende a darse la vuelta, ponerse de pie y caminar en una hora. Diez minutos más de acoso con un rollo de cartón son suficientes para enseñarle a resistir y recuperarse de los empujones de sus cuidadores.
No es la primera vez que un robot utiliza la inteligencia artificial para aprender a caminar . Pero mientras que los robots anteriores aprendieron la habilidad por ensayo y error en innumerables iteraciones en simulaciones, el bot de Berkeley aprendió por completo en el mundo real.
En un artículo publicado en el servidor de preimpresión arXiv, los investigadores (Danijar Hafner, Alejandro Escontrela y Philipp Wu) dicen que transferir algoritmos que han aprendido en la simulación al mundo real no es sencillo. Los pequeños detalles y las diferencias entre el mundo real y la simulación pueden hacer tropezar a los robots en ciernes. Por otro lado, entrenar algoritmos en el mundo real no es práctico: llevaría demasiado tiempo y desgaste.
Hace cuatro años, por ejemplo, OpenAI mostró una mano robótica habilitada para IA que podía manipular un cubo. El algoritmo de control, Dactyl, necesitaba unos 100 años de experiencia en una simulación impulsada por 6144 CPU y 8 GPU Nvidia V100 para realizar esta tarea relativamente simple. Las cosas han avanzado desde entonces, pero el problema persiste en gran medida. Los algoritmos de aprendizaje por refuerzo puro necesitan demasiada prueba y error para aprender habilidades para que puedan entrenar en el mundo real. En pocas palabras, el proceso de aprendizaje quebrantaría a los investigadores y los robots antes de lograr un progreso significativo.
El equipo de Berkeley se propuso resolver este problema con un algoritmo llamado Dreamer. Mediante la construcción de lo que se denomina un ” modelo mundial “, Dreamer puede proyectar la probabilidad de que una acción futura logre su objetivo. Con la experiencia, la precisión de sus proyecciones mejora. Al filtrar las acciones menos exitosas por adelantado, el modelo mundial permite que el robot descubra de manera más eficiente qué funciona.
“Aprender modelos del mundo a partir de experiencias pasadas permite a los robots imaginar los resultados futuros de acciones potenciales, lo que reduce la cantidad de prueba y error en el entorno real necesario para aprender comportamientos exitosos”, escriben los investigadores. “Al predecir los resultados futuros, los modelos mundiales permiten la planificación y el aprendizaje del comportamiento con solo una pequeña cantidad de interacción en el mundo real”.
En otras palabras, un modelo mundial puede reducir el equivalente de años de tiempo de entrenamiento en una simulación a no más de una hora incómoda en el mundo real.
El enfoque también puede tener una relevancia más amplia que los perros robot. El equipo también aplicó Dreamer a un brazo robótico de selección y colocación ya un robot con ruedas. En ambos casos, descubrieron que Dreamer permitía que sus robots aprendieran habilidades relevantes de manera eficiente, sin necesidad de tiempo de simulación. Las aplicaciones futuras más ambiciosas podrían incluir automóviles autónomos .
Por supuesto, todavía hay desafíos que abordar. Aunque el aprendizaje por refuerzo automatiza parte de la intrincada codificación manual detrás de los robots más avanzados de la actualidad, aún requiere que los ingenieros definan los objetivos de un robot y lo que constituye el éxito, un ejercicio que requiere mucho tiempo y es abierto para los entornos del mundo real. Además, aunque el robot sobrevivió a los experimentos del equipo aquí, un entrenamiento más prolongado en habilidades más avanzadas puede resultar demasiado para que los futuros bots sobrevivan sin sufrir daños. Los investigadores dicen que podría ser fructífero combinar el entrenamiento con simulador con un aprendizaje rápido en el mundo real.
Aún así, los resultados hacen avanzar la IA en robótica otro paso. Dreamer refuerza el argumento de que “el aprendizaje por refuerzo será una herramienta fundamental en el futuro del control de robots”, dijo a MIT Technology Review Jonathan Hurst, profesor de robótica en la Universidad Estatal de Oregón .
Crédito de la imagen: Danijar Hafner / YouTube