AI ha dominado algunos de los juegos más complejos conocidos por el hombre, pero aunque a menudo se destaca en la competencia, la cooperación no es tan natural. Ahora, una IA de Meta ha dominado el juego Diplomacy, que requiere que trabajes con otros jugadores para ganar.
El dominio de Google del juego Go fue aclamado como un hito importante para la IA, pero a pesar de su innegable complejidad, en muchos sentidos se adapta bien a la lógica fría y calculadora de una máquina. Es un juego de información perfecta, donde tienes visibilidad completa de los movimientos de tu oponente, y ganar simplemente significa ser capaz de superar a otro jugador.
La diplomacia, por otro lado, es un asunto mucho más complicado. En el juego de mesa, hasta siete jugadores toman el control de los poderes militares europeos y usan sus ejércitos para tomar el control de ciudades estratégicas. Pero los jugadores pueden negociar entre sí para formar y romper alianzas en busca de la dominación total.
Además, todos los movimientos de los jugadores se realizan simultáneamente en cada turno, por lo que no puedes simplemente reaccionar a lo que hacen los demás. Esto significa que ganar juegos requiere una combinación compleja de pensamiento estratégico, la capacidad de cooperar con otros jugadores y habilidades de negociación persuasivas. Si bien la IA ya domina la estrategia pura, esas otras habilidades han resultado mucho más difíciles de replicar.
Sin embargo, una nueva IA diseñada por investigadores de Meta puede haber dado un gran paso en esa dirección. En un artículo publicado la semana pasada en Science , describen un sistema llamado Cicero que se ubicó en el 10 por ciento superior de los jugadores en una liga de Diplomacia en línea y logró más del doble del puntaje promedio de los jugadores humanos.
“ Cicerón es resistente, es despiadado y es paciente”, dijo el tres veces campeón mundial de Diplomacia, Andrew Goff, en un video producido por Meta . “Juega sin mucha de la emoción humana que a veces te hace tomar malas decisiones. Simplemente evalúa la situación y toma la mejor decisión, no solo para él, sino también para las personas con las que trabaja”.
La creación de Cicero requirió que los investigadores de Meta combinaran métodos de IA de última generación de dos subcampos diferentes: razonamiento estratégico y procesamiento del lenguaje natural. En esencia, el sistema tiene un algoritmo de planificación que predice los movimientos de otros jugadores y lo usa para determinar su propia estrategia. Esto se entrenó haciendo que la IA jugara sola una y otra vez, al mismo tiempo que intentaba imitar la forma en que los humanos juegan el juego.
Los investigadores ya habían demostrado que este módulo de planificación solo podía vencer a los profesionales humanos en una versión simplificada del juego. Pero en esta última investigación, el equipo lo combinó con un gran modelo de lenguaje entrenado con grandes cantidades de texto de Internet y luego lo ajustó usando diálogos de 40,000 juegos en línea de Diplomacy. Esto le dio al Cicero actualizado la capacidad de interpretar mensajes de otros jugadores y también crear sus propios mensajes para persuadirlos de trabajar juntos.
El sistema combinado comienza utilizando el estado actual del tablero y el diálogo anterior para predecir lo que probablemente hará cada jugador. Luego, elabora un plan de acción tanto para sí mismo como para sus socios antes de generar mensajes diseñados para delinear su intención y asegurar la cooperación de otros jugadores.
Más de 40 juegos en el torneo en línea Cicero se comunicó efectivamente con otros 82 jugadores para explicar sus intenciones, coordinar acciones y negociar alianzas. Crucialmente, los investigadores dicen que no vieron evidencia en los mensajes del juego de que los jugadores humanos sospecharan que se estaban asociando con una IA.
Sin embargo, las habilidades comunicativas del modelo no eran perfectas. Es más que capaz de escupir mensajes sin sentido o que no concuerdan con sus objetivos, por lo que los investigadores tuvieron que generar múltiples mensajes candidatos en cada movimiento y luego usar varios mecanismos de filtrado para eliminar la basura. E incluso entonces, los investigadores admiten que a veces se filtran mensajes ilógicos .
Esto sugiere que el modelo de lenguaje en el corazón de Cicerón todavía no comprende realmente lo que está sucediendo y simplemente está produciendo mensajes que suenan plausibles que luego deben ser examinados para asegurarse de que logren los resultados deseados.
Escribiendo en The Conversation , el investigador de inteligencia artificial Toby Walsh de la Universidad de Nueva Gales del Sur en Australia también señala que Cicero es infaliblemente honesto, a diferencia de la mayoría de los jugadores humanos. Si bien esta es una estrategia sorprendentemente efectiva, podría ser una gran debilidad si los competidores descubren que su oponente nunca intentará engañarlos.
Sin embargo, el avance es significativo y Facebook espera poder tener aplicaciones mucho más allá de los juegos de mesa. En una publicación de blog , los investigadores dicen que la capacidad de usar algoritmos de planificación para controlar la generación de lenguaje podría hacer posible tener conversaciones mucho más largas y ricas con chatbots de IA o crear personajes de videojuegos que puedan adaptarse al comportamiento de un jugador.
Crédito de la imagen: MabelAmber / 4008 imágenes
Fuente:
Gent, E. (2022b, noviembre 28). Meta Created an AI That Beat Humans at «Diplomacy». Singularity Hub. https://singularityhub.com/2022/11/28/meta-created-an-ai-that-beat-humans-at-diplomacy/