La baraja no está arreglada: el póquer y los límites de la IA

Tuomas Sandholm, un científico informático de la Universidad Carnegie Mellon, no es un jugador de póquer —o un gran fanático del póquer, de hecho— pero está fascinado por el juego por la misma razón que el gran teórico del juego John von Neumann antes que él. Von Neumann, quien murió en 1957, veía al póquer como el modelo perfecto para la toma de decisiones humana, para encontrar el equilibrio entre la habilidad y el azar que acompaña a todas nuestras elecciones. Vio el póquer como el desafío estratégico último, la combinación, ya que no se limita a los elementos matemáticos de un juego como el ajedrez, pero los ángulos exclusivamente humanas, psicológicas que son más difíciles de modelar con precisión una vista años compartidos más tarde por Sandholm en su investigación con artificial inteligencia .

“Poker is the main benchmark and challenge program for games of imperfect information,” Sandholm told me on a warm spring afternoon in 2018, when we met in his offices in Pittsburgh. The game, it turns out, has become the gold standard for developing artificial intelligence.

Sandholm, alto y delgado, con gafas de montura metálica y un pulcro cabello en la frente que enmarca un rostro amistoso, está detrás de la creación de tres programas informáticos diseñados para poner a prueba su temple contra los jugadores de póquer humanos: Claudico, Libratus y, más recientemente, Pluribus . (Cuando nos conocimos, Libratus aún era un niño pequeño y Pluribus aún no existía). El objetivo no es resolver el póquer como tal, sino crear algoritmos cuya destreza para tomar decisiones en el mundo del póquer de información imperfecta y situaciones estocásticas: situaciones que se determinan al azar y no se pueden predecir, se pueden aplicar a otros ámbitos estocásticos, como el ejército, los negocios, el gobierno, la ciberseguridad e incluso la atención médica.

Mientras que el primer programa, Claudico, fue derrotado sumariamente por jugadores de póquer humanos – “un robot roto”, lo llamó un observador – Libratus ha triunfado en una serie de partidos uno a uno, o mano a mano, contra algunos de los mejores jugadores online de Estados Unidos.

Libratus se basa en tres módulos principales. El primero implica una estrategia de plano básico para todo el juego, lo que le permite alcanzar un equilibrio mucho más rápido que su predecesor. Incluye un algoritmo llamado Minimización de arrepentimiento contrafactual de Monte Carlo, que evalúa todas las acciones futuras para determinar cuál causaría la menor cantidad de arrepentimiento. El arrepentimiento, por supuesto, es una emoción humana. Lamentar una computadora simplemente significa darse cuenta de que una acción que no se eligió habría dado un mejor resultado que una que sí. “Intuitivamente, el arrepentimiento representa cuánto lamenta la IA de no haber elegido esa acción en el pasado”, dice Sandholm. Cuanto mayor sea el arrepentimiento, mayor será la posibilidad de elegir esa acción la próxima vez.

Es una forma útil de pensar, pero increíblemente difícil de implementar para la mente humana. Somos notoriamente malos para anticipar nuestras emociones futuras. ¿Cuánto nos arrepentiremos de haber hecho algo? ¿Cuánto nos arrepentiremos de no hacer otra cosa? Para nosotros, es un cálculo cargado de emociones y, por lo general, no lo aplicamos de la manera correcta. Para una computadora, se trata del cálculo de valores. ¿Qué es lo que más lamenta no haber hecho, lo que habría producido el mayor valor esperado posible?

El segundo módulo es un solucionador de subjuegos que tiene en cuenta los errores que el oponente ha cometido hasta ahora y da cuenta de todas las manos que podría tener. Y finalmente, hay un auto-mejorador. Esta es el área donde entran en juego los datos y el aprendizaje automático. Es peligroso intentar explotar a tu oponente; te expone al riesgo de que te exploten de nuevo, especialmente si eres un programa de computadora y tu oponente es humano. Entonces, en lugar de intentar hacer eso, el auto-mejorador permite que las acciones del oponente informen las áreas donde el programa debe enfocarse. “Eso permite que las acciones del oponente nos digan dónde creen que han encontrado agujeros en nuestra estrategia”, explicó Sandholm. Esto permite que el algoritmo desarrolle un modelo de estrategia para reparar esos agujeros.

Es una adaptación muy parecida a la humana, si lo piensas. No voy a intentar superarte de frente. En cambio, voy a ver cómo estás tratando de superarme y responder en consecuencia. Sun-Tzu seguramente lo aprobaría. Observa cómo te perciben, no cómo te percibes a ti mismo, porque al final, estás jugando contra aquellos que están percibiendo y su opinión, correcta o no, es la única que importa cuando elaboras tu estrategia. De la noche a la mañana, el algoritmo corrige su enfoque general de acuerdo con el análisis resultante.

Hay una última cosa que Libratus puede hacer: jugar en situaciones con probabilidades desconocidas. Hay un concepto en la teoría de juegos conocido como la mano temblorosa: hay ramas del árbol del juego a las que, bajo una estrategia óptima, uno teóricamente nunca debería llegar; pero con cierta probabilidad, la mano de tu oponente demasiado humano tiembla, realiza una acción incorrecta y de repente estás en una parte del juego totalmente sin cartografiar. Antes, eso significaría un desastre para la computadora: una parte no mapeada del árbol significa que el programa ya no sabe cómo responder. Ahora, hay un plan de contingencia.

Por supuesto, ningún algoritmo es perfecto. Cuando Libratus juega al póquer, esencialmente está trabajando en un entorno de suma cero. Gana, el oponente pierde. El oponente gana, pierde. Pero aunque algunas interacciones de la vida real son realmente de suma cero (me viene a la mente la guerra cibernética), muchas otras no son tan sencillas: mi victoria no significa necesariamente su pérdida. El pastel no es fijo, y nuestras interacciones pueden ser de suma más positiva que no.

Es más, las aplicaciones de la vida real tienen que lidiar con algo que un algoritmo de póquer no tiene: los pesos que se asignan a los diferentes elementos de una decisión. En el póquer, este es un proceso simple para maximizar el valor. Pero, ¿qué es el valor en el ámbito humano? Sandholm tuvo que lidiar con esto antes, cuando ayudó a crear el primer intercambio de riñón del mundo. ¿Quiere ser más eficiente, dando la mayor cantidad de riñones lo más rápido posible, o más justo, lo que puede tener un costo para la eficiencia? ¿Quiere que se salven tantas vidas como sea posible, o algunas tienen prioridad a costa de llegar a más? ¿Existe alguna preferencia por la duración de la espera hasta el trasplante? ¿Tienen preferencia los niños? Y así sucesivamente. Es esencial, dice Sandholm, separar los medios y los fines. Para descubrir los fines, un humano tiene que decidir cuál es el objetivo.

“En última instancia, el mundo se volverá mucho más seguro con la ayuda de algoritmos como Libratus”, me dijo Sandholm. No estaba segura de lo que quería decir. Lo último que la mayoría de la gente haría es llamar al póquer, con su competencia, sus ganadores y perdedores, su búsqueda para obtener la máxima ventaja sobre su oponente, un refugio de seguridad.

“La lógica es buena, y la IA es mucho mejor en el razonamiento estratégico de lo que los humanos pueden ser”, explicó. “Es eliminar la irracionalidad, la emocionalidad. Y es más justo. Si tiene una IA de su lado, puede elevar a los no expertos al nivel de expertos. Los negociadores ingenuos tendrán de repente una mejor arma. Podemos empezar a cerrar la brecha digital ”.

Era una nota optimista para terminar: un juego competitivo de suma cero que producía un mundo más justo y racional en última instancia.

Quería aprender más, para ver si era realmente posible que las matemáticas y los algoritmos pudieran finalmente ser el futuro de interacciones más humanas y psicológicas. Y así, más tarde ese día, acompañé a Nick Nystrom, el científico jefe del Centro de Supercomputación de Pittsburgh, el lugar que ejecuta todos los programas de IA de póquer de Sandholm, al centro de procesamiento real que hace posible empresas como Libratus.

Un viaje de media hora nos encontró en un estacionamiento junto a un gran edificio de vidrio. Esperaba algo más futurista, no el mismo cuadrado, cuadrados de cristal corporativos que he visto innumerables veces antes. El interior, sin embargo, era más prometedor. Primero el control de seguridad. Luego, el viaje en el ascensor, hacia abajo, no hacia arriba, hasta aproximadamente tres pisos bajo tierra, donde nos encontramos en un laberinto de pasillos con lectores de tarjetas en cada momento para asegurarnos de que no se deslice sin ser detectado. Un panel de luz roja formaba la barrera final, que conducía a una pequeña franja de espacio entre dos juegos de puertas. Podía escuchar un fuerte zumbido que venía del otro lado.

“Déjame decirte lo que vas a ver antes de que entremos”, me dijo Nystrom. “Una vez que entremos, será demasiado fuerte para escuchar”.

Estaba a punto de presenciar el corazón del centro de supercomputación: 27 contenedores grandes, en filas ordenadas, cada uno con varios procesadores con velocidades y capacidades demasiado grandes para que mi mente pueda comprender. En el interior, la temperatura es por turnos ártica y tropical, las llamadas filas “frías” que se alternan con “calientes”: los ventiladores operan las 24 horas del día para enfriar los procesadores mientras se mueven a través de millones de giga, mega, tera, peta y otros. escalas crecientes de bytes de datos. En las filas frescas, las luces de apariencia robótica parpadean en verde y azul en una progresión ordenada. En las filas calientes, un revoltijo de cables multicolores se entrecruza en madejas enredadas.

En las esquinas había máquinas que habían sobrevivido a su apogeo. Estaba Sherlock, un viejo modelo de Cray, que me conmovió el corazón. Había una triste computadora sin nombre, cuyo anonimato fue parcialmente compensado por las latas de sopa de Warhol que adornaban su jaula (un homenaje a los orígenes de Warhol en Pittsburgh).

¿Y dónde vive Libratus ?, le pregunté. ¿Cuál de estas computadoras es Bridges, la computadora que ejecuta la IA que Sandholm y yo habíamos estado discutiendo?

Bridges, resultó, no es una sola computadora. Es un sistema con un poder de procesamiento más allá de la comprensión. Se necesitan más de dos petabytes y medio para ejecutar Libratus. Un solo petabyte es un millón de gigabytes: podría ver más de 13 años de video HD, almacenar 10 mil millones de fotos, catalogar el contenido de toda la Biblioteca del Congreso palabra por palabra. Eso es una gran cantidad de potencia informática. Y eso es solo para triunfar en el heads-up, en circunstancias limitadas.

Sin embargo, a pesar de la impresionante potencia informática a su disposición, Libratus sigue estando muy limitado. Sí, venció a sus oponentes donde Claudico falló. Pero a los profesionales del póquer no se les permitió usar muchas de las herramientas de su oficio, incluido el software de análisis de oponentes del que dependen en los juegos en línea reales. Y los humanos se cansan. Libratus puede agitarse para un maratón de dos semanas, donde la mente humana vacila.

Pero todavía hay mucho que no puede hacer: jugar con más oponentes, jugar en vivo o ganar cada vez. Hay más humanidad en el póquer de la que Libratus ha conquistado hasta ahora. “Existe la creencia de que se trata de estadísticas y correlaciones. Y en realidad no lo creemos ”, explicó Nystrom cuando dejamos atrás Bridges. “De vez en cuando las correlaciones son buenas, pero en general, también pueden ser realmente engañosas”.

Dos años después, el laboratorio de Sandholm producirá Pluribus. Pluribus podrá jugar contra cinco jugadores y se ejecutará en una sola computadora. Gran parte del borde humano se habrá evaporado en muy poco tiempo. Los algoritmos han mejorado, al igual que las computadoras. La IA, al parecer, ha ganado a pasos agigantados.

Entonces, ¿eso significa que, en última instancia, lo algorítmico puede vencer al humano, que la computación puede desenredar la red de la interacción humana al discernir “las pequeñas tácticas del engaño, de preguntarse qué va a pensar el otro hombre que quiero hacer? , ”Como dijo von Neumann?

Mucho antes de hablar con Sandholm, conocí a Kevin Slavin, una especie de erudito cuyas carreras pasadas incluyen la fundación de una compañía de diseño de juegos y un espacio de arte interactivo y el lanzamiento del grupo Playful Systems en el Media Lab del MIT. Slavin tiene una visión decididamente diferente a la de los creadores de Pluribus. “Por un lado, [von Neumann] era un genio”, reflexiona Kevin Slavin. “Pero la presunción de ello”.

Slavin está firmemente del lado del jugador, que reconoce la incertidumbre por lo que es y, por lo tanto, es capaz de tomar riesgos calculados cuando es necesario, al mismo tiempo que manipula la confianza en el resultado. Lo máximo que puede hacer es ponerse en el camino de la suerte, pero pensar que puede adivinar con certeza el resultado real es una presunción que el verdadero jugador de póquer renuncia. Para Slavin, la maravilla de las computadoras es “que pueden generar esta aleatoriedad fabulosa y compleja”. ¿Su opinión sobre los ataques algorítmicos al azar? “Este es su momento”, dijo. “Pero es exactamente lo contrario de lo realmente hermoso de una computadora, que es que puede hacer algo que en realidad es impredecible. Eso, para mí, es la magia “.

Sin embargo, ¿realmente lograrán que lo impredecible sea predecible? Eso es lo que quiero saber. Porque todo lo que he visto me dice que el éxito absoluto es imposible. La cubierta no está amañada.

“Es una increíble cantidad de trabajo llegar allí. ¿Qué obtienes al final? Digamos que tienen éxito. Entonces vivimos en un mundo donde no hay Dios, agencia o suerte ”, respondió Slavin.

“No quiero vivir allí”, agregó. “Simplemente no quiero vivir allí”.

Por suerte, parece que por ahora no tendrá que hacerlo. Hay más cosas en la vida de las que todavía están escritas en los algoritmos. No tenemos un software confiable de detección de mentiras, ya sea en la cara, la piel o el cerebro. En una prueba reciente de fanfarronear en el póquer, el reconocimiento facial por computadora falló estrepitosamente. Podemos sentirnos incómodos, pero no podemos entender las razones de ese malestar: mentir, fatiga, estrés, todos se ven muy parecidos. Y los humanos, por supuesto, también pueden imitar el estrés donde no existe, lo que complica aún más el panorama.

Pluribus puede resultar poderoso, pero el desafío de von Neumann sigue en pie: la verdadera naturaleza de los juegos, la más humana de los humanos, está por conquistar.

Fuente:

<p; tab-interval=”36pt”>Konnikova, M. (2020, 6 agosto). The Deck Is Not Rigged: Poker and the Limits of AI. Singularity Hub. https://singularityhub.com/2020/08/07/the-deck-is-not-rigged-poker-and-the-limits-of-ai/</p;>

Este artículo se publicó originalmente en Undark . Lea el artículo original .

Leave a Reply Cancel reply