En 1953, un psicólogo de Harvard pensó que
Más de 60 años después, en 2016, un par de inteligencia artificial (AI) investigadores estaban entrenando una IA para jugar juegos de video. El objetivo de un juego, Coastrunner, era completar una pista de carreras. Pero el jugador de la IA fue recompensado por recoger artículos coleccionables a lo largo de la pista. Cuando se ejecutó el programa, presenciaron algo extraño. La IA encontró una manera de patinar en un círculo interminable, recogiendo un ciclo ilimitado de objetos coleccionables. Hizo esto, incesantemente, en lugar de completar el curso.
Lo que vincula estos eventos aparentemente inconexos es algo extrañamente parecido a la adicción en los seres humanos. Algunos investigadores de IA llaman al fenómeno ” wireheading “.
Se está convirtiendo rápidamente en un tema candente entre los expertos en aprendizaje automático y aquellos preocupados por la seguridad de la IA.
Uno de nosotros (Anders) tiene experiencia en neurociencia computacional y ahora trabaja con grupos como el AI Objectives Institute , donde discutimos cómo evitar tales problemas con AI; el otro (Thomas) estudia la historia y las diversas formas en que la gente ha pensado tanto sobre el futuro como sobre el destino de la civilización a lo largo del pasado. Después de entablar una conversación sobre el tema de wireheading, ambos nos dimos cuenta de lo rica e interesante que es la historia detrás de este tema.
Es una idea muy actual, pero sus raíces son sorprendentemente profundas. Actualmente estamos trabajando juntos para investigar qué tan profundas son las raíces: una historia que esperamos contar completamente en un próximo libro. El tema conecta todo, desde el enigma de la motivación personal, hasta las trampas de las redes sociales cada vez más adictivas, el enigma del hedonismo y si una vida de felicidad estupefacta puede ser preferible a una de dificultades significativas. Bien puede influir en el futuro de la propia civilización .
Aquí, describimos una introducción a este tema fascinante pero poco apreciado, explorando cómo la gente comenzó a pensar en él.
El aprendiz de brujo
Cuando la gente piensa en cómo la IA podría ” salir mal “, lo más probable es que se imaginen algo parecido a computadoras malévolas que intentan causar daño. Después de todo, tendemos a antropomorfizarnos: pensamos que los sistemas no humanos se comportarán de manera idéntica a los humanos. Pero cuando buscamos problemas concretos en los sistemas de IA actuales, vemos otras formas más extrañas en las que las cosas podrían salir mal con máquinas más inteligentes. Un problema cada vez mayor con las IA del mundo real es el problema de los cables.
Imagina que quieres entrenar a un robot para que mantenga limpia tu cocina. Quiere que actúe de forma adaptativa, de modo que no necesite supervisión. De modo que decide intentar codificar el objetivo de la limpieza en lugar de dictar un conjunto de instrucciones paso a paso exacto, aunque rígido e inflexible. Su robot se diferencia de usted en que no ha heredado un conjunto de motivaciones , como adquirir combustible o evitar el peligro, de muchos millones de años de selección natural. Debe programarlo con las motivaciones adecuadas para que logre la tarea de manera confiable.
Entonces, lo codifica con una regla de motivación simple: recibe una recompensa de la cantidad de líquido de limpieza utilizado. Parece bastante infalible. Pero regresa y encuentra al robot vertiendo líquido, derrochando, por el fregadero.
Quizás está tan empeñado en maximizar su cuota de fluidos que deja de lado otras preocupaciones : como su propia seguridad o la suya. Esto es wireheading, aunque la misma falla también se llama ” piratería de recompensas ” o ” juegos de especificación “.
Esto se ha convertido en un problema en el aprendizaje automático, donde una técnica llamada aprendizaje por refuerzo se ha vuelto importante últimamente. El aprendizaje por refuerzo simula agentes autónomos y los capacita para inventar formas de realizar tareas. Lo hace penalizándolos por no lograr algún objetivo mientras los recompensa por lograrlo. Por lo tanto, los agentes están programados para buscar recompensas y son recompensados por completar el objetivo.
Pero se ha descubierto que, a menudo, como nuestro astuto limpiador de cocinas, el agente encuentra formas sorprendentemente contrarias a la intuición de “engañar” a este juego para poder obtener toda la recompensa sin hacer el trabajo necesario para completar la tarea. La búsqueda de la recompensa se convierte en su propio fin, más que en el medio para lograr una tarea gratificante. Hay una lista creciente de ejemplos.
Cuando lo piensas, esto no es muy diferente al estereotipo del drogadicto humano. El adicto elude todo el esfuerzo de lograr “metas genuinas” porque, en cambio, usa drogas para acceder al placer de manera más directa. Tanto el adicto como la IA quedan atrapados en una especie de “bucle de comportamiento” en el que se busca la recompensa a costa de otros objetivos.
Roedores extasiados
Esto se conoce como cabeza de alambre gracias al experimento con ratas con el que comenzamos. El psicólogo de Harvard en cuestión era James Olds .
En 1953, cuando acababa de completar su doctorado, Olds había insertado electrodos en la región septal de los cerebros de los roedores, en el lóbulo frontal inferior, de modo que los cables salían de sus cráneos. Como se mencionó, les permitió atacar esta región de sus propios cerebros tirando de una palanca. Más tarde, esto se denominó “autoestimulación”.
Olds encontró que sus ratas se autoestimulaban compulsivamente, ignorando todas las demás necesidades y deseos. Al publicar sus resultados con su colega Peter Milner al año siguiente, la pareja informó que tiraron de la palanca a un ritmo de “1.920 respuestas por hora”. Eso es una vez cada dos segundos. A las ratas pareció gustarles.
Desde entonces, los neurocientíficos contemporáneos han cuestionado los resultados de Olds y han ofrecido una imagen más compleja, lo que implica que la estimulación puede haber estado simplemente provocando un sentimiento de “querer” desprovisto de cualquier “agrado”. O, en otras palabras, los animales pueden haber estado experimentando puro deseo sin ningún placer placentero en absoluto. Sin embargo, en la década de 1950, Olds y otros pronto anunciaron el descubrimiento de los “centros de placer” del cerebro.
Antes del experimento de Olds, el placer era una mala palabra en psicología: la creencia predominante era que la motivación debería explicarse en gran medida negativamente, como evitar el dolor en lugar de buscar el placer. Pero, aquí, el placer parecía indudablemente ser una fuerza conductual positiva. De hecho, parecía un circuito de retroalimentación positiva . Al parecer, no había nada que impidiera que el animal se estimulara a sí mismo hasta el agotamiento.
No pasó mucho tiempo hasta que comenzó a extenderse el rumor de que las ratas presionaban regularmente la palanca hasta el punto de morir de hambre. La explicación fue la siguiente: una vez que se ha aprovechado la fuente de todas las recompensas, todas las demás tareas gratificantes, incluso las necesarias para la supervivencia, desaparecen por ser poco interesantes e innecesarias, incluso hasta el punto de la muerte.
Al igual que la IA de Coastrunner, si acumulas recompensas directamente, sin tener que preocuparte por el trabajo de completar la pista real, ¿por qué no hacer un bucle indefinido? Para un animal vivo, que tiene múltiples requisitos para sobrevivir, tal compulsión dominante podría resultar mortal. La comida es agradable, pero si disocia el placer de la alimentación, entonces la búsqueda del placer puede vencer a la búsqueda de comida.
Aunque no perecieron ratas en los experimentos originales de la década de 1950, los experimentos posteriores parecieron demostrar la letalidad del placer inducido por electrodos. Habiendo descartado la posibilidad de que los electrodos estuvieran creando sensaciones artificiales de saciedad, un estudio de 1971 aparentemente demostró que el placer de los electrodos podía, de hecho, competir con otros impulsos y hacerlo hasta el punto de morir de hambre .
Se corrió la voz rápidamente. A lo largo de la década de 1960, se llevaron a cabo experimentos idénticos en otros animales más allá de la humilde rata de laboratorio: desde cabras y conejillos de indias hasta peces de colores. Incluso se difundió el rumor de un delfín al que se le había permitido autoestimularse y, después de haber sido “dejado en una piscina con el interruptor conectado”, se había “deleitado hasta morir después de una orgía de placer que duró toda la noche”.
La espantosa muerte por convulsión de este delfín fue, de hecho, causada más probablemente por la forma en que se insertó el electrodo: con un martillo. El científico detrás de este experimento fue el extremadamente excéntrico JC Lilly , inventor del tanque de flotación y profeta de la comunicación entre especies, quien también había convertido a los monos en cabezas de alambre. Había informado, en 1961, de un mono particularmente bullicioso que tenía sobrepeso debido a la inactividad intoxicada después de preocuparse por tirar de la palanca, repetidamente, para recibir descargas de placer.
Un investigador (que había trabajado en el laboratorio de Olds) preguntó si un “animal más inteligente que la rata” “mostraría el mismo comportamiento desadaptativo”. Los experimentos con monos y delfines habían dado alguna indicación sobre la respuesta.
Pero, de hecho, ya se habían realizado varios experimentos dudosos en humanos.
Cabezales humanos
Robert Galbraith Heath sigue siendo una figura muy controvertida en la historia de la neurociencia . Entre otras cosas, realizó experimentos que implicaban transfundir sangre de personas con esquizofrenia a personas sin la afección, para ver si podía inducir sus síntomas (Heath afirmó que esto funcionó, pero otros científicos no pudieron replicar sus resultados). También puede haber estado involucrado en turbios intentos de encontrar usos militares para electrodos cerebrales profundos.
Desde 1952, Heath había estado registrando respuestas placenteras a la estimulación cerebral profunda en pacientes humanos a los que se les habían instalado electrodos debido a enfermedades debilitantes como la epilepsia o la esquizofrenia.
Durante la década de 1960, en una serie de experimentos cuestionables, a los sujetos con implantes de electrodos de Heath, llamados anónimamente “B-10” y “B-12”, se les permitió presionar botones para estimular sus propios centros de recompensa. Informaron sentimientos de placer extremo y una compulsión abrumadora por repetir. Un periodista comentó más tarde que esto convertía a sus sujetos en “zombies”. Un sujeto informó sensaciones “mejores que el sexo”.
En 1961, Heath asistió a un simposio sobre estimulación cerebral, donde otro investigador, José Delgado, había insinuado que los electrodos de placer podrían usarse para ” lavar el cerebro ” de los sujetos, alterando sus inclinaciones “naturales”. Más tarde, Delgado haría de matador y lo demostraría grandilocuentemente pacificando un toro implantado. Pero en el simposio de 1961 sugirió que los electrodos podrían alterar las preferencias sexuales.
Heath estaba inspirado. Una década más tarde, incluso intentó utilizar la tecnología de electrodos para ” reprogramar ” la orientación sexual de un paciente masculino homosexual llamado “B-19”. Heath pensó que la estimulación con electrodos podría convertir a su sujeto “entrenando” el cerebro de B-19 para asociar el placer con los estímulos “heterosexuales”. Se convenció a sí mismo de que funcionó (aunque no hay evidencia de que lo hiciera).
A pesar de ser ética y científicamente desastroso, el episodio, que finalmente fue recogido por la prensa y condenado por los defensores de los derechos de los homosexuales, sin duda dio forma en gran medida al mito de los encabezados electrónicos: si puede “convertir a un hombre gay en heterosexual” (como creía Heath), que no puede hacer
Cascos de hedonismo
A partir de aquí, la idea se arraigó en una cultura más amplia y el mito se extendió. En 1963, el prolífico escritor de ciencia ficción Isaac Asimov ya estaba extrayendo preocupantes consecuencias de los electrodos. Temía que pudiera conducir a una “adicción para acabar con todas las adicciones”, cuyos resultados son ” angustiosos de contemplar “.
En 1975, los artículos de filosofía utilizaban electrodos en experimentos mentales. Un periódico imaginaba “almacenes” llenos de personas, en catres, conectadas a “cascos de placer”, experimentando dicha inconsciente. Por supuesto, la mayoría diría que esto no satisfaría nuestras “necesidades más profundas”. Pero, el autor preguntó, “¿qué pasa con un” casco de super placer “? ¿Uno que no solo ofrece un “gran placer sensual”, sino que también simula cualquier experiencia significativa, desde escribir una sinfonía hasta conocer la divinidad misma? Puede que no sea realmente real, pero “parecería perfecto; la apariencia perfecta es lo mismo que el ser “.
El autor concluyó: “¿Qué objeción hay en todo esto? Seamos realistas: nada “.
La idea de que la especie humana abandona la realidad en busca de placeres artificiales se abrió paso rápidamente a través de la ciencia ficción. El mismo año que las insinuaciones de Asimov, en 1963, Herbert W. Franke publicó su novela, The Orchid Cage .
Predice un futuro en el que las máquinas inteligentes se han diseñado para maximizar la felicidad humana, pase lo que pase. Cumpliendo con su deber, las máquinas reducen a los humanos a manchas de carne indiscriminadas, eliminando todos los órganos innecesarios. Muchos apéndices, después de todo, solo causan dolor. Eventualmente, todo lo que queda de la humanidad son centros de placer incorpóreos, incapaces de experimentar otra cosa que no sea una dicha homogénea.
A partir de ahí, la idea se filtró a través de la ciencia ficción. A partir de 1969 la historia de Larry Niven La muerte por éxtasis , donde se acuñó por primera vez la palabra “cableta”, a través de Spider Robinson 1982 Mindkiller , el lema de los cuales es “placer-que es la única manera de morir.”
Estímulos sobrenaturales
Pero los humanos ni siquiera necesitamos implantar electrodos invasivos para que nuestras motivaciones fallen. A diferencia de los roedores, o incluso de los delfines , somos excepcionalmente buenos para alterar nuestro medio ambiente . Los seres humanos modernos también son buenos para inventar y sacar provecho de productos artificiales que son anormalmente atractivos (en el sentido de que nuestros antepasados nunca habrían tenido que resistirse a ellos en la naturaleza). Fabricamos nuestras propias formas de distraernos.
Casi al mismo tiempo que los experimentos de Olds con las ratas, el biólogo ganador del Nobel Nikolaas Tinbergen estaba investigando el comportamiento animal. Notó que sucedió algo interesante cuando un estímulo que desencadena un comportamiento instintivo se exagera artificialmente más allá de sus proporciones naturales. La intensidad de la respuesta conductual no disminuye a medida que el estímulo se vuelve más intenso y artificialmente exagerado, sino que se vuelve más fuerte, incluso hasta el punto de que la respuesta se vuelve dañina para el organismo.
Por ejemplo, dada la posibilidad de elegir entre un huevo falso más grande y con más manchas y uno real, Tinbergen descubrió que las aves preferían las falsificaciones hiperbólicas a costa de descuidar a su propia descendencia. Se refirió a esas falsificaciones sobrenaturalmente atractivas como ” estímulos sobrenaturales “.
Algunos, por lo tanto, se han preguntado: ¿podría ser que, viviendo en un mundo modernizado y manufacturado, repleto de comida rápida y pornografía, la humanidad ha comenzado de manera similar a renunciar a su propia resistencia en lugar de una conveniencia sobrenatural ?
Viejos miedos
A medida que la tecnología hace que los placeres artificiales sean más accesibles y atractivos, a veces puede parecer que están superando la atención que dedicamos a los impulsos “naturales” necesarios para la supervivencia. La gente suele señalar la adicción a los videojuegos . La búsqueda compulsiva y repetitiva de tales recompensas, en detrimento de la salud, no es muy diferente de la IA que gira en círculo en Coastrunner. En lugar de lograr cualquier “meta genuina” (completar la pista de carreras o mantener una verdadera condición física), uno cae en la trampa de acumular alguna medida defectuosa de esa meta (acumular puntos o placeres falsificados).
Sin embargo, la idea es aún más antigua. Thomas ha estudiado las innumerables formas en que la gente en el pasado temía que nuestra especie pudiera estar sacrificando una longevidad genuina por placeres o comodidades a corto plazo. Su libro X-Risk: How Humanity Discovered its Own Extinction explora las raíces de este miedo y cómo se afianzó por primera vez en la Gran Bretaña victoriana: cuando se hizo evidente por primera vez el alcance de la industrialización y la creciente dependencia de la humanidad en los inventos artificiales.
Pero la gente ha estado entrando en pánico por este tipo de fatalidad llena de placer mucho antes de que las IA fueran entrenadas para jugar e incluso mucho antes de que se introdujeran electrodos en los cráneos de los roedores. En la década de 1930, el autor de ciencia ficción Olaf Stapledon escribía sobre el colapso de la civilización provocado por ” casquetes ” que generan éxtasis “ilusorios” mediante la “estimulación directa” de los “centros cerebrales”.
Crustáceos carnales
Habiendo asimilado el clásico de Darwin de 1869 , el biólogo Ray Lankester decidió proporcionar una explicación darwiniana para los organismos parásitos. Notó que los ancestros evolutivos de los parásitos eran a menudo más “complejos”. Los organismos parásitos habían perdido características ancestrales como miembros, ojos u otros órganos complejos.
Lankester teorizó que , debido a que el parásito se deshace de su anfitrión, pierden la necesidad de valerse por sí mismos. Aprovechando los procesos corporales del huésped, sus propios órganos, para la percepción y el movimiento, se atrofian. Su ejemplo favorito fue un percebe parásito, llamado Sacculina , que comienza su vida como un organismo segmentado con una cabeza demarcada. Sin embargo, después de adherirse a un anfitrión, el crustáceo “regresa” a una mancha amorfa y sin cabeza, minando la nutrición de su anfitrión como la cabeza de alambre se conecta a la corriente.
Para la mente victoriana, fue un pequeño paso para conjeturar que, debido a los crecientes niveles de comodidad en todo el mundo industrializado, la humanidad podría estar evolucionando en la dirección del percebe. “Quizás todos estemos a la deriva, tendiendo a la condición de percebes intelectuales”, reflexionó Lankester .
De hecho, no mucho antes de esto, el satírico Samuel Butler había especulado que los humanos, en su búsqueda precipitada de la conveniencia automatizada, se estaban convirtiendo en nada más que una ” especie de parásito ” en sus propias máquinas industriales.
Verdadero nirvana
En la década de 1920, Julian Huxley escribió un breve poema . Exploró jovialmente las formas en que una especie puede “progresar”. Los cangrejos, por supuesto, decidieron que el progreso era de lado. Pero, ¿qué pasa con la tenia? El escribio:
Las tenias darwinianas, por otro lado, están de
acuerdo en que el progreso es una pérdida de cerebro,
y todo eso hace que sea difícil para los gusanos alcanzar
el verdadero Nirvana: péptico, puro y grandioso.
El temor de que pudiéramos seguir a la tenia estaba algo generalizado en la generación de entreguerras. El propio hermano de Huxley, Aldous, proporcionaría su propia visión del potencial distópico de los placeres inducidos farmacéuticamente en su novela de 1932 Un mundo feliz .
Un amigo de los Huxley, el genetista y futurólogo británico-indio JBS Haldane también se preocupó de que la humanidad pudiera estar en el camino del parásito: sacrificar la dignidad genuina en el altar de la facilidad automatizada, al igual que los roedores que luego sacrificarían la supervivencia por el placer fácil. -shocks.
Haldane advirtió: “Los antepasados [de] los percebes tenían cabeza”, y en la búsqueda de lo agradable, “el hombre puede perder su inteligencia con la misma facilidad”. Este miedo en particular no ha realmente nunca ido lejos .
Por lo tanto, la noción de que la civilización se descarrila al buscar placeres falsificados, en lugar de una longevidad genuina, es antigua. Y, de hecho, cuanto más antigua es una idea y más obstinadamente recurrente es, más debemos tener cuidado de que sea una idea preconcebida en lugar de algo basado en pruebas. Entonces, ¿hay algo en estos miedos?
En una era de medios algorítmicos que atraen cada vez más la atención , puede parecer que las señales falsas de aptitud a menudo producen más éxito que perseguir lo real. Como los pájaros de Tinbergen, preferimos el artificio exagerado al artículo genuino. Y los sexbots ni siquiera han llegado todavía .
Debido a esto, algunos expertos conjeturan que el “colapso de la cabeza de alambre” bien podría amenazar a la civilización. Nuestras distracciones solo atraerán más atención, no menos.
Ya en 1964, el futurólogo polaco Stanisław Lem conectó las ratas de Olds con el comportamiento de los humanos en el mundo consumista moderno, señalando “cine”, “pornografía” y “Disneylandia”. Conjeturó que las civilizaciones tecnológicas podrían aislarse de la realidad, volviéndose ” enquistadas ” dentro de sus propias simulaciones de placer virtual.
Extranjeros adictos
Lem, y otros desde entonces, incluso se han aventurado a que la razón por la que nuestros telescopios no han encontrado evidencia de civilizaciones extraterrestres avanzadas es porque todas las culturas avanzadas, aquí y en otros lugares, inevitablemente crean alternativas virtuales más placenteras para explorar el espacio exterior.Exploration is difficult and risky, after all.
En el apogeo contracultural de la década de 1960, el biólogo molecular Gunther Stent sugirió que este proceso ocurriría a través de la “hegemonía global de las actitudes beat”. Haciendo referencia a los experimentos de Olds, se ayudó a sí mismo a la especulación de que el consumo de drogas por parte de los hippies era el preludio de las civilizaciones . En una conferencia de 1971 sobre la búsqueda de extraterrestres, Stent sugirió que, en lugar de expandirse valientemente hacia afuera, las civilizaciones colapsan hacia adentro en una dicha meditativa e intoxicada.
En nuestro propio tiempo, tiene más sentido que las partes interesadas señalen al consumismo, las redes sociales y la comida rápida como los culpables del posible colapso (y, por lo tanto, la razón por la que ninguna otra civilización se ha extendido visiblemente por toda la galaxia). Cada época tiene sus propias ansiedades.
¿Asi que que hacemos?
Pero es casi seguro que estos no son los riesgos más urgentes a los que nos enfrentamos. Y si se hace bien , las formas de encabezado por cable podrían hacer accesibles vistas incalculables de alegría, significado y valor. No deberíamos prohibirnos estos picos antes de sopesar todo.
Pero aquí hay una verdadera lección. Hacer que los sistemas complejos adaptativos, ya sean cerebros, inteligencia artificial o economías, se comporten bien y de forma segura es difícil. Anders trabaja precisamente para resolver este acertijo . Dado que la civilización en sí misma, en su conjunto, es un sistema adaptativo tan complejo, ¿cómo podemos aprender acerca de los modos de falla o inestabilidades inherentes, de modo que podamos evitarlos? Quizás el “wireheading” es una inestabilidad inherente que puede afectar a los mercados and the algorithms that drive them, as much as addiction can afflict people?
En el caso de la IA, estamos sentando las bases de tales sistemas ahora. Una vez que fue una preocupación marginal , un número creciente de expertos está de acuerdo en que lograr una IA más inteligente que los humanos puede estar lo suficientemente cerca en el horizonte como para plantear una seria preocupación . Esto se debe a que debemos asegurarnos de que sea seguro antes de este punto, y averiguar cómo garantizarlo llevará tiempo. Sin embargo, sigue habiendo un desacuerdo significativo entre los expertos sobre los plazos y cuán urgente podría ser este plazo .
If such an AI is created, we can expect that it may have access to its own “source code,” such that it can manipulate its motivational structure and administer its own rewards. This could prove an immediate path to wirehead behavior, and cause such an entity to become, effectively, a “super-junkie.” But unlike the human addict, it may not be the case that its state of bliss is coupled with an unproductive state of stupor or inebriation.
El filósofo Nick Bostrom conjetura que tal agente podría dedicar toda su productividad y astucia sobrehumanas a “reducir el riesgo de interrupciones futuras” de su preciosa fuente de recompensa. Y si juzga que incluso una probabilidad distinta de cero de que los humanos sean un obstáculo para su próxima solución, bien podríamos estar en problemas.
Dejando a un lado los escenarios especulativos y del peor de los casos, el ejemplo con el que comenzamos —de la IA de la pista de carreras y el circuito de recompensas— revela que el problema básico ya es un problema del mundo real en los sistemas artificiales. Debemos esperar, entonces, que aprendamos mucho más sobre estos escollos de la motivación y cómo evitarlos, antes de que las cosas se desarrollen demasiado. A pesar de que tiene orígenes humildes, en el cráneo de una rata albina y en poemas sobre tenias, la “cabeza de alambre” es una idea que probablemente se volverá cada vez más importante en un futuro próximo.
Fuente:
Moynihan, T. (2021, 17 septiembre). Drugs, Robots, and the Pursuit of Pleasure: Why Experts Are Worried About AIs Becoming Addicts. Recuperado 17 de septiembre de 2021, de https://singularityhub.com/2021/09/17/drugs-robots-and-the-pursuit-of-pleasure-why-experts-are-worried-about-ais-becoming-addicts/