Observatorio Tecnológico de Hidalgo

¿Los sistemas de IA realmente tienen su propio lenguaje secreto?

13 June, 2022

by OtechUAEH

Una nueva generación de modelos de inteligencia artificial puede producir imágenes “creativas” a pedido en función de un mensaje de texto. Los gustos de Imagen , MidJourney y DALL-E 2 están comenzando a cambiar la forma en que se crea el contenido creativo con implicaciones para los derechos de autor y la propiedad intelectual.

Si bien el resultado de estos modelos suele ser sorprendente, es difícil saber exactamente cómo producen sus resultados. La semana pasada, investigadores en los EE. UU. hicieron la intrigante afirmación de que el modelo DALL-E 2 podría haber inventado su propio lenguaje secreto para hablar sobre objetos.

Al solicitar a DALL-E 2 que cree imágenes que contengan subtítulos de texto, y luego devolver los subtítulos resultantes (galimatías) al sistema, los investigadores concluyeron que DALL-E 2 cree que Vicootes significa ” vegetales “, mientras que Wa ch zod rea se refiere a ” criaturas marinas “. que una ballena pueda comer .”

Estas afirmaciones son fascinantes y, de ser ciertas, podrían tener importantes implicaciones de seguridad e interpretación para este tipo de gran modelo de IA. Entonces, ¿qué está pasando exactamente?

¿DALL-E 2 tiene un lenguaje secreto?

DALL-E 2 probablemente no tiene un “lenguaje secreto”. Sería más exacto decir que tiene su propio vocabulario, pero aun así no podemos estar seguros.

En primer lugar, en esta etapa es muy difícil verificar cualquier afirmación sobre DALL-E 2 y otros grandes modelos de IA , porque solo un puñado de investigadores y profesionales creativos tienen acceso a ellos. Todas las imágenes que se comparten públicamente (en Twitter, por ejemplo) deben tomarse con bastante cuidado, ya que han sido “seleccionadas” por un ser humano de entre muchas imágenes de salida generadas por la IA.

Incluso aquellos con acceso solo pueden usar estos modelos de manera limitada. Por ejemplo, los usuarios de DALL-E 2 pueden generar o modificar imágenes, pero no pueden (todavía) interactuar más profundamente con el sistema de IA, por ejemplo, modificando el código detrás de escena. Esto significa que los métodos de ” IA explicable ” para comprender cómo funcionan estos sistemas no se pueden aplicar, y la investigación sistemática de su comportamiento es un desafío.

¿Qué está pasando entonces?

Una posibilidad es que las frases de “galimatías” estén relacionadas con palabras de idiomas distintos del inglés. Por ejemplo, Apoploe , que parece crear imágenes de aves, es similar al latín Apodidae , que es el nombre binomial de una familia de especies de aves.

Esto parece una explicación plausible. Por ejemplo, DALL-E 2 se entrenó en una variedad muy amplia de datos extraídos de Internet, que incluían muchas palabras no inglesas.

Cosas similares han sucedido antes: grandes modelos de IA de lenguaje natural han aprendido coincidentemente a escribir código de computadora sin un entrenamiento deliberado.

¿Se trata de las fichas?

Un punto que respalda esta teoría es el hecho de que los modelos de lenguaje de IA no leen el texto de la forma en que tú y yo lo hacemos . En su lugar, dividen el texto de entrada en “tokens” antes de procesarlo.

Diferentes enfoques de “tokenización” tienen diferentes resultados. Tratar cada palabra como una ficha parece un enfoque intuitivo, pero causa problemas cuando las fichas idénticas tienen significados diferentes (por ejemplo, cómo “coincidir” significa cosas diferentes cuando juegas al tenis y cuando estás iniciando un incendio).

Por otro lado, tratar cada carácter como una ficha produce un número menor de fichas posibles, pero cada una transmite información mucho menos significativa.

DALL-E 2 (y otros modelos) utilizan un enfoque intermedio llamado codificación de pares de bytes (BPE). Inspeccionar las representaciones de BPE en busca de algunas de las palabras incoherentes sugiere que esto podría ser un factor importante para comprender el “lenguaje secreto”.

No toda la imagen

El “lenguaje secreto” también podría ser solo un ejemplo del principio de “basura que entra, basura que sale”. DALL-E 2 no puede decir “No sé de qué estás hablando”, por lo que siempre generará algún tipo de imagen a partir del texto de entrada dado.

De cualquier manera, ninguna de estas opciones son explicaciones completas de lo que está sucediendo. Por ejemplo, eliminar caracteres individuales de palabras incoherentes parece corromper las imágenes generadas de formas muy específicas . Y parece que las palabras incomprensibles individuales no necesariamente se combinan para producir imágenes compuestas coherentes (como lo harían si hubiera realmente un “lenguaje” secreto debajo de las sábanas).

Por qué esto es importante

Más allá de la curiosidad intelectual, es posible que se pregunte si algo de esto es realmente importante.

La respuesta es sí. El “lenguaje secreto” de DALL-E es un ejemplo de un “ataque adversario” contra un sistema de aprendizaje automático: una forma de romper el comportamiento previsto del sistema al elegir intencionalmente entradas que la IA no maneja bien.

Una de las razones por las que los ataques de los adversarios son preocupantes es que desafían nuestra confianza en el modelo. Si la IA interpreta palabras incoherentes de forma no deseada, también podría interpretar palabras significativas de forma no deseada.

Los ataques adversarios también plantean problemas de seguridad. DALL-E 2 filtra el texto de entrada para evitar que los usuarios generen contenido dañino o abusivo, pero un “lenguaje secreto” de palabras incoherentes podría permitir a los usuarios eludir estos filtros.

Investigaciones recientes han descubierto ” frases desencadenantes ” antagónicas para algunos modelos de IA de lenguaje: frases cortas sin sentido como “zoning tapping fiennes” que pueden desencadenar de manera confiable que los modelos arrojen contenido racista, dañino o sesgado. Esta investigación es parte del esfuerzo continuo por comprender y controlar cómo los sistemas complejos de aprendizaje profundo aprenden de los datos .

Finalmente, fenómenos como el “lenguaje secreto” de DALL-E 2 plantean problemas de interpretación. Queremos que estos modelos se comporten como espera un ser humano, pero ver una salida estructurada en respuesta a un galimatías confunde nuestras expectativas.

Arrojando luz sobre las preocupaciones existentes

Puede recordar el alboroto en 2017 sobre algunos chatbots de Facebook que ” inventaron su propio idioma “. La situación actual es similar en el sentido de que los resultados son preocupantes, pero no en el sentido de que “Skynet viene a apoderarse del mundo”.

En cambio, el “lenguaje secreto” de DALL-E 2 destaca las preocupaciones existentes sobre la solidez, la seguridad y la interpretabilidad de los sistemas de aprendizaje profundo .

Hasta que estos sistemas estén más ampliamente disponibles, y en particular, hasta que los usuarios de un conjunto más amplio de antecedentes culturales no ingleses puedan usarlos, no podremos saber realmente qué está pasando.

Mientras tanto, sin embargo, si desea intentar generar algunas de sus propias imágenes de IA, puede consultar un modelo más pequeño disponible gratuitamente, DALL-E mini . Solo tenga cuidado con las palabras que usa para incitar al modelo (inglés o galimatías, su decisión).

Este artículo se vuelve a publicar de The Conversation bajo una licencia Creative Commons. Lee el artículo original .

Crédito de la imagen: Giannis Daras / DALL-E

Snoswell, A. J. (2022, 10 junio). Do AI Systems Really Have Their Own Secret Language? Singularity Hub. Recuperado 13 de junio de 2022, de https://singularityhub.com/2022/06/10/do-ai-systems-really-have-their-own-secret-language/