Meta está construyendo una nueva supercomputadora para entrenar enormes algoritmos de aprendizaje automático. Aunque solo está parcialmente completo, el AI Research Supercluster (RSC) ya se encuentra entre las máquinas más poderosas del planeta. Cuando esté terminado, la compañía anteriormente conocida como Facebook dice que será la supercomputadora de inteligencia artificial más rápida del mundo.
Meta espera que RSC pueda mejorar sus productos entrenando algoritmos que muestren mejor el contenido dañino. Más adelante, la compañía dice que los avances podrían permitir la traducción de idiomas en tiempo real entre decenas de miles de personas en línea y algoritmos multitarea que pueden aprender y generalizar a través de diferentes entradas, incluidos texto, imágenes y video.
Todo esto, dijo la compañía, ayudará a avanzar en aplicaciones del mundo real como la robótica y, por supuesto, construirá los cimientos del metaverso (todavía primordial). “En el metaverso, el cien por ciento del tiempo es una experiencia multisensorial en 3D, y necesitas crear agentes de inteligencia artificial en ese entorno que sean relevantes para ti”, dijo Jerome Pesenti, vicepresidente de IA de Meta, a Wall Street . Diario de esta semana.
Cualesquiera que sean las aplicaciones definitivas, la inversión muestra que los jugadores más importantes de la tecnología, desde Meta hasta Alphabet y Microsoft, consideran cada vez más crucial ser competitivos en la IA de vanguardia.
La gran IA está de moda
El anuncio es parte de una tendencia hacia algoritmos de aprendizaje automático cada vez más grandes que requieren mayores recursos informáticos y conjuntos de datos más grandes.
En 2020, el algoritmo de lenguaje natural GPT-3 de OpenAI mostró que se podían obtener grandes ganancias al aumentar la cantidad de conexiones internas en los algoritmos, conocidas como parámetros, y la cantidad de datos de entrenamiento que se canalizan a través de ellos. Con 175 mil millones de parámetros, GPT-3 era 17 veces más grande que su predecesor GPT-2. Alentados por el éxito de GPT-3, Microsoft presentó su IA Megatron el año pasado , un algoritmo tres veces más grande que GPT-3, y Google y los investigadores chinos crearon algoritmos con más de un billón de parámetros. Anticipándose al próximo paso, Meta dijo que planean usar RSC para entrenar algoritmos con billones de parámetros.
Cada vez más, estos algoritmos en expansión requieren supercomputadoras, las máquinas del tamaño de una habitación que los científicos usan para simular sistemas físicos, desde partículas elementales hasta el clima de la Tierra y el universo en general. El año pasado, por ejemplo, OpenAI anunció que su socio Microsoft había construido una supercomputadora dedicada para entrenar sus modelos . Según las empresas, la nueva máquina se clasificó entre las cinco supercomputadoras más rápidas del mundo (en ese momento).
Aunque Meta no dio cifras sobre la velocidad máxima actual de RSC, en términos de potencia de procesamiento en bruto, parece comparable a la supercomputadora Perlmutter, clasificada como la quinta más rápida del mundo . Por el momento, RSC se ejecuta en 6800 unidades de procesamiento de gráficos (GPU) NVIDIA A100, un chip especializado que alguna vez se limitó a los juegos pero que ahora se usa más ampliamente, especialmente en IA. La máquina ya está procesando flujos de trabajo de visión por computadora 20 veces más rápido y modelos de lenguaje grandes (como GPT-3) 3 veces más rápido. Cuanto más rápido una empresa pueda entrenar modelos, más podrá completar y mejorar aún más en un año determinado.
Además de la velocidad pura, RSC le dará a Meta la capacidad de entrenar algoritmos en su enorme cantidad de datos de usuario. En una publicación de blog , la compañía dijo que previamente entrenaron AI en conjuntos de datos públicos de código abierto, pero RSC utilizará datos generados por usuarios del mundo real de los servidores de producción de Meta. Este detalle puede hacer palidecer a más de una persona, dadas las numerosas controversias de privacidad y seguridad que Meta ha enfrentado en los últimos años. En la publicación, la compañía se esforzó en señalar que los datos se anonimizarán cuidadosamente y se cifrarán de extremo a extremo. Y, dijeron, RSC no tendrá ninguna conexión directa a Internet más grande.
Para acomodar los enormes conjuntos de datos de entrenamiento de Meta y aumentar aún más la velocidad de entrenamiento, la instalación crecerá para incluir 16 000 GPU y un exabyte de almacenamiento, equivalente a 36 000 años de video de alta calidad, a finales de este año. Una vez completado, Meta dice que RSC proporcionará datos de entrenamiento a 16 terabytes por segundo y operará a una velocidad máxima de 5 exaflops.
Si se completa hoy, eso convertiría a RSC en la supercomputadora de IA más rápida del mundo. Pero vale la pena profundizar en lo que eso significa exactamente por un momento.
¿Manzanas a manzanas?
Las supercomputadoras varían ampliamente en la forma en que se construyen. Las configuraciones comunes incluyen unidades centrales de procesamiento (CPU) y GPU, pero los fabricantes de los chips difieren, al igual que la infraestructura que los conecta a todos juntos. Para comparar supercomputadoras, la industria utiliza un punto de referencia llamado operaciones de punto flotante por segundo, o más coloquialmente, fracasos, que mide la cantidad de ecuaciones simples que resuelve una supercomputadora cada segundo.
Según la lista Top500 más reciente , la supercomputadora completa más rápida del mundo, Fugaku, proviene de Japón.
Fugaku, que en realidad no usa ninguna GPU, registró una velocidad máxima vertiginosa de 442 petaflops (o 442 mil billones de operaciones por segundo). Eso es rápido. Pero los sistemas como Fugaku también se construyen cada vez más para entrenar la IA. Entonces, Top500 comenzó a reportar un nuevo punto de referencia para aplicaciones de IA específicamente. Dado que los algoritmos de aprendizaje automático no requieren la misma precisión que las aplicaciones científicas, el nuevo punto de referencia de IA utiliza una medida menos precisa. Según esa medida, Fugaku alcanza velocidades máximas por encima de un exaflop, o un millón de billones de operaciones por segundo. Esto es lo que significa una supercomputadora de IA.
Ahora, volvamos a Meta.
La mayoría de las máquinas en la lista Top 500 son operadas por gobiernos y universidades. Las supercomputadoras privadas, como RSC y la máquina construida por OpenAI y Microsoft, no aparecen en la lista. Para el rendimiento, tenemos que tomar la palabra de las empresas. Suponiendo que RSC alcance velocidades máximas de 5 exaflops para aplicaciones de IA, superaría a Fugaku por un margen decente. Pero si eso seguirá siendo el mejor del mundo a finales de este año no está tan claro. Se espera que la próxima supercomputadora Frontier sea tres veces más rápida que Fugaku para aplicaciones de alta precisión. Frontier, también diseñada para IA, será una dura competencia para la mejor supercomputadora de IA.
También vale la pena señalar que el rendimiento máximo en un punto de referencia no es equivalente al rendimiento real en las cargas de trabajo del mundo real. De acuerdo con el analista de computación de alto rendimiento Bob Sorensen , “La medida real de un buen diseño de sistema es que pueda ejecutar rápidamente los trabajos para los que fue diseñado. De hecho, no es raro que algunos HPC alcancen menos del 25 por ciento de su llamado rendimiento máximo cuando ejecutan aplicaciones del mundo real”.
Un punto de referencia de IA emergente, llamado MLPerf, está más cerca de medir el rendimiento en tareas del mundo real. Todavía no mide qué tan rápido los sistemas entrenan modelos muy grandes, pero sigue siendo una comparación útil. En los resultados más recientes de MLPerf , los sistemas que utilizan chips NVIDIA A100, los mismos que se utilizan para construir RSC, dominaron el campo. Y el sistema más grande probado, la propia supercomputadora Selene AI de NVIDIA, entrenó el (ahora diminuto) procesador de lenguaje BERT en solo 16 segundos, en comparación con los 20 minutos de los sistemas más pequeños.
Entonces, de cualquier forma que lo mires, RSC será (y ya es) una máquina formidable para la investigación de IA.
¿Una IA más grande siempre es mejor?
Hasta la fecha, la construcción de algoritmos cada vez más grandes parece generar ganancias. Pero no todos los investigadores creen que esas ganancias continuarán para siempre o que siempre valdrán la energía en espiral y los recursos financieros necesarios para entrenar algoritmos. Los modelos de lenguaje grande, en particular, también tienden a adquirir todo tipo de hábitos y sesgos desagradables durante el entrenamiento.
También hay trabajo en marcha para hacer que los algoritmos sean más eficientes y responsables.
El año pasado, la organización de investigación de inteligencia artificial DeepMind lanzó un modelo de lenguaje grande de 280 mil millones de parámetros llamado Gopher que podría superar a otros modelos de lenguaje grande. Sin embargo, lo más interesante es que también desarrollaron un modelo mucho más pequeño de 7 mil millones de parámetros llamado RETRO . Dada la capacidad de consultar una base de datos externa de ejemplos para informar sus predicciones (una especie de memoria), RETRO golpeó muy por encima de su clase de peso al igualar o superar algoritmos 25 veces su tamaño. DeepMind dijo que también es más fácil rastrear el razonamiento del algoritmo, haciéndolo más transparente y potencialmente más fácil de eliminar el sesgo.
Entonces, mientras que hacer algoritmos enormes en supercomputadoras es llamativo, RETRO muestra que la innovación en la forma en que se construyen esos modelos es igualmente importante. Es probable que la investigación en ambos extremos del espectro continúe a buen ritmo, y con suerte uno alimentará y mejorará al otro.
Fuente:
Dorrier, J. (2022, 27 enero). Meta Is Making a Monster AI Supercomputer for the Metaverse. Singularity Hub. Recuperado 27 de enero de 2022, de https://singularityhub.com/2022/01/26/meta-is-making-a-monster-ai-supercomputer-for-the-metaverse/