La inteligencia artificial está en una lágrima. Las máquinas pueden hablar, escribir, jugar y generar imágenes, videos y música originales. Pero a medida que han crecido las capacidades de la IA, también lo han hecho sus algoritmos.
Hace una década, los algoritmos de aprendizaje automático se basaban en decenas de millones de conexiones internas o parámetros. Los algoritmos de hoy alcanzan regularmente cientos de miles de millones e incluso billones de parámetros . Los investigadores dicen que la ampliación aún produce mejoras en el rendimiento, y los modelos con decenas de billones de parámetros pueden llegar en poco tiempo.
Para entrenar modelos tan grandes, necesitas computadoras poderosas. Mientras que la IA a principios de la década de 2010 se ejecutaba en un puñado de unidades de procesamiento de gráficos (chips de computadora que se destacan en el procesamiento paralelo crucial para la IA), las necesidades informáticas han crecido exponencialmente y los mejores modelos ahora requieren cientos o miles. OpenAI, Microsoft , Meta y otros están construyendo supercomputadoras dedicadas para manejar la tarea, y dicen que estas máquinas de IA se encuentran entre las más rápidas del planeta.
Pero incluso cuando las GPU han sido cruciales para escalar la IA (el A100 de Nvidia, por ejemplo, sigue siendo uno de los chips más rápidos y más utilizados en los clústeres de IA), en los últimos años han aparecido alternativas más extrañas diseñadas específicamente para la IA.
Cerebras ofrece una de esas alternativas.
Hacer una comida de IA
Del tamaño de un plato de comida, aproximadamente 8,5 pulgadas de lado, el Wafer Scale Engine de la compañía es el chip de silicio más grande del mundo , con 2,6 billones de transistores y 850.000 núcleos grabados en una sola oblea de silicio. Cada Wafer Scale Engine sirve como el corazón de la computadora CS-2 de la compañía.
Solo, el CS-2 es una bestia, pero el año pasado Cerebras dio a conocer un plan para vincular los CS-2 con un sistema de memoria externa llamado MemoryX y un sistema para conectar los CS-2 llamado SwarmX. La compañía dijo que la nueva tecnología podría vincular hasta 192 chips y entrenar modelos dos órdenes de magnitud más grandes que las IA más grandes y avanzadas de la actualidad.
“La industria está superando los modelos de 1 billón de parámetros, y estamos extendiendo ese límite en dos órdenes de magnitud, habilitando redes neuronales a escala cerebral con 120 billones de parámetros”, dijo el CEO y cofundador de Cerebras, Andrew Feldman.
En ese momento, todo esto era teórico. Pero la semana pasada, la compañía anunció que había vinculado 16 CS-2 en una supercomputadora de inteligencia artificial de clase mundial.
Conoce a Andrómeda
La nueva máquina, llamada Andromeda, tiene 13,5 millones de núcleos capaces de alcanzar velocidades superiores a un exaflop (un quintillón de operaciones por segundo) con una precisión media de 16 bits. Debido al chip único en su núcleo, Andromeda no se compara fácilmente con las supercomputadoras que se ejecutan en CPU y GPU más tradicionales, pero Feldman le dijo a HPC Wire que Andromeda es aproximadamente equivalente a la supercomputadora Polaris del Laboratorio Nacional de Argonne, que ocupa el puesto 17 más rápido del mundo , según a la última lista Top500.
Además del rendimiento, el rápido tiempo de construcción, el costo y el espacio físico de Andromeda son notables. Argonne comenzó a instalar Polaris en el verano de 2021 y la supercomputadora se puso en marcha aproximadamente un año después . Ocupa 40 bastidores, los gabinetes similares a archivadores que albergan componentes de supercomputadoras. En comparación, Andromeda costó $ 35 millones, un precio modesto para una máquina de su potencia, tomó solo tres días para ensamblar y usa solo 16 bastidores.
Cerebras probó el sistema entrenando cinco versiones del modelo de lenguaje grande GPT-3 de OpenAI, así como el código abierto GPT-J y GPT-NeoX de Eleuther AI. Y según Cerebras, quizás el hallazgo más importante es que Andromeda demostró lo que ellos llaman “escalado lineal casi perfecto” de las cargas de trabajo de IA para modelos de lenguaje grandes. En resumen, eso significa que a medida que se agregan CS-2 adicionales, los tiempos de entrenamiento disminuyen proporcionalmente.
Por lo general, dijo la compañía, a medida que agrega más chips, las ganancias de rendimiento disminuyen. El chip WSE de Cerebras, por otro lado, puede demostrar escalar de manera más eficiente porque sus 850.000 núcleos están conectados entre sí en la misma pieza de silicio. Además, cada núcleo tiene un módulo de memoria justo al lado. En conjunto, el chip reduce drásticamente la cantidad de tiempo dedicado al transporte de datos entre los núcleos y la memoria.
“El escalado lineal significa que cuando se pasa de uno a dos sistemas, el trabajo tarda la mitad de tiempo en completarse. Esa es una propiedad muy inusual en la informática”, dijo Feldman a HPC Wire . Y, dijo, puede escalar más allá de 16 sistemas conectados.
Más allá de las propias pruebas de Cerebras, los resultados de la escala lineal también se demostraron durante el trabajo en el Laboratorio Nacional de Argonne, donde los investigadores usaron Andromeda para entrenar el algoritmo de lenguaje grande GPT-3-XL en secuencias largas del genoma de Covid-19.
Por supuesto, aunque el sistema puede escalar más allá de 16 CS-2, queda por ver hasta qué punto persiste la escala lineal. Además, aún no sabemos cómo se comporta Cerebras frente a otros chips de IA. Los fabricantes de chips de IA como Nvidia e Intel han comenzado a participar en evaluaciones comparativas regulares de terceros por parte de MLperf. Cerebras aún no ha participado.
Espacio de sobra
Aún así, el enfoque parece estar labrándose su propio nicho en el mundo de la supercomputación, y el escalado continuo en IA de lenguaje grande es un caso de uso principal. De hecho, Feldman le dijo a Wired el año pasado que la compañía ya estaba hablando con ingenieros de OpenAI, líder en modelos de lenguajes grandes. (El fundador de OpenAI, Sam Altman, también es inversor en Cerebras).
En su lanzamiento en 2020, el modelo de lenguaje grande GPT-3 de OpenAI cambió el juego tanto en términos de rendimiento como de tamaño. Con un peso de 175 mil millones de parámetros, era el modelo de IA más grande en ese momento y sorprendió a los investigadores con sus habilidades. Desde entonces, los modelos de lenguaje han llegado a billones de parámetros, y es posible que se presenten modelos más grandes. Hay rumores , solo eso, hasta ahora, de que OpenAI lanzará GPT-4 en un futuro no muy lejano y será otro salto desde GPT-3. (Tendremos que esperar y ver en ese sentido).
Dicho esto, a pesar de sus capacidades, los modelos de lenguaje grande no son perfectos ni universalmente adorados. Sus fallas incluyen resultados que pueden ser falsos, sesgados y ofensivos. La Galactica de Meta, formada en textos científicos, es un ejemplo reciente . A pesar de que se podría suponer que un conjunto de datos es menos propenso a la toxicidad que el entrenamiento en Internet abierto, el modelo fue provocado fácilmente para generar texto dañino e inexacto y se eliminó en solo tres días. Sigue siendo incierto si los investigadores pueden resolver las deficiencias de la IA del lenguaje.
Pero parece probable que la ampliación continúe hasta que se produzcan rendimientos decrecientes. El próximo salto podría estar a la vuelta de la esquina, y es posible que ya tengamos el hardware para hacerlo realidad.
Crédito de la imagen: cerebros
Fuente:
Dorrier, J. (2022, 22 noviembre). This AI Supercomputer Has 13.5 Million Cores—and Was Built in Just Three Days. Singularity Hub. https://singularityhub.com/2022/11/22/this-ai-supercomputer-has-13-5-million-cores-and-was-built-in-just-three-days/