Hace poco menos de un año y medio, OpenAI anunció la finalización de GPT-3 , su algoritmo de procesamiento de lenguaje natural que era, en ese momento, el modelo más grande y complejo de su tipo. Esta semana, Microsoft y Nvidia presentaron un nuevo modelo al que llaman “el modelo de lenguaje generativo más grande y poderoso del mundo”. El modelo Megatron-Turing Natural Language Generation (MT-NLG) es más del triple del tamaño de GPT-3 con 530 mil millones de parámetros.
Los 175 mil millones de parámetros de GPT-3 ya eran muchos; su predecesor, GPT-2 , tenía apenas 1.500 millones de parámetros, y el modelo Turing Natural Language Generation de Microsoft , lanzado en febrero de 2020, tenía 17.000 millones.
Un parámetro es un atributo que define un modelo de aprendizaje automático en función de sus datos de entrenamiento, y ajustar más de ellos requiere aumentar la cantidad de datos en los que se entrena el modelo. Básicamente, se trata de aprender a predecir qué tan probable es que una palabra determinada vaya precedida o seguida de otra palabra, y cuánto cambia esa probabilidad en función de otras palabras de la oración.
Como puede imaginar, llegar a 530 mil millones de parámetros requirió una gran cantidad de datos de entrada y la misma potencia de cálculo. El algoritmo se entrenó utilizando una supercomputadora Nvidia compuesta por 560 servidores, cada uno con ocho GPU de 80 gigabytes. Eso es 4,480 GPU en total y un costo estimado de más de $ 85 millones.
Para los datos de entrenamiento, los creadores de Megatron-Turing utilizaron The Pile , un conjunto de datos elaborado por el grupo de investigación de modelos de lenguaje de código abierto Eleuther AI. Compuesto por todo, desde PubMed hasta Wikipedia y Github, el conjunto de datos totaliza 825 GB, divididos en 22 conjuntos de datos más pequeños. Microsoft y Nvidia seleccionaron los subconjuntos que consideraron “de la más alta calidad relativa”. Agregaron datos de Common Crawl , una organización sin fines de lucro que escanea la web abierta todos los meses y descarga contenido de miles de millones de páginas HTML y luego lo pone a disposición en un formato especial para la minería de datos a gran escala. GPT-3 también se entrenó con datos de Common Crawl.
La publicación del blog de Microsoft sobre Megatron-Turing dice que el algoritmo es hábil en tareas como la predicción de finalización, comprensión de lectura, razonamiento de sentido común, inferencias de lenguaje natural y desambiguación del sentido de las palabras. Pero estad atentos, es probable que se agreguen más habilidades a esa lista una vez que el modelo comience a ser ampliamente utilizado.
GPT-3 resultó tener capacidades más allá de lo que sus creadores anticiparon, como escribir código, hacer matemáticas, traducir entre idiomas y autocompletar imágenes (ah, y escribir un cortometraje con un final retorcido). Esto llevó a algunos a especular que GPT-3 podría ser la puerta de entrada a la inteligencia artificial general . Pero la variedad de talentos del algoritmo, aunque inesperada, aún se encontraba dentro del dominio del lenguaje (incluidos los lenguajes de programación), por lo que eso es un poco exagerado.
Sin embargo, dados los trucos que GPT-3 tenía bajo la manga en función de sus 175 mil millones de parámetros, es intrigante preguntarse con qué nos puede sorprender el modelo Megatron-Turing con 530 mil millones. Es probable que el algoritmo no esté disponible comercialmente durante algún tiempo, por lo que pasará un tiempo antes de que lo descubramos.
Los creadores del nuevo modelo, sin embargo, son muy optimistas . “Esperamos ver cómo MT-NLG dará forma a los productos del mañana y motivará a la comunidad para ampliar aún más los límites del procesamiento del lenguaje natural”, escribieron en la publicación del blog . “El viaje es largo y está lejos de estar completo, pero estamos entusiasmados con lo que es posible y lo que nos espera”.