Cuanto más grande, mejor, o al menos esa ha sido la actitud de los que diseñan modelos de lenguaje de IA en los últimos años. Pero ahora está cuestionando DeepMind XX es razón de ser, y dice que da una IA una memoria puede ayudar a competir con los modelos de 25 veces que s tamaño.
Cuando OpenAI lanzó su modelo GPT-3 en junio pasado, reescribió el libro de reglas para las IA de lenguaje. Los investigadores del laboratorio demostraron que simplemente aumentar el tamaño de una red neuronal y los datos en los que se entrenó podría mejorar significativamente el rendimiento en una amplia variedad de tareas del lenguaje.
Desde entonces, una gran cantidad de otras empresas de tecnología se han subido al tren, desarrollando sus propios modelos de lenguaje de gran tamaño y logrando aumentos similares en el rendimiento. Pero a pesar de los éxitos, se han planteado preocupaciones sobre el enfoque, sobre todo por el ex investigador de Google Timnit Gebru .
En el documento que la llevó a ser expulsada de la empresa, Gebru y sus colegas destacaron que el tamaño de estos modelos y sus conjuntos de datos los hace aún más inescrutables que la red neuronal promedio, que ya son conocidas por ser cajas negras . Es probable que esto haga detectar ing y mitigar el sesgo en XX e s e modelos aún más difícil.
Quizás un problema aún mayor que identifican es el hecho de que depender de una potencia informática cada vez mayor para avanzar en la IA significa que la vanguardia del campo está fuera del alcance de todos, excepto de los laboratorios comerciales con los mejores recursos. La propuesta seductoramente simple de que la simple ampliación de los modelos puede conducir a un progreso continuo también significa que se invierten menos recursos en la búsqueda de alternativas prometedoras .
Pero en la nueva investigación, DeepMind ha demostrado que allí electrónico podría ser de otra manera. En una serie de artículos , el equipo explica cómo construyeron por primera vez su propio modelo de lenguaje grande, llamado Gopher, que es más de un 60 por ciento más grande que GPT-3. Luego, demostraron que un modelo mucho más pequeño dotado de la capacidad de buscar información en una base de datos podría enfrentarse cara a cara con Gopher y otros grandes modelos de lenguaje.
Los investigadores han denominado al modelo más pequeño RETRO, que significa Retrieval-Enhanced Transformer. Los transformadores son el tipo específico de red neuronal que se utiliza en la mayoría de los modelos de lenguaje grandes; se entrenan con grandes cantidades de datos para predecir cómo responder a preguntas o avisos de un usuario humano.
RETRO también se basa en un transformador, pero se ha dado un Augmen cruciales ta ción. Así como hacer predicciones acerca de lo que el texto debería ser el próximo en función de su formación, el modelo puede buscar a través de una base de datos de dos billones de trozos de texto a buscar pasajes utilizando un lenguaje similar que podría mejorar sus predicciones.
Los investigadores encontraron que un modelo retro que tenía sólo 7 mil millones parámetros podrían superar a los 178 billón parámetro Jur un s SIC-1 transformador hecha por AI21 laboratorios en una amplia variedad de tareas de lenguaje, e incluso hizo mejor que el modelo de Gopher 280 mil millones de parámetro en la mayoría.
Además de reducir la cantidad de entrenamiento requerido, los investigadores señalan que la capacidad de ver qué fragmentos de texto consultó el modelo al hacer predicciones podría facilitar la explicación de cómo llegó a sus conclusiones. La dependencia de una base de datos también abre oportunidades para la actualización de los conocimientos del modelo sin el reciclaje, o incluso modificar el corpus a Elim i fuentes nate de sesgo.
Curiosamente, los investigadores demostraron que pueden tomar un transformador existente y adaptarlo para que funcione con una base de datos mediante el reentrenamiento de una pequeña sección de su red. Estos modelos superaron fácilmente al original e incluso se acercaron al rendimiento de los modelos RETRO entrenados desde cero.
Sin embargo, es importante recordar que RETRO sigue siendo un modelo grande según la mayoría de los estándares; es casi cinco veces más grande que el predecesor de GPT-3, GPT-2 . Y parece probable que la gente quiera ver lo que es posible con un modelo RETRO aún más grande con una base de datos más grande.
DeepMind ciertamente cree que una mayor escala es una vía prometedora. En el artículo de Gopher descubrieron que, si bien aumentar el tamaño del modelo no mejoraba significativamente el rendimiento en el razonamiento lógico y las tareas de sentido común, en cosas como la comprensión de lectura y la verificación de datos, los beneficios eran claros.
Quizás la lección más importante de RETRO es que escalar modelos no es la única, ni siquiera la más rápida, ruta hacia un mejor rendimiento. Si bien el tamaño sí importa, la innovación en los modelos de IA también es crucial.
Crédito de la imagen: DeepMind