Nuestra especie le debe mucho a los pulgares oponibles. Pero si la evolución nos hubiera dado pulgares extra, las cosas probablemente no habrían mejorado mucho. Un pulgar por mano es suficiente.
No es así para las redes neuronales, los principales sistemas de inteligencia artificial para realizar tareas similares a las humanas. A medida que se han hecho más grandes, han llegado a comprender más. Esto ha sido una sorpresa para los espectadores. Los resultados matemáticos fundamentales sugirieron que las redes solo podrían ser tan grandes, pero las redes neuronales modernas probablemente se ampliarían mucho más allá del requisito previsto, una situación conocida como sobreparametrización.
En un artículo presentado en diciembre en NeurIPS, una conferencia líder, Sébastien Bubeck de Microsoft Research y Mark Sellke de la Universidad de Stanford brindaron una nueva explicación del misterio detrás del éxito de la escalabilidad. Muestran que las redes neuronales deben ser mucho más grandes de lo que se espera convencionalmente para evitar ciertos problemas básicos. El hallazgo ofrece una visión general de una pregunta que ha persistido durante varias décadas.
“Es un resultado matemático y teórico realmente interesante”, dijo Lenka Zdeborová del Instituto Federal Suizo de Tecnología de Lausana. “Lo prueban de esta manera muy genérica. Entonces, en ese sentido, va al núcleo de la informática”.
Las expectativas estándar para el tamaño de las redes neuronales provienen de un análisis de cómo memorizan los datos. Pero para entender la memorización, primero debemos entender qué hacen las redes.
Una tarea común de las redes neuronales es identificar objetos en imágenes. Para crear una red que pueda hacer esto, los investigadores primero le proporcionan muchas imágenes y etiquetas de objetos, y la entrenan para aprender las correlaciones entre ellos. Posteriormente, la red identificará correctamente el objeto en una imagen que ya ha visto. En otras palabras, el entrenamiento hace que una red memorice datos. Más notablemente, una vez que una red ha memorizado suficientes datos de entrenamiento, también adquiere la capacidad de predecir las etiquetas de los objetos que nunca ha visto, con diversos grados de precisión. Este último proceso se conoce como generalización.
El tamaño de una red determina cuánto puede memorizar. Esto se puede entender gráficamente. Imagine obtener dos puntos de datos que coloca en un plano xy . Puede conectar estos puntos con una línea descrita por dos parámetros: la pendiente de la línea y su altura cuando cruza el eje vertical. Si a alguien más se le da la línea, así como una coordenada x de uno de los puntos de datos originales, puede averiguar la coordenada y correspondiente simplemente mirando la línea (o usando los parámetros). La línea ha memorizado los dos puntos de datos.
Las redes neuronales hacen algo similar. Las imágenes, por ejemplo, se describen mediante cientos o miles de valores, uno para cada píxel. Este conjunto de muchos valores libres es matemáticamente equivalente a las coordenadas de un punto en un espacio de alta dimensión. El número de coordenadas se llama dimensión.
Un viejo resultado matemático dice que para ajustar n puntos de datos con una curva, necesita una función con n parámetros. (En el ejemplo anterior, los dos puntos se describían mediante una curva con dos parámetros). Cuando las redes neuronales surgieron por primera vez como una fuerza en la década de 1980, tenía sentido pensar lo mismo. Solo deberían necesitar n parámetros para ajustar n puntos de datos, independientemente de la dimensión de los datos.
“Esto ya no es lo que está pasando”, dijo Alex Dimakis de la Universidad de Texas, Austin. “En este momento, estamos creando rutinariamente redes neuronales que tienen una cantidad de parámetros mayor que la cantidad de muestras de entrenamiento. Esto dice que los libros tienen que ser reescritos”.
Bubeck y Sellke no se propusieron reescribir nada. Estaban estudiando una propiedad diferente de la que a menudo carecen las redes neuronales , llamada robustez, que es la capacidad de una red para lidiar con pequeños cambios. Por ejemplo, una red que no es robusta puede haber aprendido a reconocer una jirafa, pero etiquetaría erróneamente una versión apenas modificada como un jerbo. En 2019, Bubeck y sus colegas buscaban probar teoremas sobre el problema cuando se dieron cuenta de que estaba conectado al tamaño de una red.
“Estábamos estudiando ejemplos contradictorios, y luego la escala se nos impuso”, dijo Bubeck. “Reconocimos que era esta oportunidad increíble, porque existía la necesidad de comprender la escala misma”.
En su nueva prueba, la pareja muestra que la sobreparametrización es necesaria para que una red sea robusta. Lo hacen calculando cuántos parámetros se necesitan para ajustar los puntos de datos con una curva que tiene una propiedad matemática equivalente a la robustez: la suavidad.Para ver esto, imagine nuevamente una curva en el plano, donde la coordenada x representa el color de un solo píxel y la coordenada y representa una etiqueta de imagen. Dado que la curva es suave, si modificara ligeramente el color del píxel, moviéndose una distancia corta a lo largo de la curva, la predicción correspondiente solo cambiaría una pequeña cantidad. Por otro lado, para una curva extremadamente irregular, un pequeño cambio en la coordenada x (el color) puede provocar un cambio drástico en la coordenada y (la etiqueta de la imagen). Las jirafas pueden convertirse en jerbos.
Bubeck y Sellke demostraron que el ajuste suave de puntos de datos de alta dimensión requiere no solo n parámetros, sino n × d parámetros, donde d es la dimensión de la entrada (por ejemplo, 784 para una imagen de 784 píxeles). En otras palabras, si desea que una red memorice de manera sólida sus datos de entrenamiento, la sobreparametrización no solo es útil, es obligatoria. La prueba se basa en un hecho curioso sobre la geometría de alta dimensión, que es que los puntos distribuidos al azar colocados en la superficie de una esfera están separados casi por un diámetro completo entre sí. La gran separación entre los puntos significa que ajustarlos a todos con una sola curva suave requiere muchos parámetros adicionales.
“La prueba es muy elemental, sin matemáticas pesadas, y dice algo muy general”, dijo Amin Karbasi de la Universidad de Yale.
El resultado proporciona una nueva forma de comprender por qué la simple estrategia de ampliar las redes neuronales ha sido tan efectiva.
Otra investigación ha revelado razones adicionales por las que la sobreparametrización es útil. Por ejemplo, puede mejorar la eficiencia del proceso de formación, así como la capacidad de generalización de una red. Si bien ahora sabemos que la sobreparametrización es necesaria para la robustez, no está claro cuán necesaria es la robustez para otras cosas. Pero al conectarlo con la sobreparametrización, la nueva prueba sugiere que la robustez puede ser más importante de lo que se pensaba, una clave única que desbloquea muchos beneficios.
“La robustez parece un requisito previo para la generalización”, dijo Bubeck. “Si tienes un sistema en el que solo lo perturbas un poco y luego se vuelve loco, ¿qué tipo de sistema es ese? Eso no es razonable. Creo que es un requisito fundamental y básico”.
Fuente:
(2022n, 10 de febrero). Los informáticos demuestran por qué las redes neuronales más grandes funcionan mejor . Revista Cuanta. Recuperado el 15 de febrero de 2022, de https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/