Si un modelo de aprendizaje automático se entrena con un conjunto de datos desequilibrado, como uno que contiene muchas más imágenes de personas con piel más clara que personas con piel más oscura, existe un riesgo grave de que las predicciones del modelo sean injustas cuando se implemente en el mundo real. .
Pero esto es sólo una parte del problema. Los investigadores del MIT descubrieron que los modelos de aprendizaje automático que son populares para las tareas de reconocimiento de imágenes en realidad codifican sesgos cuando se entrenan con datos desequilibrados. Este sesgo dentro del modelo es imposible de corregir más adelante, incluso con técnicas de mejora de la equidad de última generación, e incluso cuando se vuelve a entrenar el modelo con un conjunto de datos equilibrado.
Entonces, los investigadores idearon una técnica para introducir la equidad directamente en la representación interna del modelo. Esto permite que el modelo produzca resultados justos incluso si se entrena con datos no justos, lo cual es especialmente importante porque hay muy pocos conjuntos de datos bien equilibrados para el aprendizaje automático.
La solución que desarrollaron no solo conduce a modelos que hacen predicciones más equilibradas, sino que también mejora su rendimiento en tareas posteriores como el reconocimiento facial y la clasificación de especies animales.
“En el aprendizaje automático, es común culpar a los datos por el sesgo en los modelos. Pero no siempre tenemos datos equilibrados. Por lo tanto, debemos idear métodos que realmente solucionen el problema con datos desequilibrados”, dice la autora principal Natalie Dullerud, estudiante de posgrado en el Grupo de Aprendizaje Automático Saludable del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT.
Los coautores de Dullerud incluyen a Kimia Hamidieh, estudiante de posgrado en Healthy ML Group; Karsten Roth, ex investigador visitante que ahora es estudiante de posgrado en la Universidad de Tubingen; Nicolas Papernot, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación de la Universidad de Toronto; y la autora principal Marzyeh Ghassemi, profesora asistente y directora del Healthy ML Group. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Definición de equidad
La técnica de aprendizaje automático que estudiaron los investigadores se conoce como aprendizaje métrico profundo, que es una forma amplia de aprendizaje de representación. En el aprendizaje métrico profundo, una red neuronal aprende la similitud entre los objetos al mapear fotos similares juntas y fotos diferentes separadas. Durante el entrenamiento, esta red neuronal mapea imágenes en un “espacio de incrustación” donde una métrica de similitud entre las fotos corresponde a la distancia entre ellas.
Por ejemplo, si se usa un modelo de aprendizaje métrico profundo para clasificar las especies de aves, mapeará fotos de pinzones dorados juntos en una parte del espacio de inserción y cardenales juntos en otra parte del espacio de inserción. Una vez entrenado, el modelo puede medir efectivamente la similitud de nuevas imágenes que no ha visto antes. Aprendería a agrupar imágenes de especies de aves invisibles juntas, pero más alejadas de cardenales o pinzones dorados dentro del espacio de incrustación.
Las métricas de similitud que aprende el modelo son muy sólidas, razón por la cual el aprendizaje de métricas profundas se emplea con tanta frecuencia para el reconocimiento facial, dice Dullerud. Pero ella y sus colegas se preguntaron cómo determinar si una métrica de similitud está sesgada.
“Sabemos que los datos reflejan los sesgos de los procesos en la sociedad. Esto significa que tenemos que cambiar nuestro enfoque para diseñar métodos que se adapten mejor a la realidad”, dice Ghassemi.
Los investigadores definieron dos formas en que una métrica de similitud puede ser injusta. Usando el ejemplo del reconocimiento facial, la métrica será injusta si es más probable que incruste a personas con rostros de piel más oscura más cerca entre sí, incluso si no son la misma persona, que si esas imágenes fueran personas con rostros más claros. rostros desollados. En segundo lugar, sería injusto si las características que aprende para medir la similitud son mejores para el grupo mayoritario que para el grupo minoritario.
Los investigadores realizaron una serie de experimentos en modelos con métricas de similitud injustas y no pudieron superar el sesgo que el modelo había aprendido en su espacio de incrustación.
“Esto da bastante miedo porque es una práctica muy común que las empresas publiquen estos modelos incorporados y luego las personas los ajusten para alguna tarea de clasificación posterior. Pero no importa lo que haga aguas abajo, simplemente no puede solucionar los problemas de equidad que se indujeron en el espacio de incrustación”, dice Dullerud.
Incluso si un usuario vuelve a entrenar el modelo en un conjunto de datos equilibrado para la tarea posterior, que es el mejor de los casos para solucionar el problema de equidad, todavía hay brechas de rendimiento de al menos el 20 por ciento, dice.
La única forma de resolver este problema es asegurarse de que el espacio de incrustación sea justo para empezar.
Aprender métricas separadas
La solución de los investigadores, llamada Descorrelación parcial de atributos (PARADE), consiste en entrenar al modelo para aprender una métrica de similitud separada para un atributo sensible, como el tono de piel, y luego descorrelacionar la métrica de similitud del tono de piel de la métrica de similitud específica. Si el modelo está aprendiendo las métricas de similitud de diferentes rostros humanos, aprenderá a mapear caras similares juntas y caras diferentes separadas usando características distintas al tono de piel.
Cualquier número de atributos confidenciales se puede descorrelacionar de la métrica de similitud objetivo de esta manera. Y debido a que la métrica de similitud para el atributo sensible se aprende en un espacio de incrustación separado, se descarta después del entrenamiento, por lo que solo la métrica de similitud objetivo permanece en el modelo.
Su método es aplicable a muchas situaciones porque el usuario puede controlar la cantidad de descorrelación entre métricas de similitud. Por ejemplo, si el modelo va a diagnosticar cáncer de mama a partir de imágenes de mamografía, es probable que un médico quiera que cierta información sobre el sexo biológico permanezca en el espacio de inclusión final porque es mucho más probable que las mujeres tengan cáncer de mama que los hombres, explica Dullerud.
Probaron su método en dos tareas, reconocimiento facial y clasificación de especies de aves, y descubrieron que reducía las brechas de rendimiento causadas por el sesgo, tanto en el espacio de incrustación como en la tarea posterior, independientemente del conjunto de datos que usaran.
En el futuro, Dullerud está interesado en estudiar cómo forzar un modelo de aprendizaje de métricas profundas para aprender buenas funciones en primer lugar.
“¿Cómo se audita adecuadamente la equidad? Esa es una pregunta abierta en este momento. ¿Cómo puedes saber que un modelo va a ser justo, o que solo va a ser justo en ciertas situaciones, y cuáles son esas situaciones? Esas son preguntas en las que estoy realmente interesada en seguir adelante”, dice ella.
Fuente:
Injecting fairness into machine-learning models. (2022, 1 marzo). MIT News | Massachusetts Institute of Technology. Recuperado 1 de marzo de 2022, de https://news.mit.edu/2022/unbias-machine-learning-0301