Observatorio Tecnológico de Hidalgo

Privacidad y Machine Learning, importantes innovaciones de Apple en iOS 13 y demás sistemas

20 June, 2019

by OtechUAEH

Uno de los retos más importantes que tiene la inteligencia artificial por delante es la privacidad. Sabemos que la IA, en especial, el Machine Learning, tiene un potencial increíble de cambio y que con unos buenos modelos entrenados podemos realizar funciones con nuestros dispositivos que hasta hace no demasiado eran impensables.

El Machine Learning nos permite que nuestro iPhone nos reconozca con Face ID y aprenda cómo cambia nuestra cara con el tiempo, día a día. Nos permite buscar fotografías concretas en base a su contenido y encontrarlas (aquella foto que le hice a mi hijo hace años con la camiseta de Supermán que tanto le gusta), nos permite reconocer sonidos o guiarnos por la ruta más eficiente hasta casa sorteando atascos. Incluso es capaz de conducir solo un coche y llevarnos a nuestro destino.

Y esto es solo empezar a jugar. Muy pronto será capaz de darnos un diagnóstico de cualquier posible enfermedad con un simple análisis de las pruebas a un nivel de eficiencia superior a cualquier médico humano. Lo importante no es lo que pueda imaginar que el aprendizaje automático pueda hacer por nosotros. Lo es lo que no soy capaz de imaginar pero llegará. ¿Cuál es la base de todo esto? Los datos. Datos y más datos.

Datos y privacidad

Si no fuera por los datos, el Machine Learning no serviría para nada. Porque a un modelo de aprendizaje automático hay que entrenarlo, y ese entrenamiento se basa en datos. Si yo no le digo quienes son los superhéroes Marvel, difícilmente podrá reconocerlos al hacerle una foto a uno con mi cámara. Y cuantas más imágenes de cada uno haya usado para entrenarse, más eficiente y más patrones encontrará para hacer su trabajo e identificarlos. Esto es básico.

¿Y quién genera datos? Nosotros. Desde 3 focos fundamentales:

Datos de usuario que generamos con nuestra interacción con la tecnología (fotografías, documentos, navegación, localización…).
Estudios desarrollados por instituciones o empresas que, también a partir de nosotros, consiguen datos globales más organizados en temas concretos como estudios de salud, de población o de inclinaciones políticas, entre otros muchos.
Como consecuencia de todo lo anterior, tenemos los grandes conjuntos de datos externos que tienen las empresas o instituciones, recopilados sobre los de millones de personas. Como los datos que puede tener Netflix de los gustos de sus usuarios, o los que tienen Google o Facebook de los hábitos de vida y compra de la mayoría de la población mundial.

El procedimiento habitual es que esos datos se clasifiquen de alguna forma y se pasen a un modelo ya definido para que sea entrenado.

¿Y la privacidad de los datos usados en ML? ¿Están anonimizados lo suficiente como para respetar la privacidad de quien los generó? ¿Se podría desde un modelo ya entrenado, a través de ingeniería inversa, saber el origen del dato o incluso recuperar este?

Si Google o Apple están entrenando sus modelos de reconocimiento de imágenes y categorización con mis fotos, ¿es factible que alguien pueda sacar mis fotos de esos modelos? ¿Podría alguien saber que las hecho yo? ¿Si una IA se alimenta de datos para crear perfiles de movimiento en grandes ciudades, por ejemplo, están poniendo en peligro mi propia privacidad y vuelan por ahí mis datos de dónde vivo o dónde trabajo? Es factible si no se toman las precauciones necesarias.

Por ejemplo, ¿nos hemos parado a pensar alguna vez en todo lo que puede sacarse de nuestra localización? No solo dónde vives o trabajas:

Si eres una persona saludable o no porque los sábados estás unas horas en un centro deportivo con pistas de pádel o haces recorridos regulares por la misma zona todos los días con tu app de running controlando tu ejercicio.
Si somos practicantes católicos porque los domingos paramos una hora en la Iglesia del barrio.
Nuestros lugares habituales para comprar ropa.
El cine que nos gusta (cruzado con el email de confirmación a tu cuenta de Google para saber cuales son tus gustos cinematográficos).
De qué supermercados somos más afines.
Si echamos más horas de lo habitual en la oficina.
Si tenemos amante (y quién es) porque paramos cada x días en un hotelito unas horas (al igual que el móvil de nuestra “pareja furtiva”)

Todo ello solo con la localización.

¿Imaginan qué puede sacarse con datos de localización? ¿Y si los cruzamos con otros datos de otras fuentes? ¿Y si le damos de comer eso a un algoritmo que busque patrones de gustos o comportamientos y vendemos esa información a terceros?

Como una pariente que sin tener la app de Vips instalada en el móvil y pagando en efectivo, recibió un email en su móvil a las pocas horas de comer allí preguntándole si le había gustado la visita. ¿Cómo lo hacen? Puede ser que hayas usado el WiFi gratuito del local algún día y al acercarte otro, tu móvil se conectará solo y el sistema sabrá que has estado como una hora usando su señal: ¡cazado!. O que la app de Google registre esa actividad de localización y le ceda los datos a una empresa que a su vez le vende estos al grupo Vips. Y sí, aunque ella lo niega, le dio permiso al aceptar las condiciones de uso que no leyó.

Cómo funciona hoy el Machine Learning

La filosofía de las compañías que trabajan con Machine Learning, con la cierta excusa que las máquinas en la nube tienen una potencia mucho más alta para tareas realmente serias en aprendizaje automático, quieren que les envíes los datos y ya los procesan ellos.

Secure And Privacy Preserving Machine Learning

El funcionamiento es claro: tengo una app o un sistema con un modelo entrenado. La utilizo y va recopilando todo tipo de datos de uso. Cuando ha acumulado un número importante (o incluso dato a dato, depende de cada app), estos son enviados a la nube y allí se procesan con los de otros millones como nosotros y el modelo se mejora (se re-entrena) consiguiendo mayor eficacia. En una futura actualización, el modelo se cambia en tu dispositivo por el mejorado.

O tal vez ni eso. Si tenemos un móvil barato o antiguo, cuyo procesador no sea lo suficientemente bueno, no podemos hacer procesos de Machine Learningalegremente porque lastrarían el rendimiento. Así que lo hacemos todo en la nube: cogemos los datos, los enviamos a la nube, allí se procesan y nos envía la respuesta. Datos volando por todos sitios. Porque en uno u otro caso, en todo este proceso, nuestros datos van y una vez allí todo es cuestión de fé.

El futuro es privado (eso dice Mark Zuckerberg)

Solo en los últimos meses Google o Facebook han empezado a hablar de privacidad: pero entendida desde un concepto curioso: la información de lo que hacen con nuestros datos. Piensan que privacidad no es respetar nuestros datos, solamente informarnos de qué hacen con ellos. Esto es lo que ha aportado la famosa GDPR que tantos quebraderos de cabeza ha dado. Incorporar una serie de mecanismos de control de la información por parte del usuario y obligar a las empresas a decirnos claramente qué hacen con nuestros datos, cuáles usan y a quién los ceden. Todo claro y cristalino.

La mayoría lo cumplen a la perfección (más les vale). El problema es que no nos preocupa a nosotros. No leemos esta información. Pero les invito a leer alguna vez ese mensaje de “Su privacidad es importante para nosotros” y el enorme botón de “Sí, acepto” que pulsamos sin pensar para leer el artículo que buscamos. Pulsen un día en “Más información” y lean qué datos van a recopilar y a cuántas empresas van a cedérselo. Tal vez miren de otra forma la navegación por internet y la privacidad de sus datos.

Lo que Apple quiere aportar aquí, sin perder eficiencia en los procesos de Machine Learning, es respetar la privacidad de los datos que se usan ocultándolos para que el dato sea útil, pero nunca se conozca de quién procede o incluso el propio dato en sí usado: solo se guarda el resultado de haberlo procesado. Y de ninguna forma, sobre el dato procesado, podrá llegarse al dato origen y quién lo generó.

Machine Learning y privacidad en iOS 13

A partir de iOS 13, si recopilamos datos de usuario para mejorar un modelo, no tenemos que enviar a la nube estos para que se re-entrenen nuestros modelos y que los datos “vuelen” sin control por el espacio. Podemos hacer todo el proceso en nuestro dispositivo sin necesidad de conexión a internet. Para ello Apple ha habilitado dos nuevas APIs: una que permite re-entrenar modelos en el dispositivo y otra que permite procesos en segundo plano de, como llaman, “larga duración”. De esta forma, programamos un re-entreno, y mientras el dispositivo está cargando por la noche, el modelo se re-entrena y está disponible con todas sus funciones mejoradas la próxima vez que abramos la app. Esto es algo que ya hace FaceID y que ahora se ofrece a todos los desarrolladores.

¿Y si queremos sumar la experiencia de varios usuarios? Porque la primera duda que surge es que si tengo mi modelo entrenado mejorado solo en el dispositivo: ¿cómo aporto al modelo general? Vamos a ver un ejemplo claro: Siri. Desde iOS 13, va a tener mejoras mucho más interesantes con el uso gracias a esta capacidad de re-entrenamiento aplicada a la experiencia de uso, todo dentro de nuestro dispositivo y sin salir del mismo.

Pero, ¿y si la experiencia o lo que ha aprendido Siri queremos que se use para mejorar el servicio? ¿y si yo como desarrollador quiero que la experiencia de muchos de mis usuarios me sirva para mejorar el modelo general en futuras versiones? ¿Puedo hacerlo respetando la privacidad?

Sí, porque Apple comenzará a aplicar un técnica denominada aprendizaje federado privado. Una técnica con dos partes esenciales. La primera es que no van a ser nuestros datos los que vayan a la nube, será nuestro modelo mejorado. La segunda, todos los datos van a ir con controles de privacidad diferencial ya aplicada.

Evaluar un modelo de Machine Learning respetando la privacidad: sin usar ni recopilar datos privados del usuario, con inferencias rápidas y sin la latencia de una conexión a internet.

De esta forma, todos los modelos re-entrenados y mejorados por separado, pueden recuperarse y se crea una fusión de todos ellos con las partes que han mejorado (sin necesidad de acceder a ningún dato). Y como al aplicar esto, ya tenemos privacidad diferencial que ofusca y oculta los datos personales e incluso contenidos de imágenes o cualquier dato del que pudiera obtenerse información sensible, al actualizar las apps con el nuevo modelo con datos obtenidos de otros usuarios, no podríamos sacar ninguno de estos de ellos.

Una conjunción de técnicas que permiten mejorar los sistemas, pero siempre con algo muy claro en mente: el respeto de la privacidad de la información. Técnicas que ya existen en el mundo del Machine Learning y que Apple ha decidido aplicar para preservar la privacidad de todos sus usuarios. Algo que el resto de compañías deberían hacer si quieren que nos creamos su deriva hacia la privacidad.

Como decía Apple en una de sus ponencias: la privacidad no es cerrar la puerta a todo. Es tener la seguridad que al abrirla lo haremos a alguien de confianza que respetará nuestra vida privada.

Fuente: Applesfera