Sociedades, economías y servicios de todo tipo se apoyan, cada vez más, en el procesado masivo de datos para la toma de decisiones o sencillamente para mejorar su producto. Esto implica que cada vez que realizamos una acción en el mundo digital –y progresivamente también en el físico– queda registrado en alguna parte, siendo procesado y cruzado con otras bases de datos de un origen variado.
Por el camino, la privacidad de los usuarios está en juego y la herramienta que más despunta para preservarla es la llamada "privacidad diferencial". Esta definición aplica los conceptos estadísticos y matemáticos necesarios para que, de una forma robusta, podamos confiar en la no-identificación de estos datos, que pueden ser en muchos casos sensibles o críticos, pero sí permitiendo la utilización de las grandes tendencias que se derivan de ellos.
Este acercamiento al procesado de datos que propone la privacidad diferencial –cuyo origen se encuentra parcialmente entre las publicaciones de Cynthia Dwork, una investigadora de Microsoft– están siendo implementadas por gigantes tecnológicos de la talla de Google –que apuesta por ella desde cuando ni siquiera le llamaban así, hace ya un lustro en Chrome–, Apple o Uber. La finalidad última: acumular y procesar más datos tuyos de todo tipo, sin poder siquiera valorar cuales son esos datos concretos que los hacen realmente tuyos.
Recientemente, Google liberaba parte de las librerías que ellos mismos utilizan a nivel interno para este propósito, de forma que cualquier empresa u organización que maneje grandes cantidades de datos pueda continuar haciéndolo, pero con unas ciertas garantías a nivel de privacidad y sin tener que programarlo todo desde cero. Hablamos con Miguel Guevara, jefe de producto en la división de privacidad y protección de datos en Google, que da a Hipertextual algunas de las claves de esta nueva iniciativa de software libre.
Un tratamiento blindado por la estadística
Para proteger la lectura de una base de datos frente a detalles sensibles no basta con sustituir parte de los datos con cadenas codificadas –mediante hashing de las más sensibles, como los nombres–, y un precedente claro de esto es el caso de Netflix. En 2007, cuando la plataforma comenzó a emitir vídeo bajo demanda, para mejorar su sistema de recomendaciones ofreció un premio de un millón de dólares a quien consiguiera mejorar el rendimiento de su algoritmo en, al menos, un 10%.
Para ello publicaron una base de datos con 100 millones de valoraciones procedentes de 500.000 usuarios, con algunos elementos hasheados, por lo que no eran directamente identificables. Para su sorpresa, estos datos fueron deanonimizados parcial y fácilmente al ser cruzados con las valoraciones de IMDb. Un par de investigadores, de la Universidad de Texas, pronto obtuvieron los detalles de los usuarios que utilizaban ambas plataformas "descubriendo sus aparentes preferencias políticas y otra información sensible", según leíamos entonces el abstract de la publicación.
Por supuesto, este riesgo crece conforme las bases de datos de las que formamos parte cuentan con más y más entradas a distintos niveles que permiten desmontar esa anonimización en base a información contextual que puede en muchos casos ser obtenida de forma relativamente sencilla e incluso mediante disponibilidad pública.
La privacidad diferencial tapa este agujero y "permite conocer estadísticas agregadas sobre una población", explica Guevara, "y al mismo tiempo previene de una forma muy sistemática que un observador pueda obtener información sobre un usuario en específico". Lo hace, básicamente añadiendo más ruido estadístico a la respuesta cuanto más específica es la pregunta que le estamos haciendo a la base de datos. Como una adaptación de principio de incertidumbre de Heisenberg en física, aplicado por imperativo social en la ciencia de datos.
Yo soy Heisenberg
Si queremos conseguir datos muy concretos sobre un subjconjunto muy reducido de sujetos en la muestra, el ruido será mayor cuanto menor sea el tamaño de esta, y por tanto los resultados tenderán progresivamente a ser más y más inservibles a nivel práctico. "En ese momento, el ruido que estás introduciendo es tanto, que los resultados se convierten en basura", afirma Miguel Guevara. De esta forma, manejar grandes bases de datos bajo los esquemas de la privacidad diferencial se vuelve, a priori, bastante tranquilizador.
Suscríbete a la newsletter diaria de Hipertextual. Recibe todos los días en tu correo lo más importante y lo más relevante de la tecnología, la ciencia y la cultura digital.
En cualquier caso, el uso de la privacidad diferencial en un proyecto determinado no blinda la información específica de los individuos que aparecen en ella. No al menos per se. Hay varios métodos para aplicarla, y es el denominado modelo global donde "lo que el controlador puede hacer es colocar una capa entre la base de datos y quienes están accediendo a esa información, y esa capa usa privacidad diferencial y es lo que estamos haciendo open source", según afirma el jefe de producto de Google, que sostiene que esta técnica "es muy flexible".
La privacidad se ha convertido en el mayor lujo que ofrece Apple
Este acercamiento permite a las empresas trabajar sobre el modelo de la privacidad diferencial manteniendo siempre el control de los datos sobre los que trabajan, partiendo de la figura de un supervisor de estos. Miguel Guevara comenta que "le da la posibilidad al controlador de datos de tomar una decisión muy racional sobre cual es el riesgo que quiere incurrir en compartir esos datos".
Guevara cuenta cómo, según estudios recientes, "no se puede tener, en el contexto de machine learning, justicia y privacidad": "Imagina un grupo quechua en la sierra de Perú que también quiere usar el teclado predictivo de Google. Si nosotros queremos entrenar un modelo para ellos, necesitamos cierto tipo de información sobre estas bases de datos. Pero si los entrenamos con privacidad diferencial vamos a acabar produciendo un modelo que no sirve para poblaciones muy pequeñas".
Y es que, afirma, "el debate es súper reciente" pero que no obstante la técnica ya permite ajustarse a las necesidades de cada entorno: "los parámetros de la privacidad diferencial permiten, si así lo quieres, proteger la presencia o ausencia de grupos". Como ejemplo, la de "algún tipo de minoría que te puedas imaginar". Entre ellas, las étnicas son especialmente vulnerables, como los "musulmanes en algún país donde no haya muchos".
Iniciativa abierta y de colaboración
Con TensorFlow, el gigante de Mountain View ya proporciona uno de los sets de librerías más usados en ciencia de datos. También en el ámbito de la privacidad y del cifrado. Con esta nueva aportación, desde Google esperan de nuevo una gran adopción: "hay muy pocas librerías en este campo, y sobre todo librerías que operen a escala" como la que publican ahora y que "usamos también internamente en nuestros servicios", afirma Guevara. "Nos tomó mucho tiempo desarrollar esta librería, como dos años para que fuera lo suficientemente sólida. Mi esperanza es que las organizaciones que no tienen ese tipo de recursos, o no tienen el tiempo, puedan usarla para sacarle más valor a los datos que poseen sin comprometer la privacidad de sus usuarios."
Y no se trata de un proceso unidireccional, sino que también es recíproco con la comunidad, de la que esperan recibir cierto feedback a varios niveles y que permitan incluso robustecer la privacidad en sus productos. "Nos estamos inspirando mucho en el campo criptográfico. En 'cripto', para probar que un algoritmo de encriptación es seguro, lo que la gente ha hecho ha sido liberarlo a la comunidad, para que la comunidad comience a atacarlo y descubra si hay fallos o no". "Esperamos que venga de organizaciones, de la sociedad civil, de gobiernos e investigadores. Esta primera etapa de la librería está muy enfocada para gente que tiene habilidades de software, o científicos de datos. Cualquier tipo de retroalimentación es bienvenida."
Gracias a esta técnica con apenas unos pocos años de vida se pueden desarrollar proyectos que preserven la privacidad de quienes constan en ellos sin tener que reinventar la rueda en cada implementación. Esto es algo que gigantes como Apple o Uber pueden permitirse, aunque quizás no otras empresas de menor tamaño.
En Google esperan que este tipo de librerías sea considerada por cualquier tipo de proyecto que maneje un volumen importante de datos. En relación a su tamaño, Miguel afirma que "cualquier empresa u organización que maneje datos, de más de cien individuos puede beneficiarse de esta librería": "los científicos sociales, los economistas" o quizás también para detectar "patrones de consumo de naturaleza sensible".
El debate que puede plantearse para una empresa es el de realizar un esfuerzo extra para tener acceso a una cantidad menor de datos, o de una forma menos granular. Ante la cuestión de si el incentivo –que puede ser ético, pero ambién preventivo– es suficiente, Guevara sostiene que "la misma duda que tu tienes ahora la teníamos nosotros internamente". "Hemos descubierto que la gente se acostumbra a usar datos que no son tan precisos, resultado de la privacidad diferencial. Puede ser un proceso lento por el cambio de perspectiva sobre cómo entendemos los datos hoy en día. Implica aceptar que los datos que vamos a obtener van a tener un poco de ruido, que algunos van a ser suprimidos completamente, pero es importante recordar que las grandes tendencias poblacionales sobre una base de datos se mantiene completamente ahí y el rigor estadístico sigue existiendo ahí."
Ante la creciente recolección de datos por parte de las empresas, y tras ser preguntado sobre el posible cambio de percepción a los ojos de los usuarios, el responsable de Google hace un paralelismo con la situación vivida en el cifrado de datos. "Hace 30 años, la idea de encriptación era muy extraña para la mayoría de la gente. Creo que lo sigue siendo, pero hemos alcanzado como comunidad un nivel de entendimiento intuitivo que le permite a la gente más o menos tener un sentimiento de seguridad cuando saben que su información está encriptada. Espero que algo similar pase con la privacidad diferencial y que a medida que la gente empiece a tener esta intuición sobre cómo funciona, esta intuición pueda darles una mayor seguridad sobre cómo están siendo utilizados sus datos."