Aunque no nos lo planteemos de manera habitual, se puede extraer gran cantidad de información de muchos de los datos que circulan por la red o los datos que almacenan las empresas en sus bases de datos. Cruzando información que, aparentemente, nos puede parecer inconexa o que no se nos ha ocurrido combinar podemos establecer modelos predictivos que nos alerten de la criminalidad de una zona en la ciudad de Nueva York o evitar las lesiones de un equipo de rugby gracias a lo que se conoce como Big Data. Precisamente, un equipo de investigadores puso en el punto de mira a Facebook y aplicó el Big Data a algo tan cotidiano como los me gusta y el resultado fue francamente interesante: fueron capaces de obtener datos relativos a la personalidad de los usuarios, sus circunstancias personales y sus circunstancias familiares a través de los me gusta de Facebook.
El estudio fue llevado a cabo por la Universidad de Cambridge y un equipo de Microsoft Research y tomaron como muestra a 58.000 usuarios de Facebook que decidieron participar en el estudio. ¿Qué aportaban los participantes? Algo tan simple como algo que está visible en nuestros perfiles y que poca gente suele ocultar: las páginas de Facebook en las que han marcado un me gusta.
¿Y se puede extraer información a partir de los me gusta de Facebook? Más allá de obtener información de los gustos personales y preferencias de cada usuario, que sería la información más evidente, el rastro que dejamos por la red o en acciones tan simples como marcar un me gusta de Facebook se puede exprimir y procesar para ofrecer información de valor con la que, por ejemplo, modelar a los usuarios, segmentarlos y ofrecerles contenidos publicitarios mucho más dirigidos, por citar un ejemplo relacionado con la monetización de Facebook.
En el caso de este experimento sobre Big Data, los investigadores construyeron con la información una especie de modelo predictivo en el que, como entradas, se introducían los "me gusta" del usuario y, como salida, se ofrecía un perfil socio-afectivo del usuario y, a la vista de los datos, con un elevado ratio de aciertos.
¿Y qué cosas averiguaron sobre los usuarios? Apoyándose en los me gusta de Facebook, el sistema era capaz de distinguir la orientación sexual de los voluntarios con un 88% de acierto, es decir, era capaz de acertar si la persona era homosexual o heterosexual equivocándose solamente 12 de cada 100 veces. Por sus gustos, el sistema fue capaz de distinguir si el usuario era Afroamericano o caucásico con un 95% de probabilidad de acierto, si se era Demócrata o Republicano con un 85% de probabilidad de acierto, distinguir el sexo con un 93% de precisión o si se era fumador con un 73% de probabilidad de acierto.
Se puede extraer información con bastante precisión.
Lógicamente, construir un modelo predictivo que cubra todas las páginas que existen en Facebook es materialmente imposible y, por ello, el equipo se centró en las 50.000 páginas más populares de la red social de Mark Zuckerberg pero, a pesar de esta "simplificación", la información que se extrajo de Facebook es impresionante y, sin duda, va mucho más allá de lo que alguien se podría llegar a imaginar.
En media, cada usuario puede llegar a marcar unos 60 me gusta de Facebook, es decir, se hace fan de alrededor de 60 páginas, una información que suele ser de carácter público y que no se suele ocultar. Si algo tan simple como un "me gusta" puede exprimirse hasta el punto de lanzar un perfil que defina a los usuarios, imaginemos la potencia que tiene el Big Data a la hora de analizar toda la actividad que realizamos en la red o si, además de los me gusta de Facebook, se analizase información no estructurada como los comentarios que hacemos, las fotos que subimos o los usuarios con los que interactuamos más (y lo cruzásemos con sus perfiles).
Status BoomCon esto no quiero decir que el Big Data sea algo malo ni mucho menos demonizar a Facebook, simplemente uno debe ser cada vez más consciente de la información que comparte o la información que genera y las posibilidades de explotación que ésta tiene. La publicidad que vemos en Facebook no es casual, procede de la explotación de los datos que generamos en el servicio y, por tanto, está adaptada a nuestros gustos, preferencias y nuestra propia actividad en la plataforma.
Este estudio es un ejemplo de cómo el Big Data puede ofrecernos información que, aunque residía en los datos que manejábamos, no éramos capaces de ver y, por tanto, cómo podemos plantearnos preguntas cada vez más complejas a la hora de explotar la información. Quizás pueda parecer un ataque a la privacidad pero, realmente, es información de carácter público que, simplemente, se ha procesado en un proceso complejo.
Algo parecido pasó hace un año cuando IBM, una de las empresas referente en Big Data, publicó en Los Angeles Times el Senti-meter, un gráfico interactivo que se alimentaba de los tweets que se publicaron durante los meses de enero y febrero de 2012 y que tenía como objetivo "adivinar" quiénes serían los ganadores de los Oscars (en sus categorías principales, claro está) según las opiniones de la gente.
La Policía de Los Ángeles, por ejemplo, desarrolla algoritmos predictivos usando los datos sobre delitos para modelar las rutas de sus coches patrulla e intentar así anticiparse al crimen, otro buen ejemplo de cómo es posible extraer información de valor de datos que ya tenemos y que, en este caso, ha servido para ganar en eficacia en la planificación de las patrullas de la policía y bajar los índices de criminalidad alrededor de un 25%.
Son muchos los servicios que usamos de manera gratuita, sin embargo, aunque no paguemos nada por usarlos, nuestra huella en la red nos convierte en un producto que, gracias a este tipo de análisis, nos hace ser los destinatarios de una nueva clase de campañas publicitarias por las que los anunciantes pueden llegar a pagar bastante.
El ejemplo de los me gusta de Facebook era un experimento pero es una interesante forma de poner sobre la mesa todo lo que se puede llegar a saber sobre los usuarios, simplemente, por cosas tan simples como un "like".