Datos personales, big data y un embarazo adolescente.

El 28 de enero se abrió a la firma el convenio 108 de 1981 del Consejo de Europa, el primer instrumento internacional jurídicamente vinculante que regula el derecho a la protección de datos, motivo por el que cada año el día 28 de enero se celebra el día internacional de la protección de datos en todo el mundo.

Los datos en general son una materia prima de gran valor económico y clave para cualquier negocio, ya que permiten crear una nueva forma de valor -la conocida como economía de los datos- de la que son ejemplo las llamadas GAFA -Google, Apple, Facebook y Amazon- que basan su modelo de negocio en la explotación de nuestros datos personales en un entorno de plataforma digital.

El big data -o datos masivos- se refiere al procedimiento creado para aprovechar estos datos que generamos las empresas consistente en el análisis de grandes volúmenes de datos que a menudo se captan a tiempo real en una gran variedad de formatos.

El objetivo final es la extracción de conocimiento para la toma de decisiones a partir de la detección de patrones, tendencias o correlaciones, descubriendo conocimiento oculto dentro de un gran volumen de datos -el caso Walmart, con los pañales y la cerveza es un ejemplo conocido-, lo que supone empezar a dejar de lado la intuición y la experiencia como únicas herramientas para tomar decisiones -utensilios adecuados sólo para un mundo con pocas. datos- pero insuficientes para la economía digital basada en el big data.

Es por ello que la normativa de protección de datos es necesaria en todo proceso de big data, si partimos de que muchas de las cosas que suceden en nuestra vida cotidiana dejan un rastro en forma de dato personal, que escaparía a nuestro control como ciudadanos si no existiera esta normativa -el reglamento 2016/679 y la ley 3/2018-, las agencias o autoridades de protección de datos y la figura clave del delegado de protección de datos.

Las empresas quieren conocer mejor nuestros gustos e intereses, adecuar sus productos y ofertas a nuestros patrones de consumo y adaptar así sus campañas de marketing, aunque hay casos donde el análisis de los datos de consumo en la web de un supermercado llevan a consecuencias digamos «imprevistas» en el ámbito familiar como el que sucedió en la cadena target de los EEUU.

Es el curioso caso de una adolescente que estaba embarazada sin que su padre lo conociera, y que debido a los patrones de búsqueda que la futura madre había generado en el portal del supermercado -pañales, biberones y chupetes-, este establecimiento había deducido que aquella clienta estaba embarazada.

El supermercado envió rápidamente a casa de la menor cupones de descuento para productos para criaturas y cuando el padre los vio, se presentó hecho una fiera en el supermercado pidiendo explicaciones de la razón por la que enviaban esta información a una menor de edad.

La historia termina con una segunda visita del padre al supermercado solicitado disculpas, ya que se ve que el único miembro de la familia que desconocía que su hija estaba embarazada era él, el padre.

 

En el año 2006 Netflix anunció un premio de 1 millón de dólares para aquellas propuestas que mejoraran su algoritmo de búsqueda en un 10 %.

El nombre del concurso era Netflix Prize.

Para que ello fuera técnicamente posible, Netflix decidió compartir sin conocimiento de sus clientes, 100 millones de clasificaciones de películas de casi 500.000 suscriptores, datos que eran -teóricamente- anónimos pues con ellos no podía identificarse a ningún cliente de Netflix.

Ese historial de alquiler de los clientes consistía en información tal como la fecha, la calificación y los comentarios a las películas de Netflix, información que sería suficiente para que los concursantes del concurso hicieran sus propuesta de mejora del algoritmo.

Pero lo cierto es que sucedió algo inesperado.

Unas semanas después del inicio del concurso, Arvind Narayanan y Vitaly Shmatikov, investigadores de la Universidad de Texas en Austin, pudieron reidentificar a algunos de los clientes anónimos de Netflix.

La pregunta es ¿y como fue posible si los datos de Netflix eran anónimos?.

La estrategia de los investigadores fue la de comparar dos fuentes de información diferentes, por una parte las clasificaciones anónimas de Netflix y por otra las clasificaciones publicas en Internet Movie Database (IMDb), portal de internet que almacena y comparte información sobre películas y donde los usuarios se registran e identifican.

Así cruzando informacion de ambos portales, fue como localizaron diversos perfiles anónimos de Netflix que coincidían a la perfección con los de IMDb, resultando que en algunos casos los perfiles en ambos portales eran de la misma persona.

Aunque pueda parecer que la lista de las películas que visualiza un cliente no es materia sensible, una usuaria de Netflix cuyos datos se habían utilizado en el proyecto Netflix Prize demandó a la compañía, ya que estaba entre las personas reidentificadas.

La cliente en cuestión era una madre lesbiana que no había compartido con nadie -ni con sus hijos- su orientación sexual, por lo que el resultado del proyecto claramente la perjudicada al sacar a la luz una información que ella había guardado celosamente.

La cuestión a debatir es si la empresa debería haber sabido que era posible reidentificar a sus clientes con datos anónimos y por ello, hubiese tenido que aplicar medidas adicionales de seguridad o simplemente no lanzar el proyecto.

Ramón Arnó participó con una charla titulada ¿Quieres vender por internet? Aprende cómo poner tu negocio online.
El día 10-11-2013 en el Centro de Culturas y Cooperación Transfronteriza, Campus de Cappont, Lleida.