En el año 2006 Netflix anunció un premio de 1 millón de dólares para aquellas propuestas que mejoraran su algoritmo de búsqueda en un 10 %.
El nombre del concurso era Netflix Prize.
Para que ello fuera técnicamente posible, Netflix decidió compartir sin conocimiento de sus clientes, 100 millones de clasificaciones de películas de casi 500.000 suscriptores, datos que eran -teóricamente- anónimos pues con ellos no podía identificarse a ningún cliente de Netflix.
Ese historial de alquiler de los clientes consistía en información tal como la fecha, la calificación y los comentarios a las películas de Netflix, información que sería suficiente para que los concursantes del concurso hicieran sus propuesta de mejora del algoritmo.
Pero lo cierto es que sucedió algo inesperado.
Unas semanas después del inicio del concurso, Arvind Narayanan y Vitaly Shmatikov, investigadores de la Universidad de Texas en Austin, pudieron reidentificar a algunos de los clientes anónimos de Netflix.
La pregunta es ¿y como fue posible si los datos de Netflix eran anónimos?.
La estrategia de los investigadores fue la de comparar dos fuentes de información diferentes, por una parte las clasificaciones anónimas de Netflix y por otra las clasificaciones publicas en Internet Movie Database (IMDb), portal de internet que almacena y comparte información sobre películas y donde los usuarios se registran e identifican.
Así cruzando informacion de ambos portales, fue como localizaron diversos perfiles anónimos de Netflix que coincidían a la perfección con los de IMDb, resultando que en algunos casos los perfiles en ambos portales eran de la misma persona.
Aunque pueda parecer que la lista de las películas que visualiza un cliente no es materia sensible, una usuaria de Netflix cuyos datos se habían utilizado en el proyecto Netflix Prize demandó a la compañía, ya que estaba entre las personas reidentificadas.
La cliente en cuestión era una madre lesbiana que no había compartido con nadie -ni con sus hijos- su orientación sexual, por lo que el resultado del proyecto claramente la perjudicada al sacar a la luz una información que ella había guardado celosamente.
La cuestión a debatir es si la empresa debería haber sabido que era posible reidentificar a sus clientes con datos anónimos y por ello, hubiese tenido que aplicar medidas adicionales de seguridad o simplemente no lanzar el proyecto.