L’any 2006 Netflix va anunciar un premi d’1 milió de dòlars per a aquelles propostes que milloressin el seu algorisme de cerca en un 10%.
El nom del concurs era Netflix Prize.
Perquè això fos tècnicament possible, Netflix va decidir compartir sense coneixement dels seus clients, 100 milions de classificacions de pel·lícules de gairebé 500.000 subscriptors, dades que eren –teòricament– anònimes ja que amb elles no podia identificar-se cap client de Netflix.
Aquest historial de lloguer dels clients consistia en informació tal com la data, la qualificació i els comentaris a les pel·lícules de Netflix, informació que seria suficient perquè els concursants del concurs fessin la proposta de millora de l’algorisme.
Però el cert és que va passar una cosa inesperada.
Unes setmanes després de l’inici del concurs, Arvind Narayanan i Vitaly Shmatikov, investigadors de la Universitat de Texas a Austin, van poder reidentificar alguns dels clients anònims de Netflix.
La pregunta és i com va ser possible si les dades de Netflix eren anònimes?
L’estratègia dels investigadors va ser comparar dues fonts d’informació diferents, d’una banda les classificacions anònimes de Netflix i de l’altra les classificacions públiques a Internet Movie Database (IMDb), portal d’internet que emmagatzema i comparteix informació sobre pel·lícules i on els usuaris es registren i identifiquen.
Així creuant informació dels dos portals, va ser com van localitzar diversos perfils anònims de Netflix que coincidien a la perfecció amb els d’IMDb, resultant que en alguns casos els perfils en ambdós portals eren de la mateixa persona.
Encara que pugui semblar que la llista de les pel·lícules que visualitza un client no és matèria sensible, una usuària de Netflix les dades del qual s’havien utilitzat en el projecte Netflix Prize va demanar a la companyia, ja que estava entre les persones reidentificades.
La clienta en qüestió era una mare lesbiana que no havia compartit amb ningú -ni amb els seus fills- la seva orientació sexual, per la qual cosa el resultat del projecte clarament la perjudicada en treure a la llum una informació que ella havia guardat gelosament.
La qüestió a debatre és si l’empresa hauria d’haver sabut que era possible reidentificar els clients amb dades anònimes i, per això, hagués hagut d’aplicar mesures addicionals de seguretat o simplement no llançar el projecte.