La roba que ens posem abans de sortir de casa, decidir si agafem o no un paraigua, saber si una al·lèrgia al pol·len ens afectarà o si farem esport demà a la tarda a l’aire lliure, són decisions personals en què el clima està present, per això els canvis del temps afecten la nostra forma d’organitzar-nos la vida.

Les empreses també tenen en compte el clima a l’hora de prendre les seves decisions, des dels models climàtics que les companyies aèries utilitzen per evitar turbulències durant els vols, al rendiment dels parcs eòlics en funció del vent previst o decidir quin és el moment idoni per sembrar el blat en una zona de secà, fins a les alertes que poden llançar les companyies d’assegurances als assegurats que viatgen cap a una zona amb previsió de calamarsa.

Per tant el clima té una presència constant a la nostra vida diària, com es pot observar del fet que la majoria de les converses les comencem parlant del temps, i que a més moltes de les decisions que prenem en el nostre dia a dia depenen de la previsió del temps.

De fet, els experts assenyalen que segons algunes estimacions, fins a 1/3 part de l’economia dels EUA depèn o està relacionada amb la meteorologia.

En aquest context és interessant analitzar el cas The Weather Channel (TWC), canal de televisió per cable dedicat les 24 hores del dia a parlar del temps, que va ser llançat als EUA el mes de maig del 1982 i que el 2015 va ser adquirit per IBM, per tant, és un exemple exitós de transformació digital d’una organització convertida ara en data driven -empresa centrada en les dades-.

El seu model inicial d´ingressos era la publicitat i les subscripcions, però al cap dun temps es va reinventar i sha convertit en el que aquesta ara, una enorme potència digital.

TWC tracta una muntanya de dades en les operacions diàries i ha tingut l’habilitat de convertir la informació del temps en un actiu estratègic, ja que ha trobat un gran negoci en les dades ja que ha sabut transformar-se digitalment, evolucionant d’un model de predicció del temps a un altre de predicció sobre quan els consumidors compraran un determinat producte o servei.

Tot i que la informació sobre el temps és gratis, TWC ha creat un model de plataforma amb què ven serveis a empreses els productes o serveis de les quals són sensibles al clima.

TWC ha aconseguit adaptar-se a les noves circumstàncies tan ràpidament com ho fem les persones abans els canvis en el clima, des d’una organització que produïa informació a una altra que la monetitza, que ajuda a fer que les persones i les organitzacions prenguin millors decisions en funció del clima.

El 28 de gener es va obrir a la signatura el conveni 108 de 1981 del Consell d’Europa, el primer instrument internacional jurídicament vinculant que regula el dret a la protecció de dades, motiu pel qual cada any el dia 28 de gener se celebra el dia internacional de la protecció de dades a tot el món.

Les dades en general són una matèria primera de gran valor econòmic i clau per a qualsevol negoci, ja que permeten crear una nova forma de valor -la coneguda com a economia de les dades- de la qual són exemple les anomenades GAFA -Google, Apple, Facebook i Amazon- que basen el seu model de negoci a l’explotació de les nostres dades personals en un entorn de plataforma digital.

El big data –o dades massives– es refereix al procediment creat per aprofitar aquestes dades que generem les empreses consistent en l’anàlisi de grans volums de dades que sovint es capten a temps real en una gran varietat de formats.

L’objectiu final és l’extracció de coneixement per a la presa de decisions a partir de la detecció de patrons, tendències o correlacions, descobrint coneixement ocult dins d’un gran volum de dades –el cas Walmart, amb els bolquers i la cervesa n’és un exemple conegut-, cosa que suposa començar a deixar de banda la intuïció i l’experiència com a úniques eines per prendre decisions -utensilis adequats només per a un món amb poques. dades-però insuficients per a l’economia digital basada en el big data.

És per això que la normativa de protecció de dades és necessària en tot procés de big data, si partim que moltes de les coses que succeeixen a la nostra vida quotidiana deixen un rastre en forma de dada personal, que escaparia al nostre control com a ciutadans si no existís aquesta normativa -el reglament 2016/679 i la llei 3/2018-, les agències o autoritats de protecció de dades i la figura clau del delegat de protecció de dades.

Les empreses volen conèixer millor els nostres gustos i interessos, adequar els seus productes i ofertes als nostres patrons de consum i adaptar així les campanyes de màrqueting, encara que hi ha casos on l’anàlisi de les dades de consum a la web d’un supermercat porten a conseqüències diguem-ne “ imprevistes” a l’àmbit familiar com el que va passar a la cadena target dels EUA.

És el curiós cas d’una adolescent que estava embarassada sense que el seu pare ho conegués, i que a causa dels patrons de recerca que la futura mare havia generat al portal del supermercat -bolquers, biberons i xumets-, aquest establiment havia deduït que aquella clienta estava embarassada.

El supermercat va enviar ràpidament a casa de la menor cupons de descompte per a productes per a criatures i quan el pare els va veure, es va presentar fet una fera al supermercat demanant explicacions de la raó per la qual enviaven aquesta informació a una menor d’edat.

La història acaba amb una segona visita del pare al supermercat sol·licitat disculpes, ja que es veu que l´únic membre de la família que desconeixia que la seva filla estava embarassada era ell, el pare.

Greg Linden va ser un dels primers enginyers d’Amazon, prototip del treballador innovador a qui li passa una idea que acaba triomfant, malgrat que els responsables de màrqueting d’Amazon li van prohibir treballar-hi.

La idea era implementar una eina de recomanacions als clients d’Amazon a l’hora de finalitzar la compra, basada en aquells productes que constaven a la cistella.

Quan Linden va presentar la innovació als seus caps, els anomenats HIPPO (Highest Paid Person’s Opinion), un vicepresident de màrqueting va desestimar la proposta sota l’argument que no era gens recomanable distreure el comprador durant el procés de compra (segons deia la seva experiència).

Tot i això -sostenella i non enmendalla- Linden va preparar un prototip i el va presentar al lloc de proves intern d’Amazon, sent el resultat totalment positiu, ja que no només no interrompia el procés de compra sinó que es van incrementar les vendes notablement (el poder de les dades).

La conclusió és clara: les dades havien triomfat, deixant en mal lloc l’experiència i la intuïció del vicepresident de màrqueting d’Amazon.

La resta de la història és coneguda, amb la implementació d’un algorisme de recomanació a Amazon basat en l’experiment de Linden i posteriorment, la seva extensió a la majoria de portals de venda en línia.

Aquest és un exemple paradigmàtic de l’experimentació dels treballadors a les empreses i un debat entre la prevalença de l’instint dels hippos o l’experimentació amb dades dels treballadors.

Per cert, a la nostra organització com hagués acabat la idea de Linden?.

Els humans estem acostumats a detectar patrons i tendències, cosa que en una època amb poca informació és relativament senzill.

Ara bé, això no és possible en plena era de les macrodades, ja que hi ha tantíssima informació disponible que els patrons i les tendències romanen ocults als ulls de qualsevol persona, sepultats entre milions i milions de dades.

Les empreses han acudit als ordinadors i al fenomen del big data perquè la tecnologia ens ajudi els humans a detectar aquests patrons invisibles, a posar llum en aquesta muntanya de dades, a buscar relacions entre fets aparentment inconnexos a través de la mineria de dades, per així prendre decisions que ajudin les empreses per exemple a incrementar les vendes.

I és interessant aquí introduir un concepte molt utilitzat a l’entorn del big data i que és que la correlació no significa causalitat.

Les diferències entre la causalitat i la correlació seria una cosa semblant a dir:

a.- no és el mateix afirmar que a és la causa segura de b (causalitat),

b.- que assenyalar que sembla que a i b estan relacionats (correlació).

La causalitat (el perquè de les coses) és aquella llei que estableix una relació directa entre una causa i un efecte, de manera que per arribar a aquesta conclusió certa (que a és la causa de b) cal prèviament experimentar, investigar i dedicar molt de temps i diners a validar que efectivament, hi ha una única relació directa entre aquesta causa i aquest efecte.

La causalitat -com el seu nom indica- ens ajuda a conèixer la causa de les coses, és a dir, a recórrer el camí de tornada des de l’efecte produït i cap a la causa que l’ha produït, per la qual cosa si el resultat d’aquesta investigació és positiu, això ens serveix per afirmar sense cap mena de dubte, que a és la causa de b, ja que no hi ha una explicació alternativa.

En canvi la correlació (el què de les coses, sense importar el perquè) simplement ens adverteix que entre a i b hi ha una possible relació però no ens explica amb certesa -al contrari de la causalitat- quina és la causa concreta que produeix aquest resultat.

Per tant la correlació seria una cosa així com que el fenomen a i el fenomen b s’observen alhora, que sembla que hi ha un patró comú entre tots dos o una correlació estadística, que tots dos es mouen junts, però sense poder afirmar de manera científica que a és la causa de b, com si faríem amb el principi de causalitat.

La correlació és un mètode per tant més ràpid i barat i per tant, la deducció a què arriba la correlació sobre la relació de la causa i l’efecte podríem dir que és feble, en el sentit que no es basa en aquest exercici científic de la causalitat que hem vist abans, sinó en un altre principi del tipus “si l’encerto, l’endevino”.

L’any 2006 Netflix va anunciar un premi d’1 milió de dòlars per a aquelles propostes que milloressin el seu algorisme de cerca en un 10%.

El nom del concurs era Netflix Prize.

Perquè això fos tècnicament possible, Netflix va decidir compartir sense coneixement dels seus clients, 100 milions de classificacions de pel·lícules de gairebé 500.000 subscriptors, dades que eren –teòricament– anònimes ja que amb elles no podia identificar-se cap client de Netflix.

Aquest historial de lloguer dels clients consistia en informació tal com la data, la qualificació i els comentaris a les pel·lícules de Netflix, informació que seria suficient perquè els concursants del concurs fessin la proposta de millora de l’algorisme.

Però el cert és que va passar una cosa inesperada.

Unes setmanes després de l’inici del concurs, Arvind Narayanan i Vitaly Shmatikov, investigadors de la Universitat de Texas a Austin, van poder reidentificar alguns dels clients anònims de Netflix.

La pregunta és i com va ser possible si les dades de Netflix eren anònimes?

L’estratègia dels investigadors va ser comparar dues fonts d’informació diferents, d’una banda les classificacions anònimes de Netflix i de l’altra les classificacions públiques a Internet Movie Database (IMDb), portal d’internet que emmagatzema i comparteix informació sobre pel·lícules i on els usuaris es registren i identifiquen.

Així creuant informació dels dos portals, va ser com van localitzar diversos perfils anònims de Netflix que coincidien a la perfecció amb els d’IMDb, resultant que en alguns casos els perfils en ambdós portals eren de la mateixa persona.

Encara que pugui semblar que la llista de les pel·lícules que visualitza un client no és matèria sensible, una usuària de Netflix les dades del qual s’havien utilitzat en el projecte Netflix Prize va demanar a la companyia, ja que estava entre les persones reidentificades.

La clienta en qüestió era una mare lesbiana que no havia compartit amb ningú -ni amb els seus fills- la seva orientació sexual, per la qual cosa el resultat del projecte clarament la perjudicada en treure a la llum una informació que ella havia guardat gelosament.

La qüestió a debatre és si l’empresa hauria d’haver sabut que era possible reidentificar els clients amb dades anònimes i, per això, hagués hagut d’aplicar mesures addicionals de seguretat o simplement no llançar el projecte.

S’explica -sense saber-se si és veritat o es tracta d’una faula- que en una anàlisi que va fer Walmart de les seves targetes de clients creuant les dades de milions de perfils de compres, van observar un patró de comportament (correlació i no causalitat) a les compres que feien un perfil determinat de clients -homes joves- un dia en concret -els divendres tarda en tornar de la feina-.

Pel que sembla els pares adquirien a la mateixa compra bolquers i cerveses, el primer producte per als seus fills menors i el segon per als progenitors.

Amb aquests resultats es diu que Walmart va reordenar algunes prestatgeries del supermercat de tal manera que, com ja us podeu imaginar, al costat dels bolquers es van posar prestatgeries amb cerveses, de manera que va aconseguir incrementar les vendes de la beguda en qüestió de manera molt notable.

Si tornem al mantra en qüestió -la causalitat suposa correlació però la correlació no sempre suposa causalitat-, i ho posem en relació amb el cas Walmart, veiem que el supermercat no va analitzar ni investigar el perquè de la compra dels dos productes alhora, sinó que en va tenir prou amb el què, és a dir que la compra es duia a terme pels pares els divendres tardes, exemple clar que la correlació no sempre significa causalitat.