La ropa que nos ponemos antes de salir de casa, el decidir si cogemos o no un paraguas, el saber si una alergia al polen nos afectará o si haremos deporte mañana por la tarde al aire libre, son decisiones personales en las que el clima está presente, por lo que los cambios del tiempo afectan a nuestra forma de organizarnos la vida.

Las empresas también tienen en cuenta el clima a la hora de tomar sus decisiones, desde los modelos climáticos que las compañías aéreas utilizan para evitar turbulencias durante los vuelos, al rendimiento de los parques eólicos en función del viento previsto o el decidir cuál es el momento idóneo para sembrar el trigo en una zona de secano, hasta las alertas que pueden lanzar las compañías de seguros a los asegurados que viajan hacia una zona con previsión de granizo.

Por tanto el clima tiene una presencia constante en nuestra vida diaria, como se puede observar del hecho que la mayoría de las conversaciones las empezamos hablando del tiempo, y que además muchas de las decisiones que tomamos en nuestro día a día dependen de la previsión del tiempo.

De hecho los expertos señalan que según algunas estimaciones, hasta 1/3 parte de la economía de los EEUU depende o está relacionada con la meteorología.

En este contexto es interesante analizar el caso The Weather Channel (TWC), canal de televisión por cable dedicado las 24 horas del día a hablar del tiempo, que fue lanzado en EEUU en el mes de mayo de 1982 y que en 2015 fue adquirido por IBM, siendo por tanto un ejemplo exitoso de transformación digital de una organización convertida ahora en data driven -empresa centrada en los datos-.

Su modelo inicial de ingresos era la publicidad y las suscripciones, pero al cabo de un tiempo se reinventó y se ha convertido en lo que esa ahora, una enorme potencia digital.

TWC trata una montaña de datos en sus operaciones diarias y ha tenido la habilidad de convertir la información del tiempo en un activo estratégico, ya que ha encontrado un gran negocio en los datos pues ha sabido transformarse digitalmente, evolucionando de un modelo de predicción del tiempo a otro de predicción sobre cuando los consumidores comprarán un determinado producto o servicio.

Pese a que la información sobre el tiempo es gratis, TWC ha creado un modelo de plataforma con la que vende servicios a empresas cuyos productos o servicios son sensibles al clima.

TWC ha logrado adaptarse a las nuevas circunstancias tan rápidamente como lo hacemos las personas antes los cambios en el clima, desde una organización que producía información a otra que la monetiza, que ayuda a que las personas y las organizaciones tomen mejores decisiones en función del clima.

Datos personales, big data y un embarazo adolescente.

El 28 de enero se abrió a la firma el convenio 108 de 1981 del Consejo de Europa, el primer instrumento internacional jurídicamente vinculante que regula el derecho a la protección de datos, motivo por el que cada año el día 28 de enero se celebra el día internacional de la protección de datos en todo el mundo.

Los datos en general son una materia prima de gran valor económico y clave para cualquier negocio, ya que permiten crear una nueva forma de valor -la conocida como economía de los datos- de la que son ejemplo las llamadas GAFA -Google, Apple, Facebook y Amazon- que basan su modelo de negocio en la explotación de nuestros datos personales en un entorno de plataforma digital.

El big data -o datos masivos- se refiere al procedimiento creado para aprovechar estos datos que generamos las empresas consistente en el análisis de grandes volúmenes de datos que a menudo se captan a tiempo real en una gran variedad de formatos.

El objetivo final es la extracción de conocimiento para la toma de decisiones a partir de la detección de patrones, tendencias o correlaciones, descubriendo conocimiento oculto dentro de un gran volumen de datos -el caso Walmart, con los pañales y la cerveza es un ejemplo conocido-, lo que supone empezar a dejar de lado la intuición y la experiencia como únicas herramientas para tomar decisiones -utensilios adecuados sólo para un mundo con pocas. datos- pero insuficientes para la economía digital basada en el big data.

Es por ello que la normativa de protección de datos es necesaria en todo proceso de big data, si partimos de que muchas de las cosas que suceden en nuestra vida cotidiana dejan un rastro en forma de dato personal, que escaparía a nuestro control como ciudadanos si no existiera esta normativa -el reglamento 2016/679 y la ley 3/2018-, las agencias o autoridades de protección de datos y la figura clave del delegado de protección de datos.

Las empresas quieren conocer mejor nuestros gustos e intereses, adecuar sus productos y ofertas a nuestros patrones de consumo y adaptar así sus campañas de marketing, aunque hay casos donde el análisis de los datos de consumo en la web de un supermercado llevan a consecuencias digamos «imprevistas» en el ámbito familiar como el que sucedió en la cadena target de los EEUU.

Es el curioso caso de una adolescente que estaba embarazada sin que su padre lo conociera, y que debido a los patrones de búsqueda que la futura madre había generado en el portal del supermercado -pañales, biberones y chupetes-, este establecimiento había deducido que aquella clienta estaba embarazada.

El supermercado envió rápidamente a casa de la menor cupones de descuento para productos para criaturas y cuando el padre los vio, se presentó hecho una fiera en el supermercado pidiendo explicaciones de la razón por la que enviaban esta información a una menor de edad.

La historia termina con una segunda visita del padre al supermercado solicitado disculpas, ya que se ve que el único miembro de la familia que desconocía que su hija estaba embarazada era él, el padre.

 

El caso Amazon, Greg Linden, el poder de los experimentos de los trabajadores, el instinto y los datos.

Greg Linden fue uno de los primeros ingenieros de Amazon, prototipo del trabajador innovador al que le ocurre una idea que acaba triunfando, pese a que los responsables de marketing de Amazon le prohibieron trabajar en ella.

La idea era implementar una herramienta de recomendaciones a los clientes de Amazon en el momento de finalizar la compra, basada en aquellos productos que constaban en el carrito.

Cuando Linden presentó la innovación a sus jefes, los llamados HIPPO (Highest Paid Person’s Opinion), un vicepresidente de marketing desestimó la propuesta bajo el argumento que no era nada recomendable distraer al comprador durante el proceso de compra (según decía su experiencia).

Pese a ello -sostenella y no enmendalla debió pensar el trabajador- Linden preparó un prototipo y lo presentó en el sitio de pruebas interno de Amazon, siendo el resultado totalmente positivo, ya que no solo no interrumpía el proceso de compra sino que se incrementaron las ventas notablemente (el poder de los datos).

La conclusión es clara: los datos habían triunfado, dejando en mal lugar la experiencia e intuición del vicepresidente de marketing de Amazon.

El resto de la historia es conocida, con la implementación de un algoritmo de recomendación en Amazon basado en el experimento de Linden y posteriormente, su extensión a la mayoría de portales de venta online.

Este es un ejemplo paradigmático de la experimentación de los trabajadores en las empresas y un debate entre la prevalencia del instinto de los hippos o la experimentación con datos de los trabajadores.

Por cierto, en nuestra organización ¿cómo hubiera terminado la idea de Linden?.

 

Los humanos estamos acostumbrados a detectar patrones y tendencias, lo que en una época con poca información es relativamente sencillo. Ahora bien, ello no es posible en plena era de los macrodatos, ya que existe tantísima información disponible que los patrones y las tendencias permanecen ocultos a los ojos de cualquier persona, sepultados entre millones y millones de datos.

Las empresas han acudido a los ordenadores y al fenómeno del big data para que la tecnología nos ayude a los humanos a detectar esos patrones invisibles, a poner luz en esa montaña de datos, a buscar relaciones entre hechos aparentemente inconexos a través de la minería de datos, para así tomar decisiones que ayuden a las empresas por ejemplo a incrementar las ventas.

Y es interesante aquí introducir un concepto muy utilizado en el entorno del big data y que es que la correlación no significa causalidad. Las diferencias entre la causalidad y la correlación sería algo parecido a decir:

a.- no es lo mismo afirmar que a es la causa segura de b (causalidad),

b.- que señalar que parece que a y b están relacionados (correlación).

La causalidad (el porqué de la cosas) es aquella ley que establece una relación directa entre una causa y un efecto, de tal manera que para llegar a esa conclusión cierta (que a es la causa de b) es necesario previamente experimentar, investigar y dedicar mucho tiempo y dinero a validar que efectivamente, existe una única relación directa entre esa causa y ese efecto.

La causalidad -como su nombre indica-, nos ayuda a conocer la causa de las cosas, es decir a recorrer el camino de vuelta desde el efecto producido y hacia la causa que lo ha producido, por lo que si el resultado de esa investigación es positivo, ello nos sirve para afirmar sin ningún género de dudas, que a es la causa de b, ya que no existe una explicación alternativa.

En cambio la correlación (el qué de las cosas, sin importar el porqué) simplemente nos advierte que entre a y b existe una posible relación pero no nos explica a ciencia cierta -al contrario de la causalidad- cual es la causa concreta que produce ese resultado.

Por tanto la correlación sería algo así como que el fenómeno a y el fenómeno b se observan al mismo tiempo, que parece que existe un patrón común entre ambos o una correlación estadística, que los dos se mueven juntos, pero sin poder afirmar de manera científica que a es la causa de b, como si haríamos con el principio de causalidad.

La correlación es un método por tanto más rápido y barato y por tanto, la deducción a la que llega la correlación sobre la relación de la causa y el efecto podríamos decir que es débil, en el sentido que no se basa en ese ejercicio científico de la causalidad que hemos visto antes, sino en otro principio del tipo “si la acierto, la adivino”.

En el año 2006 Netflix anunció un premio de 1 millón de dólares para aquellas propuestas que mejoraran su algoritmo de búsqueda en un 10 %.

El nombre del concurso era Netflix Prize.

Para que ello fuera técnicamente posible, Netflix decidió compartir sin conocimiento de sus clientes, 100 millones de clasificaciones de películas de casi 500.000 suscriptores, datos que eran -teóricamente- anónimos pues con ellos no podía identificarse a ningún cliente de Netflix.

Ese historial de alquiler de los clientes consistía en información tal como la fecha, la calificación y los comentarios a las películas de Netflix, información que sería suficiente para que los concursantes del concurso hicieran sus propuesta de mejora del algoritmo.

Pero lo cierto es que sucedió algo inesperado.

Unas semanas después del inicio del concurso, Arvind Narayanan y Vitaly Shmatikov, investigadores de la Universidad de Texas en Austin, pudieron reidentificar a algunos de los clientes anónimos de Netflix.

La pregunta es ¿y como fue posible si los datos de Netflix eran anónimos?.

La estrategia de los investigadores fue la de comparar dos fuentes de información diferentes, por una parte las clasificaciones anónimas de Netflix y por otra las clasificaciones publicas en Internet Movie Database (IMDb), portal de internet que almacena y comparte información sobre películas y donde los usuarios se registran e identifican.

Así cruzando informacion de ambos portales, fue como localizaron diversos perfiles anónimos de Netflix que coincidían a la perfección con los de IMDb, resultando que en algunos casos los perfiles en ambos portales eran de la misma persona.

Aunque pueda parecer que la lista de las películas que visualiza un cliente no es materia sensible, una usuaria de Netflix cuyos datos se habían utilizado en el proyecto Netflix Prize demandó a la compañía, ya que estaba entre las personas reidentificadas.

La cliente en cuestión era una madre lesbiana que no había compartido con nadie -ni con sus hijos- su orientación sexual, por lo que el resultado del proyecto claramente la perjudicada al sacar a la luz una información que ella había guardado celosamente.

La cuestión a debatir es si la empresa debería haber sabido que era posible reidentificar a sus clientes con datos anónimos y por ello, hubiese tenido que aplicar medidas adicionales de seguridad o simplemente no lanzar el proyecto.

Pañales, cervezas y big data

Se explica -sin saberse si es verdad o se trata de una fábula- que en un análisis que hizo Walmart de sus tarjetas de clientes cruzando los datos de millones de perfiles de compras, observaron un patrón de comportamiento (correlación y no causalidad) en las compras que hacían un perfil determinado de clientes -hombres jóvenes- un día en concreto -los viernes tarde al volver del trabajo-.

Al parecer los padres adquirían en la misma compra pañales y cervezas, lo primero para sus hijos menores y lo segundo para los progenitores.

Con esos resultados se dice que Walmart reordenó algunas estanterías del supermercado de tal manera que, como ya os podéis imaginar, al lado de los pañales se pusieron estanterías con cervezas, con lo que consiguió incrementar las ventas de la bebida en cuestión de manera muy notable.

Si volvemos al mantra en cuestión -la causalidad supone correlación pero la correlación no siempre supone causalidad-, y lo ponemos en relación con el caso Walmart, vemos que el supermercado no analizó ni investigó el porqué de la compra de ambos productos a la vez, sino que tuvo suficiente con el qué, es decir que la compra se llevaba a cabo por los padres los viernes tardes, ejemplo claro que la correlación no siempre significa causalidad.