Big DataEn las horas previas a una tormenta los clientes de los supermercados Walmart prefieren tartas, sobre todo las de fresa. Saberlo de antemano permite ubicarlas cerca de las cajas e incrementar las ventas. Dentro del mercado de autos usados es preferible adquirir los de color naranja porque una larga experiencia sugiere que los vehículos de ese color presentan menos fallas mecánicas y accidentes. A partir de miles de búsquedas hechas por los usuarios, tanto la acostumbrada gripe invernal como la provocada por el virus H1N1 pueden ser detectadas desde sus inicios mucho antes por los ingenieros de Google que por los reportes hospitalarios, que suelen llegar cuando el daño ya está hecho.


Publica El País (Uruguay)

Por Agustín Courtoisie

Lo que esos casos tienen en común es el procesamiento inteligente de datos masivos, es decir, el análisis de datos acumulados por las organizaciones en mega cantidades (no provenientes de muestreos sino de bases gigantescas) a cargo de especialistas en diversas áreas. Conscientes del valor de los datos masivos, las empresas y los gobiernos cada vez recopilan mayor información y la conservan en soportes digitales, para usos futuros e imprevisibles.

En particular, es muy útil el perfil emergente de los estados de cuenta de las tarjetas de crédito. Por su parte, usando los rastros dejados por sus clientes en la web, Amazon logra recomendaciones más eficientes y personalizadas que las de los prestigiosos críticos literarios contratados antaño, a los que la empresa terminó despidiendo. La prevención de comportamientos delictivos, los servicios de salud, la evolución de los mercados, los nuevos paradigmas de traducción automática, son otras de las aplicaciones explicadas con claridad y erudición en Big Data. La revolución de los datos masivos, que habrá de convertirse en una referencia sobre el tema.

CORRELACIONES

Los autores saben de lo que hablan: Viktor Mayer-Schönberger es profesor del Internet Institute de la Universidad de Oxford, asesor de Microsoft y el Foro Económico Mundial. Por su parte, Kenneth Cukier es el editor de datos de The Economist y colaborador de Foreign Affairs, The New York Times y Financial Times. La base empírica de casos y ejemplos contundentes de Big Data es tan vasta como el tamaño de su objeto temático. "No existe una definición rigurosa de datos masivos", advierten. Pero para su libro adoptaron estos criterios: "los datos masivos se refieren a cosas que se pueden hacer a gran escala pero no a una escala inferior, para extraer nuevas percepciones de tal forma que transforman los mercados, las organizaciones, las relaciones entre los ciudadanos y los gobiernos". Además, y esto es crucial: "La sociedad tendrá que desprenderse de parte de su obsesión por la causalidad a cambio de meras correlaciones: ya no sabremos por qué, sino solo qué. Esto da al traste con las prácticas establecidas durante siglos".

A lo largo del libro los autores insisten con una idea que irritará a muchos cientistas sociales: hay que dejar hablar a los datos, las correlaciones surgirán solas. Las hipótesis causales no son tan necesarias como se pensaba. Nada impide hacer investigaciones posteriores más profundas, pero se pueden tomar muchas decisiones partiendo de la mera coexistencia de dos o más variables a lo largo del tiempo. Por ejemplo, no importa saber por qué si el cielo muestra nubarrones la gente desea comer tartas, en particular tartas de fresa (como lo descubrió Walmart). Y quizás los vehículos color naranja poseen mayor visibilidad y eso los haga menos propensos a los accidentes cuando la visibilidad es escasa. Pero antes de saberlo a ciencia cierta ya se puede hacer mucho con ese dato, a la hora de comprar autos usados.

El hábito profesional de obtener muestras representativas del universo a considerar en un pronóstico también es puesto en tela de juicio por Mayer y Cukier: "El muestreo es como una copia fotográfica analógica. A cierta distancia se ve muy bien, pero cuando se mira más de cerca, enfocando algún detalle particular, se vuelve borrosa". Pero eso ya no es necesario cuando se dispone de todo el universo objetivo y "N = Todo". "El muestreo es propio de una época de restricciones en el procesamiento de datos". Sin embargo, los servicios de consultoras y encuestadoras siguen siendo muy caros. En cambio, cuando el almacenamiento digital de datos se abarata cada día, los tradicionales estudios de mercado ya no tienen tanto sentido. Claro que la relevancia de los big data no nació con las computadoras. Estas no hicieron más que facilitar su uso, pero el asunto tiene su historia.

MARES DE DATOS

En el siglo XIX, un accidente frustró la carrera de Matthew Fontaine Maury como oficial de la armada estadounidense, pero al enfocarlo durante años en el estudio de viejos cuadernos de bitácora y cartas náuticas, hizo posible la publicación de una obra magistral como The Physical Geography of the Sea (1855). Perplejo por la navegación en zig zag acostumbrada en su época, comprobó al interrogar a muchos capitanes que la mayoría entendía el océano como un universo caprichoso e impredecible. Maury, sin embargo, encontraba patrones y pautas por doquier. Por ejemplo, vientos que funcionaban casi como un reloj, o vendavales de última hora de la tarde que como una rutina cedían paso a una suave brisa. Con el tiempo, al reunir cantidades inmensas de información para la época, Maury desarticuló mitos y mejoró las rutas de navegación hasta obtener un sistema aún hoy vigente. A cambio de sus consejos, solía pedir que cada buque echara al agua botellas con informaciones geográficas para refinar el dibujo de las corrientes marinas. Un capitán agradecido le escribió una vez que hasta tomar en cuenta sus estudios "había cruzado el océano a ciegas".

La mentalidad big data ya había nacido con precursores como Maury, al "datificar" cuestiones que no parecían susceptibles de eso. Hoy lo hacen empresas como Facebook, al brindar un "gráfico social" de vínculos y perfiles. El tesoro en datos masivos de que dispone la compañía se empieza a concebir en forma cabal cuando se recuerda que en 2012 Facebook tenía alrededor de mil millones de usuarios. Por su lado, "Twitter permitió la datificación de los sentimientos al crear una forma fácil de que la gente anotase y compartiese sus pensamientos inconexos". Twitter llegó a acuerdos con DataSift y Gnip para comercializar el acceso a sus datos. "Muchas empresas analizan los tuits, recurriendo a veces a una técnica llamada análisis de sentimientos, para almacenar comentarios de clientes o valorar el impacto de las campañas de marketing. Dos fondos de inversión, Derwent Capital de Londres y MarketPsych de California, empezaron a analizar el texto datificado de los tuits como indicios para la inversión en el mercado de valores".

En este contexto ya no extraña que la calificación de riesgo crediticio, el cuidado de bebés prematuros, el otorgamiento de seguros y hasta la predicción de embarazos en función de ciertos cambios sutiles en los hábitos de compra, se basen cada día más en los datos masivos y sus curiosas y potenciales correlaciones, ya sea tercerizando su análisis o a cargo de la propia empresa que dispone de ellos. Con el lenguaje didáctico que los caracteriza, Mayer y Cukier acuden a un diálogo del film Moneyball (Bennett Miller, 2011) para mostrar que la revolución de los big data está estrechando los márgenes de las decisiones basadas en el "olfato" o la "intuición". En determinada escena, para juzgar el futuro desempeño de un jugador de béisbol, uno de los personajes deduce "falta de confianza en sí mismo" del hecho de que el jugador tenía una "novia fea".

EL LADO OSCURO

Muchos de los posibles usos de técnicas como la "minería de datos" tranquilizan pero algunos otros inquietan. Ejemplo del primer caso es un software creado por economistas del Massachusetts Institute of Technology (MIT) que utiliza programas de búsqueda de precios en la red para detectar giros del mercado. Su información es algo confusa y no todos los datos son comparables, pero su valor predictivo ha sido demostrado en forma razonable. El proyecto dio lugar a una empresa comercial, PriceStats, que recopila millones de productos vendidos en más de setenta países. Según los autores: "También sirve como comprobación externa creíble de los organismos estadísticos nacionales. Por ejemplo, The Economist desconfía del método que emplea Argentina para calcular la inflación, así que se basa en las cifras de PriceStats para ello".

Un caso ambiguo es el proyecto Street View de Google. Al recopilar fotografías de calles y casas de muchos países, puso en la mira de bandas de ladrones a numerosos propietarios. En Alemania se encontró con una protesta organizada que condujo a que la empresa dejara borrosas las imágenes de las fincas de quienes habían cuestionado el proyecto. El episodio es una buena muestra de lo difícil que es "salirse" del sistema, en el mundo de los big data, sin dejar rastros: las casas excluidas quedaron de hecho marcadas, por el mismo hecho de lucir borrosas, de modo que podría interpretarse como botín atractivo.

Un ejemplo claro del segundo caso, es la investigación realizada por The Washington Post en 2010: la Agencia Nacional de Seguridad de Estados Unidos (NSA) "intercepta y almacena 1.700 millones de correos electrónicos, llamadas telefónicas y otras comunicaciones cada día". Un antiguo agente de la NSA estima unos 20 billones de transacciones entre ciudadanos: emisores y destinatarios de llamadas, mails y transferencias monetarias. Las aplicaciones indebidas o potencialmente amenazadoras de la privacidad y otros derechos individuales por momentos alcanzan una magnitud que condujo a Mayer y Cukier a dedicar un capítulo al tema, titulado precisamente "Riesgos". Es el caso del programa Blue CRUSH (por las siglas en inglés: "Reducción del Crimen Utilizando el Historial Estadístico") que indica a la policía de la ciudad de Memphis (Tennessee) en qué áreas, a qué horas y días de la semana deben reprimir en forma focal. Según Mayer y Cukier, no está claro que la aparente reducción porcentual de ciertos delitos se deba al Blue CRUSH.

Otro caso para incluir en la categoría de lo inquietante (pero previsible): el Departamento de Seguridad Interior (DHS) de los Estados Unidos ha desarrollado el proyecto de investigación FAST. Según sus responsables, los futuros terroristas podrían ser identificados monitoreando su lenguaje corporal y ciertos patrones fisiológicos. Otra apelación al cine popular permite a Mayer y Cukier expresar su preocupación por el posible avasallamiento de las libertades individuales: la escena inicial del juicio preventivo por asesinato en Minority Report (Steven Spielberg, 2002). Claro que en el film son tres mutantes con habilidades precognitivas y no la analítica de datos masivos lo que justifica las acciones preventivas. Muy cautelosos, los autores de Big Data sostienen: "Esto suena aceptable si el objetivo es sencillamente impedir acciones no deseadas, pero se vuelve muy peligroso si usamos predicciones basadas en datos masivos para decidir si una persona es culpable y debe ser castigada por un comportamiento que aún no se ha producido. La mera idea de un castigo basado en las propensiones resulta nauseabunda". En este marco, la algo ingenua declaración del director de FICO (Fair Isaac Corporation, que opera desde 1950 como calificadora de riesgo crediticio) puede sonar siniestra: "Sabemos lo que va a hacer usted mañana".

Las inteligentes reflexiones que pueden encontrarse en Big Data sugieren una ironía ya señalada en su momento por la prensa británica. En un radio de dos cuadras alrededor de la casa donde vivió George Orwell, el autor de la distópica 1984, hoy existen más de treinta cámaras de vigilancia. Si bien sería una candidez pintar un auto usado de color naranja, creyendo que automáticamente se evitarán fallas, el lector extrañará los tiempos en que para opinar sobre alguien la gente miraba a la novia.



Ficha:

BIG DATA. LA REVOLUCIÓN DE LOS DATOS MASIVOS
Viktor Mayer-Schönberger y Kenneth Cukier
Turner
Madrid, 2013
278 páginas



DATOS PUROS Y DUROS

​MOTORES: La llamada analítica predictiva está empezando a usarse ampliamente en los negocios para predecir acontecimientos antes de que se produzcan. Puede ser, por ejemplo, un algoritmo que permita detectar una canción de éxito: muy usado en la industria musical para ofrecerles a los sellos discográficos una idea más precisa de dónde colocar sus apuestas. La técnica se emplea también para prevenir grandes fallos mecánicos o estructurales: colocar sensores en la maquinaria, motores o infraestructuras, como los puentes, permite monitorizar los patrones de datos que emiten, entre ellos el calor, la vibración, la tensión y el sonido, y detectar cambios que quizás indiquen problemas en el futuro. El concepto subyacente es que cuando las cosas se vienen abajo, no suelen hacerlo de golpe, sino gradualmente.

La compañía de transportes UPS lleva usando la analítica predictiva desde finales de la década del 2000 para monitorizar su flotilla de 60.000 vehículos en Estados Unidos, y así saber cuándo debe llevar a cabo un mantenimiento preventivo. Téngase en cuenta que la analítica predictiva no explica la causa de un problema; tan solo indica que existe. Te alertará cuando un motor se recaliente, pero no podrá decirte si se debe a una correa de ventilador deshilachada o a un casquete mal atornillado. Las correlaciones muestran el qué, no el por qué; pero, como ya se ha visto, a menudo con saber qué resulta suficiente. (Big Data, pág. 79).

BLOGUEROS: Bradford Cross personifica lo que supone tener una mente de datos masivos. Su start up Prismatic agrega y clasifica contenidos recogidos por toda la red basándose en el análisis textual, las preferencias del usuario, la popularidad en las redes sociales y la analítica de los datos masivos. Lo curioso es que el sistema no establece gran diferencia entre una publicación en el blog de un adolescente, una web de empresa y un artículo en The Washington Post: si el contenido es juzgado relevante y popular (en términos de cuántas veces se ve y cuántas se comparte), aparece en la parte de arriba de la pantalla. Como servicio, Prismatic supone un reconocimiento de la forma en que interactúa con los medios la generación más joven. Para ellos, la fuente de información ha perdido su importancia primordial. Esto supone un humilde aviso a los popes de los medios de comunicación generalistas de que el público en conjunto es más entendido que ellos, y que los periodistas con traje de chaqueta tienen que competir con los blogueros. (Big Data, pág. 162-164).