Big data: de la escasez a la abundancia

Desde que surgieron las primeras formas de escritura hasta los centros de datos modernos, la raza humana no ha dejado de recopilar información. De acuerdo a la definición que brinda Wikipedia, Big Data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual o convencional para ser capturados, gestionados y procesados en un tiempo razonable. El término «Big Data» se empleó por primera vez en 1997 en un artículo de los investigadores de la NASA Michael Cox y David Ellsworth. Ambos afirmaron que el ritmo de crecimiento de los datos empezaba a ser un problema para los sistemas informáticos actuales. Los tamaños del “Big Data” aumentan constantemente a un ritmo sin precedentes.

Artículo para la edición #214 de Temas Económicos

El Censo de los Estados Unidos del año 1880 tardó ocho años en tabularse, y se calcula que el censo de 1890 hubiera necesitado más de 10 años para procesarse con los métodos disponibles en la época. Si no se hubieran realizado avances en la metodología, la tabulación no habría finalizado antes de que tuviera que realizarse el censo de 1900. La influencia de los datos del censo derivó en la invención de la máquina tabuladora de Hollerith (tarjetas perforadas), que fue capaz de domar esta ingente cantidad de información y permitir realizar el trabajo aproximadamente en un año. Hizo que Hollerith se convirtiera en emprendedor, y su empresa pasó a formar parte de lo que hoy en día conocemos como IBM.

El artículo Critical Questions for Big Data, publicado en Information, Communications, and Society Journal en 2012, define el Big Data como «un fenómeno cultural, tecnológico e intelectual que aparece por la interconexión de los siguientes elementos:

Tecnología: optimización de la capacidad informática y de la precisión de los algoritmos para recopilar, analizar, enlazar y comparar grandes conjuntos de datos.

Análisis: basarse en grandes conjuntos de datos para identificar patrones con el fin de realizar afirmaciones económicas, sociales, técnicas y legales.

Mitología: la creencia popular de que los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimientos que pueden generar datos que anteriormente no eran posibles, con un aura de veracidad, objetividad y exactitud».

Del problema de la escasez de la información, pasamos en muy pocos años, al problema de la abundancia. Big Data no es una tecnología en particular, se trata mas bien de un desafío, que además de un set de soluciones “duras”, entre las que se pueden mencionar a SAP HANA, HADOOP y tantos otros, se requiere de nuevos perfiles profesionales con sofisticadas capacidades analíticas.

@juleniturbe, en su blog, describe al fenómeno de la siguiente manera: “La robotización puso sobre aviso a quienes trabajaban en las cadenas de montaje de las grandes fábricas modernas. Los procesos operativos mejoraban sustituyendo -manos humanas- por -brazos articulados de robots-. Así que el enemigo era evidente: la tecnificación del trabajo en la fábrica. Se nos vendió la moto de que cambiaría el tipo de trabajo. De mono azul con manchas de grasa a batas blancas. De interactuar con la máquina en el campo de batalla del taller a subir las escaleras hasta la oficina técnica para desde allí -programar- las máquinas. Y llegó otra oleada de máquinas. No se trataba ya de mover brazos articulados sino de decidir mejor. Sí, la cuestión era analizar datos, descubrir por qué pasan las cosas, qué correlacionaba con qué. Los humanos de nuevo empezaron a perder la batalla. Era la guerra del pensamiento, la guerra del cerebro. Ahora era la clase trabajadora de cuello blanco la que de repente veía cómo el software alimentado con millones de datos decidía mejor que ella.”

Por el año 2001, Doug Laney, analista de Gartner, publicó un artículo titulado “3D Data Management: Controlling Data Volume, Velocity, and Variety”. A día de hoy, las tres V (Volumen, Velocidad y Variedad) siguen siendo las dimensiones comúnmente aceptadas del Big Data.

Fuentes: