big-data

¿Qué es Big Data?

Big Data hace referencia al análisis masivo de datos. Una cuantía de datos, tan sumamente grande que las aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un tiempo razonable.

Igualmente, el mismo término se refiere a las nuevas tecnologías que hacen posible el almacenamiento y procesamiento, además de al uso que se hace de la información obtenida a través de dichas tecnologías.

Tenemos tres procesos diferenciados:

1- Almacenamiento y captación de datos

2- Procesamiento para la obtención de indicadores

3- Graficado para facilitar su análisis

¿Qué es un algoritmo en Big Data?

Un algoritmo es básicamente una regla abstracta que permite encontrar y expresar aquello que buscamos (en el mundo del Big Data, generalmente la búsqueda de patrones y relaciones entre variables). Estos algoritmos son desarrollados con el único objetivo de automatizar un camino óptimo que ayude al ser humano a tratar la ingente cantidad de datos que se genera diariamente. De hecho, los algoritmos, junto con el hardware y las redes constituyen los tres pilares sobre los que sustenta la transformación digital de muchas industrias.

Podéis entender el algoritmo como el método o procedimiento informático creado para describir la relación entre los elementos de un conjunto de datos. Es una solución implementada generalmente mediante código de programación.

  • Reglas
  • Procedimientos
  • Métodos

¿De dónde vienen los datos?

La información disponible a nivel mundial han crecido de manera exponencial en los últimos tiempos. Pero… ¿De dónde vienen esos datos?

Hay múltiples fuentes. Destacaremos las siguientes:

– Producidos por personas: Mandar un email, escribir un comentario en Facebook, contestar a una encuesta telefónica, meter información en una hoja de cálculo, responder un WhatsApp, coger los datos de contacto de un cliente, hacer clic en un enlace de Internet… Infinidad de acciones que realizamos en el día a día suponen una fuente de datos inmensa de datos que se almacenan y que pueden ser explotados para obtener información.

– Entre máquinas: Entre máquinas también se comparten datos directamente, en lo que se conoce como M2M, que viene del inglés «machine to machine». Así, los termómetros, parquímetros y sistemas de riego automático de las ciudades, los GPS de vehículos y teléfonos móviles, las máquinas expendedoras de bebidas y alimentos en un hospital, o los contadores de electricidad de las viviendas, por poner unos pocos ejemplos, se comunican a través de dispositivos con otros aparatos, a los que transmiten los datos que van recogiendo. Las redes de comunicación para llevar a cabo estas acciones son muy variadas. Entre las más conocidas están el Wifi, ADSL, la fibra óptica y el Bluetooth.

Son muchas las industrias y los ámbitos en los que se genera una gran cantidad de información, por eso el análisis de los datos se puede aplicar a muy diferentes ciencias, disciplinas y entornos profesionales:

– Biométricas :  Los datos que tienen como origen artefactos como sensores de huellas dactilares, escáneres de retina, lectores de ADN, sensores de reconocimiento facial o reconocimiento de voz. Su uso es muy extendido en materia de seguridad en todas sus variantes (privada, corporativa, militar, policíaca, de servicios de inteligencia, etcétera).

– Marketing web: Nuestros movimientos en la Red están sujetos a todo tipo de mediciones que tienen como objeto estudios de marketing y análisis de comportamiento. Por ejemplo, cuando se realizan mapas de calor basados en el rastreo del movimiento del cursor por parte de los usuarios de una web, en la detección de la posición de la página, o en el seguimiento de desplazamiento vertical a lo largo de esta. Con esos datos se llega a conclusiones tales como qué partes de una página atraen más al usuario, dónde hace clic o en qué zona de esta pasa más tiempo.

-Transacciones de datos: El traspaso de dinero de una cuenta bancaria a otra, la reserva de un billete de avión o añadir un artículo a un carrito de compra virtual de un portal de comercio electrónico, serían algunos ejemplos.

Para que te hagas una idea, y centrándonos únicamente en una pequeñísima porción de los datos producidos por las personas, durante un solo minuto (en 2017, todavía), de promedio y a nivel global, se envían 156 millones de correos electrónicos (187 millones de correos en 2018), se realizan 3 millones y medio de búsquedas en Google, se mandan 16 millones de SMS, se postean 46.200 nuevos contenidos en Instagram, se generan 452.000 tuits…

«V» del Big Data

Sus características se acuñan popularmente como las «V» del Big Data, por comenzar todas estas propiedades por dicha letra del alfabeto. No hay un consenso (mucho menos una normativa) sobre cuántas “V” han de ser tomadas en consideración y de hecho la lista de estas se ha ido ampliando, pero podemos afirmar que las 7 «V» del Big Data más extendidas son:


– Velocidad: nuestro concepto de inmediatez ha cambiado en los últimos tiempos y se busca información que llegue prácticamente al instante. Noticias que no llegan al día de antigüedad, en simple cuestión de horas y, en ocasiones, minutos, pueden haber perdido interés. Así, la velocidad de análisis requerida por la sociedad actual es una de las características fundamentales que tienen los datos a gran escala, donde los datos en constante movimiento procesados a tiempo real cobran protagonismo, ejecutando algoritmos cada vez más complejos en menos tiempo.

– Variedad: los datos sobre los que trabajan las técnicas de macrodatos son diversos pues, como hemos visto, proceden de numerosas fuentes y se encuentran en distintos formatos. Además, continúa en aumento la cuantía de datos no estructurados en proporción a los tradicionales. Igual que pasaba con el volumen, esta entrada en escena con fuerza de los datos no estructurados requiere nuevos tratamientos de la información, necesitando de nuevas metodologías y tecnologías para poder ser analizadas.
-Volumen: como hemos comentado, la cantidad de datos generados está aumentando. Según crecen las bases de datos, también lo han de hacer las aplicaciones y arquitectura construida para soportar la recogida y almacenamiento de datos cada vez más variados. Además, se han reducido los costes de almacenamiento propiciando almacenar grandes cuantías de información a un precio mucho más reducido que antiguamente.

-Veracidad: saber la fiabilidad de la información recogida es importante para obtener unos datos de calidad e, incluso, dependiendo de las aplicaciones que se le vaya a dar a misma, se convierte en fundamental. Es un factor que puede influir mucho en conseguir una ventaja competitiva en la explotación del Big Data.
-Visualización: Convertir cientos de hojas de información en un único gráfico que muestre claramente unas conclusiones predictivas es un ejemplo de cómo mostrar los resultados de forma clara y sencilla en un evidente ejercicio de sintetización.
-Variabilidad: En un entorno tan cambiante como el de los macrodatos, la información varía mucho. Y también han de hacerlo los modelos o tratamientos que se aplican en torno a esta, pues no son fijos en el tiempo y requieren de un control periódico.

Descárgate el contenido de clase sobre Big data y análisis masivo de datos:

Contenido de clase sobre Big Data

Autor: ignacio

Profesor de Sistemas de Gestión de Información

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *