Hadoop: descripción general de Big Data

"El 90% de los datos del mundo se generó en los últimos años".

Debido al advenimiento de nuevas tecnologías, dispositivos y medios de comunicación como los sitios de redes sociales, la cantidad de datos producidos por la humanidad crece rápidamente cada año. La cantidad de datos producidos por nosotros desde el principio de los tiempos hasta 2003 fue de 5 mil millones de gigabytes. Si acumula los datos en forma de discos, es posible que llene todo un campo de fútbol. Se creó la misma cantidad cada dos días en2011, y cada diez minutos en 2013. Esta tasa sigue creciendo enormemente. Aunque toda esta información producida es significativa y puede ser útil cuando se procesa, se está descuidando.

¿Qué es Big Data?

Big dataes una colección de grandes conjuntos de datos que no se pueden procesar mediante técnicas informáticas tradicionales. No es una técnica única o una herramienta, sino que se ha convertido en un tema completo, que involucra diversas herramientas, técnicas y marcos.

¿Qué viene bajo Big Data?

Big data involucra los datos producidos por diferentes dispositivos y aplicaciones. A continuación se presentan algunos de los campos que se encuentran bajo el paraguas de Big Data.

  • Black Box Data - Es un componente de helicópteros, aviones y jets, etc. Captura voces de la tripulación de vuelo, grabaciones de micrófonos y auriculares, y la información de desempeño de la aeronave.

  • Social Media Data - Las redes sociales como Facebook y Twitter contienen información y las opiniones publicadas por millones de personas en todo el mundo.

  • Stock Exchange Data - Los datos de la bolsa de valores contienen información sobre las decisiones de "compra" y "venta" tomadas por los clientes sobre una acción de diferentes empresas.

  • Power Grid Data - Los datos de la red eléctrica contienen información consumida por un nodo particular con respecto a una estación base.

  • Transport Data - Los datos de transporte incluyen modelo, capacidad, distancia y disponibilidad de un vehículo.

  • Search Engine Data - Los motores de búsqueda recuperan gran cantidad de datos de diferentes bases de datos.

Por lo tanto, Big Data incluye un gran volumen, alta velocidad y variedad extensible de datos. Los datos que contiene serán de tres tipos.

  • Structured data - Datos relacionales.

  • Semi Structured data - Datos XML.

  • Unstructured data - Word, PDF, texto, registros de medios.

Beneficios de Big Data

  • Con la información almacenada en la red social como Facebook, las agencias de marketing están conociendo la respuesta de sus campañas, promociones y otros medios publicitarios.

  • Usando la información en las redes sociales como las preferencias y la percepción del producto de sus consumidores, las empresas de productos y las organizaciones minoristas están planificando su producción.

  • Utilizando los datos sobre el historial médico previo de los pacientes, los hospitales están proporcionando un mejor y más rápido servicio.

Tecnologías de Big Data

Las tecnologías de big data son importantes para proporcionar un análisis más preciso, lo que puede conducir a una toma de decisiones más concreta que resulte en una mayor eficiencia operativa, reducciones de costos y menores riesgos para el negocio.

Para aprovechar el poder del big data, necesitaría una infraestructura que pueda administrar y procesar grandes volúmenes de datos estructurados y no estructurados en tiempo real y que pueda proteger la privacidad y seguridad de los datos.

Existen varias tecnologías en el mercado de diferentes proveedores, incluidos Amazon, IBM, Microsoft, etc., para manejar big data. Mientras examinamos las tecnologías que manejan big data, examinamos las siguientes dos clases de tecnología:

Big Data operativo

Esto incluye sistemas como MongoDB que brindan capacidades operativas para cargas de trabajo interactivas en tiempo real donde los datos se capturan y almacenan principalmente.

Los sistemas de Big Data NoSQL están diseñados para aprovechar las nuevas arquitecturas de computación en la nube que han surgido durante la última década para permitir que los cálculos masivos se ejecuten de manera económica y eficiente. Esto hace que las cargas de trabajo de big data operativas sean mucho más fáciles de administrar, más económicas y más rápidas de implementar.

Algunos sistemas NoSQL pueden proporcionar información sobre patrones y tendencias basados ​​en datos en tiempo real con una codificación mínima y sin la necesidad de científicos de datos e infraestructura adicional.

Big Data analítico

Estos incluyen sistemas como los sistemas de base de datos de procesamiento masivo paralelo (MPP) y MapReduce que brindan capacidades analíticas para análisis retrospectivos y complejos que pueden tocar la mayoría o todos los datos.

MapReduce proporciona un nuevo método de análisis de datos que es complementario a las capacidades proporcionadas por SQL, y un sistema basado en MapReduce que se puede escalar desde servidores únicos a miles de máquinas de gama alta y baja.

Estas dos clases de tecnología son complementarias y con frecuencia se implementan juntas.

Sistemas operacionales vs analíticos

Operacional Analítico
Latencia 1 ms - 100 ms 1 min - 100 min
Concurrencia 1000 - 100.000 1 - 10
Patrón de acceso Escribe y lee Lee
Consultas Selectivo No selectivo
Alcance de los datos Operacional Retrospectivo
Usuario final Cliente Científico de datos
Tecnología NoSQL MapReduce, base de datos MPP

Desafíos de Big Data

Los principales desafíos asociados con big data son los siguientes:

  • Captura de datos
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

Para cumplir con los desafíos anteriores, las organizaciones normalmente necesitan la ayuda de servidores empresariales.