hadoop - for - hdfs
Diferencia entre la arquitectura Hadoop típica y la arquitectura MapR (3)
Sé que Hadoop
se basa en la arquitectura Maestro / Esclavo
HDFS
funciona con NameNodes
y DataNodes
y MapReduce
funciona con jobtrackers
y Tasktrackers
Pero no puedo encontrar todos estos servicios en MapR
, descubro que tiene su propia arquitectura con sus propios servicios
Estoy un poco confundido, ¿podría alguien decirme cuál es la diferencia entre usar Hadoop solo y usarlo con MapR!
MapR y apache Hadoop NO tienen la misma arquitectura en el nivel de almacenamiento. MapR usa su propio sistema de archivos MaRFS que es completamente diferente de HDFS en términos de concepto e implementación. puede encontrar una comparación más detallada aquí: https://www.mapr.com/blog/comparing-mapr-fs-and-hdfs-nfs-and-snapshots#.VfGwwxG6eUk https://www.mapr.com/resources/ videos / comparison-mapr-fs-and-hdfs
Mapr usa la mayoría de las distribuciones de bigdata de Apache como su línea base. Mapr es un proveedor de distribución de hadoop (y pilas de tecnología bigdata) con ciertos complementos y soporte técnico para su cliente.
Subraye que el mapr está completamente en la misma arquitectura que apache hadoop, incluida toda la distribución de la biblioteca central. Sin embargo, la distribución de mapr se parece más a un paquete de tecnología de bigdata completo y compatible.
El principal beneficio de mapr es que su distribución de varias tecnologías como colmena, hbase, chispa, etc. serán compatibles con hadoop central y entre ellas. Esto es particularmente importante porque las tecnologías bigdata están evolucionando a un ritmo diferente y, por lo tanto, los comunicados de prensa se vuelven incompatibles muy pronto.
Por lo tanto, los proveedores como mapr, cloudera, etc. están proporcionando su versión de la distribución y soporte de hadoop de modo que los usuarios finales puedan concentrarse en la creación de productos sin preocuparse por los problemas de compatibilidad. Pero casi todos ellos están usando la distribución de Apache debajo de la alfombra.
En el futuro, podrían surgir ciertas variaciones y características adicionales en un intento de evitar que el cliente cambie a otros proveedores, pero hasta ahora no es el caso.
YARN
arquitectura más reciente de Hadoop 2.x
ya que se ha introducido YARN
(otro negociador de recursos) y High Availability
en la versión 2.x.
El rastreador de tareas y el rastreador de tareas se reemplazan con el Administrador de recursos, el Administrador de nodos y el Administrador de aplicaciones .
Hilado de Hadoop 2.x y alta disponibilidad
Para la arquitectura MapR
, consulte el artículo MapR
Para comparar entre diferentes distribuidores, consulte esta imagen
La comparación detallada está disponible en el artículo Data-Magnum de Bill Vorhies