linux - maquina - hdfs

¿Alguien puede dar una explicación simple de alto nivel a un principiante sobre cómo funciona Hadoop? (1)

Hadoop consta de una serie de componentes que son subproyectos del proyecto Apache Hadoop. Dos de los principales son el Sistema de archivos distribuidos Hadoop (HDFS) y el marco MapReduce .

La idea es que puedas conectar en red varias computadoras comunes para crear un clúster. HDFS se ejecuta en el clúster. A medida que agrega datos al clúster, se divide en grandes bloques / bloques (generalmente 64 MB) y se distribuye alrededor del clúster. HDFS permite que los datos se repliquen para permitir la recuperación de fallas de hardware. Casi espera fallas de hardware ya que está diseñado para funcionar con hardware estándar. HDFS se basa en el documento de Google sobre su sistema de archivos distribuidos GFS.

El marco Hadoop MapReduce se ejecuta sobre los datos almacenados en el HDFS. El objetivo de MapReduce es proporcionar una capacidad de procesamiento basada en clave / valor de forma altamente paralela. Debido a que los datos se distribuyen a través del clúster, un trabajo de MapReduce se puede dividir para ejecutar muchos procesos paralelos sobre los datos almacenados en el clúster. Las partes del Mapa de MapReduce solo se ejecutan en los datos que pueden ver, es decir, los bloques de datos en la máquina en particular se ejecuta. The Reduce reúne la salida de los Mapas.

El resultado es un sistema que proporciona una capacidad de procesamiento por lotes altamente paralela. El sistema escala bien, ya que solo necesita agregar más hardware para aumentar su capacidad de almacenamiento o disminuir el tiempo que tarda en ejecutarse un trabajo de MapReduce.

Algunos enlaces:

Sé cómo funciona memcached. ¿Cómo funciona Hadoop?