Hadoop: descripción general de HDFS

Hadoop File System se desarrolló utilizando un diseño de sistema de archivos distribuido. Se ejecuta en hardware básico. A diferencia de otros sistemas distribuidos, HDFS es altamente tolerante a fallas y está diseñado con hardware de bajo costo.

HDFS contiene una gran cantidad de datos y proporciona un acceso más fácil. Para almacenar datos tan grandes, los archivos se almacenan en varias máquinas. Estos archivos se almacenan de manera redundante para rescatar al sistema de posibles pérdidas de datos en caso de falla. HDFS también hace que las aplicaciones estén disponibles para procesamiento paralelo.

Características de HDFS

  • Es adecuado para el almacenamiento y procesamiento distribuidos.
  • Hadoop proporciona una interfaz de comando para interactuar con HDFS.
  • Los servidores integrados de namenode y datanode ayudan a los usuarios a verificar fácilmente el estado del clúster.
  • Transmisión de acceso a los datos del sistema de archivos.
  • HDFS proporciona permisos y autenticación de archivos.

Arquitectura HDFS

A continuación se muestra la arquitectura de un sistema de archivos Hadoop.

HDFS sigue la arquitectura maestro-esclavo y tiene los siguientes elementos.

Namenode

El namenode es el hardware básico que contiene el sistema operativo GNU / Linux y el software namenode. Es un software que se puede ejecutar en hardware básico. El sistema que tiene el nodo de nombre actúa como servidor maestro y realiza las siguientes tareas:

  • Administra el espacio de nombres del sistema de archivos.

  • Regula el acceso del cliente a los archivos.

  • También ejecuta operaciones del sistema de archivos, como cambiar el nombre, cerrar y abrir archivos y directorios.

Datanode

El nodo de datos es un hardware básico que tiene el sistema operativo GNU / Linux y el software de nodo de datos. Para cada nodo (hardware / sistema de productos básicos) en un clúster, habrá un nodo de datos. Estos nodos gestionan el almacenamiento de datos de su sistema.

  • Los nodos de datos realizan operaciones de lectura y escritura en los sistemas de archivos, según la solicitud del cliente.

  • También realizan operaciones como la creación, eliminación y replicación de bloques de acuerdo con las instrucciones del namenode.

Bloquear

Generalmente, los datos del usuario se almacenan en archivos de HDFS. El archivo en un sistema de archivos se dividirá en uno o más segmentos y / o se almacenará en nodos de datos individuales. Estos segmentos de archivo se denominan bloques. En otras palabras, la cantidad mínima de datos que HDFS puede leer o escribir se denomina Bloque. El tamaño de bloque predeterminado es de 64 MB, pero se puede aumentar según la necesidad de cambiar la configuración de HDFS.

Objetivos de HDFS

Fault detection and recovery- Dado que HDFS incluye una gran cantidad de hardware básico, la falla de los componentes es frecuente. Por lo tanto, HDFS debe tener mecanismos para la detección y recuperación de fallas rápida y automática.

Huge datasets - HDFS debe tener cientos de nodos por clúster para administrar las aplicaciones que tienen grandes conjuntos de datos.

Hardware at data- Una tarea solicitada se puede realizar de manera eficiente, cuando el cálculo se realiza cerca de los datos. Especialmente cuando se trata de grandes conjuntos de datos, reduce el tráfico de la red y aumenta el rendimiento.