MapReduce - Administración de Hadoop

Este capítulo explica la administración de Hadoop, que incluye la administración de HDFS y MapReduce.

  • La administración de HDFS incluye la supervisión de la estructura de archivos HDFS, las ubicaciones y los archivos actualizados.

  • La administración de MapReduce incluye monitorear la lista de aplicaciones, configuración de nodos, estado de la aplicación, etc.

Monitoreo HDFS

HDFS (Hadoop Distributed File System) contiene los directorios de usuario, archivos de entrada y archivos de salida. Utilice los comandos MapReduce,put y get, para almacenar y recuperar.

Después de iniciar el framework Hadoop (demonios) pasando el comando “start-all.sh” en “/ $ HADOOP_HOME / sbin”, pase la siguiente URL al navegador “http: // localhost: 50070”. Debería ver la siguiente pantalla en su navegador.

La siguiente captura de pantalla muestra cómo explorar el HDFS de exploración.

La siguiente captura de pantalla muestra la estructura de archivos de HDFS. Muestra los archivos en el directorio “/ user / hadoop”.

La siguiente captura de pantalla muestra la información de Datanode en un clúster. Aquí puede encontrar un nodo con sus configuraciones y capacidades.

Monitoreo de trabajos de MapReduce

Una aplicación MapReduce es una colección de trabajos (Trabajo de mapa, Combinador, Particionador y Trabajo de reducción). Es obligatorio monitorear y mantener lo siguiente:

  • Configuración del nodo de datos donde la aplicación sea adecuada.
  • El número de nodos de datos y recursos utilizados por aplicación.

Para monitorear todas estas cosas, es imperativo que tengamos una interfaz de usuario. Después de iniciar el framework Hadoop pasando el comando “start-all.sh” en “/ $ HADOOP_HOME / sbin”, pase la siguiente URL al navegador “http: // localhost: 8080”. Debería ver la siguiente pantalla en su navegador.

En la captura de pantalla anterior, el puntero de la mano está en el ID de la aplicación. Simplemente haga clic en él para encontrar la siguiente pantalla en su navegador. Describe lo siguiente:

  • En qué usuario se está ejecutando la aplicación actual

  • El nombre de la aplicación

  • Tipo de esa aplicación

  • Estado actual, estado final

  • Tiempo de inicio de la aplicación, transcurrido (tiempo de finalización), si está completo en el momento del seguimiento

  • El historial de esta aplicación, es decir, información de registro

  • Y finalmente, la información del nodo, es decir, los nodos que participaron en la ejecución de la aplicación.

La siguiente captura de pantalla muestra los detalles de una aplicación en particular:

La siguiente captura de pantalla describe la información de los nodos que se están ejecutando actualmente. Aquí, la captura de pantalla contiene solo un nodo. Un puntero de mano muestra la dirección localhost del nodo en ejecución.