spark medicina instalar aws amazon-ec2 hadoop cloud hdfs

amazon-ec2 - medicina - instalar hadoop en aws



RecuperaciĆ³n de modo seguro Hadoop: tomar mucho tiempo (1)

Estamos ejecutando nuestro clúster en Amazon EC2. estamos usando los scripts de cloudera para configurar hadoop. En el nodo maestro, comenzamos debajo de los servicios.

609 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode'' 610 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode'' 611 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker'' 612 613 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait''

En la máquina esclava, ejecutamos los servicios a continuación.

625 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode'' 626 $AS_HADOOP ''"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker''

El principal problema al que nos enfrentamos es que la recuperación de hdfs safemode lleva más de una hora y esto está causando retrasos en la finalización de nuestro trabajo.

A continuación se encuentran los principales mensajes de registro.

1. domU-12-31-39-0A-34-61.compute-1.internal 10/05/05 20:44:19 INFO ipc.Client: Retrying connect to server: ec2-184-73-64-64.compute-1.amazonaws.com/10.192.11.240:8020. Already tried 21 time(s). 2. The reported blocks 283634 needs additional 322258 blocks to reach the threshold 0.9990 of total blocks 606499. Safe mode will be turned off automatically.

El primer mensaje se genera en el registro de rastreadores de tareas porque el rastreador de trabajos no se inició. el rastreador de trabajos no se inició debido a la recuperación de safemode de hdfs.

El segundo mensaje se lanza durante el proceso de recuperación.

¿Hay algo que estoy haciendo mal? ¿Cuánto tiempo demora la recuperación normal de hdfs safemode? ¿Habrá alguna aceleración, al no iniciar los rastreadores de tareas hasta que se inicie el rastreador de trabajos? ¿Hay algún problema de hadoop conocido en el clúster de Amazon?

Gracias por tu ayuda.


El tiempo pasado en modo seguro suele ser proporcional al tamaño del clúster. Dicho esto, el tiempo normal es del orden de minutos como máximo, no de horas. Hay algunas cosas para verificar.

  1. Confirme que todos los nodos de datos se estén disparando correctamente. Es normal que los nodos de datos tarden unos segundos o minutos en notificarse una gran cantidad de bloques. Compruebe los registros del nodo de datos para ver qué ocurre durante el inicio.
  2. Asegúrese de tener suficientes hilos de nodo de nombre (dfs.namenode.handler.count en hdfs-site.xml) para poder ocuparse de la cantidad de nodos de datos que desea controlar. El valor predeterminado es 10, lo que debería estar bien para los clusters hasta 20 nodos o menos. Más allá de eso, puede tener sentido aumentar esto. Es posible que vea reintentos en los registros del nodo de datos que indican esto. Esto es lo que los mensajes de reintento parecen indicarme (p. Ej., Volver a intentar 21 veces).

Espero que esto ayude.