org official library gratis descargar descarga common hadoop mapreduce hdfs yarn hadoop2

official - Hadoop namenode: punto único de falla



hadoop official (4)

La alta disponibilidad de Namenode se introdujo con la versión Hadoop 2.x.

Se puede lograr en dos modos: con NFS y con QJM

Pero la alta disponibilidad con Quorum Journal Manager (QJM ) es la opción preferida.

En un clúster HA típico, dos máquinas separadas se configuran como NameNodes. En cualquier punto en el tiempo, exactamente uno de los NameNodes está en estado Activo, y el otro está en estado de Espera. Active NameNode es responsable de todas las operaciones del cliente en el clúster, mientras que el modo de espera simplemente actúa como esclavo, manteniendo el estado suficiente para proporcionar una conmutación por error rápida si es necesario.

Eche un vistazo a las siguientes preguntas de SE, que explican el proceso completo de failover.

Uso secundario de NameNode y alta disponibilidad en Hadoop 2.x

¿Cómo funciona el proceso de conmutación por error de Hadoop Namenode?

El Namenode en la arquitectura Hadoop es un punto único de falla.

¿Cómo pueden las personas que tienen grandes clústeres de Hadoop lidiar con este problema?

¿Hay alguna solución aceptada por la industria que haya funcionado bien en donde un Namenode secundario se haga cargo en caso de que falle el primario?


Los grandes clústeres de Hadoop tienen miles de nodos de datos y un nodo de nombre. La probabilidad de falla aumenta linealmente con el recuento de la máquina (todo lo demás es igual). Entonces, si Hadoop no soportaba las fallas de los nodos de datos, no escalaría. Como todavía hay un solo nodo de nombre, el Punto de falla único (SPOF) está ahí, pero la probabilidad de falla aún es baja.

Es triste, la respuesta de Bkkbrad acerca de que Facebook está agregando capacidad de failover al nodo de nombre está en lo cierto.


Namenode en hadoop ya no es un SPOF. mira here para más.


Yahoo tiene ciertas recomendaciones para la configuración de diferentes tamaños de clúster para tener en cuenta la falla de NameNode. Por ejemplo:

El único punto de falla en un clúster Hadoop es NameNode. Si bien la pérdida de cualquier otra máquina (de forma intermitente o permanente) no da como resultado la pérdida de datos, la pérdida de NameNode provoca la indisponibilidad del clúster. La pérdida permanente de los datos de NameNode haría que el HDFS del clúster no funcione.

Por lo tanto, se debe seguir otro paso en esta configuración para hacer una copia de seguridad de los metadatos de NameNode

Facebook usa una versión modificada de Hadoop para sus almacenes de datos; tiene algunas optimizaciones que se centran en la confiabilidad de NameNode. Además de los parches disponibles en github, Facebook parece usar AvatarNode específicamente para cambiar rápidamente entre NameNodes primario y secundario. El blog de Dhruba Borthakur contiene muchas otras entradas que ofrecen información adicional sobre NameNode como un único punto de falla.

Editar: Más información sobre las mejoras de Facebook a NameNode .