hadoop - En Mapreduce, ¿la replicación también se aplica a los datos intermedios?
map reduce apache hadoop (1)
En Mapreduce, decimos que la salida producida por los mapeadores se llama datos intermedios.
¿Los datos intermedios también se replican?
¿Los datos intermedios son temporales?
¿Cuándo se eliminarán los datos intermedios? ¿Se elimina automáticamente o necesitamos eliminarlo explícitamente?
Los archivos derramados de Mapper se almacenan en el sistema de archivos local del nodo trabajador donde se está ejecutando Mapper. De manera similar, los datos transmitidos desde un nodo a otro nodo se almacenan en el sistema de archivos local del nodo trabajador donde se ejecuta la tarea.
Esta ruta del sistema de archivos local se especifica mediante la propiedad hadoop.tmp.dir
, que de forma predeterminada es ''/ tmp'' .
Después de la finalización o el fracaso del trabajo, la ubicación temporal utilizada en el sistema de archivos local se borra automáticamente, no es necesario que lleve a cabo ningún proceso de limpieza, sino que el marco la gestiona automáticamente.