what the spark purpose means google example hadoop mapreduce

hadoop - the - reduce in mapreduce means



Los trabajos de MapReduce se atascan en estado Aceptado (7)

Tengo mi propio código de MapReduce que estoy tratando de ejecutar, pero se mantiene en el estado Aceptado. Intenté ejecutar otro trabajo de MR de muestra que había ejecutado anteriormente y que fue exitoso. Pero ahora, ambos trabajos se mantienen en estado Aceptado. Intenté cambiar varias propiedades en mapred-site.xml y yarn-site.xml como se mencionó here y here pero eso tampoco ayudó. ¿Alguien puede indicar por favor qué podría salir mal? Estoy usando hadoop-2.2.0

He probado muchos valores para las distintas propiedades, aquí hay un conjunto de valores: en mapred-site.xml

<property> <name>mapreduce.job.tracker</name> <value>localhost:54311</value> </property> <property> <name>mapreduce.job.tracker.reserved.physicalmemory.mb</name> <value></value> </property> <property> <name>mapreduce.map.memory.mb</name> <value>256</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> <value>256</value> </property> <property> <name>yarn.app.mapreduce.am.resource.mb</name> <value>400</value> <source>mapred-site.xml</source> </property>

En hilo-site.xml

<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>400</value> <source>yarn-site.xml</source> </property> <property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>.3</value> </property>


Agregar la propiedad yarn.resourcemanager.hostname al nombre de host del nodo maestro en yarn-site.xml y copiar este archivo en todos los nodos del clúster para reflejar esta configuración, me ha resuelto el problema.


Estoy usando Hadoop 3.0.1. Me encontré con el mismo problema en el que el trabajo de reducción de mapa enviado se mostraba como atascado en el estado ACEPTADO en la interfaz de usuario web del Administrador de Recursos. También, en la misma interfaz de usuario web del Administrador de Recursos, bajo Métricas de Cluster metrics -> La Memory used fue 0 , Total Memory era 0; Cluster Node Metrics -> Active Nodes eran 0, aunque la interfaz de usuario web de NamedNode enumeró los nodos de datos a la perfección. La lista de nodos de yarn node -list en el clúster no yarn node -list ningún NodeManagers. Descubrí que mis NodeManagers no se estaban ejecutando. Después de iniciar los NodeManagers, los nuevos trabajos de reducción de mapas enviados podrían continuar. No estaban más atascados en el estado ACEPTADO, y llegaron al estado "EN EJECUCIÓN"


He tenido el mismo efecto y he encontrado que hacer que el sistema tenga más memoria disponible por nodo de trabajador y reducir la memoria requerida para una aplicación ayudó.

Los ajustes que tengo (en mis cajas experimentales muy pequeñas) en mi sitio-hilo.xml:

<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2200</value> <description>Amount of physical memory, in MB, that can be allocated for containers.</description> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>500</value> </property>


Me enfrenté al mismo problema. Y cambié todas las configuraciones mencionadas en las respuestas anteriores, pero aún así fue inútil. Después de esto, volví a verificar la salud de mi grupo. Allí, observé que mi único nodo estaba en un estado no saludable. El problema se debió a la falta de espacio en el disco en mi directorio / tmp / hadoop-hadoopUser / nm-local-dir. Se puede verificar lo mismo verificando el estado del estado del nodo en la interfaz de usuario web del administrador de recursos en el puerto 8032. Para resolver esto, agregué la siguiente propiedad en yarn-site.xml.

<property> <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name> <value>98.5</value> </property>

Después de reiniciar mis demonios de hadoop, el estado del nodo cambió a correcto y los trabajos comenzaron a ejecutarse



Tenía el mismo problema, y ​​para mí era un disco duro completo (> 90% lleno) que era el problema. El espacio de limpieza me salvó.


Un trabajo atascado en estado accepted en YARN generalmente se debe a que los recursos gratuitos no son suficientes. Puede comprobarlo en http://resourcemanager:port/cluster/scheduler :

  1. Si se Memory Used + Memory Reserved >= Memory Total , la memoria no es suficiente
  2. Si se VCores Used + VCores Reserved >= VCores Total VCores, VCores no es suficiente

También puede estar limitado por parámetros como maxAMShare .