tutorial spark pig español descargar hadoop apache-pig

hadoop - spark - apache sqoop



Error de conexión en Apache Pig (4)

Creo que este problema está relacionado con el problema de configuración de hadoop mapred-site. History Server se ejecuta de forma predeterminada en localhost, por lo que debe agregar su host configurado.

<property> <name>mapreduce.jobhistory.address</name> <value>host:port</value> </property>

entonces dispara este comando -

mr-jobhistory-daemon.sh start historyserver

Estoy ejecutando Apache Pig .11.1 con Hadoop 2.0.5.

Los trabajos más simples que ejecuto en Pig funcionan perfectamente bien.

Sin embargo, siempre que trato de usar GROUP BY en un conjunto de datos grande, o el operador LIMIT, obtengo estos errores de conexión:

2013-07-29 13:24:08,591 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 013-07-29 11:57:29,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS) 2013-07-29 11:57:30,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS) 2013-07-29 11:57:31,422 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS) ... 2013-07-29 13:24:18,597 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS) 2013-07-29 13:24:18,598 [main] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:gpadmin (auth:SIMPLE) cause:java.io.IOException

Lo extraño es que después de que estos errores continúen apareciendo durante aproximadamente 2 minutos, se detendrán y la salida correcta se mostrará en la parte inferior.

Así que Hadoop está funcionando bien y está calculando la salida adecuada. El problema son solo estos errores de conexión que siguen apareciendo.

El operador LIMIT siempre recibe este error. Ocurre tanto en el modo MapReduce como en el modo local. El operador GROUP BY funcionará bien en pequeños conjuntos de datos.

Una cosa que he notado es que cada vez que aparece este error, el trabajo ha creado y ejecutado múltiples archivos JAR durante el trabajo. Sin embargo, después de unos minutos de aparecer estos mensajes, finalmente aparece la salida correcta.

¿Alguna sugerencia sobre cómo deshacerse de estos mensajes?


Estoy usando Hadoop 2.2.0. Este problema se debió a que el servidor de historial no se estaba ejecutando. Tuve que iniciar el servidor de historial. Usé el siguiente comando para iniciar el servidor de historial:

[root @ localhost ~] $ /usr/lib/hadoop-2.2.0/sbin/mr-jobhistory-daemon.sh start historyserver


Estoy usando Hadoop 2.6.0, así que tuve que hacer

$ mr-jobhistory-daemon.sh --config /usr/local/hadoop/etc start historyserver

donde, / usr / local / hadoop / etc es mi HADOOP_CONF_DIR.


Sí, el problema era que el servidor de historial de trabajo no se estaba ejecutando.

Todo lo que tuvimos que hacer para solucionar este problema fue ingresar este comando en el símbolo del sistema:

mr-jobhistory-daemon.sh start historyserver

Este comando inicia el servidor de historial de trabajo. Ahora, si ingresamos ''jps'', podemos ver que JobHistoryServer se está ejecutando y mis trabajos de Pig ya no pierden tiempo al intentar conectarse al servidor.