hadoop - spark - apache sqoop
Error de conexión en Apache Pig (4)
Creo que este problema está relacionado con el problema de configuración de hadoop mapred-site. History Server se ejecuta de forma predeterminada en localhost, por lo que debe agregar su host configurado.
<property>
<name>mapreduce.jobhistory.address</name>
<value>host:port</value>
</property>
entonces dispara este comando -
mr-jobhistory-daemon.sh start historyserver
Estoy ejecutando Apache Pig .11.1 con Hadoop 2.0.5.
Los trabajos más simples que ejecuto en Pig funcionan perfectamente bien.
Sin embargo, siempre que trato de usar GROUP BY en un conjunto de datos grande, o el operador LIMIT, obtengo estos errores de conexión:
2013-07-29 13:24:08,591 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
013-07-29 11:57:29,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:30,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:31,422 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
...
2013-07-29 13:24:18,597 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 13:24:18,598 [main] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:gpadmin (auth:SIMPLE) cause:java.io.IOException
Lo extraño es que después de que estos errores continúen apareciendo durante aproximadamente 2 minutos, se detendrán y la salida correcta se mostrará en la parte inferior.
Así que Hadoop está funcionando bien y está calculando la salida adecuada. El problema son solo estos errores de conexión que siguen apareciendo.
El operador LIMIT
siempre recibe este error. Ocurre tanto en el modo MapReduce como en el modo local. El operador GROUP BY
funcionará bien en pequeños conjuntos de datos.
Una cosa que he notado es que cada vez que aparece este error, el trabajo ha creado y ejecutado múltiples archivos JAR durante el trabajo. Sin embargo, después de unos minutos de aparecer estos mensajes, finalmente aparece la salida correcta.
¿Alguna sugerencia sobre cómo deshacerse de estos mensajes?
Estoy usando Hadoop 2.2.0. Este problema se debió a que el servidor de historial no se estaba ejecutando. Tuve que iniciar el servidor de historial. Usé el siguiente comando para iniciar el servidor de historial:
[root @ localhost ~] $ /usr/lib/hadoop-2.2.0/sbin/mr-jobhistory-daemon.sh start historyserver
Estoy usando Hadoop 2.6.0, así que tuve que hacer
$ mr-jobhistory-daemon.sh --config /usr/local/hadoop/etc start historyserver
donde, / usr / local / hadoop / etc es mi HADOOP_CONF_DIR.
Sí, el problema era que el servidor de historial de trabajo no se estaba ejecutando.
Todo lo que tuvimos que hacer para solucionar este problema fue ingresar este comando en el símbolo del sistema:
mr-jobhistory-daemon.sh start historyserver
Este comando inicia el servidor de historial de trabajo. Ahora, si ingresamos ''jps'', podemos ver que JobHistoryServer se está ejecutando y mis trabajos de Pig ya no pierden tiempo al intentar conectarse al servidor.