tutorial spark example español python apache-spark hadoop pyspark yarn

python - example - pyspark tutorial español



¿Cómo desactivar el registro INFO en Spark? (11)

Instalé Spark usando la guía AWS EC2 y puedo iniciar el programa fino usando el script bin/pyspark para llegar al prompt de chispa y también puedo hacer el Quick Start quide exitosamente.

Sin embargo, no puedo entender cómo detener todo el registro INFO detallado después de cada comando.

He intentado casi todos los escenarios posibles en el siguiente código (comentando, estableciendo en OFF) dentro de mi archivo log4j.properties en la carpeta conf donde inicio la aplicación, así como en cada nodo, y nada hace nada. Todavía obtengo la impresión de las instrucciones INFO después de ejecutar cada declaración.

Estoy muy confundido con cómo se supone que funciona.

#Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

Aquí está mi classpath completo cuando uso SPARK_PRINT_LAUNCH_COMMAND :

Comando Spark: /Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp: /root/spark-1.0.1-bin-hadoop2/conf: /root/spark-1.0.1 -bin-hadoop2 / conf: /root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar: /root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX: MaxPermSize = 128m -Djava.library.path = -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark. repl.Main

contenidos de spark-env.sh :

#!/usr/bin/env bash # This file is sourced when running various Spark programs. # Copy it as spark-env.sh and edit that to configure Spark for your site. # Options read when launching programs locally with # ./bin/run-example or ./bin/spark-submit # - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files # - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node # - SPARK_PUBLIC_DNS, to set the public dns name of the driver program # - SPARK_CLASSPATH=/root/spark-1.0.1-bin-hadoop2/conf/ # Options read by executors and drivers running inside the cluster # - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node # - SPARK_PUBLIC_DNS, to set the public DNS name of the driver program # - SPARK_CLASSPATH, default classpath entries to append # - SPARK_LOCAL_DIRS, storage directories to use on this node for shuffle and RDD data # - MESOS_NATIVE_LIBRARY, to point to your libmesos.so if you use Mesos # Options read in YARN client mode # - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files # - SPARK_EXECUTOR_INSTANCES, Number of workers to start (Default: 2) # - SPARK_EXECUTOR_CORES, Number of cores for the workers (Default: 1). # - SPARK_EXECUTOR_MEMORY, Memory per Worker (e.g. 1000M, 2G) (Default: 1G) # - SPARK_DRIVER_MEMORY, Memory for Master (e.g. 1000M, 2G) (Default: 512 Mb) # - SPARK_YARN_APP_NAME, The name of your application (Default: Spark) # - SPARK_YARN_QUEUE, The hadoop queue to use for allocation requests (Default: ‘default’) # - SPARK_YARN_DIST_FILES, Comma separated list of files to be distributed with the job. # - SPARK_YARN_DIST_ARCHIVES, Comma separated list of archives to be distributed with the job. # Options for the daemons used in the standalone deploy mode: # - SPARK_MASTER_IP, to bind the master to a different IP address or hostname # - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports for the master # - SPARK_MASTER_OPTS, to set config properties only for the master (e.g. "-Dx=y") # - SPARK_WORKER_CORES, to set the number of cores to use on this machine # - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g) # - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT, to use non-default ports for the worker # - SPARK_WORKER_INSTANCES, to set the number of worker processes per node # - SPARK_WORKER_DIR, to set the working directory of worker processes # - SPARK_WORKER_OPTS, to set config properties only for the worker (e.g. "-Dx=y") # - SPARK_HISTORY_OPTS, to set config properties only for the history server (e.g. "-Dx=y") # - SPARK_DAEMON_JAVA_OPTS, to set config properties for all daemons (e.g. "-Dx=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"


Edite su archivo conf / log4j.properties y cambie la siguiente línea:

log4j.rootCategory=INFO, console

a

log4j.rootCategory=ERROR, console

Otro enfoque sería:

Fireup spark-shell y escriba lo siguiente:

import org.apache.log4j.Logger import org.apache.log4j.Level Logger.getLogger("org").setLevel(Level.OFF) Logger.getLogger("akka").setLevel(Level.OFF)

No verá ningún registro después de eso.


En Spark 2.0 también puede configurarlo dinámicamente para su aplicación usando docs :

from pyspark.sql import SparkSession spark = SparkSession.builder./ master(''local'')./ appName(''foo'')./ getOrCreate() spark.sparkContext.setLogLevel(''WARN'')

En la consola de pyspark , una sesión de spark predeterminada ya estará disponible.


Esto puede deberse a cómo Spark calcula su classpath. Mi corazonada es que el archivo log4j.properties de Hadoop aparece por delante de Spark''s en la ruta de clases, lo que impide que los cambios surtan efecto.

Si tu corres

SPARK_PRINT_LAUNCH_COMMAND=1 bin/spark-shell

entonces Spark imprimirá el classpath completo usado para lanzar el shell; en mi caso, veo

Spark Command: /usr/lib/jvm/java/bin/java -cp :::/root/ephemeral-hdfs/conf:/root/spark/conf:/root/spark/lib/spark-assembly-1.0.0-hadoop1.0.4.jar:/root/spark/lib/datanucleus-api-jdo-3.2.1.jar:/root/spark/lib/datanucleus-core-3.2.2.jar:/root/spark/lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize=128m -Djava.library.path=:/root/ephemeral-hdfs/lib/native/ -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark.repl.Main

donde /root/ephemeral-hdfs/conf está a la cabeza del classpath.

Abrí un problema [SPARK-2913] para arreglar esto en la próxima versión (debería tener un parche pronto).

Mientras tanto, aquí hay un par de soluciones:

  • Agregue la export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf" a spark-env.sh .
  • Eliminar (o renombrar) /root/ephemeral-hdfs/conf/log4j.properties .

Inspirado por el pyspark / tests.py lo hice

def quiet_logs( sc ): logger = sc._jvm.org.apache.log4j logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR ) logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )

Llamar a esto justo después de crear SparkContext redujo las líneas stderr registradas para mi prueba de 2647 a 163. Sin embargo, al crear el SparkContext se registran 163, hasta

15/08/25 10:14:16 INFO SparkDeploySchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0

y no me queda claro cómo ajustarlos programáticamente.


La forma en que lo hago es:

en la ubicación donde ejecuto el script spark-submit hacer

$ cp /etc/spark/conf/log4j.properties . $ nano log4j.properties

cambie INFO al nivel de registro que desee y luego ejecute su spark-submit


Lo usé con Amazon EC2 con 1 maestro y 2 esclavos y Spark 1.2.1.

# Step 1. Change config file on the master node nano /root/ephemeral-hdfs/conf/log4j.properties # Before hadoop.root.logger=INFO,console # After hadoop.root.logger=WARN,console # Step 2. Replicate this change to slaves ~/spark-ec2/copy-dir /root/ephemeral-hdfs/conf/


Si desea seguir usando el registro (recurso de registro para Python), puede intentar dividir configuraciones para su aplicación y para Spark:

LoggerManager() logger = logging.getLogger(__name__) loggerSpark = logging.getLogger(''py4j'') loggerSpark.setLevel(''WARNING'')


Simplemente ejecute este comando en el directorio de chispa:

cp conf/log4j.properties.template conf/log4j.properties

Editar log4j.properties:

# Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

Reemplazar en la primera línea:

log4j.rootCategory=INFO, console

por:

log4j.rootCategory=WARN, console

Guarde y reinicie su caparazón. Funciona para mí para Spark 1.1.0 y Spark 1.5.1 en OS X.


Spark 1.6.2:

log4j = sc._jvm.org.apache.log4j log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)

Spark 2.x:

spark.sparkContext.setLogLevel(''WARN'')

(chispa es la SparkSession)

Alternativamente, los métodos antiguos,

Cambie el nombre de conf/log4j.properties.template a conf/log4j.properties en Spark Dir.

En log4j.properties , cambie log4j.rootCategory=INFO, console a log4j.rootCategory=WARN, console

Diferentes niveles de registro disponibles:

  • OFF (más específico, sin registro)
  • FATAL (datos más específicos, pequeños)
  • ERROR: registro solo en caso de errores
  • ADVERTENCIA: regístrese solo en caso de advertencias o errores
  • INFO (predeterminado)
  • DEPURACIÓN: pasos de detalles de registro (y todos los registros indicados anteriormente)
  • RASTREO (menos específico, muchos datos)
  • TODO (menos específico, todos los datos)

También puede establecer el nivel de registro en sus scripts con sc.setLogLevel("FATAL") . De los docs :

Controla nuestro logLevel. Esto anula cualquier configuración de registro definida por el usuario. Los niveles de registro válidos incluyen: TODOS, DEPURAR, ERROR, FATAL, INFO, DESACTIVADO, RASTREO, ADVERTENCIA


>>> log4j = sc._jvm.org.apache.log4j >>> log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)