sqlcontext spark saveastable read createdataframe create python install apache-spark

python - saveastable - Instalando PySpark



sqlcontext spark python (3)

¿Cuál es su directorio de trabajo actual? Los sbt/sbt y ./bin/pyspark son relativos al directorio que contiene el código de Spark ( $SPARK_HOME ), por lo que debe estar en ese directorio al ejecutar esos comandos.

Tenga en cuenta que Spark ofrece distribuciones binarias preconstruidas que son compatibles con muchas distribuciones comunes de Hadoop; esta puede ser una opción más fácil si está usando una de esas distribuciones.

Además, parece que se ha vinculado a la documentación de Spark 0.9.0; si está compilando Spark desde cero, le recomiendo seguir la última versión de la documentación .

Intento instalar PySpark y seguir las instrucciones y ejecutar esto desde la línea de comando en el nodo del clúster donde tengo instalado Spark:

$ sbt/sbt assembly

Esto produce el siguiente error:

-bash: sbt/sbt: No such file or directory

Intento el siguiente comando:

$ ./bin/pyspark

Me sale este error:

-bash: ./bin/pyspark: No such file or directory

Siento que me estoy perdiendo algo básico. ¿Lo que falta? Tengo la chispa instalada y puedo acceder a ella usando el comando:

$ spark-shell

Tengo Python en el nodo y puedo abrir Python usando el comando:

$ python


SBT se usa para construir un proyecto de Scala. Si eres nuevo en Scala / SBT / Spark, estás haciendo las cosas de la manera difícil.

La forma más fácil de "instalar" Spark es simplemente descargar Spark (recomiendo Spark 1.6.1 - preferencia personal). A continuación, descomprima el archivo en el directorio en el que desea que Spark esté "instalado", digamos C: / spark-folder (Windows) o / home / usr / local / spark-folder (Ubuntu).

Después de instalarlo en su directorio deseado, necesita establecer sus variables de entorno. Dependiendo de su sistema operativo, esto dependerá; este paso, sin embargo, no es necesario para ejecutar Spark (es decir, pyspark).

Si no configura sus variables de entorno, o no sabe cómo hacerlo, una alternativa es simplemente ir a su directorio en una ventana de terminal, cd C: / spark-folder (Windows) o cd / home / usr / local / spark-folder (Ubuntu) luego escribe

./bin/pyspark

y la chispa debería correr.


export SPARK_HOME=/opt/spark export PATH="$PATH:$SPARK_HOME/bin" export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS=notebook pyspark