python - instalar - installation spark windows
¿A qué se debe establecer `SPARK_HOME`? (1)
Se requieren dos variables de entorno:
SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH
Se instaló apache-maven-3.3.3, scala 2.11.6, y luego se ejecutó:
$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package
Finalmente:
$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests
Luego corrió el servidor:
$ bin/zeppelin-daemon.sh start
Al ejecutar un cuaderno simple que comienza con %pyspark
, recibí un error acerca de que no se encontró py4j
. Acabo de hacer pip install py4j
( ref ).
Ahora estoy recibiendo este error:
pyspark is not responding Traceback (most recent call last):
File "/tmp/zeppelin_pyspark.py", line 22, in <module>
from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf
He intentado configurar mi SPARK_HOME
en: /spark/python:/spark/python/lib
. Ningún cambio.