tutorial spark que findspark examples español python apache-spark

python - que - pyspark wikipedia



¿Cómo instalo pyspark para usar en scripts independientes? (5)

Spark-2.2.0 en adelante usa pip install pyspark para instalar pyspark en tu máquina.

Para versiones anteriores, refiérase a los siguientes pasos. Agregue Pyspark lib en la ruta de Python en el bashrc

export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH

tampoco olvide configurar el SPARK_HOME. PySpark depende del paquete py4j Python. Así que instala eso de la siguiente manera

pip install py4j

Para obtener más información sobre la aplicación independiente PySpark, consulte esta post

Estoy tratando de usar Spark con Python. Instalé Spark 1.0.2 para la distribución binaria de Hadoop 2 desde la página de downloads . Puedo ejecutar los ejemplos de inicio rápido en el modo interactivo de Python, pero ahora me gustaría escribir una secuencia de comandos de Python independiente que use Spark. La documentación de inicio rápido dice que solo importa pyspark , pero esto no funciona porque no está en mi PYTHONPATH.

Puedo ejecutar bin/pyspark y ver que el módulo esté instalado debajo de SPARK_DIR/python/pyspark . Puedo agregar esto manualmente a mi variable de entorno PYTHONPATH, pero me gustaría saber cuál es el método automatizado preferido.

¿Cuál es la mejor manera de agregar el soporte de pyspark para scripts independientes? No veo un setup.py ningún lugar en el directorio de instalación de Spark. ¿Cómo crearía un paquete pip para un script de Python que dependiera de Spark?


A partir de Spark 2.2, PySpark ahora está disponible en PyPI. Gracias @Evan_Zamir.

pip install pyspark

A partir de Spark 2.1, solo necesita descargar Spark y ejecutar setup.py:

cd my-spark-2.1-directory/python/ python setup.py install # or pip install -e .

También hay un ticket para agregarlo a PyPI.


Instalo pyspark para usarlo en forma independiente siguiendo una post . Los pasos son:

export SPARK_HOME="/opt/spark" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH

Entonces necesitas instalar py4j:

pip install py4j

Intentarlo:

./bin/spark-submit --master local[8] <python_file.py>


No export $SPARK_HOME , export SPARK_HOME .


Puede configurar PYTHONPATH manualmente como sugiere, y esto puede serle útil cuando pruebe scripts independientes no interactivos en una instalación local.

Sin embargo, (py) spark se trata de distribuir sus trabajos a nodos en clusters. Cada grupo tiene una configuración que define un administrador y muchos parámetros; los detalles de la configuración están here e incluyen un clúster local simple (esto puede ser útil para probar la funcionalidad).

En producción, enviará tareas a spark mediante spark-submit, que distribuirá su código a los nodos del clúster y establecerá el contexto para que se ejecuten dentro de esos nodos. Sin embargo, debe asegurarse de que las instalaciones de Python en los nodos tengan todas las dependencias requeridas (la forma recomendada) o que las dependencias se transfieran junto con su código (no sé cómo funciona).