PySpark - Configuración del entorno

En este capítulo, entenderemos la configuración del entorno de PySpark.

Note - Esto es considerando que tiene Java y Scala instalados en su computadora.

Ahora descarguemos y configuremos PySpark con los siguientes pasos.

Step 1- Vaya a la página de descarga oficial de Apache Spark y descargue la última versión de Apache Spark disponible allí. En este tutorial, estamos usandospark-2.1.0-bin-hadoop2.7.

Step 2- Ahora, extraiga el archivo tar de Spark descargado. De forma predeterminada, se descargará en el directorio de Descargas.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Creará un directorio spark-2.1.0-bin-hadoop2.7. Antes de iniciar PySpark, debe configurar los siguientes entornos para configurar la ruta de Spark y laPy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

O, para configurar los entornos anteriores globalmente, colóquelos en el .bashrc file. Luego ejecute el siguiente comando para que los entornos funcionen.

# source .bashrc

Ahora que tenemos todos los entornos configurados, vayamos al directorio Spark e invoquemos el shell PySpark ejecutando el siguiente comando:

# ./bin/pyspark

Esto iniciará su shell PySpark.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<