Apache Spark: instalación

Spark es el subproyecto de Hadoop. Por lo tanto, es mejor instalar Spark en un sistema basado en Linux. Los siguientes pasos muestran cómo instalar Apache Spark.

Paso 1: verificar la instalación de Java

La instalación de Java es una de las cosas obligatorias al instalar Spark. Pruebe el siguiente comando para verificar la versión de JAVA.

$java -version

Si Java ya está instalado en su sistema, verá la siguiente respuesta:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

En caso de que no tenga Java instalado en su sistema, instale Java antes de continuar con el siguiente paso.

Paso 2: verificar la instalación de Scala

Debe utilizar el lenguaje Scala para implementar Spark. Entonces, verifiquemos la instalación de Scala usando el siguiente comando.

$scala -version

Si Scala ya está instalado en su sistema, verá la siguiente respuesta:

Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL

En caso de que no tenga Scala instalado en su sistema, continúe con el siguiente paso para la instalación de Scala.

Paso 3: descarga de Scala

Descargue la última versión de Scala visitando el siguiente enlace Descargar Scala . Para este tutorial, usamos la versión scala-2.11.6. Después de la descarga, encontrará el archivo tar de Scala en la carpeta de descarga.

Paso 4: Instalar Scala

Siga los pasos que se indican a continuación para instalar Scala.

Extraiga el archivo tar de Scala

Escriba el siguiente comando para extraer el archivo tar de Scala.

$ tar xvf scala-2.11.6.tgz

Mover archivos de software Scala

Utilice los siguientes comandos para mover los archivos del software Scala al directorio respectivo (/usr/local/scala).

$ su – 
Password: 
# cd /home/Hadoop/Downloads/ 
# mv scala-2.11.6 /usr/local/scala 
# exit

Establecer PATH para Scala

Utilice el siguiente comando para configurar PATH para Scala.

$ export PATH = $PATH:/usr/local/scala/bin

Verificación de la instalación de Scala

Después de la instalación, es mejor verificarlo. Utilice el siguiente comando para verificar la instalación de Scala.

$scala -version

Si Scala ya está instalado en su sistema, verá la siguiente respuesta:

Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL

Paso 5: descarga de Apache Spark

Descargue la última versión de Spark visitando el siguiente enlace Descargar Spark . Para este tutorial, estamos usandospark-1.3.1-bin-hadoop2.6versión. Después de descargarlo, encontrará el archivo tar de Spark en la carpeta de descarga.

Paso 6: Instalar Spark

Siga los pasos que se indican a continuación para instalar Spark.

Extracción de alquitrán de chispa

El siguiente comando para extraer el archivo tar de Spark.

$ tar xvf spark-1.3.1-bin-hadoop2.6.tgz

Mover archivos de software Spark

Los siguientes comandos para mover los archivos de software Spark al directorio respectivo (/usr/local/spark).

$ su – 
Password:  

# cd /home/Hadoop/Downloads/ 
# mv spark-1.3.1-bin-hadoop2.6 /usr/local/spark 
# exit

Configurar el entorno para Spark

Agregue la siguiente línea a ~/.bashrcarchivo. Significa agregar la ubicación, donde se encuentra el archivo de software Spark a la variable PATH.

export PATH=$PATH:/usr/local/spark/bin

Utilice el siguiente comando para obtener el archivo ~ / .bashrc.

$ source ~/.bashrc

Paso 7: Verificación de la instalación de Spark

Escriba el siguiente comando para abrir Spark shell.

$spark-shell

Si Spark se instaló correctamente, encontrará el siguiente resultado.

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
15/06/04 15:25:22 INFO SecurityManager: Changing view acls to: hadoop 
15/06/04 15:25:22 INFO SecurityManager: Changing modify acls to: hadoop
15/06/04 15:25:22 INFO SecurityManager: SecurityManager: authentication disabled;
   ui acls disabled; users with view permissions: Set(hadoop); users with modify permissions: Set(hadoop) 
15/06/04 15:25:22 INFO HttpServer: Starting HTTP Server 
15/06/04 15:25:23 INFO Utils: Successfully started service 'HTTP class server' on port 43292. 
Welcome to 
      ____              __ 
     / __/__  ___ _____/ /__ 
    _\ \/ _ \/ _ `/ __/  '_/ 
   /___/ .__/\_,_/_/ /_/\_\   version 1.4.0 
      /_/  
		
Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71) 
Type in expressions to have them evaluated. 
Spark context available as sc  
scala>