MapReduce - Instalación

MapReduce solo funciona en sistemas operativos con sabor a Linux y viene incorporado con un marco Hadoop. Necesitamos realizar los siguientes pasos para instalar el marco de Hadoop.

Verificación de la instalación de JAVA

Java debe estar instalado en su sistema antes de instalar Hadoop. Utilice el siguiente comando para comprobar si tiene Java instalado en su sistema.

$ java –version

Si Java ya está instalado en su sistema, puede ver la siguiente respuesta:

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

En caso de que no tenga Java instalado en su sistema, siga los pasos que se indican a continuación.

Instalación de Java

Paso 1

Descargue la última versión de Java desde el siguiente enlace: este enlace .

Después de la descarga, puede localizar el archivo. jdk-7u71-linux-x64.tar.gz en su carpeta de Descargas.

Paso 2

Utilice los siguientes comandos para extraer el contenido de jdk-7u71-linux-x64.gz.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Paso 3

Para que Java esté disponible para todos los usuarios, debe moverlo a la ubicación “/ usr / local /”. Vaya a la raíz y escriba los siguientes comandos:

$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit

Etapa 4

Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos al archivo ~ / .bashrc.

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

Aplicar todos los cambios al sistema en ejecución actual.

$ source ~/.bashrc

Paso 5

Utilice los siguientes comandos para configurar alternativas de Java:

# alternatives --install /usr/bin/java java usr/local/java/bin/java 2

# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2

# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2

# alternatives --set java usr/local/java/bin/java

# alternatives --set javac usr/local/java/bin/javac

# alternatives --set jar usr/local/java/bin/jar

Ahora verifique la instalación usando el comando java -version desde la terminal.

Verificación de la instalación de Hadoop

Hadoop debe estar instalado en su sistema antes de instalar MapReduce. Verifiquemos la instalación de Hadoop usando el siguiente comando:

$ hadoop version

Si Hadoop ya está instalado en su sistema, obtendrá la siguiente respuesta:

Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop no está instalado en su sistema, continúe con los siguientes pasos.

Descargando Hadoop

Descargue Hadoop 2.4.1 de Apache Software Foundation y extraiga su contenido usando los siguientes comandos.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Instalación de Hadoop en modo pseudodistribuido

Los siguientes pasos se utilizan para instalar Hadoop 2.4.1 en modo pseudodistribuido.

Paso 1: configurar Hadoop

Puede configurar las variables de entorno de Hadoop agregando los siguientes comandos al archivo ~ / .bashrc.

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Aplicar todos los cambios al sistema en ejecución actual.

$ source ~/.bashrc

Paso 2: configuración de Hadoop

Puede encontrar todos los archivos de configuración de Hadoop en la ubicación "$ HADOOP_HOME / etc / hadoop". Debe realizar los cambios adecuados en esos archivos de configuración de acuerdo con su infraestructura de Hadoop.

$ cd $HADOOP_HOME/etc/hadoop

Para desarrollar programas Hadoop utilizando Java, debe restablecer las variables de entorno de Java en hadoop-env.sh archivo reemplazando el valor JAVA_HOME con la ubicación de Java en su sistema.

export JAVA_HOME=/usr/local/java

Tienes que editar los siguientes archivos para configurar Hadoop:

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

core-site.xml

core-site.xml contiene la siguiente información

  • Número de puerto utilizado para la instancia de Hadoop
  • Memoria asignada para el sistema de archivos
  • Límite de memoria para almacenar los datos
  • Tamaño de los búferes de lectura / escritura

Abra core-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration> y </configuration>.

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000 </value>
   </property>
</configuration>

hdfs-site.xml

hdfs-site.xml contiene la siguiente información:

  • Valor de los datos de replicación
  • La ruta de namenode
  • La ruta del nodo de datos de sus sistemas de archivos locales (el lugar donde desea almacenar la infraestructura de Hadoop)

Asumamos los siguientes datos.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Abra este archivo y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.

<configuration>

   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
   
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
   </property>
   
</configuration>

Note - En el archivo anterior, todos los valores de propiedad están definidos por el usuario y puede realizar cambios de acuerdo con su infraestructura de Hadoop.

yarn-site.xml

Este archivo se utiliza para configurar hilo en Hadoop. Abra el archivo yarn-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

Este archivo se usa para especificar el marco MapReduce que estamos usando. De forma predeterminada, Hadoop contiene una plantilla de yarn-site.xml. En primer lugar, debe copiar el archivo de mapred-site.xml.template al archivo mapred-site.xml usando el siguiente comando.

$ cp mapred-site.xml.template mapred-site.xml

Abra el archivo mapred-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Verificación de la instalación de Hadoop

Los siguientes pasos se utilizan para verificar la instalación de Hadoop.

Paso 1: configuración del nodo de nombre

Configure el namenode usando el comando "hdfs namenode -format" de la siguiente manera:

$ cd ~
$ hdfs namenode -format

El resultado esperado es el siguiente:

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

Paso 2: verificar Hadoop dfs

Ejecute el siguiente comando para iniciar su sistema de archivos Hadoop.

$ start-dfs.sh

La salida esperada es la siguiente:

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

Paso 3: verificación del guión de hilo

El siguiente comando se utiliza para iniciar el guión de hilo. La ejecución de este comando iniciará sus demonios de hilo.

$ start-yarn.sh

La salida esperada es la siguiente:

starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Paso 4: acceder a Hadoop en el navegador

El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente URL para obtener los servicios de Hadoop en su navegador.

http://localhost:50070/

La siguiente captura de pantalla muestra el navegador Hadoop.

Paso 5: verificar todas las aplicaciones de un clúster

El número de puerto predeterminado para acceder a todas las aplicaciones de un clúster es 8088. Utilice la siguiente URL para utilizar este servicio.

http://localhost:8088/

La siguiente captura de pantalla muestra un navegador de clúster Hadoop.