MapReduce - Instalación
MapReduce solo funciona en sistemas operativos con sabor a Linux y viene incorporado con un marco Hadoop. Necesitamos realizar los siguientes pasos para instalar el marco de Hadoop.
Verificación de la instalación de JAVA
Java debe estar instalado en su sistema antes de instalar Hadoop. Utilice el siguiente comando para comprobar si tiene Java instalado en su sistema.
$ java –version
Si Java ya está instalado en su sistema, puede ver la siguiente respuesta:
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
En caso de que no tenga Java instalado en su sistema, siga los pasos que se indican a continuación.
Instalación de Java
Paso 1
Descargue la última versión de Java desde el siguiente enlace: este enlace .
Después de la descarga, puede localizar el archivo. jdk-7u71-linux-x64.tar.gz en su carpeta de Descargas.
Paso 2
Utilice los siguientes comandos para extraer el contenido de jdk-7u71-linux-x64.gz.
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
Paso 3
Para que Java esté disponible para todos los usuarios, debe moverlo a la ubicación “/ usr / local /”. Vaya a la raíz y escriba los siguientes comandos:
$ su
password:
# mv jdk1.7.0_71 /usr/local/java
# exit
Etapa 4
Para configurar las variables PATH y JAVA_HOME, agregue los siguientes comandos al archivo ~ / .bashrc.
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
Aplicar todos los cambios al sistema en ejecución actual.
$ source ~/.bashrc
Paso 5
Utilice los siguientes comandos para configurar alternativas de Java:
# alternatives --install /usr/bin/java java usr/local/java/bin/java 2
# alternatives --install /usr/bin/javac javac usr/local/java/bin/javac 2
# alternatives --install /usr/bin/jar jar usr/local/java/bin/jar 2
# alternatives --set java usr/local/java/bin/java
# alternatives --set javac usr/local/java/bin/javac
# alternatives --set jar usr/local/java/bin/jar
Ahora verifique la instalación usando el comando java -version desde la terminal.
Verificación de la instalación de Hadoop
Hadoop debe estar instalado en su sistema antes de instalar MapReduce. Verifiquemos la instalación de Hadoop usando el siguiente comando:
$ hadoop version
Si Hadoop ya está instalado en su sistema, obtendrá la siguiente respuesta:
Hadoop 2.4.1
--
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum 79e53ce7994d1628b240f09af91e1af4
Si Hadoop no está instalado en su sistema, continúe con los siguientes pasos.
Descargando Hadoop
Descargue Hadoop 2.4.1 de Apache Software Foundation y extraiga su contenido usando los siguientes comandos.
$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
Instalación de Hadoop en modo pseudodistribuido
Los siguientes pasos se utilizan para instalar Hadoop 2.4.1 en modo pseudodistribuido.
Paso 1: configurar Hadoop
Puede configurar las variables de entorno de Hadoop agregando los siguientes comandos al archivo ~ / .bashrc.
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Aplicar todos los cambios al sistema en ejecución actual.
$ source ~/.bashrc
Paso 2: configuración de Hadoop
Puede encontrar todos los archivos de configuración de Hadoop en la ubicación "$ HADOOP_HOME / etc / hadoop". Debe realizar los cambios adecuados en esos archivos de configuración de acuerdo con su infraestructura de Hadoop.
$ cd $HADOOP_HOME/etc/hadoop
Para desarrollar programas Hadoop utilizando Java, debe restablecer las variables de entorno de Java en hadoop-env.sh archivo reemplazando el valor JAVA_HOME con la ubicación de Java en su sistema.
export JAVA_HOME=/usr/local/java
Tienes que editar los siguientes archivos para configurar Hadoop:
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
core-site.xml
core-site.xml contiene la siguiente información
- Número de puerto utilizado para la instancia de Hadoop
- Memoria asignada para el sistema de archivos
- Límite de memoria para almacenar los datos
- Tamaño de los búferes de lectura / escritura
Abra core-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration> y </configuration>.
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000 </value>
</property>
</configuration>
hdfs-site.xml
hdfs-site.xml contiene la siguiente información:
- Valor de los datos de replicación
- La ruta de namenode
- La ruta del nodo de datos de sus sistemas de archivos locales (el lugar donde desea almacenar la infraestructura de Hadoop)
Asumamos los siguientes datos.
dfs.replication (data replication value) = 1
(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode
(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Abra este archivo y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value>
</property>
</configuration>
Note - En el archivo anterior, todos los valores de propiedad están definidos por el usuario y puede realizar cambios de acuerdo con su infraestructura de Hadoop.
yarn-site.xml
Este archivo se utiliza para configurar hilo en Hadoop. Abra el archivo yarn-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml
Este archivo se usa para especificar el marco MapReduce que estamos usando. De forma predeterminada, Hadoop contiene una plantilla de yarn-site.xml. En primer lugar, debe copiar el archivo de mapred-site.xml.template al archivo mapred-site.xml usando el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml
Abra el archivo mapred-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration>.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Verificación de la instalación de Hadoop
Los siguientes pasos se utilizan para verificar la instalación de Hadoop.
Paso 1: configuración del nodo de nombre
Configure el namenode usando el comando "hdfs namenode -format" de la siguiente manera:
$ cd ~
$ hdfs namenode -format
El resultado esperado es el siguiente:
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to
retain 1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/
Paso 2: verificar Hadoop dfs
Ejecute el siguiente comando para iniciar su sistema de archivos Hadoop.
$ start-dfs.sh
La salida esperada es la siguiente:
10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
Paso 3: verificación del guión de hilo
El siguiente comando se utiliza para iniciar el guión de hilo. La ejecución de este comando iniciará sus demonios de hilo.
$ start-yarn.sh
La salida esperada es la siguiente:
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
Paso 4: acceder a Hadoop en el navegador
El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente URL para obtener los servicios de Hadoop en su navegador.
http://localhost:50070/
La siguiente captura de pantalla muestra el navegador Hadoop.
Paso 5: verificar todas las aplicaciones de un clúster
El número de puerto predeterminado para acceder a todas las aplicaciones de un clúster es 8088. Utilice la siguiente URL para utilizar este servicio.
http://localhost:8088/
La siguiente captura de pantalla muestra un navegador de clúster Hadoop.