Apache Solr: en Hadoop

Solr se puede utilizar junto con Hadoop. Como Hadoop maneja una gran cantidad de datos, Solr nos ayuda a encontrar la información requerida de una fuente tan grande. En esta sección, comprendamos cómo puede instalar Hadoop en su sistema.

Descargando Hadoop

A continuación se detallan los pasos a seguir para descargar Hadoop en su sistema.

Step 1- Vaya a la página de inicio de Hadoop. Puede utilizar el enlace: www.hadoop.apache.org/ . Haga clic en el enlaceReleases, como se destaca en la siguiente captura de pantalla.

Te redirigirá a la Apache Hadoop Releases página que contiene enlaces para espejos de archivos fuente y binarios de varias versiones de Hadoop de la siguiente manera:

Step 2 - Seleccione la última versión de Hadoop (en nuestro tutorial, es 2.6.4) y haga clic en su binary link. Lo llevará a una página donde están disponibles espejos para el binario de Hadoop. Haga clic en uno de estos espejos para descargar Hadoop.

Descarga Hadoop desde el símbolo del sistema

Abra la terminal de Linux e inicie sesión como superusuario.

$ su 
password:

Vaya al directorio donde necesita instalar Hadoop y guarde el archivo allí usando el enlace copiado anteriormente, como se muestra en el siguiente bloque de código.

# cd /usr/local 
# wget http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-
2.6.4/hadoop-2.6.4.tar.gz

Después de descargar Hadoop, extráigalo usando los siguientes comandos.

# tar zxvf hadoop-2.6.4.tar.gz  
# mkdir hadoop 
# mv hadoop-2.6.4/* to hadoop/ 
# exit

Instalación de Hadoop

Siga los pasos que se indican a continuación para instalar Hadoop en modo pseudodistribuido.

Paso 1: configurar Hadoop

Puede configurar las variables de entorno de Hadoop agregando los siguientes comandos a ~/.bashrc archivo.

export HADOOP_HOME = /usr/local/hadoop export
HADOOP_MAPRED_HOME = $HADOOP_HOME export
HADOOP_COMMON_HOME = $HADOOP_HOME export 
HADOOP_HDFS_HOME = $HADOOP_HOME export 
YARN_HOME = $HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR = $HADOOP_HOME/lib/native 
export PATH = $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL = $HADOOP_HOME

A continuación, aplique todos los cambios en el sistema en ejecución actual.

$ source ~/.bashrc

Paso 2: Configuración de Hadoop

Puede encontrar todos los archivos de configuración de Hadoop en la ubicación "$ HADOOP_HOME / etc / hadoop". Es necesario realizar cambios en esos archivos de configuración de acuerdo con su infraestructura de Hadoop.

$ cd $HADOOP_HOME/etc/hadoop

Para desarrollar programas Hadoop en Java, debe restablecer las variables de entorno de Java en hadoop-env.sh archivo reemplazando JAVA_HOME valor con la ubicación de Java en su sistema.

export JAVA_HOME = /usr/local/jdk1.7.0_71

La siguiente es la lista de archivos que debe editar para configurar Hadoop:

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

core-site.xml

los core-site.xml El archivo contiene información como el número de puerto utilizado para la instancia de Hadoop, la memoria asignada para el sistema de archivos, el límite de memoria para almacenar los datos y el tamaño de los búferes de lectura / escritura.

Abra core-site.xml y agregue las siguientes propiedades dentro de las etiquetas <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>fs.default.name</name>     
      <value>hdfs://localhost:9000</value>   
   </property> 
</configuration>

hdfs-site.xml

los hdfs-site.xml el archivo contiene información como el valor de los datos de replicación, namenode camino, y datanoderutas de sus sistemas de archivos locales. Significa el lugar donde desea almacenar la infraestructura de Hadoop.

Asumamos los siguientes datos.

dfs.replication (data replication value) = 1  

(In the below given path /hadoop/ is the user name. 
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) 
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode  

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) 
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Abra este archivo y agregue las siguientes propiedades dentro de las etiquetas <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>dfs.replication</name>     
      <value>1</value>   
   </property>  
   
   <property>     
      <name>dfs.name.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>   
   </property>  
   
   <property>     
      <name>dfs.data.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>   
   </property> 
</configuration>

Note - En el archivo anterior, todos los valores de propiedad están definidos por el usuario y puede realizar cambios de acuerdo con su infraestructura de Hadoop.

yarn-site.xml

Este archivo se utiliza para configurar hilo en Hadoop. Abra el archivo yarn-site.xml y agregue las siguientes propiedades entre las etiquetas <configuration>, </configuration> en este archivo.

<configuration> 
   <property>     
      <name>yarn.nodemanager.aux-services</name>     
      <value>mapreduce_shuffle</value>   
   </property> 
</configuration>

mapred-site.xml

Este archivo se utiliza para especificar qué marco MapReduce estamos usando. De forma predeterminada, Hadoop contiene una plantilla de yarn-site.xml. En primer lugar, es necesario copiar el archivo demapred-site,xml.template a mapred-site.xml archivo usando el siguiente comando.

$ cp mapred-site.xml.template mapred-site.xml

Abierto mapred-site.xml y agregue las siguientes propiedades dentro de las etiquetas <configuration>, </configuration>.

<configuration> 
   <property>     
      <name>mapreduce.framework.name</name>     
      <value>yarn</value>   
   </property> 
</configuration>

Verificación de la instalación de Hadoop

Los siguientes pasos se utilizan para verificar la instalación de Hadoop.

Paso 1: Configuración del nodo de nombre

Configure el namenode usando el comando "hdfs namenode –format" de la siguiente manera.

$ cd ~ 
$ hdfs namenode -format

El resultado esperado es el siguiente.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG:   host = localhost/192.168.1.11 
STARTUP_MSG:   args = [-format] STARTUP_MSG:   version = 2.6.4 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 
images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 
************************************************************/

Paso 2: Verificación de Hadoop dfs

El siguiente comando se usa para iniciar Hadoop dfs. La ejecución de este comando iniciará su sistema de archivos Hadoop.

$ start-dfs.sh

La salida esperada es la siguiente:

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

Paso 3: Verificación del guión de hilo

El siguiente comando se utiliza para iniciar el script de Yarn. La ejecución de este comando iniciará sus demonios Yarn.

$ start-yarn.sh

La salida esperada de la siguiente manera:

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-hadoop-nodemanager-localhost.out

Paso 4: acceder a Hadoop en el navegador

El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente URL para obtener los servicios de Hadoop en el navegador.

http://localhost:50070/

Instalación de Solr en Hadoop

Siga los pasos que se indican a continuación para descargar e instalar Solr.

Paso 1

Abra la página de inicio de Apache Solr haciendo clic en el siguiente enlace: https://lucene.apache.org/solr/

Paso 2

Haga clic en el download button(resaltado en la captura de pantalla anterior). Al hacer clic, será redirigido a la página donde tiene varios espejos de Apache Solr. Seleccione un espejo y haga clic en él, que lo redireccionará a una página donde puede descargar los archivos fuente y binarios de Apache Solr, como se muestra en la siguiente captura de pantalla.

Paso 3

Al hacer clic, una carpeta llamada Solr-6.2.0.tqzse descargará en la carpeta de descargas de su sistema. Extrae el contenido de la carpeta descargada.

Paso 4

Cree una carpeta llamada Solr en el directorio de inicio de Hadoop y mueva el contenido de la carpeta extraída a ella, como se muestra a continuación.

$ mkdir Solr 
$ cd Downloads 
$ mv Solr-6.2.0 /home/Hadoop/

Verificación

Navegar por el bin carpeta del directorio de inicio de Solr y verifique la instalación utilizando el version opción, como se muestra en el siguiente bloque de código.

$ cd bin/ 
$ ./Solr version 
6.2.0

Estableciendo hogar y camino

Abre el .bashrc archivo usando el siguiente comando -

[[email protected] ~]$ source ~/.bashrc

Ahora configure los directorios de inicio y ruta para Apache Solr de la siguiente manera:

export SOLR_HOME = /home/Hadoop/Solr  
export PATH = $PATH:/$SOLR_HOME/bin/

Abra la terminal y ejecute el siguiente comando:

[[email protected] Solr]$ source ~/.bashrc

Ahora, puede ejecutar los comandos de Solr desde cualquier directorio.