Apache Tajo - Opciones de configuración

La configuración de Tajo se basa en el sistema de configuración de Hadoop. Este capítulo explica los ajustes de configuración de Tajo en detalle.

Ajustes básicos

Tajo usa los siguientes dos archivos de configuración:

  • catalog-site.xml: configuración para el servidor de catálogo.
  • tajo-site.xml: configuración para otros módulos de Tajo.

Configuración del modo distribuido

La configuración del modo distribuido se ejecuta en Hadoop Distributed File System (HDFS). Sigamos los pasos para configurar el modo distribuido de Tajo.

tajo-site.xml

Este archivo está disponible @ /path/to/tajo/confdirectorio y actúa como configuración para otros módulos Tajo. Para acceder a Tajo en modo distribuido, aplique los siguientes cambios a“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://hostname:port/tajo</value> 
</property>
  
<property> 
   <name>tajo.master.umbilical-rpc.address</name> 
   <value>hostname:26001</value> 
</property> 
 
<property> 
   <name>tajo.master.client-rpc.address</name> 
   <value>hostname:26002</value> 
</property>
  
<property> 
   <name>tajo.catalog.client-rpc.address</name> 
   <value>hostname:26005</value> 
</property>

Configuración del nodo maestro

Tajo utiliza HDFS como tipo de almacenamiento principal. La configuración es la siguiente y debe agregarse a“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://namenode_hostname:port/path</value> 
</property>

Configuración del catálogo

Si desea personalizar el servicio de catálogo, copie $path/to/Tajo/conf/catalogsite.xml.template a $path/to/Tajo/conf/catalog-site.xml y agregue cualquiera de las siguientes configuraciones según sea necesario.

Por ejemplo, si usa “Hive catalog store” para acceder a Tajo, entonces la configuración debería ser como la siguiente:

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.HCatalogStore</value> 
</property>

Si necesita almacenar MySQL catálogo, luego aplique los siguientes cambios:

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.MySQLStore</value> 
</property> 

<property> 
   <name>tajo.catalog.jdbc.connection.id</name> 
   <value><mysql user name></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.connection.password</name> 
   <value><mysql user password></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.uri</name> 
   <value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
      ?createDatabaseIfNotExist = true</value> 
</property>

Del mismo modo, puede registrar los otros catálogos compatibles con Tajo en el archivo de configuración.

Configuración del trabajador

De forma predeterminada, TajoWorker almacena datos temporales en el sistema de archivos local. Se define en el archivo "tajo-site.xml" de la siguiente manera:

<property> 
   <name>tajo.worker.tmpdir.locations</name> 
   <value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value> 
</property>

Para aumentar la capacidad de ejecutar tareas de cada recurso de trabajador, elija la siguiente configuración:

<property> 
   <name>tajo.worker.resource.cpu-cores</name> 
   <value>12</value> 
</property>
 
<property> 
   <name>tajo.task.resource.min.memory-mb</name> 
   <value>2000</value> 
</property>
  
<property> 
   <name>tajo.worker.resource.disks</name> 
   <value>4</value> 
</property>

Para hacer que el trabajador de Tajo se ejecute en un modo dedicado, elija la siguiente configuración:

<property> 
   <name>tajo.worker.resource.dedicated</name> 
   <value>true</value> 
</property>