Apache Tajo - Integración OpenStack Swift

Swift es una tienda de objetos / blobs distribuida y coherente. Swift ofrece software de almacenamiento en la nube para que pueda almacenar y recuperar gran cantidad de datos con una API simple. Tajo admite la integración Swift.

Los siguientes son los requisitos previos de Swift Integration:

  • Swift
  • Hadoop

Core-site.xml

Agregue los siguientes cambios al archivo hadoop "core-site.xml" -

<property> 
   <name>fs.swift.impl</name> 
   <value>org.apache.hadoop.fs.swift.snative.SwiftNativeFileSystem</value> 
   <description>File system implementation for Swift</description> 
</property>  

<property> 
   <name>fs.swift.blocksize</name> 
   <value>131072</value> 
   <description>Split size in KB</description> 
</property>

Esto se utilizará para que Hadoop acceda a los objetos Swift. Después de realizar todos los cambios, muévase al directorio Tajo para configurar la variable de entorno Swift.

conf / tajo-env.h

Abra el archivo de configuración de Tajo y agregue establecer la variable de entorno de la siguiente manera:

$ vi conf/tajo-env.h  
export TAJO_CLASSPATH = $HADOOP_HOME/share/hadoop/tools/lib/hadoop-openstack-x.x.x.jar

Ahora, Tajo podrá consultar los datos usando Swift.

Crear mesa

Creemos una tabla externa para acceder a los objetos Swift en Tajo de la siguiente manera:

default> create external table swift(num1 int, num2 text, num3 float) 
   using text with ('text.delimiter' = '|') location 'swift://bucket-name/table1';

Una vez creada la tabla, puede ejecutar las consultas SQL.