Apache Pig: manejo de la compresión

Podemos cargar y almacenar datos comprimidos en Apache Pig usando las funciones BinStorage() y TextLoader().

Ejemplo

Supongamos que tenemos un archivo llamado employee.txt.zip en el directorio HDFS /pigdata/. Luego, podemos cargar el archivo comprimido en pig como se muestra a continuación.

Using PigStorage: 
 
grunt> data = LOAD 'hdfs://localhost:9000/pig_data/employee.txt.zip' USING PigStorage(','); 
 
Using TextLoader:
  
grunt> data = LOAD 'hdfs://localhost:9000/pig_data/employee.txt.zip' USING TextLoader;

De la misma manera, podemos almacenar los archivos comprimidos en pig como se muestra a continuación.

Using PigStorage:
  
grunt> store data INTO 'hdfs://localhost:9000/pig_Output/data.bz' USING PigStorage(',');