Marcos de transmisión en la parte superior de Hadoop que soportan ORC, formatos de archivos de parquet

formato avro (2)

¿La transmisión de Hadoop admite los nuevos formatos de almacenamiento en columna como ORC y parquet o hay marcos sobre Hadoop que le permiten leer esos formatos?

Puede usar HCatalog para leer el archivo ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Le proporciona una abstracción para leer ORC, Texto, Secuencia, archivos RC. No estoy seguro si hay soporte de parquet allí. Sin embargo, si esto no parece razonable, puede usar lectores de registro ORC en la base de código Hive para leer archivos ORC (ORCInputFormat, ORCOutputFormat).

Bastante viejas noticias, pero luché con esto hace algún tiempo. No encontré ninguna solución para esto, así que, como resultado, he creado un conjunto de formatos de entrada / salida que convierten los archivos avro y parquet en / desde texto plano y json. Se puede encontrar en http://github.com/whale2/iow-hadoop-streaming . No hay compatibilidad con ORC, pero Avro y Parquet son compatibles. Espero que esto ayude.