HCatalog - Introducción
¿Qué es HCatalog?
HCatalog es una herramienta de gestión de almacenamiento de tablas para Hadoop. Expone los datos tabulares de Hive metastore a otras aplicaciones de Hadoop. Permite a los usuarios con diferentes herramientas de procesamiento de datos (Pig, MapReduce) escribir datos fácilmente en una cuadrícula. Garantiza que los usuarios no tengan que preocuparse por dónde o en qué formato se almacenan sus datos.
HCatalog funciona como un componente clave de Hive y permite a los usuarios almacenar sus datos en cualquier formato y estructura.
¿Por qué HCatalog?
Habilitación de la herramienta adecuada para el trabajo adecuado
El ecosistema de Hadoop contiene diferentes herramientas para el procesamiento de datos como Hive, Pig y MapReduce. Aunque estas herramientas no requieren metadatos, aún pueden beneficiarse de ellos cuando están presentes. Compartir un almacén de metadatos también permite a los usuarios a través de herramientas compartir datos más fácilmente. Es muy común un flujo de trabajo donde los datos se cargan y normalizan usando MapReduce o Pig y luego se analizan a través de Hive. Si todas estas herramientas comparten una tienda de metadatos, los usuarios de cada herramienta tienen acceso inmediato a los datos creados con otra herramienta. No se requieren pasos de carga o transferencia.
Capturar estados de procesamiento para permitir compartir
HCatalog puede publicar sus resultados analíticos. Para que el otro programador pueda acceder a su plataforma de análisis a través de "REST". Los esquemas publicados por usted también son útiles para otros científicos de datos. Los otros científicos de datos utilizan sus descubrimientos como entradas para un descubrimiento posterior.
Integra Hadoop con todo
Hadoop como entorno de procesamiento y almacenamiento abre muchas oportunidades para la empresa; sin embargo, para impulsar la adopción, debe trabajar con las herramientas existentes y mejorarlas. Hadoop debe servir como entrada en su plataforma de análisis o integrarse con sus almacenes de datos operativos y aplicaciones web. La organización debería disfrutar del valor de Hadoop sin tener que aprender un conjunto de herramientas completamente nuevo. Los servicios REST abren la plataforma a la empresa con una API familiar y un lenguaje similar a SQL. Los sistemas de gestión de datos empresariales utilizan HCatalog para integrarse más profundamente con la plataforma Hadoop.
Arquitectura de HCatalog
La siguiente ilustración muestra la arquitectura general de HCatalog.
HCatalog admite la lectura y escritura de archivos en cualquier formato para el que SerDe(serializador-deserializador) se puede escribir. De forma predeterminada, HCatalog admite los formatos de archivo RCFile, CSV, JSON, SequenceFile y ORC. Para usar un formato personalizado, debe proporcionar InputFormat, OutputFormat y SerDe.
HCatalog se basa en la tienda de metadatos de Hive e incorpora el DDL de Hive. HCatalog proporciona interfaces de lectura y escritura para Pig y MapReduce y utiliza la interfaz de línea de comandos de Hive para emitir comandos de exploración de metadatos y definición de datos.