Apache Presto - Descripción general
El análisis de datos es el proceso de analizar datos sin procesar para recopilar información relevante para una mejor toma de decisiones. Se utiliza principalmente en muchas organizaciones para tomar decisiones comerciales. Bueno, la analítica de big data involucra una gran cantidad de datos y este proceso es bastante complejo, por lo que las empresas usan diferentes estrategias.
Por ejemplo, Facebook es una de las principales empresas de almacenamiento de datos impulsadas por datos y más grandes del mundo. Los datos del almacén de Facebook se almacenan en Hadoop para realizar cálculos a gran escala. Más tarde, cuando los datos del almacén aumentaron a petabytes, decidieron desarrollar un nuevo sistema con baja latencia. En el año de 2012, los miembros del equipo de Facebook diseñaron“Presto” para análisis de consultas interactivas que funcionarían rápidamente incluso con petabytes de datos.
¿Qué es Apache Presto?
Apache Presto es un motor de ejecución de consultas en paralelo distribuido, optimizado para baja latencia y análisis de consultas interactivo. Presto ejecuta consultas fácilmente y escala sin tiempo de inactividad incluso de gigabytes a petabytes.
Una sola consulta de Presto puede procesar datos de múltiples fuentes como HDFS, MySQL, Cassandra, Hive y muchas más fuentes de datos. Presto está construido en Java y es fácil de integrar con otros componentes de infraestructura de datos. Presto es poderoso y compañías líderes como Airbnb, DropBox, Groupon, Netflix lo están adoptando.
Presto - Características
Presto contiene las siguientes características:
- Arquitectura simple y extensible.
- Conectores enchufables: Presto admite conectores enchufables para proporcionar metadatos y datos para consultas.
- Ejecuciones canalizadas: evita la sobrecarga de latencia de E / S innecesaria.
- Funciones definidas por el usuario: los analistas pueden crear funciones personalizadas definidas por el usuario para migrar fácilmente.
- Procesamiento columnar vectorizado.
Presto - Beneficios
Aquí hay una lista de beneficios que ofrece Apache Presto:
- Operaciones SQL especializadas
- Fácil de instalar y depurar
- Abstracción de almacenamiento simple
- Escala rápidamente petabytes de datos con baja latencia
Presto - Aplicaciones
Presto es compatible con la mayoría de las mejores aplicaciones industriales de la actualidad. Echemos un vistazo a algunas de las aplicaciones notables.
Facebook- Facebook creó Presto para las necesidades de análisis de datos. Presto escala fácilmente grandes velocidades de datos.
Teradata- Teradata proporciona soluciones de extremo a extremo en análisis de Big Data y almacenamiento de datos. La contribución de Teradata a Presto facilita que más empresas habiliten todas las necesidades analíticas.
Airbnb- Presto es una parte integral de la infraestructura de datos de Airbnb. Bueno, cientos de empleados realizan consultas todos los días con la tecnología.
¿Por qué Presto?
Presto admite ANSI SQL estándar, lo que lo ha hecho muy fácil para los analistas y desarrolladores de datos. Aunque está construido en Java, evita los problemas típicos del código Java relacionados con la asignación de memoria y la recolección de basura. Presto tiene una arquitectura de conector compatible con Hadoop. Permite conectar fácilmente sistemas de archivos.
Presto se ejecuta en varias distribuciones de Hadoop. Además, Presto puede comunicarse desde una plataforma Hadoop para consultar a Cassandra, bases de datos relacionales u otros almacenes de datos. Esta capacidad analítica multiplataforma permite a los usuarios de Presto extraer el máximo valor comercial de gigabytes a petabytes de datos.