PySpark - Introducción

En este capítulo, nos familiarizaremos con lo que es Apache Spark y cómo se desarrolló PySpark.

Spark - Descripción general

Apache Spark es un marco de procesamiento en tiempo real ultrarrápido. Realiza cálculos en memoria para analizar datos en tiempo real. Entró en la imagen comoApache Hadoop MapReducerealizaba solo procesamiento por lotes y carecía de una función de procesamiento en tiempo real. Por lo tanto, se introdujo Apache Spark, ya que puede realizar el procesamiento de secuencias en tiempo real y también puede encargarse del procesamiento por lotes.

Además del procesamiento por lotes y en tiempo real, Apache Spark también admite consultas interactivas y algoritmos iterativos. Apache Spark tiene su propio administrador de clústeres, donde puede alojar su aplicación. Aprovecha Apache Hadoop tanto para el almacenamiento como para el procesamiento. UsaHDFS (Sistema de archivos distribuidos Hadoop) para almacenamiento y puede ejecutar aplicaciones Spark en YARN también.

PySpark - Descripción general

Apache Spark está escrito en Scala programming language. Para admitir Python con Spark, Apache Spark Community lanzó una herramienta, PySpark. Usando PySpark, puede trabajar conRDDstambién en el lenguaje de programación Python. Es por una biblioteca llamadaPy4j que son capaces de lograrlo.

Ofertas PySpark PySpark Shellque vincula la API de Python al núcleo de Spark e inicializa el contexto de Spark. La mayoría de los científicos de datos y expertos en análisis utilizan Python debido a su rico conjunto de bibliotecas. Integrar Python con Spark es una bendición para ellos.