Apache Spark está escrito en lenguaje de programación Scala. Para admitir Python con Spark, la comunidad de Apache Spark lanzó una herramienta, PySpark. Con PySpark, también puede trabajar con RDD en el lenguaje de programación Python. Es gracias a una biblioteca llamada Py4j que pueden lograr esto. Este es un tutorial introductorio, que cubre los conceptos básicos de los documentos basados en datos y explica cómo manejar sus diversos componentes y subcomponentes.
Este tutorial está preparado para aquellos profesionales que aspiran a hacer una carrera en lenguaje de programación y framework de procesamiento en tiempo real. Este tutorial está destinado a que los lectores se sientan cómodos al comenzar con PySpark junto con sus diversos módulos y submódulos.
Antes de continuar con los diversos conceptos dados en este tutorial, se asume que los lectores ya conocen qué es un lenguaje de programación y un marco. Además de esto, será muy útil si los lectores tienen un conocimiento sólido de Apache Spark, Apache Hadoop, Scala Programming Language, Hadoop Distributed File System (HDFS) y Python.