Apache Spark es una computación en clúster ultrarrápida diseñada para una computación rápida. Se construyó sobre Hadoop MapReduce y extiende el modelo MapReduce para usar de manera eficiente más tipos de cálculos que incluyen consultas interactivas y procesamiento de flujo. Este es un breve tutorial que explica los conceptos básicos de la programación Spark SQL.
Este tutorial ha sido preparado para profesionales que aspiran a aprender los conceptos básicos de Big Data Analytics utilizando Spark Framework y convertirse en Spark Developer. Además, también sería útil para los profesionales de la analítica y los desarrolladores de ETL.
Antes de comenzar con este tutorial, asumimos que tiene exposición previa a la programación Scala, los conceptos de bases de datos y cualquiera de los sabores del sistema operativo Linux.