Tutorial de Apache Spark

Apache Spark es una computación en clúster ultrarrápida diseñada para una computación rápida. Se construyó sobre Hadoop MapReduce y extiende el modelo MapReduce para usar de manera eficiente más tipos de cálculos, que incluyen consultas interactivas y procesamiento de secuencias. Este es un breve tutorial que explica los conceptos básicos de la programación de Spark Core.

Este tutorial ha sido preparado para profesionales que aspiran a aprender los conceptos básicos de Big Data Analytics utilizando Spark Framework y convertirse en Spark Developer. Además, también sería útil para los profesionales de la analítica y los desarrolladores de ETL.

Antes de comenzar con este tutorial, asumimos que tiene exposición previa a la programación de Scala, los conceptos de bases de datos y cualquiera de los sabores del sistema operativo Linux.