Ciencia de datos ágil - SparkML

La biblioteca de aprendizaje automático, también llamada "SparkML" o "MLLib", consta de algoritmos de aprendizaje comunes, que incluyen clasificación, regresión, agrupación en clústeres y filtrado colaborativo.

¿Por qué aprender SparkML para Agile?

Spark se está convirtiendo en la plataforma de facto para crear algoritmos y aplicaciones de aprendizaje automático. Los desarrolladores trabajan en Spark para implementar algoritmos de máquina de manera escalable y concisa en el marco de Spark. Aprenderemos los conceptos de Machine Learning, sus utilidades y algoritmos con este framework. Agile siempre opta por un marco, que ofrece resultados breves y rápidos.

Algoritmos ML

Los algoritmos ML incluyen algoritmos de aprendizaje comunes como clasificación, regresión, agrupación y filtrado colaborativo.

Caracteristicas

Incluye extracción, transformación, reducción de dimensión y selección de características.

Oleoductos

Las canalizaciones proporcionan herramientas para construir, evaluar y ajustar las canalizaciones de aprendizaje automático.

Algoritmos populares

A continuación se muestran algunos algoritmos populares:

  • Estadísticas básicas

  • Regression

  • Classification

  • Sistema de recomendación

  • Clustering

  • Reducción de dimensionalidad

  • Extracción de características

  • Optimization

Sistema de recomendación

Un sistema de recomendación es una subclase de sistema de filtrado de información que busca la predicción de la "calificación" y la "preferencia" que un usuario sugiere para un elemento determinado.

El sistema de recomendación incluye varios sistemas de filtrado, que se utilizan de la siguiente manera:

Filtración colaborativa

Incluye la construcción de un modelo basado en el comportamiento pasado, así como en decisiones similares tomadas por otros usuarios. Este modelo de filtrado específico se utiliza para predecir elementos que un usuario está interesado en recibir.

Filtrado basado en contenido

Incluye el filtrado de características discretas de un elemento para recomendar y agregar nuevos elementos con propiedades similares.

En nuestros capítulos siguientes, nos centraremos en el uso del sistema de recomendación para resolver un problema específico y mejorar el rendimiento de la predicción desde el punto de vista de la metodología ágil.