with tutorial spark org examples example español ejemplo data python apache-spark pyspark apache-spark-mllib

python - tutorial - Cómo guardar y cargar el modelo MLLib en Apache Spark



pyspark tutorial español (1)

Entrené un modelo de clasificación en Apache Spark (usando pyspark ). Guardé el modelo en un objeto, LogisticRegressionModel . Ahora, quiero hacer predicciones sobre nuevos datos. Me gustaría almacenar el modelo y leerlo en un nuevo programa para hacer las predicciones. ¿Alguna idea de cómo almacenar el modelo? Estoy pensando en tal vez encurtirme, pero soy novato de Python y Spark, así que me gustaría saber qué piensa la comunidad.

ACTUALIZACIÓN: también necesitaba un clasificador de árbol de decisión. Para leerlo, necesitaba importar DecisionTreeModel from pyspark.mllib.tree import DecisionTree, DecisionTreeModel


Puede guardar su modelo utilizando el método guardar de modelos mllib .

# let lrm be a LogisticRegression Model lrm.save(sc, "lrm_model.model")

Después de almacenarlo, puede cargarlo en otra aplicación.

sameModel = LogisticRegressionModel.load(sc, "lrm_model.model")

Como @@ zero323 declaró anteriormente, hay otra manera de lograr esto, y es mediante el uso del Lenguaje de marcado de modelo predictivo (PMML) .

es un formato de archivo basado en XML desarrollado por Data Mining Group para proporcionar un modo para que las aplicaciones describan e intercambien modelos producidos por los algoritmos de minería de datos y aprendizaje automático.