python - tutorial - Cómo guardar y cargar el modelo MLLib en Apache Spark
pyspark tutorial español (1)
Entrené un modelo de clasificación en Apache Spark (usando pyspark
). Guardé el modelo en un objeto, LogisticRegressionModel
. Ahora, quiero hacer predicciones sobre nuevos datos. Me gustaría almacenar el modelo y leerlo en un nuevo programa para hacer las predicciones. ¿Alguna idea de cómo almacenar el modelo? Estoy pensando en tal vez encurtirme, pero soy novato de Python y Spark, así que me gustaría saber qué piensa la comunidad.
ACTUALIZACIÓN: también necesitaba un clasificador de árbol de decisión. Para leerlo, necesitaba importar DecisionTreeModel from pyspark.mllib.tree import DecisionTree, DecisionTreeModel
Puede guardar su modelo utilizando el método guardar de modelos mllib
.
# let lrm be a LogisticRegression Model
lrm.save(sc, "lrm_model.model")
Después de almacenarlo, puede cargarlo en otra aplicación.
sameModel = LogisticRegressionModel.load(sc, "lrm_model.model")
Como @@ zero323 declaró anteriormente, hay otra manera de lograr esto, y es mediante el uso del Lenguaje de marcado de modelo predictivo (PMML) .
es un formato de archivo basado en XML desarrollado por Data Mining Group para proporcionar un modo para que las aplicaciones describan e intercambien modelos producidos por los algoritmos de minería de datos y aprendizaje automático.