nlp - procesamiento - mineria de texto en python
Preprocesamiento de texto de Keras: guardar el objeto Tokenizer en un archivo para obtener una puntuaciĆ³n (1)
La forma más común es usar pickle
o joblib
. Aquí tiene un ejemplo sobre cómo usar pickle
para guardar Tokenizer
:
import pickle
# saving
with open(''tokenizer.pickle'', ''wb'') as handle:
pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)
# loading
with open(''tokenizer.pickle'', ''rb'') as handle:
tokenizer = pickle.load(handle)
He entrenado un modelo clasificador de sentimientos utilizando la biblioteca Keras siguiendo los pasos a continuación (ampliamente).
- Convierte corpus de texto en secuencias usando el objeto / clase Tokenizer
- Construya un modelo usando el método model.fit ()
- Evalúa este modelo
Ahora, para puntuar usando este modelo, pude guardar el modelo en un archivo y cargarlo desde un archivo. Sin embargo, no he encontrado una forma de guardar el objeto Tokenizer en el archivo. Sin esto, tendré que procesar el corpus cada vez que necesite marcar una sola oración. ¿Hay alguna forma de evitar esto?