tfidfvectorizer tfidftransformer spanish countvectorizer python scikit-learn stop-words

python - tfidftransformer - Agregar palabras a la lista de detención de CountVectorizer de scikit-learn



countvectorizer python (1)

La clase CountVectorizer de CountVectorizer -learn CountVectorizer permite pasar una cadena ''inglés'' al argumento stop_words. Quiero agregar algunas cosas a esta lista predefinida. ¿Puede alguien decirme cómo hacer esto?


De acuerdo con el código fuente de sklearn.feature_extraction.text , la lista completa (en realidad un frozenset , de stop_words ) de ENGLISH_STOP_WORDS se expone a través de __all__ . Por lo tanto, si desea usar esa lista más algunos elementos más, podría hacer algo como:

from sklearn.feature_extraction import text stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

(donde my_additional_stop_words es cualquier secuencia de cadenas) y usa el resultado como el argumento stop_words . Esta entrada a CountVectorizer.__init__ se analiza mediante _check_stop_list , que pasará el nuevo frozenset directamente.