python - tfidftransformer - Agregar palabras a la lista de detención de CountVectorizer de scikit-learn
countvectorizer python (1)
La clase CountVectorizer de CountVectorizer -learn CountVectorizer permite pasar una cadena ''inglés'' al argumento stop_words. Quiero agregar algunas cosas a esta lista predefinida. ¿Puede alguien decirme cómo hacer esto?
De acuerdo con el código fuente de sklearn.feature_extraction.text
, la lista completa (en realidad un frozenset
, de stop_words
) de ENGLISH_STOP_WORDS
se expone a través de __all__
. Por lo tanto, si desea usar esa lista más algunos elementos más, podría hacer algo como:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(donde my_additional_stop_words
es cualquier secuencia de cadenas) y usa el resultado como el argumento stop_words
. Esta entrada a CountVectorizer.__init__
se analiza mediante _check_stop_list
, que pasará el nuevo frozenset
directamente.