tutorial tfidfvectorizer tfidftransformer sparse spanish sklearn scikit learn countvectorizer python nlp scikit-learn sparse-matrix

python - tfidfvectorizer - tfidftransformer



Agregue la variable categórica(género) a la matriz dispersa para la clasificación multiclase usando sklearn (0)

Estoy construyendo un modelo de clasificación multiclase usando sklearn. Estoy convirtiendo mis tweets en una matriz dispersa de tipo 571x1815 con 34737 elementos almacenados en formato Compressed Sparse Row. Estoy tratando de predecir los grupos de edad en función de la historia de los tweets, pero quiero agregar una variable categórica exógena (género) a mi matriz dispersa y usan el Árbol de decisiones o el Bosque aleatorio para hacer mi predicción. ¿Cómo agrego un vector a una matriz dispersa?

def vectorize(df): bow_transformer = CountVectorizer(tokenizer=nltk.word_tokenize,token_pattern="[a-zA-Z]{2,15}",stop_words="english", ngram_range=(1, 2),min_df=.01, max_df=.5,max_features=1815)#3000 bow_transformer.fit(df) messages_bow = bow_transformer.transform(df) tfidf_transformer = TfidfTransformer().fit(messages_bow) messages_tfidf = tfidf_transformer.transform(messages_bow) return messages_tfidf

imagen de los pandas Dataframe