tfidfvectorizer tfidftransformer spanish hashingvectorizer countvectorizer python-2.7 scipy sparse-matrix scikit-learn

python 2.7 - tfidftransformer - Cómo extender la escasa matriz Scipy devuelta por sklearn TfIdfVectorizer para contener más funciones



hashingvectorizer (1)

Creo que lo más fácil sería crear una nueva matriz dispersa con sus características personalizadas y luego usar scipy.sparse.hstack para apilar las características. También puede encontrar útil la "FeatureUnion" del módulo de interconexión.

Estoy trabajando en un problema de clasificación de texto usando clasificadores scikit-learn y extractor de características de texto, particularmente la clase TfidfVectorizer.

El problema es que tengo dos tipos de características, la primera es capturada por los n-grams obtenidos de TfidfVectorizer y la otra son características específicas del dominio que extraigo de cada documento. Necesito combinar ambas características en un único vector de características para cada documento; para hacer esto, necesito actualizar la matriz escasa scipy devuelta por TfidfVectorizer agregando una nueva dimensión en cada fila que contiene la función de dominio para este documento. Sin embargo, no puedo encontrar una manera ordenada de hacerlo, por pulcro quiero decir no convertir la matriz dispersa en una densa, ya que simplemente no cabe en la memoria.

Probablemente me falta una característica en scikit-learn o algo así, ya que soy nuevo en scipy y scikit-learn.