sentence2vec medium python scikit-learn cluster-analysis gensim doc2vec

python - medium - ¿Cómo interpretar los resultados de Clusters después de usar Doc2vec?



word2vec (3)

Estoy usando doc2vec para convertir los 100 mejores tweets de mis seguidores en representación vectorial (digamos v1 ..... v100). Después de eso, estoy usando la representación vectorial para hacer los clusters de K-Means.

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

Puedo ver que el clúster 0 está dominado por algunos valores (digamos v10, v12, v23, ....). Mi pregunta es qué representan estos v10, v12 ... etc. ¿Puedo deducir que estos grupos de columnas específicas son palabras clave específicas del documento?


Los clústeres en sí no significan nada específico. Puede tener tantos clústeres como desee y todo lo que el algoritmo de clúster haría es intentar distribuir todos sus vectores entre estos clústeres. Si conoce todos los tweets y sabe cuántos temas diferentes desea que se separen, intente limpiarlos o tener características en ellos, de modo que el algoritmo de agrupamiento pueda usarlos para segregarlos en los clusters que elija.

Además, si se refiere al modelado de temas, eso es diferente de la agrupación y también debe buscarlo.


No use las variables individuales. Solo deberían analizarse juntos debido a la forma en que se forman estas incrustaciones.

Para empezar, encuentra

  1. Los vectores de documento más similares a su centroide para ver los miembros típicos del clúster
  2. Los vectores de términos más similares de la incrustación de palabras típicas para describir el clúster
  3. Tenga en cuenta las distancias para ver qué tan bueno es su ajuste.

Estos valores representan las coordenadas de los tweets individuales (o documentos) que desea representar en un clúster . Supongo que v1 a v100 representan los vectores para los tweets 1 a 100, de lo contrario esto no tendría sentido. Así que si suponemos que el clúster 0 tiene v1, v5 y v6, esto significa que los tweets 1, 5 y 6 con la representación vectorial v1, v5 y v6 respectivamente (o los tweets con los vectores v1, v5 y v6 como su representación) pertenecen al clúster 0.