topic quimica latent espaƱol discriminant algorithm model lda dirichlet

algorithm - quimica - topic modeling



LDA y modelo de tema (1)

He estudiado LDA y el modelo Topic durante varias semanas. Pero debido a mi pobre capacidad matemática, no puedo entender completamente sus algoritmos internos. He utilizado la implementación de GibbsLDA, ingresé una gran cantidad de documentos, y establecí el número de tema como 100, obtuve un archivo llamado "final.theta" que almacena la proporción del tema de cada tema en cada documento. Este resultado es bueno, puedo usar la proporción del tema para hacer muchas otras cosas. Pero cuando probé la implementación del lenguaje C de Blei en LDA, solo obtuve un archivo llamado final.gamma, pero no sé cómo transformar este archivo en un estilo de proporción de tema. Alguien puede ayudarme. Y aprendí que el modelo LDA tiene muchas versiones mejoradas (como CTM, HLDA), si puedo encontrar un modelo de tema similar a LDA, quiero decir, cuando ingreso muchos documentos, puede generar directamente la proporción del tema en los documentos. . ¡Muchas gracias!


Creo que el problema con la implementación de Blei es que estás haciendo una inferencia variable ejecutando:

$ lda inf [args ...]

Cuando desee hacer una estimación de tema, con:

$ lda est [args ...]

Una vez que esto se ejecute, habrá un archivo "final.beta" en el directorio actual o en el directorio especificado por el último argumento opcional. A continuación, ejecuta el script de python "topics.py", incluido en el tar. El archivo léame aquí: http://www.cs.princeton.edu/~blei/lda-c/readme.txt lo describe todo, especialmente las secciones B y D.

(Si esto aún no tiene sentido, avíseme)

En cuanto a mejoras como CTM, etc.: no sé nada sobre HLDA, pero he usado tanto LDA como CTM en el pasado, y puedo decir que ninguna de ellas es estrictamente mejor que la otra, es un caso de ser mejor para datos diferentes CTM asume que los documentos están correlacionados y usa esa suposición para mejorar los resultados, siempre y cuando sea cierto.

¡Espero que esto ayude!