lda - quimica - topic modeling python

Modelado de temas LDA-Entrenamiento y pruebas (1)

He leído LDA y entiendo las matemáticas de cómo se generan los temas cuando uno ingresa una colección de documentos.

Las referencias dicen que LDA es un algoritmo que, dada una colección de documentos y nada más (no se necesita supervisión), puede descubrir los "temas" expresados por los documentos en esa colección. Por lo tanto, al usar el algoritmo LDA y la Muestra de Gibbs (o Variaes Bayes), puedo ingresar un conjunto de documentos y, como resultado, puedo obtener los temas. Cada tema es un conjunto de términos con probabilidades asignadas.

Lo que no entiendo es que si lo anterior es cierto, ¿por qué muchos tutoriales de modelado de temas hablan de separar el conjunto de datos en el conjunto de entrenamiento y prueba?

¿Puede alguien explicarme los pasos (el concepto básico) de cómo se puede usar la LDA para entrenar un modelo, que luego se puede usar para analizar otro conjunto de datos de prueba?

Dividir los datos en conjuntos de entrenamiento y prueba es un paso común en la evaluación del rendimiento de un algoritmo de aprendizaje. Es más claro para el aprendizaje supervisado, en el que se capacita al modelo en el conjunto de capacitación, luego se ve cuán bien sus clasificaciones en el conjunto de prueba coinciden con las etiquetas de clase verdadera. Para el aprendizaje no supervisado, tal evaluación es un poco más complicada. En el caso del modelado de temas, una medida común de rendimiento es la perplexity . Entrena el modelo (como LDA) en el conjunto de entrenamiento, y luego ve cuán "perplejo" está el modelo en el conjunto de pruebas. Más específicamente, usted mide qué tan bien el conteo de palabras de los documentos de prueba está representado por las distribuciones de palabras representadas por los temas.

La perplejidad es buena para comparaciones relativas entre modelos o configuraciones de parámetros, pero su valor numérico realmente no significa mucho. Prefiero evaluar los modelos de tema utilizando el siguiente proceso de evaluación, algo manual:

Inspeccione los temas : mire las palabras de mayor probabilidad en cada tema. ¿Suenan como si formaran un "tema" cohesivo o simplemente un grupo aleatorio de palabras?
Inspeccione las asignaciones de temas : retenga algunos documentos aleatorios de la capacitación y vea qué temas les asigna LDA. Inspeccionar manualmente los documentos y las palabras principales en los temas asignados. ¿Parece que los temas realmente describen de qué hablan realmente los documentos?

Me doy cuenta de que este proceso no es tan bueno y cuantitativo como a uno le gustaría, pero para ser honesto, las aplicaciones de los modelos de tema rara vez son cuantitativas. Sugiero evaluar su modelo temático de acuerdo con el problema al que lo está aplicando.

¡Buena suerte!