text - word2vec español

¿Cómo usar la representación vectorial de palabras(obtenida de Word2Vec, etc.) como características para un clasificador? (1)

Estoy familiarizado con el uso de las características de BOW para la clasificación de texto, donde primero encontramos el tamaño del vocabulario para el corpus que se convierte en el tamaño de nuestro vector de características. Para cada oración / documento, y para todas sus palabras constitutivas, ponemos 0/1 dependiendo de la ausencia / presencia de esa palabra en esa oración / documento.

Sin embargo, ahora que intento usar la representación vectorial de cada palabra, ¿es esencial crear un vocabulario global?

Supongamos que el tamaño de los vectores es N (generalmente entre 50 o 500). La forma ingenua de generalizar el BOW tradicional de generalización simplemente está reemplazando 0 bit (en BOW) con N ceros, y reemplazando 1 bit (en BOW) con el vector real (digamos desde Word2Vec). Entonces el tamaño de las características sería N * | V | (En comparación con los vectores de características | V | en el arco, donde | V | es el tamaño de las vocales). Esta generalización simple debería funcionar bien para un número decente de instancias de entrenamiento.

Para hacer que los vectores de características sean más pequeños, las personas usan varias técnicas, como usar una combinación recursiva de vectores con varias operaciones. (Consulte Red neuronal recursiva / recurrente y trucos similares, por ejemplo: http://web.engr.illinois.edu/~khashab2/files/2013_RNN.pdf o http://papers.nips.cc/paper/4204-dynamic -pooling-and-unfolding-recursive-autoencoders-for-paraphrase-detection.pdf )