usar paper medium español como nlp word2vec

nlp - paper - lematización word2vec del corpus antes del entrenamiento



word2vec python (2)

word2vec parece estar principalmente entrenado en datos de corpus sin procesar. Sin embargo, la lematización es un preprocesamiento estándar para muchas tareas de similitud semántica. Me preguntaba si alguien tenía experiencia en lematizar el corpus antes de entrenar word2vec y si este es un preprocesamiento útil para hacer ... ¡Gracias!


Creo que es realmente cuestión de lo que quieres resolver con esto. Depende de la tarea.

Básicamente, la lematización hace que el espacio de entrada sea más escaso, lo que puede ayudar si no tiene suficientes datos de capacitación.

Pero dado que Word2Vec es bastante grande, si tiene suficiente información de entrenamiento, la lematización no debería ganar mucho.

Algo más interesante es cómo hacer la tokenización con respecto a la disción existente de las palabras-vectores dentro del W2V (o cualquier otra cosa). Como "Buenos muffins cuestan $ 3,88 / nin Nueva York". necesita ser tokenizado a [''Bueno'', ''muffins'', ''cost'', ''$'', ''3.88'', ''in'', ''Nueva York.''] Luego puede reemplazarlo con sus vectores de W2V. El desafío es que algunos tokenizadores tocan "Nueva York" como ["Nueva York"], lo cual no tiene mucho sentido. (Por ejemplo, NLTK comete este error https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html ) Este es un problema cuando tienes muchas frases de varias palabras.


El proyecto actual en el que estoy trabajando implica la identificación de nombres de genes en resúmenes de documentos de biología utilizando el espacio vectorial creado por Word2Vec. Cuando ejecutamos el algoritmo sin lematizar el Corpus, surgen principalmente 2 problemas:

  • El vocabulario se vuelve demasiado grande, ya que tienes palabras en diferentes formas que al final tienen el mismo significado.
  • Como se señaló anteriormente, su espacio se vuelve menos escaso, ya que obtiene más representantes de un cierto "significado", pero al mismo tiempo, algunos de estos significados pueden dividirse entre sus representantes, déjenme aclarar con un ejemplo

Actualmente estamos interesados ​​en un gen reconocido por el acrónimo BAD. Al mismo tiempo, "malo" es una palabra en inglés que tiene diferentes formas (mal, peor, ...). Dado que Word2vec construye sus vectores en función de la probabilidad del contexto (palabras que lo rodean), cuando no lematiza algunas de estas formas, puede terminar perdiendo la relación entre algunas de estas palabras. De esta forma, en el caso MALO, podrías terminar con una palabra más cercana a los nombres de los genes en lugar de los adjetivos en el espacio vectorial.