w2v train similar most min_count example español python-3.x nlp word2vec

python 3.x - train - cómo preservar el número de registros en word2vec?



word2vec español (1)

Si está dividiendo cada entrada en una lista de palabras, eso es esencialmente ''tokenización''.

Word2Vec solo aprende vectores para cada palabra, no para cada ejemplo de texto (''registro''), por lo que no hay nada que ''conservar'', nunca se crean vectores para los 45,000 registros. Pero si hay 26,000 palabras únicas entre los registros (después de aplicar min_count ), tendrá 26,000 vectores al final.

El Doc2Vec de Gensim (el algoritmo ''Vector de párrafo'') puede crear un vector para cada ejemplo de texto, por lo que es posible que desee probarlo.

Si solo tiene vectores de palabras, una forma simplista de crear un vector para un texto más grande es simplemente agregar todos los vectores de palabras individuales. Las opciones adicionales incluyen elegir entre usar los vectores de palabras normados por unidades o los vectores de palabras crudos de muchas magnitudes; si a continuación, unidad de norma la suma; y si ponderar las palabras por cualquier otro factor de importancia (como TF / IDF).

Tenga en cuenta que a menos que sus documentos sean muy largos, este es un conjunto de capacitación bastante pequeño para Word2Vec o Doc2Vec.

Tengo 45000 registros de texto en mi marco de datos. Quería convertir esos 45000 registros en vectores de palabras para poder entrenar un clasificador en el vector de palabras. No estoy tokenizando las oraciones. Simplemente dividí cada entrada en una lista de palabras.

Después de entrenar el modelo word2vec con 300 funciones, la forma del modelo resultó en solo 26000. ¿Cómo puedo conservar todos mis 45000 registros?

En el modelo de clasificador, necesito todos esos 45000 registros, para que coincida con 45000 etiquetas de salida.