python - train - word2vec gensim
Cargar vectores preconfigurados Gensim (2)
Estoy usando el paquete Gensim Python para aprender un modelo de lenguaje neuronal, y sé que puedes proporcionar un corpus de capacitación para aprender el modelo. Sin embargo, ya existen muchos vectores de palabras precalculadas disponibles en formato de texto (por ejemplo, http://www-nlp.stanford.edu/projects/glove/ ). ¿Hay alguna manera de inicializar un modelo de Word2Vec de Gensim que solo haga uso de algunos vectores precalculados, en lugar de tener que aprender los vectores desde cero?
¡Gracias!
El volcado GloVe del sitio de Stanford tiene un formato que difiere poco del formato word2vec. Puede convertir el archivo GloVe en formato word2vec usando:
python -m gensim.scripts.glove2word2vec --input glove.840B.300d.txt --output glove.840B.300d.w2vformat.txt
Puede descargar vectores de palabras preentreados desde aquí (obtenga el archivo ''GoogleNews-vectores-negativos300.bin''): word2vec
Extraiga el archivo y luego puede cargarlo en python como:
model = gensim.models.word2vec.Word2Vec.load_word2vec_format(os.path.join(os.path.dirname(__file__), ''GoogleNews-vectors-negative300.bin''), binary=True)
model.most_similar(''dog'')
EDITAR (mayo de 2017): como el código anterior ahora está en desuso, así es como cargaría los vectores ahora:
model = gensim.models.KeyedVectors.load_word2vec_format(os.path.join(os.path.dirname(__file__), ''GoogleNews-vectors-negative300.bin''), binary=True)