gensim加载词向量文件

Posted xuehuiping

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了gensim加载词向量文件相关的知识,希望对你有一定的参考价值。

# -*- coding: utf-8 -*-
# author: huihui
# date: 2020/1/31 7:58 下午 

'''
根据语料训练词向量,并保存向量文件
'''

import os
import sys
import gensim

os.reload(sys)
sys.setdefaultencoding('utf-8')

# 需要提前分词
input_file = "corp_seg.txt"
sentences = gensim.models.word2vec.Text8Corpus(input_file)

# 训练词向量
model = gensim.models.word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001,
                                        hs=1, workers=40)

# 保存词向量文件
model.save("corp_word2vec.model")
model.wv.save_word2vec_format("corp_word2vec.txt")

# 加载词向量文件
model = gensim.models.word2vec.Word2Vec.load("corp_word2vec.model")
model = gensim.models.KeyedVectors.load_word2vec_format("corp_word2vec.txt")

以上是关于gensim加载词向量文件的主要内容,如果未能解决你的问题,请参考以下文章

gensim中正确使用姿势

Python之酒店评论词向量训练 gensim

自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

NLPgensim保存存储和加载fasttext词向量模型

NLPgensim保存存储和加载fasttext词向量模型

Gensim Word2Vec 从预训练模型中选择少量词向量