NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型

Posted 2021-08-31 AI算法攻城狮

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型相关的知识，希望对你有一定的参考价值。

《人民的名义》的小说原文下载地址

https://github.com/jxq0816/algorithm-model/blob/master/word2vec-gensim/in_the_name_of_people.txt

拿到了原文，我们首先要进行分词，这里使用结巴分词完成。这里直接给出分词的代码，分词的结果，我们放到另一个文件中。代码如下, 加入下面的一串人名是为了结巴分词能更准确的把人名分出来。

# encoding = utf-8
import jieba
import jieba.analyse

jieba.suggest_freq(\'沙瑞金\', True)
jieba.suggest_freq(\'田国富\', True)
jieba.suggest_freq(\'高育良\', True)
jieba.suggest_freq(\'侯亮平\', True)
jieba.suggest_freq(\'钟小艾\', True)
jieba.suggest_freq(\'陈岩石\', True)
jieba.suggest_freq(\'欧阳菁\', True)
jieba.su

以上是关于NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型的主要内容，如果未能解决你的问题，请参考以下文章