NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型相关的知识,希望对你有一定的参考价值。

《人民的名义》的小说原文下载地址

https://github.com/jxq0816/algorithm-model/blob/master/word2vec-gensim/in_the_name_of_people.txt

拿到了原文,我们首先要进行分词,这里使用结巴分词完成。这里直接给出分词的代码,分词的结果,我们放到另一个文件中。代码如下, 加入下面的一串人名是为了结巴分词能更准确的把人名分出来。

# encoding = utf-8
import jieba
import jieba.analyse

jieba.suggest_freq(\'沙瑞金\', True)
jieba.suggest_freq(\'田国富\', True)
jieba.suggest_freq(\'高育良\', True)
jieba.suggest_freq(\'侯亮平\', True)
jieba.suggest_freq(\'钟小艾\', True)
jieba.suggest_freq(\'陈岩石\', True)
jieba.suggest_freq(\'欧阳菁\', True)
jieba.su

以上是关于NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型的主要内容,如果未能解决你的问题,请参考以下文章

影视系列盘点《人民的名义》

Python文本分析初探:《人民的名义》知乎网友都关注什么?

胜天半子

《人民的名义》---简单的文本分析

机器学习实践五机器学习眼中的《人民的名义》

重磅课程上线京东NLP企业级项目实战训练营