第63讲 Python自然语言处理(NLP)—word2vec

Posted 小叮当说SAS数据处理与统计分析

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第63讲 Python自然语言处理(NLP)—word2vec相关的知识,希望对你有一定的参考价值。

Python除了在机器学习和深度学习方面很强大,在自然语言处理(NLP)方面也非常强大,比如分析人物对话,下面我们来看看一个自然语言处理的实际例子。

这里以分析《人民的名义》txt格式小说中人物为例。


第一段程序加入下面的一系列人名是为了结巴分词能更准确的把人名分出来。

第二段程序的作用是将整个小说人民的名义(in_the_name_of_people.txt)中语句进行中文分词,即是把句子按照中文语法规则进行切片成一个一个的常见词语。存在文件in_the_name_of_people_segment.txt中。

第63讲 Python自然语言处理(NLP)—word2vec

下面是文件in_the_name_of_people_segment.txt中分词的局部结果。

第63讲 Python自然语言处理(NLP)—word2vec

第三段程序是使用word2vec提供的LineSentence类来读文件,然后套用word2vec模型。

第63讲 Python自然语言处理(NLP)—word2vec

自然语言处理模型建立完后,就是我们想要的应用:

第63讲 Python自然语言处理(NLP)—word2vec

高育良 0.967257142067
李达康 0.959131598473
田国富 0.953414440155
易学习 0.943500876427
祁同伟 0.942932963371

第63讲 Python自然语言处理(NLP)—word2vec

0.961137455325
0.935589365706

输出不同类的为"刘庆祝"


好了,今天相关Python自然语言处理的一个实际例子就讲到这里啦,是不是很有意思,可以从人物对话中分析人物性格,人物相似度以及人物分类等等。因此,可以联想到其他场景的应用,只要给出人物或物质(比如蛋白、基因序列等)文本性质的资料,就可以对某些人物或物质进行分类。


以上是关于第63讲 Python自然语言处理(NLP)—word2vec的主要内容,如果未能解决你的问题,请参考以下文章

Python NLP自然语言处理详解

斯坦福Introduction to NLP:第十讲关系抽取

NLP.TMGloVe模型及其Python实现

适用于NLP自然语言处理的Python:使用Facebook FastText库

第三期自然语言处理NLP培训班

Python NLP入门教程