SnowNLP:一个强大的python中文文本处理库

Posted 2023-03-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SnowNLP:一个强大的python中文文本处理库相关的知识，希望对你有一定的参考价值。

参考技术A 笔者由于最近做一个监控应用评论内容的项目，为满足需求，需要对抓取下来的应用评论做中文语义识别，结果搜出来的大部分都是仅限英文语义识别的库，搜好久才找到这个国人开发的中文文本处理库（包含语义识别功能），特此介绍给大家。

跟其他python类库一样，使用pip安装就行了

用的时候，有时候可能会觉得有些语句分析出来的结果会不太准确，这时候你就需要更新语料库，再进行训练，这样下次分析出来的结果就更加准确了。下面介绍一下如何进行训练

首先准备两份语料文本,neg.txt(负面语料文本) pos.txt(积极语料文本)

再次把生成好的sentiment.marshal放入类库的/sentiment 就可以了

试用效果如下，分析各渠道应用市场评论内容的情感：

目前笔者也仅仅试用了情感分析的功能而已，其他功能欢迎读者自行试用，总之就是相当强大

SnowNLP 使用自定义语料进行模型训练

SnowNLP 是一个功能强大的中文文本处理库，它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能，像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客，就会发现博主使用了摘要提取这一功能来增强博客的SEO，即通过自然语言处理(NLP)技术，提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论，所以，当我们面对不同的使用场景时，它自带的这个模型难免会出现“水土不服”。因此，如果我们希望得到更接近实际的结果，最好的方案是使用自定义语料进行模型训练。值得庆幸的是，这一切在 SnowNLP 中实施起来非常简单，并不需要我们去钻研那些高深莫测的算法。至此，就引出了今天这篇博客的主题，即 SnowNLP 使用自定义语料进行模型训练。

不知道大家是否还有印象，博主曾经在《通过Python分析2020年全年微博热搜数据》这篇文章中提到过 SnowNLP 的模型训练。当时，博主采集了整个 2020 年的微博热搜话题，因为要体现整个一年里的情感变化，博主特意找了两份微博语料，并以此为基础训练出了一个模型文件。

以上是关于SnowNLP:一个强大的python中文文本处理库的主要内容，如果未能解决你的问题，请参考以下文章

SnowNLP 使用自定义语料进行模型训练

Python分词情感分析工具——SnowNLP

snownlp和nltk啥关系

python snownlp情感分析简易demo

Python文本分析（NLTK,jieba,snownlp）