SnowNLP:一个强大的python中文文本处理库
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SnowNLP:一个强大的python中文文本处理库相关的知识,希望对你有一定的参考价值。
参考技术A 笔者由于最近做一个监控应用评论内容的项目,为满足需求,需要对抓取下来的应用评论做中文语义识别,结果搜出来的大部分都是仅限英文语义识别的库,搜好久才找到这个国人开发的中文文本处理库(包含语义识别功能),特此介绍给大家。跟其他python类库一样,使用pip安装就行了
用的时候,有时候可能会觉得有些语句分析出来的结果会不太准确,这时候你就需要更新语料库,再进行训练,这样下次分析出来的结果就更加准确了。下面介绍一下如何进行训练
首先准备两份语料文本,neg.txt(负面语料文本) pos.txt(积极语料文本)
再次把生成好的sentiment.marshal放入类库的/sentiment 就可以了
试用效果如下,分析各渠道应用市场评论内容的情感:
目前笔者也仅仅试用了情感分析的功能而已,其他功能欢迎读者自行试用,总之就是相当强大
SnowNLP 使用自定义语料进行模型训练
SnowNLP 是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF
、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank
等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的SEO
,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现“水土不服”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的是,这一切在 SnowNLP 中实施起来非常简单,并不需要我们去钻研那些高深莫测的算法。至此,就引出了今天这篇博客的主题,即 SnowNLP 使用自定义语料进行模型训练。
不知道大家是否还有印象,博主曾经在 《通过Python分析2020年全年微博热搜数据》 这篇文章中提到过 SnowNLP 的模型训练。当时,博主采集了整个 2020 年的微博热搜话题,因为要体现整个一年里的情感变化,博主特意找了两份微博语料,并以此为基础训练出了一个模型文件。
以上是关于SnowNLP:一个强大的python中文文本处理库的主要内容,如果未能解决你的问题,请参考以下文章