SnowNLP 使用自定义语料进行模型训练

Posted 雪轻鸿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SnowNLP 使用自定义语料进行模型训练相关的知识,希望对你有一定的参考价值。

SnowNLP 是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型朴素贝叶斯TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的SEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现“水土不服”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的是,这一切在 SnowNLP 中实施起来非常简单,并不需要我们去钻研那些高深莫测的算法。至此,就引出了今天这篇博客的主题,即 SnowNLP 使用自定义语料进行模型训练。

不知道大家是否还有印象,博主曾经在 《通过Python分析2020年全年微博热搜数据》 这篇文章中提到过 SnowNLP 的模型训练。当时,博主采集了整个 2020 年的微博热搜话题,因为要体现整个一年里的情感变化,博主特意找了两份微博语料,并以此为基础训练出了一个模型文件。

以上是关于SnowNLP 使用自定义语料进行模型训练的主要内容,如果未能解决你的问题,请参考以下文章

SnowNLP:一个强大的python中文文本处理库

实验一:训练Bigram模型并预测句子概率|自然语言

R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理构建词袋模型构建xgboost文本分类模型基于文本训练数据以及模型构建LIME解释器解释一个测试语料的预测结果并可视化

R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理构建词袋模型构建xgboost文本分类模型基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化

NLP之CRF分词训练

机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn