SnowNLP 使用自定义语料进行模型训练

Posted 2021-05-24 雪轻鸿

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SnowNLP 使用自定义语料进行模型训练相关的知识，希望对你有一定的参考价值。

SnowNLP 是一个功能强大的中文文本处理库，它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能，像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客，就会发现博主使用了摘要提取这一功能来增强博客的SEO，即通过自然语言处理(NLP)技术，提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论，所以，当我们面对不同的使用场景时，它自带的这个模型难免会出现“水土不服”。因此，如果我们希望得到更接近实际的结果，最好的方案是使用自定义语料进行模型训练。值得庆幸的是，这一切在 SnowNLP 中实施起来非常简单，并不需要我们去钻研那些高深莫测的算法。至此，就引出了今天这篇博客的主题，即 SnowNLP 使用自定义语料进行模型训练。

不知道大家是否还有印象，博主曾经在《通过Python分析2020年全年微博热搜数据》这篇文章中提到过 SnowNLP 的模型训练。当时，博主采集了整个 2020 年的微博热搜话题，因为要体现整个一年里的情感变化，博主特意找了两份微博语料，并以此为基础训练出了一个模型文件。

以上是关于SnowNLP 使用自定义语料进行模型训练的主要内容，如果未能解决你的问题，请参考以下文章

SnowNLP:一个强大的python中文文本处理库

实验一：训练Bigram模型并预测句子概率|自然语言

R语言构建文本分类模型并使用LIME进行模型解释实战：文本数据预处理构建词袋模型构建xgboost文本分类模型基于文本训练数据以及模型构建LIME解释器解释一个测试语料的预测结果并可视化

R语言构建文本分类模型并使用LIME进行模型解释实战：文本数据预处理构建词袋模型构建xgboost文本分类模型基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化

NLP之CRF分词训练

机器学习/NLP 文本分类：从文本文件的语料库中训练模型 - scikit learn