学习使用sklearn自带的贝叶斯分类器进行文本分类和参数调优

Posted 2021-04-25 机器学习研究会

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了学习使用sklearn自带的贝叶斯分类器进行文本分类和参数调优相关的知识，希望对你有一定的参考价值。

点击上方 “机器学习研究会”可以订阅哦

摘要

Part 1: 本篇内容简介

在前一篇文章完整手写一个朴素贝叶斯分类器，完成文本分类，我们使用首先假设在文档中出现的单词彼此独立，利用贝叶斯定理，完成了一个简单的文本分类器的编写，在真实数据的测试上，显示了良好的效果。

其实要是了解的人都应该知道，这个python的机器学习库，实现了我们常用的大部分机器学习算法，免除了我们重复造轮子的痛苦。我们使用和上一篇博客同样的数据，使用sklearn自带的贝叶斯分类器完成文本分类，同时和上一篇文章手写的分类器，进行分类精度、速度、灵活性对比。

Part 2: 朴素贝叶斯的在文本分类中常用模型：多项式、伯努利

朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型(multinomial model)即为词频型和伯努利模(Bernoulli model)即文档型。二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在d中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为“反方”参与的。这里暂不虑特征抽取、为避免消除测试文档时类条件概率中有为0现象而做的取对数等问题。

原文链接：

http://mp.weixin.qq.com/s/lKntcRuvLlu7e9jzvppwow

“完整内容”请点击【阅读原文】

↓↓↓

以上是关于学习使用sklearn自带的贝叶斯分类器进行文本分类和参数调优的主要内容，如果未能解决你的问题，请参考以下文章

算法 | 使用sklearn自带的贝叶斯分类器进行文本分类和参数调优

朴素贝叶斯分类算法的sklearn实现

如何使用 sklearn 库使用朴素贝叶斯执行文本分类？

朴素贝叶斯实战：新闻文本分类

实战|朴素贝叶斯分类对文档进行分类

[学习记录]sklearn贝叶斯及SVM文本分类