朴素贝叶斯算法小结
Posted 算法小白学习笔记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯算法小结相关的知识,希望对你有一定的参考价值。
一、判别式学习算法和生成式学习算法
对于一个分类问题来说(这里以二分类问题为例),不管是感知器算法还是逻辑回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例只要判断在直线的哪一侧即可,这种直接对问题求解的方法可以成为判别学习方法。生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模型,匹配度较高的作为新样例的类别。
二、贝叶斯公式
朴素贝叶斯算法的核心公式自然是贝叶斯公式:
在机器学习分类算法中,用以下形式可能会更清晰明了:
三、朴素贝叶斯算法的基本思想
-
如果要解决的是一个分类问题,那么我们的任务是根据样本的特征来判断样本属于哪个类别。首先我们要对训练集中的样本进行统计,并计算各个类别的概率(先验概率):
-
接着计算各个类别下各个特征取到某值的概率(条件概率):
-
朴素贝叶斯算法假设各个特征相互独立,这样的话,对于测试集上的一个新样本来说,有以下等式成立:
-
给定测试集上的一个样本(也就是告知样本的各个特征的取值),我们可以计算出:
-
想要计算出后验概率 P(类别y|特征),我们还需要计算出 P(特征),但是任一样本的 P(特征) 在各个类别下的值是完全相同的,又因为我们的目的是找出样本属于哪个类别的概率最大,为了简化计算,分母部分的 P(特征) 可以去掉。
四、拉普拉斯平滑
中有任何一部分的值为 0,则整个式子的值为 0。在对条件概率 进行建模时,发现它们很有可能为 0,为了避免出现这种情况,可以引入拉普拉斯平滑,在建模过程中,假定每个特征的每个取值至少出现 1 次,这样:
五、参考
-
《统计学习方法》 —— 李航 -
机器学习斯坦福公开课 —— 吴恩达
以上是关于朴素贝叶斯算法小结的主要内容,如果未能解决你的问题,请参考以下文章