嫁还是不嫁?朴素贝叶斯及其他

Posted 郭老师统计小课堂

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了嫁还是不嫁?朴素贝叶斯及其他相关的知识,希望对你有一定的参考价值。

在中,我们对朴素贝叶斯算法进行了简单介绍。本文对朴素贝叶斯做更具体的阐述。

基本公式

考虑类别变量 ,其有 个不同的类别,即 。在0-1损失,贝叶斯分类器将选择使得条件概率或者后验概率 最大的类别。

根据贝叶斯法则,

分母对于不同的类别都是相同的,故仅需比较分子,即:

这里 是类别变量 取不同类别的先验概率。而对于 ,朴素贝叶斯方法假定 各分量相互独立,则有

嫁还是不嫁?

我们考虑下述例子对朴素贝叶斯方法进行阐释。该例子来自带你理解朴素贝叶斯分类算法

给定数据如下如果一对男女朋友,男生向女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请问该女生是嫁还是不嫁?

这是一个典型的分类问题。对此可比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率。

注意到:

因此我们需要分别求解 以及

基于上表,12对情侣中,6个嫁了,故 可估计为1/2。

为估计 ,我们考虑最终嫁了的6对情侣的情况。数据如下:

在这6组中,不帅的有3个,因此 可估计为1/2;类似地,

由此可得

另外在12组人中,不帅的有4个,所以 ;类似地,

由此可得

最终可得:

这表明嫁的概率远小于不嫁的概率,因此当一个男生不帅、性格不好、身高矮、不上进时,大概率是不嫁!

拉普拉斯平滑

在上述例子中,我们采用频率估计概率。实际上这是基于极大似然方法得出的。但有时某个感兴趣事件发生的次数非常低甚至为0。比如某个学生10次投篮一次都没命中,再比如对于一个广告投放,10次浏览中一次点击都没有。这时若仍采用频率估计概率的方式,则概率将被估计为0,从而对推断产生非常大的影响。

对此一种有效的方法是采用贝叶斯估计。具体地,令

其中 代表第 个特征 的第 个取值, 表示第 个特征 的第 次观测, 代表第 个特征取值的个数。

另外先验概率的贝叶斯估计为:

在上式中, ,等价于在随机变量各个取值的频数上赋予一个正数 。当 时,就是极大似然估计。常取 ,这时称为拉普拉斯平滑(Laplacian smoothing)。

Beta分布

除了拉普拉斯平滑,另一种对概率的贝叶斯估计方法可基于Beta分布。

若随机变量 在(0,1)上取值,且其概率密度函数为:

则称 服从参数为 的Beta分布。这里 表示Gamma函数。当 时,Beta分布退化为(0,1)上的均匀分布。

,现基于 对成功概率 进行估计。首先可采用极大似然的想法,易知似然函数为:

这里 。从而容易求得极大似然估计值为:

即用频率估计概率。

但如前所述,有时频数 可能非常小甚至为0,此时对成功概率 可考虑贝叶斯估计。假定 的先验分布为Beta分布,Beta(a,b)。那么根据贝叶斯公式可知,给定 ,后 的后验分布正比于

由此可知后验分布仍是Beta分布,且参数为

概率 的一个自然估计就是这个后验分布的均值,作为它的贝叶斯估计量,形式如下:

接下来考虑上述贝叶斯估计量是如何形成的。首先注意到先验分布的均值为 ,它是没有见到数据时我们对概率 的最好估计。当不考虑先验信息时,我们会用极大似然估计 来估计 。而贝叶斯估计量则结合了上述所有信息。实际上,

如此, 就表示成先验均值和样本均值的一个线性组合,其组合权重由 确定。若采用无信息先验,即令 ,当 充分大时, 趋于0。这表明此时先验信息起的作用非常小。

最后,在中我们介绍了相应的R语言实现。

本文例子来自带你理解朴素贝叶斯分类算法。

以上是关于嫁还是不嫁?朴素贝叶斯及其他的主要内容,如果未能解决你的问题,请参考以下文章

一文理解朴素贝叶斯分类的拉普拉斯平滑

通俗易懂理解朴素贝叶斯分类的拉普拉斯平滑

朴素贝叶斯

我理解的朴素贝叶斯模型

朴素贝叶斯:朴素贝叶斯定义朴素贝叶斯公式分解朴素贝叶斯分类流程高斯型朴素贝叶斯多项式朴素贝叶斯伯努利型朴素贝叶斯朴素贝叶斯预测概率校准朴素贝叶斯优缺点

SparkMLib分类算法之朴素贝叶斯分类