数据挖掘之八——朴素贝叶斯分类器

Posted 量化日志

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘之八——朴素贝叶斯分类器相关的知识,希望对你有一定的参考价值。

贝叶斯定理

            在描述贝叶斯定理怎样应用于分类之前,我们先从统计学的角度对分类问题加以形式化。‍‍‍‍X表示特征属性集‍‍‍‍Y‍‍‍‍表示类变量。如果类变量和属性之间的关系不确定,那么我们可以把X‍‍‍‍Y作随机变量,用‍‍‍‍P(Y|X)以‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍方式捕捉二者之间的关系。这个条件概率又称为Y的后验概率,与‍‍之相对地, P ( Y ) ‍‍‍‍称为Y的先验概率)。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

            ‍‍在训练阶段,我们要根据从训练数据中收集的信息,XY的每一种‍‍‍‍‍‍组合学习后验概‍‍率P(Y|X),即在样本特征属性已知的情况下,通过算得不同分类下的后验概率,来找出使后验概率P(Y′|X′)最大的类 Y ′来 ‍‍测试记‍‍‍‍‍‍‍‍录X‍‍′进行分类‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

          ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍ ‍‍比较不同Y值下的后验概率时‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍分母 P ( X ) ‍‍‍‍‍‍总是常数,因此可以忽略。‍‍先验概率‍‍‍‍‍‍‍‍‍‍P(Y)可以通过计算训练集中属于每个类的训练记录所占的比例进‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍行估‍‍计。对类条件概率 P ( X | Y ) 的估计,则有两种实现方法:[朴素贝叶斯分类器]和[贝叶斯信念网络],本篇讲解朴素贝叶斯分类器。

            朴素贝叶斯的思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别

            为了对p(x|y)建模,算法做一个假设,称为朴素贝叶斯假设,由朴素贝叶斯假设推导出的分类器叫做朴素贝叶斯分类器。朴素贝叶斯假设是:假设给定分类y后,特征向量中的各个分量xi是条件独立的。尽管该假设在现实中不是很成立,但在不大幅降低分类精度的情况下,有助于简化运算。


朴素贝叶斯分类器工作原理

数据挖掘之八——朴素贝叶斯分类器

数据挖掘之八——朴素贝叶斯分类器

拉普拉斯平滑

            又被称为加1平滑,是比较常用的平滑方法。平滑方法的存在是为了解决零概率问题

            零概率问题,就是在计算实例被分到某类的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致实例的分类概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,在某分类下该词语出现的条件概率为0,在朴素贝叶斯算法中为了计算后验概率p(x|y),其基于各属性相互独立的假设,会使用连乘来计算出实例分类概率为0。这是不合理的。

            假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。


应用举例

            本文以经典的天气分类问题举例,生动展示了新的一天天气属性数据到来的时候,基于贝叶斯算法,play是yes还是no。


以上是关于数据挖掘之八——朴素贝叶斯分类器的主要内容,如果未能解决你的问题,请参考以下文章

使用朴素贝叶斯分类器进行意见挖掘

动态朴素贝叶斯分类器和朴素贝叶斯分类器有啥区别

“移花接木”(朴素贝叶斯分类器)

机器学习系列-朴素贝叶斯分类器

数据挖掘十大经典算法之朴素贝叶斯

19贝叶斯分类器:半朴素贝叶斯分类器(属性之间存在依赖)