贝叶斯分类器
Posted 小桂子的MachineLearning
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了贝叶斯分类器相关的知识,希望对你有一定的参考价值。
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和判断损失来选择最优的类别标记。
我们的任务是寻找一个判定准则h:最小化总体风险。显然,对每个样本x,若h能最小化个体风险,则总体风险也将被最小化。这就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标签,即:
称为贝叶斯最优分类器,与之对应的总体风险称为贝叶斯风险。1-反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
此时条件风险为:R(c|x)=1-p(c|x)。(p(c|x)为样本x分到c标签的后验概率)
于是,最小化分类错误率的贝叶斯最优分类器为
即对每个样本x,选择能使后验概率P(c|x)最大的类别标签。
基于贝叶斯定理,P(c|x)可写为:
其中,P(c)是类先验概率;P(x|c)是样本x相对于类标记c的类条件概率,或称为“似然”;P(x)是用于归一化的“证据因子”。对给定样本,证据因子P(x)与类别标签无关,因此P(c|x)的问题就转化为如何基于训练数据D来估计先验概率P(c)和似然P(x|c)。
类先验概率P(c)表达了样本空间中各种样本所占的比例,根据大数定理,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率进行估计。
对类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。
估计类条件概率一种常用的策略是先假定其具有某种确定的概率分布模型,再基于训练样本对概率分布的参数进行极大似然估计。对于P(x|c),假定具有确定的分布模型且被参数唯一确定,我们要做的就是利用训练集D对参数进行极大似然估计。
这种参数化的方法虽然能使类条件概率估计变得相对简单,但估计的准确性严重依赖于所假设的概率分布模型是否符合潜在的真实数据分布。在显示应用中很难估计概率分布模型。
朴素贝叶斯分类器
基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:类条件概率P(x|c)是所有属性的上的联合概率,难以从有限的训练样本直接估计而得。为了避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。也就是说,假设每个属性独立地对分类结果发生影响。
基于属性条件独立性假设,贝叶斯公式可写为:
其中d为属性数,为样本x在第i个属性上的取值。
由于对所有类别来说P(x)相同,因此基于式4的贝叶斯判定准则有:
这就是朴素贝叶斯分类器的表达式。
朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率。
令为训练集D中第c类样本的集合,若有充足的独立同分布样本,则可以估计出类先验概率
对连续性属性而言,可以考虑概率密度函数。假设某种属性服从特定的概率分布模型,利用已有的样本对模型参数进行极大似然估计,得到概率密度函数
拉普拉斯修正
为了避免其它属性携带的信息被训练集中为出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”。具体来说,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,则式8、式9修正为:
拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程中所引入的先验的影响也会逐渐变得可忽略,使得修正过程逐渐趋向于实际概率值。
以上是关于贝叶斯分类器的主要内容,如果未能解决你的问题,请参考以下文章