Day079|贝叶斯分类器Bayes classifier

Posted PhD日记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Day079|贝叶斯分类器Bayes classifier相关的知识,希望对你有一定的参考价值。

7.1 贝叶斯决策论

贝叶斯决策轮(Bayesian Decision Theory)是概率框架下实施决策的基本方法。


假设有 N 种可能的类别标记, 即 Y={c1,c2,...,cN} , λij 是一个将真实标记为 cj的样本误分类为 ci 所产生的损失. 基于后验概率 P(ci|x) 可获得将样本 x 分类为 ci 所产生的期望损失(Expected Loss), 即在样本 x 上的'条件风险'(Conditional Risk):

我们的任务是寻找一个判定准则 h:X↦Y 以最小化总体风险:

Day079|贝叶斯分类器Bayes classifier(1)

贝叶斯判定准则(Bayes Decision Rule): 为最小化总体风险, 只需在每个样本上选择那个能使条件风险 R(c|x) 最小的类别标记, 即:

Day079|贝叶斯分类器Bayes classifier(1)

此时, h∗ 称为贝叶斯最优分类器(Bayes Optimal Classifier), 与之对应的总体风险 R(h∗)称为贝叶斯风险(Bayes Risk). 1−R(h∗) 反映了分类器所能达到的最好性能, 即通过机器学习所能产生的模型精度的理论上限.


若目标是最小化分类错误率, 则误判损失 λij 可写为:

Day079|贝叶斯分类器Bayes classifier(1)

此时条件风险:

Day079|贝叶斯分类器Bayes classifier(1)

于是, 最小化分类错误率的贝叶斯最优分类器为:

Day079|贝叶斯分类器Bayes classifier(1)

即对每个样本 x ,选择能使后验概率 P(c|x) 最大的类别标记。


机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c|x) . 大体来说, 主要有两种策略:

  1. 给定 x , 可通过直接建模 P(c|x)来预测 c , 这样得到的是'判别式模型'(Discriminative Models);

  2. 也可先对联合概率分布 P(x,c) 建模, 然后再由此获得 P(c|x) , 这样得到的是'生成式模型'(Generative Models). 


对生成式模型来说, 必然考虑:

基于贝叶斯定理, P(c|x) 可写为:

P(c) 是类'先验'(Prior)概率;

 P(x|c) 是样本 x 相对于类标记 c 的类条件概率(Class-Conditional Probability), 或称为'似然'(Likelihood);

 P(x) 是用于归一化的'证据'(Evidence)因子.


对给定样本 x , 证据因子 P(x) 与类标记无关, 因此估计 P(c|x) 的问题就转化为如何基于训练数据 D 来估计先验 P(c) 和似然 P(x|c) . 类先验概率 P(c)表达了样本空间中各类样本所占的比例, 根据大数定律, 当训练集包含充足的独立同分布样本时, P(c) 可通过各类样本出现的频率来进行估计.


以上是关于Day079|贝叶斯分类器Bayes classifier的主要内容,如果未能解决你的问题,请参考以下文章

朴素贝叶斯分类器Naive Bayes

干货|非常通俗的朴素贝叶斯算法(Naive Bayes)

大数据:Spark mlib Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析

基于Naive Bayes算法的文本分类

详解线性分类-朴素贝叶斯分类器(Naive Bayes Classifer)白板推导系列笔记

朴素贝叶斯分类器的应用 Naive Bayes classifier