西瓜笔记系列贝叶斯分类
Posted 倘使我是蟹
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了西瓜笔记系列贝叶斯分类相关的知识,希望对你有一定的参考价值。
Q:如何获得后验概率P(c|x)?
A:两种策略,判别式模型(discriminative model)和生成式模型(generative model)。
判别式模型:给定x,直接建模P(c|x)来预测c。
生成式模型:先对联合概率分布P(x,c)建模,再获得P(c|x)。
Q:通过P(x,c)获得P(c|x)的方法?
A:P(c|x) = P(x,c) / P(x), 基于贝叶斯定理可转变成
P(c) :类先验概率,表达样本空间中各类所占的比例。(大数定理)当样本独立同分布时,可通过各样本出现的频率进行估计。
P(x|c):样本x相对于类c的类条件概率(似然)。(极大似然估计)先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。
P(x) - 归一化的证据因子。给定样本x,P(x)与类别c无关。
Q:什么是参数估计(parameter estimation)?
A:概率模型的训练过程就是参数估计的过程。有两种解决方案:
频率派:参数虽然未知,但是却是客观存在的固定值。可通过优化似然函数等准则来确定参数值。
贝叶斯派:参数是未观察到的随机变量,其本身也可有分布。假定参数服从一个先验分布,再基于观测的结果计算参数的后验分布。
Q:什么是极大似然估计(Maximum Likelihood Estimation)?如何估计类别c的类条件概率P(x|c)?
A:假设P(x|c)具有确定的形式,并且被参数向量θc唯一确定,那么估计P(x|c)就转变成利用训练集D估计参数θc。也就是P(x|c) -> P(x|θc)。
若Dc表示训练集D中c类样本组成的集合,假设这些样本是独立同分布的,则θc对于数据集Dc的似然是:
最大似然估计θc,就是找到一个参数θ,能够使得P(Dc|θc)最大。将连乘用log转成连加,也就是对数似然:
那么,θc的最大估计就是使LL最大的那个θ:
Q:朴素贝叶斯分类器有什么特点?与贝叶斯分类器有什么不同?
A:贝叶斯分类器基于贝叶斯判定准则,目标是最小化分类错误率,需要计算P(x|c)。但P(x|c)是类c在所有属性上的联合概率,在属性多的时候会产生组合爆炸的问题。朴素贝叶斯基于“属性条件独立性假设”(对已知类别,假设所有属性相互独立),可以将P(x|c)根据每个属性独立的拆开分别计算。
其中,d为属性个数,xi为x在第i个属性的取值。
最小化分类错误率的最优贝叶斯分类器为:
最小化分类错误率的最优朴素贝叶斯分类器为:
Q:朴素贝叶斯训练过程是怎么样?
A:训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)。P(c)的计算为:
条件概率P(xi|c)的计算为:
以西瓜数据集计算为例,
第一步,计算P(c),即为P(好瓜=是)
第二步,计算P(xi|c),即为P(清晰|是),P(凹陷|是),P(蜷缩|是)... P(清晰|否),P(凹陷|否),P(蜷缩|否)...
第三步,计算给定各属性信息的情况下的P(c|x):
1)计算好瓜的概率:P(好瓜=是)x P(清晰|是)x P(凹陷|是)x ...
2)计算坏瓜的概率:P(好瓜=否)x P(清晰|否)x P(凹陷|否)x ...
3)比较两个概率的大小,判定属于哪个类别
Q:在朴素贝叶斯计算时为何要使用平滑?
A:在计算概率连乘时,如果有一个属性未出现,则概率值为0,连乘会导致所有的概率值乘积为0,从而使其他属性携带的信息被这一未出现的属性抹去,因此,使用拉普拉斯修正对概率值进行平滑。增加一个N表示训练集中可能的类别数,在上例中即为2(好瓜和坏瓜两类),Ni为第i个属性可能的取值数。
Q:什么是半朴素贝叶斯分类器?
A:朴素贝叶斯依赖于“属性条件独立假说”,但是假说毕竟是假说,属性间不能做到完全独立。因此,半朴素贝叶斯分类器就是适当考虑一部分属性间的相互依赖关系。“独依赖估计”是最常用的策略,即假设每个属性最多仅依赖一个其他属性。
pai为父属性,也就是说属性xi还依赖pai这个属性。
寻找父属性有几种方法:SPODE, TAN, AODE等。
Q:什么是贝叶斯网?
A:贝叶斯网借助有向无环图(DAG)来刻画属性间的依赖关系,并使用条件概率表(CPT)来描述属性的联合概率分布。变量之间的典型依赖关系有同父结构、V型结构和顺序结构
Q:什么是隐变量?EM算法是如何估计参数隐变量的?
A:未观测变量即为隐变量。若X为观测变量,Z为隐变量,我们可以对Z计算期望,来最大化X的对数“边际似然”:
EM的基本想法有两步(E步和M步):
E步:若参数已知,根据训练数据推断最优Z。利用当前估计的参数值来计算对数似然的期望值。
M步:若Z已知,对参数进行极大似然估计。寻找能使E步产生的似然期望最大化的参数值。
交替的进行这两步直至收敛。
以上是关于西瓜笔记系列贝叶斯分类的主要内容,如果未能解决你的问题,请参考以下文章