李航统计学习方法 Chapter4 朴素贝叶斯法

Posted Real&Love

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李航统计学习方法 Chapter4 朴素贝叶斯法相关的知识,希望对你有一定的参考价值。

如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道

第4章 朴素贝叶斯法

1.朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布
P ( X , Y ) P(X,Y) P(X,Y),然后求得后验概率分布 P ( Y ∣ X ) P(Y|X) P(YX)。具体来说,利用训练数据学习 P ( X ∣ Y ) P(X|Y) P(XY) P ( Y ) P(Y) P(Y)的估计,得到联合概率分布:
P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X,Y)=P(Y)P(X|Y) P(X,Y)P(Y)P(XY)
概率估计方法可以是极大似然估计或贝叶斯估计。

2.朴素贝叶斯法的基本假设是条件独立性,

P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯   , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \\begin{aligned} P(X&=x | Y=c_{k} )=P\\left(X^{(1)}=x^{(1)}, \\cdots, X^{(n)}=x^{(n)} | Y=c_{k}\\right) \\\\ &=\\prod_{j=1}^{n} P\\left(X^{(j)}=x^{(j)} | Y=c_{k}\\right) \\end{aligned} P(X=xY=ck)=P(X(1)=x(1),,X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck)

这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现。其缺点是分类的性能不一定很高。

3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

P ( Y ∣ X ) = P ( X , Y ) P ( X ) = P ( Y ) P ( X ∣ Y ) ∑ Y P ( Y ) P ( X ∣ Y ) P(Y | X)=\\frac{P(X, Y)}{P(X)}=\\frac{P(Y) P(X | Y)}{\\sum_{Y} P(Y) P(X | Y)} P(YX)=P(X)P(X,Y)=YP(Y)P(XY)P(Y)P(XY)
将输入 x x x分到后验概率最大的类 y y y

y = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j = 1 n P ( X j = x ( j ) ∣ Y = c k ) y=\\arg \\max _{c_{k}} P\\left(Y=c_{k}\\right) \\prod_{j=1}^{n} P\\left(X_{j}=x^{(j)} | Y=c_{k}\\right) y=argckmaxP(Y=ck)j=1nP(Xj=x(j)Y=ck)
后验概率最大等价于0-1损失函数时的期望风险最小化。

模型:

  • 高斯模型
  • 多项式模型
  • 伯努利模型

朴素贝叶斯法与贝叶斯估计(Bayesian estimation)是不同的概念。

后验概率最大化的含义

朴素贝叶斯将实例分到后验概率最大的类中,等价于期望风险最小化。假设我们选择了 0 − 1 0-1 01损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) (1) L(Y,f(X))=\\begin{cases} 1, & Y \\neq f(X)\\\\ 0, & Y = f(X) \\end{cases} \\tag{1} L(Y,f(X))={1,0,Y=f(X)Y=f(X)(1)
对于我们的期望风险函数,我们可以对齐取条件期望,可以得到
R e x p ( f ) = E X ∑ k = 1 K [ L ( c k , f ( X ) ) ] P ( c k ∣ X ) R_{exp}(f)=E_X\\sum^K_{k=1}[L(c_k,f(X))]P(c_k|X) Rexp(f)=EXk=1K[L(ck,f(X))]P(ckX)
然后为了使期望风险最小化,我们可以对每一个 X = x X=x X=x逐个极小化,可以得到
f ( x ) = a r g m i n y ∈ Y ∑ k = 1 K [ L ( c k , f ( X ) ) ] P ( c k ∣ X ) = a r g m i n y ∈ Y ∑ k = 1 K P ( y ≠ c k ∣ X = x ) = a r g m i n y ∈ Y ( 1 − P ( y = c k ∣ X = x ) ) = a r g m a x y ∈ Y P ( y = c k ∣ X = x ) \\begin{aligned} f(x) &= argmin_{y \\in Y}\\sum^K_{k=1}[L(c_k,f(X))]P(c_k|X)\\\\ &= argmin_{y \\in Y}\\sum^K_{k=1}P(y \\neq c_k|X=x)\\\\ &= argmin_{y \\in Y}(1-P(y=c_k|X=x))\\\\ &= argmax_{y \\in Y}P(y=c_k|X=x) \\end{aligned} f(x)=argminyYk=1K[L(ck,f(X))]P(ckX)=argminyY李航统计方法(四)---朴素贝叶斯

统计学习方法--朴素贝叶斯法

统计学习方法与Python实现——朴素贝叶斯法

统计学习方法-朴素贝叶斯

统计学习方法-朴素贝叶斯

统计学习方法 第4章 朴素贝叶斯法