李航统计学习方法 Chapter4 朴素贝叶斯法
Posted Real&Love
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了李航统计学习方法 Chapter4 朴素贝叶斯法相关的知识,希望对你有一定的参考价值。
如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道
第4章 朴素贝叶斯法
1.朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),然后求得后验概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)。具体来说,利用训练数据学习
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)和
P
(
Y
)
P(Y)
P(Y)的估计,得到联合概率分布:
P
(
X
,
Y
)
=
P
(
Y
)
P
(
X
∣
Y
)
P(X,Y)=P(Y)P(X|Y)
P(X,Y)=P(Y)P(X∣Y)
概率估计方法可以是极大似然估计或贝叶斯估计。
2.朴素贝叶斯法的基本假设是条件独立性,
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯ , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \\begin{aligned} P(X&=x | Y=c_{k} )=P\\left(X^{(1)}=x^{(1)}, \\cdots, X^{(n)}=x^{(n)} | Y=c_{k}\\right) \\\\ &=\\prod_{j=1}^{n} P\\left(X^{(j)}=x^{(j)} | Y=c_{k}\\right) \\end{aligned} P(X=x∣Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现。其缺点是分类的性能不一定很高。
3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
=
P
(
Y
)
P
(
X
∣
Y
)
∑
Y
P
(
Y
)
P
(
X
∣
Y
)
P(Y | X)=\\frac{P(X, Y)}{P(X)}=\\frac{P(Y) P(X | Y)}{\\sum_{Y} P(Y) P(X | Y)}
P(Y∣X)=P(X)P(X,Y)=∑YP(Y)P(X∣Y)P(Y)P(X∣Y)
将输入
x
x
x分到后验概率最大的类
y
y
y。
y
=
arg
max
c
k
P
(
Y
=
c
k
)
∏
j
=
1
n
P
(
X
j
=
x
(
j
)
∣
Y
=
c
k
)
y=\\arg \\max _{c_{k}} P\\left(Y=c_{k}\\right) \\prod_{j=1}^{n} P\\left(X_{j}=x^{(j)} | Y=c_{k}\\right)
y=argckmaxP(Y=ck)j=1∏nP(Xj=x(j)∣Y=ck)
后验概率最大等价于0-1损失函数时的期望风险最小化。
模型:
- 高斯模型
- 多项式模型
- 伯努利模型
朴素贝叶斯法与贝叶斯估计(Bayesian estimation)是不同的概念。
后验概率最大化的含义
朴素贝叶斯将实例分到后验概率最大的类中,等价于期望风险最小化。假设我们选择了
0
−
1
0-1
0−1损失函数
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
≠
f
(
X
)
0
,
Y
=
f
(
X
)
(1)
L(Y,f(X))=\\begin{cases} 1, & Y \\neq f(X)\\\\ 0, & Y = f(X) \\end{cases} \\tag{1}
L(Y,f(X))={1,0,Y=f(X)Y=f(X)(1)
对于我们的期望风险函数,我们可以对齐取条件期望,可以得到
R
e
x
p
(
f
)
=
E
X
∑
k
=
1
K
[
L
(
c
k
,
f
(
X
)
)
]
P
(
c
k
∣
X
)
R_{exp}(f)=E_X\\sum^K_{k=1}[L(c_k,f(X))]P(c_k|X)
Rexp(f)=EXk=1∑K[L(ck,f(X))]P(ck∣X)
然后为了使期望风险最小化,我们可以对每一个
X
=
x
X=x
X=x逐个极小化,可以得到
f
(
x
)
=
a
r
g
m
i
n
y
∈
Y
∑
k
=
1
K
[
L
(
c
k
,
f
(
X
)
)
]
P
(
c
k
∣
X
)
=
a
r
g
m
i
n
y
∈
Y
∑
k
=
1
K
P
(
y
≠
c
k
∣
X
=
x
)
=
a
r
g
m
i
n
y
∈
Y
(
1
−
P
(
y
=
c
k
∣
X
=
x
)
)
=
a
r
g
m
a
x
y
∈
Y
P
(
y
=
c
k
∣
X
=
x
)
\\begin{aligned} f(x) &= argmin_{y \\in Y}\\sum^K_{k=1}[L(c_k,f(X))]P(c_k|X)\\\\ &= argmin_{y \\in Y}\\sum^K_{k=1}P(y \\neq c_k|X=x)\\\\ &= argmin_{y \\in Y}(1-P(y=c_k|X=x))\\\\ &= argmax_{y \\in Y}P(y=c_k|X=x) \\end{aligned}
f(x)=argminy∈Yk=1∑K[L(ck,f(X))]P(ck∣X)=argminy∈Y李航统计方法(四)---朴素贝叶斯