PRML 2.1 二元变量
Posted Real&Love
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML 2.1 二元变量相关的知识,希望对你有一定的参考价值。
PRML 2.1 二元变量
2.1.1 伯努利分布 Bernoulli
考虑抛一个损坏的硬币的实验, 如果抛正面为1, 抛反面为0, 那么有如下二元随机变量
x
∈
{
0
,
1
}
x\\in\\{0,1\\}
x∈{0,1}。因为硬币是损坏的,所以抛正反面的概率不一定相同,现在我们假设抛正面的概率是
μ
\\mu
μ,即
x
=
1
x=1
x=1的概率为
μ
\\mu
μ。因此有:
p
(
x
=
1
∣
μ
)
=
μ
p
(
x
=
0
∣
μ
)
=
1
−
μ
p(x=1|\\mu)=\\mu p(x=0|\\mu)=1-\\mu
p(x=1∣μ)=μp(x=0∣μ)=1−μ
所以
x
x
x的概率分布可以写成:
B
e
r
n
(
x
∣
μ
)
=
μ
x
(
1
−
μ
)
1
−
x
Bern(x|\\mu)=\\mu^x(1-\\mu)^{1-x}
Bern(x∣μ)=μx(1−μ)1−x
这就是最简单的伯努利分布(0-1分布),x只能取0或者1
-
期望:
E [ X ] = μ E[X]=\\mu E[X]=μ -
方差:
V a r [ x ] = μ ( 1 − μ ) Var[x]=\\mu(1-\\mu) Var[x]=μ(1−μ)
2.1.2 二项分布
现在我们假设有个
x
x
x的观测集
D
=
x
1
,
.
.
.
,
x
N
D={x_1,...,x_N}
D=x1,...,xN,假设每次构造都是从
p
(
x
∣
μ
)
p(x|\\mu)
p(x∣μ)中独立地抽取。构造
μ
\\mu
μ的似然函数如下:
p
(
D
∣
μ
)
=
∏
n
=
1
N
p
(
x
n
∣
μ
)
=
∏
n
=
1
N
μ
x
n
(
1
−
μ
)
1
−
x
n
p(D|\\mu) = \\prod ^N_{n=1}p(x_n|\\mu)=\\prod ^N_{n=1}\\mu^{x_n}(1-\\mu)^{1-x_n}
p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)1−xn
等式两边取对数有:
ln
p
(
D
∣
μ
)
=
∑
n
=
1
N
ln
p
(
x
n
∣
μ
)
=
∑
n
=
1
N
{
x
n
ln
μ
+
(
1
−
x
n
)
ln
(
1
−
μ
)
}
\\ln p(D|\\mu)=\\sum ^N_{n=1}\\ln p(x_n|\\mu)=\\sum ^N_{n=1}\\{x_n\\ln \\mu + (1-x_n)\\ln (1-\\mu)\\}
lnp(D∣μ)=n=1∑Nlnp(xn∣μ)=n=1∑N{xnlnμ+(1−xn)ln(1−μ)}
另上式关于
μ
\\mu
μ的导数为零,那么得到最大似然的估计值:(建议自己推导一下)
μ
M
L
=
1
N
∑
n
=
1
N
x
n
\\mu_{ML}=\\frac{1}{N}\\sum^{N}_{n=1}x_n
μML=N1n=1∑Nxn
如果我们把正面朝上(
x
=
1
x=1
x=1)的观测的数量记为
m
m
m,那么上述公式为:
μ
M
L
=
m
N
\\mu_{ML}=\\frac{m}{N}
μML=Nm
因为我们只有
0
,
1
{0,1}
0,1取值,所以就为
m
N
\\frac{m}{N}
Nm
x
=
1
x=1
x=1的观测出现
m
m
m的概率分布,这被称为二项分布,在N此抛硬币的过程中,我们需要把所有获得
m
m
m个正面朝上的方式加起来,那么得到:
B
i
n
(
m
∣
N
,
μ
)
=
(
N
m
)
μ
m
(
1
−
μ
N
−
m
)
Bin(m|N,\\mu)= \\binom{N}{m}\\mu^m(1-\\mu^{N-m})
Bin(m∣N,μ)=(mN)μm(1−μN−m)
-
期望
E [ m ] = ∑ m = 0 N m B i n ( m ∣ N , μ ) = N μ E[m]=\\sum^N_{m=0}mBin(m|N,\\mu)=N\\mu E[m]=m=0∑NmBin(m∣N,μ)=Nμ -
方差
V a r [ m ] = ∑ m = 0 N ( m − E [ m ] ) 2 B i n ( m ∣ N , μ ) = N μ ( 1 − μ ) Var[m]=\\sum^N_{m=0}(m-E[m])^2Bin(m|N,\\mu)=N\\mu(1-\\mu) Var[m]=m=0∑N(m−E[m])2Bin(m∣N,μ)=Nμ(1−μ)
除了求和,我们也可以用积分的形式来证明下图给出了 N = 10 N=10 N=10, μ = 0.25 \\mu=0.25 μ=0.25的示意图
2.1.3 Beta分布
在书中,提出了这样一个问题,现假设我们抛3次硬币,碰巧三次都是正面朝上,那么依据二项分布 μ M L = 1 \\mu_{ML}=1 μML=1,这种情况下,最大似然的结果预测所有未来的观测都是正面朝上,对这种小规模的数据集比较容易出现过拟合,此时我们需要利用贝叶斯的观点来看待这个问题。
我们需要引入一个先验分布
B
e
t
a
Beta
Beta分布
B
e
t
a
(
μ
∣
a
,
b
)
=
Γ
(
a
+
b
)
Γ
(
a
)
Γ
(
b
)
μ
a
−
1
(
1
−
μ
)
b
−
1
Beta(\\mu|a,b)=\\frac{\\Gamma (a+b)}{\\Gamma (a)\\Gamma (b)}\\mu^{a-1}(1-\\mu)^{b-1}
Beta(μ∣a,PRML 学习: Polynomial Curve Fitting
PRML 学习: Polynomial Curve Fitting
PRML 学习: Polynomial Curve Fitting