PRML 2.1 二元变量

Posted Real&Love

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML 2.1 二元变量相关的知识,希望对你有一定的参考价值。

PRML 2.1 二元变量


2.1.1 伯努利分布 Bernoulli

考虑抛一个损坏的硬币的实验, 如果抛正面为1, 抛反面为0, 那么有如下二元随机变量 x ∈ { 0 , 1 } x\\in\\{0,1\\} x{0,1}。因为硬币是损坏的,所以抛正反面的概率不一定相同,现在我们假设抛正面的概率是 μ \\mu μ,即 x = 1 x=1 x=1的概率为 μ \\mu μ。因此有:
p ( x = 1 ∣ μ ) = μ p ( x = 0 ∣ μ ) = 1 − μ p(x=1|\\mu)=\\mu p(x=0|\\mu)=1-\\mu p(x=1μ)=μp(x=0μ)=1μ
所以 x x x的概率分布可以写成:
B e r n ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x Bern(x|\\mu)=\\mu^x(1-\\mu)^{1-x} Bern(xμ)=μx(1μ)1x
这就是最简单的伯努利分布(0-1分布),x只能取0或者1

  • 期望:
    E [ X ] = μ E[X]=\\mu E[X]=μ

  • 方差:
    V a r [ x ] = μ ( 1 − μ ) Var[x]=\\mu(1-\\mu) Var[x]=μ(1μ)


2.1.2 二项分布

现在我们假设有个 x x x的观测集 D = x 1 , . . . , x N D={x_1,...,x_N} D=x1,...,xN,假设每次构造都是从 p ( x ∣ μ ) p(x|\\mu) p(xμ)中独立地抽取。构造 μ \\mu μ的似然函数如下:
p ( D ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = ∏ n = 1 N μ x n ( 1 − μ ) 1 − x n p(D|\\mu) = \\prod ^N_{n=1}p(x_n|\\mu)=\\prod ^N_{n=1}\\mu^{x_n}(1-\\mu)^{1-x_n} p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xn

等式两边取对数有:
ln ⁡ p ( D ∣ μ ) = ∑ n = 1 N ln ⁡ p ( x n ∣ μ ) = ∑ n = 1 N { x n ln ⁡ μ + ( 1 − x n ) ln ⁡ ( 1 − μ ) } \\ln p(D|\\mu)=\\sum ^N_{n=1}\\ln p(x_n|\\mu)=\\sum ^N_{n=1}\\{x_n\\ln \\mu + (1-x_n)\\ln (1-\\mu)\\} lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}

另上式关于 μ \\mu μ的导数为零,那么得到最大似然的估计值:(建议自己推导一下)
μ M L = 1 N ∑ n = 1 N x n \\mu_{ML}=\\frac{1}{N}\\sum^{N}_{n=1}x_n μML=N1n=1Nxn

如果我们把正面朝上( x = 1 x=1 x=1)的观测的数量记为 m m m,那么上述公式为:
μ M L = m N \\mu_{ML}=\\frac{m}{N} μML=Nm
因为我们只有 0 , 1 {0,1} 0,1取值,所以就为 m N \\frac{m}{N} Nm
x = 1 x=1 x=1的观测出现 m m m的概率分布,这被称为二项分布,在N此抛硬币的过程中,我们需要把所有获得 m m m个正面朝上的方式加起来,那么得到:
B i n ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ N − m ) Bin(m|N,\\mu)= \\binom{N}{m}\\mu^m(1-\\mu^{N-m}) Bin(mN,μ)=(mN)μm(1μNm)

  • 期望
    E [ m ] = ∑ m = 0 N m B i n ( m ∣ N , μ ) = N μ E[m]=\\sum^N_{m=0}mBin(m|N,\\mu)=N\\mu E[m]=m=0NmBin(mN,μ)=Nμ

  • 方差
    V a r [ m ] = ∑ m = 0 N ( m − E [ m ] ) 2 B i n ( m ∣ N , μ ) = N μ ( 1 − μ ) Var[m]=\\sum^N_{m=0}(m-E[m])^2Bin(m|N,\\mu)=N\\mu(1-\\mu) Var[m]=m=0N(mE[m])2Bin(mN,μ)=Nμ(1μ)
    除了求和,我们也可以用积分的形式来证明

    下图给出了 N = 10 N=10 N=10, μ = 0.25 \\mu=0.25 μ=0.25的示意图

在这里插入图片描述


2.1.3 Beta分布

在书中,提出了这样一个问题,现假设我们抛3次硬币,碰巧三次都是正面朝上,那么依据二项分布 μ M L = 1 \\mu_{ML}=1 μML=1,这种情况下,最大似然的结果预测所有未来的观测都是正面朝上,对这种小规模的数据集比较容易出现过拟合,此时我们需要利用贝叶斯的观点来看待这个问题。

我们需要引入一个先验分布 B e t a Beta Beta分布
B e t a ( μ ∣ a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a − 1 ( 1 − μ ) b − 1 Beta(\\mu|a,b)=\\frac{\\Gamma (a+b)}{\\Gamma (a)\\Gamma (b)}\\mu^{a-1}(1-\\mu)^{b-1} Beta(μa,PRML 学习: Polynomial Curve Fitting

PRML 学习: Polynomial Curve Fitting

PRML 学习: Polynomial Curve Fitting

PRML中文版(马春鹏)勘误表

PRML - Chapter 1: Introduction

PRML 1.2 概率论