:概率与信息论

Posted HERODING23

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了:概率与信息论相关的知识,希望对你有一定的参考价值。

深度学习——第三章:概率与信息论

前言

深度学习(deep learning)作为深度学习领域的殿堂级作品,囊括了数学领域包括线性代数、概率论、信息论等知识,以及机器学习中的相关内容,同时还介绍了工业界实践者用到的深度学习技术,是深度学习领域最为全面、权威的著作,笔者对于这本书早有耳闻,但是因为其内容充实、数学公式较多一直未敢涉足,借这个夏天的空闲时光,拜读这部作品,希望有所收获。本篇博客内容涉及花书第三章内容,主要介绍机器学习的另一个重要的数学武器——概率和信息论。


概率与信息论

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了导出新的不确定性声明的公理。概率论在人工智能领域两大用法:

  • 设计算法计算或者估算由概率论导出的表达式。
  • 用概率统计从理论上分析提出的AI系统的行为。

概率论使得我们能够提出不确定的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量化概率论分布中的不确定性总量。

1. 为什么要使用概率

机器学习通常必须处理不确定量,有时也可能处理随机量。几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。不确定性有3种可能的来源:

  1. 被建模系统内在的随机性。比如假想的纸牌游戏,在初始前,假设纸牌混洗成了随机顺序。
  2. 不完全观测。比如抽奖游戏,奖券和奖品是一一对应确定的,但是在抽奖者角度结果是不确定的。
  3. 不完全建模。当使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。

频率派概率: 概率直接与时间发生的频率相联系,比如掷硬币。
贝叶斯概率: 涉及确定性水平,用概率表示信任度,比如用概率表示患者患病的可能性。

关于不确定性的常识推理,如果列出了若干期望的性质,那么那么可以把贝叶斯概率和频率派概率视为等同。
概率论提供了一套形式化的规则,可以在给定一些命题的似然后,计算其他命题为真的似然。

2. 随机变量

随机变量是可以随机取不同值的变量。一个随机变量只是对可能的状态的描述,它必须伴随着一个概率分布来指定每个状态的可能性。随机变量可以是离散的或者连续的,离散随机变量拥有有限或者可能无限多的状态(状态可能没有数值只有命名)。连续随机变量伴随着实数值。

3. 概率分布

概率分布用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散还是连续的。

3.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数来描述。通常用大写字母 P P P表示概率质量函数。概率质量函数的作用是将取得的每个状态映射到随机变量取得该状态的概率。对于某个特定的 x x x,其概率表示为: P ( x = x ) P(\\rm x=x) P(x=x)。随机变量的分布一般表示为: x ∼ P ( x ) x\\sim P(x) xP(x)
概率质量函数可以同时作用多个随机变量,这种多个变量的概率分布被称为联合概率分布 P ( x = x , y = y ) P(\\rm x=x,\\rm y=y) P(x=x,y=y)表示 x = x \\rm x=x x=x y = y \\rm y=y y=y同时发生的概率,也可以简写为 P ( x , y ) P(x,y) P(x,y)
如果一个函数 P P P是随机变量 x \\rm x x的概率质量函数,必须满足如下条件:

  • P P P的定义域必须是 x \\rm x x所有可能状态的集合。
  • 任何随机变量的事件概率都在0和1之间。
  • 所有 x x x的概率之和为1。

3.2 连续型变量和概率密度函数

当研究对象是连续型变量时,用概率密度函数 p p p来描述概率分布。它满足如下条件:

  • p p p的定义域必须是 x x x的所有可能状态集合。
  • 对于任意的 x x x p ( x ) ⩾ 0 p(x)\\geqslant 0 p(x)0,注意,这里并不要求 p ( x ) ⩽ 0 p(x)\\leqslant 0 p(x)0
  • ∫ p ( x ) d x = 1 \\int p(x)dx=1 p(x)dx=1

概率密度函数并没有对特定状态给出概率,以微分的形式给出无线小区域的概率。通常用 x ∼ U ( a , b ) x\\sim U(a,b) xU(a,b)表示 x x x [ a , b ] [a,b] [a,b]上是均匀分布的。

4. 边缘概率

有时,知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布

对于离散型随机变量 x x x y y y,我们知道了 P ( x , y ) P(x,y) P(x,y),可以依据下面的求和法则计算 P ( x ) P(x) P(x)
∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \\forall x \\in \\rm x, P(\\rm x=x)=\\sum _yP(\\rm x=x,\\rm y=y) xx,P(x=x)=yP(x=x,y=y)
对于连续型变量,我们需要用积分替代求和:
p ( x ) = ∫ p ( x , y ) d y p(x)=\\int p(x,y)dy p(x)=p(x,y)dy

5. 条件概率

很多情况下,感兴趣的是某个事件在给定其他事件发生时出现的概率。这种概率叫作条件概率。将给定 x = x \\rm x=x x=x y = y \\rm y=y y=y发生的条件概率记为 P ( y = y ∣ x = x ) P(\\rm y=y|\\rm x=x) P(y=yx=x)。计算公式如下:
P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(\\rm y=y|\\rm x=x)=\\fracP(\\rm x=x,\\rm y=y)P(\\rm x=x) P(y=yx=x)=P(x=x)P(x=x,y=y)
注意,不能混淆条件概率和计算当采用某个动作后会发生什么。

6. 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
P ( x ( 1 ) , . . . , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) ∣ x ( 1 ) , . . . , x ( i − 1 ) ) P(x^(1),...,x^(n))=P(x^(1))\\prod _i=2 ^nP(x^(i)|x^(1),...,x^(i-1)) P(x(1),...,x(n))=P(x(1))i=2nP(x(i)x(1),...,x(i1))
这个规律成为概率的链式法则(乘法法则),可以从条件概率的公式中推导得出。

7. 独立性和条件独立性

两个随机变量 x x x y y y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x x x,另一个因子只包含 y y y,我们就称这两个随机变量是相互独立的
∀ x ∈ x , y ∈ y , P ( x = x , y = y ) = P ( x = x ) P ( y = y ) \\forall x \\in \\rm x, y \\in \\rm y,P(\\rm x=x,\\rm y=y)=P(\\rm x=x)P(\\rm y=y) xx,yy,P(x=x,y=y)=P(x=x)P(y=y)
如果 x x x y y y的条件概率分布对于 z z z的每一个值都可以写成乘积形式,那么这两个随机变量 x x x y y y在给定随机变量 z z z时是条件独立的
∀ x ∈ x , y ∈ y , z ∈ z , P ( x = x , y = y ∣ z = z ) = P ( x = x ∣ z = z ) P ( y = y ∣ z = z ) \\forall x \\in \\rm x, y \\in \\rm y,z \\in \\rm z,P(\\rm x=x,\\rm y=y|\\rm z=z)=P(\\rm x=x|\\rm z=z)P(\\rm y=y|\\rm z=z) xx,yy,zz,P(x=x,y=yz=z)=P(x=xz=z)P(y=yz=z)
用简化形式表示独立性和条件独立性: x ⊥ y x\\perp y xy表示 x x x y y y相互独立。 x ⊥ y ∣ z x\\perp y|z xyz表示 x x x y y y在给定 z z z时条件独立。

8. 期望、方差和协方差

函数 f ( x

以上是关于:概率与信息论的主要内容,如果未能解决你的问题,请参考以下文章

信息论与编码| 自信息与信息熵

交叉熵损失函数和focal loss

机器学习中的概率和信息论

统计学基础:信息熵基尼系数

分享 | scala - figaro概率编程入门

关于信息论中熵的定义与含义: