概率图模型01 简介

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了概率图模型01 简介相关的知识,希望对你有一定的参考价值。

参考技术A 最近开始看《模式识别与机器学习》的时候,遇到了一些障碍,所以开始学习概率图模型,为了更好的充电以及激励自己,开始写这个博客也主要是想开始正统的学习一下,里面主要跟的是eric xing的概率图模型的课程,希望自己可以坚持翻译完里面的课堂笔记,以及完成作业。:)

在这节课当中,我们主要介绍了贝叶斯网络的概念,以及贝叶斯网络如何能够表现出随机变量之间的内在独立关系。我们同时还讨论了贝叶斯网络当中的不同的结构,并且它们如何编码不同的随即变量独立信息。最后,我们通过稳固性以及完备性,来分析贝叶斯网络与概率模型的等价关系。

该课程中使用的概念如下

概率图模型主要用来做什么?我们可以看这么一个式子:

P(X_1,X_2,...X_n)\qquad\qquad(1)
上面的是一个联合分布概率,一般情况下,我们暂时假设他们都是离散类型的变量(当然也可以是连续的)假如我们要精确的表达出上面的分布,一般情况下可以这么来做,上面的n个变量,我们假设每个变量有两个值在这样的情况下,当我们需要去表达一个具体的概率的时候,我们至少需要 2^n 来表达上面的联合分布概率但是,假如,仅仅是假如,变量之间有一定的关系呢?比如 X_1 与 X_2 是互相独立的,那么我们可以稍微省略一点东西在里面极端情况下,所有的变量都独立,
P(X_1,X_2,...X_n)=P(X_1)P(X_2)P(X_3)...P(X_n)\qquad\qquad(3)
那么我们的复杂度瞬间总原来的 2^n 下降到了 2n ,但是显然大部分情况下实际应用当中,没有这么好的事情存在,这样的模型大大的降低了复杂程度,但是在另外一个方面,表达能力大大的降低了。我们来看看另外一个极端的例子:

P(X_1,X_2,...X_n)=P(X_1)P(X_2|X_1)P(X_3|X1,X_2)...P(X_n|X_1,X_2,...X_n-1)\qquad\qquad(2)

上面的这个式子,每一个都是之前的变量都是前面的条件概率,这样的式子,可以表达任何条件独立的情况,假如我们想用(2)来表达(3),那么也很简单,因为(2)当中如果真正条件独立,必然存在这样的情况 P(X_2|X_1)=P(X_2) 自然就的到了(3),但是这样的情况,又会让式子变得及其复杂,我们的复杂度又回到了原来的情况。一般的式子都是介于这两种极端情况之间,也就是说,里面部分变量互相独立,部分变量有关系。也有变量条件独立。

主要有三个优点

假设这么一个场景,你去赌场里面赌博,当然你的目的主要为了赢钱,每个人都要下注$1,来掷一次色子,谁最大的可以赢得$2。现在想象一下,你玩了很久,然后发现这么一个情况,赌场方面在掷色子的时候,出现6的情况总是很高,高的不同寻常,你觉得色子有问题,或者说,你觉得,在你掷色子的时候,这个色子是一个正常的色子,当赌场方面掷色子的时候这个色子被偷偷换成了作弊的色子。在这样的情况下,你会问三个问题

为了解决上面的问题,我们至少需要三个步骤来进行建模:选择模型的变量,选择模型的结构,选择相关的概率,我们来对此做一个例子:

贝叶斯网络是一种有向的不闭环的网络,(首先是有向,学过图的人应该知道有向图,然后是不闭环,就是说我们找不到一条路径,可以让一个点作为起点,也作为终点。),贝叶斯网络主要用来编码概率分布里面的条件依赖与独立。(后面会详细的说一下什么是条件独立,条件不独立,也就是依赖)。其中,节点主要代表随机变量,箭头代表的是两个随机变量之间的依赖关系。

因子化主要是根据“节点是被它们的父节点所影响”这个理念,来提供一种最直接的,普遍的联合分布概率表达方式。直观的来说,因子化提供的是一种贝叶斯网络版本的联合分布表达方式。也就是说,我们首先有一个联合分布,我们也它的图,那么我们可以根据图来直接进行因子化,我们只需要如下这么写就好了:
P(X_1,X_2,...X_n) = \prod_i=1:nP(X_i|Parents(X_i))

下面我们主要介绍三种局部化结构,并且它们的独立性。这样的局部结构组成了贝叶斯网络。(其实可以这么想,一个不闭环的图只能有这三种局部结构)。我们可以通过这三种结构来进行合适的表示,表示出所有的贝叶斯网络,具体详细见图2

我们现在考虑这么一个问题:给定分布P,我们如何构建一个图,使得这个图可以表示这个分布P所有的独立性?反之亦然。直观的来说,我们假设现在有一个图G,如果图G中所有的独立性声明,同时在P当中也是满足的,那么我们可以断言,图G是分布P的一个I-map。因此,G要成为P的一个I-map那就要求,我们观察到的独立性,在P中必须存在。但是,反过来说,当G是分布P的一个I-map的时候,分布P可能包含G里面不存在的独立性。

公式化的角度来定义的话,假设P是X上的一个分布。我们定义I(P)是在P当中各种独立性的声明的集合比如( X\perp Y|Z ),假设我们有一个图K,我们现在从图K中也得出了一个独立性集合I(K),并且I(K)属于I(P),那么我们就可以说,K是P的一个I-map 。

上面的一些图G反应的是局部马尔可夫性质以及全局马尔可夫独立性。具体的来说,我们首先来看看局部马尔可夫性,局部马尔可夫性说的是,当我们观察到一个节点的所有父母节点之后,那么该节点与其他飞后继节点(也就是起点是X终点指向的节点)独立。公式化的方式来说,我们定义 P_aX_i  为在G中 X_i 的父节点 定义 NonDescendants X_i  为除了X子节点之外的所有节点。那么,存在如下性质的独立性: X_i\perp NonDescendants X_i|P_aX_i:\forall i

全局马尔可夫性质和D-分离的概念有关,

以上是关于概率图模型01 简介的主要内容,如果未能解决你的问题,请参考以下文章

1. 概率图模型

概率图模型

概率图模型

概率图模型

第二章 概率图模型的基本原理

概率图模型