概率图模型01 简介

Posted 2023-03-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了概率图模型01 简介相关的知识，希望对你有一定的参考价值。

参考技术A 最近开始看《模式识别与机器学习》的时候，遇到了一些障碍，所以开始学习概率图模型，为了更好的充电以及激励自己，开始写这个博客也主要是想开始正统的学习一下，里面主要跟的是eric xing的概率图模型的课程，希望自己可以坚持翻译完里面的课堂笔记，以及完成作业。：）

在这节课当中，我们主要介绍了贝叶斯网络的概念，以及贝叶斯网络如何能够表现出随机变量之间的内在独立关系。我们同时还讨论了贝叶斯网络当中的不同的结构，并且它们如何编码不同的随即变量独立信息。最后，我们通过稳固性以及完备性，来分析贝叶斯网络与概率模型的等价关系。

该课程中使用的概念如下

概率图模型主要用来做什么?我们可以看这么一个式子：

P(X_1,X_2,...X_n)\qquad\qquad(1)
上面的是一个联合分布概率，一般情况下，我们暂时假设他们都是离散类型的变量（当然也可以是连续的）假如我们要精确的表达出上面的分布，一般情况下可以这么来做，上面的n个变量，我们假设每个变量有两个值在这样的情况下，当我们需要去表达一个具体的概率的时候，我们至少需要 2^n 来表达上面的联合分布概率但是，假如，仅仅是假如，变量之间有一定的关系呢？比如 X_1 与 X_2 是互相独立的，那么我们可以稍微省略一点东西在里面极端情况下，所有的变量都独立，
P(X_1,X_2,...X_n)=P(X_1)P(X_2)P(X_3)...P(X_n)\qquad\qquad(3)
那么我们的复杂度瞬间总原来的 2^n 下降到了 2n ，但是显然大部分情况下实际应用当中，没有这么好的事情存在，这样的模型大大的降低了复杂程度，但是在另外一个方面，表达能力大大的降低了。我们来看看另外一个极端的例子：

P(X_1,X_2,...X_n)=P(X_1)P(X_2|X_1)P(X_3|X1,X_2)...P(X_n|X_1,X_2,...X_n-1)\qquad\qquad(2)

上面的这个式子，每一个都是之前的变量都是前面的条件概率，这样的式子，可以表达任何条件独立的情况，假如我们想用(2)来表达(3)，那么也很简单，因为(2)当中如果真正条件独立，必然存在这样的情况 P(X_2|X_1)=P(X_2) 自然就的到了(3),但是这样的情况，又会让式子变得及其复杂，我们的复杂度又回到了原来的情况。一般的式子都是介于这两种极端情况之间，也就是说，里面部分变量互相独立，部分变量有关系。也有变量条件独立。

主要有三个优点

假设这么一个场景，你去赌场里面赌博，当然你的目的主要为了赢钱，每个人都要下注$1，来掷一次色子，谁最大的可以赢得$2。现在想象一下，你玩了很久，然后发现这么一个情况，赌场方面在掷色子的时候，出现6的情况总是很高，高的不同寻常，你觉得色子有问题，或者说，你觉得，在你掷色子的时候，这个色子是一个正常的色子，当赌场方面掷色子的时候这个色子被偷偷换成了作弊的色子。在这样的情况下，你会问三个问题

为了解决上面的问题，我们至少需要三个步骤来进行建模：选择模型的变量，选择模型的结构，选择相关的概率，我们来对此做一个例子：

贝叶斯网络是一种有向的不闭环的网络，（首先是有向，学过图的人应该知道有向图，然后是不闭环，就是说我们找不到一条路径，可以让一个点作为起点，也作为终点。），贝叶斯网络主要用来编码概率分布里面的条件依赖与独立。（后面会详细的说一下什么是条件独立，条件不独立，也就是依赖）。其中，节点主要代表随机变量，箭头代表的是两个随机变量之间的依赖关系。

因子化主要是根据“节点是被它们的父节点所影响”这个理念，来提供一种最直接的，普遍的联合分布概率表达方式。直观的来说，因子化提供的是一种贝叶斯网络版本的联合分布表达方式。也就是说，我们首先有一个联合分布，我们也它的图，那么我们可以根据图来直接进行因子化，我们只需要如下这么写就好了：
P(X_1,X_2,...X_n) = \prod_i=1:nP(X_i|Parents(X_i))

下面我们主要介绍三种局部化结构，并且它们的独立性。这样的局部结构组成了贝叶斯网络。（其实可以这么想，一个不闭环的图只能有这三种局部结构）。我们可以通过这三种结构来进行合适的表示，表示出所有的贝叶斯网络，具体详细见图2

我们现在考虑这么一个问题：给定分布P，我们如何构建一个图，使得这个图可以表示这个分布P所有的独立性？反之亦然。直观的来说，我们假设现在有一个图G，如果图G中所有的独立性声明，同时在P当中也是满足的，那么我们可以断言，图G是分布P的一个I-map。因此，G要成为P的一个I-map那就要求，我们观察到的独立性，在P中必须存在。但是，反过来说，当G是分布P的一个I-map的时候，分布P可能包含G里面不存在的独立性。

公式化的角度来定义的话，假设P是X上的一个分布。我们定义I(P)是在P当中各种独立性的声明的集合比如( X\perp Y|Z )，假设我们有一个图K，我们现在从图K中也得出了一个独立性集合I（K）,并且I（K）属于I（P），那么我们就可以说，K是P的一个I-map 。

上面的一些图G反应的是局部马尔可夫性质以及全局马尔可夫独立性。具体的来说，我们首先来看看局部马尔可夫性，局部马尔可夫性说的是，当我们观察到一个节点的所有父母节点之后，那么该节点与其他飞后继节点（也就是起点是X终点指向的节点）独立。公式化的方式来说，我们定义 P_aX_i 　为在G中 X_i 的父节点　定义 NonDescendants X_i 　为除了X子节点之外的所有节点。那么，存在如下性质的独立性： X_i\perp NonDescendants X_i|P_aX_i:\forall i

全局马尔可夫性质和D-分离的概念有关，

以上是关于概率图模型01 简介的主要内容，如果未能解决你的问题，请参考以下文章