1. 概率图模型

Posted 2023-03-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了1. 概率图模型相关的知识，希望对你有一定的参考价值。

参考技术A

对现实世界的不确定性进行建模

1.4 贝叶斯公式
通过上面的加法规则和乘法规则，以及P(X,Y)=P(Y,X)。我们可以得到 贝叶斯公式 ：

其中P（X）为：

贝叶斯公式写成另外的一种常见的符号形式：

其中D表示观察到的数据，也成为Evidence， w表示相应的参数。
p(D|w)表示似然函数(likehood function)。P(w)成为参数w的先验。p(w|D)表示参数w的后验概率。
所以可以得到：

其中

优点：

图模型分为三类。

常用于描述变量之间的因果关系
贝叶斯网络中的联合概率：
p(x)=P(xk|parent)

假设三个变量a,b,c上的联合概率分布p(a,b,c).
那么p(a,b,c)=p(c|ba)p(ba)=p(c|ba)p(b|a)p(a)

上面的图是全连接的。但是真实世界中变量之间确实是全连接的吗？
而且真正传递出概率分布性质的有趣信息是图中信息的缺失。
** 为什么呢？**
因为对于全连接的图模型可以用来代表所有的概率分布。这样的状态空间是巨大的。意义不大。
但是对于图中缺少边的模型，则只能对应于具有某些条件独立性质的
概率分布。
比如说：
对于如下的图模型：

非全链接的图模型中包含了相应的领域知识和因果关系。

对于下面一个关于学生成绩的例子。

我们假设各个随机变量出现的概率如下：

有了每个因子的分布之后，就可以得到任意的概率分布了。方法就是：使用加法公式和乘积公式。

另外的一个问题是：对于图模型中的变量怎么快速的知道它们之间是否相互影响。例如：

在左边对应的六种情况下，只有最后一种情况X→W←Y下X的概率不会影响到Y的概率。这是因为W不是被观察变量，其值是未知的，因此随机变量X的值不会影响随机变量Y的取值。有趣的是，当中间W变量成为被观察变量，上述结论就会发生变化。如下图所示

当WєZ时，即W为观察变量时，所有判断会变得相反。仍然以 X→W← Y 为例，此时W的值已知，比如已知某个学生Grade为B，那么此时学生的聪明程度Intelligence和课程难度Difficulty就不再条件独立了。比如，这种情况下如果课程比较容易，那边学生很聪明的概率较小；反之，若课程很难，则学生很聪明的概率较大。

结论： 概率影响的流动性反应了贝叶斯网络中随机变量条件独立性关系
那么贝叶斯网络中的独立性或者说影响的流动性是如何的呢？

先来看看，图模型结构图中，三种常见的本地结构。
一般的如果没有观察变量，见结构1中的图，但是变量c是未知的。那么：

对两边进行积分或者求和：

因为：

结构2：

可以得到：

结构3：

因为：

考虑一个一般的有向图，其中A，B，C是任意无交集的集合。我们的目的在于希望从图中迅速的观察到在给定C的情况下A与B是否相互独立。考虑A中任意节点到B中任意节点的所有可能路径，如果路径中包含一个满足下面任何一条的节点，那么就认为该路径是被阻隔的。

马尔科夫毯 ：
我们以马尔科夫毯来结束对贝叶斯网络独立性的讨论。考虑如下的图模型：

考虑变量x(i)对应节点上的条件概率分布，其中条件为所有剩余的变量。使用分解性质，可得：

最后与x(i)无关的变量可以提取，进行消除。唯一剩下的因子包括：p(xi|pai)以及p(Xk|Pak)其中xi为xk的父节点。
p(Xk|Pak)不仅仅依赖于xi,还依赖于xk的父节点。
我们可以将马尔科夫毯想象成为将xi与图中剩余部分隔离开的最小集合。

（用于引出贝叶斯概率图模型中的表示）
考虑一个多项式回归的问题：

其中参数w为多项式稀疏，a为超参，t为观测变量。x为输入，另外一个为高斯分布的方差。

概率图模型为了清晰的在图形中表明各种的变量的状态。引入了特殊的表示法：包括观察变量，隐含变量，输入，参数，以及plate的概念。
其他的参考模型：LDA， PLSA模型图。

有了t，我们可以计算w的后验概率：

最终目标是对输入变量进行预测，假设给定一个输入值x^，我们需要预测输出。概率模型图如下：

那么模型的联合分布为：

对w进行积分就可以得到相应的预测值：

图模型描述了生成观测数据的生成式模型。因此这种模型通常被称为生成式模型。
对于概率模型的实际应用，通常情况下是，数量众多的变量对应于图的终端节点，较少的对应隐变量（hidden variables)。隐变量的主要作用是使得观测变量上的复杂分布可以表示为由简单条件分布构建的模型。（具体的原因，在E-M算法部分进行说明）

一个马尔科夫随机场也成为马尔科夫网络，或者无向图模型，包含了一组节点，每个节点都对应一个变量或者一组变量。链接是无向的，即不含箭头。

无向图的连接没有了方向，所以父子节点之间的对称性也消除了。所以可以使用一下两种方法判断是否独立：

无向图的马尔科夫毯 非常简单，因为节点只依赖于相邻的节点，而z给定邻居节点的情况下，条件独立于任何其他的节点。

剩下的一个问题是：如何写出马尔科夫随机场的联合分布。也就是如何对联合分布进行分解。
先来考虑图中的一个概念clique：
维基百科中的解释： a clique is a subset of vertices of an [undirected graph] such that its [induced subgraph]is [complete]; that is, every two distinct vertices in the clique are adjacent 。
马尔科夫随机场的联合概率可以分解为图中最大团快的势函数（potential functions ）的乘积形式：

其中Z被称为划分函数，是一个归一化常数，等于：

我们假定势函数是大于0的，因此可以将势函数表示为指数的形式：

其中E（Xc）称为能量函数。

因子图主要用于模型的推断过程。

参考文献：
书籍《Pattern Recognition andMachine Learning》第八章

以上是关于1. 概率图模型的主要内容，如果未能解决你的问题，请参考以下文章

概率图模型

概率图模型01 简介

概率图模型

机器学习 —— 概率图模型（推理：连续时间模型）