机器学习 —— 概率图模型（学习：非完整数据）

Posted 2020-07-01 IronStark

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习 —— 概率图模型（学习：非完整数据）相关的知识，希望对你有一定的参考价值。

1、综述

　　PGM的学习问题实际上是对参数进行推断。对于给定的数据，需要求出系统参数，从而完善系统的CPD。但是某些情况下，PGM的数据集可能是不完整的。数据集不完整可以分为两种情况：1、数据采集受到了影响；2、使用了隐变量。数据采集受到影响可能出于两种情况，第一种是影响与被采集数据是无关的，例如投硬币，结果硬币找不到了。第二种是和被采集数据有关的，例如在收发数据时，高电平总是踩空。故在使用不完整的数据对模型进行训练之前，需要对造成不完整的原因进行判断。如果对上述两种情况进行建模，则有以下图模型：

技术分享

　　其中，theta是系统参数，y是数据集，O是观测变量（O=1，观测；）。

　　如果系统参数在没有先验的情况下，应该使用likelihood函数对系统参数进行推测。以简单的CPD为例，不完整数据与完整数据的likelihood对比如下图所示：

技术分享

　　显然在数据完整的情况下，参数之间是不存在耦合的，我们可以分别对theta_x与theta_y，进行优化求解。很好理解，数据一旦被观测到，那么参数之间的trait就被堵死了。但是如果数据是不完整的，那么theta_x与theta_y则耦合了，不能分别优化。因为var_x没有被完全观测到，theta_y与theta_x之间存在通路。分析似然函数可知，其存在多个峰。系统参数的辨识更加困难了。

2、基于似然函数优化的参数辨识

　　似然函数存在多个峰，且有局部最优值。但是如果要获得一组有意义的参数还能有什么办法？只能求似然函数的最值。归根结底的思想还是该组参数使得数据发生的可能性最大。所以，可以使用优化方法来对似然函数进行求解。最简单的——梯度下降法。

技术分享

　　其梯度解析解如下所示：

技术分享

　　其核心是计算P(xi,ui|d[m],theta).此概率可通过标定团树获得。

　　优化算法的优点是：很灵活，可以用于所有的CPD，包括非表类CPD.缺点是：该算法是条件优化的，需要保证所有参数之间不矛盾。并且每次更新参数都要重新标定团树。

3、最大期望算法

　　最大期望算法的思想其实很简单，我们拿到数据的目标是为了推测系统参数；但是数据不完全，如果我们有了系统参数，就可以把数据推测完全。所以这是个循环的过程，事实证明，不断的循环迭代可以使得最终参数估计逼近真实系统参数。

技术分享

　　在E-step中，假设已知系统参数theta,在给定theta的情况下，对所有的可能的组合x,u求取其概率。完整数据则求完整概率，不完整数据则求其边际缺失变量后概率。在M-step中，再利用充分统计对系统参数theta进行更新。

　　比如在贝耶斯分类器中，我们只有数据而没有数据的class值。（还真能丢。。。。。）那么此时如果使用EM算法，则贝耶斯分类器从有监督学习分类器变为了无监督学习的聚类器。

　　EM算法的优点是收敛迅速，每一步都需要使用充分统计。缺点是临近收敛时收敛速度下降。

以上是关于机器学习 —— 概率图模型（学习：非完整数据）的主要内容，如果未能解决你的问题，请参考以下文章