机器学习算法笔记7. 基于信息论的网络

Posted 2022-12-07 tostq

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习算法笔记7. 基于信息论的网络相关的知识，希望对你有一定的参考价值。

【机器学习算法笔记】7. 基于信息论的网络

根据最大互信息原则作为网络的最优化目标函数。

7.1 最大互信息原则（相关）

（a）

（b）

（c）

（d）

7.2 信息论相关定义

7.2.1 信息量

7.2.2 熵（微分熵）

最大熵原则：当根据不完整的信息作为依据进行推断时，应该由满足分布限制条件的具有最大熵的概率分布推得。

7.2.3 互信息

上面分别表示X,Y的联合熵（联合不确定性）等于X的熵（不确定性）加上给定X,Y的条件熵（给定X时Y的不确定性），而互信息量（如下）表示：X,Y间的相互不确定性

7.2.4 相对熵（KL散度）

KL散度( Kullback–Leibler divergence)，又称相对熵（relative entropy)，是描述两个概率分布P和Q差异的一种方法。

可以看出：互信息量是判断两个信息量之间独立程度

不相关指的是不线性相关，也就是协方差或者Pearson的线性相关系数为0
即Cov(X,Y)=E(XY)-EXEY=0 或者说 EXY=EXEY
独立就是两个随机变量相互独立，等价于f(x,y)=g(x)h(y)，即联合密度函数等于两个边缘密度的乘积。
相对熵是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。

7.2.5 负熵

负熵定义：某信号假设是高斯分布的信息量，减少真实的信息量

7.2.6 熵增益

熵增益是用于描述某种分类方法造成熵的减少程度：

公式中的第二项是S按照属性A进行分类后，整体所具有的信息熵。value(A)表示A中具有的所有属性的值，计算各个属性值下的信息熵Sv在乘上Sv所含的样本数比例，相加得到按A分类后的信息熵。两者相减即为信息增益Gain(S,A)。
从信息增益的公式就可以看出，当第二项的值很小的时候，即按照A属性划分后，整体的熵很小时（说明分类较好），信息增益就会很大，这个时候我们说，按照A属性来进行划分，使得整体熵显著变小了！信息增益就表示了按照属性A划分后整体熵的降低值。最开始的最优分类属性便是采取信息增益来度量，将最大的选为最优的分类属性。

7.2.7 增益比率

当一个属性的值过多且没有实际分类价值时，他的信息增益会特别大，如日期属性年月日，如果将其划入分类的话，分类效果极其之差，当在验证数据上进行验证时，几乎无法进行分类。
所以定义信息增益比率来避免这种情况，如下：

公式中Si跟信息增益中的Si意思一样，仍是属于i的样例个数。当属性的分类过多时，他的splitInformation会变大，以此来平衡。但是他也存在一个问题：即，当S中某个分类Si的样例过多，其他属性值下分类过少时，即Si→S时，会使得Split→0，所以最后大家想了一个折中的办法：先依次计算所有属性的Gain，然后仅对那些Gain值超过平均值的计算GainRatio。

7.3 独立分量分析（ICA）

7.3.1 盲源分离的问题

独立分量分析主要是为了解决一个盲源分离的问题：Y=WX
从一个随机信号S源和混合器A都是未知的，我们已知的是观测值X

我们需要估计分离矩阵W，使输出Y的各个分量尽可能地统计独立（即互信息量最大），这是在非监督的情况下进行的，而且用于分离S的仅有信息是包含在观测向量X中的。
对于独立分量分析是将随机向量分解为尽可能统计独立的线性分量。

7.3.2 盲源分离的必要条件

各个源必须是非高斯的，最多允许有一个源是高斯的，这是由于高斯源的线性组合也是高斯的。
同PCA的区别：
PCA是建立在各信号是不相关的情况下，所以PCA不需要假设最多允许有一个源是高斯的；而ICA是建立在输出信号各分量是独立情况，只有假设最多允许有一个源是高斯的如果观察到的信号为高斯，才有可能将信号分离。

7.3.3 独立分量分析步骤

所谓的独立分量分析，就是让所输出的Y各个分量之间的互信息量最大，而我们知道两向量之间的互信息量可以用相对熵来表示如下：

而我们要做是让Y各个分量之间相互独立，所以主要是想让各分量的联合分布Y和各分量之间的边缘分布的相对熵最大。

化简为：

这里的关键在于激活函数的定义，要求边缘分布Py的任意数学描述必须和原始独立分量的真正分布相近。

所以对于ICA的来说，关键在于找到原始独立分量的真正分布相近的激活函数定义

7.3.4 FastICA概念

FastICA：不同于前面的ICA（建立在相对熵基础上），FastICA是建立在随机变量非高斯性的概念（通过负熵来定义非高斯程度）

对于负熵，可以近似为，这里V表示高斯分布，U表示输出分量：

所以要使负熵最小，所以需要

加入正则式对W求导

这里将负熵近似为上面的式子，这里Φ一般定义为非二次性函数，这类函数不能快速增长，使得估计过程更稳定！

最后我们通过梯度下降法仍然可以解决这个问题。
较普通的ICA算法，FastICA收敛速度快。能通过使用一个非线性函数Φ便能直接找出任何非高斯分布的独立分量。而对于普通ICA算法来说，它们首先必须进行独立分量的概率密度分布函数的估计，然后才相应地进行非线性的选择。
FastICA独立分量可被逐个估计出来，在探索性数据分析里是非常有用的，这类似于做投影追踪，这在仅需要估计几个（不是全部）独立分量的情况下，能极大地减小计算量。
FastlCA算法本质上是一种最小化估计分量互信息的神经网络方法，是利用最大熵原理来近似负熵，并通过一个合适的非线性函数g使其达到最优。

7.4 确定性退火聚类

这里给出一个通过确定性退火算法来聚类

期望畸变：

对于信号重建，首先考虑在温度高的时候，多考虑X,Y的互信息量最大，而当温度低时，考虑X,Y的差别缩小（期望畸变）。
H(X)是信源熵，H(Y|X)为给定信源X后重建信号Y的条件熵，而H(X)是独立于聚类的，从而只需要集中在条件熵就可以了：

考虑到约束聚类与统计物理学之间的对应，我们可以考虑就联想概率写成如下Gibbs分布

当温度过高时，所有输入向量都联想到聚类（这种联想被为极度模糊），如下，此时我们可以忽略期望畸变项，通过下式可以计算出联想概率。

求梯度，最小化条件：

确定性退火的两步迭代：

如果我们将联想概率P(Y|X)看成是一个随机变量的期望值，确定性退火的两步迭代也可看作是期望最大（EM）算法的一种形式。

以上是关于机器学习算法笔记7. 基于信息论的网络的主要内容，如果未能解决你的问题，请参考以下文章

学习笔记 | 机器学习决策树

常见机器学习算法原理+实践系列4（决策树）

机器学习 - 算法特征排序

机器学习算法笔记6. 降维与主分量分析（PCA）

机器学习算法：决策树算法简介以及分类原理

机器学习决策树（划分选择算法流程剪枝处理，连续值与缺失值处理）