KL散度、JS散度、Wassertein距离

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了KL散度、JS散度、Wassertein距离相关的知识，希望对你有一定的参考价值。

参考技术A KL散度又称相对熵，信息散度，信息增益。KL散度是两个概率分布P和Q差别的非对称性的度量。在经典境况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布。
定义如下：

对数函数为凸函数，所以KL散度的值为分复数。

KL散度有时也称为KL距离，但它并不满足距离的性质：
1、KL散度不是对称的；
2、KL散度不满足三角不等式。

JS散度是度量两个概率分布的相似度，是基于KL散度的变体，解决了KL散度非对称的问题。
定义如下：

KL散度和JS散度度量的时候都有一个问题：如果两个分布P,Q距离较远，完全没有重叠的时候，KL散度是没有意义的，在学习的时候，这就意味着在这一点的梯度为0，即梯度消失了。

Wasserstein距离度量的是两个管理分布之间的距离。定义如下：

为和的分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布，可以从中采样(x,y)~r得到一个样本x和y，并计算出这对样本的距离||x-y||，进而可以计算样本对距离的期望值。在所有可能的联合分布中能够对这个期望取到的下界就是Wasserstein距离。

直观上就是在r这个路径的规划下把土堆挪到土堆所需要的消耗。Wasserstein距离就是在最优的路径下的最小消耗。

Wasserstein距离相比于KL散度和JS散度的优势在于：即使两个分布的支撑没有重叠或者重叠较少，仍然能够反映两个分布之间的远近。

KL散度

转自：http://www.cnblogs.com/hxsyl/p/4910218.html

一、第一种理解　　

　　相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain）。
　　KL散度是两个概率分布P和Q差别的非对称性的度量。

KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

　　根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数等于这个字符集的熵：

　　H(X)=∑_x∈XP(x)log[1/P(x)]

　　在同样的字符集上，假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码（即字符x的编码长度等于log[1/P(x)]），来为符合分布Q(X)的字符编码，那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离。即：

　　D_KL(Q||P)=∑_x∈XQ(x)[log(1/P(x))] - ∑_x∈XQ(x)[log[1/Q(x)]]=∑_x∈XQ(x)log[Q(x)/P(x)]

　　由于-log(u)是凸函数，因此有下面的不等式

　　D_KL(Q||P) = -∑_x∈XQ(x)log[P(x)/Q(x)] = E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -　　log∑_x∈XQ(x)P(x)/Q(x) = 0

　　即KL-divergence始终是大于等于0的。当且仅当两分布相同时，KL-divergence等于0。

　　===========================

　　举一个实际的例子吧：比如有四个类别，一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B（或者说是事实情况）是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)

　　这个里面有正的，有负的，可以证明KL-Distance()>=0.

　　从上面可以看出， KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)

　　KL散度是不对称的，当然，如果希望把它变对称，

　　Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2.