Softmax与Sigmoid函数的联系

Posted 2020-09-14 Shuzi_rank

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Softmax与Sigmoid函数的联系相关的知识，希望对你有一定的参考价值。

译自：http://willwolf.io/2017/04/19/deriving-the-softmax-from-first-principles/

本文的原始目标是探索softmax函数与sigmoid函数的关系。事实上，两者的关系看起来已经是遥不可及：一个是分子中有指数！一个有求和！一个分母中有1！。当然，最重要的是两个的名称不一样。

推导一下，很快就可以意识到，两者的关系可以回溯到更为泛化的条件慨率原理的建模框架（back out into a more general modeling framework motivated by the conditional probability axiom）。本文首先探索了sigmoid函数是一种特殊的softmax函数，以及各自在Gibbs distribution, factor products和概率图模型方面的理论支撑。接下来，我们继续展示概框架如何自然的扩展到canonical model class，如softmax回归，条件随机场（Conditional Random Fields）,朴素贝叶斯（Naive Bayes）以及隐马尔科夫模型(Hidden Markov Model)。

目标（Our Goal）

下图是一个预测模型（predictive model），其中菱形表示接收输入，并产生输出。输入向量 $\\mathbf{x}=[x_0,x_1,x_2,x_3]$ ，有3种可能的输出：。模型的目标在于在输入的条件下产生各种输出的概率： $P(a|\\mathbf{x}),P(b|\\mathbf{x}),P(c|\\mathbf{x})$ 。概率是位于闭区间[0,1]的一个实数值。

输入对输出的影响（How does the input affect the output?）

每个输入是4个数的列表（输入向量是4维），每一维度对各个可能的输出影响程度不同，这里我们称它为权重（weight）。4个输入数据乘以3个输出，代表了12个不同的权重。可能如下表所示：

生成输出（Producing an Output）

给定一个输入向量，我们的模型将使用上述权重来生成输出。这里假设每个输入元素的影响是加性的（The effect of each input element will be additive.）。至于原因留待后续解释。

$\\begin{aligned} \\tilde{a}&=\\sum_iw_{i,a}x_i\\\\ \\tilde{b}&=\\sum_iw_{i,b}x_i\\\\ \\tilde{c}&=\\sum_iw_{i,c}x_i\\\\ \\end{aligned}$

这些求和公式会对模型的输出结果产生贡献。最大的数将会胜出。例如 $\\{\\tilde{a}:5,\\tilde{b}:7,\\tilde{c}:9\\}$ ，若上式得到的结果是，则我们的模型会得到结论：最大可能产生c。

转换为概率（Converting to Probabilities）

之前说过，我们的目标在于获得概率： $P(a|\\mathbf{x}),P(b|\\mathbf{x}),P(c|\\mathbf{x})$ 。其中 $\\mathbf{x}$ 为黑体，为了表示任意的输入向量。当给定一个具体的输入向量时，我们用花体表示，这样我们的目标可以更精确的表示为：。至此，我们已经获得 $\\{\\tilde{a}:5,\\tilde{b}:7,\\tilde{c}:9\\}$ 。为了将这些值转换成一个概率，也就是闭区间[0,1]之间的一个实数值，我们只需要用这些值的和去除原始值。 $\\begin{aligned} P(a|x)&=\\frac{5}{5+7+9}&=\\frac{5}{21}\\\\ P(b|x)&=\\frac{7}{5+7+9}&=\\frac{7}{21}\\\\ P(c|x)&=\\frac{9}{5+7+9}&=\\frac{9}{21}\\\\ \\end{aligned}$ 最后我们得到一个合理的概率分布，所有值的和相加为1.