Softmax classifier

Posted 逗逗飞

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Softmax classifier相关的知识,希望对你有一定的参考价值。

Softmax classifier原文链接

SVM是两个常见的分类器之一。另一个比较常见的是Softmax分类器,它具有不同的损失函数。如果你听说过二分类的Logistic回归分类器,那么Softmax分类器就是将其推广到多个类。不同于SVM将  f(xi,W)  的输出结果 (为校准,可能难以解释)作为每个分类的评判标准,Softmax分类器给出了一个稍直观的输出(归一化的类概率),并且也有一个概率解释,我们将在后面介绍。在Softmax分类器中,映射函数f(xi; W)= Wxi保持不变,但是我们现在将这些得分解释为每个类的非归一化对数概率,并用具有以下形式的交叉熵损失代替hinge loss:



L                             i=log(efyijefj)             等价于          Li=fyi+logjefj

我们使用符号fj来表示向量f的第j个元素的分类得分。如前所述,数据集的全部损失是所有训练样例中的Li的平均值加正则化项R(W)。
 函数  fj(z)=ezjkezk     就是损失函数:它需要一个任意实值分数(在z中)的向量 ,并将其压缩到0和1之间的值,向量和为1。 
如果你是第一次看到它softmax函数的完整的交叉熵损失可能看起来很恐怖,但相对容易激发。 
信息理论观。 “真实”分布p与估计分布q之间的交叉熵定义为:          H(p,q)=xp(x)logq(x   因此,Softmax分类器将 预估的分类概率(q = efyi /Σjefj如上所述)和“真实”分布之间的交叉熵最小化, 也就是说,所有概率项在正确类上的分布(即,p = [0,... 1,...,0]在第y位置包含单个1。此外,由于交叉熵可以用 熵和Kullback-Leibler发散来表示为:H(p,q)=H(p)+DKL(p||q) 
并且Δ函数p的熵为零,这也相当于使两个分布之间的KL发散最小化(距离的度量)。
换句话说,交叉熵目标希望预测的所有块,在正确答案中均可以找到。

概率解释。 看着这个表达式,我们看到了:
(yixi;WPyTorch学习7《PyTorch深度学习实践》——MNIST数据集多分类(Softmax Classifier)

记一次d2l_softmax回归中的错误

记一次d2l_softmax回归中的错误

softmax及python实现

softmax交叉熵损失函数求导

Softmax 交叉熵损失爆炸式增长