损失函数 hinge loss vs softmax loss

Posted 一夜飘零

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了损失函数 hinge loss vs softmax loss相关的知识,希望对你有一定的参考价值。

1. 损失函数

损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示。

损失函数越小,模型的鲁棒性就越好。

损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项,通常如下所示: 

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的 Φ 是正则化项(regularizer)或者叫惩罚项(penalty term),

它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。

 

2. 常用损失函数

常见的损失误差有五种: 
1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 
2. 互熵损失 (Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 
3. 平方损失(Square Loss):主要是最小二乘法(OLS)中; 
4. 指数损失(Exponential Loss) :主要用于Adaboost 集成学习算法中; 
5. 其他损失(如0-1损失,绝对值损失)

2.1 Hinge loss

Hinge loss 的叫法来源于其损失函数的图形,为一个折线,通用的函数表达式为:

表示如果被正确分类,损失是0,否则损失就是 1mi(w) 。

 

Hinge Loss

在机器学习中,Hing 可以用来解 间距最大化 的问题,最有代表性的就是SVM 问题,最初的SVM 优化函数如下: 

将约束项进行变形,则为: 

 

则损失函数可以进一步写为: 

 

因此, SVM 的损失函数可以看作是 L2-norm 和 Hinge loss 之和。

 

2.2 Softmax Loss

有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到,

而逻辑回归得到的并不是平方损失。在逻辑回归的推导中,它假设样本服从伯努利分布(0-1分布),然后求得满足该分布的似然函数,接着

取对数求极值等等。而逻辑回归并没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为:最小化负的似

然函数(即maxF(y,f(x))minF(y,f(x)))。从损失函数的视角来看,它就成了Softmax 损失函数了。

log损失函数的标准形式: 

L(Y,P(Y|X))=logP(Y|X)


刚刚说到,取对数是为了方便计算极大似然估计,因为在MLE中,直接求导比较困难,所以通常都是先取对数再求导找极值点。损失函数

L(Y,P(Y|X)) 表达的是样本X 在分类Y的情况下,使概率P(Y|X) 达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)

导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。

因为log函数是单调递增的,所以logP(Y|X) 也会达到最大值,因此在前面加上负号之后,最大化P(Y|X) 就等价于最小化L 了。

 

逻辑回归的P(Y=y|x) 表达式如下(为了将类别标签y统一为1 和0 ):

Logistic

其中 

hθ(x)=11+exp(f(x))

 

2.3 Squared Loss

最小二乘法是线性回归的一种,OLS将问题转化成了一个凸优化问题。在线性回归中,它假设样本和噪声都服从高斯分布(中心极限定理),

最后通过极大似然估计(MLE)可以推导出最小二乘式子。

最小二乘的基本原则是:最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。

平方损失(Square loss)的标准形式如下: 

L(Y,f(X))=(Yf(X))2

 

当样本个数为n时,此时的损失函数为: 

L(Y,f(X))=i=1n(Yf(X))2


Yf(X) 表示残差,整个式子表示的是残差平方和 ,我们的目标就是最小化这个目标函数值,即最小化残差的平方和。

 

在实际应用中,我们使用均方差(MSE)作为一项衡量指标,公式如下: 

MSE=1ni=1n(Yi~Yi)2

 

2.4 Exponentially Loss

损失函数的标准形式是: 

L(Y,f(X))=exp[Yf(X)]


exp-loss,主要应用于 Boosting 算法中,在Adaboost 算法中,经过 m 次迭代后,可以得到 fm(x) : 

fm(x)=fm1(x)+αmGm(x)


Adaboost 每次迭代时的目的都是找到最小化下列式子的参数α 和G: 

argminα,G=i=1Nexp[yi(fm1(xi)+αG(xi))]


易知,Adabooost 的目标式子就是指数损失,在给定n个样本的情况下,Adaboost 的损失函数为: 

L(Y,f(X))=12i=1nexp[yif(xI)]


关于Adaboost的详细推导介绍,可以参考Wikipedia:AdaBoost或者李航《统计学习方法》P145。

 

2.5 其他损失

0-1 损失函数 

L(Y,f(X))={01ifYf(X)ifY=f(X)


绝对值损失函数 

L(Y,f(X))=|Yf(X)|

 


上述几种损失函数比较的可视化图像如下:

损失函数可视化

3. Hinge loss 与 Softmax loss

SVM和Softmax分类器是最常用的两个分类器。

  1. SVM将输出 f(xi,W) 作为每个分类的评分(没有规定的标准,难以直接解释);
  2. 与SVM 不同,Softmax 分类器可以理解为逻辑回归分类器面对多个分类的一般话归纳,其输出(归一化的分类概率)更加直观,且可以从概率上解释。

在Softmax分类器中, 函数映射f(xi,W) 保持不变,但将这些评分值看做每个分类未归一化的对数概率,且将折叶损失替换为交叉熵损失(cross-entropy loss),公式如下:

 

Li=log(efyijefj)


或等价的 

Li=fyi+logjfj

 

fj 表示分类评分向量f 中的第i 个元素,和SVM一样,整个数据集的损失值是数据集中所有样本数据的损失值Li的均值和正则化损失之和。

概率论解释: 

P(yi|xi,W)=efyijefj

 

解释为给定数据xi , W 参数,分配给正确分类标签yi 的归一化概率。

实际操作注意事项——数值稳定: 编程实现softmax函数计算的时候,中间项efyi 和 jefj 因为存在指数函数,所以数值可能非常大,

除以大数值可能导致数值计算的不稳定,所以得学会归一化技巧.若在公式的分子和分母同时乘以一个常数C ,并把它变换到求和之中,就能得到一个等价公式: 

P(yi|xi,W)=CefyiCjefj=efyi+logCjefj+logC

 

C的值可自由选择,不会影响计算结果,通过这个技巧可以提高计算中的数值稳定性.通常将C设为

logC=maxfj

 

该技巧就是将向量f中的数值进行平移,使得最大值为0。

准确地说,SVM分类器使用的是铰链损失(hinge loss),有时候又被称为最大边界损失(max-margin loss)

Softmax分类器使用的是交叉熵损失(corss-entropy loss)

Softmax分类器的命名是从softmax函数那里得来的,softmax函数将原始分类评分变成正的归一化数值,所有数值和为1,这样处理后交叉熵损失才能应用。

Example:图像识别

example

针对给出的图像,SVM分类器可能给你的是一个[2.85,0.86,0.28] 对应分类“猫”,“狗”,“船”,

而softmax分类器可以计算出这三个标签的”可能性“是[0.,0160.631,0.353以上是关于损失函数 hinge loss vs softmax loss的主要内容,如果未能解决你的问题,请参考以下文章

机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)

hinge loss/支持向量损失的理解

Deeplearning常用的损失函数

keras model.compile(loss='目标函数 ', optimizer='adam', metrics=['accuracy'])(代码

load_model 如何导入自定义的loss 函数

损失函数(损失函数代价函数目标函数)​​​​​​​MSE0-1损失函数绝对误差损失函数分位数损失函数Huber损失函数感知损失函数Hinge损失函数指数损失函数对数损失函数