特征归一化——l2归一化的优势

Posted

技术标签:

【中文标题】特征归一化——l2归一化的优势【英文标题】:feature normalization- advantage of l2 normalization 【发布时间】:2015-11-23 10:20:02 【问题描述】:

特征通常在分类之前进行归一化。

文献中通常使用L1和L2归一化。

有人可以评论一下 L2 范数(或 L1 范数)与 L1 范数(或 L2 范数)相比的优势吗?

【问题讨论】:

计算 L2 范数的导数更容易,因为它平方每个向量分量(与使用绝对值的 L1 相比)。 你可以看看 math.stachexchange math.stackexchange.com/questions/384003/l1-norm-and-l2-norm 【参考方案1】:

L2 相对于 L1 规范的优势

正如 aleju 在 cmets 中所述,L2 范数的推导很容易计算。因此,使用基于梯度的学习方法也很容易。 L2 正则化 优化平均成本(而 L1 降低了中位数 explanation) 这通常用作性能度量。如果您知道自己没有任何异常值并且希望将总体误差保持在较小的水平,这尤其有用。 解决方案更有可能是唯一的。这与前一点有关:虽然平均值是单个值,但中位数可能位于两点之间的区间内,因此不是唯一的。 虽然 L1 正则化可以为您提供稀疏系数向量,但 L2 的非稀疏性可以提高您的预测性能(因为您可以利用更多特征而不是简单地忽略它们)。 L2 在旋转下是不变的。如果您有一个由空间中的点组成的数据集并应用旋转,您仍然会得到相同的结果(即点之间的距离保持不变)。

L1 相对于 L2 规范的优势

L1 范数更喜欢稀疏系数向量。 (explanation on Quora) 这意味着 L1 范数执行特征选择,您可以删除系数为 0 的所有特征。减少维度几乎在所有情况下都有用。 L1 范数优化了中位数。因此,L1 范数对异常值不敏感。

更多来源

The same question on Quora

Another one

【讨论】:

【参考方案2】:

如果您正在处理逆问题,L1 将返回一个更稀疏的矩阵,而 L2 将返回一个更相关的矩阵。

【讨论】:

以上是关于特征归一化——l2归一化的优势的主要内容,如果未能解决你的问题,请参考以下文章

第四十九篇 入门机器学习——数据归一化(Feature Scaling)

使用现有层在 Caffe 中进行 L2 归一化

机器学习为什么使用归一化? 有哪些归一化算法?

数据变换-归一化与标准化

处理数据时不进行归一化会有啥影响?归一化的作用是啥

有关利用libsvm对数据进行归一化的问题。