归一化会降低分类器的性能

Posted

技术标签:

【中文标题】归一化会降低分类器的性能【英文标题】:Normalization deteriorates the performace of classifier 【发布时间】:2014-12-14 08:52:43 【问题描述】:

我正在用我收集的一些数据研究随机森林。我测试了我的分类器,在我的测试集上得到了大约 89% 的准确率。然而,当我将数据缩放到零均值和单位方差时,我的准确率下降了近 50%。我遇到了this 帖子,这似乎表明我不需要缩放数据以获得最佳性能。

有人能解释一下导致准确度大幅下降的可能原因吗?

编辑:我正在使用sklearn.ensemble 来实现我的随机森林

这是link 数据

【问题讨论】:

这取决于数据。您可以在某处分享您的数据吗? @greeness 我已经上传了我的数据文件 【参考方案1】:

您的随机森林对于输入特征的某些转换是否不变完全取决于您的错误函数。简而言之,当您的函数在移位和缩放下保持不变时,您的模型也是如此。

在快速浏览帮助页面here 后,似乎使用的标准功能似乎是偏差损失。这个函数在输入特征的缩放下不是不变的,这解释了你的观察。

【讨论】:

我感觉它与数据有关。我还尝试了支持向量机,奇怪的是它对未缩放的数据提供了更好的分类。

以上是关于归一化会降低分类器的性能的主要内容,如果未能解决你的问题,请参考以下文章

其他分类器

文档的朴素贝叶斯分类器中的长度归一化

处理数据时不进行归一化会有啥影响?归一化的作用是啥

opencv_haar分类器的训练

第9章 优化方法和归一化

机器学习为什么使用归一化? 有哪些归一化算法?