何时在机器学习中执行规范化或标准化? [关闭]

Posted

技术标签:

【中文标题】何时在机器学习中执行规范化或标准化? [关闭]【英文标题】:When to perform Normalization or Standardization in machine learning? [closed] 【发布时间】:2021-03-27 01:02:14 【问题描述】:

如果所有特征都具有相同的规模,我是否必须对我的数据进行归一化?例如,所有列都是特征,每行/样本是每个特征的出现次数?如果需要归一化,我需要按特征归一化还是按样本归一化?

【问题讨论】:

您好,欢迎来到 SO!请阅读tour 和How do I ask a good question?。另请阅读How to create a Minimal, Reproducible Example 【参考方案1】:

不,如果您的所有功能都处于相同的规模,则您不必对数据进行规范化。

对于标准化,您需要检查数据的统计分布,以确保它们具有均值 μ=0 和标准差 σ=1 的标准正态分布;其中 μ 是平均值(平均值),σ 是平均值的标准差。

您可以通过在您的数据上调用.describe() 并调查meanstd 在pandas 中执行此操作。如果碰巧某些特征具有正态分布,而另一些则没有,您可以进行我们的样本标准化(在整个数据集上)。

【讨论】:

您能否详细说明标准化部分?如何解释均值和标准差的结果? 高水平的标准化意味着您的样本(=数据)的分布是“标准”正态分布。正态分布是样本均值为 0,标准差或方差为 1(或至少非常接近 1)的分布。为了让您的模型更容易学习数据的底层结构,您需要对其进行标准化。为了提高模型的训练效率,您可以对其进行规范化。

以上是关于何时在机器学习中执行规范化或标准化? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

机器学习中的数据标准化

《白话机器学习的数学》公式整理

机器学习基石笔记1——在何时可以使用机器学习

为什么我的机器学习图像如此混乱?

机器学习基石4-在何时才能使用机器学习

机器学习基石笔记15——机器可以怎样学得更好