分类变量的归一化

Posted

技术标签:

【中文标题】分类变量的归一化【英文标题】:normalization of categorical variable 【发布时间】:2019-01-24 02:48:29 【问题描述】:

我有一个数据集,其中包含男性和女性的性别。我使用现在数据类型为 int8 的 pandas 功能将男性转换为 1,将女性转换为 0。现在我想标准化列,例如重量和高度。那么应该对性别列做什么:是否应该对其进行规范化。我打算将它用于线性回归。

【问题讨论】:

【参考方案1】:

所以我认为您将标准化与标准化混为一谈。

归一化:

将您的数据重新缩放到 [0;1] 的范围内

标准化:

重新调整您的数据,使其平均值为 0,标准差为 1。

回到你的问题:

对于您的性别列,您的分数已经介于 0 和 1 之间。因此,您的数据已经“标准化”。所以你的问题应该是你是否可以标准化你的数据,答案是:是的,你可以,但这没有任何意义。这个问题已经在这里讨论过:Should you ever standardise binary variables?

【讨论】:

我阅读了交叉验证的答案,但无法理解。我正在使用 scikit-learn 的线性回归,请具体告诉我在我的情况下我应该做什么。我的意思是我应该标准化它与否。以及它对 rmse 的影响。 答案是你不应该标准化你的性别栏 如果有更多类别呢?

以上是关于分类变量的归一化的主要内容,如果未能解决你的问题,请参考以下文章

SVM 分类 - R 中的归一化

R语言广义加性模型GAMs:可视化每个变量的样条函数样条函数与变量与目标变量之间的平滑曲线比较并进行多变量的归一化比较测试广义线性加性模型GAMs在测试集上的表现(防止过拟合)

Matlab中可变范围[x,y]的归一化

大数据&AI人工智能常见的归一化函数有哪些?分别用数学公式详细介绍

matlab程序的归一化问题

数据的归一化处理