神经网络拥有正态分布的数据重要吗?

Posted

技术标签:

【中文标题】神经网络拥有正态分布的数据重要吗?【英文标题】:Is it important for a neural network to have normally distributed data? 【发布时间】:2016-01-12 22:48:08 【问题描述】:

因此,与数据有关的标准操作之一是对其进行规范化并对其进行标准化,以使数据呈正态分布,均值为 0,标准差为 1,对吧?但是,如果数据不是正态分布的呢?

另外,所需的输出是否也必须是正态分布的?如果我希望我的前馈网络在两个类(-1 和 1)之间进行分类,那将不可能标准化为均值为 0 和标准为 1 的正态分布,对吗?

前馈网络是非参数的,对吧?那么,如果它们是,标准化数据仍然很重要吗?为什么人们要对其进行标准化?

【问题讨论】:

Why do we have to normalize the input for an artificial neural network?的可能重复 【参考方案1】:

对特征进行标准化并不是为了使数据符合正态分布,而是将特征值置于已知范围内,从而使算法更容易从数据中学习。这是因为大多数算法都不是尺度/移位不变的。例如,决策树既具有尺度不变性,又具有移位不变性,因此进行归一化对树的性能没有影响。

另外,期望的输出也必须是正态分布的吗?

没有。那不是一回事。输出是任何输出。您必须确保网络最后一层的激活函数可以做出您想要的预测(即:Sigmoid 激活不能输出负值或值 > 1)。

前馈网络是非参数的,对吧?

不,它们通常被认为是参数化的。参数/非参数并没有真正的硬定义。在谈论这个问题时,人们的意思可能略有不同。

如果是,那么标准化数据仍然很重要吗?

这些东西完全没有关系。

为什么人们要对其进行标准化?

这是我提到的第一件事,它是为了让学习更容易/可能。

【讨论】:

感谢您的回复。关于您的观点,您提到了使用标准化来确保输入在特定范围内。但是我读过一些人使用标准化来确保输入/输出具有均值 0 和一致的方差(即使它们已经在一个范围内)。为什么? 我刚刚回答了原因。它使优化/学习更容易。或者把输出放在激活函数实际可以达到的范围内。

以上是关于神经网络拥有正态分布的数据重要吗?的主要内容,如果未能解决你的问题,请参考以下文章

用于训练 CNN 网络进行回归任务的正态分布数据

python网络爬虫——分布式爬虫

大数据linux重要吗

盘古开源丨Filecoin是旨在存储人类社会最重要信息的分布式网络

Normalization

一个为人类最重要的信息打造的分布式存储网络