卷积神经网络的输入数据

Posted

技术标签:

【中文标题】卷积神经网络的输入数据【英文标题】:Input data for convolutional neural network 【发布时间】:2016-10-20 09:41:18 【问题描述】:

我正在尝试学习深度学习,特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在,据我了解,CNN 通常用于图像和对象识别,因此在使用音频时,人们经常使用频谱图(特别是梅尔频谱图)而不是时域中的信号。我的问题是,使用频谱图的图像(即 RGB 或灰度值)作为网络的输入是否更好,还是应该直接使用频谱图的 2d 幅度值?它甚至有什么不同吗?

谢谢。

【问题讨论】:

您可能会觉得这很有帮助:Convolutional Neural Network (CNN) for Audio. 感谢@rrao,我已经看过了,但它并没有真正回答我的问题。我也不同意您提到的答案,频谱图“丢弃”的唯一内容是相位信息。 【参考方案1】:

频谱图是一个可爱的表示,特别是用于描述过程。从功能上讲,它只是对输入数据的简化,没有添加任何信息,并且失去了一点准确性——这可能无关紧要。预处理不会给您带来任何好处,因此只需使用 2d 数据并让 CNN 从那里获取东西。

【讨论】:

感谢@Prune!所以输入数据是指二维 STFT 矩阵,对吗?不是原始时域数据。 对。你可以用原始数据来做,但我不想考虑神经网络的复杂性和训练时间——绝对是一个 Q 学习问题!【参考方案2】:

通常图像具有局部模式。这很自然,因此通过应用卷积窗口,我们可以尝试提取一些局部连通性特征。因此,如果您在时域或频域中使用频谱的一些图像,则没有问题。但令人惊奇的问题是,如果我们直接使用频谱数据会怎样? 我看过一个演示文稿,他们将 CNN 应用于给出上下文的下一个单词预测。在那件事中,输入是词向量。更重要的是数字。因此他们使用了 CNN 层(矩形形状过滤器)来提取特征。 因此,在这种情况下,如果数据具有某种自然生成模式,那是非常好的。

【讨论】:

以上是关于卷积神经网络的输入数据的主要内容,如果未能解决你的问题,请参考以下文章

吴恩达 卷积神经网络 CNN

处理图像以将数据输入卷积神经网络

CNN卷积神经网络学习

卷积神经网络

Chapter7_卷积神经网络

卷积神经网络(CNN)之一维卷积二维卷积三维卷积详解