用于音频的卷积神经网络(CNN)[关闭]
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用于音频的卷积神经网络(CNN)[关闭]相关的知识,希望对你有一定的参考价值。
我一直在关注DeepLearning.net上的教程,以学习如何实现从图像中提取特征的卷积神经网络。本教程有很好的解释,易于理解和遵循。
我想扩展相同的CNN,同时从视频(图像+音频)中提取多模态功能。
我知道视频输入只不过是与音频相关的一段时间(例如30 FPS)中显示的一系列图像(像素强度)。但是,我真的不明白音频是什么,它是如何工作的,或者它是如何被分解为馈入网络的。
我已经阅读了几篇关于这个主题的论文(多模态特征提取/表示),但没有人解释过如何将音频输入到网络中。
此外,我从我的研究中了解到,多模态表征是我们的大脑真正运作的方式,因为我们没有刻意过滤我们的感官来实现理解。这一切都是在我们不知道的情况下同时发生的(联合代表)。一个简单的例子是,如果我们听到狮子吼声,我们立即构成狮子的心理形象,感受到危险,反之亦然。在我们的大脑中发射了多种神经模式,以全面了解狮子的样子,听起来像,感觉,闻起来像是等等。
上面提到的是我的最终目标,但暂时我为了简单起见而打破了我的问题。
如果有人能够阐明音频如何被解剖,然后在卷积神经网络中表现出来,我将非常感激。我还要感谢您对多模态同步,联合表示以及使用多模态数据训练CNN的正确方法的想法。
编辑:我发现音频可以表示为频谱图。它作为音频的通用格式,表示为具有两个几何尺寸的图形,其中水平线表示时间,垂直表示频率。
是否可以对这些光谱图上的图像使用相同的技术?换句话说,我可以简单地使用这些频谱图作为卷积神经网络的输入图像吗?
我们在声谱图上使用深度卷积网络进行口语识别任务。我们在this TopCoder contest提供的数据集上的准确率约为95%。详情是here。
普通卷积网络不捕获时间特征,因此例如in this work卷积网络的输出被馈送到时间延迟神经网络。但是我们的实验表明,即使没有额外的元素,当输入具有相似的大小时,卷积网络至少可以在某些任务上表现良好。
有许多技术从音频数据中提取特征向量以训练分类器。最常用的是MFCC(Mel频率倒谱),您可以将其视为“改进的”频谱图,保留更多相关信息以区分类别。其他常用的技术是PLP(Perceptual Linear Predictive),它也给出了很好的结果。这些仍然是许多其他鲜为人知的。
最近,深度网络已被用于自身提取特征向量,因此我们在图像识别中的方式更为相似。这是一个活跃的研究领域。不久前我们还使用特征提取器来训练图像分类器(SIFT,HOG等),但这些被深度学习技术所取代,这些技术将原始图像作为输入并自己提取特征向量(实际上它是深度学习的东西)真的一切)。
注意音频数据是连续的也是非常重要的。在训练分类器之后,您需要将顺序模型训练为HMM或CRF,其选择最可能的语音单元序列,使用分类器给出的概率作为输入。
学习语音识别的一个很好的起点是Jursky和Martins:Speech and Language Processing。它很好地解释了所有这些概念。
[编辑:添加一些可能有用的信息]
有许多语音识别工具包具有从音频文件中提取MFCC特征向量的模块,但是使用而不是为此目的并不总是直截了当。我目前正在使用CMU Sphinx4。它有一个名为FeatureFileDumper的类,可以单独使用,从音频文件生成MFCC向量。
以上是关于用于音频的卷积神经网络(CNN)[关闭]的主要内容,如果未能解决你的问题,请参考以下文章
深度学习100例 | 第41天-卷积神经网络(CNN):UrbanSound8K音频分类(语音识别)