google的audioset中的音频特征提取使用啥算法?

Posted

技术标签:

【中文标题】google的audioset中的音频特征提取使用啥算法?【英文标题】:What algorithm is used for audio feature extraction in google's audioset?google的audioset中的音频特征提取使用什么算法? 【发布时间】:2017-05-19 22:48:56 【问题描述】:

我开始使用 Google 的 Audioset。虽然数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到

以 1Hz 提取的 128 维音频特征。使用 Hershey 等人描述的 VGG 启发声学模型提取音频特征。 al.,在 YouTube-8M 的初步版本上进行了培训。这些功能经过 PCA 编辑和量化,以与 YouTube-8M 提供的音频功能兼容。它们存储为 TensorFlow Record 文件。

在paper 中,作者讨论了在 960 ms 块上使用 mel 频谱图来获得 96x64 的表示。然后我不清楚他们如何获得 Audioset 中使用的 1x128 格式表示。有人知道更多吗?

【问题讨论】:

【参考方案1】:

他们使用96*64 数据作为修改后的VGG 网络的输入。VGG 的最后一层是FC-128,所以它的输出将是1*128,这就是原因。

VGG的架构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

【讨论】:

以上是关于google的audioset中的音频特征提取使用啥算法?的主要内容,如果未能解决你的问题,请参考以下文章

使用 tarosdsp 提取多个音频特征

使用受限玻尔兹曼机提取音频特征

使用 MFCC 进行特征提取

从音频文件中提取音高特征

音频特征提取

音频特征:mfcc提取