话语长度如何影响说话人识别中的神经网络?

Posted

技术标签:

【中文标题】话语长度如何影响说话人识别中的神经网络?【英文标题】:How utterance length affect neural network in speaker recognition? 【发布时间】:2017-05-18 00:46:09 【问题描述】:

我正在学习神经网络并尝试使用 tensorflow 创建说话人识别系统。我想知道话语长度如何影响神经网络。例如,我有 1000 个长度相同的不同录音和 1000 个不同长度的不同录音。那么理论上如何处理这些数据的神经网络呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?

【问题讨论】:

【参考方案1】:

我假设您的问题可以重新表述为神经网络如何处理不同长度的音频?

诀窍在于将任意大小的信号转换为一系列固定大小的特征向量。请参阅我的回答 here 和 here。

【讨论】:

【参考方案2】:

这取决于神经网络的类型。当设计这样的时候,你通常指定输入神经元的数量,所以不能给它提供任意长度的数据。如果序列较长,您必须裁剪数据或使用滑动窗口。

但是,某些神经网络允许您处理任意输入序列,例如Recurrent Neural Network。后者似乎是您的问题的一个很好的候选人。 Here 是一篇很好的文章,描述了特定类型的 RNN 的实现,称为 Long Short-Term Memory,它可以很好地与语音识别配合使用。

【讨论】:

以上是关于话语长度如何影响说话人识别中的神经网络?的主要内容,如果未能解决你的问题,请参考以下文章

向预先训练的说话人识别模型中添加新说话人

如何在 Python 中实现 Microsoft 说话人识别/验证 API?

说话人识别中的损失函数

说话人识别损失函数的PyTorch实现与代码解读

如何在 C# 中使用 Azure 说话人识别 API?

说话人识别概述