话语长度如何影响说话人识别中的神经网络？

Posted 2023-03-13

技术标签:

【中文标题】话语长度如何影响说话人识别中的神经网络？【英文标题】：How utterance length affect neural network in speaker recognition? 【发布时间】：2017-05-18 00:46:09 【问题描述】：

我正在学习神经网络并尝试使用 tensorflow 创建说话人识别系统。我想知道话语长度如何影响神经网络。例如，我有 1000 个长度相同的不同录音和 1000 个不同长度的不同录音。那么理论上如何处理这些数据的神经网络呢？具有相同长度记录的数据库的神经网络会做得更好还是更差？为什么？

【问题讨论】：

【参考方案1】：

我假设您的问题可以重新表述为神经网络如何处理不同长度的音频？

诀窍在于将任意大小的信号转换为一系列固定大小的特征向量。请参阅我的回答 here 和 here。

【讨论】：

【参考方案2】：

这取决于神经网络的类型。当设计这样的时候，你通常指定输入神经元的数量，所以不能给它提供任意长度的数据。如果序列较长，您必须裁剪数据或使用滑动窗口。

但是，某些神经网络允许您处理任意输入序列，例如Recurrent Neural Network。后者似乎是您的问题的一个很好的候选人。 Here 是一篇很好的文章，描述了特定类型的 RNN 的实现，称为 Long Short-Term Memory，它可以很好地与语音识别配合使用。

【讨论】：

以上是关于话语长度如何影响说话人识别中的神经网络？的主要内容，如果未能解决你的问题，请参考以下文章