话语长度如何影响说话人识别中的神经网络?
Posted
技术标签:
【中文标题】话语长度如何影响说话人识别中的神经网络?【英文标题】:How utterance length affect neural network in speaker recognition? 【发布时间】:2017-05-18 00:46:09 【问题描述】:我正在学习神经网络并尝试使用 tensorflow 创建说话人识别系统。我想知道话语长度如何影响神经网络。例如,我有 1000 个长度相同的不同录音和 1000 个不同长度的不同录音。那么理论上如何处理这些数据的神经网络呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?
【问题讨论】:
【参考方案1】:我假设您的问题可以重新表述为神经网络如何处理不同长度的音频?
诀窍在于将任意大小的信号转换为一系列固定大小的特征向量。请参阅我的回答 here 和 here。
【讨论】:
【参考方案2】:这取决于神经网络的类型。当设计这样的时候,你通常指定输入神经元的数量,所以不能给它提供任意长度的数据。如果序列较长,您必须裁剪数据或使用滑动窗口。
但是,某些神经网络允许您处理任意输入序列,例如Recurrent Neural Network。后者似乎是您的问题的一个很好的候选人。 Here 是一篇很好的文章,描述了特定类型的 RNN 的实现,称为 Long Short-Term Memory,它可以很好地与语音识别配合使用。
【讨论】:
以上是关于话语长度如何影响说话人识别中的神经网络?的主要内容,如果未能解决你的问题,请参考以下文章