哪种功能,算法适合说话人验证

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了哪种功能,算法适合说话人验证相关的知识,希望对你有一定的参考价值。

我有一个发言人验证的任务。

我的任务是计算两个音频语音之间的相似度,然后与阈值进行比较。例如:两个音频之间的相似度得分为70%,阈值为50%。因此,发言者是同一个人。

演讲是与文本无关的,可以是任何对话。

我已经尝试使用MFCC,GMM进行说话人识别任务,但这项任务有所不同,只需比较两个音频特征就可以得到相似度。我不知道哪个功能对于说话人验证有好处,哪种算法可以帮助我计算两种模式之间的相似度得分。

希望得到你们的建议,

非常感谢。

答案

现在最先进的是xvectors:

Deep Neural Network Embeddings for Text-Independent Speaker Verification

Kaldi的实施是here

另一答案

我也在研究TIMIT数据集以进行说话人验证。我已经提取了mfcc特征并训练了UBM,并且适用于每个扬声器。当涉及到适应时,我使用了对角矩阵。你是如何测试wav文件的?但是,在功能方面,您可以使用音高和能量。

以上是关于哪种功能,算法适合说话人验证的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Python 中实现 Microsoft 说话人识别/验证 API?

基于SOLA算法的变声实例

MVP模式是否适合我们使用? 代码说话

如何在 C# 中使用 Azure 说话人识别 API?

结合工程实践选题调研分析同类软件产品

向预先训练的说话人识别模型中添加新说话人