如何测量语音文件的相似度

Posted

技术标签:

【中文标题】如何测量语音文件的相似度【英文标题】:How to measure speech file similarity 【发布时间】:2013-11-16 06:14:54 【问题描述】:

我有两个语音音频文件。每个文件都是从电话通话中记录下来的,它们的长度不同(第一个文件长 3 秒,第二个文件长 5 秒)。我想测量两个文件的相似性。请注意,我对语音信号中的文本内容不感兴趣(即 NO Speech to Text)。我只需要测量相似度并获得分数或百分比。

我发现很少有工具可以进行音频指纹分析,但我发现几乎所有工具都针对音乐音频文件,并且在其语音时表现不佳。

【问题讨论】:

已经问过***.com/questions/19841333/… 亲爱的 Nikolay,您能回答一下吗?感谢您添加此评论。希望得到您的指导。 【参考方案1】:

音频指纹不应用于查找相似性,当您有一个音频或一段音频完全相同时,应使用音频指纹。

您可能需要收集一组特征,例如梅尔频率倒谱系数 (MFFC),并使用一种分类方法(例如 HNN)来告诉您相似度(辛苦)哈哈

【讨论】:

以上是关于如何测量语音文件的相似度的主要内容,如果未能解决你的问题,请参考以下文章

文本、语音相似度算法

如何测量预训练模型(例如 vgg、resnet...)提取的图像特征之间的语义相似度?

相似度测量

相似度测量

如何计算两个向量的余弦相似度?

推荐引擎:余弦相似度与测量每个向量分量之间的差异百分比