“说话人识别和分割”[关闭]

Posted

技术标签:

【中文标题】“说话人识别和分割”[关闭]【英文标题】:"Speaker Recognition and Segmentation" [closed] 【发布时间】:2014-06-27 17:34:54 【问题描述】:

寻找可以将媒体文件处理为“谁在何时何地说了什么”的代码,换句话说,就是“按发言人分段的发言人”以及每个人的时间安排。失败的答案:做任何手动工作来处理媒体文件..谢谢!

【问题讨论】:

您没有指定您使用的语言。 Java...C++ 也可以...谢谢 【参考方案1】:

您可以使用 Kaldi 的扬声器分类,设置起来并不容易,但效果很好。

还有许多其他库 - LIUM、bob 等。

【讨论】:

感谢 Nikolay...以您在本主题中的背景,LIUM 是否适合在手机应用中明确使用...? 不是 LIUM,但您可以在 C 中创建类似的实现。这很合适。

以上是关于“说话人识别和分割”[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

向预先训练的说话人识别模型中添加新说话人

如何在 Python 中实现 Microsoft 说话人识别/验证 API?

使用 writehtk 进行特征提取(说话人识别)

说话人识别和响应时间?

使用 Microsoft Cognitive 进行实时说话人识别

说话人识别损失函数的PyTorch实现与代码解读