使用 Microsoft Cognitive 进行实时说话人识别

Posted

技术标签:

【中文标题】使用 Microsoft Cognitive 进行实时说话人识别【英文标题】:Real-time speaker recognition with Microsoft Cognitive 【发布时间】:2016-10-07 14:51:42 【问题描述】:

我正在尝试构建一个应用程序,通过使用 Microsoft Cognitive Speaker Recognition API 来解决说话人分类问题。

看着sample project 和阅读APIs documentation,我明白应该通过向服务发送一个wav 文件来完成识别,这违背了我的实时目标。

有人对此进行过研究吗?使用这些 API 是否可行,或者我应该寻找另一条路?

【问题讨论】:

【参考方案1】:

注册需要 30 秒的数据。一旦你有了用户配置文件,你就可以从 1 秒的样本中识别用户,这样你就可以几乎实时地做到这一点,而且延迟非常小。要使用它,您需要设置shortAudio parameter。很难想象识别比这更快。

如果您需要不同的东西,可以使用像 Kaldi 这样的开源语音工具包,它可以做更灵活的事情。

【讨论】:

您好 Nikolay,有什么方法可以在不注册的情况下使用 Microsoft 扬声器识别 API 实现扬声器分类?【参考方案2】:

没有流方法,就像 Google 使用 Speech API 一样。注册新的个人资料不需要 30 秒。在我最近的实践中 - 我在大约 10 秒内取得了成功的结果。 MS API 的核心问题是对多位发言者的限制。您必须找到自己的方式来将它们分成单独的音轨。否则它将识别第一个已知的声音。

【讨论】:

以上是关于使用 Microsoft Cognitive 进行实时说话人识别的主要内容,如果未能解决你的问题,请参考以下文章

Microsoft Speech API - Cognitive Speech STT iOS:语言不变

Microsoft Cognitive Speech-to-Text Service --- 选择麦克风

Microsoft Cognitive Services Face API - 如何在没有可可豆荚的情况下集成 iOS 框架?

Microsoft Cognitive Speaker Recognition API - 注册 - 无效音频 400 错误

将 Microsoft Cognitive SpeechSDK 框架集成到 Swift 应用程序中

重磅 | 微软开源Microsoft Cognitive Toolkit深度学习工具包,加入强化学习元素