Microsoft Speech 产品/平台之间的差异
Posted
技术标签:
【中文标题】Microsoft Speech 产品/平台之间的差异【英文标题】:Difference among Microsoft Speech products/platforms 【发布时间】:2018-11-22 03:56:24 【问题描述】:微软似乎提供了很多语音识别产品,我想知道它们之间的区别。
有Microsoft Speech API,或SAPI。但不知何故Microsoft Cognitive Service Speech API 有相同的名字。
现在,Azure 上的 Microsoft Cognitive Service 提供 语音服务 API 和 Bing 语音 API。我假设对于语音到文本,两个 API 是相同的。
还有System.Speech.Recognition(或桌面SAPI)、Microsoft.Speech.Recognition(或服务器SAPI)和Windows.Media.Speech.Recognition。 Here 和here 对这三者的区别做了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?
对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。 (即使 Bing API 似乎有一个 C# desktop library..)
基本上我想要一个 离线 模型,它可以为我的对话数据(每次录音 5-10 分钟)进行语音到文本的转录,它可以识别多位说话者并输出时间戳(或时间编码的输出)。我现在对所有选项都感到有些困惑。如果有人能给我解释一下,我将不胜感激,非常感谢!
【问题讨论】:
你能分享你的发现吗?奇怪的是,这种可用于 android 和 ios 等手持设备的简单离线转录功能不适用于 Windows PC。有语音识别,但没有语法就缺乏准确性。 docs.microsoft.com/en-us/previous-versions/office/developer/… 您好,好久不见。如果您想要最先进的 ASR 模型,那么我相信您将不得不使用这些主要提供商的 API 服务,这当然意味着您的数据不会在本地处理。我不知道有任何公司为 ASR 提供联合学习,但我的发现现在可能已经过时了。如果您关心隐私,那么像 IBM 这样的一些公司会提供专用云。或者部署 sota ASR 开源模型,那里有一些预训练模型。 感谢您的更新。我正在研究 DeepSpeech 和 vosk,它们是开源的、离线的,并且可以在客户端工作。 Nvidia Nemo 非常强大,可以在服务器端运行并在客户端使用 API。 【参考方案1】:一个困难的问题 - 也是它如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我试图对我的团队中的计划提供一些见解(认知服务语音 - 客户端 SDK),但我无法预测不那么近的未来的所有方面。
Microsoft 早期就认识到语音是一种重要的媒介,因此 Microsoft 在其产品中启用语音的历史悠久且悠久。有非常好的语音解决方案(具有本地识别)可用,您列出了其中的一些。
我们正在努力统一这一点,并为您提供一个地方,让您可以在 Microsoft 中找到最先进的语音解决方案。这是“Microsoft 语音服务”(https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览阶段。
在服务方面,它将把我们的主要语音技术(如语音转文本、文本转语音、意图、翻译(以及未来的服务))整合到一个保护伞下。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候),该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用,并支持主要编程语言。我们将继续增强/改进对 SDK 的平台和语言支持。
这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。
我们理解拥有本地识别能力的愿望。在我们的第一个 SDK 版本中,它不会“开箱即用”(它也不是当前预览版的一部分)。 SDK 的一个目标是平台和语言之间的一致性(功能和 API)。这需要大量的工作。离线现在不属于这个,我无法在这里做出任何预测,无论是功能还是时间线......
所以在我看来 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API,轻松访问所有 Microsoft 语音服务。它需要订阅密钥,它要求您已“连接”。我们正在努力在今年晚些时候让(服务器和客户端)都退出预览状态。
希望这会有所帮助...
沃尔夫冈
【讨论】:
非常感谢沃尔夫冈!我真的很感谢你的回答! Microsoft 是否计划在不久的将来向您当前的语音服务 API 添加说话者分类,即“谁在什么时间说话”? 请理解,我不能就未发布的服务、产品等发表声明……我无法预测何时/是否可以通过认知服务获得这些东西,但肯定有团队在工作在这些场景中,看看我们在 5 月的 //build 会议上展示了什么:youtube.com/watch?v=ddb3ZgAp9TA 谢谢@wolfma!赞赏! 感谢您的回答,新工作看起来很有希望,但我仍然希望 SAPI 不会很快退役/弃用。它轻量级快速,对基于字典的识别非常有帮助。以上是关于Microsoft Speech 产品/平台之间的差异的主要内容,如果未能解决你的问题,请参考以下文章
为 c# microsoft 2013 安装 Microsoft.speech
Microsoft Speech API - Cognitive Speech STT iOS:语言不变
Microsoft.CognitiveServices.Speech 在发布应用程序后不起作用
加载 Microsoft Speech SDK v11 时出错
Microsoft.Speech SpeechRecognitionEngine.setInputToDefaultAudioDevice() 方法抛出 System.InvalidOperation