有没有办法通过 ms 说话人识别将 MS 语音与文本接口?

Posted

技术标签:

【中文标题】有没有办法通过 ms 说话人识别将 MS 语音与文本接口?【英文标题】:Is there a way to interface MS speech to text with ms speaker recognition? 【发布时间】:2019-10-14 14:43:36 【问题描述】:

我正在设置一个带有 microsoft speech to text 的项目。它工作正常,我可以将我说的内容转录成文本,然后再发送给其他 signalR 订阅者。

但是,我现在需要将它与扬声器识别接口。换句话说:我希望我的语音到文本只能识别几个说话者。

目前我使用经典的TranslationRecognizer 类,它获取默认麦克风并即时翻译。

然后我使用StartContinuousRecognitionAsync 类开始识别。

有没有办法在发送到翻译服务之前获取音频通量以检查用户是否正确,然后在验证OK后恢复标准执行?

我认为这将是最好的想法,但我对任何想法或架构更改持开放态度。

感谢您的意见

【问题讨论】:

【参考方案1】:

感谢您与我们联系!目前,说话人分类(即谁在说话)仅在我们的batch transcription service 中可用,但还不能用于实时语音识别。但是,如果您能够自己分离扬声器,例如基于音频通道,您可以通过AudioInputStream interface 将特定扬声器的音频流馈送到 Speech SDK 进行识别。

谢谢。

【讨论】:

以上是关于有没有办法通过 ms 说话人识别将 MS 语音与文本接口?的主要内容,如果未能解决你的问题,请参考以下文章

来自命令行的 ms 语音

《QT语音》无法说话没有声音的解决办法

有没有办法在 Windows 语音合成器说话时显示音频波?

系统语音识别、MS语音平台和Kinect

向预先训练的说话人识别模型中添加新说话人

语音识别以登录 Web 应用程序