使用Watson SDK进行连续语音到文本

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Watson SDK进行连续语音到文本相关的知识,希望对你有一定的参考价值。

我以前一直使用IBM Watson语音文本服务来转录已预先录制的完整音频文件。但是,我现在正在尝试使用说话人识别功能进行实时转录。这意味着我不能单独发送每个短文件(以大约30秒的块记录音频),因为必须保持扬声器的上下文。如何在使用Python的同时做到这一点?

答案

您需要使用WebSocket进行实时转录。你传入一大堆音频,Watson用转录作出回应。你只需要检测沉默就可以将流分解成块。

您还需要指定用于转录的语言,并且当源音频来自电话时更好,您应该使用窄带模型以获得最佳效果。

IBM®建议您将宽带模型用于响应式实时应用程序(例如,用于实时语音应用程序)。 Reference

你可以在这个link中用Python中的Watson STT检查一个完整的例子。此示例使用Nexmo,但您可以获得在任何应用程序中使用实时脚本的逻辑。

以上是关于使用Watson SDK进行连续语音到文本的主要内容,如果未能解决你的问题,请参考以下文章

Curl 文本到语音中的 SSML 代码 IBM Watson

IBM Watson 语音到文本 API 中的 1006 错误代码

使用 IAM API 密钥的 IBM Watson 语音转文本 WebSocket 授权

Watson语音到文本 - 无法构造'WebSocket':URL包含片段标识符

使用 Java SDK 将音频从麦克风流式传输到 IBM Watson SpeechToText Web 服务

IBM Watson Speech To Text:无法使用 Swift SDK 转录文本