要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?

Posted

技术标签:

【中文标题】要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?【英文标题】:What should be the maximum audio file length (duration) to be sent to Bing Speeh to Text API? 【发布时间】:2017-12-04 06:38:23 【问题描述】:

我已推荐this documentation。 他们在使用客户端库进行语音转文本时提到了“长音频流(长达 10 分钟)”。

语音转文本是否接受超过 10 分钟的音频文件? 如果我们通过音频文件 > 10 分钟会发生什么?

在我的用例中,我需要传递超过 30 分钟的音频文件。那么对于这些​​情况我们该怎么办呢?

【问题讨论】:

【参考方案1】:

您可以使用 ffmpeg 以编程方式拆分较长的音频流,并将这些块传递给此客户端库。您可以选中此项以编程方式将长音频流划分为指定时间的块:https://superuser.com/questions/525210/splitting-an-audio-file-into-chunks-of-a-specified-length。

然后,您可以将这些块中的文本组合起来以获取整个文本。不是最干净的方式 - 但可以扩展。

【讨论】:

以上是关于要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?的主要内容,如果未能解决你的问题,请参考以下文章

如何播放从 Bing Text to Speech API 返回的音频流?

Bing Speech to Text API - 在 c# 中通过 websocket 进行通信

如何在 Bot Framework C# 中使用 Bing Speech API

将 WAV 录制到 IBM Watson Speech-To-Text

使用 Recycler View 时如何在 Text To Speech 中实现错误处理

在 Xamarin Forms App 中尝试 Speech-To-Text 后,Text-To-Speech 播放的音量非常低