要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?
Posted
技术标签:
【中文标题】要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?【英文标题】:What should be the maximum audio file length (duration) to be sent to Bing Speeh to Text API? 【发布时间】:2017-12-04 06:38:23 【问题描述】:我已推荐this documentation。 他们在使用客户端库进行语音转文本时提到了“长音频流(长达 10 分钟)”。
语音转文本是否接受超过 10 分钟的音频文件? 如果我们通过音频文件 > 10 分钟会发生什么?
在我的用例中,我需要传递超过 30 分钟的音频文件。那么对于这些情况我们该怎么办呢?
【问题讨论】:
【参考方案1】:您可以使用 ffmpeg 以编程方式拆分较长的音频流,并将这些块传递给此客户端库。您可以选中此项以编程方式将长音频流划分为指定时间的块:https://superuser.com/questions/525210/splitting-an-audio-file-into-chunks-of-a-specified-length。
然后,您可以将这些块中的文本组合起来以获取整个文本。不是最干净的方式 - 但可以扩展。
【讨论】:
以上是关于要发送到 Bing Speech to Text API 的最大音频文件长度(持续时间)应该是多少?的主要内容,如果未能解决你的问题,请参考以下文章
如何播放从 Bing Text to Speech API 返回的音频流?
Bing Speech to Text API - 在 c# 中通过 websocket 进行通信
如何在 Bot Framework C# 中使用 Bing Speech API
将 WAV 录制到 IBM Watson Speech-To-Text
使用 Recycler View 时如何在 Text To Speech 中实现错误处理
在 Xamarin Forms App 中尝试 Speech-To-Text 后,Text-To-Speech 播放的音量非常低