Google Cloud Speech API 中转录的文件大小

Posted

技术标签:

【中文标题】Google Cloud Speech API 中转录的文件大小【英文标题】:File size for transcription in Google Cloud speech API 【发布时间】:2018-02-09 05:49:55 【问题描述】:

Google Cloud Speech API 要求您对运行时间少于一分钟的音频文件使用 sync recognition mode,如果音频文件超过一分钟,则使用 async recognition mode。

我如何分析使用哪个接口来获取脚本,我们应该根据音频文件的大小来分析吗?或者如何找到音频转录的总时间或如何处理这种情况?

【问题讨论】:

【参考方案1】:

音频文件大小与确定音频持续时间无关,因为音频文件由多个音频样本组成(样本总数取决于每秒采集的音频样本数,以赫兹为单位),这些样本中的每一个都具有给定的大小(对样本进行编码需要多少位)。

您可能会发现sox 实用程序及其soxi 程序可用于确定音频文件的持续时间。 soxi 将解析您的音频文件的标题以提供该信息。这是一个带有 WAV 文件的示例:

$ soxi audiofile.wav

Input File     : 'audiofile.wav'
Channels       : 2
Sample Rate    : 48000
Precision      : 16-bit
Duration       : 00:00:59.76 = 2868480 samples ~ 4482 CDDA sectors
File Size      : 11.5M
Bit Rate       : 1.54M
Sample Encoding: 16-bit Signed Integer PCM

希望这有帮助!

【讨论】:

以上是关于Google Cloud Speech API 中转录的文件大小的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Google Speech API 访问 Google Cloud Storage 中的文件?

如何从 Google Cloud API Text-to-Speech 获取音素

通过 Google Cloud Speech API 获取每个转录单词的时间戳?

使用来自 Electron 的 gRPC 实时转录 Google Cloud Speech API

如何从 Google Cloud text-to-speech API 获取 SSML <mark> 时间戳

来自浏览器的Google Speech API