Google Cloud Speech API 中转录的文件大小

Posted 2023-03-24

技术标签:

【中文标题】Google Cloud Speech API 中转录的文件大小【英文标题】：File size for transcription in Google Cloud speech API 【发布时间】：2018-02-09 05:49:55 【问题描述】：

Google Cloud Speech API 要求您对运行时间少于一分钟的音频文件使用 sync recognition mode，如果音频文件超过一分钟，则使用 async recognition mode。

我如何分析使用哪个接口来获取脚本，我们应该根据音频文件的大小来分析吗？或者如何找到音频转录的总时间或如何处理这种情况？

【问题讨论】：

【参考方案1】：

音频文件大小与确定音频持续时间无关，因为音频文件由多个音频样本组成（样本总数取决于每秒采集的音频样本数，以赫兹为单位），这些样本中的每一个都具有给定的大小（对样本进行编码需要多少位）。

您可能会发现sox 实用程序及其soxi 程序可用于确定音频文件的持续时间。 soxi 将解析您的音频文件的标题以提供该信息。这是一个带有 WAV 文件的示例：

$ soxi audiofile.wav

Input File     : 'audiofile.wav'
Channels       : 2
Sample Rate    : 48000
Precision      : 16-bit
Duration       : 00:00:59.76 = 2868480 samples ~ 4482 CDDA sectors
File Size      : 11.5M
Bit Rate       : 1.54M
Sample Encoding: 16-bit Signed Integer PCM

希望这有帮助！

【讨论】：

以上是关于Google Cloud Speech API 中转录的文件大小的主要内容，如果未能解决你的问题，请参考以下文章

如何使用 Google Speech API 访问 Google Cloud Storage 中的文件？

如何从 Google Cloud API Text-to-Speech 获取音素

通过 Google Cloud Speech API 获取每个转录单词的时间戳？

使用来自 Electron 的 gRPC 实时转录 Google Cloud Speech API

如何从 Google Cloud text-to-speech API 获取 SSML <mark> 时间戳

来自浏览器的Google Speech API