Google Cloud Speech API 中转录的文件大小
Posted
技术标签:
【中文标题】Google Cloud Speech API 中转录的文件大小【英文标题】:File size for transcription in Google Cloud speech API 【发布时间】:2018-02-09 05:49:55 【问题描述】:Google Cloud Speech API 要求您对运行时间少于一分钟的音频文件使用 sync recognition mode,如果音频文件超过一分钟,则使用 async recognition mode。
我如何分析使用哪个接口来获取脚本,我们应该根据音频文件的大小来分析吗?或者如何找到音频转录的总时间或如何处理这种情况?
【问题讨论】:
【参考方案1】:音频文件大小与确定音频持续时间无关,因为音频文件由多个音频样本组成(样本总数取决于每秒采集的音频样本数,以赫兹为单位),这些样本中的每一个都具有给定的大小(对样本进行编码需要多少位)。
您可能会发现sox 实用程序及其soxi
程序可用于确定音频文件的持续时间。 soxi
将解析您的音频文件的标题以提供该信息。这是一个带有 WAV 文件的示例:
$ soxi audiofile.wav
Input File : 'audiofile.wav'
Channels : 2
Sample Rate : 48000
Precision : 16-bit
Duration : 00:00:59.76 = 2868480 samples ~ 4482 CDDA sectors
File Size : 11.5M
Bit Rate : 1.54M
Sample Encoding: 16-bit Signed Integer PCM
希望这有帮助!
【讨论】:
以上是关于Google Cloud Speech API 中转录的文件大小的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Google Speech API 访问 Google Cloud Storage 中的文件?
如何从 Google Cloud API Text-to-Speech 获取音素
通过 Google Cloud Speech API 获取每个转录单词的时间戳?
使用来自 Electron 的 gRPC 实时转录 Google Cloud Speech API