谷歌云文本到语音生成的mp3开头和结尾静音

Posted

技术标签:

【中文标题】谷歌云文本到语音生成的mp3开头和结尾静音【英文标题】:Google cloud text to speech silence at the beginning and at the end of generated mp3 【发布时间】:2020-04-23 22:25:08 【问题描述】:

我需要快速播放从谷歌云文本到语音服务生成的几个音频文件。 这是我得到的: https://yadi.sk/i/jbkGpd23bprmyw 如您所见,它在 mp3 数据的开头和结尾处有大约 0.15-0.3 秒的静音。 有没有办法告诉 API 不要包含这些静音部分?

【问题讨论】:

【参考方案1】:

您可以使用ffmpeg 提取您希望保留的音频片段部分。

例如,如果您希望 0.8 秒剪辑中间的 0.5 秒在开始和结束时有 0.15 秒的静音,您可以设置 -t 00:00:00.500(要保留的音频长度)并在开始设置从哪里开始。

完整的命令如下所示:

ffmpeg -ss 00:00:00.150 -i ttsclip.mp3 -t 00:00:00.500 -acodec copy ttsclip-cut.mp3

【讨论】:

我怀疑他们正在寻找更自动化的东西,而不需要测量每个文件的静音量。也就是说,如果填充量是一致的,这可能仍然是合适的。

以上是关于谷歌云文本到语音生成的mp3开头和结尾静音的主要内容,如果未能解决你的问题,请参考以下文章

如何检测谷歌云平台机器学习语音api中所说的语言

如何将谷歌云构建步骤文本输出保存到文件

Symfony 部署谷歌云

如何使用谷歌应用引擎将 php 项目部署到谷歌云中?

从谷歌云数据存储迁移到谷歌云 sql

生成谷歌云端点客户端库时出错