谷歌云文本到语音生成的mp3开头和结尾静音

Posted 2023-02-25

技术标签:

【中文标题】谷歌云文本到语音生成的mp3开头和结尾静音【英文标题】：Google cloud text to speech silence at the beginning and at the end of generated mp3 【发布时间】：2020-04-23 22:25:08 【问题描述】：

我需要快速播放从谷歌云文本到语音服务生成的几个音频文件。这是我得到的： https://yadi.sk/i/jbkGpd23bprmyw 如您所见，它在 mp3 数据的开头和结尾处有大约 0.15-0.3 秒的静音。有没有办法告诉 API 不要包含这些静音部分？

【问题讨论】：

【参考方案1】：

您可以使用ffmpeg 提取您希望保留的音频片段部分。

例如，如果您希望 0.8 秒剪辑中间的 0.5 秒在开始和结束时有 0.15 秒的静音，您可以设置 -t 00:00:00.500（要保留的音频长度）并在开始设置从哪里开始。

完整的命令如下所示：

ffmpeg -ss 00:00:00.150 -i ttsclip.mp3 -t 00:00:00.500 -acodec copy ttsclip-cut.mp3

【讨论】：

我怀疑他们正在寻找更自动化的东西，而不需要测量每个文件的静音量。也就是说，如果填充量是一致的，这可能仍然是合适的。

以上是关于谷歌云文本到语音生成的mp3开头和结尾静音的主要内容，如果未能解决你的问题，请参考以下文章

如何检测谷歌云平台机器学习语音api中所说的语言

如何将谷歌云构建步骤文本输出保存到文件

Symfony 部署谷歌云

如何使用谷歌应用引擎将 php 项目部署到谷歌云中？

从谷歌云数据存储迁移到谷歌云 sql

生成谷歌云端点客户端库时出错