根据关键字剪切音频文件
Posted
技术标签:
【中文标题】根据关键字剪切音频文件【英文标题】:cutting audio files based on a keyword 【发布时间】:2009-11-04 14:18:52 【问题描述】:我有一个音频文件,需要根据关键字将其剪切并分解为多个音频文件。例如,假设关键字是“CUT”
if we had an wav file called "original.wav" with the following audio,
"Hello , is this CUT the time is CUT My name is CUT The balance is"
and the token audio cut.wav which contains the audio "CUT"
所以 original.wav 和 cut.wav 被输入到程序中
输出是
file1.wav which contains audio "Hello, is this"
file2.wav which contains audio "the time is"
file3.wav which contains audio "My name is"
file4.wav which contains audio "The balance is"
我完全没有音频编程方面的经验,我需要哪些库以及如何处理。
谢谢
【问题讨论】:
专业提示:此处无需使用“编程”标签。任何不能被标记为“编程”的问题首先不应该在这里提出。 另外:用每种大语言标记问题只是为了引起注意。您真正使用的是什么编程环境? 它可以是用任何 C#、java 或 python 编写的程序。没关系,这就是我标记它的原因。 【参考方案1】:如果您没有这方面的经验,那么您最好使用 Audacity 手动剪切音频文件。
听起来您正在尝试省去手动剪切录音的工作,但语音识别是一个非常复杂的主题。与使用“手工”剪切的录音重新设计应用程序相比,您将花费更多的时间来实现/集成您的语音识别引擎和训练模型。
如果需要,可以查看Microsoft Speech API。开放目录也有several links。
【讨论】:
关键是它需要自动化,我不是团队中唯一一个手动剪切音频的人。有了token,好的语音识别应该就这么难剪了,你所做的就是识别token word,得到token前后的准确时间,并以此为基础截取音频。 并且token word会和要剪切的音频文件中的token word几乎一模一样 @pp:不,不会几乎完全一样。这个词会有相同的音高吗?速度?体积?拐点?语气?噪音?对其中任何一个的任何更改都会导致音频流中的位模式大不相同。 音频由专业配音员录制,非常相似 好的,我已经为我的答案添加了一些链接。您正在开发 IVR 吗?不过,我仍然坚持我最初的回答:如果有人在制作录音时遇到了麻烦,那么有人不妨将它们记录为单独的文件并正确标记它们。以上是关于根据关键字剪切音频文件的主要内容,如果未能解决你的问题,请参考以下文章
从原始文件中获取最多 x 个字节的 AudioInputStream(剪切音频文件)