将录制的音频转换为数字数据

Posted

技术标签:

【中文标题】将录制的音频转换为数字数据【英文标题】:Turning Recorded Audio into numerical data 【发布时间】:2021-01-10 00:38:05 【问题描述】:

我正在制作一个 Java 个人项目,您可以在其中录制自己演唱的歌曲,该程序将加载一首与该旋律最匹配的歌曲(从预先选择的小选择中)。到目前为止,我已经实现了用户使用 Java Sound API 将音频文件录制为 WAVE 文件的功能。我已经看到,对于音频相似性,可以在音频文件之间进行相关性,并通过测量相关性图中是否存在高幅度峰值,可以确定音频文件是否相似。

我在信号处理堆栈交换中阅读了以下帖子 https://dsp.stackexchange.com/questions/736/how-do-i-implement-cross-correlation-to-prove-two-audio-files-are-similar 谈到使用快速傅里叶变换来完成卷积(适用于延时音频的相关性)。我已经在 Github 上导入了 JTransforms 项目以使用 FFT,但我不确定如何将 WAVE 文件转换为可用于执行相关或卷积的数字表示(类似于大型值数组)。非常感谢任何有关如何解决此问题的建议!

【问题讨论】:

你好,这个网站不是这样工作的:D 你必须向我们展示一些细节/代码以获得帮助,这将表明你正在尝试解决问题。 音频存在于时域中,您有一条上下摆动的曲线,但平坦到零交叉线,通常为零表示静音。摆动范围从有符号整数上的最大负数到最大正数..对于初学者来说,忽略 FFT 只需同时遍历两个音频源并求和为一个总值,因为您将从每个源记录中获取的每个样本对相乘......如果两个输入源文件匹配这个总和会很大...要及时对齐两个记录,您可能需要在上面重复整个文件,同时引入时间偏移 google 上的第一个链接:how to compare two .wav files:audiophilestyle.com/forums/topic/20872-comparing-two-wav-files 【参考方案1】:

要阅读 .wav,您将使用 AudioInputStream 类。教程“Using Files and Format Converters”中提供了一个示例,这是文章中的第一个代码示例,在“读取声音文件”部分。

下一个障碍是将字节转换为有意义的 PCM。在上面的代码示例中,有一个注释行:

  // Here, do something useful with the audio data that's 
  // now in the audioBytes array...

这就是您可以将字节转换为 PCM 的地方。确切的算法取决于您可以通过AudioInputStreamgetFormat 方法检查的格式,该方法返回AudioFormat

该格式将告诉您每个 PCM 值有多少字节(例如,16 位编码是每个 PCM 值两个字节)和字节顺序,可以是小端或大端。如果音频是立体声,则 PCM 值在左右交替。

从字节构建 PCM 值涉及位移。我猜你知道如何处理这个问题。假设数据是有符号 PCM 格式,创建 16 位值的自然结果将是有符号短整数。因此,最后一步通常是除以 Short.MAX_VALUE 以将短裤转换为 -1 到 1 的有符号浮点数。

【讨论】:

以上是关于将录制的音频转换为数字数据的主要内容,如果未能解决你的问题,请参考以下文章

如何将文字变成声音,然后录制成音频?

swift 录制多个音频 并将音频转换为mp3 并合成多个mp3文件为一个文件

如何把matlab里的音频文件转换为wav格式

录制音频数据并将其发送到 c++ 函数

录制 SWF 并转换为 FLV

如何将 .wav 音频文件转换为文本并使用 LUIS 识别意图