如何将一个音频文件添加到另一个?

Posted

技术标签:

【中文标题】如何将一个音频文件添加到另一个?【英文标题】:How to add one audio file on to other one? 【发布时间】:2012-11-25 00:40:34 【问题描述】:

我有一个音乐的音频文件,我需要录制歌曲的小片段并在不同的时间添加到音乐文件中。您可以这样理解,我有一条长条纸,我必须将小纸条粘贴在大纸条的不同位置。 请提出一些方法。

让我在这里提供更多细节。假设我有 10 个 5 秒的小声音片段,我有一个 50 秒的音乐文件。所以我总共有 11 个声音文件。现在,我必须通过在音乐文件的不同时间后添加 10 个小片段来创建一个最终的音频文件。第一个文件应该在 5.22 秒添加,第二个文件应该在 10.34 秒添加。

【问题讨论】:

这是一个非常笼统的问题,就目前而言。您需要更明确地说明,在模糊描述的过程中,目前让您感到困惑的是什么。说明您的解决方案的一些要求也会有所帮助(例如,仅将其标记为“iphone”)。 未压缩的音频文件只是定期进行的一系列电压测量——从大约每秒 8000 次到 44.1Khz。立体声文件可以是左右交替测量的两条轨道。每个测量值都有一定的长度——8、12、16、24 或 32 位。该文件有一个标题,提供有关文件的信息——数据速率、通道数、每个通道的位数等。“拼接”将是剥离标题的问题,将测量序列安排回-返回,然后为组合数据创建一个新标头。 @MatthewHall Mathew,我已经进一步解释了这个问题。 很容易做到,一旦你破解了文件格式。但是,如果文件被压缩,它会变得有点混乱,因为 Apple 的内置工具似乎不能很好地处理压缩,至少在模拟器上没有。 @HotLicks 你能详细说明一下吗? 【参考方案1】:

我会根据你在cmets中的说明来回答:

假设我有两个 mp3 文件,a.mp3 为 5 秒,b.mp3 为 7 秒,我想混合它们以生成持续时间的 c.mp3 7 秒。

如 cmets 中所述,我无法为您提供任何 ios 细节,但我可以让您了解执行此过程所需的逻辑,无论使用何种平台和库。我将使用简单的 C++ sn-ps 来演示。但是,听起来您想要做的是将 a.mp3(以下简称 A)混入 b.mp3(以下简称 B)的某处——假设将 A 混合到 B 的开头——以产生最终的音频剪辑 C。

首先,由于您提到它们是 MP3 文件,而不是 WAV 或其他未压缩的 PCM 格式,例如 RAW 或 AIFF,您首先需要将 A 和 B 转换为未压缩的格式,例如 S16_LE PCM (CD音频格式——带符号的 16 位整数样本,小端序),这意味着您将使用一组样本值——如果是立体声音频,则左右声道交错——对于 A 和 B,因此对于 C,当您完成混音后,其中的最后一个可以选择性地重新编码为 MP3。

您应该使用库来为您处理文件编码/格式问题,但是在使用它们时,它们都——包括用于直接录制或回放的系统接口——产生(即,在读取时)或期望 (即,在写入时)本质上是相同的基本未压缩 PCM 样本流格式。对于一般开发,无处不在的libsndfile C 库可用于为您处理约 47 种文件格式的所有这些,包括 Ogg Vorbis 和 FLAC(但不直接支持 MP3)以及您使用的 WAV 格式变体应该是专注吧。

为简单起见,我们只考虑单声道声音片段 A 和 B(即,它只是 A 和 B 的样本值的直接数组,我们不必担心交错的左/右声道);如果重要的话,您可以通过独立考虑每个立体声通道(A.left 与 B.left 混合,A.right 与 B.right 混合)轻松地将概念扩展到立体声。如果您的特定 A 和 B 是立体声但 C 不需要,您也可以简单地将两个输入音频剪辑预先转换为单声道,具体取决于应用程序。

此外,将音频样本作为浮点值处理通常更容易,因此将未压缩的样本格式转换(或者,通常,您的音频文件库会为您完成 - libsndfile 会)将未压缩的样本格式转换为浮点在 [-1.0, +1.0] 范围内,其中 1.0 的绝对值表示最大可能的样本值,0.0 表示静音。这些样本值包含随时间推移(即在阵列上)的任意音频波形的演变。

首先,您需要确保在混音前有足够的“动态余量”(防止输出中出现削波)。为什么?混合采用信号叠加(加法)的原理来组合信号/声音:我们将为每个重叠样本将 A 和 B 加在一起,因此如果来自 A 和 B 的相应样本的总和,则混合输出样本可能会“剪辑”超过 1.0 或低于 -1.0。

有几种方法可以防止削波,具体取决于您各自的输入电平,以及您是想保持它们的音量比还是简单地将它们相等地组合(或者您是否正在使用立体声并想使用声音最大的那个A 或 B 的通道作为参考点——这是我们最后听到的立体声)。

我们将采用最简单的方法,将 A 和 B 的音量标准化为不超过满量程 (0.5) 的一半,这样当它们加在一起时,它们就永远不会削波(即没有混合输出样本将永远超出范围 [-1.0, +1.0])。如果不是 2 个输入,而是有 3 个输入音频片段 X、Y 和 Z 要使用此方法同时混合在一起,我们将在峰值 (0.33) 处将每个片段归一化为满量程的 1/3。

通过迭代它们各自的样本缓冲区/数组并确定每个样本缓冲区/数组中的最大样本值,找到 A 和 B、A_peakB_peak 的峰值。 [要遵循的代码。]

分别为每个采样缓冲区 A 和 B 确定缩放值 A_scaleB_scale,以便它们与各自的峰值相乘产生半比例。 [要遵循的代码。]

A_scale * A_peak == 0.5
B_scale * B_peak == 0.5

尔格:

A_scale = 1 / (2 * A_peak)
B_scale = 1 / (2 * B_peak)

现在,我们可以将整个样本缓冲区 A 和 B 分别乘以 A_scaleB_scale,它们将被归一化为每个正好半刻度的峰值,并且两者的混合样本永远不会超过全刻度 -规模。也就是说,即使 A 和 B 的最大值与样本对齐,它们的缩放和总和混合输出也将恰好为 1.0,并且永远不会更大。这种比例系数通常被称为“增益”。

同样,有多种方法可以在混合时标准化两个或多个样本缓冲区(音频剪辑)之间的增益,但这是最简单和最通用的演示方法。另外,它很容易适应将 N 个不同的音频剪辑混合在一起(如上所述),并且稍微简化后,可以实时混合样本(其中整个音频剪辑的样本缓冲区不是t 可用,并且样本处理是分块完成的,这在录制时通常是这种情况)。

现在,我们可以开始混音了。

在这种情况下,A(5 秒)适合 B(7 秒),因此我们可以将混合直接输出到 B 中,但为了一般性,让我们将混合输出到单独的样本缓冲区 C(7 秒),留下输入 A 和 B 未作为浮点样本缓冲区(可能被重用)。

A_len 是样本计数中 A 的长度(这是很容易确定的——当你加载文件时,库会告诉你,尽管从根本上说它只取决于持续时间和采样率),同样适用于 B_len和 B,对于输出 C,C_len == B_len,因为您的问题陈述中有 B_len > A_len

分配C,我们的混合输出:

unsigned int C_len = max(A_len, B_len);
double C[] = new double[ C_len ];

找出A和B中样本绝对值的峰值:

double A_peak = -1.0, B_peak = -1.0;

for (unsigned int i = 0; i < A_len; ++i) A_peak = max( A_peak, fabs(A[i]) );
for (unsigned int i = 0; i < B_len; ++i) B_peak = max( B_peak, fabs(B[i]) );

求 A 和 B 的半标度归一化增益:

double A_scale = 1 / ( 2 * A_peak );
double B_scale = 1 / ( 2 * B_peak );

将 A 和 B 混合到 C 中:

assert(A_len <= B_len);
assert(B_len == C_len);

unsigned int x = 0;

for (; x < A_len; ++x)
  C[x] = A_scale * A[x] + B_scale * B[x]; // actual mixing of A and B, finally

for (; x < B_len; ++x)
  C[x] = B_scale * B[x]; // as if A[x] were zero & no abrupt gain change

请注意,浮点缓冲区 A 和 B 在混合和归一化后仍然保持不变。

A 在任何地方都可以被认为是零/无声,它没有被混合。

如果我们想在 B 内的任意偏移处开始混合 A(而不是在开始时,假设这里),那么我们只需计算对应于我们的时间偏移的样本数(t_offset 以秒为单位, s_offset = t * sample_rate 整数样本),并在上述循环结构中的 x == s_offset 处开始包含 A。 [假设s_offset + A_len &lt;= C_len防止溢出。]

我们鼓励尝试更多特定于应用程序的方法来规范化混合输入,因为有很多可能性。例如,如果我计算了 A 和 B 样本之和的峰值,而不是分别计算每个峰值(基本上是先混合然后校正),该怎么办?这种[更好的]技术什么时候不可能实现?

最后,每当您混合信号时,在混合开始和结束的过渡点(例如,咔嗒声)处(例如,在 A 结束但 B 继续进入 C 的点)处总是存在伪影的可能性。这是一个相对较低的风险。但是,此类伪影的一般解决方案是对混音的输入/离开输入进行短时间淡入和淡出,通过平滑混合波形来消除伪影,并且可以快速完成以至听不见.

【讨论】:

以上是关于如何将一个音频文件添加到另一个?的主要内容,如果未能解决你的问题,请参考以下文章

将一个 AAC 文件附加到另一个文件时输出音频设置

将现有音频文件复制到另一个目标时出错

如何将类文件添加到另一个 jar 中的 jar 文件中 [关闭]

如何将可播放的音频文件添加到 TableListBox 播放列表(JUCE C++)

如何快速将一个文件的XML内容添加到另一个XML文件(性能)?

如何以相反的顺序将文档从一个集合添加到另一个集合?