音频处理Loudness Normalization 响度均衡算法简介

Posted 2022-12-15 芥末的无奈

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音频处理Loudness Normalization 响度均衡算法简介相关的知识，希望对你有一定的参考价值。

系列文章目录

0. 前言

关于响度的概念，以及响度标准化 EBU R.128 的讨论，网上已经有很多优秀的博客了，我就不再赘述了。这里我列举我看到过的还不错的文章，供各位参考：

看完这些介绍，你对响度或多或少已经有了些概念，它是对声音强度的一种描述，它是一种「主观」的心理量，影响因素包括很多，例如信号持续时长、频率特征、声场特性等等。

为了测量出音频的响度，有很多组织提出了不同的标准，今天我们要介绍的是由 EBU（European Broadcasting Union，欧洲广播联盟）提出的 EBU-R128 标准。通过该标准提出的算法，我们可以检测出关于响度的各种信息。具体的包括：

Momentary loudness：瞬时响度，即最近 400ms 的响度
Short-term loudness：短时响度，即最近 3s 的响度
Integrated loudness：从开始到现在的平均响度
Loudness range：响度范围，即响度变化的量化值
True Peak：真实峰值电平

这些值都有一套算法来计算，你可以参考 ITU-R BS.1770 或者 MATLAB-loudnessMeter 来了解具体算法流程。ebur128 提供响度检测的 C/C++ 实现，如果你想知道算法的实现细节，这份代码不要错过。响度检测算法不是这篇文章的重点，此处不再赘述。

Loudness Normalization 响度均衡

在有统一的响度标准以前，音量归一化通常是通过观察信号的峰值信号来进行的（Peak Normalization），即添加一个增益，使得 PCM 采样中的峰值达到一个给定的水平 – 通常是 0dBFS，即数字系统中允许的最响的水平。由于 Peak Normalization 它只关心信号峰值，所以单单 Peak Normalization 的结果并不能准确反映音频内容的响度。因此 Peak Normalization 通常用来改变音量，以确保数字录音的母带制作阶段有最佳的可用动态范围。然而，在 Limiter/Compressor 处理后再使用 Peak Normalization
，可用让音频更响。这种使用方式在一段时间内称为某种趋势，大家都希望自己的音频内容更响，从而吸引人们的耳朵。但其引发的结果就是「响度战争」。

另一种是基于响度的归一化，同样地往音频中添加一个增益，使得音频整体平均响度达到一定的水平。这个平均响度是可以近似的，如平均功率的简单计算（RMS），也可是准确的，例如 EBU R128 定义的响度。

响度均衡可以解决一连串多首歌曲响度不同的问题。在响度均衡前，播放列表中的一首歌可能必其他歌曲更加安静，所以听众必须将调整音量。

Offline Loudness Normalization 离线响度均衡

Offline 模式的响度均衡，也叫 Double Pass 模式，意思是你要处理音频两次：

第一次处理，获取音频 Integrated loudness，True peak 等信息
第二次处理，输入 Target loudness（目标响度），以及上一步得到的 Integrated loudness，算法将根据两个响度之间的差异，进行合适的增益。

如果你能拿到全部音频数据的情况下，这种处理方式是最佳的，但由于要处理音频两遍，耗时会增加。

伪代码如下：

auto audio_file = getAudioFile();

// first pass
auto loudnessDetection()

	for(;;)
	
		auto block = getNextAudioBlock(audio_file);
		ebur128Process(block);
		if(reachAudioEnd(audio_file))
			break;
		
	
	auto integrated_loudness = ebur128GetIntegratedLoudness();
	auto loudness_range = ebur128GetLoudnessRange();
	auto true_peak = ebur128GetTruePeak();
	return integrated_loudness, loudness_range, true_peak;


// second pass
auto lourdNormProcess(float integrated_loudness, 
					  float loudness_range,
					  float true_peak,
					  float target_loudness
					  )

	auto gain = calcGain(integrated_loudness, loudness_range, true_peak, target_loudness);
	audio_file.applyGain(gain);

第一次的音频处理，目的在于检测当前音频的响度信息，你使用 ebur128 - github 即可，并不复杂。而第二次处理，却有不少细节需要考虑。

第二次要如何处理呢？我找到的最简单的方案来自于 Loudness Normalization in Accordance with EBU R 128 Standard，即将目标响度与输入响度差异，作为增益，在 pyloudnorm 中也使用了这种方案：

target = -23;
gaindB = target - loudness;
gain = 10^(gaindB/20);
xn = x.*gain;

但很明显，这种方案可能会导致爆音（clip），当音频中某些采样点经过增益后，其值超过了 1.0 那么爆音就发生了。

那么如何进行优化？在 Recommendation for Loudness of Audio Streaming and Network File Playback 中给出了两种可行的方案。

方案一。确定目标响度与输入响度的差异，如果必须降低电平以符合目标响度，那么没有问题，直接按上面的方法计算增益即可。如果必须提升电平以符合目标响度，那么增益的计算需要考虑 True Peak，使得它满足目标响度或者让 True Peak 达到 0db TP。这种处理方式可以尽可能保留声音质量，不会引入峰值限制。但在一些具有搞 Loudnss Range 的音频中，这样处理后的音频响度会低于目标响度。计算增益部分伪代码：

float calcGain(float integrated_loudness,
			   float true_peak,
			   float target_loudness)

	auto peak_diff = 1.0f - true_peak;
	auto peak_gain_db = scaleToDb(peak_diff);
	auto loud_gain_db = target_loudness - integrated_loudness;
	auto gain_db = min(peak_gain_db, loud_gain_db);
	return dbToScale(gain_db);

方案二。在方案一中，我们不想让信号的峰值出现 clip，因此在计算增益时要考虑 true peak。对于峰值的限制，我们完全可以交给 Limiter 来做。因此在方案二中，增益使用目标响度与输入响度的差异计算，接着让 Limiter 来进行增益的提升，避免 clip。这样做的好处是响度更加一致，但会引入更多峰值限制，从而影响声音质量。当我们的目标响度较低时，方案一仍然是最佳方法。方案二伪代码如下：

void loudnormWithLimiter(float integrated_loudness,
			   			 float target_loudness)

	auto gain_db = target_loudness - integrated_loudness;
	auto limiter = Limiter();
	limiter.input_gain_db = gain_db;

	limiter.process(audio_file);

Live Loudness Normalization 实时响度均衡

在直播这样的场景下，音频可以认为是无限长的，你无法拿到全部音频数据，因此 Offline 模式在这种场景下无法工作。对于实时的音频流，EBU R128 定义瞬时响度和短时响度，我们可以根据它们来调整信号的增益。伪代码如下：

void loudnormProcess(float target_loudness)

	for(;;)
	
		auto block = getAudioBlockFromStream();
		ebur128Process(block);
		
		auto momentary = ebur128GetMomentary();
		auto short_term = ebur128GetShortterm();
		auto gain = calcGain(momentary, short_term, target_loudness);
		
		block.applyGain(gain);
		
		if(noAudiostream())
			break;

实时响度均衡中，如何做增益控制有着不同的方案，例如在 Loudness Normalization in Accordance with EBU R 128 Standard 中使用了 AGC 来自动控制增益；在FFMPEG - af_loudnorm.c 中，检测短时响度与目标响度的差异，计算得到增益，并结合 Limiter 进行增益控制；在 esayeffects - autogain 中，则可以选择用短时响度还是瞬时响度，或者它们结合，来计算增益。总之，这一块目前似乎没有一个统一的方案，查找对应的论文也寥寥无几。

在个人的实现中，我选择短时响度 + Limiter 的实现方案，因为这样最简单，没有复杂的逻辑。但我没有做大范围的测试，该方案可能存在 bad case。

总结

本文重点介绍了响度均衡算法的处理方式，分为离线模式和实时模式。离线响度均衡需要处理两遍音频，第一遍获取音频响度信息，第二遍进行音频的增益控制；实时响度均衡通常结合瞬时响度或者短时响度来计算增益，如何进行增益控制，这部分业界有着不同的做法。

参考

以上是关于音频处理Loudness Normalization 响度均衡算法简介的主要内容，如果未能解决你的问题，请参考以下文章