音频处理Loudness Normalization 响度均衡算法简介

Posted 芥末的无奈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音频处理Loudness Normalization 响度均衡算法简介相关的知识,希望对你有一定的参考价值。

系列文章目录


0. 前言

关于响度的概念,以及响度标准化 EBU R.128 的讨论,网上已经有很多优秀的博客了,我就不再赘述了。这里我列举我看到过的还不错的文章,供各位参考:

看完这些介绍,你对响度或多或少已经有了些概念,它是对声音强度的一种描述,它是一种「主观」的心理量,影响因素包括很多,例如信号持续时长、频率特征、声场特性等等。

为了测量出音频的响度,有很多组织提出了不同的标准,今天我们要介绍的是由 EBU(European Broadcasting Union,欧洲广播联盟)提出的 EBU-R128 标准。通过该标准提出的算法,我们可以检测出关于响度的各种信息。具体的包括:

  • Momentary loudness:瞬时响度,即最近 400ms 的响度
  • Short-term loudness:短时响度,即最近 3s 的响度
  • Integrated loudness:从开始到现在的平均响度
  • Loudness range:响度范围,即响度变化的量化值
  • True Peak:真实峰值电平

这些值都有一套算法来计算,你可以参考 ITU-R BS.1770 或者 MATLAB-loudnessMeter 来了解具体算法流程。ebur128 提供响度检测的 C/C++ 实现,如果你想知道算法的实现细节,这份代码不要错过。响度检测算法不是这篇文章的重点,此处不再赘述。

Loudness Normalization 响度均衡

在有统一的响度标准以前,音量归一化通常是通过观察信号的峰值信号来进行的(Peak Normalization),即添加一个增益,使得 PCM 采样中的峰值达到一个给定的水平 – 通常是 0dBFS,即数字系统中允许的最响的水平。由于 Peak Normalization 它只关心信号峰值,所以单单 Peak Normalization 的结果并不能准确反映音频内容的响度。因此 Peak Normalization 通常用来改变音量,以确保数字录音的母带制作阶段有最佳的可用动态范围。然而,在 Limiter/Compressor 处理后再使用 Peak Normalization
,可用让音频更响。这种使用方式在一段时间内称为某种趋势,大家都希望自己的音频内容更响,从而吸引人们的耳朵。但其引发的结果就是「响度战争」。

另一种是基于响度的归一化,同样地往音频中添加一个增益,使得音频整体平均响度达到一定的水平。这个平均响度是可以近似的,如平均功率的简单计算(RMS),也可是准确的,例如 EBU R128 定义的响度。

响度均衡可以解决一连串多首歌曲响度不同的问题。在响度均衡前,播放列表中的一首歌可能必其他歌曲更加安静,所以听众必须将调整音量。

Offline Loudness Normalization 离线响度均衡

Offline 模式的响度均衡,也叫 Double Pass 模式,意思是你要处理音频两次

  • 第一次处理,获取音频 Integrated loudness,True peak 等信息
  • 第二次处理,输入 Target loudness(目标响度),以及上一步得到的 Integrated loudness, 算法将根据两个响度之间的差异,进行合适的增益。

如果你能拿到全部音频数据的情况下,这种处理方式是最佳的,但由于要处理音频两遍,耗时会增加。

伪代码如下:

auto audio_file = getAudioFile();

// first pass
auto loudnessDetection()

	for(;;)
	
		auto block = getNextAudioBlock(audio_file);
		ebur128Process(block);
		if(reachAudioEnd(audio_file))
			break;
		
	
	auto integrated_loudness = ebur128GetIntegratedLoudness();
	auto loudness_range = ebur128GetLoudnessRange();
	auto true_peak = ebur128GetTruePeak();
	return integrated_loudness, loudness_range, true_peak;


// second pass
auto lourdNormProcess(float integrated_loudness, 
					  float loudness_range,
					  float true_peak,
					  float target_loudness
					  )

	auto gain = calcGain(integrated_loudness, loudness_range, true_peak, target_loudness);
	audio_file.applyGain(gain);	


第一次的音频处理,目的在于检测当前音频的响度信息,你使用 ebur128 - github 即可,并不复杂。而第二次处理,却有不少细节需要考虑。

第二次要如何处理呢?我找到的最简单的方案来自于 Loudness Normalization in Accordance with EBU R 128 Standard,即将目标响度与输入响度差异,作为增益,在 pyloudnorm 中也使用了这种方案:

target = -23;
gaindB = target - loudness;
gain = 10^(gaindB/20);
xn = x.*gain;

但很明显,这种方案可能会导致爆音(clip),当音频中某些采样点经过增益后,其值超过了 1.0 那么爆音就发生了。

那么如何进行优化?在 Recommendation for Loudness of Audio Streaming and Network File Playback 中给出了两种可行的方案。

方案一。确定目标响度与输入响度的差异,如果必须降低电平以符合目标响度,那么没有问题,直接按上面的方法计算增益即可。如果必须提升电平以符合目标响度,那么增益的计算需要考虑 True Peak,使得它满足目标响度或者让 True Peak 达到 0db TP。这种处理方式可以尽可能保留声音质量,不会引入峰值限制。但在一些具有搞 Loudnss Range 的音频中,这样处理后的音频响度会低于目标响度。计算增益部分伪代码:

float calcGain(float integrated_loudness,
			   float true_peak,
			   float target_loudness)

	auto peak_diff = 1.0f - true_peak;
	auto peak_gain_db = scaleToDb(peak_diff);
	auto loud_gain_db = target_loudness - integrated_loudness;
	auto gain_db = min(peak_gain_db, loud_gain_db);
	return dbToScale(gain_db);

方案二。在方案一中,我们不想让信号的峰值出现 clip,因此在计算增益时要考虑 true peak。对于峰值的限制,我们完全可以交给 Limiter 来做。因此在方案二中,增益使用目标响度与输入响度的差异计算,接着让 Limiter 来进行增益的提升,避免 clip。这样做的好处是响度更加一致,但会引入更多峰值限制,从而影响声音质量。当我们的目标响度较低时,方案一仍然是最佳方法。方案二伪代码如下:

void loudnormWithLimiter(float integrated_loudness,
			   			 float target_loudness)

	auto gain_db = target_loudness - integrated_loudness;
	auto limiter = Limiter();
	limiter.input_gain_db = gain_db;

	limiter.process(audio_file);

Live Loudness Normalization 实时响度均衡

在直播这样的场景下,音频可以认为是无限长的,你无法拿到全部音频数据,因此 Offline 模式在这种场景下无法工作。对于实时的音频流,EBU R128 定义瞬时响度和短时响度,我们可以根据它们来调整信号的增益。伪代码如下:

void loudnormProcess(float target_loudness)

	for(;;)
	
		auto block = getAudioBlockFromStream();
		ebur128Process(block);
		
		auto momentary = ebur128GetMomentary();
		auto short_term = ebur128GetShortterm();
		auto gain = calcGain(momentary, short_term, target_loudness);
		
		block.applyGain(gain);
		
		if(noAudiostream())
			break;
	

实时响度均衡中,如何做增益控制有着不同的方案,例如在 Loudness Normalization in Accordance with EBU R 128 Standard 中使用了 AGC 来自动控制增益;在FFMPEG - af_loudnorm.c 中,检测短时响度与目标响度的差异,计算得到增益,并结合 Limiter 进行增益控制;在 esayeffects - autogain 中,则可以选择用短时响度还是瞬时响度,或者它们结合,来计算增益。总之,这一块目前似乎没有一个统一的方案,查找对应的论文也寥寥无几。

在个人的实现中,我选择短时响度 + Limiter 的实现方案,因为这样最简单,没有复杂的逻辑。但我没有做大范围的测试,该方案可能存在 bad case。


总结

本文重点介绍了响度均衡算法的处理方式,分为离线模式和实时模式。离线响度均衡需要处理两遍音频,第一遍获取音频响度信息,第二遍进行音频的增益控制;实时响度均衡通常结合瞬时响度或者短时响度来计算增益,如何进行增益控制,这部分业界有着不同的做法。


参考

以上是关于音频处理Loudness Normalization 响度均衡算法简介的主要内容,如果未能解决你的问题,请参考以下文章

使用 Python 测量音频“响度”

SoundTouch实现音频变速变调

音频相关的基本概念

Android系统Audio框架介绍

Matlab 音频处理求教

视音频数据处理入门:FLV封装格式解析