为啥 Sonic Visualizer 和我的 Python 脚本之间的频谱分析存在 dB 差异?

Posted

技术标签:

【中文标题】为啥 Sonic Visualizer 和我的 Python 脚本之间的频谱分析存在 dB 差异?【英文标题】:Why is there a dB difference in the spectrum analysis between Sonic Visualizer and my Python script?为什么 Sonic Visualizer 和我的 Python 脚本之间的频谱分析存在 dB 差异? 【发布时间】:2020-04-27 10:50:42 【问题描述】:

似乎我在执行从音频文件创建频谱的功能时遇到了问题。我问这个问题是希望有人能找到问题。

您可以下载32位浮动WAV音频文件here。

我正在编写一个脚本,该脚本使用 SciPy 和 NumPy 从音频文件创建频谱分析。在开始之前,我使用 Sonic Visualizer 分析了文件,得到了以下结果:

现在我尝试使用我的 Python 脚本重现此结果,但得到了不同的结果:

一切看起来都正确,除了 dB 值的比例。在 100Hz 时,Sonic Visualizer 为 -40dB,而我的脚本为 -65dB。所以我认为,我的脚本将 FFT 结果转换为 dBFS 时存在问题。

如果我将 Sonic Visualizer 中的曲线与脚本的输出相匹配,则显然关卡转换缺少某些因素:

我的脚本的最小版本,使用上面的“demo.wav”文件,如下所示:

from pathlib import Path

import matplotlib.pyplot as plt
import numpy as np
from scipy.io import wavfile as wavfile
from scipy.signal import savgol_filter

def db_fft(data, sample_rate):
    data_length = len(data)
    weighting = np.hanning(data_length)
    data = data * weighting
    values = np.fft.rfft(data)
    frequencies = np.fft.rfftfreq(data_length, d=1. / sample_rate)
    s_mag = np.abs(values) * 2 / np.sum(weighting)
    s_dbfs = 20 * np.log10(s_mag)
    return frequencies, s_dbfs

audio_file = Path('demo.wav')
frequency, data = wavfile.read(str(audio_file))
data = data[0:4096]
x_labels, s_dbfs = db_fft(data, frequency)
flat_data = savgol_filter(s_dbfs, 601, 3)
plt.style.use('seaborn-whitegrid')
plt.figure(dpi=150, figsize=(16, 9))
plt.semilogx(x_labels, s_dbfs, alpha=0.4, color='tab:blue', label='Spectrum')
plt.semilogx(x_labels, flat_data, color='tab:blue', label='Spectrum (with filter)')
plt.grid(True)
plt.title(audio_file.name)
plt.ylim([-160, 0])
plt.xlim([10, 10000])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude [dB]')
plt.grid(True, which="both")
target_name = audio_file.parent / (audio_file.stem + '.png')
plt.savefig(str(target_name))

该脚本将 32 位浮点音频文件转换为 dBFS 频谱图,使用前 4096 个样本作为窗口,就像 Sonic Visualizer 所做的那样。

我的脚本哪里出了问题,为什么我得到不同的结果?

【问题讨论】:

【参考方案1】:

1。不同的分贝

第一个很大的区别是他们使用分贝的“功率比”定义,来自this Wikipedia page:

表示功率比时,分贝数是其以 10 为底的对数的十倍。

我也在v4.0.1 source code(svcore/base/AudioLevel.cpp,第 54 行)中验证了这一点

double dB = 10 * log10(multiplier);

2。不同幅度计算

在计算幅度时,它们似乎只是除以代码中的窗口大小。这导致计算更改为

s_mag = np.abs(values) * 2  / data_length 

3。 “更正”结果

我还没有找到导出频谱的方法,但我已经手动读取了前几个值(注意,不是 dB 值)

theirvalues = [
    0.00074, 
    0.000745865, 
    0.00119605, 
    0.0013713, 
    0.0011812, 
    0.000746891, 
    0.000334177,
    0.000163241,
    7.57671e-5,
    3.17983e-5,
    2.91934e-5,
    3.74938e-5
]

与我提到的两个变化,图表比较如下:

这仍然不是完全匹配,但更接近。我怀疑可能仍然存在某种平滑(代码中提到了跳跃,但我不太清楚他们在做什么)。

【讨论】:

您认为使用功率比分析音频数据的 Sonic Visualizer 方法对音频分析是否正确?我查看了其他软件的频谱分析,例如 Ableton Live、Amadeus Pro 和 Apple Logic Pro X,它们似乎使用了根功率标度,就像我在脚本中所做的那样。为了比较,我想使用最接近人类认知的尺度。 我对 20 种比较熟悉,但我没有理由怀疑它们的实现。但是,我可以通过查看代码告诉您,他们没有将其弯曲到 dBa。【参考方案2】:

正如您所指出的,您的两个结果相差一个常数因子,大约为 2。

来自Wikipedia's entry on Decibel(我的重点):

在以分贝表示比率时使用两种不同的尺度,具体取决于数量的性质:功率和场(根功率)。在表示功率比时,分贝数是其以 10 为底的对数的十倍。 [2]也就是说,功率变化 10 倍对应于 10 dB 的电平变化。在表示场(根功率)量时,幅度变化 10 倍对应于 20 dB 的电平变化。 分贝标度相差两倍,因此相关的功率和场级别会随着线性负载的相同分贝数变化。

您使用的是 10 倍。

s_dbfs = 20 * np.log10(s_mag)

如果您将标量更改为 20,您会得到以下图像:

这可能会也可能不会解释您的比例差异。 sonic Visualizer 的源代码在 sourceforge 上,所以应该很容易检查(sourceforge 不允许我设置跟踪策略,所以我自己不会去那里)。

【讨论】:

以上是关于为啥 Sonic Visualizer 和我的 Python 脚本之间的频谱分析存在 dB 差异?的主要内容,如果未能解决你的问题,请参考以下文章

SONIC容器和主机的通信 d-bus

java使用Sonic 算法对音频变速不变声变调调整音量

为啥 Grails(在 Tomcat 中)同时记录到 catalina.out 和我的自定义文件附加程序?

为啥我的网站在 xampp 中运行,但不在我的 Apache 服务器和我在 Ubuntu 上设置的 mySQL 中运行?

为啥我的 FFT 提供的可视化工具输出与 Windows Media Player 不同?

android.media.audiofx.Visualizer 每隔一段时间就会抛出异常