使用 FFT 从音频中过滤 hit-hat 节拍
Posted
技术标签:
【中文标题】使用 FFT 从音频中过滤 hit-hat 节拍【英文标题】:Filtering hit-hat beat from an audio with FFT 【发布时间】:2020-12-02 14:34:56 【问题描述】:所以我正在编写一个节拍检测算法,它工作起来很酷,但它会检测每个节拍(鼓、语音、踩镲等)。 而且我试图只采用踩镲节拍声音。 这是代码的一部分,我正在使用 FFT 并尝试对其进行过滤:
for (int channel = 0; channel < numChannels; ++channel)
for (int j = k * smallbuf_samples; j < (k + 1) * smallbuf_samples; ++j)
smallbuffer[channel].push_back(bigbuffer[channel][j]);
fftw_complex x[smallbuf_samples];
fftw_complex y[smallbuf_samples];
for (int i = 0; i < smallbuf_samples; ++i)
x[i][REAL] = smallbuffer[0][i];
x[i][IMAG] = smallbuffer[1][i];
fftw_plan plan = fftw_plan_dft_1d(smallbuf_samples, x, y, FFTW_FORWARD, FFTW_ESTIMATE);
fftw_execute(plan);
fftw_destroy_plan(plan);
fftw_cleanup();
std::vector<double> b;
for (int i = 80; i < smallbuf_samples; ++i)
y[i][REAL] = 0;
y[i][IMAG] = 0;
for (int i = 0; i < smallbuf_samples; ++i)
b.push_back(y[i][REAL] * y[i][REAL] + y[i][IMAG] * y[i][IMAG]);
for (int i = 0; i < smallbuf_samples / very_smallbuf_samples; ++i)
double sum = 0;
int j;
for (j = i*(i+1)/2 * 108/13 + 22/13; j < (i+1)*(i+2)/2 * 108/13 + 22/13 && j < smallbuf_samples; ++j)
sum += b[j];
Es[k].push_back((float) (j - (i*(i+1)/2 * 108/13 + 22/13)) / (float) smallbuf_samples * sum);
for (int channel = 0; channel < numChannels; ++channel)
smallbuffer[channel].clear();
所以,如您所见,我通过将所有高于 80 的 y 样本索引设置为 0 来过滤它(因为踩镲的频率约为 300..3000 Hz)。 虽然,我的节拍算法检测语音、鼓和其他节拍。 如何解决它,我做错了什么?
【问题讨论】:
【参考方案1】:如果我是你,我会以不同的方式处理它。您现在要做的是过滤可听范围内的频率,但您应该在听不见的范围内过滤,即节拍范围线。 IE。不是“给我低于 300 Hz(每秒少于 300 个周期)的频率”,而是“过滤 40 个周期 每分钟 到 200 个周期 每分钟 之间的频率>,即从 0.6 Hz 到 3.3 Hz 但是你不能为此分析声音信号。您需要先创建一个听不见的“峰值”信号:
通过信号并只取峰值,构建第二个信号(它是听不见的,因为频率太低,即使你能听到它 - 它对你的耳朵没有任何意义) 使用 FFT 分析生成的信号,设置较低的频率范围(例如,比用于分析声音信号的 20-20000 慢 128 倍,因此您得到 0.15-150 Hz 的结果) 将其过滤到 0.6 到 3 Hz 并找到此范围内最大的峰值(或最低的 - 在这里您需要进行实验)。这将是你的节奏。将其乘以 60 以将 Hz 转换为 BPM当然,FFT 的窗口必须比声音信号慢得多,这里一定是:
至少需要 2 秒才能检测到高于 0.5 Hz 的频率 尺寸必须很大才能提高低频分辨率使用这种方法,究竟是什么构成节拍并不重要:它可以是低音鼓,只是基本吉他或钢琴,即节拍制作乐器的频率无关紧要(根据你的方法,在哪里你过滤高频,“只有踩镲”的歌曲不会被检测到
【讨论】:
我正在从原始音频文件创建一个“唯一的踩镲”音频文件,所以我需要知道究竟是什么使节拍。我也不明白,我们在您分析非听觉信号的算法中做了什么。如果可以听到“踩镲”,为什么我们需要这样做? 0..80 间隔在我的情况下是 0..3000 Hz 间隔(44100 Hz 采样频率),这里是踩镲频率所在以上是关于使用 FFT 从音频中过滤 hit-hat 节拍的主要内容,如果未能解决你的问题,请参考以下文章