区分注释FFT算法

Posted 2023-02-25

技术标签:

【中文标题】区分注释FFT算法【英文标题】：Distinguish notes FFT algorithm 【发布时间】：2016-05-07 15:17:00 【问题描述】：

我想要实现的是区分音频文件中的单独音符。为简单起见，假设一个接一个地播放几个音符。主要问题是如何确定播放下一个音符的时间？我已经做的是从音频文件中读取样本并使用 JTransforms 库对这些样本进行傅里叶变换。这是我得到的：. 然后我根据 FFT 返回的数据计算了频谱，这就是我得到的结果：. 据我了解，图表上较大的“列”是谐波，较小的是噪声和其他非谐波泛音，对吧？

之后，我尝试对音频文件进行相同的处理，两个音符一个接一个地播放，但结果是一样的。

作为一个附带问题，你们中是否有人知道一些用于可视化此类数据的轻量级和快速库？因为使用 JFreeChart 处理更大的数据集对我的处理器来说真的很痛苦。

【问题讨论】：

如果要识别音符，则需要执行pitch detection。请注意，音高与频率不同。它甚至与基波分量 (f0) 的频率不同。阅读谐波乘积谱，这是一种流行的音高检测方法。我相信这与信号处理有关。我认为您需要应用滤波器（如带通滤波器以检查信号中是否存在频率）。基本上使用带通滤波器来检查 A、B、C、D 等...使用 FFT 无法知道特定音符是否在另一个音符之前播放（至少据我所知），因为它是基于频率的。也许您可以尝试检查信号（应用 FFT），直到您使用（带通滤波器）找到一个音符，然后再使用相同的方法进行另一个时间采样。不知道这是否会计算成本高昂。 @PaulR 我在 *** 上看到了很多关于信号处理的帖子，如果你决定分享你在这个领域的研究，你是否碰巧有一个博客？我可以通过 *** 以外的方式与您取得联系吗？我目前正在做一个巨大的项目，其中有许多子项目，涉及音高识别、语音识别和神经网络，在互联网上阅读一些信息并没有真正的帮助。这是我关于音高估计主题的一些博客文章：musingpaw.com/2012/04/… 和频率估计：nicholson.com/rhn/dsp.html#1 在这些方面存在许多问题使用 FFT 进行音高检测。寻找他们 - 他们的答案可能是一个很好的起点 【参考方案1】：

要检测不同频率的连续频率突发，以及它们的一些时域参数，可以使用重叠的短 FFT 窗口（长度比预期的突发长度短）并寻找频率峰值的相对幅度交换顺序的位置，或者高于/低于阈值。如果您先验地知道所涉及的频率，则可以使用 Goertzel 滤波器而不是 FFT，使用滑动窗口或时间上的逐次逼近以获得更精细的时域粒度。

对于有音高的音符（如音乐），可以做类似的事情，除了在足够短的时域数据窗口上使用音高检测/估计方法（而不是简单的 FFT 幅度，这是不可靠的）。

【讨论】：

你说的 expected burst length 是什么意思？带有样本或时间（例如秒）的数组的长度？顺便说一句，Goertzel 滤波器对我的情况不太好，因为我试图找到频率和当这些频率出现时。窗口的长度影响时间频率分辨率的权衡。因此，更短/更小的时间分辨率（以秒或样本为单位，根据更短的音调需要）需要更短的窗口。加窗 Goertzel 滤波器与加窗 FFT 相同（1 个 bin，对于相同的窗长度）。

以上是关于区分注释FFT算法的主要内容，如果未能解决你的问题，请参考以下文章