音频算法入门-傅里叶变换

Posted 2023-03-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音频算法入门-傅里叶变换相关的知识，希望对你有一定的参考价值。

参考技术A 上一篇文章中讲了一个时域处理的算法wsola，接下来会学习频域处理算法，在这之前必须得对频域有所了解，这就不得不提傅里叶变换了，本文的目的是让大家学会用傅里叶变换公式和傅里叶逆变换公式进行计算。数学公式是人们对世界中的现象的描述，我们学习数学公式也不该只停留在使用公式来解决问题的层次，得明白公式到底在描述什么现象，从这些天才数学家的角度来看世界。懂的地方可跳过。项目地址在文章末尾给出。

我直接说结论，傅里叶级数公式包含了傅里叶变换和傅里叶逆变换（不严谨的说就是这么回事）。
先简单说下具体关系，法国数学家傅里叶发现，任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示，这种表示方式就是傅里叶级数。假如有个波形比较复杂的周期函数，那么找出能用来构成这个周期函数的正弦函数和余弦函数的频率的方法就叫做傅里叶变换，用这些频率的正弦函数和余弦函数叠加起来表示这个周期函数的方法就叫做傅里叶逆变换。
    再从公式中看下他们的关系，首先介绍傅里叶级数到底是什么，首先级数是指将数列的项依次用加号连接起来的函数。这么说可能大家还不理解，举个例子：e^x=1+x/1!+x^2/2!+...x^n/n!....，等号左边是指数函数，等号右边就是级数。傅里叶级数公式如下：

    我们主要看这个指数形式的傅里叶级数公式，把求和符号去掉，展开一下就是f(t)=Fa*e^jaω0t+Fb*e^jbω0t+Fc*e^jcω0t+Fd*e^jdω0.....。现在看下面的周期函数叠加效果图，图中显示的是3个周期函数分别在坐标轴（横轴时间，纵轴幅度）的图像，写成傅里叶级数形式就是f(t)=fa(t)+fb(t)+0+0....，这就是傅里叶级数公式要描述的现象。其中Fa*e^jaω0t=fa(t),Fb*e^jbω0t=fb(t),Fc*e^jcω0t=0....。

看下图的傅里叶变换和逆变换公式，你会发现傅里叶逆变换公式和傅里叶级数公式极其相似，而傅里叶级数系数公式Fn又和傅里叶变换公式极其相似。所以对一个周期函数进行傅里叶级数展开的过程可以认为是先做傅里叶变换再做傅里叶逆变换的过程。

    上图就是傅里叶变换公式也叫连续傅里叶变换公式，有个很重要的事情，就是傅里叶变换公式和逆变换公式一定要一起给出，不然就会让人误解，你们在网上会看到各种各样的写法，但这些写法都是对的，常见的如下图所示。

    为了方便后面的讲解我把角频率ω换成2πf，如上图所示，ω是希腊字母读作Omega，大写是Ω，小写是ω，以后这两个字母会经常看到，都是等于2πf。不要和电学中的电阻单位搞混了，要明白字母只不过是一个符号而已，在不同学科领域都是混着用的，只要不和自己公式中其他字母冲突就行，例如上图傅里叶变换公式中的j其实就是虚数单位i，一般时候我们会把虚数单位写成i，但因为傅立叶变换经常用于电学解决一些问题，为了不和电流符号i混淆，所以公式就把i写成j 。
    要想了解傅里叶变换公式，首先要了解欧拉公式e^ix=cosx+isinx在图像中的含义。以实部的值cosx作为横坐标值，虚部sinx的值作为纵坐标值，x的取值从负无穷到正无穷，画出所有的e^ix点后，你会发现这些点会形成一个周期为2π的圆。如下图1所示（如果不理解，建议看3Blue1Brown的视频，视频连接：https://www.bilibili.com/video/BV1pW411J7s8）

    所以欧拉公式e^ix其实就是随着x的增大而在坐标系上逆时针画圆的过程，那么e^-ix就表示顺时针画圆，e^-i2πx就表示画圆的速度提高2π倍，也就是说x从0到1的过程就是顺时针画出一个完整圆的过程（当然x从1到2或者2到3等等，都能画出一个完整的圆），把x换成t后，e^-i2πt表示每秒都会顺时针画出一个圆。e^-i2πft表示每秒都会顺时针画出f个圆。f(t)表示t时刻的振幅，f(t)函数画出来就是时域波形图。f(t)*e^-i2πft表示每经过1秒会顺时针画出f个圆，并在画圆的同时，t时刻的圆半径要乘上t时刻的振幅，其实就是以每秒的音频振幅数据绕f圈的速度进行旋转缠绕（为了方便理解，没有用复杂的音频数据，用的是一个频率为3的正弦波音频做的实验，请看下图2，图的上半部分是时域波形图，图的左下角是f等于0.4的时候，用公式f(t)*e^-i2πft在实部和虚部构成的坐标系画的图，图的右下角是频谱图，频谱图的横坐标是频率，纵坐标是振幅，振幅的值就是左下角图中数据形成的图案的质心（图中的红点）到坐标系原点的距离的2倍）。当改变f的值，你会发现数据大多数时候是和我们想的一样，以坐标系原点为圆心环绕着，也就是振幅一直都是0，但是当f的值，也就每秒的圈数等于该音频数据的频率时，你会发现一个神奇的现象，那就是所有的数据会在实部或虚部坐标轴的一侧形成一个圆（如下图3所示，如此一来就知道这段音频数据包含了一个频率为3振幅为0.5的正弦波）。所以将多个正弦波叠加的音频数据用傅里叶公式，f从负无穷到正无穷遍历一遍，就可以把这个音频数据里包含的正弦波都一一找出来。（如果不理解，建议看3Blue1Brown的视频，视频连接：https://www.bilibili.com/video/BV1pW411J7s8）

    平时我们说的对音频进行傅里叶变换处理，其实说的是短时离散傅里叶变换。短时离散傅里叶变换的公式（也可以直接叫做离散傅里叶变换公式）如下。

    下面将教大家如何理解这个公式。上面说的连续傅里叶变换公式中有两个原因导致我们无法使用，第一点要求是音频数据的时间从负无穷到正无穷，第二点要求是任意时间t都要有幅度值x(t)才能代入公式进行计算。所以为了解决这两个问题，把公式变为短时且离散的傅里叶变换公式，这个公式可以把一段时间（时间假设为Ts秒）的离散音频数据（有N个采样数据）进行傅里叶变换。你可以把离散傅里叶变换公式理解成连续傅里叶变换的变形，最重要的一点是连续傅里叶变换公式的f和离散傅里叶变换公式的k不是一个意思，他们的关系是k=f*Ts。所以离散傅里叶变换公式也可以写成F(f)=1/n*∑f(t)*e^-j2πf*Ts*n/N，其中的Ts*n/N对应的就是连续傅里叶变换公式的t，只不过这个t没办法取任意时间了，t的取值也就随着n的取值成为了离散的时间点，所以前面的系数由1/2π变为1/N。这样这两个公式就对应起来了。下面将进一步详细介绍这个公式。
    上一段说了k=f*Ts，这段我来解释下为什么，其实离散傅里叶变换公式中k表示的是这段Ts秒的音频数据环绕坐标系原点的圈数，所以k并不是连续傅里叶变换公式里的频率f，而频率f指的是1秒钟震荡的次数，在这个公式中频率f也对应着1秒的音频数据环绕的圈数，所以真正的频率f=k/Ts。
    有人可能会好奇，那为什么不把离散傅里叶变换公式的自变量k换成f呢，这样不是更好理解吗？是会更好理解，但是没有必要，用f的话还要做一次无用的换算。因为采样点只有N个的原因，k的取值范围就被限制住了，k的取值范围只能是0~N-1的整数，这也是为什么用k来做自变量而不是用f的原因。
    还有人可能会好奇，傅里叶逆变换到底是怎么把频域的信息还原回时域的，其实公式计算出来的F(k)是一个复数，这个复数包含了这个频率的周期函数的振幅和相位的信息，假设F(k)=a+ib，，F(k)的模|F(k)|=(a^2+b^2)^1/2，频率f=k/Ts时的振幅为|F(k)|*2（因为求出来的值相当于圆心，但实际上振幅是圆离圆心最远点到坐标原点的距离，所以要乘2），频率f=k/Ts时的相位为arctan(b/a)。所以如果你知道一个周期函数包含了哪些频率的周期函数，并且你这到这些周期函数的振幅和相位，你就可以像下图一样把fa(t)和fb(t)叠加在一起还原回f(t)。傅里叶逆变换的做法略有不同，但意思就是这么个意思，理解了离散傅里叶变换公式的计算，逆变换其实也是差不多代入数值计算就是了。（如果不理解怎么用离散傅里叶变换公式计算，建议看视频，视频里有离散傅里叶变换完整的计算过程，视频连接：https://www.zhihu.com/zvideo/1276595628009377792）

快速傅里叶变换推荐看下面两个视频
https://www.bilibili.com/video/BV1za411F76U
https://www.bilibili.com/video/BV1Jh411d7CN
下面是我用java实现的离散傅里叶变换及逆变换和快速傅里叶变换及逆变换，从他们的运行时间就可以看出来快速傅里叶变换快得多。（学完快速傅里叶变换再想想频谱为何Y轴对称？为何N/2对称？）

以上是关于音频算法入门-傅里叶变换的主要内容，如果未能解决你的问题，请参考以下文章

语音信号的短时傅里叶变换怎样看懂语谱图

基于傅里叶变换的音频重采样算法 (附完整c代码)

数字信号处理傅里叶变换性质 ( 傅里叶变换频移性质示例 | PCM 音频信号处理 | 使用 matlab 进行频移操作 )

关于快速傅里叶变换

2021-05-10 Matlab短时傅里叶变换和小波变换的时频分析