从 WAV 文件中解码 DTMF

Posted

技术标签:

【中文标题】从 WAV 文件中解码 DTMF【英文标题】:Decoding DTMF from a WAV file 【发布时间】:2015-12-04 16:29:44 【问题描述】:

从我的earlier question 开始,我的目标是从 C# 检测 WAV 文件中的 DTMF 音调。但是,我真的很难理解如何做到这一点。

我了解 DTMF 使用频率组合,并且可以使用 Goertzel 算法......不知何故。我获取了一个 Goertzel 代码 sn-p 并尝试将 .WAV 文件推入其中(使用 NAudio 读取文件,这是一个 8KHz 单声道 16 位 PCM WAV):

 using (WaveFileReader reader = new WaveFileReader(@"dtmftest_w.wav"))
  
      byte[] buffer = new byte[reader.Length];

      int read = reader.Read(buffer, 0, buffer.Length);
      short[] sampleBuffer = new short[read/2];
      Buffer.BlockCopy(buffer, 0, sampleBuffer, 0, read/2);
      Console.WriteLine(CalculateGoertzel(sampleBuffer,8000,16));                 
   

 public static double CalculateGoertzel(short[] sample, double frequency, int samplerate)
   
      double Skn, Skn1, Skn2;
      Skn = Skn1 = Skn2 = 0;
      for (int i = 0; i < sample.Length; i++)
         
            Skn2 = Skn1;
            Skn1 = Skn;
            Skn = 2 * Math.Cos(2 * Math.PI * frequency / samplerate) * Skn1 - Skn2 + sample[i];
         
      double WNk = Math.Exp(-2 * Math.PI * frequency / samplerate);
      return 20 * Math.Log10(Math.Abs((Skn - WNk * Skn1)));
    

我知道我在做什么是错误的:我假设我应该遍历缓冲区,并且一次只计算一小块的 Goertzel 值 - 这是正确的吗?

其次,我不太明白 Goertzel 方法的输出告诉我什么:我得到了一个 double(例如:210.985812)返回,但我不知道将其等同于存在和价值音频文件中的 DTMF 音。

我到处寻找答案,包括this 答案中引用的库;不幸的是,代码here 似乎不起作用(如网站上的 cmets 所述)。有TAPIEx提供的商业图书馆;我已经尝试过他们的评估库,它完全符合我的需要 - 但他们没有回复电子邮件,这让我对实际购买他们的产品感到谨慎。

我很清楚,当我可能不知道确切的问题时,我正在寻找答案,但最终我需要的只是一种在 .WAV 文件中查找 DTMF 音调的方法。我是否在正确的路线上,如果没有,谁能指出我正确的方向?

编辑:使用@Abbondanza 的代码作为基础,并且基于(可能根本上是错误的)假设我需要滴入音频文件的一小部分,我现在有了这个(非常粗略,证明-仅概念)代码:

const short sampleSize = 160;

using (WaveFileReader reader = new WaveFileReader(@"\\mac\home\dtmftest.wav"))
                   
            byte[] buffer = new byte[reader.Length];

            reader.Read(buffer, 0, buffer.Length);

            int bufferPos = 0;

            while (bufferPos < buffer.Length-(sampleSize*2))
            
                short[] sampleBuffer = new short[sampleSize];
                Buffer.BlockCopy(buffer, bufferPos, sampleBuffer, 0, sampleSize*2);


                var frequencies = new[] 697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0;

                var powers = frequencies.Select(f => new
                
                    Frequency = f,
                   Power = CalculateGoertzel(sampleBuffer, f, 8000)              
                );

                const double AdjustmentFactor = 1.05;
                var adjustedMeanPower = AdjustmentFactor*powers.Average(result => result.Power);

                var sortedPowers = powers.OrderByDescending(result => result.Power);
                var highestPowers = sortedPowers.Take(2).ToList();

                float seconds = bufferPos / (float)16000;

                if (highestPowers.All(result => result.Power > adjustedMeanPower))
                
                    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
                    // classify the detected DTMF tone.

                    switch (Convert.ToInt32(highestPowers[0].Frequency))
                    
                        case 1209:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            
                                case 697:
                                    Console.WriteLine("1 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("4 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("7 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("* pressed at " + bufferPos);
                                    break;
                            
                            break;
                        case 1336:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            
                                case 697:
                                    Console.WriteLine("2 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("5 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("8 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("0 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            
                            break;
                        case 1477:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            
                                case 697:
                                    Console.WriteLine("3 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("6 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("9 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("# pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            
                            break;
                    
                
                else
                
                    Console.WriteLine("No DTMF at " + bufferPos + " (" + seconds + "s)");
                
                bufferPos = bufferPos + (sampleSize*2);
            

这是在 Audacity 中查看的示例文件;我已经添加了按下的 DTMF 按键-

并且...它几乎有效。从上面的文件中,我不应该看到任何 DTMF,直到几乎正好 3 秒,但是,我的代码报告:

9 pressed at 1920 (0.12s)
1 pressed at 2880 (0.18s)
* pressed at 3200
1 pressed at 5120 (0.32s)
1 pressed at 5440 (0.34s)
7 pressed at 5760 (0.36s)
7 pressed at 6080 (0.38s)
7 pressed at 6720 (0.42s)
5 pressed at 7040 (0.44s)
7 pressed at 7360 (0.46s)
7 pressed at 7680 (0.48s)
1 pressed at 8000 (0.5s)
7 pressed at 8320 (0.52s)

...直到它达到 3 秒,然后它开始稳定到正确的答案:1 被按下:

7 pressed at 40000 (2.5s)
# pressed at 43840 (2.74s)
No DTMF at 44800 (2.8s)
1 pressed at 45120 (2.82s)
1 pressed at 45440 (2.84s)
1 pressed at 46080 (2.88s)
1 pressed at 46720 (2.92s)
4 pressed at 47040 (2.94s)
1 pressed at 47360 (2.96s)
1 pressed at 47680 (2.98s)
1 pressed at 48000 (3s)
1 pressed at 48960 (3.06s)
4 pressed at 49600 (3.1s)
1 pressed at 49920 (3.12s)
1 pressed at 50560 (3.16s)
1 pressed at 51520 (3.22s)
1 pressed at 52160 (3.26s)
4 pressed at 52480 (3.28s)

如果我将 AdjustmentFactor 提高到 1.2 以上,我几乎无法检测到。

我感觉我快到了,但谁能看到我错过了什么?

EDIT2:上面的测试文件可用here。上例中的adjustedMeanPower47.6660450354638,幂为:

【问题讨论】:

DTMF 文件的长度至少应为 40 毫秒,间隔至少为 40 毫秒。见genave.com/dtmf-mark-space.htm 根据genave.com/dtmf.htm,您需要检测的频率还有 697Hz、770Hz、852Hz、941Hz、1209Hz、1336Hz 和 1477Hz 我在答案中添加了一个代码 sn-p。如果它帮助您解决问题,请告诉我。 @SteveFord:这是否意味着我应该以 40 毫秒的时间段在文件中移动? @KenD,我重新编写了原型。它在缺失频率和当前频率之间给出了非常明显的幅度差异。它也更快(但仍未完全优化)。我强烈建议您查看我的回答中的第三个(也是最后一个;)更新。完整代码:pastebin.com/serxw5nG 【参考方案1】:

CalculateGoertzel() 返回所提供样本内所选频率的功率

计算每个 DTMF 频率(697、770、852、941、1209、1336 和 1477 Hz)的功率,对所得功率进行排序并选择最高的两个。如果两者都高于某个阈值,则检测到 DTMF 音。

您使用的阈值取决于样本的信噪比 (SNR)。首先,计算所有 Goerzel 值的平均值就足够了,将平均值乘以一个因子(例如 2 或 3),然后检查两个最高 Goerzel 值是否高于该值。

这是一个代码sn-p,以更正式的方式表达我的意思:

var frequencies = new[] 697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0;

var powers = frequencies.Select(f => new

    Frequency = f,
    Power = CalculateGoerzel(sample, f, samplerate)
);

const double AdjustmentFactor = 1.0;
var adjustedMeanPower = AdjustmentFactor * powers.Average(result => result.Power);

var sortedPowers = powers.OrderByDescending(result => result.Power);
var highestPowers = sortedPowers.Take(2).ToList();

if (highestPowers.All(result => result.Power > adjustedMeanPower))

    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
    // classify the detected DTMF tone.

AdjustmentFactor1.0 开头。如果您从测试数据中得到误报(即您在不应该有任何 DTMF 音调的样本中检测到 DTMF 音调),请继续增加它直到误报停止。


更新 #1

我在波形文件上尝试了你的代码并调整了一些东西:

我在 Goertzel 计算后实现了可枚举(对性能很重要):

var powers = frequencies.Select(f => new

    Frequency = f,
    Power = CalculateGoertzel(sampleBuffer, f, 8000)
// Materialize enumerable to avoid multiple calculations.
).ToList();

我没有使用调整后的平均值进行阈值处理。我只是使用100.0 作为阈值:

if (highestPowers.All(result => result.Power > 100.0))

     ...

我将样本量翻了一番(我相信你使用了160):

int sampleSize = 160 * 2;

我修正了您的 DTMF 分类。我使用嵌套字典来捕获所有个可能的情况:

var phoneKeyOf = new Dictionary<int, Dictionary<int, string>>

    1209, new Dictionary<int, string> 1477, "?", 1336, "?", 1209, "?", 941, "*", 852, "7", 770, "4", 697, "1",
    1336, new Dictionary<int, string> 1477, "?", 1336, "?", 1209, "?", 941, "0", 852, "8", 770, "5", 697, "2",
    1477, new Dictionary<int, string> 1477, "?", 1336, "?", 1209, "?", 941, "#", 852, "9", 770, "6", 697, "3",
     941, new Dictionary<int, string> 1477, "#", 1336, "0", 1209, "*", 941, "?", 852, "?", 770, "?", 697, "?",
     852, new Dictionary<int, string> 1477, "9", 1336, "8", 1209, "7", 941, "?", 852, "?", 770, "?", 697, "?",
     770, new Dictionary<int, string> 1477, "6", 1336, "5", 1209, "4", 941, "?", 852, "?", 770, "?", 697, "?",
     697, new Dictionary<int, string> 1477, "3", 1336, "2", 1209, "1", 941, "?", 852, "?", 770, "?", 697, "?"

然后通过以下方式检索电话密钥:

var key = phoneKeyOf[(int)highestPowers[0].Frequency][(int)highestPowers[1].Frequency];

结果并不完美,但有些可靠。


更新 #2

我想我找到了问题所在,但现在无法亲自尝试。您不能将目标频率直接传递给CalculateGoertzel()。它必须被归一化以位于 DFT 箱的中心。在计算幂时,请尝试以下方法:

var powers = frequencies.Select(f => new

    Frequency = f,
    // Pass normalized frequenzy
    Power = CalculateGoertzel(sampleBuffer, Math.Round(f*sampleSize/8000.0), 8000)
).ToList();

您还必须将205 用作sampleSize 以最小化错误。


更新 #3

我重新编写了原型以使用 NAudio 的 ISampleProvider 接口,该接口返回标准化的样本值(floats 在 [-1.0; 1.0] 范围内)。我还从头开始重写了CalculateGoertzel()。它仍然没有优化性能,但在频率之间提供了非常明显的功率差异。当我运行您的测试数据时,没有更多误报。我强烈建议你看看它:http://pastebin.com/serxw5nG


更新 #4

我创建了 GitHub project 和 two NuGet packages 来检测实时(捕获)音频和预录音频文件中的 DTMF 音调。

【讨论】:

更新#2 对我不起作用,恐怕;我没有从测试文件中得到任何结果。但是,更新#1 中的代码(几乎)完美地工作,对于我的目的来说肯定足够好。非常感谢您的帮助,如果没有您,我不会弄明白的! @moose,怎么会这样?您介意在projects' github site 上创建问题吗? @GNNP,顺便说一句,您可以在哪个版本的 Visual Studio 中构建解决方案而无需任何修改? VS2013报163个错误。 @moose,可惜你没有时间提交一份简单的错误报告或者至少解释一下自己。我得看看什么时候有时间打扰。 @moose,我验证了您的问题并创建了an issue on the github site。如果您有任何想法:非常感谢 cmets 和 pull requests。

以上是关于从 WAV 文件中解码 DTMF的主要内容,如果未能解决你的问题,请参考以下文章

csharp 在C#中生成WAV格式的dtmf音调

MediaPlayer 只播放某些 WAV 文件

从 mp3/wav 文件生成声波图像?

linux 使用 iLBC 编解码器 2 wav 转换 caf 文件

从 .opus 转换为 .wav

wav_pcm 的 FFmpeg 奇怪的编解码器 ID