如何从 python 中的麦克风获取声音输入,并即时处理它?
Posted
技术标签:
【中文标题】如何从 python 中的麦克风获取声音输入,并即时处理它?【英文标题】:How get sound input from microphone in python, and process it on the fly? 【发布时间】:2009-12-20 20:01:28 【问题描述】:您好,
我正在尝试用 Python 编写一个程序,该程序会在每次点击麦克风时打印一个字符串。当我说“敲击”时,我指的是突然发出的巨大噪音或类似的声音。
我在 SO 中搜索,发现了这个帖子:Recognising tone of the audio
我认为 PyAudio 库会满足我的需求,但我不太确定如何让我的程序等待音频信号(实时麦克风监控),以及当我得到一个如何处理它时(我需要使用傅里叶变换就像上面帖子中所指示的那样)?
提前感谢您能给我的任何帮助。
【问题讨论】:
也在此处讨论:***.com/questions/193789/microphone-access-in-python 【参考方案1】:如果您使用的是 LINUX,则可以使用pyALSAAUDIO。 对于 Windows,我们有 PyAudio,还有一个名为 SoundAnalyse 的库。
我找到了一个 Linux 的例子here:
#!/usr/bin/python
## This is an example of a simple sound capture script.
##
## The script opens an ALSA pcm for sound capture. Set
## various attributes of the capture, and reads in a loop,
## Then prints the volume.
##
## To test it out, run it and shout at your microphone:
import alsaaudio, time, audioop
# Open the device in nonblocking capture mode. The last argument could
# just as well have been zero for blocking mode. Then we could have
# left out the sleep call in the bottom of the loop
inp = alsaaudio.PCM(alsaaudio.PCM_CAPTURE,alsaaudio.PCM_NONBLOCK)
# Set attributes: Mono, 8000 Hz, 16 bit little endian samples
inp.setchannels(1)
inp.setrate(8000)
inp.setformat(alsaaudio.PCM_FORMAT_S16_LE)
# The period size controls the internal number of frames per period.
# The significance of this parameter is documented in the ALSA api.
# For our purposes, it is suficcient to know that reads from the device
# will return this many frames. Each frame being 2 bytes long.
# This means that the reads below will return either 320 bytes of data
# or 0 bytes of data. The latter is possible because we are in nonblocking
# mode.
inp.setperiodsize(160)
while True:
# Read data from device
l,data = inp.read()
if l:
# Return the maximum of the absolute value of all samples in a fragment.
print audioop.max(data, 2)
time.sleep(.001)
【讨论】:
【参考方案2】:...当我得到一个如何处理它时(我是否需要像上面帖子中所指示的那样使用傅里叶变换)?
如果你想要一个“抽头”,那么我认为你对幅度比对频率更感兴趣。所以傅立叶变换可能对您的特定目标没有用处。您可能想要对输入的短期(例如 10 毫秒)幅度进行连续测量,并检测它何时突然增加了某个增量。您需要调整以下参数:
什么是“短期”幅度测量 您希望增加的增量是多少 增量更改必须以多快的速度发生虽然我说您对频率不感兴趣,但您可能需要先进行一些过滤,以过滤掉特别是低频和高频分量。这可能会帮助您避免一些“误报”。您可以使用 FIR 或 IIR 数字滤波器来做到这一点;傅立叶不是必需的。
【讨论】:
是的,我所做的是采用 audioop.max(data,2) 并将其值更改为前一个(来自上一次迭代)。这样我可以检测是否有突然增加。它工作正常!谢谢大家! :-)【参考方案3】:我知道这是一个老问题,但如果有人再次查看这里...请参阅https://python-sounddevice.readthedocs.io/en/0.4.1/index.html。
这里有一个很好的例子“输入到输出传递”https://python-sounddevice.readthedocs.io/en/0.4.1/examples.html#input-to-output-pass-through。
...还有很多其他的例子...
【讨论】:
以上是关于如何从 python 中的麦克风获取声音输入,并即时处理它?的主要内容,如果未能解决你的问题,请参考以下文章