语音处理:音频入门之基础概念总结

Posted 来知晓

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语音处理:音频入门之基础概念总结相关的知识,希望对你有一定的参考价值。

语音处理:音频入门之基础概念总结

基本概念


  • 过采样:超过音频本身实际带宽的采样率,如音频带宽12kHz,用96kHz采样属于过采样,用24kHz采样则较为合理。上采样,也属于过采样。常见采样率:16/32/48/44.1/48/88.2/96kHz
  • 上采样:从较低采样率上升至高采样率,如16kHz采样提高至48kHz采样,本质采用的是插值方法。
  • 下采样:从较高采样率下降至低采样率,如48kHz采样下降至16kHz采样,本质采用的是抽样方法。
  • 上混:多个单声道混成多声道,类似于声轨处理。
  • 下混:多声道合成少声道,类似于采样值的混叠相加。

上混和下混的区别

  • 上:少个声道,拆分混音成多个声道,如单声道到立体声
  • 下:多个声道,合并混音成少声道,如立体声到单声道
  • 类比上采样、下采样

语音增强


语音与音频的区别是?

  • 人说话声为语音,大自然或者乐器声为音频,有规律的乐器声或人歌唱声或两者结合为音乐。
  • 人的发音器官发出的声音称为语音,主要集中在频段 300Hz到3400Hz之间。
  • 大自然和乐器产生的声音称为音频,人耳可以听到的频率在20Hz 到20KHz 之间。

语音中有效带宽的分类是?

  • 窄带, NB,4k, Narrow Band
  • 宽带,WB,8k
  • 半超宽带,SSWB,12k,Semi Super Wide Band
  • 超宽带,SWB,16k
  • 全带,FB,20k
  • 主要依据来自人耳听觉范围:20Hz-20kHz

何为音高?

  • 基频的频率F0较大(大于500Hz)且背景的频谱能量比较低时,则认为是高音高。简单说就是基频频率大。低音高就是基频频率小。

语音增强的回声消除中远端和近端是什么概念?

  • 远端:对方,对方发声传递到近端
  • 近端:我方,我方采集声音反馈回远端

语音识别入门Python音频处理示例(含完整代码)

一、读取本地音频数据

首先,需要import几个工具包,一个是python标准库中的wave模块,用于音频处理操作,numpmatplot提供数据处理函数。

import wave
# 用于绘制波形图
import matplotlib.pyplot as plt

# 用于计算波形数据
import numpy as np

# 用于系统处理 读取本地音频文件
import os


# 读取本地音频数据

# 打开wave文件
f = wave.open(r"audio06.wav",'rb')

# 读取格式信息
params = f.getparams()
nchannels ,sampwidth ,framerate ,nframes = params [:4]
print(framerate)

二、读取单通道音频,并绘制波形图(常见音频为左右两个声道)

(1) 通过第一步,可以继续读取音频数据本身,保存为字符串格式

readframes:读取声音数据,传递一个参数指定需要读取的长度(以取样点为单位),readframes返回的是二进制数据(一大堆bytes),在Python中用字符串表示二进制数据

strData = f.readframes(nframes)
(2) 如果需要绘制波形图,则需要将字符串格式的音频数据转化为 int 类型

frombuffer:根据声道数和量化单位,将读取的二进制数据转换为一个可以计算的数组,通过frombuffer函数将二进制转换为整型数组,通过其参数dtype指定转换后的数据格式。

waveData=np.frombuffer(strData,dtype=np.int16)

此处需要使用到 numpy 进行数据格式的转化

(3) 将幅值归一化

把数据变成(0,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。

waveData=waveData*1.0/(max(abs(waveData)))

这一步去掉也可画出波形图,可以尝试不用此步,找出波形图的不同

(4) 绘制图像

通过取样点数和取样频率计算出取样的时间:

time = np.arange(0,nframes)*(1.0/framerate)
(5)完整代码
import wave
# 用于绘制波形图
import matplotlib.pyplot as plt
# 用于计算波形数据
import numpy as np
# 用于系统处理 读取本地音频文件
import os
# 读取本地音频数据
# 打开wave文件
f = wave.open(r"audio06.wav",'rb')
# 读取格式信息
params = f.getparams()
nchannels ,sampwidth ,framerate ,nframes = params [:4]
print(framerate)

# 读取单通道音频 并绘制波形图(常见音频为左右两个声道)
# 读取波形数据
strData = f.readframes(nframes)

# 将字符串转换为16位整数
waveDate = np.frombuffer(strData,dtype=np.int16)

#归一化:把数据变成(0,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速
waveDate = waveDate*1.0/(max(abs(waveDate)))

# 计算音频时间
time = np.arange(0,nframes)*(1.0/framerate)

plt.plot(time,waveDate)
plt.xlabel("Time(s")
plt.ylabel("Amplitude")
plt.title("Single channel wavedata")
plt.show()


以上是关于语音处理:音频入门之基础概念总结的主要内容,如果未能解决你的问题,请参考以下文章

音频频谱动画的原理与实现

语音识别入门Python音频处理示例(含完整代码)

语音聊天

第二章:音频入门

[总结]视音频编解码技术零基础学习方法

[总结]视音频编解码技术零基础学习方法