普通话识别，mp3格式转wav, 采样率转换48000转16000，多通道转单通道，运用百度API，短音频，python

Posted 2021-08-20 胖虎技安

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了普通话识别，mp3格式转wav, 采样率转换48000转16000，多通道转单通道，运用百度API，短音频，python相关的知识，希望对你有一定的参考价值。

需要在pycharm安装百度aip, ffmpeg, pydub 的包，可识别mp3,wav,pcm, amr文件

from pydub import Audiosegment
import ffmpeg
sound=AudioSegment.from_file(r"C:\\Users\\xx\\Desktop\\样本.mp3","mp3")
sound = sound.set_channels(1) #多声道转单声道
sound.export("转换声道后样本.wav", format="wav")

ffmpeg.input(r"转换声道后样本.wav").output('转换完毕样本.wav', ar=16000).run() #转换采样率
# frames_per_second = sound.frame_rate
# print(frames_per_second)
# channel_count = sound.channels
# print(channel_count)
from aip import AipSpeech
#注册一个百度API就有
APP_ID = '124541517'
API_KEY = '12DViLjkjV2svOcsGzutbi9nt'
SECRET_KEY = '1Xb89xy5LB5ax3F0utUqcsmRis5OBZiv7'
# 百度AI库获取的参数
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 构造读取语音文件函数
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
# 识别本地文件  主函数
result = client.asr(get_file_content(r'D:\\编程\\python.pycharm\\2020\\2021\\pythonLearning\\转换完毕样本.wav'), 'wav', 16000, { 'lan': 'zh',})
#此处地址处必须要加r，使其成为绝对地址，要么容易字符转义出现错误
print(result)

参考：
AudioSegment
百度api语音识别

以上是关于普通话识别，mp3格式转wav, 采样率转换48000转16000，多通道转单通道，运用百度API，短音频，python的主要内容，如果未能解决你的问题，请参考以下文章