普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python
Posted 胖虎技安
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python相关的知识,希望对你有一定的参考价值。
需要在pycharm安装百度aip, ffmpeg, pydub 的包,可识别mp3,wav,pcm, amr文件
from pydub import Audiosegment
import ffmpeg
sound=AudioSegment.from_file(r"C:\\Users\\xx\\Desktop\\样本.mp3","mp3")
sound = sound.set_channels(1) #多声道转单声道
sound.export("转换声道后样本.wav", format="wav")
ffmpeg.input(r"转换声道后样本.wav").output('转换完毕样本.wav', ar=16000).run() #转换采样率
# frames_per_second = sound.frame_rate
# print(frames_per_second)
# channel_count = sound.channels
# print(channel_count)
from aip import AipSpeech
#注册一个百度API就有
APP_ID = '124541517'
API_KEY = '12DViLjkjV2svOcsGzutbi9nt'
SECRET_KEY = '1Xb89xy5LB5ax3F0utUqcsmRis5OBZiv7'
# 百度AI库获取的参数
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 构造读取语音文件函数
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
# 识别本地文件 主函数
result = client.asr(get_file_content(r'D:\\编程\\python.pycharm\\2020\\2021\\pythonLearning\\转换完毕样本.wav'), 'wav', 16000, { 'lan': 'zh',})
#此处地址处必须要加r,使其成为绝对地址,要么容易字符转义出现错误
print(result)
以上是关于普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python的主要内容,如果未能解决你的问题,请参考以下文章
使用 NAudio/Lame 将 .wav 转换为 mp3 时如何设置通道和采样率?