普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python

Posted 胖虎技安

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python相关的知识,希望对你有一定的参考价值。

需要在pycharm安装百度aip, ffmpeg, pydub 的包,可识别mp3,wav,pcm, amr文件

from pydub import Audiosegment
import ffmpeg
sound=AudioSegment.from_file(r"C:\\Users\\xx\\Desktop\\样本.mp3","mp3")
sound = sound.set_channels(1) #多声道转单声道
sound.export("转换声道后样本.wav", format="wav")

ffmpeg.input(r"转换声道后样本.wav").output('转换完毕样本.wav', ar=16000).run() #转换采样率
# frames_per_second = sound.frame_rate
# print(frames_per_second)
# channel_count = sound.channels
# print(channel_count)
from aip import AipSpeech
#注册一个百度API就有
APP_ID = '124541517'
API_KEY = '12DViLjkjV2svOcsGzutbi9nt'
SECRET_KEY = '1Xb89xy5LB5ax3F0utUqcsmRis5OBZiv7'
# 百度AI库获取的参数
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 构造读取语音文件函数
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
# 识别本地文件  主函数
result = client.asr(get_file_content(r'D:\\编程\\python.pycharm\\2020\\2021\\pythonLearning\\转换完毕样本.wav'), 'wav', 16000, { 'lan': 'zh',})
#此处地址处必须要加r,使其成为绝对地址,要么容易字符转义出现错误
print(result)

参考:
AudioSegment
百度api语音识别

以上是关于普通话识别,mp3格式转wav, 采样率转换48000转16000,多通道转单通道,运用百度API,短音频,python的主要内容,如果未能解决你的问题,请参考以下文章

使用 NAudio/Lame 将 .wav 转换为 mp3 时如何设置通道和采样率?

小程序语音红包中遇到的 语音识别silk转wav格式 如何在线转 或者mp3转wav格式

千千静听怎么转换格式的?

将任意音频格式文件转换成16K采样率16bit的wav文件

多媒体文件格式:PCM / WAV 格式

微信小程序语音识别开发过程记录 微信小程序silk转mp3 silk转wav 以及ffmpeg使用