一段讯飞百度等语音识别API无法识别的语音最终解决办法

Posted HtwMedia

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一段讯飞百度等语音识别API无法识别的语音最终解决办法相关的知识,希望对你有一定的参考价值。

  最近在做语音识别、字幕扒词相关的工作,遇到了一段录音(https://download.csdn.net/download/u014220286/12169183,各位有兴趣的可以下载下来试试),音质什么的和其他处理过的无二异,也是普通话,照常理说应该能识别出来,可为了类似这样的语音丢了工作机会(前一次没重视人工速录交了,后来又遇到了,琢磨了好长时间解决了,过了交稿时间,产生信任危机了,没有机会合作了。)记录下这次的解决过程,希望给你有需要的人帮助。
  首先用ffmpeg查看该音频,发现是32是浮点数,立体声,转成16K单声道的,没有解决,后来想到是不是因为噪声的缘故,做了噪声消除后效果依旧;甚至怀疑到了和声音内容有关(两次音频都是和法律相关的),以前也做过庭审的例子,拿出来用ffmpeg查看音频信息,摸索半天发现可能是声道的问题。
  找到了问题可能的点,于是在强大的音频处理软件audacity中进行了尝试,具体步骤如下:
  在audacity中导入音频,在左侧面板中下拉三角的菜单中选择“分离立体声”,分离好后“禁用”一个声道,然后在菜单中选择“导出”,导出音频,导出的音频就可以识别了。
  虽然没有尝试用程序解决,但有了方法,又不太耗时,总算解决了一个难点,下次不至于为此类问题失去工作机会了。
  解决前讯飞的识别结果:
   处理后的识别结果:
 
 
  

  

  HTWCore下载:

  链接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取码:qs52

  或者加QQ群:414750884

以上是关于一段讯飞百度等语音识别API无法识别的语音最终解决办法的主要内容,如果未能解决你的问题,请参考以下文章

Android科大讯飞——语音识别

iOS:百度长语音识别具体的封装:识别播放进度刷新

golang 使用科大讯飞进行语音合成与识别

python调用百度语音(语音识别-斗地主语音记牌器)

百度语音识别服务 —— 语音识别 REST API 开发笔记

求助,语音识别的软件,口述录音能够识别转化成文字的