语音识别技术如何突围？搜狗走了一条音视觉结合之路

Posted 2021-12-02 sushine1

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了语音识别技术如何突围？搜狗走了一条音视觉结合之路相关的知识，希望对你有一定的参考价值。

　　有一个像科幻电影《Her》中的虚拟助理(女友)，大概是人们对人工智能美好的憧憬，尽管这一天可能还很遥远。

　　为了实现这一技术突破，前几年行业更多聚焦语音交互各个难题，而近两年，一些技术先行者开始尝试将语音、视觉、文本等信息结合的方式(即多模态)来推动人机交互技术的升级，多模态交互也成为学界、业界热议的话题。

　　搜狗也是多模态交互技术的先行者，2017年就开始探索唇语识别技术，2018年推出合成虚拟主播，近期搜狗与清华大学天工研究院联合发表了一篇《基于模态注意力的端到端音视觉语音识别》论文，在多模态识别领域又迈出一步，将音视觉融合到一起来提升语音识别的效果，并被世界顶级声学、语音与信号处理大会ICASSP2019收录。

　　从最初的语音交互到唇语识别，到机器翻译、搜狗分身(合成主播)，再到音视觉识别，搜狗这一技术进展可谓步步为营，而这背后则是搜狗在“自然交互+知识计算”的理念下，死磕技术难题，让人机交互更高效自然。

　　噪声环境下语音识别的另一条路

　　随着AI的发展和智能音箱的推动，语音交互已经逐渐成为智能硬件的标配。作为语音交互前端的关键一环，语音识别近年也得到快速发展，不少公司都可以在安静环境下将识别率做到98%以上。然而一旦进入噪声场景，语音识别的准确度就会大大降低。

　　在智能硬件上，目前业界的主流方式是通过麦克风阵列来进行信号处理，用硬件的方式来进行噪声消除，但当环境复杂噪声很大的情况下，语音识别仍然存在很大瓶颈。

　　能不能通过视觉AI的方法来解决这一问题，尤其是在噪声环境下，视觉会不会成为语音识别准确率的一个有效补偿?因为视觉的识别方法不受环境噪音的影响，在嘈杂的环境下，人们即使听不清对方讲话，依靠唇形也能大体明白讲话者的意思。

　　正是出于这样的考虑，搜狗公司与清华大学天工研究院去年开始尝试语音和视觉结合的方式，即音视觉多模态识别来提升语音识别的效果。

　　据搜狗介绍，这项技术研究从立项到论文投出仅用了近4~5个月时间，而之所以进展较快，与搜狗在语音识别与视觉识别领域的积淀密不可分。

　　在2016年，搜狗就开始做以语音为主的人机交互，并积累了语音识别、语义理解、机器翻译、语音合成等全链路语音技术。

　　而在2017年底，搜狗就推出一项“黑科技”唇语识别技术，这在当时领先行业。当时唇语识别针对日常用语可以做到50%~60%的准确率，针对命令词的识别可达到85%~90%，较早地做了唇语识别的技术储备。

　　此次，搜狗取得阶段性成果的音视觉多模态识别技术，正是基于语音识别和唇语识别这两种关键技术。“通过二者的有效结合，可以在噪声环境下，提升30%以上的语音识别准确率”，搜狗语音交互中心技术总监陈伟谈道。

　　用模态注意力提升识别效果　　郑州不孕不育医院:http://wapyyk.39.net/zz3/zonghe/1d427.html郑州不孕不育医院哪家好:http://wapyyk.39.net/zz3/zonghe/1d427.html郑州不孕不育医院排名:http://wapyyk.39.net/zz3/zonghe/1d427.html

　　要实现音视觉识别不同模态的融合并非易事，因为声音和视觉的特征差异很大。而简单的将两种模态拼接会造成信息损失，视觉信息对听觉信息的提升也很有限。搜狗提出了一种模态注意力的方法，依据不同模态信息的重要程度进行动态调整融合，得到更加鲁棒的融合信息。

　　清华大学天工研究院周盼解释道，在音视觉信息融合的过程中需要解决两个问题，第一个是音视觉信息不等长的问题，第二个是贡献不等价问题。

　　具体而言，声音和视觉在时间序列下的采样频率不同，一般情况下，音频为每秒采样100帧，而视频为每秒24帧。音视觉识别首先需要将这100帧和24帧对齐，将这二者的信息融合共同做一个决策。对于声音和视觉同步的信号来说，虽然可以按照二者帧速率的比值进行大致对齐，或者上采样、下采样的方法将二者变为相同帧速率进行融合，但是存在一定的信息损失。对于声音和视觉不同步的信号，对齐就变得更困难。

　　另一个问题是贡献度不等价。对于音视觉语音识别，在安静环境下应该是语音为主导，在嘈杂环境下视频信息的贡献度相比在安静环境下应该提升导。因此需要根据环境动态的调整音视频的贡献比例。

　　搜狗提出的模态注意力端到端音视觉模型，能够将音视频信息进行有效融合，然后根据具体的环境，动态调整选择声音还是视频作为主要的识别对象，进而获得更优的识别效果。具体而言，通过第一层常规的注意力(或者称为内容注意力)得到在每个解码时刻相应对的听觉和视觉上下文向量。这两个上下文向量内容上是彼此对齐的，这也就解决了上文提到的信息不等长的对齐问题。对于贡献度不同的问题，如上图，采用了第二层注意力，即模态注意力来依据声音和视觉对识别的贡献度动态的确定两个模态的融合权重，得到包含声音和视觉信息的融合上下文向量。

　　在一个Demo中，搜狗模拟了安静、地铁、大厅等环境，并提供了语音识别、唇语识别、混合识别三种模式。

以上是关于语音识别技术如何突围？搜狗走了一条音视觉结合之路的主要内容，如果未能解决你的问题，请参考以下文章

智能处理与编码算法产品化；媒体传输协议的演进与未来；音视频播放技术与消费体验升级...

百度搜狗阿里腾讯语音技术谁强

FastASR+FFmpeg(音视频开发+语音识别)

语音识别之初体验

一键完成图片到文字识别，省下打字时间

音视频开发成长之路与音视频知识总结