在做语音识别时，RNN和CNN各有啥优缺点

Posted 2023-03-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了在做语音识别时，RNN和CNN各有啥优缺点相关的知识，希望对你有一定的参考价值。

关注问题写回答
1 个回答

默认排序
YJango
YJango
日本会津大学人机界面实验室博士在读
17 人赞同了该回答
long dependence方面是LSTM的优势。
比如句子“我在日本生活过五年，我可以说流利的日语”，单向LSTM可以在之前所说内容的基础上对当前内容进行判断，可以照顾到日本与日语之间的关系。双向LSTM还可以基于未来的内容判断当前内容。主要是这种判断可以在整个句子之间进行。

同时如果用LSTM做回归的话，输出不需要做后续处理就非常平滑。

CNN的语音识别的特征（feature）通常是是频谱图（spectrogram），类似图片识别的处理方式。同样也可以利用filter size，基于过去和未来的信息判断当前内容。但由于size固定，long dependence方面不如LSTM。不过CNN可以同一信息用不同的feature m 参考技术A 沙特阿拉伯国王什么时候来北京坊间

以上是关于在做语音识别时，RNN和CNN各有啥优缺点的主要内容，如果未能解决你的问题，请参考以下文章

基于RNN和CTC的语音识别模型，探索语境偏移解决之道

语音识别中的End2End模型: CTC, RNN-T与LAS