论文阅读TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)
Posted Xavier Jiezou
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)相关的知识,希望对你有一定的参考价值。
TDANet: 一种具有自上而下注意力的用于语音分离的高效自编码器架构
文章目录
速览
下载 | 收录 | 源码 | 机构 | 演示 |
---|---|---|---|---|
arxiv | ICLR 2023 | PyTorch | 清华大学 | Demo |
@inproceedingstdanet2023iclr,
title=An efficient encoder-decoder architecture with top-down attention for speech separation,
author=Li, Kai and Yang, Runxuan and Hu, Xiaolin,
booktitle=ICLR,
year=2023
摘要
-
问题描述:现有语音分离模型无法兼顾效率和性能。
-
解决方案:本文基于脑启发,提出了一个能够模拟大脑自上而下注意力的高效自编码器架构用于语音分离任务。具体地,它利用全局注意力(GA)模块和级联的局部注意力(LA)模块来获得一个自上而下的注意力表示。
-
实验结果:在三个基准数据集上进行了实验,与之前的 SOTA 模型 Sepformer 相比,TDANet 实现了一致性的具有竞争力的性能,并且效率极高。具体地,TDANet 的 MACs 只有 Sepformer 的 5%,CPU 推理时间仅为 Sepformer 的 10%。
方法
Pipeline
TDANet
TDANet 的主要结构如上图所示。它由三部分构成:
1)编码器:采用多个卷积对输入的音频信号进行下采样。出于轻量的考虑,使用卷积核大小为 5,步长为 2 的深度可分离卷积来替换普通卷积;
2)全局注意力模块:首先,将编码器获得的多尺度特征通过自适应的平均池化统一到最小的尺度,然后直接通过加法操作来融合得到多尺度的特征表示。接着,通过一个 Transformer 层来建立长程依赖性以获得一个全局的信息。进而,通过自上而下的连接,将全局注意力信号传递到每个尺度的特征上以执行特征调制,以此来选择有用的特征,并抑制无用的特征。
3)解码器:解码器由若干个级联的局部注意力层组成,主要负责音频信号的重建过程,其结构如下图所示。
实验
本文在三个基准数据集(Libri2Mix,WHAM! 和 LRS2-2Mix)上进行了实验,以验证其提出方法的性能和效率。
-
TDANet 具有最低的参数量,与之前的 SOTA 模型 Sepformer 相比,实现了具有竞争力的性能。此外,TADNet Large 在三个数据集上都实现了 SOTA 性能。
-
TDANet 的计算复杂度和推理时间远胜于之前的 SOTA 模型。
总结
对于语音分离任务,TDANet 可以兼顾性能和效率,相比于前一个 SOTA 模型,实现了极大的效率超越,对于语音分离模型的实际应用部署具有重要意义。TDANet 的成功也反映了基于脑启发仿真研究深度神经网络的正确性,我们可以从大脑的思考或感知过程中获得构建神经网络的灵感。此外,TDANet 提出的轻量级自编码器架构也可以轻松移植到计算机视觉等应用,是 Transformer 取得成功的又一大佐证。
以上是关于论文阅读TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)的主要内容,如果未能解决你的问题,请参考以下文章
论文阅读TripleNet: 用于多轮对话回复选择的三重注意力网络
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification(论文阅读笔记)