CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院

Posted 2022-04-17 QbitAl

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院相关的知识，希望对你有一定的参考价值。

转载自人大高瓴AI学院
量子位 | 公众号 QbitAI

AI现在能自己欣赏音乐会了。

还是能知道演奏场景中每种乐器演奏状态的那种。

对于人类而言，将旋律和画面结合起来提升欣赏体验，是一种生而俱来的天赋。

但对于机器来说，这件事其实颇有挑战。

最近，中国人民大学高瓴人工智能学院GeWu实验室就针对这一问题提出了一种新的框架，让AI能像人一样观看和聆听乐器演奏，并对给定的视音问题做出跨模态时空推理。

目前这一成果已被CVPR2022接收并选为Oral Presentation，相关数据集和代码已经开源。

以下为论文全文分享。

引言

我们在日常生活中被视觉和声音信息所包围，这两种信息的结合利用提高了我们对场景的感知和理解能力。

想象一下，当我们身处在一场音乐会中时，同时观看乐器演奏动作和聆听音乐的旋律可以很好地帮我们享受演出。

受此启发，如何让机器整合多模态信息，尤其是视觉和声音等自然模态，以达到与人类相当的场景感知和理解能力，是一个有趣且有价值的课题。

因此，我们专注于视听问答（Audio-Visual Question Answering, AVQA）任务，旨在回答有关不同视觉对象、声音及其在视频中的关联的问题。显然，必须对视听场景进行全面的多模态理解和时空推理才能做出正确的回答。

近年来，研究人员在声音对象感知、音频场景分析、视听场景解析和内容描述等方面取得了显著进展。尽管这些方法能将视觉对象与声音关联，但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。

相比之下，人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务，如视听问答任务等。现有的视觉问答（VQA）和声音问答（AQA）方法等往往只关注单一模态，从而不能很好地在真实的视音场景中进行复杂的推理任务。

如下图所示的单簧管双重奏场景，当回答“哪个单簧管先发声？”的问题时，需要在视听场景中先定位出发声的单簧管，并在时序维度上重点聚焦于哪个单簧管先发出声音。要正确回答这个问题，本质上需要有效地对视听场景理解和时空推理。

△AVQA任务问题样例展示

对于上面这个例子，若我们仅考虑基于视觉模态的VQA模型则很难对问题中涉及的声音信息进行处理，相反，若我们只考虑基于声音模态的AQA模型，同样难以对问题中涉及的空间位置信息进行处理。但是，我们可以看到同时使用听觉和视觉信息可以很容易对场景进行理解并正确地回答上述问题。

1. 数据集

为了更好地探索视听场景理解和时空推理的问题，我们构建了一个专注于问答任务的大规模的视听数据集（Spatial-Temporal Music AVQA, MUSIC-AVQA）。

我们知道高质量的数据集对于视音问答任务的研究具有相当大的价值，因此，考虑到乐器演奏是一个典型的视音多模态场景，并由丰富的视听成分及其交互组成，非常适合用于探索视听场景理解和推理任务。

故我们从YouTube上收集了大量用户上传的乐器演奏视频，构建数据集中的视频包括了独奏、重奏的合奏等多种演奏形式。

具体来说，我们一共选取了22种不同的乐器（如吉他、钢琴、二胡、唢呐等），设计了九种问题模板并涵盖了声音、视觉和视音三种不同的模态场景类型。

△MUCIS-AVQA数据集与其他QA数据集多维对比

如上表所示，我们发布的MUSIC-AVQA数据集具有以下优势：

MUSIC-AVQA数据集涵盖大量的声音问题、视觉问题和视听问题的问答对，比其他问答类数据集更全面丰富。

对于大多数问答任务数据集（ActivityNet-QA, TVQA等）来说，仅包含了视觉问题，难以探索视听相关的研究。虽然现有的AVQA数据集（AVSD, Pano-AVQA等）也提供了视听问答对，但它们更专注于相对简单的问题（Existential或Location），只需要空间推理即可做出回答。

MUSIC-AVQA数据集由包含丰富视听成分的乐器演奏场景组成，有助于更好地研究视听交互场景理解和推理，并可以在一定程度上避免场景中的噪声问题。

大多数公开问答类数据集（ActivityNet-QA, AVSD等）中的声音信息通常与其视觉对象不匹配，会产生严重的噪声（如背景音乐），这使得它们难以探索不同模态之间的关联。此外，TVQA数据集虽然包含视觉和声音模态，但其声音是由人类说话声组成的，在其问答对构建过程中也只使用了相应的字幕信息，并不是真正的视音关联场景。

最终数据集包含了9,288个视频并包含了22种乐器，其总时长超过150小时。并且以众包的形式形成了45,867个问答对，平均每个视频约5个问答对，这些问答对涵盖了不同模态下的9类问题类型以及33个不同的问题模板。丰富而多样复杂的数据集对AVQA任务的研究具有相当大的价值和意义。