PcGAN:一种用于一次学习的噪声鲁棒条件生成对抗网络∗
Posted 卓晴
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PcGAN:一种用于一次学习的噪声鲁棒条件生成对抗网络∗相关的知识,希望对你有一定的参考价值。
简 介: 在本文中,我们为智能交通系统提出了一种基于条件生成对抗网络的新型交通标志分类方法。所提出的 PcGAN是一个端到端网络,网络框架包含交替更新模块,即数据重建模块和退化生成模块,以及用于退化消去和生成的多任务损失函数,包括一个基本的 GAN损失、基于任务的损失和自适应一致性损失。和其他三种最先进的算法在公开可用的数据库上进行的对比实验充分证明了我们提出的方法在小样本分类任务和数据检索任务中的优越性。
关键词
: PcGAN,深度学习
§00 摘 要
交通标志分类以其强大的信息表示能力在自动驾驶汽车中发挥着重要作用。然而,车载摄像头捕获的交通标志的低质量数据往往给一次( one-shot
)分类任务带来不可避免的内在挑战。除了数据退化的问题外,基于学习的真实交通标志分类技术还面临来自训练数据的类内和类间数据不平衡的挑战。为了克服上述问题,我们提出了一种端到端的退化鲁棒的深度模型,称为 PcGAN
,以小样本学习的方式对交通标志进行分类。所提出的 PcGAN
从退化去除和生成两个交替优化模块(即数据重建模块和退化生成模块)的角度对退化的交通信号数据和相应原型之间的联合分布进行建模,从而确保了为新任务学习了潜在空间的嵌入。多任务损失函数旨在通过基本损失、传统损失和自适应一致性损失来提高 PcGAN
的鲁棒性。大量实验全面证明了我们提出的 PcGAN
在少样本分类任务和数据检索任务中与其他最先进的 (SOTA)
方法相比的进步。
§01 引 言
交通标志是以文字或符号形式传达引导、限制、警告或指示信息的道路设施,对交通驾驶具有重要意义。与可访问的词形式相比,符号形式往往与任何特定语言隔离,只有熟悉先验约定的人才能掌握,例如形状相似性。在大量基于符号的交通标志的情况下,这对驾驶员来说是一个巨大的挑战 [2]
。幸运的是,随着智能交通系统( ITS
)[19]
的快速发展,交通
∗史纪元和何春明为本文的共同一作。
信号技术已经广泛应用于自动驾驶汽车 [23, 29, 25]
,这既可以协助驾驶员对各种交通标志的进行判断,又可以纠正人工智能系统的自动驾驶行为。
与基于多模态的数据融合策略不同,交通标志技术只能通过单个传感器实现,即可见光相机,因为其最初的设计初衷是针对人类视觉系统 [20]
的,这对于周围环境、可变光照条件、复杂天气 [11, 9, 10]
等复杂因素是敏感的,如图 1
所示。此外,相机成像系统会带来一些退化,例如硬件引起的噪声和相机内预处理失真 [32]
。为了克服上述挑战,在传统方法和基于学习的方法中都提出了许多抗噪方法。传统方法主要依靠手工特征算子来抑制退化,例如局部熵 [6]
、NLM [30]
,这需要复杂的手动设计。在基于深度学习的方法中, Tian
等人 [27]
采用循环注意机制来减弱交通标志中背景噪声的影响。然而,现有的目标噪声也会影响后续处理的准确性,注意力图会受到数据退化的干扰。 DFR-TSD [1]
利用挑战分类器对输入数据的退化条件进行分类,例如镜头模糊、雪、雾霾等,有效地为不同类型的退化提供了有针对性的重建技术。然而,这项工作非常耗时,并且极其依赖于挑战分类的精度,在错误分类的情况下难以提供高质量的重建效果。
▲ 图1.1 圆形示例及其来自于GTSRB和TT100K数据集的真是交通信号数据,其中(a)-(e)分别对应圆形、国安、模糊过度曝光、遮挡
除了真实捕获的交通标志的图像质量下降外,恢复的高质量交通标志数据与原型数据存在显着的视觉差距。因为原型数据是对应类中最标准的数据,并不是专门为输入设计的,这会导致输入数据和原型数据之间的视觉域差异。对于这一挑战,一些如 [26]
的方法致力于发布一个新的数据集,可以在一定程度上缓解领域差异的情况。然而,由于昂贵的标注成本,最近发布的公共数据集 [?]
都不可避免地存在 类内和类间数据不平衡的问题。因此,纯数据驱动的深度网络经常会遇到一些数据不平衡导致的问题。小样本学习可以有效地解决数据不平衡问题,因为它具有强大的泛化能力,可以通过少量新类的原型数据在潜在空间中学习数据的通用先验知识。小样本学习的开创性工作,即 Li
等人 [4]
,假设先验知识有助于人们进行更有效的学习。李等人。 [4]
用贝叶斯策略探索了潜在的和通用的先验信息。
结果表明,学习到的先验可以很容易地用少量数据调整到其他问题。在 [33]
中,特征空间中样本的低秩表示被标签分布学习用于分类任务。Xing
等人 [31]
曾提议将自动编码器与生成对抗网络相结合,用于零样本跨模态检索任务,该任务利用了分布对齐中的常见潜在空间学习、知识转移和特征合成。此外,最近的一些方法,例如莱克等人。 [17]
关注生成的过程,也探索了几个层次贝叶斯的例子。在这种策略下,提取的过程也可以推广到新任务,即使示例数量下降到一个。值得注意的是,尽管基于深度学习的算法发展迅速,但小样本学习是一项持续具有挑战性的任务,其在自然数据集上的表现甚至低于一些手工方法。原因主要在于相当有限的数据会导致过拟合的问题。在这种情况下,最近提出的的基于学习的算法主要侧重于嵌入学习和元学习策略。 VPE [14]
是一种基于一次性学习的方法,前一种策略是在变分自动编码器 (VAE)
结构中通过最近邻分类对交通标志进行分类,并在数据分类和图像检索方面取得了先进的性能。然而, VPE
迫使真实交通标志的生成输出与其原型相似,这是最标准的交通标志。显然,直接从映射关系中学习公共空间是具有挑战性且不合理的。
为了克服上述挑战,我们提出了一种具有原型数据的退化鲁棒条件生成对抗网络,称为 PcGAN
,通过小样本学习对交通标志进行分类。如图 2
所示 ,
所提出的 PcGAN
是一种模拟退化过程的端到端模型,它制定了真实交通标志数据与其相应原型之间的隐式联合分布,即数据重建模块和退化生成模块,而不是通过两个交替更新模块强制重建的交通标志与其原型相似。为了进一步提高 PcGAN
的鲁棒性,提出了一种多任务损失函数来联合约束退化的去除和生成。PcGAN
的贡献可以总结如下:
(1)
据我们所知,这是首次在交通标志分类的一次性学习领域引入双重对抗策略来近似隐式联合分布,该策略可以同时模拟退化去除和生成过程。因此,所提出的 PcGAN
可以全面了解真实交通标志与其原型数据之间的潜在关系。
(2)
为了获得更准确的分类性能,我们提出了一个多任务损失函数来联合约束网络训练,包括交通标志真实数据的重建和相应原型的退化。
(3)
大量实验全面说明了我们的 PcGAN
在定性分析和定量分析方面与其他最先进的 (SOTA)
技术相比的优越性。
图 2.所提出的 PcGAN的框架,其中 (a)是同一类交通标志的真实数据, (b)是对应的原型图像和初始退化算子, ©是数据重构模块处理的重构数据,( d)被退化生成模块退化的结果图,并且 (e)是为了简化联合分布 p(t, r)的图像拼接操作。
§02 PcGAN框架
在本节中,我们将介绍所提出的 PcGAN
模型,该模型类似于基于度量的学习解决方案,目的是学习可泛化的嵌入。与传统的 GAN
不同,我们的模型应用于少样本学习任务,该任务侧重于模型的泛化能力和潜在空间的嵌入通用性,只有一个支持数据。因此,PcGAN
的训练阶段旨在构建一个具有大量训练数据的通用嵌入空间,在测试阶段,学习到的嵌入空间将用于新类测试与其原型数据之间的最近邻分类。此外,与使用选定度量构建嵌入空间的基于度量的学习方法相比,PcGAN
的嵌入构建过程需要元任务的协助,即学习从真实数据到原型数据的映射,这意味着我们的 PcGAN
可以比手动选择的指标更有效。在本文中,提出的 PcGAN
被应用于通过单个原型数据处理少样本分类问题,其框架如图 2
所示,它包含以下模块,包括数据重建模块 Dr
、退化生成模块 Dg
和判别模块 D
。
2.1 问题表述
我们将少样本分类问题定义为具有两个生成器的条件 GAN
,它对应于数据重建模块和噪声生成模块中的编码器 -解码器结构。给定一对配对的由车载摄像头捕获的真实退化图像 r
及其原型图像 t
,我们的任务问题是通过求解联合分布 p(r, t)
而不是强制生成器学习从 r
到 t
的映射 [14]
。下面,我们将详细描述上述模块和判别模块的原理。
数据重建模块。数据重建模块 Dr专注于在退化图像 r已知的情况下重建恢复的图像,即学习隐式分布 pDr (t | r)来近似 p(t | r),其中近似重建数据 tˆ= Dr®。在这种情况下,恢复的联合分布定义如下:
p D r ( t , r ) = p D r ( t ∣ r ) p ( r ) p_D_r \\left( t,r \\right) = p_D_r \\left( t|r \\right)p\\left( r \\right) pDr(t,r)=pDr(t∣r)p(r)
其中 p(r)
是捕获的退化图像 r
的分布,它是一个固定值。从上面提到的等式可以看出,数据重建模块 D(r)
的性能与 pDr (t, r)
和 p(t, r)
之间的近似程度成正比。
退化生成模块。交通标志只能由自动驾驶系统中的摄像头传感器捕获,这会带来一些硬件引起的噪声和一些摄像头内预处理失真 [32]
。在这种情况下,我们导入一个潜在向量 zd
来表示上述可降解条件,其中从原型数据 t
到真实失真数据 r
的真实退化过程的分布可以用 p(r | t, zd)
和退化生成模块 Dg
生成的可以用 pDg (r | t, zd)
表示。因此,退化数据 r
ˆ如下:
KaTeX parse error: Can't use function '\\~' in math mode at position 37: …t,z_d \\right)\\̲~̲p_D_g \\left(…
那么退化的联合分布可以通过以下方式实现:
p
D
g
(
t
,
r
)
=
∫
z
d
p
d
g
(
r
∣
t
,
z
d
)
p
(
t
)
p
(
z
d
)
d
z
d
p_D_g \\left( t,r \\right) = \\int_z_d ^ p_d_g \\left( r|t,z_d \\right)p\\left( t \\right)p\\left( z_d \\right)dz_d
pDg(t,r)=∫zdpdg(r∣t,zd)p(t)p(zd)dzd
上述公式可以被简写为 [16]: 以上是关于PcGAN:一种用于一次学习的噪声鲁棒条件生成对抗网络∗的主要内容,如果未能解决你的问题,请参考以下文章 论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型
p
D
g
(
t
,
r
)
≈