繁凡的对抗攻击论文精读ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)

Posted 繁凡さん

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了繁凡的对抗攻击论文精读ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)相关的知识,希望对你有一定的参考价值。

点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述!

《繁凡的深度学习笔记》,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE,GAN,Transformer,强化学习,元学习,对抗攻击防御,迁移学习等主流研究方向万字综述!


繁凡的对抗攻击论文精读(三)ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法

Prior Convictions: Black-Box Adversarial Attacks with Bandits and Priors
先验知识:老虎机和先验者的黑盒对抗性攻击

3043331995@qq.com

https://fanfansann.blog.csdn.net/

声明:

1)本文《繁凡的对抗攻击论文精读》是 《繁凡的论文精读》 系列对抗攻击领域的论文精读笔记。 《繁凡的论文精读》 项目 暂时包含三大板块,即:《繁凡的NLP论文精读》《繁凡的CV论文精读》 以及 《繁凡的对抗攻击论文精读》,项目地址:https://github.com/fanfansann/DL-papers-intensive-reading-notes-NLP-and-CV

该项目内包含精读论文的原文、精读笔记PDF、模型复现代码等论文相关资源,欢迎     Starred ⭐ \\,\\,\\,\\textStarred⭐ Starred o(〃^▽^〃)o

2)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。

3)本文由我个人( CSDN 博主 「繁凡さん」(博客) , 知乎答主 「繁凡」(专栏), Github 「fanfansann」(全部源码) , 微信公众号 「繁凡的小岛来信」(文章 P D F 下载))整理创作而成,且仅发布于这四个平台,仅做交流学习使用,无任何商业用途。

4)《繁凡的论文精读》全汇总链接:《繁凡的论文精读》目录大纲 https://fanfansann.blog.csdn.net(待更)

文章目录

ICLR2019 Prior Convictions: Black-Box Adversarial Attacks with Bandits and Priors [1]

先验知识:老虎机和先验者的黑盒对抗性攻击

Abstract

We introduce a framework that unifies the existing work on black-box adversarial example generation We demonstrate that the current state of the art in the field is optimal in a certain natural sense. Despite this optimality, we show how to improve black-box attacks by bringing a new element into the problem: ambient priors for the gradient. We identify two such priors, and give an algorithm based on bandit optimization that allows for seamless integration of these and other priors. Our framework leads to methods that are two to three times more query-efficient and two to three times smaller failure rate than the state-of-the-art approaches.

Translation

我们引入了一个框架,该框架统一了黑盒对抗性示例生成的现有工作。我们证明了该领域的当前技术状态在某种自然意义上是最佳的。 尽管有这种最优性,我们展示了如何通过在问题中引入一个新元素来改进黑盒攻击:梯度的环境先验。 我们确定了两个这样的先验,并给出了一种基于老虎机优化的算法,该算法允许无缝集成这些先验和其他先验。 我们的框架引导的方法比最先进的方法查询效率高 2 到 3 倍,失败率低 2 到 3 倍。

Summarize

0x10 论文总结

1 Introduction

  最近的研究表明,神经网络对对抗性示例或受到轻微干扰以欺骗网络预测的输入表现出明显的脆弱性。此漏洞存在于广泛的环境中,从将输入直接馈送到分类器的情况[SZS+13、CMV+16] 到高度可变的现实世界环境 [KGB16、AEIK17]。研究人员开发了许多方法来构建此类攻击 [GSS14、MFF15、CW17、MMS+ 17]。这些攻击中的大多数对应于 first order(即基于梯度)方法。这种攻击被证明是非常有效的:在许多情况下,只需几个梯度步骤就足以构建一个成功的对抗性扰动。

  然而,其中许多攻击的一个显着缺点是它们基本上是白盒攻击。也就是说,它们关键依赖于直接访问被攻击网络的分类损失梯度。在许多现实世界的情况下,期望这种完全访问是不现实的。在如此设置中,攻击者只能向目标网络发出分类查询,这对应于更具限制性的黑盒威胁模型。

  最近的工作 [CZS+17、BHLS17、IEAL17] 为此类模型提供了许多攻击。 [CZS+ 17] 展示了如何使用零阶优化的基本原语,即有限差分法,从分类查询中估计梯度,然后使用它来发起基于梯度的攻击(除了策略之上的一些优化)。这种方法确实成功地构建了对抗扰动。然而,它的代价是在所需查询的数量方面引入了显着的开销。例如,攻击 ImageNet [RDS+ 15] 分类器需要数十万次查询。随后的工作 [IEAL17] 显着改善了这种依赖性,但仍然没有完全缓解这个问题。 (我们在评估部分提供了比较 - 参见第 4.2 节)。

1.1 Our contributions

  我们首先从经验和理论的角度重新审视对抗性示例生成背景下的零阶优化。基于这项检查,我们提出了一种基于 Bandits 老虎机优化生成黑盒对抗样本的新方法。 然后,我们展示了我们的框架如何利用上述的每个观察结果,并最终在生成黑盒对抗样本的任务上对其进行评估。所获得的方法明显优于最先进的方法。

  具体来说,我们的贡献如下:


表 1:在使用 NES 的 Inception v3 对 ℓ 2 \\ell_2 2 ℓ ∞ \\ell_\\infin 范数下的图像网络攻击的效果总结,具有时间先验的 bandits ( Bandits T \\textBandits_T BanditsT) 和具有时间和数据相关先验的 bandits ( Bandits T D \\textBandits_TD BanditsTD) 对 Inception v3 攻击的有效性总结。 请注意,平均查询数仅针对成功的攻击计算,我们强制执行 10 , 000 10,000 10,000​ 个查询的查询限制。我们最强的攻击失败率降低了 2-3 倍,查询效率比之前的最新技术 NES 高 2-3 倍。

  1. 我们将梯度估计问题形式化为高效查询黑盒攻击中的中心问题。然后我们展示了生成的框架如何统一以前的攻击方法。特别是我们证明了信号处理中的经典原语最小二乘法不仅是一般梯度估计问题的最优解,而且在本质上等同于当前最佳的黑盒攻击方法。
  2. 我们证明了尽管这些方法看似最优,但我们仍然可以通过利用以前没有考虑过的问题的一个方面来改进它们:我们拥有的先验或梯度的分布。我们确定了此类先验的两个示例类别,并表明它们确实可以更好地预测梯度。
  3. 最后,我们开发了一个用于生成黑盒对抗样本的老虎机优化框架,该框架允许先验的无缝集成。为了证明其有效性,我们展示了利用上述两个先验产生的黑盒攻击比现有技术的查询效率高 2 到 3 倍,失败率低 2 到 3 倍。

2 Black-box attacks and the gradient estimation problem

对抗样本是经过仔细扰动的自然输入,以诱导分类为原始类别以外的特定类别(目标攻击)或错误分类(非目标攻击)。 为简单起见并使总体框架的介绍更加集中,在本文中,我们将注意力限制在非目标攻击的案例上。 然而我们的算法和整个框架都可以很容易地适应目标攻击的设置。 此外,我们考虑最标准的威胁模型,其中对抗性扰动必须具有 ℓ p − \\ell_p- p​​​​norm,对于某些固定的 p p p​​​​​​,小于某些 ϵ p \\epsilon_p ϵp​​​​​。

2.1 First-order adversarial attacks

假设我们有一些分类器 C ( x ) C(x) C(x)​​​​​​​​​​ 和相应的分类损失函数 L ( x , y ) L(x, y) L(x,y)​​​​​​​​​​,其中: x x x​​​​​​​​​​ 是某个输入, y y y​​​​​​​​​ 是其对应的标签。 为了从某个输入-标签对 ( x , y ) (x, y) (x,y)​​​​​​​​ 中生成错误分类的输入,我们希望找到一个对抗性示例 x ′ x' x​​​,它使 L ( x ′ , y ) L(x', y) L(x,y)​​ 最大化但仍保持 ϵ p − \\epsilon_p- ϵp​​接近原始输入。 因此,我们可以将我们的对抗性攻击问题表述为以下约束优化任务:
x ′ = arg ⁡ max ⁡ x ′ : ∥ x ′ − x ∥ p ≤ ϵ p L ( x ′ , y ) (-) x^\\prime=\\undersetx^\\prime:\\left\\|x^\\prime-x\\right\\|_p \\leq \\epsilon_p\\arg \\max L\\left(x^\\prime, y\\right)\\tag- x=x:xxpϵpargmaxL(x,y)(-)
尽管问题是非凸的,但一阶方法在解决它的方面往往非常成功 [GSS14(FGSM), CW17, MMS+17]。用于 ℓ p \\ell_p p​ 有界对抗攻击的一些最强大的白盒对抗性攻击的主干的一阶方法是投影梯度下降 (PGD)。 这种迭代方法。 给定一些输入 x x x​​​​​ 及其正确的标签 y y y​​​​​,通过应用以下 k k k​​​​​ 步的更新( x 0 = x x_0=x x0=x​​​​​​ )计算扰动输入:
x l = Π B p ( x , ϵ ) ( x l − 1 + η s l ) (1) x_l=\\Pi_B_p(x, \\epsilon)\\left(x_l-1+\\eta s_l\\right)\\tag1 xl=ΠBp(x,ϵ)(xl1+ηsl)(1)
以及
s l = Π ∂ B p ( 0 , 1 ) ∇ x L ( x l − 1 , y ) (2) s_l=\\Pi_\\partial B_p(0,1) \\nabla_x L\\left(x_l-1, y\\right)\\tag2 sl=ΠBp(0,1)xL(xl1,y)(2)
这里, Π S \\Pi_S ΠS​​​ 是在集合 S S S​​​ 上的投影, B p ( x ′ , ϵ ′ ) B_p(x', \\epsilon') Bp(x,ϵ)​​​ 是围绕 x ′ x' x​​​ 的半径为 ϵ ′ \\epsilon' ϵ​​​ 的 ℓ p \\ell_p p​​​ 球, η \\eta η​​​ 是步长, ∂ U \\partial U U​​​ 是集合 U U U​​​ 的边界。另外,作为连续优化的标准,我们将 s l s_l sl​​​ 设为 x l − 1 x_l-1 xl1​​​ 处的梯度 ∇ x L ( x l − 1 , y ) \\nabla_x L(x_l-1,y) xL(xl1,y)​​​ 到单位 ℓ p \\ell_p p​​​ 球上的投影。 这样,我们确保 s l s_l sl​​​ 对应于与 ∇ x L ( x l − 1 , y ) \\nabla_x L(x_l-1,y) xL(x以上是关于繁凡的对抗攻击论文精读ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)的主要内容,如果未能解决你的问题,请参考以下文章

繁凡的对抗攻击论文精读ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)

繁凡的对抗攻击论文精读ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)

繁凡的对抗攻击论文精读CVPR 2019 基于决策的高效人脸识别黑盒对抗攻击(清华朱军)

《繁凡的论文精读》CVPR 2019 基于决策的高效人脸识别黑盒对抗攻击(清华朱军)

《繁凡的论文精读》CVPR 2019 基于决策的高效人脸识别黑盒对抗攻击(清华朱军)

繁凡的对抗攻击论文精读CVPR 2021 元学习训练模拟器进行超高效黑盒攻击(清华)