图像对抗算法-攻击篇(I-FGSM)

Posted AI之路

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图像对抗算法-攻击篇(I-FGSM)相关的知识,希望对你有一定的参考价值。

论文:Adversarial examples in the physical world
论文链接:https://arxiv.org/abs/1607.02533

在上面一篇博客FGSM中,我介绍了FGSM算法,FGSM算法从梯度的角度做攻击,速度比较快,这是该算法比较创新的地方。但是FGSM算法只涉及单次梯度更新,有时候单次更新并不足以攻击成功,因此,在此基础上推出迭代式的FGSM,这就是I-FGSM(iterative FGSM)。

首先回顾下FGSM算法,公式如下,可以看到和FGSM论文中的公式相比,这里少了网络参数θ,其实也比较容易理解,因为在生成攻击图像的过程中并不会修改网络参数,因此θ就没必要加到公式中。

显然,可以通过不断迭代FGSM算法得到攻击图像,也就是I-FGSM,公式如下:

这个公式中有几个参数和FGSM算法中的不一样,比如权重用α表示,论文中取1,同时迭代次数用N表示,论文中N取min(e+4, 1.25e),这部分其实就是将总的噪声幅值分配到每一次迭代中,因此在给定噪声幅值e的前提下,还可以直接用α=e/N来设置α和N参数。另外式子中的Clip表示将溢出的数值用边界值代替,这是因为在迭代更新中,随着迭代次数的增加,部分像素值可能会溢出(比如超出0到1的范围),这时候就需要将这些值用0或1代替,这样最后才能生成有效的图像。
在这篇论文中将上面这个迭代攻击算法称之为basic iterative method,其实就是迭代版FGSM算法。另外论文中还介绍了iterative least-likely class method:将输入图像分类成原本最不可能分到的类别,可以看做是迭代版FGSM的难度升级版,公式如下。原本无目标攻击只需要让模型分类错误就算攻击成功,而现在需要模型将攻击图像分类成原本分类概率极低的类别,难度可想而知。当然,这部分内容其实是有目标攻击的雏形,因为可以指定攻击类别。从公式中可以看到和前面无目标攻击公式的最大区别在于α前面的加号变成减号,同时原本的真实标签ytrue变成yLL,这2个修改使得模型优化的目标是最终对应类别为yLL的分类概率越来越大,这和常规的分类模型训练类似,只不过监督信息并不是真实标签,而是指定的一个标签。

这个yLL是原输入图像在分类模型中分类概率最小的类别,可以通过如下式子计算得到:

因此上面这种攻击方式是无目标攻击里面比较难的,而且也是有目标攻击的雏形,目前许多基于梯度的有目标攻击算法基本上也是通过将真实标签替换为目标标签后计算梯度生成攻击图像。
最后实验结果可以看Figure2,图中的4条曲线分别表示原图像(clean images)、FGSM攻击图像(fast adv)、I-FGSM攻击图像(basic iter adv)和I-FGSM加强版攻击图像(least likely class adv)。相比FGSM算法,I-FGSM算法的攻击成功率提升得还是非常明显的。

以上是关于图像对抗算法-攻击篇(I-FGSM)的主要内容,如果未能解决你的问题,请参考以下文章

图像对抗算法-攻击篇(FGSM)

深度学习攻防对抗(JCAI-19 阿里巴巴人工智能对抗算法竞赛)

Keras深度学习实战(19)——使用对抗攻击生成可欺骗神经网络的图像

机器学习对抗攻击是一颗“定时炸弹”

论文研读2——对抗样本(Adversarial Example)综述(2021版)

论文研读2——对抗样本(Adversarial Example)综述(2021版)