论文阅读 | Universal Adversarial Triggers for Attacking and Analyzing NLP

Posted shona

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读 | Universal Adversarial Triggers for Attacking and Analyzing NLP相关的知识,希望对你有一定的参考价值。

[code] [blog]

主要思想和贡献

以前,NLP中的对抗攻击一般都是针对特定输入的,那么他们对任意的输入是否有效呢?

本文搜索通用的对抗性触发器:与输入无关的令牌序列,当连接到来自数据集的任何输入时,这些令牌序列触发模型生成特定的预测。 

例如,触发器导致SNLI隐含精度从89.94%下降到 0.55%, 72%的“为什么”问题在SQuAD中回答“杀死美国人”,而gps -2语言模型即使在非种族背景下也会输出种族主义。

本文设计了一个基于令牌的梯度引导搜索。 搜索迭代地更新触发序列中的标记,以增加批量样本的目标预测的可能性(第2节)。我们发现,当将文本分类、阅读理解和条件文本生成的输入连接在一起时,序列成功地触发了目标预测。

例如:

技术图片

 

通用的对抗触发器

 

不需要白盒的方法攻击目标模型。

最后,通用攻击是一种独特的模型分析工具,因为与典型攻击不同,它们是上下文无关的。因此,它们突出了通过模型学习到的一般输入-输出模式。 我们利用这一点来研究数据集偏差的影响,并确定由模型学习的启发式(第6节)。

攻击模型和目标

技术图片

 

 

 技术图片

 

 

 触发器搜索算法

首先,选择触发器长度:长的更有效,短的更隐蔽。接下来,通过重复单词“the”、子单词“a”或字符“a”来初始化触发器序列,并将触发器连接到所有输入的前端/末端。

然后,我们迭代地替换触发器中的令牌,以最小化对批量示例的目标预测的损失。为了确定如何替换当前的令牌,我们不能直接应用计算机视觉中的对抗攻击方法,因为令牌是离散的。相反,我们构建在HotFlip (Ebrahimi et al., 2018b)的基础上,这是一种近似于使用梯度替换标记的效果的方法。为了应用这种方法,将触发器标记tadv嵌入到一个热向量中形成eadv

技术图片

 

技术图片

 

 

 

Token替换策略

本文HotFlip策略基于任务loss的线性逼近。更新每一个触发器的token eadvi 最小化loss,一阶泰勒近似:

技术图片

 

 

 V 词典。后面是每个batch的loss的平均梯度。

使用|V| d维点积可以有效地计算最优e‘ i,其中d为令牌嵌入的维数(Michel et al., 2019)。对于我们考虑的所有模型,这种蛮力解决方案是微不足道的并行性,并且比运行一个前向传递要廉价。最后,在找到每个eadvi之后,我们将嵌入转换回它们相关联的令牌。图1展示了触发器搜索算法。

我们用波束搜索增强了这种令牌替换策略。beam search

对于触发器中的每个令牌位置,我们考虑公式2中的top-k令牌候选项。从左边的位置到右边的位置搜索,利用当前批次上的光束损耗对每一束光束进行定位和打分。由于计算上的限制(附录A),我们使用较小的光束尺寸,增加它们可以改善我们的结果。

我们还攻击使用字节对编码的上下文化ELMo嵌入和子单词模型。这带来了以前工作中没有处理的挑战,例如,ELMo嵌入根据上下文进行更改;我们还在附录A中描述了处理这些攻击的方法。

 

以上是关于论文阅读 | Universal Adversarial Triggers for Attacking and Analyzing NLP的主要内容,如果未能解决你的问题,请参考以下文章

文献阅读:Universal Sentence Encoder

Marlin:Preprocessing zkSNARKs with Universal and Updatable SRS学习笔记

VERI-ZEXE: Decentralized Private Computation with Universal Setup

关于universal imageloader缓存你需要知道的秘密

关于universal imageloader缓存你需要知道的秘密

使用 Angular Universal 进行服务器端渲染的防御性编程思路