论文泛读75通过随机[MASK]认证的文本对抗攻击的鲁棒性

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读75通过随机[MASK]认证的文本对抗攻击的鲁棒性相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《Certified Robustness to Text Adversarial Attacks by Randomized [MASK]》

一、摘要

最近,很少开发经过认证的防御方法来可证明地保证文本分类器对对抗性同义词替换的鲁棒性。但是,所有现有的经过认证的防御方法都假定防御者已被告知防御者如何生成同义词,这是不现实的情况。在本文中,我们通过随机掩盖输入文本中一定比例的单词来提出一种可证明的鲁棒防御方法,其中不再需要上述不切实际的假设。所提出的方法不仅可以防御基于单词替换的攻击,而且还可以防御字符级别的干扰。我们可以证明超过50%的文本的分类对于在AGNEWS上5个单词和SST2数据集上2个单词的任何扰动都具有鲁棒性。

二、结论

在这项研究中,我们提出了一种基于平滑的自然语言处理模型的认证防御方法,以显著提高对不同威胁模型的鲁棒性,包括基于同义词替换的转换和字符级扰动。我们的方法的主要优势在于,我们不会将认证的健壮性建立在不切实际的假设之上,即防御方知道对手如何生成同义词。我们通过大量实验证明,我们的平滑分类器在不同数据集上的性能优于现有的经验和认证防御。

三、model

考虑顶部给出的一个原始句子,我们假设通过用“分数”替换“等级”和用“fo0tba1l”替换“足球”来创建一个对抗性的例子。以对抗性例子为输入,我们在输入上随机屏蔽三个单词(用[MASK]表示),生成一组屏蔽副本。然后使用一个基本分类器来标记每一个被屏蔽的副本(为了清楚起见,这里只显示了五个),并且对被屏蔽的文本的预测分数进行集成,以获得一个健壮的输出。

在这里插入图片描述
伪代码:
在这里插入图片描述
在这里插入图片描述

以上是关于论文泛读75通过随机[MASK]认证的文本对抗攻击的鲁棒性的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读178通过对比对抗训练改进文本分类

论文泛读178通过对比对抗训练改进文本分类

论文泛读182一种可区分的语言模型对文本分类器的攻击

论文泛读182一种可区分的语言模型对文本分类器的攻击

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型