论文泛读82上下文嵌入空间中用于文本分类的流形外正则化
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读82上下文嵌入空间中用于文本分类的流形外正则化相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Out-of-Manifold Regularization in Contextual Embedding Space for Text Classification》
一、摘要
对具有预训练权重(即BERT)的神经网络的最新研究主要集中在低维子空间上,在该子空间中,根据输入词(或其上下文)计算出的嵌入矢量位于其中。在这项工作中,我们提出了一种新的方法来查找和规范空间的其余部分(称为流形外),无法通过单词来访问。具体来说,我们基于从实际观察到的单词获得的两个嵌入来合成流形外嵌入,以利用它们对网络进行微调。对鉴别器进行训练,以检测输入的嵌入物是否位于歧管内部,同时,优化生成器以生成新的嵌入物,该新嵌入物可以容易地被鉴别器识别为歧管外。这两个模块以统一且端到端的方式成功协作以规范流形。我们对各种文本分类基准进行了广泛的评估,证明了我们方法的有效性,以及与旨在增强多样性的现有数据增强技术的良好兼容性。
二、结论
本文提出了OoMMix来正则化上下文嵌入空间中的乱码。我们的主要动机是根据单词计算的嵌入仅利用低维流形,而高维空间可用于模型容量。因此,oMMix发现了对目标任务有用但不能通过单词访问的嵌入。在流形鉴别器的帮助下,嵌入生成器成功地产生带有标签的流形外嵌入。我们展示了OoMMix的有效性及其与现有数据增强技术的兼容性。我们的方法有点反直觉,因为不能通过实际单词访问的嵌入对目标模型有帮助。由于来自文本(即单词)的离散特征嵌入到其上下文被编码的高维连续空间中,不能覆盖整个空间,所以对于任何目标任务也应该仔细考虑未覆盖的空间。从这个意义上来说,我们需要正则化流形外,以防止该空间中的异常行为,这对于一个大的预先训练的上下文嵌入空间尤其重要。
三、model
提出了一种新的混合方法,称为OoMMix,以规范上下文嵌入空间中的流形外文本分类。
用于流形外正则化的两个模块,即嵌入生成器和流形鉴别器(右)。
定义了一个额外的任务来识别上下文嵌入是来自生成器还是实际单词。这项任务的目的是学习实际嵌入和生成嵌入之间的区别特征,以便我们能够容易地发现不能通过实际观察到的词访问的子空间。也就是引入了一个鉴别器网络,通过上下文嵌入计算分数,分数表示他实际的概率。
生成器可以产生流形外的嵌入,通过鉴别器可以清楚地区别于实际的(流形内的)上下文嵌入。
以上是关于论文泛读82上下文嵌入空间中用于文本分类的流形外正则化的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射
论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类