论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and Isometric Conditions》

一、摘要

通常,线性正交变换映射是通过对齐静态类型级嵌入来构建共享语义空间来学习的。鉴于上下文嵌入包含更丰富的语义特征的分析,我们通过利用并行语料库研究了上下文感知和无字典映射方法。我们说明,我们的上下文嵌入空间映射通过提供更高程度的同构性,在双语词典归纳 (BDI) 任务上显着优于以前的多语言词嵌入方法。为了提高映射的质量,我们还探索了从类型级表示中分离出来的感知级嵌入,它可以以更精细的分辨率对齐空间并产生更精确的映射。而且,我们揭示了上下文嵌入空间受到其自然属性的影响——各向异性和不等轴测。为了缓解这两个问题,我们引入了迭代归一化算法作为必要的预处理步骤。我们的发现揭示了标准化上下文嵌入空间中各向同性、等距和同构之间的紧密关系。

二、结论

在这篇文章中,我们的上下文嵌入展现了它们构建高质量映射的强大能力,并且还说明了与以前的映射方法相比,跨语言空间的同构程度更高。语境嵌入的成功为我们从深度预训练语言模型中提取平行信息,探索跨语言空间提供了新的视角。有趣的是,上下文意义级嵌入通过将多意义单词嵌入向量拆分成多个意义向量,改善了表征偏差问题,从而在空间映射中显示出优势。我们还探索了跨语言嵌入空间的各向同性和等距之间的关系,并利用迭代归一化来保持跨语言等距的一致性,这再次提高了同构的当前程度。

我们未来的工作是将我们的上下文嵌入映射方法应用于下游跨语言转换任务,具有更广泛的高质量对齐的翻译对嵌入。

三、model

二维PCA:
在这里插入图片描述

  • 1)并行语料库为翻译对提供了比字典更全面的范围;
  • 2)翻译标记对的嵌入包含相同的上下文信息;
  • 3)标记在每个平行句子中对齐,嵌入也已经对齐,因此可以通过对齐嵌入来创建映射,并跳过字典中单词对齐的步骤。

以上是关于论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读114通过数据增强和基本原理训练的跨语言句子选择

论文泛读96异构图神经网络的跨语言文本分类

论文泛读147ELMo 上下文嵌入的跨语言对齐

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读188对抗自然语言词替换的鲁棒性