论文泛读118使用上下文嵌入模型获得更好的静态词嵌入
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读118使用上下文嵌入模型获得更好的静态词嵌入相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Obtaining Better Static Word Embeddings Using Contextual Embedding Models》
一、摘要
上下文词嵌入的出现 - 结合来自上下文的语义和句法信息的单词表示 - 已经导致对各种 NLP 任务的巨大改进。然而,最近的上下文模型在许多用例中具有令人望而却步的高计算成本,并且通常难以解释。在这项工作中,我们证明了我们提出的蒸馏方法是基于 CBOW 的训练的简单扩展,可以显着提高 NLP 应用程序的计算效率,同时优于从头开始训练的现有静态嵌入以及从之前提出的方法。作为副作用,我们的方法还允许通过标准词汇评估任务公平比较上下文和静态嵌入。
二、结论
这项工作旨在通过利用最近更具表现力的深度上下文嵌入模型来提取静态单词嵌入,从而增强早期基于WORD2VEC的方法。平均而言,最终提取的静态嵌入在无监督和下游有监督的评估中均优于其竞争对手,因此在许多计算资源有限的应用中,可用于在推理时替代计算量大的上下文嵌入模型(或现有的静态嵌入模型)。由此产生的嵌入也可以作为一个任务无关的工具来测量上下文嵌入模型传递的词汇信息,并允许与它们的静态类似物进行公平的比较。
进一步的工作可以探索将这一提炼框架扩展到跨语言领域(Schwenk和Douze,2017;Lample和Conneau,2019)以及使用更好的汇集方法而不是简单的平均来获得上下文表示,或者联合微调来获得更强的静态单词嵌入。另一个有希望的途径是使用类似的方法从上下文嵌入模型中学习意义嵌入。
我们还想研究这些嵌入在更大的语料库上提取时的性能,以及更广泛的超参数调整。最后但同样重要的是,我们希望发布不同语言的X2STATIC模型,供进一步的公共使用。
三、model
增加了一个受CBOW启发的静态单词嵌入方法作为我们的锚定方法,以适应(上下文)教师模型的附加上下文信息。
好嘛。。。并没有看懂
以上是关于论文泛读118使用上下文嵌入模型获得更好的静态词嵌入的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射
论文泛读129Transformer 语言模型可以使用哪些上下文特征?