论文泛读144探索语境中词义的表征:以同义词和同义词为例
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读144探索语境中词义的表征:以同义词和同义词为例相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Exploring the Representation of Word Meanings in Context: A Case Study on Homonymy and Synonymy》
一、摘要
本文介绍了语境中词义表征的多语种研究。我们评估静态模型和语境化模型充分表现不同词汇语义关系的能力,如同形异义和同义关系。为此,我们创建了一个新的多语言数据集,允许我们对几个因素进行受控评估,如周围环境的影响或单词之间的重叠,传达相同或不同的含义。对四种情景的系统评估表明,基于变形金刚的最佳单语模型能够充分消除上下文中同音异义词的歧义。然而,由于这些模型严重依赖于上下文,当出现在相似的句子中时,它们不能用不同的意义来表示单词。实验以加利西亚语、葡萄牙语、英语和西班牙语进行,数据集(有超过3000个评估项目)和新模型都是随着这项研究免费发布的。
二、结论
本文对语境中的词义表征进行了系统研究。除了静态的单词嵌入,我们还评估了基于变形金刚架构的最先进的单语和多语言模型的能力,以识别明确的同形异义和同义情况。为了做到这一点,我们提出了一个四种语言的新数据集,允许对向量表示进行受控评估。
我们的研究结果表明,在大多数情况下,最好的语境化模型能够充分识别在不同语境中表达不同意义的同音异义词。然而,由于他们强烈地依赖于周围的环境,他们在相似的句子中曲解了具有不同意思的单词。
在进一步的工作中,我们计划用不同地道程度的多词表达来扩展我们的数据集,并包括不太透明但仍然明确的同形异义上下文。最后,我们还计划系统地探索多语言模型如何在跨语言场景中表示同形异义和同义关系。
三、model
本文使用新的数据集:
数据集的特征。前三列分别显示同音异义词(Hom)、义和句子(Sent)的数量。括号中的义项是带有不同后缀的同音字对的数量)。中间的列以三种格式显示评估数据的大小:三元组、成对和类似WiC的成对,然后是科恩κ协议和它们的微平均值。同音异义词和词义的总数是特定语言的总数,而不考虑某些词义出现在一种以上语言中的事实。
方法:static embeddings and CWEs based on Transformers
以上是关于论文泛读144探索语境中词义的表征:以同义词和同义词为例的主要内容,如果未能解决你的问题,请参考以下文章