论文泛读99通过词典自动构建Sememe知识库
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读99通过词典自动构建Sememe知识库相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Automatic Construction of Sememe Knowledge Bases via Dictionaries》
一、摘要
语素被定义为语言学中的最小语义单位。Sememe知识库(SKB)包含用sememe注释的单词,可以将sememe应用于自然语言处理。到目前为止,大量研究已经证明了SKB在各种任务中的独特优势和有效性。但是,大多数语言都没有SKB,并且手动构建SKB既费时又费力。为了解决这一挑战,我们提出了一种通过现有字典构建SKB的简单且全自动的方法。我们使用这种方法来构建英语SKB和法语SKB,并从内在和外在的角度进行综合评估。实验结果表明,自动构建的英语SKB甚至优于HowNet,它是使用最广泛的SKB,需要数十年的手动构建。英文和法文的SKB都可以在多个下游任务中带来明显的性能增强。可以从以下位置获得本文的所有代码和数据(受版权保护的词典除外)link。
二、结论
在本文中,我们首次提出利用字典来建立一个SKB,它可以通过一个简单、快速和全自动的过程来实现。我们尝试利用现有的词典来构建一个英语SKB和一个法语SKB,并展示它们在多个自然语言处理任务中的有效性。大量实验结果证明了基于字典的SKB构造思想的可靠性和实用性。值得一提的是,虽然EDSKB比知网提供了更好的实证结果,但知网有其独特的优势,包括更好的可解释性和多语言性。
因此,未来我们将系统地比较EDSKB和知网中的义素标注,尝试使用EDSKB对知网进行改进和扩展。此外,本文忽略了知网中义素的层次结构。我们还将探索从字典定义中提取具有层次的义素。
三、model
首先有github链接,可以试着复现一下~
知网中,“老公”的语素标注:
模型架构:
以上是关于论文泛读99通过词典自动构建Sememe知识库的主要内容,如果未能解决你的问题,请参考以下文章
论文阅读之Enhancing Transformer with Sememe Knowledge(2020)
论文泛读199将预训练的 Transformers 微调为变分自动编码器