LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

Posted Alex Hub

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结相关的知识,希望对你有一定的参考价值。

这篇paper展示了一种从预训练的语言模型(例:BERT,GPT-2/3)通过无监督训练构建知识图谱(KGs)的idea,想法还是很新奇的,搭建了LM(Language Model)和KG(Knowledge Graph)之间的桥梁。

知识图谱的基本单位,是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含:知识储存、信息抽取、知识融合、知识计算,四个阶段。

  1. 知识存储: 针对构建知识图谱设计底层的存储方式,完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
  2. 信息抽取: 从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
  3. 知识融合: 在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
  4. 知识计算: 对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

可以发现,传统KG的建立需要大量的人工参与,由人工手动添加规则和知识。现在比较通用的KGs(Wikidata、NELL)都是以监督或半监督的方式构建的,还是需要人类创建知识。

随着NLP的迅速发展,BERT,GPT-2/3等大型预训练LM从大规模语料库中自动获取知识,蕴含的语言知识能够很好地改进下游的NLP任务,这篇paper就提出了一种以无监督的方法将LM中包含的知识生成KGs的方法。

paper中设计一种名叫MAMA的无监督方法,通过在文本语料库上对预训练过的LM进行一次前向传播来生成KG的基本单位,也就是实体-关系-实体的三元组。MAMA有两个阶段:Match和Map,Match阶段通过将文本语料库中的facts与预训练LM中的知识进行匹配,生成一组candidate facts,Map阶段通过将candidate facts映射到fixed KG schema和open schema生成open KG。


Match

Match阶段的目标就是将预训练的LM中存储的知识与语料库中的facts进行匹配,每个facts都被表示为一个triplet (head, relation, tail)。
在这里插入图片描述

Match设计了一个beam search用来匹配candidate facts,对于一个句子中的每一个(h, t),根据attention matrix保持对k-best的匹配。
在这里插入图片描述

Map

Map阶段将Match阶段匹配的candidate facts生成一个open KG,其中包括两个部分:a) 映射在fixed schema中的candidate facts,b) open schema中未映射的candidate facts。


参考文献

  1. 知乎:ICLR2020-LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS
  2. 知乎:知识图谱构建流程详解

以上是关于LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结的主要内容,如果未能解决你的问题,请参考以下文章

文献阅读:Language Models are Unsupervised Multitask Learners

文献阅读:Language Models are Few-Shot Learners

文献阅读:Finetuned Language Models Are Zero-Shot Learners

Questions that are independent of programming language. These questions are typically more abstract

annotations are not supported at this language level解决办法

Diamond types are not supported at language level ‘5‘