MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities
Posted Peppa _Peppa
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities相关的知识,希望对你有一定的参考价值。
这里写自定义目录标题
· MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities
-面向跨模式普遍表示的多模态事件知识图谱
·Abstract
·提出:大规模多模态事件知识图谱——MMEKG
MMEKG:通过事件将不同的知识形式统一起来,相互补充、消除歧义。
①该模型包括:99万个概念事件,644个关系类型
②超过8.63亿个实例事件通过9.34亿个关系连接起来,在文本和/或图像中提供了丰富的上下文信息。
·开发:
一个高效的文本/可视化知识提取系统的管道(概念级+实体级),induction strategy(归纳策略)创建百万规模的概念事件和组织所有事件和关系的模式
·Introduction
·(描述概念及存在的问题)
知识图谱通常用有向图进行表示,节点表示实体,边表示两节点之间的关系,即两实体之间的关系。这种表示方法虽然简单高效,但是表达能力有限。 (Extracting event and their relations from texts: A survey on recent research progress and challenges.)如何表示更复杂的知识,如事件、情况或不同的模式,成为更广泛应用的关键问题。
·(简单介绍本文提出的模型,并给出一个简单的例子进行说明)
MMEKG将事件作为其构建的基本模块,每个事件包括一个概念(concept)、几个参数(argument)和相应的角色定义(role)。事件之间也会存在一定的关系,如因果关系、时间关系、子事件关系等,因此,在知识图谱中,一个事件可以当作另一个事件的参数(argument)。
例子:
这两个事件利用互补的参数搭建文本与图片之间的桥梁,还表明了潜在的一种常识,睡觉的时候会裹上一个围巾。
·(分点说明本文的创新点)
与xxx进行比较,创新点在于①创建一个大规模本体包含990000个概念事件和644个关系类型,涵盖了现实世界发生的大多数类型。②第一个通过细粒度事件、参数对齐的多模态知识图谱。③概念和实体事件的集合。从实体事件扩展到本体,通过上下文实例为综合推理提供概念级常识知识。
(构建MMEKG具体步骤)
①构建一个模式(schema)并获取概念事件。将FrameNet与WordNet进行组合去初始化一个高质量的事件本体,通过实体事件的本体归纳对事件本体进行自动扩展。同时,为了保证模型的灵活性与可移植性,在简单事件模型(SEM)(Design and use of the Simple Event Model (SEM) )的基础上进行扩展,以在**资源描述框架(RDF)(The Resource Description Framework (RDF) and its Vocabulary Description Language RDFS)**中定义我们的本体。
②为了从文本或图像中提取实例事件,提出知识提取系统,以支持在实际场景下快速和大规模的提取。知识提取系统包括对事件与事件关系的提取,以及两者之间的对齐。此外,该系统可以将任何输入文本/图像解析为事件图,并从MMEKG中无缝检索多模态知识。
为了涵盖各种事件,我们将提取系统应用于多个来源,包括C4 News2、Wikipedia3、Bookcorpus4和CC3M&12M 。这些数据源产生8.63亿个实例事件和9.34亿个关系。
·Overview of MMEKG
MMEKG提出四种类型的节点和四种类型的关系。节点包括:概念事件、实例事件、实体和非实体参数。概念事件:与模式无关,提供实例事件的高水平摘要。实体:事件参数。
关系包括:①概念事件之间的关系。subclassOf ,子类,表示层次关系。②实例事件之间的关系。可以进一步分类为更细粒度的子类型,如temporal(时间)、causal(因果)、co-occur(共现)。③概念事件与实例事件之间的关系。instanceOf,集成概念和实例事件。④角色关系。起连接事件的作用。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d1R4EqHc-1669637907857)(D:/ATypora%E6%96%87%E4%BB%B6/image-20221127185814470.png)]
M M E K G = ( h , r , t ) ∣ h , t ∈ E , r ∈ R . E = E c p t ⋃ E i n s ⋃ E e n t ⋃ E n e n t , R = R i n s − i n s ⋃ R c p t − c p t ⋃ R c p t − i n s ⋃ R r o l e MMEKG = (h, r, t)|h, t ∈ E, r ∈ R. E = Ecpt⋃ Eins⋃ Eent⋃ Enent, R =Rins−ins⋃ Rcpt−cpt⋃ Rcpt−ins⋃ Rrole MMEKG=(h,r,t)∣h,t∈E,r∈R.E=Ecpt⋃Eins⋃Eent⋃Enent,R=Rins−ins⋃Rcpt−cpt⋃Rcpt−ins⋃Rrole
*w(h,r,t)表示MMEKG中三元组(h,r,t)*的关系权重,即 真的置信度分数。
·跨模态事件本体(ontology)
跨模态事件本体规定了知识类型的范围,并且提供推理能力(从实例到概念的归纳会带来新的知识,即从特殊到一般的知识;从概念到实例的演绎,没有不确定性,能够提供额外的信息)
·Schema(模式)
单事件表示(SEM和FrameNet的扩展):①每个角色有一个关联的 ekg :[role] 被用来连接事件e(实例事件),a属性(实体+非实体)②使用虚拟节点连接实例事件与边ekg :[contextOf] ,表示该事件的来源。ekg :trigger,ekg :modality,ekg : content分别表示触发词、模态、句子/图像索引。
事件与事件之间的关系:①rdf:instanceOf 实例与概念事件之间的关系 ②rdf:subclassOf 概念事件的层次结构 ③设置连接节点(linking node)*[EventRel_id] *表示实例事件之间的关系,如因果、时间等。(这样表示的好处:①可扩展性,可以表示一对多的情况;②信息统计和补充剂的集成。在不确定的推理事件中添加频率和置信度分数)
·Ontology Initialization(本体初始化)
通过合并WordNet 、FrameNet和 imSitu(数据集)初始化本体。具体地,将WordNet(分层信息)中每个动词和形容词的同义词集映射到FrameNet中的框架。Frame为高级概念事件,对齐的同义词集为细粒度的概念事件。映射:首先考虑结构映射 (Leseva and Stoyanova, 2019) 的结果以及 Sentence-BERT 给出同义词集和框架定义之间的余弦相似度分数。
然后,我们通过手动将 WordNet 同义词集与带注释的帧对齐作为我们的视觉本体来扩展来自 imSitu 数据集的本体。
·Ontology Induction(本体归纳)
分类法归纳:找到更细粒度的概念事件。
给定一个初始化的概念事件o和它的一个特定角色r,首先选择由角色r与一个分类为o的实例事件连接的所有参数。然后通过推导每个短语的标题启发式地聚类这些参数。我们进一步用该词头词命名每个聚类,并通过联合考虑(1)聚类中的每个事件-角色-参数三元组的置信度得分,以及(2)每个聚类名称提供的信息量,计算每个聚类的显著性得分。最后,选择K个显著性得分最高的聚类,通过将角色r和这些名称及其触发词结合起来创建新的概念事件。相应的实例事件也归入这些新派生的概念事件。
**关系归纳法:**在实例事件之间的关系上,发现概念事件之间的尝试关系。
该得分考虑(1)子实例事件之间关系的置信度得分。(2) ot w.r.t r的共性。我们在MMEKG中添加显著性评分超过阈值的(o~h,r, o~t)。例如,在图2中,由于三重(talk.v。01, coocur, sit.v.01)超过阈值时,我们将这种关系从实例级扩展到概念级。
·Knowledge Extraction System(知识提取系统)
1)遵循已有的知识提取系统的总体框架(GAIA: A Fine-grained Multimedia Knowledge Extraction System )(RESIN: A Dockerized Schema-Guided Cross-document Cross-lingual Cross-media Information Extraction and Event Tracking System),在此基础上,拓展和优化事件相关组件。
2)在每个组件上使用通用的基准测试,保证性能。
3)将系统中的所有交叉编码器替换为双编码器,并在事件关系提取过程中进行多任务训练的联合模型,以提高效率。
·文本知识抽取
①对语料库进行预处理。首先,使用基于BERT-base Next Sentence Prediction (NSP) model和启发式规则(每个文档5-10句)确定文档边界。然后,我们通过Stanza (Qi et al., 2020)获得POS-tag和依赖树(dependency tree)。动词和形容词为是触发事件的候选词。
②使用Biencoder model(Moving Down the Long Tail of Word Sense Disambiguation with Gloss Informed Bi-encoders)对候选触发词最可能的同义词集进行预测。每个同义词集都引用一个概念事件。这样就可以把文本和MMEKG联系起来。将事件检测转换为无监督的词义消歧(WSD)任务,以避免昂贵的训练数据。
③事件参数提取方法PAIE(Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction)为提取任务提示plm,并为每个概念事件设计一个角色交互提示模板。所有角色嵌入都用作查询向量,以识别参数跨度作为答案。用FrameNet提供的注释训练模型。
·视觉知识抽取
设计了一个两级抽取网络。两种模型都使用最大的视觉态势识别数据集进行训练。(1)对于事件检测,利用预训练的ViT来获取修补后的图像特征。另一层transformer将图像分类到视觉概念事件中。(2)继Pratt et al.(2020)之后,我们使用预训练的ResNet-50作为Faster R-CNN 的主要部分,并使用条件LSTM解码器聚合角色信息,从图像中提取参数。
·事件关系抽取
temporal, causal, co-occur, and semantic relations-时间关系、因果关系、共指关系和语义关系。共指包括文本与图像的对齐
①时间、因果关系。建立文档级别的图进行推断关系,联合预测时间和因果关系作为多标签多任务分类,并基于Causal-TimeBank用来训练模型。总共有六种关系类型:Before,After, During, Includes, Included和因果关系。
②共指关系。对于文本共存,如果触发词有conj关系,通过依赖解析来识别它。对于跨模态共发生,分别从成对的图片标题中提取事件,并假设它们共发生。
③语义关系。当事件A的参数是动名词短语B时,B也可以看作是A的子事件的触发词。
以上是关于MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities的主要内容,如果未能解决你的问题,请参考以下文章
CIKM2020多模态知识图谱推荐系统,Multi-modal KG for RS
图神经网络多模态检索Multi-Modal Retrieval using Graph Neural Networks
论文笔记之:Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model
谣言检测论文精读——11.SAFE: Similarity-Aware Multi-Modal Fake News Detection