知识图谱抽取总结

Posted 2021-09-07 GuangJun

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了知识图谱抽取总结相关的知识，希望对你有一定的参考价值。

非结构化数据

实体抽取

定义 : 实体抽取又称命名实体识别，其目的是从文本中抽取实体信息元素，包括人名、组织机构名、地理位置、时间、日期、字符值和金额值等
实体抽取方法
基于规则的方法
早期方法主要采用人工编写规则的方式进行实体抽取。首先构建大量的实体抽取规则，一般由具有一定领域知识的专家手工构建。然后将规则与文本字符串进行匹配，识别命名实体。
适用于小数据集, 有很高的准确率和召回率, 数据集变大时: 规则集构建复杂, 移植性差
基于统计模型的方法：
利用完全标注或部分标注的语料进行模型训练，
主要采用的模型包括隐马尔可夫模型（ HMM）、条件马尔可夫模型（ CMM）、最大熵模型（ MEM）以及条件随机场模型（CRF）类方法
将命名实体识别作为序列标注问题. 序列标注问题中当前标签的预测不仅与当前的输入特征相关，还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的. 从自然文本中识别实体是一个典型的序列标注问题。
主要涉及 : 训练语料标注, 特征定义, 模型训练三个方面
基于深度学习的方法：
神经网络结构在实体识别中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 通过CRF模型输出对每个词的标注结果

关系抽取

定义 : 面向非结构化文本数据，关系抽取是从文本中抽取出两个或者多个实体之间的语义关系, 与实体抽取密切相关.
关系抽取方法
基于模板抽取 : 早期方法, 领域专家手工编写模板, 适用于小规模, 限定领域的实体关系抽取
基于监督学习抽取 : 将关系抽取转化为分类问题,
步骤 : 预定义关系的类型；人工标注数据；设计关系识别所需的特征，一般根据实体所在句子的上下文计算获得；选择分类模型（如支持向量机、神经网络和朴素贝叶斯等），基于标注数据训练模型；对训练的模型进行评估。
基于深度学习的监督学习抽取 :
流水线方法 : 将识别实体和关系抽取作为两个分离的过程进行处理，两者不会相互影响；关系抽取在实体抽取结果的基础上进行，因此关系抽取的结果也依赖于实体抽取的结果。
联合抽取方法 : 将实体抽取和关系抽取相结合，在统一的模型中共同优化；联合抽取方法可以避免流水线方法存在的错误积累问题
需要大量的训练语料, 模型的优化更需要训练数据.
基于弱监督学习抽取 :
弱监督学习方法可以只利用少量的标注数据进行模型学习\\
主要方法 : 远程监督方法 & Bootstrapping
远程监督 :
将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力
基本假设 : 若两个实体在知识图谱中存在某种关系, 那么包含两个实体的句子均表达了这种关系。
远程监督关系抽取方法的一般步骤为：
从知识图谱中抽取存在目标关系的实体对；
从非结构化文本中抽取含有实体对的句子作为训练样例；
训练监督学习模型进行关系抽取
Bootstrapping :
方法 :
利用少量的实例作为初始种子集合
在种子集合上学习获得关系抽取的模板，
再利用模板抽取更多的实, 加入种子集合中, 通过不断地迭代，
Bootstrapping方法可以从文本中抽取关系的大量实例。

事件抽取

概念：事件通常具有时间、地点、参与者等属性。事件的发生可能是因为一个动作的产生或者系统状态的改变。事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息，并以结构化的形式呈现出来，例如事件发生的时间、地点、发生原因、参与者等。
事件抽取任务包含的子任务有：
识别事件触发词及事件类型；
抽取事件元素的同时判断其角色；
抽出描述事件的词组或句子；
事件属性标注；
事件共指消解。
抽取方法
流水线：流水线方法将事件抽取任务分解为一系列基于分类的子任务，包括事件识别、元素抽取、属性分类和可报告性判别；每一个子任务由一个机器学习分类器负责实施。一个基本的事件抽取流水线需要的分类器包括：
事件触发词分类器。判断词汇是否为事件触发词，并基于触发词信息对事件类别进行分类。
元素分类器。判断词组是否为事件的元素。
元素角色分类器。判定事件元素的角色类别。
属性分类器。判定事件的属性。
可报告性分类器。判定是否存在值得报告的事件实例。
联合抽取方法：
事件的所有相关信息会通过一个模型同时抽取出来。
方法：
联合推断 : 首先建立事件抽取子任务的模型，然后将各个模型的目标函数进行组合，形成联合推断的目标函数；通过对联合目标函数进行优化，获得事件抽取各个子任务的结果
联合建模 : 分析子任务间的关系后，基于概率图模型进行联合建模，获得事件抽取的总体结果。

以上是关于知识图谱抽取总结的主要内容，如果未能解决你的问题，请参考以下文章