知识图谱抽取总结
Posted GuangJun
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识图谱抽取总结相关的知识,希望对你有一定的参考价值。
非结构化数据
实体抽取
- 定义 : 实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
实体抽取方法
基于规则的方法
- 早期方法主要采用人工编写规则的方式进行实体抽取。 首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后将规则与文本字符串进行匹配, 识别命名实体。
- 适用于小数据集, 有很高的准确率和召回率, 数据集变大时: 规则集构建复杂, 移植性差
基于统计模型的方法:
利用完全标注或部分标注的语料进行模型训练,
- 主要采用的模型包括 隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF)类方法
- 将命名实体识别作为序列标注问题. 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的. 从自然文本中识别实体是一个典型的序列标注问题。
- 主要涉及 : 训练语料标注, 特征定义, 模型训练三个方面
基于深度学习的方法:
- 神经网络结构在实体识别中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 通过CRF模型输出对每个词的标注结果
关系抽取
- 定义 : 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系, 与实体抽取密切相关.
关系抽取方法
- 基于模板抽取 : 早期方法, 领域专家手工编写模板, 适用于小规模, 限定领域的实体关系抽取
基于监督学习抽取 : 将关系抽取转化为分类问题,
- 步骤 : 预定义关系的类型;人工标注数据;设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得;选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
基于深度学习的监督学习抽取 :
- 流水线方法 : 将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
- 联合抽取方法 : 将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题
- 需要大量的训练语料, 模型的优化更需要训练数据.
基于弱监督学习抽取 :
- 弱监督学习方法可以只利用少量的标注数据进行模型学习\\
主要方法 : 远程监督方法 & Bootstrapping
远程监督 :
- 将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力
- 基本假设 : 若两个实体在知识图谱中存在某种关系, 那么包含两个实体的句子均表达了这种关系。
远程监督关系抽取方法的一般步骤为:
- 从知识图谱中抽取存在目标关系的实体对;
- 从非结构化文本中抽取含有实体对的句子作为训练样例;
- 训练监督学习模型进行关系抽取
Bootstrapping :
方法 :
- 利用少量的实例作为初始种子集合
- 在种子集合上学习获得关系抽取的模板,
- 再利用模板抽取更多的实, 加入种子集合中, 通过不断地迭代,
- Bootstrapping方法可以从文本中抽取关系的大量实例。
事件抽取
- 概念:事件通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
事件抽取任务包含的子任务有:
- 识别事件触发词及事件类型;
- 抽取事件元素的同时判断其角色;
- 抽出描述事件的词组或句子;
- 事件属性标注;
- 事件共指消解。
抽取方法
流水线:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:
- 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触发词信息对事件类别进行分类。
- 元素分类器。 判断词组是否为事件的元素。
- 元素角色分类器。 判定事件元素的角色类别。
- 属性分类器。 判定事件的属性。
- 可报告性分类器。 判定是否存在值得报告的事件实例。
联合抽取方法:
- 事件的所有相关信息会通过一个模型同时抽取出来。
方法:
- 联合推断 : 首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果
- 联合建模 : 分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。
以上是关于知识图谱抽取总结的主要内容,如果未能解决你的问题,请参考以下文章