知识图谱抽取总结

Posted GuangJun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识图谱抽取总结相关的知识,希望对你有一定的参考价值。

非结构化数据

实体抽取

  1. 定义 : 实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
  2. 实体抽取方法

    • 基于规则的方法

      • 早期方法主要采用人工编写规则的方式进行实体抽取。 首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后将规则与文本字符串进行匹配, 识别命名实体。
      • 适用于小数据集, 有很高的准确率和召回率, 数据集变大时: 规则集构建复杂, 移植性差
    • 基于统计模型的方法:

      • 利用完全标注或部分标注的语料进行模型训练,

        • 主要采用的模型包括 隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF)类方法
        • 将命名实体识别作为序列标注问题. 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的. 从自然文本中识别实体是一个典型的序列标注问题。
        • 主要涉及 : 训练语料标注, 特征定义, 模型训练三个方面
    • 基于深度学习的方法:

      • 神经网络结构在实体识别中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 通过CRF模型输出对每个词的标注结果

关系抽取

  1. 定义 : 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系, 与实体抽取密切相关.
  2. 关系抽取方法

    1. 基于模板抽取 : 早期方法, 领域专家手工编写模板, 适用于小规模, 限定领域的实体关系抽取
    2. 基于监督学习抽取 : 将关系抽取转化为分类问题,

      • 步骤 : 预定义关系的类型;人工标注数据;设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得;选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
      • 基于深度学习的监督学习抽取 :

        1. 流水线方法 : 将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
        2. 联合抽取方法 : 将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题
      • 需要大量的训练语料, 模型的优化更需要训练数据.
    3. 基于弱监督学习抽取 :

      • 弱监督学习方法可以只利用少量的标注数据进行模型学习\\
      • 主要方法 : 远程监督方法 & Bootstrapping

        1. 远程监督 :

          • 将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力
          • 基本假设 : 若两个实体在知识图谱中存在某种关系, 那么包含两个实体的句子均表达了这种关系。
          • 远程监督关系抽取方法的一般步骤为:

            1. 从知识图谱中抽取存在目标关系的实体对;
            2. 从非结构化文本中抽取含有实体对的句子作为训练样例;
            3. 训练监督学习模型进行关系抽取
        2. Bootstrapping :

          • 方法 :

            1. 利用少量的实例作为初始种子集合
            2. 在种子集合上学习获得关系抽取的模板,
            3. 再利用模板抽取更多的实, 加入种子集合中, 通过不断地迭代,
          • Bootstrapping方法可以从文本中抽取关系的大量实例。

事件抽取

  1. 概念:事件通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
  2. 事件抽取任务包含的子任务有:

    • 识别事件触发词及事件类型;
    • 抽取事件元素的同时判断其角色;
    • 抽出描述事件的词组或句子;
    • 事件属性标注;
    • 事件共指消解。
  3. 抽取方法

    1. 流水线:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:

      • 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触发词信息对事件类别进行分类。
      • 元素分类器。 判断词组是否为事件的元素。
      • 元素角色分类器。 判定事件元素的角色类别。
      • 属性分类器。 判定事件的属性。
      • 可报告性分类器。 判定是否存在值得报告的事件实例。
    2. 联合抽取方法:

      • 事件的所有相关信息会通过一个模型同时抽取出来。
      • 方法:

        • 联合推断 : 首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果
        • 联合建模 : 分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。

以上是关于知识图谱抽取总结的主要内容,如果未能解决你的问题,请参考以下文章

电网知识图谱项目总结从局部文档RDF到全局知识图谱构建

电网知识图谱项目总结从局部文档RDF到全局知识图谱构建

电网知识图谱项目总结从局部文档RDF到全局知识图谱构建

知识图谱中“三元组”抽取——Python中模型总结实战(基于TensorFlow2.5)

知识图谱知识图谱入门详细介绍

知识图谱关系抽取