文本结构化(信息抽取)技术调研与综述

Posted szxspark

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本结构化(信息抽取)技术调研与综述相关的知识,希望对你有一定的参考价值。

文本结构化技术调研

1. 引言

  • 文本数据一般由有序的段落、句子、单词文本流组成,而这种形式的文本通常是非结构化的,并不是结构化的表格数据,文本的特征也与噪声混杂在一起,很难直接提取出特征,也就没有办法将机器学习方法应用在原始的非结构化文本数据中。因此,我们需要一种文本结构化技术,能够自动化处理非结构化文本,并且在不损失重要信息的情况下,用结构化数据提取出该文本的主要信息。
  • 出于不同的目的,一般采用信息抽取与特征工程的方式实现文本结构化技术,但是这两种方法在本质上属于不同类型的方法,信息抽取一般是预定义想要抽取的信息类型,然后从原始非结构化文本中抽取一段属于该信息类型的字符串子序列,该信息也是由文本进行表示。而特征工程一般是预先设计特征规则或特征算法,最后生成一系列特征值,每个特征值都是一个浮点数而不是文本,用这些特征值组成一个特征向量,用于在数字空间中表示原始文本,该向量的每个特征值都涵盖了原始文本在某一维特征上的信息权重。

  • 由于特征工程并不是一个学术领域的研究方向,本文对特征工程技术简要介绍,主要介绍信息抽取在文本结构化处理中的技术进展。

2. 特征工程

  • 想要构建性能优良的机器学习模型,特征工程是必不可少。对于非结构化的文本数据来说,特征工程就更加重要,因为我们需要将文本流转化为算法能够理解的数字表示。采用特征工程的方式可以从非结构化文本中提取出结构化信息特征,但是这种特征往往不是文字表示,而是一个带有某种衡量信息权重的特征值。

  • 在信息抽取中,算法具有一个先验知识——待抽取的信息数量与类型,即数据维度固定。但是,文本数据的包含的信息一般不仅仅局限于预先定义的固定数量的信息槽,使用这种槽填充的信息抽取方式,虽然可以抽取到想要的信息内容,但是会丢失掉未出现信息槽中的信息内容。而特征工程则可以弥补这种不足,因为他是从文本中提取包含全局信息内容的文本特征。

3. 信息抽取

  • 信息抽取的主要功能是从文本中抽取出特定的事实信息,例如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。上述从原文本中抽取出的信息往往以结构化表格的形式表述。根据以上例子,不难发现,对于描述不同事实的文本,我们想要抽取的信息类型往往是不同的,具体的信息类型由我们预先定义的信息槽所描述。
  • 与信息抽取密切相关的一项研究是信息检索,二者都是希望从原始文本中获取我们感兴趣的文本内容,但是信息抽取与信息检索存在差异,主要表现在三个方面:
    • 功能不同。信息检索是从大量的文档集合中找到与用户需求或用户查询相关的文档列表;而信息抽取则是从文本中直接获得用户想要的事实信息。
    • 处理技术不同。信息检索通常利用统计及关键词匹配等技术,把文本看成词语的集合,也成为词袋,不需要对文本进行深入分析理解;而信息抽取需要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能实现。
    • 适用领域不同。由于采用的技术不同,信息检索通常是领域无关的,只要用户输入其感兴趣的查询词,别可以检索到与该查询次密切相关的文档列表;而信息抽取则是领域相关的,需要为特定领域设计特定特定的事实信息槽。
  • 另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取技术有时候以信息检索的输出作为输入,即完成文本过滤(剪枝)的操作;同时,信息抽取技术也可以用来提高信息检系统的性能。因此,二者的结合能够更好地服务于用户的信息处理需求。

  • 在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题。因此,信息抽取只能算是一种浅层的文本理解技术,相当于对原始文本进行简化。

4. 信息抽取研究的发展历史

  • 从自然语言文本中获取结构化知识的研究,最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究。从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解会议(MUC,Message Understanding Conference)的召开。正是MUC系列会议使信息抽取成为了自然语言处理领域的一个重要分支,并一直推动这一领域研究的发展。
  • 从1987年到1998年,MUC会议共举行了七届,他由美国国防高级研究计划委员会资助。MUC的显著特点不是该会议本身,而是发布了对信息抽取系统的评测,估计世界各国的研究人员参与其中。
  • 参考历次MUC会议,可以清楚地看到信息抽取技术发展的历程。
    • 1987年举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共只有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。
    • MUC-2于1989年举行,共有8个系统参加,处理的文本类型于MUC-1相同,不过MUC-2具备了明确的任务定义,规定了模版以及槽填充的规则,抽取任务被明确为一个模版填充的过程。
    • MUC-3于1991年举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模版有18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等等。
    • MUC-4于1992年举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但是抽取模版变得更复杂了,总共由24个槽组成。
    • MUC-5于1993年举行,共有17个系统参加。此次会议设计了两个目标场景,金融领域中的公司合资情况与微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议中,主办方尝试采用平均填充错误率作为评价指标。与之前相比,MUC-5抽取任务的复杂性更大,如公司合资场景需要填充11个种子模型,总共47个槽。MUC-5的一个重要创新是引入了嵌套的模版结构,信息抽取模版不再是扁平结构的单个模版,而是借鉴面向对象和框架知识表示的思想,由多个子模版组成。模版中每个槽的取值除了可以是文本串(如公司名)、格式化串(如将日期描述转化为某种规范形式)、有限集合中的元素(如组织类型可以分为公司、政府部门、研究机构等),还可以是指向另一个子模版的指针。
    • MUC-6于1995年举行,此次评测训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模版填充任务外,由引入了三个新的评测任务:命名实体识别、共指关系确定、模版元素填充。
    • MUC-7于1998年举行,是最后一届MUC会议。此次会议训练时的目标场景是飞机失事事件,测试时的目标场景是航天器发生事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模版关系任务,它希望确定实体之间领域无关的关系。
    • 在MUC系列会议中,衡量信息抽取的性能主要根据准确率和召回率,这两个评价指标。召回率为系统正确抽取的结果占所有可能正确结果的比例;准确率等于系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能,通常还计算二者的加权几何平均值,即F值。
    • MUC系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。MUC定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取任务上的衡量标准。从MUC定义的各项任务中,信息抽取这一研究方向逐渐细分为命名实体识别、共指消解、关系抽取、事件抽取等具体内容。
  • 近些年,信息抽取技术的研究依然很活跃。在研究方面,主要侧重利用机器学习技术增加信息抽取系统的可移植能力、探索深层语义理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取以及对时间信息的处理等等。
  • 目前,除了信息抽取技术的应用需求外,正在推动该技术进一步发展的动力主要来自于美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE)评测会议。这项评测从2000年开始启动,旨在开发自动内容抽取技术以支持对三种不同来源的语言文本自动处理,这些文本分别属于普通文本、由语言识别ASR得到的文本,由光学字符识别OCR得到的文本,研究主要内容是自动抽取新闻预料中出现的实体、关系、事件等内容。
  • 与MUC相比,ACE会议不针对某个具体的领域或场景,采用基于漏报和误报的一套评价体系,还对系统跨文档处理能力进行评测。这一新的评测会议把信息抽取技术研究引向新的高度。

5. 信息抽取技术研究现状

  • 信息抽取的具体实现方法可以分为两类:基于规则的方法和基于统计的方法。基于规则的方法有一定局限性,如人工编织规则的过程较复杂、通过机器学习得到的规则效率偏低,系统移植性差等。基于统计的方法可以一定程度上弥补基于规则的缺陷。上述两种信息抽取方法的具体实现过程,比较依赖机器学习算法,机器学习算法的技术突破为信息抽取技术的进步提供了直接支持。
  • 接下来分别从命名实体识别、关系抽取、事件抽取这三个层面,简要介绍信息抽取技术的研究进展。

5.1 命名实体识别

  • 命名实体识别是信息抽取的基础性工作,其任务是从文本中识别出人名、组织名、日期、时间、地点、特定的数字形式等内容,并进行归类,为信息抽取的后续工作提供便利。

  • 早期研究人员通常创建基于语法的语言模型,利用人工规则进行命名实体识别,这种方法有较好的准确率,但是召回率不理想。之后,研究人员考虑将统计模型引入到命名实体识别的视线上,利用机器学习的方法习得领域知识库,然后再对测试文本进行分析,这种方法取得了较好的效果,一定程度上弥补了基于规则的不足。

  • 近些年,社交媒体在互联网中呈井喷式发展,由于其内容较短,句子成分复杂和随意,导致传统的NLP方法在分析微博等社交媒体是效果不佳,因此微博文本的分析也成为了当前研究热点。美国华盛顿大学的Alan等人在对微博文本特点进行分析后,提出了基于文本分类和词性标注相结合的命名实体方法。该方法首先对短微博进行分类,尽可能降低文本特征维度,接着通过人工标注的训练集对文本进行词性标注;之后采用条件随机场CRF和交叉验证的方式对文本进行浅层语法分析,以识别出非递归短语;最后利用支持向量机SVM的机器学习方法,获取命名实体的分布情况。与传统的文本处理方法相比,该方式取得了较好的效果。

  • 在国内,命名实体识别的研究也进入了实用阶段。2006年,中科院提出了一种基于HMM模型的中文实体识别方法。该方法逐级执行HMM算法,并取得了一定的效果。目前已经成为了中科院词法分析工具ICTCLAS的核心实现算法。

  • 苏州大学鞠久朋等人又提出了一种CRF与规则结合的地理空间命名实体识别方法,该方法以丰富的知识作为触发条件,其知识包括行政区划及其层级关系、地名通用词典、黄页中的公司名、特殊句型句式等等。用CRF对满足条件的片段做地方和机构名识别,识别出来的命名实体又被解构,即解析出实体的内部结构,找出其中包含的通名、专名、饰名及扩展单元。之后进一步判断该命名实体是否表示事件发生地的地理空间信息。

5.2 关系抽取

  • 关系抽取的作用是获取文本中实体之间存在的语法或语义上的联系,关系抽取是信息抽取的关键人物。早期的关系抽取主要采用模式匹配的方法,随后又出现了基于词典驱动的方法,当前主要采用基于机器学习和基于Onthology的方法。这里主要介绍后两种方法的研究进展。基于机器学习的方法本质上还是对文本进行分类,其类别数量与关系数量相对应。

  • 斯坦福大学在2009年提出了一种基于远程监督学习的无标注文本关系抽取方法。该方法以知识库Freebase为训练数据进行远程监督学习,自动对文本进行标注。之后设计了一系列文本特征并进行组合,其算法融合了无监督和有监督的信息抽取方法。结果表明他们的方法既能从无标注文本中抽取出实体关系,也在一定程度上脱离了对领域知识的依赖。

  • 2011年,德国洪堡大学的Thomas等人,提出了一种利用整体学习方法抽取药物之间相互关系。他们的方法基于不同语言特征空间,构建多种机器学习方法对比机制,然后利用整体学习方法选出效果最好的方法。

  • 传统的有监督学习方法假定每个实例明确地映射到一个关系标签,但这与实际并不总是一只,因为有的实例同时属于多个关系标签。为此,斯坦福大学2012年将多实例多标记学习进入到关系抽取中,形成了一种新方法。他利用带有隐变量的图模型,将文本中的实体对和其标记融合在一起。这一方法一定程度上克服了远程监督学习的缺陷。

  • 近年来,随着深度学习技术在自然语言处理的各项任务上发挥了不俗的效果,也有一些研究学者,将深度学习应用于关系抽取。中科院的赵军和刘康曾在2015年提出了使用PCNN模型捕获句子级别实体之间的关系,该模型通过设计分段的max-pooling层,具体的分段方式是根据实体所在位置,将整个文本切分成了三段,对于每一段分别执行max-pooling,以捕获到两个实体在句子在不同位置的重要信息,由于知道模型对实体关系进行分类。另一方面,在中科院的周鹏也在2016年提出了利用双向LSTM与Attention机制,实现关系抽取任务,该模型希望通过Attention,是的模型能够捕获到实体之间的关系信息,并在公开评测任务上取得了很好的效果。

5.3 事件抽取

  • 在信息抽取中,事件是指在某个特定的时间和地点发生的,由一个以上角色参与、一个以上动作组成的一件事情,一般是句子级别的。事件抽取主要研究,如何从含有事件信息的非结构化文本中,抽取出用户感兴趣的事件信息,将用自然语言表达的事件以结构化的形式呈现出来。在事件抽取研究的发展过程中,ACE会议给予的影响最为深远。

  • 事件抽取大体上可以分为元事件抽取和主题事件抽取两个层次,其中元事件是基于句子级别的事件抽取,是指一次动作 的发生或状态的转变。其待抽取的信息内容包括时间、地点、人物、动作等;主题事件抽取是指围绕某一确定的主题,获取与其相关的一系列事件,通常由多类元事件组成。当前的研究主要集中于元事件抽取层面,另一方面,目前的事件抽取研究使用的语料还是以新闻、生物、医学等个别领域为主,面向开放文本的事件抽取研究较少。

  • Davud Ahn在2006年提出一种基于分治思想的事件抽取方法,他将ACE会议中关于事件抽取的任务分解为一系列分类子任务,如锚记标识、论元识别、属性赋值和事件共指,其中每个子任务由一个机器学习分类其负责实施。基于句法分析和词法分析,此方法综合运用多种分类方法,主要包括K近邻分类算法,最大熵分类起等等,以提取事件属性及特征。

  • 在ACL2011中,来自芬兰图尔库大学的Jari Bjorne介绍了他们研发的一款应用于生物医学领域的事件抽取系统,该系统能够有效对领域事件进行抽取。此系统基于SVM分类器工作,将词法、句子、词语之间的依赖关系作为选择特征,其事件抽取实现过程大致为:在句子识别出所有的实体;预测实体之间的属性关系;最后将实体集分离成为独立的事件。该系统在当年的公开评测上取得了最好的效果。

  • 近年来,也有一些研究学者将深度学习应用于事件抽取任务中。赵军和刘康在2015年提出了DMCNN模型,用于实现句子级别的事件抽取,该模型借鉴了深度学习在关系抽取中的应用,将CNN模型应用于事件抽取,同时设计了动态的多池化算法。该模型在实际评测中取得了很好的效果。2018年,该团队又在ACL2018上提出了金融领域文档级别的事件抽取系统。首先利用金融专家设计的专业知识库,结合远程监督的思想,构建了一批有监督的训练数据。之后在此基础上应用BILSTM与CRF模型,实现句子级别的事件抽取,同时又对每个句子进行二分类,识别某一句子是否包含了事件信息。对于跨句的事件论元信息,该系统设计了启发式算法用于填充事件信息槽,并取得了很好的效果。

以上是关于文本结构化(信息抽取)技术调研与综述的主要内容,如果未能解决你的问题,请参考以下文章

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

文本信息抽取与结构化详聊如何用BERT实现关系抽取

如何用 Python 和正则表达式抽取文本结构化信息?

通俗讲解关系抽取的常见方法

使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码

文本自动摘要发展历程