自然语言处理与信息抽取

Posted GATE中文自然语言处理

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理与信息抽取相关的知识,希望对你有一定的参考价值。

信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉。目前的信息索取手段主要通过搜索引擎进行,比如Google和百度。搜索引擎虽然效率很高,覆盖面大,但是由于立足点是关键词而不是语义,搜索的精度受到影响,“颗粒度”也太粗:返回来的并不是给信息需求者的答案,而是一长串可能相关的网页列表(URLs)。要找到所寻信息,还是要一篇一篇浏览返回的网页。运气不好的话,浏览了网页也找不到答案,这就需要把心中的问题,换一些词来表达,然后接着再搜索,再浏览,如此反复,庶几可得。信息获取方式上的进一步突破,要求自然语言技术的支持,从而把搜索建立在语义的基础之上,这个总方向是没有疑问的。信息抽取是一种“实用主义”的自然语言技术,尽管它仅有20年的历史,但是已经显示出在信息搜索和浏览等领域具有广阔的应用前景。

1 什么是信息抽取

信息抽取(Information Extraction, IE)是近20年兴起的文本处理领域的一个重要方向。该方向的应用前景被学者和自然语言从业人员广泛看好。工业上的开发已经有很多尝试,不同程度的实际应用已经成为现实。

信息抽取是指在预订的表格栏目里填写内容,内容从文本中自动摘录,比如,要抽取会议通知内容,预订的目标模板就可以定义如下:时间/地点/主讲人/论题;如果要抽取高层管理人员的变动事件,目标模板要求捕捉下列关键信息:公司/职位/上台人物/下台人物/下台原因/时间。

传统的自然语言理解(Natural Language Understanding)旨在模拟人的语言理解过程,解构全部语义。信息抽取有所不同,因为有了预订目标,所以一个系统不需要理解语言的所有结构和意义,而是只要针对目标寻找合适的技术和手段去填空即可。尽管有信息抽取系统不用或少用自然语言技术(如通过 meta-data 如 html tags 或者根据关键词加版面格式的线索进行信息抽取),信息抽取的主体还是基于不同程度的自然语言分析(natural language parsing, shallow or deep)。研究人员发现,语言分析越深入,信息抽取系统对于不同的抽取目标的适应性以及领域的可移植性就越强。同时,抽取对象越复杂,对于语言分析深度的依赖性也越强。

信息抽取的三大基本任务是:时间地点和专名实体的识别(named entity tagging),比如自动标注文本中的人名和机构名;实体关系的抽取(entity relationship extraction),比如雇佣关系,竞争关系;事件的抽取(event extraction),比如反恐领域的谋杀事件和人质事件,生意领域的产品发布事件和高管变动事件,等等。三大任务中,专名标识是基础,也是最成熟和已经得到广泛应用的技术。如果领域已经确定,标识的准确度可以达到90%左右,已经接近人工标注的水平。实体关系的抽取近年来有长足的发展,抽取的准确度可达80%。复杂事件由于其动态性,抽取难度最大,抽取准确率大体在50%-60%徘徊,尚不足以投入应用。但是单纯的事件,比如高管变动,恐怖事件,以及抽取一般事件中的谁做了什么及其事件的时间地点等,抽取的质量也可以达到70%到80%。事件抽取系统的真正难点在领域的移植性(domain portability),一个开发了多年的系统一旦应用领域变换,重新定义了目标模板,非动大手术不能适应。


2 信息抽取的方法

作为语言分析的一个应用领域,信息抽取与自然语言领域的基本方法类似,主要是两大类:编制抽取规则和利用机器学习,当然也可以结合两者,开发所谓混合式(hybrid)系统。

编制规则是传统的路子,对于规律性比较强的现象,规则的编写高效而准确,比如,语言中的时间表示法虽然有很多变式(比如,July 1st 2000, the First of July in 2000, 2000/07/01, 01-07-2000),但很有规律,可以很快编写出标注时间的模式规则(pattern rules),如果一味坚持机器学习,一旦某些变式较少出现,机器可能学不出来。规则方法的最大缺陷是依赖有技能的语言学家的手工劳动,遭遇所谓知识瓶颈(kowledge bottleneck)问题。具体来说,第一个问题是,由于信息抽取的目标往往是领域相关的(domain-dependent),好不容易编制出来的手工规则一旦转换了领域,常常需要推倒重来,代码的再利用率很低。第二个问题是只见树木不见森林的危险。语言学家擅长语言的分析和运用,但是对于语言中大量存在的模糊现象,在编写规则时,除非反复调试验证,规则的条件约束很难恰到好处,常常不是过松就是过严,难以达到全局最优。一叶障目是常见的毛病,甚至富有经验的专家也难避免。

尽管模式匹配规则在工业界仍是流行的抽取技术,由于上述缺陷,在研究界,信息抽取的主流是机器学习。通常的机器学习是所谓督导下的机器学习(supervised machine learning),它要求一个足够大的人工标注的文本库(比如,实体标识???),用来作为学习对象,所谓 training corpus。机器学习就是按照所设计的特征(features),培训出统计模型,使得基于该模型的信息自动抽取尽可能接近人工标注的结果。机器学习的主要优点是对于模糊现象的把握建立在数据的统计之上,从而根本上克服了不见森林的危险。另一个优点是机器学习算法的研究具有普适性,问题领域只是算法的实验基地。还有一个常常提起但有争议的长处是机器学习的领域可移植性(domain portability),因为算法可以不变,所要改变的只是学习对象,即新领域的标注文本。

机器学习方法的主要缺陷是所谓稀疏数据(sparse data)问题,即样本量不足。常见现象出现频率高,统计方法有效,而对很多不常见的现象(所谓“沉默的多数” silent majority),在有限的标注文本中不足以显现其规律性,系统往往无策。好的算法设计使用种种逐级后退模型(bakckoff models)和平滑技术(smoothing technqiues),来对付稀疏数据的难题,但巧妇难为少米之炊,稀疏数据始终是机器学习面临的挑战。更严重的问题是,督导下的机器学习同样存在知识瓶颈问题,因为它依赖大文本的人工标注:人工标注费时费力,质量控制也令人头疼。如果说手工规则依赖有技能的语言学家,人工标注不过是把高技能的工作转化成低技能的工作,其工作量实际上反而增加很多倍。这就形成了新的知识瓶颈,机器学习的领域可移植性因此大打折扣,在实践中并不比规则方法有明显的优越。笔者就见过世界著名实验室的机器学习系统,虽然理论上可以随时重新培训(re-training),在装载到系统集成者手里后多年不变,成为一个“死”的模块,所有补丁都是在系统之外用辞典和规则手工进行。集成者反映,人工标注的成本太大,质量又不能保证,而且原培训文本和新加的培训文本的协调也是没有解决的问题。权衡利弊,还不如用规则给系统打补丁来得简捷有效,实质上是把系统变成混合式。机器学习系统相对于规则系统来说还有一个缺点,对于具体的错误反馈,调试和改进针对性差。规则可以人工调整条件的宽松来改正错误,而统计模型原则上不能,一般只能通过扩大培训文本或者改进算法,从宏观上提升系统的性能,针对具体问题常常是隔靴搔痒。

为了根本上克服知识瓶颈,研究界越来越重视弱督导的机器学习(weakly supervised learning)的研究。这种研究方法把无需标注的海量自然文本作为学习对象,辅以“种子”(seed)或“样榜”(sample)目标,引导学习过程。海量文本很容易取得,计算机的存贮和运算能力也与日俱增,为弱督导机器学习提供了条件。这种方法在信息抽取的某些任务上,比如有些类别的专名实体的标识和特定的实体关系的抽取,已经取得较好的成绩,准确度比传统的督导下的机器学习只相差10个百分点。考虑到克服了知识瓶颈带来的可移植性,这样的成绩所预示的应用前景令人鼓舞。

3 信息抽取的过程

信息抽取三大基本任务抽取的都是一个个事实,每一个事实对应于文本中可标注的语言片段。比如,一篇文章可能标识出几十上百个人名机构名,提到几十个实体关系或事件。这样抽取出来的信息庞杂而零散,而且存在严重的信息冗余现象,比如克林顿曾任美国总统的事实可能被抽取成百上千次。所以,初步抽取的结果通常需要经过信息融合(information fusion),才能形成有一定概括性的情报,更好地满足用户的信息需求。

根据支点的不同,融合抽取的信息可以沿两个方向发展:以名词为支点的信息最终可以整合成实体概览(entity profile),以动词为支点的信息可以归并融合成事件概览(event profile)。

实体概览把散落在文档各处的信息集中到一起,自动生成类似个人履历和公司简介的信息单位,内容包括实体的特征,与其他实体的关系,以及实体参与的主要事件。把抽取的零散信息融合成实体概览需要篇章分析(discourse analysis)的支持,包括确认代指词的所指(coreference or anaphor resolution)以及专名及其变体的(alias coreference)串连。比如,代词he的所指是前文的Bill Clinton, 而不是 George W. Bush; 指代性名词短语 this comapny 指的是前文的 IBM 而不是 Microsoft; 文本中多次提到的专名 Bill Clinton, William J. Clinton, Mr. Clinton, Bill, 原来指的都是同一个人物。有了专名变体的串联和指代词所指的识别,附着在这些专名和指代词上的零散事实,就可以按照事实的类别融合成信息浓缩而丰富的实体概览。

事件概览从过程的角度整合相关信息,内容包括前因后果,牵涉到的人和机构,事件发生的时间地点等。值得注意的是,信息融合中事件概览比实体概览困难很多,因为事件是动态的,其语言表达是千变万化的以动词短语为主的各类语句,缺乏一个象专名以及代指词那样的语义单纯的核心。目前比较成熟可以投入工业应用的信息抽取技术包括实体概览和单个事件的事实抽取。事件概览仍处于探索阶段,不足以支持应用性开发。

下面我们通过一个纽约时报的新闻实例,演示从实体标注到关系和事件的抽取,直至信息融合的全过程:

(1) 实体标注:

[Julian Hill]<人名> , a research chemist whose accidental discovery of a tough , taffylike compound revolutionized everyday life after it proved its worth in warfare and courtship , died on [Sunday]<日期> in [Hockessin , Del]<城镇名> . He was 91.

[Hill]<人名> died at the [Cokesbury Village]<城镇名> retirement community , where he had lived in recent years with his wife of [62 years]<时段> , [Polly]<人名> .
.........
[Julian Werner Hill]<人名> was born in [St. Louis]<城镇名> , graduated from [Washington University]<学校名> there in [1924]<年代> and earned a doctorate in organic chemistry from the [Massachusetts Institute of Technology]<学校名> in [1928]<年代> .
.........

(2) 关系抽取:

职位: research chemist ← Julian Hill
年龄: 91 ← Hill
出生地: St. Louis ← Julian Werner Hill
工作单位: Du Pont Co. ← Julian Werner
毕业学校: Washington University ← Julian
毕业学校: Massachusetts Institute of Technology ← Julian
配偶: Polly ← Julian Hill
特长: an accomplished squash player and figure-skater ← Julian

(3) 事件抽取:

<死亡事件> 何人:Julian Werner Hill 何时:Sunday 何地:Hockessin , Del
<发明事件> 何人:Julian Hill 何物:nylon 何时:1930s
<毕业事件> 学校:Washington University 何时: 1924 何地:St. Louis
.........

(4) 实体概览:

引用:

【Julian Hill 概览】
姓名:Julian Werner Hill
年龄:91
性别:MALE
职务:research chemist
工作单位:DuPont Co.
教育背景:Washington University; Massachusetts Institute of Technology
配偶:Polly
儿女:Louisa Spottswood; Joseph ; Jefferson
特长:an accomplished squash player and figure-skater
相关事件: <死亡事件> ;<发明事件>;<毕业事件> ;.........



4 信息抽取的应用

信息需求通常通过两种方式得到满足:搜索和浏览。前者的典型运用是通过搜索引擎(如Google)查寻相关的内容,后者常见的方式是通过网页里面的超链浏览相关网页,比如通过雅虎分类目录或者网上百科全书Wikipedia浏览某个主题的相关信息。信息抽取技术在这两种基本的信息获取方式上都有用武之地。

先看搜索的现状。信息检索(Information Retrieval)是信息时代不可或缺的信息获取手段,目前主要由搜索引擎支持,Google 就是随着互联网检索的流行而扬名天下的。目前,几乎所有的实际使用中的大型搜索引擎都是基于关键词的匹配,关键词越密集的网页,相关度也越大。此外,Google 还增加了超链分析,其基本原理是给外部链接多的网页加权,既然这么多网页链接过来,证明了本网页的流行度和权威性,因此更值得提高它在搜索结果中的排名。Google 并不“懂”你的搜索( query)或问题, 在 Google 眼中,用户输入的不过是一串串互不相干、没有结构的关键词而已。但是由于网上有海量的带有很大 冗余度的信息,东方不亮西方亮,依据关键词匹配和超链分析得到的查询结果往往很不错。

但是,Google绝不是信息检索的终结者,缺乏语言分析和信息抽取支持的搜索引擎也有束手无策的时候。用户的信息需求最自然的表达方式是问问题,而恰恰在这个最自然的信息需求的方式上,目前的搜索引擎无所作为,因为关键词为基础的搜索只能以关键词在文本中出现的密集度把相关的文件提供给用户,这样的搜索无法根据语言结构或事件模板的匹配来回答具体的问题。具体来说,搜索引擎既不懂所问的问题,也不懂网页的内容,只适合粗线条地给用户指引相关的网页,无法回答问题。利用信息抽取技术支持问答系统(Question Answering systems),已经成为业界的常规做法,它的有效性和对于搜索引擎在问题领域的优越性已经得到公认。

前面说过,事件概览的融合难度太大,但是未经融合的单个事件的抽取是面临应用的相对成熟的技术。事件的抽取可以回答最常见到求实问题,因为单个事件的本质就是抽取"何人何时何地如何做了什么"(who did what to whom when, where and how, etc.)这样的信息。

要回答“某某是谁”这样的问题,信息需求者需要的是实体概览这样的信息。如果某某是娱乐明星,Google 的超链分析可以指引你到明星自己的家页,或者其粉丝为明星精心制作的内容丰富的网页,这当然很好。但是,如果所要查询的某某不是名人,Google 就无能为力,它只能给你一长列提到该人物的网页,无法提供信息浓缩而丰富的简介。信息抽取中自动生成的实体概览正好可以回答这样的who's who的问题。


由于文本中的实体信息及其牵涉到的相关事件的信息是相互交错的,因此信息不仅可以融合成为概览,还可以自然链接成一个隐含的信息网络,存贮在关系数据库里面。有了这样自动生成的关系数据库,当我们把其中隐含的信息网络显现出来,就可以自动造就一个个相互链接的网页,为信息用户提供情报的动态浏览服务。比如从恐怖主义的首领概览到他所领导的恐怖主义组织(从实体到实体),再顺藤摸瓜到该组织策划过的恐怖主义事件(从实体到事件),从人质事件进一步追踪到相关的谋杀(撕票)事件(从事件到事件),再从谋杀事件到对受害人的实体概览的关注。这种追踪跑兔式(chase-the-rabbit)的动态信息浏览对于分析员的情报分析工作很有帮助,可以为紧急事态出现以后的应对策略及其决策过程提供情报依据。

以上是关于自然语言处理与信息抽取的主要内容,如果未能解决你的问题,请参考以下文章

自然语言处理NLP之文本摘要机器翻译OCR信息检索信息抽取校对纠错

文本信息抽取与结构化详聊如何用BERT实现关系抽取

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

自然语言处理(NLP)基于BiLSTM的关系抽取

基于Web开发模式的信息抽取