NLP中的消歧方法
Posted 奔跑的产品汪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP中的消歧方法相关的知识,希望对你有一定的参考价值。
之前在深度学习一文中,提到了监督学习、无监督学习、半监督学习的概念。深度学习是在图像识别与语音识别中都会运用到的一个技术模块。上篇文章中主要说了深度学习是图像识别领域的列子,这篇文章我们来讲,在自然语言处理中语义消歧中的运用。
简单的理解图像识别中的有监督学习、无监督学习,就是在庞大的图像数据库中对于图像进行标签化处理、训练,那么语音识别中的监督学习、无监督学习就是在人类现有的语言库(字典库、词典库、)中进行识别与理解,重点在于理解这一点。
词义消歧的研究通常需要语义词典的支持,因为词典描述了词语的义项区分。英语的词义消歧研究中使用的词典主要是ordNet,而中文使用的词典有HowNet(知网),以及北京大学的“现代汉语语义词典”等。
除词典外,词义标注语料库标注了词的不同义项在真实文本中的使用状况,为开展有监督的词义消歧研究提供了数据支持。常见的英文词义标注语料库包括Semcor(普林斯顿大学标注)、DSO(新加坡国立大学标注)以及用于Senseval 评测的语料库等。在中文方面,哈尔滨工业大学和北京大学分别基于HowNet(知网)和北大“现代汉语语义词典”标注了词义消歧语料库。
词义消歧的研究是自然语言处理的一项基础关键,根据所使用的资源类型不同,可以将词义消歧方法分为以下三类
一、基于词典的词义消歧
给定某个待消解词及其上下文,该工作的思想是计算语音词典中各个词义的定义与上下文之前的覆盖度,选择覆盖度最大的作为待消解词在气上下文中的正确词义。
举个栗子:一位年轻的女子说:我从初中就开始早练。
“咬死了猎人的狗”
没有上下文的语句,词句。但由于词典中词义的定义通常比较简洁,这使得与待消解词的上下文得到的覆盖度为0,造成消歧性能不高。
二、有监督的消歧方法使用词义标注语料来建立消歧模型,研究的重点在于特征的表示。
常见的上下文特征可以归纳为三个类型:
a、词汇特征通常指待消解词上下窗口内出现的词及其词性;“这是一条什么狗,它是一条咬死了猎人的狗”猎人被狗咬死了。
句法特征利用待消解词在上下文中的句法关系特征,如动-宾关系、是否带主/宾语、主/宾语组块类型、主/宾语中心词等;“这条狼很凶猛,它咬死了猎人的狗”狗被狼咬死了。
三、无监督和半监督词义消歧
虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。为了克服对大规模语料的需要,半监督或无监督方法仅需要少量或不需要人工标注语料。
一般说来,虽然半监督或无监督方法不需要大量的人工标注数据,但依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。另一方面,待消解词的覆盖度可能会受影响。
以上是关于NLP中的消歧方法的主要内容,如果未能解决你的问题,请参考以下文章
自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧