自然语言处理之文本标注问题
Posted 自然语言处理技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理之文本标注问题相关的知识,希望对你有一定的参考价值。
点击蓝色字订阅,每天与您一起学习成长
文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。
1. 标注问题简介
标注问题氛围学习和标注两个过程(如上图所示),首先给定一个训练数据集:
在这里xi为输入观测序列 (一维向量),yi为相应的输出观测序列 (一维向量),每个输入观测序列向量的长度为n,对不同样本具有不一样的值,学习系统基于训练数据集构建一个模型,表示为条件概率分布:
这里的每个xi(i=1,2,...,n)取值为所有可能的观测,每个Yi (i = 1,2..., n)取值为所有可能的标记,一般n远小于N,标注系统按照学习得到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列,找到上式中概率最大的标记序列。
评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率,精确率和召回率。
标注问题常用的统计学方法有:和,这两个模型,之前的文章有介绍过。
标注问题在信息抽取,自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
举一个信息抽取的例子,从英文文章中抽取基本名词短语,为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的"开始"、"结束"或“其它”。标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。
2. 标注模型的评价指标
标注问题常用的评价指标是精确率 (precision ),召回率 (recall) 和F1值,它和分类问题的评价指标相同,为了简便,这里使用分类来进行说,通常标注模型在测试数据集上的预测和或正确或不正确,4中情况出现的总数分别记作:
TP:将正确类预测为正类数
FP:将正类预测为负类数
FP:将负类预测为正类数
TN:将负类预测为负类数
那么精确率定义为:P = TP / (TP + FP)
召回率定义为: R = TP / (TP + FN)
F1值是根据精确率和召回率来进行计算的表达式为:
2/ F1 = 1/ P + 1/ R
即:F1 = 2TP /( 2TP + FP + FN)
一般精确率和召回率都高时,F1值也会很高。
参考学习资料:
[1] 统计学习方法: 李航
自然语言处理技术
自然语言处理技术为您推送精品阅读
每天一个知识点,健康生活每一天
以上是关于自然语言处理之文本标注问题的主要内容,如果未能解决你的问题,请参考以下文章