自然语言处理之文本标注问题

Posted 自然语言处理技术

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理之文本标注问题相关的知识,希望对你有一定的参考价值。

点击蓝色字订阅,每天与您一起学习成长

文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。

1. 标注问题简介

自然语言处理之文本标注问题


标注问题氛围学习和标注两个过程(如上图所示),首先给定一个训练数据集:

自然语言处理之文本标注问题

在这里xi为输入观测序列 (一维向量),yi为相应的输出观测序列 (一维向量),每个输入观测序列向量的长度为n,对不同样本具有不一样的值,学习系统基于训练数据集构建一个模型,表示为条件概率分布:

自然语言处理之文本标注问题

这里的每个xi(i=1,2,...,n)取值为所有可能的观测,每个Yi (i = 1,2..., n)取值为所有可能的标记,一般n远小于N,标注系统按照学习得到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列,找到上式中概率最大的标记序列。


评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率,精确率和召回率。


标注问题常用的统计学方法有:和,这两个模型,之前的文章有介绍过。


标注问题在信息抽取,自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。


举一个信息抽取的例子,从英文文章中抽取基本名词短语,为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的"开始"、"结束"或“其它”。标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。


2. 标注模型的评价指标

标注问题常用的评价指标是精确率 (precision ),召回率 (recall) 和F1值,它和分类问题的评价指标相同,为了简便,这里使用分类来进行说,通常标注模型在测试数据集上的预测和或正确或不正确,4中情况出现的总数分别记作:

TP:将正确类预测为正类数

FP:将正类预测为负类数

FP:将负类预测为正类数

TN:将负类预测为负类数

那么精确率定义为:P = TP / (TP + FP)

召回率定义为: R = TP / (TP + FN)

F1值是根据精确率和召回率来进行计算的表达式为:

2/ F1 = 1/ P + 1/ R

即:F1 = 2TP /( 2TP + FP + FN)

一般精确率和召回率都高时,F1值也会很高。


参考学习资料:

[1] 统计学习方法: 李航


自然语言处理技术

自然语言处理技术为您推送精品阅读

每天一个知识点,健康生活每一天




以上是关于自然语言处理之文本标注问题的主要内容,如果未能解决你的问题,请参考以下文章

HarmonyOS之AI能力·词性标注

白话自然语言处理(2)——文本分类

《自然语言处理实战入门》 ---- NLP方向:面试笔试题集

项目应用自然语言处理-分词词频统计词性标注格式化输出

人工智能岗位之自然语言处理工程师

一文看懂自然语言处理:word 表示技术的变迁