第四篇:Part of Speech Tagging 词性标注
Posted flying_1314
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第四篇:Part of Speech Tagging 词性标注相关的知识,希望对你有一定的参考价值。
词性也就是单词类别,形态类别,句法类别
名词,动词,形容词等。
POS告诉了我们单词和他的邻居的一些信息,简单举例:
- 名词前常有限定词
- 名词前有动词
- content 作为名词,发音为 CONtent
- content作为形容词,发音为内容
作者的归属权(也就是作者是谁)
简单举例,信息抽取:
原句 | 抽取 |
“巴西首都巴西利亚成立于 1960 年。” | 首都(巴西、巴西利亚) 成立(巴西利亚,1960 年) |
中间涉及许多步骤,但首先需要知道名词(巴西利亚,首都)、形容词(巴西Brazilian)、动词(成立)和数字(1960)。
词性(Part of Speech)
以英语为例
开放类 vs 封闭类:POS 类别对新词的接纳程度如何?
只有一些开放类:
- 名词
- 适当proper(澳大利亚Australia)与普遍common(袋熊wombat)
- 质量(大米rice)与数量(碗bowls)
- 动词
- 丰富的变化(go/goes/going/gone/went)
- 助动词(英语中的 be、have 和 do)
- 传递性(wait versus hit versus give)
— 参数数量
- 形容词
- 可分级(快乐happy)与不可分级(计算computational)
- 副词
‣ 方式manner(缓慢slowly)
‣ 本地locative(此处here)
‣ 程度degree(真的really)
‣ 时间temporal(今天today)
封闭类
- 介词(in、on、with、for、of、over、...)
- on the table
- Particles 小品词(与动词构成短语动词的副词或介词)
- brushed himself off
- 限定词
- 冠词articles (a, an, the)
- 指示词demonstratives(这个、那个、这些、那些)
- 量词quantifiers(每个、每个、一些、两个……)
- 代词
- Personal(我,我,她,...)
- Possessive(我的,我们的,...)
- 疑问Interrogative或 Wh(谁,什么,……)
- 连词
- 协调coordinating(和、或、但是)
- 从属subordinating(如果,虽然,那个,...)
- 情态动词 modal verbs
- 能力ability(可以,可以)
- 许可permission(可以,可以)
- 可能性possibility(可能、可能、可能、将)
- 必要性necessity(必须)
- 其他等。。。
因为存在很多词属于很多种类型,比如上面提到的content既可以做名词也可以做形容词;这会带来一定的歧义
标签集
标签集是POS 信息的紧凑表示:
- 通常≤ 4 个大写字符
- 通常包括之前所说的inflectional 区别
主要英文标签集:
- Brown (87 tags)
- Penn Treebank (45 tags)
- CLAWS/BNC (61 tags)
- “Universal” (12 tags)
NN | noun | VB | verb |
JJ | adjective | RB | adverb |
DT | determiner | CD | cardinal number |
IN | preposition | PRP | personal pronoun |
MD | modal | CC | corordinating conjuction |
RP | particle | WH | wh pronoun |
TO | to |
上表列了部分主要的标签在Penn Treebank中,通过这些标签还可以派生其他标签,在此就不罗列了。
自动标记
使用该方法的原因:
- 对词的形态分析很重要,比如之前文章写道的lemmatisation
- 对一些应用重要,比如信息检索主要看名词,情感分类主要看形容词
- 有用的特征来做特定的分类任务比如 音乐中的流派分类
- POS可以提供词义消除歧义
- 可以使用它们来创建更大的结构(解析)
分类:
- 基于规则的标记器
- 每个单词都会有对应的标签的列表,来源于词汇资源/语料库
- 通常也会包含其他的词汇信息,比如动词子类别(它的参数)
- 应用规则去缩减到单个标签。比如限定词后面不可能跟动词
- 大型系统会有1000条限制
- 基于统计的标记器
- 一元标记器:为每个词类型分配最常见的标签
- 需要标记词的语料库
- “模型”只是一个查找表
- 但实际上相当不错,准确率约为 90%,并且正确解决约 75% 的歧义
- 通常被视为更复杂方法的baseline
- 基于分类器的标记器
- 使用标准的判别分类器(例如逻辑回归、神经网络),具有以下特点:
- 目标词
- 单词周围的上下文
- 已经在句子中分类的标签
- 最好的序列模型之一
- 但可能会受到错误传播的影响:先前步骤的错误预测会影响下一步
- 使用标准的判别分类器(例如逻辑回归、神经网络),具有以下特点:
- 隐马尔可夫模型 (HMM) 标记器
- 一个基本的顺序(或结构化)模型
- 像序列分类器一样,使用先前的标签和词汇
- 和分类器不同,分类器会将将先前的标签证据和词汇证据视为彼此独立
- 更少的稀疏性
- 序列预测的快速算法,找到整个词序列的最佳标记
- 一元标记器:为每个词类型分配最常见的标签
未知词
- 对于形态丰富的语言来说,是大问题
- 可以通过我们见过一次的来猜测,比如倾向于名词后跟动词
- 可以使用子词表示来捕捉形态,比如寻找常见词缀
以上是关于第四篇:Part of Speech Tagging 词性标注的主要内容,如果未能解决你的问题,请参考以下文章
pytorch实现part-of-speech(POS)序列标注
python sorting_parts_of_speech.py