第四篇:Part of Speech Tagging 词性标注

Posted flying_1314

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第四篇:Part of Speech Tagging 词性标注相关的知识,希望对你有一定的参考价值。

词性也就是单词类别,形态类别,句法类别

名词,动词,形容词等。

POS告诉了我们单词和他的邻居的一些信息,简单举例:

  • 名词前常有限定词
  • 名词前有动词
  • content 作为名词,发音为 CONtent
  • content作为形容词,发音为内容

作者的归属权(也就是作者是谁)

简单举例,信息抽取:

原句抽取
“巴西首都巴西利亚成立于 1960 年。”首都(巴西、巴西利亚)
成立(巴西利亚,1960 年)

中间涉及许多步骤,但首先需要知道名词(巴西利亚,首都)、形容词(巴西Brazilian)、动词(成立)和数字(1960)。

词性(Part of Speech)

以英语为例

开放类 vs 封闭类:POS 类别对新词的接纳程度如何?

只有一些开放类

  • 名词
    • 适当proper(澳大利亚Australia)与普遍common(袋熊wombat)
    • 质量(大米rice)与数量(碗bowls)
  • 动词
    • 丰富的变化(go/goes/going/gone/went)
    • 助动词(英语中的 be、have 和 do)
    • 传递性(wait versus hit versus give)
      — 参数数量
  • 形容词
    • 可分级(快乐happy)与不可分级(计算computational)
  • 副词
    ‣ 方式manner(缓慢slowly)
    ‣ 本地locative(此处here)
    ‣ 程度degree(真的really)
    ‣ 时间temporal(今天today)

封闭类

  • 介词(in、on、with、for、of、over、...)
    • on the table
  • Particles 小品词(与动词构成短语动词的副词或介词)
    • brushed himself off
  • 限定词
    • 冠词articles (a, an, the)
    •  指示词demonstratives(这个、那个、这些、那些)
    •  量词quantifiers(每个、每个、一些、两个……)
  • 代词
    • Personal(我,我,她,...)
    •  Possessive(我的,我们的,...)
    •  疑问Interrogative或 Wh(谁,什么,……)
  • 连词
    • 协调coordinating(和、或、但是)
    •  从属subordinating(如果,虽然,那个,...)
  • 情态动词 modal verbs
    • 能力ability(可以,可以)
    •  许可permission(可以,可以)
    •  可能性possibility(可能、可能、可能、将)
    •  必要性necessity(必须)
  • 其他等。。。

因为存在很多词属于很多种类型,比如上面提到的content既可以做名词也可以做形容词;这会带来一定的歧义

标签集

标签集是POS 信息的紧凑表示:

  • 通常≤ 4 个大写字符
  • 通常包括之前所说的inflectional 区别

主要英文标签集:

  • Brown (87 tags)
  • Penn Treebank (45 tags)
  •  CLAWS/BNC (61 tags)
  •  “Universal” (12 tags)
Major Penn Treebank Tags
NNnounVBverb
JJadjectiveRBadverb
DTdeterminerCDcardinal number
INprepositionPRPpersonal pronoun
MDmodal CCcorordinating conjuction
RPparticleWHwh pronoun
TOto  

上表列了部分主要的标签在Penn Treebank中,通过这些标签还可以派生其他标签,在此就不罗列了。


自动标记

使用该方法的原因:

  • 对词的形态分析很重要,比如之前文章写道的lemmatisation
  • 对一些应用重要,比如信息检索主要看名词,情感分类主要看形容词
  • 有用的特征来做特定的分类任务比如 音乐中的流派分类
  • POS可以提供词义消除歧义
  • 可以使用它们来创建更大的结构(解析)

分类:

  • 基于规则的标记器
    • 每个单词都会有对应的标签的列表,来源于词汇资源/语料库
    • 通常也会包含其他的词汇信息,比如动词子类别(它的参数)
    • 应用规则去缩减到单个标签。比如限定词后面不可能跟动词
    • 大型系统会有1000条限制
  • 基于统计的标记器
    • 一元标记器:为每个词类型分配最常见的标签
      • 需要标记词的语料库
      • “模型”只是一个查找表
      • 但实际上相当不错,准确率约为 90%,并且正确解决约 75% 的歧义
      • 通常被视为更复杂方法的baseline
    •  基于分类器的标记器
      • 使用标准的判别分类器(例如逻辑回归、神经网络),具有以下特点:
        • 目标词
        • 单词周围的上下文
        • 已经在句子中分类的标签
      • 最好的序列模型之一
        • 但可能会受到错误传播的影响:先前步骤的错误预测会影响下一步
    •  隐马尔可夫模型 (HMM) 标记器
      • 一个基本的顺序(或结构化)模型
      • 像序列分类器一样,使用先前的标签和词汇
      • 和分类器不同,分类器会将将先前的标签证据和词汇证据视为彼此独立
        • 更少的稀疏性
        • 序列预测的快速算法,找到整个词序列的最佳标记

未知词

  • 对于形态丰富的语言来说,是大问题
  • 可以通过我们见过一次的来猜测,比如倾向于名词后跟动词
  • 可以使用子词表示来捕捉形态,比如寻找常见词缀

 

 

以上是关于第四篇:Part of Speech Tagging 词性标注的主要内容,如果未能解决你的问题,请参考以下文章

pytorch实现part-of-speech(POS)序列标注

python全栈开发第四篇Python流程控制

JDK11 | 第四篇 : 增强API

python sorting_parts_of_speech.py

Physiological Processes of Speech Production--Reading Notes

第四篇:模块与包