词类标签 POS tagging
Posted mrdoghead
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了词类标签 POS tagging相关的知识,希望对你有一定的参考价值。
part-of-speech (POS)
POS其实就是对词进行一些分类,比如名词、动词、形容词、副词等。通过研究POS我们可以学习到更多词于词之间的关系,比如冠词一般在名词前,名词后面可能是动词,更进一步的,POS可以被应用到其他任务中,比如推测作者、信息抽取等等。由于很多语言在不同环境下存在多种意思,词汇间的不同组合也会产生不同的含义,所以POS任务存在很多难点。目前对于词汇的分类有许多标准,如英语中 Brown (87 tags, Penn Treebank (45 tags) , CLAWS/BNC (61 tags), “Universal” (12 tags)。
Major Penn Treebank Tags
NN noun; JJ adjective; VB verb; RB adverb;DT determiner; CD cardinal number; IN preposition; PRP personal pronoun; MD modal; CC coordinating conjunction; RP particle; WH wh-pronoun; TO to
如果进一步细分,还可以
NN: NNS (plural, wombats), NNP (proper, Australia), NNPS (proper plural, Australians), VB: VB (infinitive, eat), VBP (1st /2nd person present, eat), VBZ (3rd person singular, eats), VBD (past tense, ate), VBG (gerund, eating), VBN (past participle, eaten), JJ: JJR (comparative, nicer), JJS (superlative, nicest) RB: RBR (comparative, faster), RBS (superlative, fastest), PRP: PRP$ (possessive, my), WH: WH$ (possessive, whose), WDT(wh-determiner, who), WRB (wh-adverb, where)
Tagging方法
1. 基于规则Rule-based
2. 基于统计Statistical taggers
? Unigram tagger
最简单的模型,把一个词出现最多的tag给它,一般用作baseline。
? Classifier-based taggers
选择一些特征,如环境词,已有标签等,然后使用一些分类器进行分类。
? Hidden Markov Model (HMM) taggers
隐马尔科夫模型是一种基于序列的模型,数据有两类,一类是可以观测到的,即观测序列,另一类数据是不能观察到的,即隐藏状态序列。
这个我们下一次讲!
以上是关于词类标签 POS tagging的主要内容,如果未能解决你的问题,请参考以下文章
JBoss EAP 7.0 java.lang.IllegalStateException: 未知标签! pos=3 poolCount = 20 警告
无法索引类 module-info.class atlog4j-api.jar:java.lang.IllegalStateException:未知标签! pos=4 池数 = 24