词法分析:词性标注

Posted hbuwyg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了词法分析:词性标注相关的知识,希望对你有一定的参考价值。

词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程

分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。

在线演示平台:http://ictclas.nlpir.org/nlpir/

技术图片


词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation)

是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

语料库 (corpus,复数corpora)指经科学取样和加工的大规模电子文本库。


所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。

比如,给定一个句子:“我中了一张彩票”。

对其的标注结果可以是:“/代词   /动词   /助词/   /数词/   /量词/   彩票/名词  /标点

词性标注的难点主要是由词性兼类所引起的。

词性兼类是指自然语言中一个词语的词性多余一个的语言现象。(一词多性)


常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。


 【jieba】

import jieba.posseg as pseg
words = pseg.cut("老师说衣服上除了校徽别别别的")
for word, flag in words:
    print(%s %s % (word, flag))

老师 n  说 v  衣服 n  上 f  除了 p  校徽 n  别 d  别 d  别的 r


 【hanLP】

from pyhanlp import *
content = "老师说衣服上除了校徽别别别的"
print(HanLP.segment(content))

老师/nnt,   说/v,   衣服/n,   上/f,   除了/p,   校徽/n,   别/d,   别/d,   别的/rzv


 

ref:

自然语言处理3 -- 词性标注

https://github.com/hankcs/HanLP/tree/doc-zh

https://blog.csdn.net/weixin_42398658/article/details/85048917

以上是关于词法分析:词性标注的主要内容,如果未能解决你的问题,请参考以下文章

THULAC:一个高效的中文词法分析工具包(z'z)

NLP | 基于字符匹配的中文分词

一套准确率高且效率高的分词词性标注工具-thulac

LexicalAnalysis

NLP一文了解词性标注CRF模型

中文分词(概况)