词法分析:分词;词性标注;实体识别

Posted hbuwyg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了词法分析:分词;词性标注;实体识别相关的知识,希望对你有一定的参考价值。

词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程

分词;词性标注;实体识别


这一部分是NLP的基础,应该是入门就要了解的内容。

所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。

有个著名分词工具jieba(结巴),感觉名字起的挺贴切的,句子断开成一个个词来读,有点结巴的感觉。

这个工作对人来说不复杂,小学高年级应该就没多大问题了。

对机器来说,不容易。虽然现在中文分词已经做得很好了,仍存在部分棘手的问题。


 大多数的自然语言语句,对于现在的中文分词工具来说,没有难度。

微博 #自然语言理解太难了# 有很多让人觉得有趣的内容,可以让分词工具测一测。

结合这个话题,展开中文分词的学习,进一步运行程序“考考”几个注明的分词工具。


 校长说衣服上除了校徽别别别的

南京市长江大桥

来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”


 《季姬击鸡记》、《施氏食狮史》

作者:赵元任(1892年11月3日—1982年2月24日):

季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。

石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,施氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。


 

Ref:

https://github.com/fighting41love/hardNLU

https://www.sohu.com/a/306158933_284433

 

以上是关于词法分析:分词;词性标注;实体识别的主要内容,如果未能解决你的问题,请参考以下文章

THULAC:一个高效的中文词法分析工具包(z'z)

LexicalAnalysis

自然语言处理(NLP)的基础难点:分词算法

NLP | 基于字符匹配的中文分词

中文分词(概况)

HanLP中人名识别分析