数学之美笔记第4章 谈谈中文分词
Posted 知识图谱与自然语言处理
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学之美笔记第4章 谈谈中文分词相关的知识,希望对你有一定的参考价值。
1、中文词语之间没有明确的分界符,所以需要先对句子进行分词,才能做进一步的自然语言处理。
2、最容易的分词方法就是查字典。就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(如“上海大学”)就找最长的匹配,遇到不认识的字串就分割成单字词。
但是这种方法当遇到有二义性的分割时就无能为力了。如“上海大学城书店”,正确分词应为“上海---大学城---书店”,而不是“上海大学---城---书店”
3、1990年前后,清华大学的郭进博士用统计语言模型成功解决了分词的二义性问题。
假如一个句子S可以有以下几种分词方法,
A1,A2,A3,。。。,Ak
B1,B2,B3,。。。,Bk
C1,C2,C3,。。。,Ck
最好的一种分词方法应该保证分词完成后这个句子出现的概率最大。也就是说,如果A1,A2,A3,。。。,Ak是最好的分词方法,那么其概率满足
P(A1,A2,A3,。。。,Ak)>P(B1,B2,B3,。。。,Bk)
并且
P(A1,A2,A3,。。。,Ak)>P(C1,C2,C3,。。。,Ck)
4、分词的颗粒度
人工分词产生不一致性的原因主要在于人们对词的颗粒度的认识问题。
对于“清华大学”的分词,不同人看法可能不一样。 有人认为他是一个整体,也有人认为他是一个短语,“清华”,是修饰“大学”的。这里并没有绝对的对错,我们不能说哪一种分词是错的。
但是在不用的应用中,会有一种粒度比另一种个好的情况。比如在机器翻译中粒度大些会更好,“联想公司”作为一个整体,很好翻译,但如果分为“联想”,“公司”,就有可能会翻译失败。
接下来需要对基本词和复合词分别建立一个语言模型L1和L2。
首先根据基本词表和语言模型L1对句子进行分词,得到小颗粒度的分词结果。
如果有需要的花,。在此基础上,再用复合词表和语言模型L2进行第二次分词
在现代分词研究中,不一致性错误已基本避免。主要研究方法在颗粒度方面,不断完善复合词的词典
以上是关于数学之美笔记第4章 谈谈中文分词的主要内容,如果未能解决你的问题,请参考以下文章