结巴中文分词原理分析2

Posted 机器学习和自然语言处理

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了结巴中文分词原理分析2相关的知识,希望对你有一定的参考价值。

机器学习和自然语言处理
公众号ID:datathinks


结巴分词详解
1
 中文分词介绍

中文分词特点

  1. 词是最小的能够独立活动的有意义的语言成分

  2. 汉语是以字位单位,不像西方语言,词与词之间没有空格之类的标志指示词的边界

  3. 分词问题为中文文本处理的基础性工作,分词的好坏对后面的中文信息处理其关键作用

中文分词的难点 

  1. 分词规范,词的定义还不明确 (《统计自然语言处理》宗成庆)

  2. 歧义切分问题,交集型切分问题,多义组合型切分歧义等 
    结婚的和尚未结婚的 => 
    结婚/的/和/尚未/结婚/的 
    结婚/的/和尚/未/结婚/的

  3. 未登录词问题有两种解释:一是已有的词表中没有收录的词,二是已有的训练语料中未曾出现过的词,第二种含义中未登录词又称OOV(Out of Vocabulary)。对于大规模真实文本来说,未登录词对于分词的精度的影响远超歧义切分。一些网络新词,自造词一般都属于这些词。

汉语分词方法

  1. 基于字典、词库匹配的分词方法(基于规则) 
    基于字符串匹配分词,机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率,或将分词与词类标注结合。

  2. 基于词频度统计的分词方法(基于统计) 
    相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,基于词的频度统计的分词方法是一种全切分方法。jieba是基于统计的分词方法,jieba分词采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

  3. 基于知识理解的分词方法。 
    该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

分词工具下载

  • hanllp jar包(http://download.csdn.net/download/lb521200200/9686915)

  • ik 分词 5.0.0版本jar包(http://download.csdn.net/download/youyao816/9676084)

  • ik分词 1.10.1版本jar包(http://download.csdn.net/download/youyao816/9676082)

  • IKAnalyzer所需的jar包(http://download.csdn.net/download/jingjingchen1014/9659225)

  • jieba分词包(http://download.csdn.net/download/u014018025/9652341)


2
结巴中文分词详解


结巴分词的算法策略 

  1. 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

  2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

  3. 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

结巴源码组织形式

jieba 

|-- Changelog 

|-- extra_dict 

| |-- dict.txt.big 

| |-- dict.txt.small 

| |-- idf.txt.big 

| `-- stop_words.txt 

|-- jieba 

| |-- analyse 

| | |-- analyzer.py 

| | |-- idf.txt 

| | |-- __init__.py 

| | |-- textrank.py 

| | `-- tfidf.py 

| |-- _compat.py 

| |-- dict.txt 

| |-- finalseg 

| | |-- __init__.py 

| | |-- prob_emit.p 

| | |-- prob_emit.py 

| | |-- prob_start.p 

| | |-- prob_start.py 

| | |-- prob_trans.p 

| | `-- prob_trans.py 

| |-- __init__.py 

| |-- __main__.py 

| `-- posseg 

| |-- char_state_tab.p 

| |-- char_state_tab.py 

| |-- __init__.py 

| |-- prob_emit.p 

| |-- prob_emit.py 

| |-- prob_start.p 

| |-- prob_start.py 

| |-- prob_trans.p 

| |-- prob_trans.py 

| `-- viterbi.py 

|-- LICENSE 

|-- setup.py `-- test 

|-- *.py 

|-- parallel 

| |-- extract_tags.py 

| `-- test*.py `-- userdict.txt


代码行数统计(没有统计test文件夹下的代码)

256 ./posseg/prob_start.py 

5307 ./posseg/prob_trans.py 

304 ./posseg/__init__.py 

89372 ./posseg/prob_emit.py 

61087 ./posseg/char_state_tab.py 

53 ./posseg/viterbi.py

578 ./__init__.py 

4 ./finalseg/prob_start.py 

4 ./finalseg/prob_trans.py 

107 ./finalseg/__init__.py 

35226 ./finalseg/prob_emit.py 

31 ./_compat.py 

50 ./__main__.py 

111 ./analyse/tfidf.py 

37 ./analyse/analyzer.py 

104 ./analyse/textrank.py 

18 ./analyse/__init__.py 

192649 总用量


其中prob*.py的文件是作者事先训练好的模型参数(λ=(A,B,π)),如状态转移概率、发射概率等。真正的代码数也就:304+53+578+107+31+50+111+37+104+18=1393行(不包括test文件中的代码),当然作者的代码写的比较简洁。

jieba分词模型的参数数据(λ=(A,B,π))是如何生成的? 

即文件finalseg/prob_*.py,中初始化概率,状态转移概率,发射概率怎么算出来的? 
来源主要有两个: 一个是网上能下载到的1998人民日报的切分语料还有一个msr的切分语料; 另一个是作者自己收集的一些txt小说,用ictclas把他们切分(可能有一定误差)。 然后用python脚本统计词频 具体详情。 

要统计的主要有三个概率表

  1. 位置转换概率(状态转移概率),即B(开头),M(中间),E(结尾),S(独立成词)四种状态的转移概率; 

  2. 位置到单字的发射概率,比如P(“和”|M)表示一个词的中间出现”和”这个字的概率; 

  3. 词语以某种状态开头的概率,其实只有两种,要么是B,要么是S。


3
 结巴分词的思想


算法实现分词 

(1) 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);

作者这个版本中使用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,想想也是,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重,详情见作者把trie树改成前缀词典的 缘由, 具体实现见 gen_pfdict(self, f_name)。接着说DAG有向无环图, 生成句子中汉字所有可能成词情况所构成的有向无环图。DAG根据我们生成的前缀字典来构造一个这样的DAG,对一个sentence DAG是以{key:list[i,j…], …}的字典结构存储,其中key是词的在sentence中的位置,list存放的是在sentence中以key开始且词sentence[key:i+1]在我们的前缀词典中 的以key开始i结尾的词的末位置i的列表,即list存放的是sentence中以位置key开始的可能的词语的结束位置,这样通过查字典得到词, 开始位置+结束位置列表。

例如:句子“抗日战争”生成的DAG中{0:[0,1,3]} 这样一个简单的DAG, 就是表示0位置开始, 在0,1,3位置都是词, 就是说0~0,0~1,0~3 即 “抗”,“抗日”,“抗日战争”这三个词 在dict.txt中是词。 


(2)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合; 
基于上面的DAG利用动态规划查找最大概率路径,这个理解DP算法的很容易就能明白了。根据动态规划查找最大概率路径的基本思路就是对句子从右往左反向计算最大概率,..依次类推, 最后得到最大概率路径, 得到最大概率的切分组合(这里满足最优子结构性质,可以利用反证法进行证明),这里代码实现中有个小trick,概率对数(可以让概率相乘的计算变成对数相加,防止相乘造成下溢,因为在语料、词库中每个词的出现概率平均下来还是很小的浮点数). 
(3)对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法;
未登录词(即jieba中文分词源码分析(一))中说的OOV, 其实就是词典 dict.txt 中没有记录的词。这里采用了HMM模型,HMM是个简单强大的模型,可以参考这个网络资源进行学习,HMM在实际应用中主要用来解决3类问题:

  1. a. 评估问题(概率计算问题) :即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π),怎样有效计算这一观测序列出现的概率. (Forward-backward算法)

  2. b. 解码问题(预测问题) :即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π),怎样寻找满足这种观察序列意义上最优的隐含状态序列S。 (viterbi算法,近似算法)

  3. c. 学习问题 :即HMM的模型参数λ=(A,B,π)未知,如何求出这3个参数以使观测序列O=O1,O2,O3…Ot的概率尽可能的大. (即用极大似然估计的方法估计参数,Baum-Welch,EM算法)

模型的关键相应参数λ=(A,B,π),经过作者对大量语料的训练, 得到了finalseg目录下的三个文件(初始化状态概率(π)即词语以某种状态开头的概率,其实只有两种,要么是B,要么是S。这个就是起始向量, 就是HMM系统的最初模型状态,对应文件prob_start.py;隐含状态概率转移矩A 即字的几种位置状态(BEMS四个状态来标记, B是开始begin位置, E是end, 是结束位置, M是middle, 是中间位置, S是single, 单独成词的位置)的转换概率,对应文件prob_trans.py;观测状态发射概率矩阵B 即位置状态到单字的发射概率,比如P(“狗”|M)表示一个词的中间出现”狗”这个字的概率,对应文件prob_emit.py)。

4
参考文献
  1. 中文分词之HMM模型详解

  2. HMM相关文章

  3. 结巴分词GitHub源码




以上是关于结巴中文分词原理分析2的主要内容,如果未能解决你的问题,请参考以下文章

中文分词概述及结巴分词原理

python结巴(jieba)分词

如何利用Python对中文进行分词处理

结巴分词原理

ElasticSearch自定义分析器-集成结巴分词插件

结巴分词获取关键词时怎么过滤掉一些停用词