jieba分词器（应用及字典的补充）及文档高频词提取实战

Posted 2023-01-11 二哥不像程序员

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了jieba分词器（应用及字典的补充）及文档高频词提取实战相关的知识，希望对你有一定的参考价值。

jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。

1、jieba分词器的分词模式

jieba分词器提供了三种常用的分词模式

1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；

2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；

3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎的分词。

注：jieba也支持对繁体字进行分词。

在jieba中我们可以使用jieba.cut和jieba.cut_for_search来进行中文分词，我们可使用 for 循环来获得分词后得到的每一个词语。

下面通过代码来实现以下jieba的使用。

import jieba
ex = '南京市长江大桥'

# 全分词模式
all_cut = jieba.cut(ex, cut_all=True)
# 精确分词模式
precise_cut = jieba.cut(ex, cut_all=False)
# 当我们省略掉cut_all参数时，cut_all默认值为False，此时分词模式为精确分词
default_precise_cut = jieba.cut(ex)
# 搜索引擎模式
search_cut = jieba.cut_for_search(ex)

print("全分词: ", "/".join(all_cut))
print("精确分词: ", "/".join(precise_cut))
print("默认精确分词: ", "/".join(default_precise_cut))
print("搜索分词: ", "/".join(search_cut))

分词后的结果如下：

2、jieba分词器字典的补充

jieba分词器有两种补充字典的形式，一种是自定义文件导入的静态补充，一种是利用其内置函数的动态补充。

静态补充：

我们可以自定义词典，以便包含jieba词典中没有的词（虽然jieba有新词识别能力，但是添加自定义词典可以提高准确率）

添加格式

词语词频（可省略）词性（可省略）

我们可以按照上面三个属性去添加新的词语，属性之间用一个空格分开即可。

添加方法函数

jieba.load_userdict(file_name)    # file_name为我们要添加的词典的路径

举例子来说明一下这种添加形式

假设我们现在有文件add_words.txt为要添加的词典，词典中设定的内容如下，我们用全分词模式来验证结果。

长江大 5
江大桥 3 nz
南京市长江 2

import jieba
ex = '南京市长江大桥'
print("更新前的全分词结果： ", "/".join(jieba.cut(ex, cut_all=True)))
jieba.load_userdict("add_words.txt")
print("更新词典后的全分词结果： ", "/".join(jieba.cut(ex, cut_all=True)))

输出结果如下：

由结果可见，我们新添加的词语出现在了全分词的结果当中。

动态补充：

我们可以使用jieba.add_word()和jieba.del_word()两种函数来动态的添加或者删除词语，其中add_word()可以添加词频和词性两种参数，示例如下：

import jieba
ex = '南京市长江大桥'
print("更新前的全分词结果： ", "/".join(jieba.cut(ex, cut_all=True)))
jieba.add_word("南京市长江")
jieba.add_word("南京市长江", freq=5, tag='nz')
jieba.del_word("南京")
print("更新词典后的全分词结果： ", "/".join(jieba.cut(ex, cut_all=True)))

输出结果如下：

以上便是jieba分词器的词典添加方式。

3、高频词提取

高频词一般是指在文档中出现次数较多且有用的词语，在一定程度上表达了文档的关键词所在；高频词提取中我们主要用到了NLP中的TF策略。

停用词：像“的”“了”这种没有任何意义的词语，我们不需要进行统计。

TF指的是某个词语在文章中出现的总次数，我们将文章进行分词，去掉停用词（包括标点符号），然后取统计每个词在文章中出现的次数即可。

下面给出示例代码

# -*- coding: utf-8 -*-
import glob
import random
import jieba
# 读取文章的函数
def get_content(content_path):
    with open(content_path, 'r', encoding="gbk", errors="ignore") as f:
        content = ''
        for i in f:
            i = i.strip()
            content += i
    return content
# 提取topK个高频词的函数
# TF:计算某个词在文章中出现的总次数
def get_TF(k,words):
    tf_dic = 
    for i in words:
        tf_dic[i] = tf_dic.get(i, 0)+1
    return sorted(tf_dic.items(), key=lambda x: x[1], reverse=True)[:k]

# 去掉停用词（包括标点）
def stop_words(path):
    with open(path, encoding='UTF-8') as f:
        return [l.strip() for l in f]
# 主函数
if __name__ == "__main__":
    files = glob.glob("*.txt")
    corpus = [get_content(x) for x in files]
    sample_inx = random.randint(0, len(corpus))
    split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words("stop_words.utf8")]
    print("top(k)个词为：" + str(get_TF(10, split_words)))

我们所选的文章为：

主持人：刚才讲到了治疗方法，那么在放疗和化疗的时候，在杀伤肿瘤(专题访谈咨询)细胞的时候会有其他伤害，那么在治疗的时候应该注意什么呢？张频：我想就是说这个头颈部肿瘤比较特殊，所以在手术的化疗的时候，对病人可能有一些限制，所以就是说对这部分的病人跟其它部位的病人的肿瘤还不一样，当然说药物治疗是普遍的，就是说接受药物治疗，我们常见的就是胃肠道会出现恶心、呕吐，其次就是说病人会出现白细胞、血小板的减少，甚至出现贫血，这是比较常见的。这两个不良反应是比较多的，当然还有一些不舒服的，会出现一些别的症状，包括头颈部肿瘤的、口腔的，头面部做过放射治疗的，这些病人通常都会出现对口腔的、黏膜的影响。张频：当然使用一些药物，还会出现一些神经的毒素，还有一些其它的肝肾的损害，这些会不会出现就是根据这个病人的肝肾功能的情况。那么头颈部肿瘤的化疗最大的问题可能是胃肠道的反应比较大，还有口腔粘膜的反应比较大。那么胃肠道的反应，我们不管是国内还是国外，我们现在有一些比较好的药物，那么目前这些药物在临床应用得十分广泛，比过去的其它的药物相比可以控制不良反应。张频：但是尽管这样还有30％左右的病人，用了药可能还会出现这样的情况。可能这样的病人比较害怕使用化疗。那么我们目前对骨髓病有比较好的治疗药物，比如说白细胞介素，还有一些增长白细胞的药物，通过皮下的注射以后，可以提升白细胞的数量。那么对于血小板的减少，我们也可通过药物增加血小板的数量。对于其它的肝功能和肾功能的损害，如果出现了异常我们可以进行一些保护性的治疗。张频：所以总的来说头颈部的肿瘤病人，如果需要化疗，也需要看具体的部位。治疗的药物也非常多，所以经过对证的治疗大部分是会有一定疗效的。徐震纲：头颈部肿瘤的病人通常需要放疗，那么首先射线要通过腮腺，那么通常有一个共同的症状是口干，通常是因为唾液腺受到了照射后就会有这样的情况，所以这些人到哪儿都会带着一杯水。所以现在的治疗手段是实行调强治疗，不同于常规的照射手段均是从体外照射。所谓的调强放疗，就是说可以强调对一个部位的集中照射，这样的话可以使肿瘤在这个部位接受的治疗剂量最高，而常规照射通常是全部通过腮腺的。经过调强照射后使原先得到的照射量降低，这样病人做过治疗以后，可以减轻或者避免放疗的副作用。徐震纲：第二个是皮肤和黏膜的炎症，还有干性的反应，因为病人的皮肤在放射线下非常的脆弱，有糜烂的反应，作为家属平常给他穿衣服要薄一点儿，因为经过了照射的组织比较脆弱，容易造成损伤，而这些损伤恢复起来比较困难。主持人：那么经过了放疗之后的这种皮肤的损伤会不会修复呢？徐震纲：一般损伤会持续一段时间。那么也有的人恢复时间比较长，这根据不同的部位，它照射的部位不同，它反应的轻重程度也不同，那么照射了四个周期的和照射了六个周期的反应是明显地不同的。那么医生对照射的副作用相对要做一些保护性的措施。

进行高频词提取后的结果为（列出了词频最高的十个词语）：

本文中我们讲解了jieba分词器的用法以及在高频词汇提取时的应用，下文中还会讲到在NLP其他领域的应用。

以上是关于jieba分词器（应用及字典的补充）及文档高频词提取实战的主要内容，如果未能解决你的问题，请参考以下文章

jieba分词器（应用及字典的补充）及文档高频词提取实战

1、jieba分词器的分词模式

2、jieba分词器字典的补充

静态补充：

动态补充：

3、高频词提取