python的jieba分词
Posted 龙卷风之殇
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python的jieba分词相关的知识,希望对你有一定的参考价值。
# 官方例程
# encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
输出:===============================
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
输出: ======================
【精确模式】: 我/ 来到/ 北京/ 清华大学
seg_list = jieba.cut("他来到了网易杭研大厦")
# 默认是精确模式
print(", ".join(seg_list))
输出:================
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
输出:=================================
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
附上个人案例:
词云wordcloud+jieba+matplotlib做出漂亮的词云效果:
#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:wujf
@file: word.py
@time: 2018/09/14 10:05
必须要安装 matplotlib
"""
import sys
# default_encoding = \'utf-8\'
# if sys.getdefaultencoding() != default_encoding:
# reload(sys)
# sys.setdefaultencoding(default_encoding)
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
with open(r"C:\\\\Users\\\\lenovo\\\\PycharmProjects\\\\Primary\\\\lover.txt",\'r\') as f:
text = f.read()
str = " ".join(jieba.cut(text))
print type(str)
font = r"C:\\\\Windows\\\\Fonts\\\\微软雅黑\\\\msyhl.ttc" #这里一定要些win10电脑里面的中文字体,否则遇到中文字体分不出来
s = WordCloud(font_path=font,
background_color=\'black\',
width=1200,
height=600
).generate(str)
s.to_file("cloud.png")
plt.imshow(s)
plt.axis("off")
plt.show()
效果图:
以上是关于python的jieba分词的主要内容,如果未能解决你的问题,请参考以下文章
PaceBora||Python中文分词 jieba 十五分钟入门与进阶