说说中文分词那些事儿
Posted 灰猴的日常
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了说说中文分词那些事儿相关的知识,希望对你有一定的参考价值。
嗨
小伙伴们
大家好呀
昨天上映的《惊奇队长》大家都去看了吗
没错
我和我的小伙伴去看了
就是下面这位
超强红蓝战衣
耀眼金发
无限火力
作为漫威的亲粉丝
这部漫威首次推出的女性超级英雄电影
必须安排上
话说
昨天还是3.8妇女节哦(或许不是巧合)
不过
看完这部电影给我的感受
中规中矩
剧情相对而言比较平淡
偏叙事一点
整部影片给我的感觉就是
惊奇队长的战斗力
强
很强
贼拉强
强的一批
可能是为了《复联4》预热吧
队长我们就暂时先聊到这里
进入正题
为了蹭一下惊奇队长的热点
本次分词的语料就是我
辛辛苦苦
从豆瓣影评上面
Ctrl+C Ctrl+V
(下次可能会使用一些技术手段)
就是下面
这样玩儿
语料准备好后
就是敲代码时间啦
这样玩儿
此次任务
我们主要用到python的三个库朋友
大名鼎鼎的jieba中文分词库
名扬天下的matplotlib绘图库
非常优秀的WordCloud词云展示库
然后就是把我们的语料读取进来
这样玩儿
此处我们以只读方式r读取文件
默认编码形式“utf-8”
在open的过程中要注意编码形式
文件以什么编码类型写入
就必须以什么编码读取
否则会发生乱码(极度舒适)
然后就是利用jieba进行分词了
这样玩儿
jieba支持三种分词模式
精确模式
全模式
搜索引擎模式
此处我们就以默认精确模式
来进行分词
具体三种模式的区别和应用
可自行了解(不要嫌我懒哦)
分好词后
我们怎样用更直观的艺术来展现出来呢
那就要用到另外两个个库朋友
WordCloud和matplotlib
这样玩儿
可是
结果却不是我们想的那样
是不是觉得灰猴在坑你
这是为什么呢
原来
wordcloud对我们中文十分不友好
ta默认使用的字体是英文的
但是也没什大不了
我们自定义一下输出字体
font_path=“simsun.ttf”
就完美解决了
这样玩儿
当然
如果你不想规规矩矩的显示
WordCloud依然可以满足你
ta支持指定蒙版做相应的词云显示
你只需要准备一张白色背景的图片
这样玩儿
嘿嘿嘿
小伙伴们有没有看出来
我用的是什么蒙版呢
有奖竞猜
后台回复正确答案
可获得精美小礼品一份哦
好了
此次的分词任务我们到此结束
当然了
一开始的词云效果里面
并没有显示我们此次任务的主题
惊奇队长
而是
惊奇 队长
没错
这就是出现了我们上回书提到的未登录词
解决办法
就是
在jieba分词之前
添加一个自定义用户词典
把我们的惊奇队长添加到词典里面
最后就可以如我们所想的
完美显示啦
python的库朋友们
能做的不仅仅是这些
更多好玩儿的东西我们一起去探索呀
好啦啦啦啦啦
今天就比比到这里
喜欢的旁友们
可以多多兹瓷点点关注Ooooo
我们下期再见
Give me 5
点点好看 会变好看
以上是关于说说中文分词那些事儿的主要内容,如果未能解决你的问题,请参考以下文章