说说中文分词那些事儿

Posted 灰猴的日常

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了说说中文分词那些事儿相关的知识,希望对你有一定的参考价值。

小伙伴们

大家好呀

昨天上映的《惊奇队长》大家都去看了吗

没错

我和我的小伙伴去看了

就是下面这位



超强红蓝战衣

耀眼金发

无限火力

作为漫威的亲粉丝

这部漫威首次推出的女性超级英雄电影

必须安排上

话说

昨天还是3.8妇女节哦(或许不是巧合)

不过

看完这部电影给我的感受

中规中矩

剧情相对而言比较平淡

偏叙事一点

整部影片给我的感觉就是

惊奇队长的战斗力

很强

贼拉强

强的一批

可能是为了《复联4》预热吧


说说中文分词那些事儿


队长我们就暂时先聊到这里

进入正题

为了蹭一下惊奇队长的热点

本次分词的语料就是我

辛辛苦苦

从豆瓣影评上面

Ctrl+C Ctrl+V

(下次可能会使用一些技术手段说说中文分词那些事儿

就是下面

这样玩儿


说说中文分词那些事儿


语料准备好后

就是敲代码时间啦

这样玩儿


说说中文分词那些事儿


此次任务

我们主要用到python的三个库朋友

大名鼎鼎的jieba中文分词

名扬天下的matplotlib绘图

非常优秀的WordCloud词云展示


说说中文分词那些事儿

然后就是把我们的语料读取进来

这样玩儿

此处我们以只读方式r读取文件

默认编码形式“utf-8”


说说中文分词那些事儿


在open的过程中要注意编码形式

文件以什么编码类型写入

就必须以什么编码读取

否则会发生乱码(极度舒适)


说说中文分词那些事儿



然后就是利用jieba进行分词了

这样玩儿


说说中文分词那些事儿


jieba支持三种分词模式

精确模式

全模式

搜索引擎模式

此处我们就以默认精确模式

来进行分词

具体三种模式的区别和应用

可自行了解(不要嫌我懒哦)


说说中文分词那些事儿


分好词后

我们怎样用更直观的艺术来展现出来呢

那就要用到另外两个个库朋友

WordCloud和matplotlib

这样玩儿


说说中文分词那些事儿

可是

结果却不是我们想的那样

是不是觉得灰猴在坑你说说中文分词那些事儿


说说中文分词那些事儿


这是为什么呢

原来

wordcloud对我们中文十分不友好

ta默认使用的字体是英文的

但是也没什大不了

我们自定义一下输出字体

font_path=“simsun.ttf”

就完美解决了

这样玩儿


说说中文分词那些事儿


当然

如果你不想规规矩矩的显示

WordCloud依然可以满足你

ta支持指定蒙版做相应的词云显示

你只需要准备一张白色背景的图片

这样玩儿


说说中文分词那些事儿


嘿嘿嘿

小伙伴们有没有看出来

我用的是什么蒙版呢

有奖竞猜

后台回复正确答案

可获得精美小礼品一份哦说说中文分词那些事儿


说说中文分词那些事儿


好了

此次的分词任务我们到此结束

当然了

一开始的词云效果里面

并没有显示我们此次任务的主题

惊奇队长

而是

惊奇 队长

没错

这就是出现了我们上回书提到的未登录词

解决办法

就是

在jieba分词之前

添加一个自定义用户词典

把我们的惊奇队长添加到词典里面

最后就可以如我们所想的

完美显示啦




python的库朋友们

能做的不仅仅是这些

更多好玩儿的东西我们一起去探索呀


说说中文分词那些事儿


好啦啦啦啦啦

今天就比比到这里

喜欢的旁友们

可以多多兹瓷点点关注Ooooo

我们下期再见


          Give me 5  

                               

                    点点好看 会变好看


以上是关于说说中文分词那些事儿的主要内容,如果未能解决你的问题,请参考以下文章

《机器学习背后那些美妙的数学 之 中文分词》

百度中文分词技术是什么?

OpenNLP:驾驭文本,分词那些事

Neo4j全文检索之中文分词器

分词原理

说说Java生态圈的那些事儿