使用R语言进行中文分词

Posted 金豆数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用R语言进行中文分词相关的知识,希望对你有一定的参考价值。


准备包:①rJava包;②Rwordseg包;③java环境;④搜狗词库(此为扩展词库)。


Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages(“Rwordseg”)会提示错误。因此,我们需要在软件菜单栏点击程序包


选择软件库在选择R-Forge即可,然后输入install.packages(“Rwordseg”)应该就OK了。或者输入下面代码:

使用R语言进行中文分词


使用R语言进行中文分词


分词结果为:


[1]“我”“非常”“喜欢”“跟”“着”“菜”“鸟”“一起”“学”“R语言”“这个”“微信”“公众”“号”


使用R语言进行中文分词


这就是insertWords函数,其中save参数是指是否把这个词保存到词典里面。

使用R语言进行中文分词


使用R语言进行中文分词


结果为:



但是如果我们不需要“菜鸟”这个分词了怎么办,这个时候我们就可以使用deleteWords()函数来从词典中删除这个分词。

使用R语言进行中文分词


这次我们在看看结果。


[1]“我”“非常”“喜欢”“跟”“着”“菜”“鸟”“一起”“学”“R语言”“这个”“微信”“公众”“号”


接下来我们使用一下搜狗的扩展词库,由于电影跟新速度较快,我这里下载了搜狗的热门电影大全词库,如何加载使用搜狗词库,点击可以查看我的另一篇博客。

使用R语言进行中文分词


59391 words were loaded!…New dictionary ‘movie’ was installed!



现在我们来测试一下面这个句子:你喜欢看最后的巫师猎人吗

使用R语言进行中文分词


“你”“喜欢”“看”“最后的巫师猎人”“吗”


可以看到“最后的巫师猎人”是一个词,如何我们把movie这个词典删除点会怎么样呢?

使用R语言进行中文分词


[1]“你”“喜欢”“看”“最后”“的”“巫师”“猎人”“吗”



(来源:网络)

使用R语言进行中文分词使用R语言进行中文分词
数据驱动医疗未来
www.kindo.com.cn
使用R语言进行中文分词
微信ID:yikumedu
长按左侧二维码关注

以上是关于使用R语言进行中文分词的主要内容,如果未能解决你的问题,请参考以下文章

R语言进行中文分词,并对6W条微博聚类

R语言中文分词包jiebaR

R语言文本处理中文分词并制作文字云

中文分词实践(基于R语言)

R语言之文本挖掘--分词

R语言可以这么玩 |可视化中文分词和词频统计!~