使用R语言进行中文分词
Posted 金豆数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用R语言进行中文分词相关的知识,希望对你有一定的参考价值。
准备包:①rJava包;②Rwordseg包;③java环境;④搜狗词库(此为扩展词库)。
Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages(“Rwordseg”)会提示错误。因此,我们需要在软件菜单栏点击程序包
选择软件库在选择R-Forge即可,然后输入install.packages(“Rwordseg”)应该就OK了。或者输入下面代码:
分词结果为:
[1]“我”“非常”“喜欢”“跟”“着”“菜”“鸟”“一起”“学”“R语言”“这个”“微信”“公众”“号”
这就是insertWords函数,其中save参数是指是否把这个词保存到词典里面。
结果为:
但是如果我们不需要“菜鸟”这个分词了怎么办,这个时候我们就可以使用deleteWords()函数来从词典中删除这个分词。
这次我们在看看结果。
[1]“我”“非常”“喜欢”“跟”“着”“菜”“鸟”“一起”“学”“R语言”“这个”“微信”“公众”“号”
接下来我们使用一下搜狗的扩展词库,由于电影跟新速度较快,我这里下载了搜狗的热门电影大全词库,如何加载使用搜狗词库,点击可以查看我的另一篇博客。
59391 words were loaded!…New dictionary ‘movie’ was installed!
现在我们来测试一下面这个句子:你喜欢看最后的巫师猎人吗
“你”“喜欢”“看”“最后的巫师猎人”“吗”
可以看到“最后的巫师猎人”是一个词,如何我们把movie这个词典删除点会怎么样呢?
[1]“你”“喜欢”“看”“最后”“的”“巫师”“猎人”“吗”
(来源:网络)
以上是关于使用R语言进行中文分词的主要内容,如果未能解决你的问题,请参考以下文章