R语言怎么给中文分词?
Posted 大数据DT
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言怎么给中文分词?相关的知识,希望对你有一定的参考价值。
原文网址:http://blog.csdn.net/wzgl__wh/article/details/52528925
准备包
①rJava包
② Rwordseg包
③java环境
④搜狗词库(此为扩展词库)
Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages("Rwordseg")会提示错误。
因此,我们需要在软件菜单栏点击“程序包”
选择软件库 在选择R-Forge 即可,然后输入install.packages("Rwordseg")应该就OK了。或者输入下面代码:
分词结果为:
"我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"
这就是insertWords函数,其中save参数是指“是否把这个词保存到词典里面”。
结果为:
但是如果我们不需要“菜鸟”这个分词了怎么办,这个时候我们就可以使用deleteWords()函数来从词典中删除这个分词。
这次我们在看看结果。
"我" "非常" "喜欢" "跟" "着" "菜" "鸟" "一起" "学" "R语言" "这个" "微信" "公众" "号"
接下来我们使用一下搜狗的扩展词库,由于电影跟新速度较快,我这里下载了搜狗的热门电影大全词库,如何加载使用搜狗词库,点击可以我的另外一条推送。
59391 words were loaded! ... New dictionary 'movie' was installed!
现在我们来测试一下面这个句子: 你喜欢看最后的巫师猎人吗
"你" "喜欢" "看" "最后的巫师猎人" "吗"
可以看到“最后的巫师猎人”是一个词,如何我们把movie这个词典删除点会怎么样呢?
"你" "喜欢" "看" "最后" "的" "巫师" "猎人" "吗"
近期精彩活动(直接点击查看):
版权声明:
为大家提供与大数据相关的最新技术和资讯。
近期精彩文章(直接点击查看):
161224
161222
161216
161213
161208
161206
161205
161129
161126
161122
161119
161114
161112
161108
161107
161105
161025
161023
161016
161014
161009
161001
以上是关于R语言怎么给中文分词?的主要内容,如果未能解决你的问题,请参考以下文章