R语言怎么给中文分词?

Posted 大数据DT

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言怎么给中文分词?相关的知识,希望对你有一定的参考价值。


原文网址:http://blog.csdn.net/wzgl__wh/article/details/52528925


准备包


    ①rJava包

    ② Rwordseg包

    ③java环境

    ④搜狗词库(此为扩展词库)


Rwordseg包依赖于rJava包。由于Rwordseg包并没有托管在CRAN上面,而是在R-Forge上面,因此在在R软件上面直接输入install.packages("Rwordseg")会提示错误。


因此,我们需要在软件菜单栏点击“程序包


选择软件库 在选择R-Forge 即可,然后输入install.packages("Rwordseg")应该就OK了。或者输入下面代码:


R语言怎么给中文分词?


R语言怎么给中文分词?


分词结果为:


"我"    "非常"  "喜欢"  "跟"    "着"    "菜"    "鸟"    "一起"  "学"    "R语言"     "这个"  "微信"  "公众"  "号"  



R语言怎么给中文分词?


这就是insertWords函数,其中save参数是指“是否把这个词保存到词典里面”。


R语言怎么给中文分词?

   


R语言怎么给中文分词?


结果为:



但是如果我们不需要“菜鸟”这个分词了怎么办,这个时候我们就可以使用deleteWords()函数来从词典中删除这个分词。


R语言怎么给中文分词?


这次我们在看看结果。


 "我"    "非常"  "喜欢"  "跟"    "着"    "菜"    "鸟"    "一起"  "学"    "R语言" "这个"  "微信"  "公众"  "号"  


接下来我们使用一下搜狗的扩展词库,由于电影跟新速度较快,我这里下载了搜狗的热门电影大全词库,如何加载使用搜狗词库,点击可以我的另外一条推送。


R语言怎么给中文分词?


59391 words were loaded! ... New dictionary 'movie' was installed!



现在我们来测试一下面这个句子: 你喜欢看最后的巫师猎人吗


R语言怎么给中文分词?


 "你"             "喜欢"           "看"             "最后的巫师猎人" "吗" 


可以看到“最后的巫师猎人”是一个词,如何我们把movie这个词典删除点会怎么样呢?


R语言怎么给中文分词?


"你"   "喜欢" "看"   "最后" "的"   "巫师" "猎人" "吗"  
     



近期精彩活动(直接点击查看):



END


版权声明:

大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

161224 

161222 

161216 

161213 

161208 

161206 

161205 

161129 

161126 

161122 

161119 

161114 

161112 

161108 

161107 

161105 

161025 

161023 

161016 

161014 

161009  

161001 

更多精彩文章,请在公众号后台点击“历史文章”查看,谢谢。

以上是关于R语言怎么给中文分词?的主要内容,如果未能解决你的问题,请参考以下文章

R语言中文分词包jiebaR

中文分词实践(基于R语言)

2019年了,中文分词到底该怎么做?中文分词十年方法大盘点

上车 | R语言中文分词10分钟快速入门

中文分词实践(基于R语言)

如何用R语言做中文分词