R语言中文分词包jiebaR
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言中文分词包jiebaR相关的知识,希望对你有一定的参考价值。
前言
本文挖掘是数据挖掘中一个非常重要的部分,有非常广阔的使用场景,比如我们可以对新闻事件进行分析,了解国家大事;也可以对微博信息进行分析,通过社交舆情看看大家的关注点。通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章;同时可以对邮件分析,结合bayes算法判断哪些是垃圾邮件,哪些是有用的邮件。
本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果。R语言在分词方面有很好的支持,接下来就给大家介绍一个不错的R语言中文分词包“结巴分词”(jiebaR)。
目录
jiebaR包介绍
5分钟上手
分词引擎
配置词典
停止词过滤
关键词提取
完整文章:http://blog.fens.me/r-word-jiebar/
以上是关于R语言中文分词包jiebaR的主要内容,如果未能解决你的问题,请参考以下文章
R语言实战应用精讲50篇(十八)-R语言实现分词词频与词云案例解析