jiebaR 中文分词详解

Posted 2020-12-28 rhadoop-hive

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了jiebaR 中文分词详解相关的知识，希望对你有一定的参考价值。

jiebaR 中文分词详解

一、分词

实现来看一下jiebaR 里面最重要的一个函数worker，通过它，我们可以设置一些分词类型，用户字典，停用词等等，函数语法为：

worker(type = "mix"
　　　　, dict = DICTPATH
　　　　, hmm = HMMPATH
　　　　, user = USERPATH
　　　　, idf = IDFPATH
　　　　, stop_word = STOPPATH
　　　　, write = T
　　　　, qmax = 20
　　　　, topn = 5
　　　　, encoding = "UTF-8"
　　　　, detect = T
　　　　, symbol = F
　　　　, lines = 1e+05
　　　　, output = NULL
　　　　, bylines = F
　　　　, user_weight = "max"
　　　　)

参数注释：

参数	作用
type	指分词引擎类型，这个包包括mix,mp,hmm,full,query,tag,simhash,keyword，分别指混合模型，支持最大概率，隐式马尔可夫模型，全模式，索引模型，词性标注，文本simhash相似度比较，关键字提取。
dict	词库路径，默认为dictpath
hmm
user	用户自定义的词库
idf
stop_word	用来指定停词的路径
qmax	词的最大查询长度，默认为20，可用于query分词类型
topn	关键词的个数，默认为5，可以用于simhash和keyword分词类型
symbol	输出是否保留符号，默认为F
Lines	文件中最大一次读取的行数，默认为100000行
output	输出文件，文件名一般以系统时间结尾
bylines	返回输入的文件有多少行
user_weight	用户词典的词权重，有“min”,“max”,“median”三个选项

另外一个函数是segment，有三个参数，code 好比一个任务，jiebar就是一个worker，到那时担心worker 对工作的方法不懂，那就用mode 参数告诉worker 怎么做，也就是用什么分词引擎分词，作用分别如下：

参数	作用
code	中文句子或者文件
jiebar	设置分词的引擎，也就是worker函数
mod	改变默认的分词引擎类型，其中包括以下几个： "mix", "hmm","query","full","level", "mp"

接着做一个小测试：

以上是关于jiebaR 中文分词详解的主要内容，如果未能解决你的问题，请参考以下文章

如何用R语言做中文分词

R语言中文分词包jiebaR

R语言jiebaR包文本中文分词及词云制作上机练习

R语言中文分词包jiebaR

R专题区|中文分词入门之—jiebaR

R文本挖掘之jiebaR包

jiebaR 中文分词详解

jiebaR 中文分词详解

一、 分词

一、分词