java 中文分词为啥用 ik

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 中文分词为啥用 ik相关的知识,希望对你有一定的参考价值。

为什么呢?因为Lucene自带的分词器比较适合英文的分词,而IK首先是一个中文的分词器。
具体的优点先不细说,单说分词的结果来看:

1 比如说 我爱北京

使用自带的分词 我/爱/北/京
IK分词 我/爱/北京
2 可以自己扩展词典
有很多分词器是不能够进行自己扩展词典的,有自己的词典,导致分词的结果才是自己想要的结果。
3 可以自己定义停用词字典
4 和Lucene结合比较高,有很多封装好的模块。用来检索非常顺手。
当然,IK自2012年已经不再维护了。后面有出现了很多其他的分词器。
参考技术A ik分词器简单容易控制啊,反正我个人觉得ik不错

以上是关于java 中文分词为啥用 ik的主要内容,如果未能解决你的问题,请参考以下文章

ELK专栏之IK分词器和Java api操作索引--05

中文分词工具哪个好用

IK(中文)分词器

Elasticsearch安装ik中文分词插件

ES中安装中文/拼音分词器(IK+pinyin)

solr ik分词怎样取消英文字母和数字分词