《自然语言处理实战入门》 文本检索 ---- 文本查询实例:ElasticSearch 配置ik 分词器及使用
Posted shiter
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《自然语言处理实战入门》 文本检索 ---- 文本查询实例:ElasticSearch 配置ik 分词器及使用相关的知识,希望对你有一定的参考价值。
常见的搜索联想有通过数据库来实现,比如mysql、oracle,通过sql语句的LIKE 查询,可以实现前缀匹配。
我们在文本检索过程中,主要使用倒排索引进行,但Elasticsearch默认的分词器将汉语文本直接分成了单个的汉字,正如第五小节代码清单显示的那样,这就会对检索结果产生影响,那么如何在Elasticsearch中引入汉语分词器,使得检索结果更加准确呢?
Ik 分词器的使用
IK分析插件集成了Lucene IK analyzer,IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。
从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
IK Analyzer 2012特性:
1.采用了特有
以上是关于《自然语言处理实战入门》 文本检索 ---- 文本查询实例:ElasticSearch 配置ik 分词器及使用的主要内容,如果未能解决你的问题,请参考以下文章
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
《自然语言处理实战入门》 ---- NLP方向:面试笔试题集
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强