es自定义分词器插件通过IntelliJ Idea进行远程调试

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了es自定义分词器插件通过IntelliJ Idea进行远程调试相关的知识,希望对你有一定的参考价值。

参考技术A 2.1点击红色边框->点击Edit Configuration->点击左上角绿色的+号->remote
2.2 然后填入下图的内容, host为远程的主机ip,我这儿填写的是es集群机器ip,host端口随便填写一个,只要该端口未被占用即可。

2.3 配置es中的jvm,在jvm.options的结尾加上图2生成的
-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5000

2.4 然后本地分词器打上断点,给es的设置了分析器的字段推上数据,然后就可以进入到本地的分词器中。

Elasticsearch之中文分词器插件es-ik的自定义词库

 

 

  它在哪里呢?

   非常重要!

技术图片

[[email protected] custom]$ pwd
/home/hadoop/app/elasticsearch-2.4.3/plugins/ik/config/custom
[[email protected] custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic
[[email protected] custom]$

 

 

 

技术图片

技术图片

[[email protected] elasticsearch-2.4.3]$ ll
total 56
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 bin
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 18:46 config
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 data
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 lib
-rw-rw-r--. 1 hadoop hadoop 11358 Aug 24 2016 LICENSE.txt
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 25 05:15 logs
drwxrwxr-x. 5 hadoop hadoop 4096 Dec 8 00:41 modules
-rw-rw-r--. 1 hadoop hadoop 150 Aug 24 2016 NOTICE.txt
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 25 06:31 plugins
-rw-rw-r--. 1 hadoop hadoop 8700 Aug 24 2016 README.textile
[[email protected] elasticsearch-2.4.3]$ cd plugins/
[[email protected] plugins]$ ll
total 12
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 22 05:28 head
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 25 06:32 ik
drwxrwxr-x. 8 hadoop hadoop 4096 Feb 22 05:34 kopf
[[email protected] plugins]$ cd ik/
[[email protected] ik]$ ll
total 5828
-rw-r--r--. 1 hadoop hadoop 263965 Dec 1 2015 commons-codec-1.9.jar
-rw-r--r--. 1 hadoop hadoop 61829 Dec 1 2015 commons-logging-1.2.jar
drwxr-xr-x. 3 hadoop hadoop 4096 Jan 1 12:46 config
-rw-r--r--. 1 hadoop hadoop 55998 Jan 1 13:27 elasticsearch-analysis-ik-1.10.3.jar
-rw-r--r--. 1 hadoop hadoop 4505518 Jan 15 08:59 elasticsearch-analysis-ik-1.10.3.zip
-rw-r--r--. 1 hadoop hadoop 736658 Jan 1 13:26 httpclient-4.5.2.jar
-rw-r--r--. 1 hadoop hadoop 326724 Jan 1 13:07 httpcore-4.4.4.jar
-rw-r--r--. 1 hadoop hadoop 2667 Jan 1 13:27 plugin-descriptor.properties
[[email protected] ik]$ cd config/
[[email protected] config]$ ll

total 3016
drwxr-xr-x. 2 hadoop hadoop 4096 Jan 1 12:46 custom
-rw-r--r--. 1 hadoop hadoop 697 Dec 14 10:34 IKAnalyzer.cfg.xml
-rw-r--r--. 1 hadoop hadoop 3058510 Dec 14 10:34 main.dic
-rw-r--r--. 1 hadoop hadoop 123 Dec 14 10:34 preposition.dic
-rw-r--r--. 1 hadoop hadoop 1824 Dec 14 10:34 quantifier.dic
-rw-r--r--. 1 hadoop hadoop 164 Dec 14 10:34 stopword.dic
-rw-r--r--. 1 hadoop hadoop 192 Dec 14 10:34 suffix.dic
-rw-r--r--. 1 hadoop hadoop 752 Dec 14 10:34 surname.dic
[[email protected] config]$ cd custom/
[[email protected] custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic

 

 

 

技术图片

[[email protected] custom]$ cat ext_stopword.dic





使
























但[[email protected] custom]$  

 

 

 

 

 

 

大家,有兴趣,可以看看,英文停用词

http://www.ranks.nl/stopwords

技术图片

 

 

 

 

 

   

 

    大家,有兴趣,可以看看,中文停用词

技术图片

 

























































































以上是关于es自定义分词器插件通过IntelliJ Idea进行远程调试的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch自定义分词器

ik分词器 自定义字典无效问题以及解决

ElasticSearch学习 ④ IK分词器(elasticsearch插件)+自定义字典

ES-pinyin分词器安装

es7.x英文分词失效

Elasticsearch之中文分词器插件es-ik的热更新词库