ElasticSearchIK分词加入标点符号
Posted 九师兄
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ElasticSearchIK分词加入标点符号相关的知识,希望对你有一定的参考价值。
1.概述
转载并且补充:https://blog.csdn.net/loyopp/article/details/47758247
IK分词默认的分词结果是没有标点符号的,看了一番源码。发现直接修改源代码加入标点需要改动多处。
所以想到了一个策略,从外部包一层代码,先让ik分词,然后检测它的前后是否有遗漏符号,然后将符号加入分词结果中。
当然,大家如果有好的方法,请上交!
下边是源码部分:
maven依赖
<!--<dependency>-->
<!--<groupId>io.github.zacker330.es</groupId>-->
<!--<artifactId>ik-analysis-core</artifactId>-->
<!--<version>1.0.0</version>-->
<!--</dependency>-->
<!-- https://mvnrepository.com/artifact/cn.bestwu/ik-analyzers -->
<dependency>
<groupId>cn.bestwu</groupId>
<artifactId>ik-analyzers</artifactId>
<version>5.1.0</version>
</dependency>
代码
package com.es.participles.IK;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import java.io.StringReader;
/**
* @author: chuanchuan.lcc
* @date: 2021-06-23 22:28
* @modifiedBy: chuanchuan.lcc
* @version: 1.0
* @description:
*
* IK 分词器包含 标点符号
*/
public class IKHavePunctuation {
/**
* 测试点:测试IK分词器 能分出来标点符号
* 参考:https://blog.csdn.net/loyopp/article/details/47758247
* 测试结果:
*
* 原句:^_^ 你好,ik分词!
* 分词:^ _ ^ 你好 , ik 分词 !
*
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception {
String input = "^_^ 你好,ik分词!";
Lexeme beforeWord = null;
Lexeme currentWord = null;
StringBuffer sb = new StringBuffer();
IKSegmenter ik = new IKSegmenter(new StringReader(input), true);
System.out.println("原句:"+input);
while ((currentWord = ik.next()) != null) {
sb.append(appendSymbol(input, beforeWord, currentWord));
beforeWord = currentWord;
}
sb.append(appendSymbol(input, beforeWord, currentWord));
System.out.println("分词:"+sb.toString().replaceAll(" +", " ").trim());
}
/**
* 补全IK分词遗漏的符号
* @param line
* @param before
* @param cur
* @return
*/
public static String appendSymbol(String line, Lexeme before, Lexeme cur) {
String res = "";
if (before == null) {// 第一个词前边的符号
res = cur.getLexemeText() + " ";
int start = cur.getBegin();
if (start > 0) {
String left =appendWhiteSpace(line.substring(0, start));
res = left + res;
}
} else if (cur == null) {// 最后一个词后边的符号
int end = before.getEndPosition();
if (end < line.length()) {
String right =appendWhiteSpace( line.substring(before.getEndPosition()));
res = right;
}
} else { // 和前一个词之间的符号
res = cur.getLexemeText() + " ";
int beforeEnd = before.getEndPosition();
if (cur.getBegin() > beforeEnd) {
String mid = appendWhiteSpace(line.substring(beforeEnd, cur.getBegin()));
res = mid + res;
}
}
return res;
}
/**
* 你好吗 -> 你 好 吗
* @param src
* @return
*/
public static String appendWhiteSpace(String src){
String dst="";
for (char c : src.toCharArray()) {
dst += c + " ";
}
return dst;
}
}
以上是关于ElasticSearchIK分词加入标点符号的主要内容,如果未能解决你的问题,请参考以下文章
Elasticsearchik分词器安装SpringBoot整合docker安装ESKibananginx
2021年大数据ELK:Elasticsearch安装IK分词器插件