Lucene 为带有元音变音的单词创建索引

Posted

技术标签:

【中文标题】Lucene 为带有元音变音的单词创建索引【英文标题】:Lucene create index for words with umlauts in stratio 【发布时间】:2016-12-16 18:13:41 【问题描述】:

我有类似in this thread 描述的问题。我想使用 GermanNormilizationFilter 之类的东西来转换 'ue' -> 'ü' 等变音符号,反之亦然。

我使用 cassandra stratio 插件,并希望使用 official examples 中的 cql 语句创建索引

【问题讨论】:

【参考方案1】:

基本上,您想使用lucene german analyzer 的一部分,但不是全部。

在 cassandra-lucene-index 中,您可以使用 custom analyzer 来生成一个 jar 并将其包含在 cassandra lib 文件夹中。

顺便说一句,由于您只需要德语分析器的一部分功能,您可以基于德语分析器构建您自己的自定义,只需编辑一些行。

如果您仔细查看lucene German analyzer code,您会发现您只需要编辑(删除/评论)createComponents 方法中的一些行。

【讨论】:

以上是关于Lucene 为带有元音变音的单词创建索引的主要内容,如果未能解决你的问题,请参考以下文章

Lucene-01:创建索引

lucene创建索引的几种方式

Lucene索引的初步创建

04.全文检索的原理-创建索引

将 UTF8 输入从 JSP 表单传输到 Spring 控制器会破坏元音变音[重复]

lucene 全文检索原理和流程