Elasticsearch同义词问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch同义词问题相关的知识,希望对你有一定的参考价值。

我已经看过围绕这个问题的其他问题,但它似乎没有帮助。

我不得不改变“i phone”或“i Phone”的输入来查询Elasticsearch中的“iPhone”。

正如你所看到的,我已经尝试了大部分我能想到的东西,包括简单的“phone => iPhone”,并留下“i”在那里闲逛,并可能将它添加到停用词。

我尝试过为自定义分析器使用“简单”,“关键字”,“标准”和“空白”。

任何人都可以找到我出错的地方,这是我完成项目之前的最后一个问题,所以我们不胜感激。谢谢

附:如果你包括如何在输入上做自动建议,那么奖励积分,谢谢

以下是我的代码

public static CreateIndexDescriptor GetMasterProductDescriptor(string indexName = "shopmaster")
        {
            var indexDescriptor = new CreateIndexDescriptor(indexName)
                .Settings(s => s
                            .Analysis(a => a
                                .TokenFilters(t => t
                                    .Stop("my_stop", st => st
                                        .StopWords("_english_", "new", "cheap")
                                        .RemoveTrailing()
                                    )
                                    .Synonym("my_synonym", st => st
                                        .Synonyms(
                                            "phone => iPhone"
                                        //"i phone => iPhone",
                                        //"i Phone => iPhone"
                                        )
                                    )
                                    .Snowball("my_snowball", st => st
                                        .Language(SnowballLanguage.English)
                                    )
                                )
                                .Analyzers(an => an
                                    .Custom("my_analyzer", ca => ca
                                        .Tokenizer("simple")
                                        .Filters(
                                            "lowercase",
                                            "my_stop",
                                            "my_snowball",
                                            "my_synonym"
                                        )
                                    )
                                )
                            )
                        )
                .Mappings(
                    ms => ms.Map<MasterProduct>(
                        m => m.AutoMap()
                            .Properties(
                                ps => ps
                                    .Nested<MasterProductAttributes>(p => p.Name(n => n.MasterAttributes))
                                    .Nested<MasterProductAttributes>(p => p.Name(n => n.ProductAttributes))
                                    .Nested<MasterProductAttributeType>(p => p.Name(n => n.MasterAttributeTypes))
                                    .Nested<Feature>(p => p.Name(n => n.Features))
                                    .Nested<RelatedProduct>(p => p.Name(n => n.RelatedProducts))
                                    .Nested<MasterProductItem>(
                                        p => p.Name(
                                                n => n.Products
                                            )
                                            .Properties(prop => prop.Boolean(
                                                b => b.Name(n => n.InStock)
                                            ))
                                    )
                                    .Boolean(b => b.Name(n => n.InStock))
                                    .Number(t => t.Name(n => n.UnitsSold).Type(NumberType.Integer))
                                    .Text(
                                        tx => tx.Name(e => e.ManufacturerName)
                                            .Fields(fs => fs.Keyword(ss => ss.Name("manufacturer"))
                                                    .TokenCount(t => t.Name("MasterProductId")
                                                            .Analyzer("my_analyzer")
                                                    )
                                            )
                                            .Fielddata())
                                    //.Completion(cm=>cm.Analyzer("my_analyser")
                                    )
                    )
                );
            return indexDescriptor;
        }
答案

过滤器的顺序很重要!

您正在应用小写,然后是词干(雪球)然后是同义词。同义词包含大写字母,但在应用它们时,已经发生了小写。首先应用小写是一个好主意,以确保大小写不影响同义词的匹配,但在这种情况下,你的替换不应该有大写。

不应该在同义词之前应用词干分析器(除非你知道你在做什么,并且正在比较后词干术语)。我相信,Snowball会将'iphone'转变为'iphon',所以这是你遇到麻烦的另一个领域。

"lowercase",
"my_synonym",
"my_stop",
"my_snowball",

(并且不要忘记从同义词中删除大写字母)

以上是关于Elasticsearch同义词问题的主要内容,如果未能解决你的问题,请参考以下文章

[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置

Elasticsearch 中的同义词相关性问题

Elasticsearch同义词问题

实时更新 Elasticsearch 同义词

elasticsearch 使用同义词

在 Elasticsearch 中加载自定义同义词文件时出错