搜索引擎之同义词、近义词、上位词挖掘
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索引擎之同义词、近义词、上位词挖掘相关的知识,希望对你有一定的参考价值。
参考技术A 在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。在电商搜索环境中,同义词分成好几类:
1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯
2. 产品同义词:投影仪≈投影机,电话≈cell phone; automobile 和car。
3.旧词和新词:自行车 -> 脚踏车
4.南方用词和北方用词:番茄-> 西红柿。
5.传统的同义词:储物柜和收纳柜。
6.错别字同义词:瑜伽和瑜珈(错误写为斜王旁)
对应英文来说,还有词干提取,如单复数、动词原形和ing形式;英文还有一个特殊的现象,例如两个单词可以分开写,也可以合并在一起,例如keychain和key chian(钥匙链),boyfriend 和boy friend。
近义词就比较多了: 包括size 大码≈大号;短裤和热裤;边疆和边疆。
上位词:苹果手机上位词 是手机。
反义词:宽松和修身。当我们做query改写的时候,改写千万不能改写出反义词。
如果我们仔细观察,我们会发现有的词可以互相替换,有些词是只能单向替换(换一个方向就不对了,例如周杰伦可以替换为周董,但是周董只能在一定情况下替换为周董)。
我们可以从用户搜索词、商品标题、搜索和点击来获取。最根本的来源还是商家对商品标题的优化,聪明的商家会把同义词堆叠在标题中,以期望获取到更多的流量。
从点击日志上看,如果w1和w2是同义词,那么搜索w1和搜索w2,理论上会有大量的共同点击的商品x1、x2、x3等等。
标题商品标题得到大量的语料,例如投影仪和投影机,拉杆箱(draw bar box)和旅行箱(luggage)。
通过统计或者word2vec训练词的相关性,找到高相关度的词。统计这些词在标题中共同出现次数,即w1和w2的共现次数。
fromgensim.test.utilsimportcommon_texts,get_tmpfile
fromgensim.modelsimportWord2Vec
model_path="./data/word2vec_en_50d.model"
model=Word2Vec.load(model_path)
model.wv['computer']
Out[6]:
array([-0.48867282, -0.10507897, -0.23138586, -0.10871041, 0.1514824 ,
-0.01487145, -0.385491 , 0.01792672, -0.32512784, -0.9063424 ,
-0.5428677 , 0.6565156 , 0.02183418, 0.07939139, 0.03485253,
0.319492 , -0.27633888, 0.52685845, -0.0582791 , -0.4844649 ,
0.249212 , 0.8144138 , -0.03233343, -0.36086813, 0.34835583,
-0.07177112, 0.0828275 , 0.6612073 , 0.74526566, -0.12676844,
-0.08891173, -0.08520225, -0.04619604, 0.13580324, 0.183159 ,
0.15528682, 0.01727525, -0.43599448, -0.2579532 , -0.23192754,
-0.32965428, 0.09547858, 0.00419413, -0.06285212, 0.18150753,
-0.21699691, 0.60977536, -0.06555454, 0.35746607, -0.06610812],
dtype=float32)
In[13]:
model.wv.similarity('case','cover') # case 和cover在描述手机壳的时候基本是同义词
Out[13]:
0.8538678
In[22]:
defget_top_sim(word):
similary_words=model.wv.most_similar(word,topn=10)
forw,sinsimilary_words:
print(word,"=",w,s)
get_top_sim('case')
case = holder 0.8879926800727844
case = clamshell 0.887456476688385
case = tablet 0.8748524188995361
case = storage 0.8703626990318298
case = carrying 0.8672872185707092
case = hardcase 0.8580055236816406
case = carring 0.8558304309844971
case = seal 0.8552369475364685
case = cover 0.8538679480552673
case = stand 0.8476276993751526
通过word2vec,我们可以找出原始词和最相似的10个单词,然后我们统计origin 和substitute(原始词和替代词)在标题中的共现次数,通过这种挖掘,我们找到大量的候选词对,这种词通过人工review可以作为同义词的候选。
对这种情况稍微做一些扩展,我们就能得到同义query到同义query之间的对应关系。
统计分析上位词,统计每个商品类目下的产品词,出现次数top n的产品词w,对应到商品的类目词c,那么w -> c很可能 就是一个上位词关系。
在维护词表的时候,我们一定不能忘记人工词表。人工词表的维护必须要有后台工具。
1、在商品标题对应的索引词中做同义词扩展,当不用不管用同义词的哪一个来搜索的时候都可以搜索到。
2、在QueryProcess模块中,对词做同义词扩展、做近义词改写,改写出来的近义词的权重要比原始词的权重更小。在改写中,我们还会遇到一个问题,Q(分词为w1,w2,w3)改写成q1(w1,w2)和q2(w2,w3)的时候,我们会遇到q1和q2分别和Q如何计算相关性的问题。
3、当query 做同义词改写的时候,需要一些词做context(上下文)。如“周董的新歌”可以修改为“周杰伦的新歌”,但是“周董的公司”就未必是周杰伦的公司了。
参考文献:
1、 搜索引擎同义词反馈机制【百度搜索研发部】
2、https://www.docin.com/p-1136208118.html
3、 面向检索信息的同义词挖掘
Elasticsearch:如何在 Elasticsearch 中正确使用同义词功能
同义词用于提高搜索质量并扩大匹配范围。 例如,搜索 England 的用户可能希望找到包含 British 或 UK 的文档,尽管这三个词完全不同。
Elasticsearch 中的同义词功能非常强大,如果实施得当,可以使你的搜索引擎更加健壮和强大。 在本文中,我们将通过简单的代码片段介绍在实践中实现同义词功能的要点。 特别是,我们将介绍如何更新现有索引的同义词,这是一个相对高级的话题。
在今天的展示中,我将使用最新的 Elastic Stack 8.6.0,尽管版本不对我们的展示有任何的影响。
准备
我们将使用 Docker 在本地启动一个 Elasticsearch 服务器,并使用 Kibana 来管理索引和运行命令。 如果你以前从未使用过 Elasticsearch 或想快速复习一下,这篇文章可能会对你有所帮助。 如果你在 Docker 中运行 Elasticsearch 时遇到问题,这篇文章很可能会帮助你解决问题。在今天的文章中,我们尝试使用 docker 来部署一个没有安全功能的 Elasticsearch 集群。
准备就绪后,让我们开始探索 Elasticsearch 中的同义词功能的旅程。
我们将在本文中使用的 docker-compose.yaml 文件包含以下内容,稍后我们将向其添加更多功能:
docker-compose.yml
version: "3.9"
services:
elasticsearch:
image: elasticsearch:8.6.0
environment:
- discovery.type=single-node
- ES_JAVA_OPTS=-Xms1g -Xmx1g
- xpack.security.enabled=false
volumes:
- type: volume
source: es_data
target: /usr/share/elasticsearch/data
ports:
- target: 9200
published: 9200
networks:
- elastic
kibana:
image: kibana:8.6.0
ports:
- target: 5601
published: 5601
depends_on:
- elasticsearch
networks:
- elastic
volumes:
es_data:
driver: local
networks:
elastic:
name: elastic
driver: bridge
你可以使用以下命令之一启动 Elasticsearch 和 Kibana:
docker-compose up
或者
docker-compose up -d
如果加上 -d 选项的话,Elasticsearch 会以 daemon 的形式来运行。上面是一种最为简单的方式来启动 Elasticsearch 集群及 Kibana。由于它没有设置安全,我们无需输入任何凭证就可以直接进入到 Kibana 了。
使用带有同义词列表的标准同义词 token 过滤器
让我们首先使用带有同义词列表的标准同义词标记过滤器创建一个索引。 在 Kibana 中运行以下命令,我们将在稍后解释详细信息:
PUT synonyms
"settings":
"index":
"analysis":
"analyzer":
"index_analyzer":
"tokenizer": "standard",
"filter": [
"lowercase",
"synonym_filter"
]
,
"filter":
"synonym_filter":
"type": "synonym",
"synonyms": [
"elk => Elastic Stack",
"elkb => Elastic Stack"
]
,
"mappings":
"properties":
"name":
"type": "text",
"analyzer": "index_analyzer"
这里的要点:
- 请注意设置键的嵌套级别。 settings => index => analysis => analyzer/filter 都是内置关键字。 但是,index_analyzer 和 synonym_filter 分别是自定义分析器和过滤器的自定义名称。
- 我们需要创建一个 type 为 synonym 的自定义过滤器。 synonym 选项明确提供了同义词列表。 这通常应该只用于测试,因为更新同义词列表不方便,我们稍后会看到。
- 本文中使用了 Solr 同义词。 对于此示例,使用了显式映射,这意味着 => 左侧的标记将替换为右侧的标记。 稍后我们将使用等同的同义词,这意味着提供的 token 被等同对待。
- synonym_filter 添加到名为 index_analyzer 的新自定义分析器的过滤器列表中。 通常过滤器的顺序很重要。 然而,对于同义词过滤器来说,它有点特殊,可能会让我们中的许多人感到惊讶。 在此示例中,即使 synonym_filter 过滤器放在小写过滤器之后,此过滤器返回的标记也会传递给小写过滤器,因此也会变成小写。 因此,你不需要在同义词列表或同义词文件中提供小写 token。
- 最后,在文档的映射中,为名称字段指定了自定义分析器。
我们知道在早期的 Elastic 产品中 elk 就是 Elastic Stack 的代名词。之后随着 Beats 的加入,很多开发者也把 elkb 当做 Elastic Stack 的代名词。要测试在索引中创建的分析器,我们可以调用 _analyze 端点:
GET /synonyms/_analyze
"analyzer": "index_analyzer",
"text": "elk is powerful"
上面命令的输出为:
"tokens": [
"token": "elastic",
"start_offset": 0,
"end_offset": 3,
"type": "SYNONYM",
"position": 0
,
"token": "is",
"start_offset": 4,
"end_offset": 6,
"type": "<ALPHANUM>",
"position": 1
,
"token": "stack",
"start_offset": 4,
"end_offset": 6,
"type": "SYNONYM",
"position": 1
,
"token": "powerful",
"start_offset": 7,
"end_offset": 15,
"type": "<ALPHANUM>",
"position": 2
]
从上面的输出中,我们可以看到 type 为 SNONYM 的 token 为 elastic 及 stack。让我们向索引中添加一些文档并测试它在搜索中是否正常工作:
PUT /synonyms/_doc/1
"name": "elk is very powerful"
PUT /synonyms/_doc/2
"name": "elkb is useful"
PUT /synonyms/_doc/3
"name": "Elastic Stack is so widely used"
我们可以使用 match 关键字进行简单的搜索:
GET /synonyms/_search?filter_path=**.hits
"query":
"match":
"name": "elk"
如果没有问题,所有三个文件都应该被搜索到:
"hits":
"hits": [
"_index": "synonyms",
"_id": "2",
"_score": 0.31931418,
"_source":
"name": "elkb is useful"
,
"_index": "synonyms",
"_id": "1",
"_score": 0.29086044,
"_source":
"name": "elk is very powerful"
,
"_index": "synonyms",
"_id": "3",
"_score": 0.24686477,
"_source":
"name": "Elastic Stack is so widely used"
]
索引时间 vs 搜索时间进行同义词操作
如你所见,在上面的示例中,只创建了一个分析器,它用于索引和搜索。
不鼓励在索引(indexing)步骤中对所有文档应用同义词,因为它有一些主要缺点:
- 如果不重新索引所有内容,就无法更新同义词列表,这在实践中是非常低效的。
- 搜索分数会受到影响,因为同义词 token 也会被计算在内。
- 索引过程变得更加耗时并且索引将变得更大。 对于小数据集来说可以忽略不计,但对于大数据集来说非常重要。
因此,最好在搜索步骤中只应用同义词,这样可以克服所有三个缺点。 为此,我们需要创建一个用于搜索的新分析器。
使用 search_analyzer 并应用搜索时间同义词
在 Kibana 中运行以下命令以创建具有搜索时同义词的新索引:
PUT synonym_graph
"settings":
"index":
"analysis":
"analyzer":
"index_analyzer":
"tokenizer": "standard",
"filter": [
"lowercase"
]
,
"search_analyzer":
"tokenizer": "standard",
"filter": [
"lowercase",
"synonym_filter"
]
,
"filter":
"synonym_filter":
"type": "synonym_graph",
"synonyms": [
"elk => Elastic Stack",
"elkb => Elastic Stack"
]
,
"mappings":
"properties":
"name":
"type": "text",
"analyzer": "index_analyzer",
"search_analyzer": "search_analyzer"
关键点:
- 该类型现在更改为 synonym_graph,这是一个更复杂的同义词过滤器,旨在仅用作搜索分析器的一部分。 它可以更恰当地处理多词同义词,推荐用于搜索时分析。 但是,你可以继续使用原来的 synonym 类型,它在这篇文章中的表现是一样的。
- 同义词过滤器从索引时间分析器中删除并添加到搜索时间分析器中。
- search_analyzer 是为 name 字段明确指定的。 如果未指定,则相同的分析器 (index_analyzer) 将用于索引和搜索。
分析器应该返回与以前相同的 token。 然而,当你用这些命令为三个文档建立索引并再次执行相同的搜索后,结果会有所不同:
PUT /synonym_graph/_doc/1
"name": "elk is very powerful"
PUT /synonym_graph/_doc/2
"name": "elkb is useful"
PUT /synonym_graph/_doc/3
"name": "Elastic Stack is so widely used"
我们使用如下的命令来进行搜索:
GET /synonym_graph/_search?filter_path=**.hits
"query":
"match":
"name": "elk"
这一次,只有如下的结果返回。甚至 “elk is very powerful” 这个文档也没有被返回:
"hits":
"hits": [
"_index": "synonym_graph",
"_id": "3",
"_score": 2.3589978,
"_source":
"name": "Elastic Stack is so widely used"
]
原因是同义词过滤器仅在搜索时应用。 搜索查询 elk 被替换为同义词标记 “Elastic Stack”。 然而,索引中的文档没有被同义词过滤器(synonym_filter)过滤,因此 “elk” 只是被标记为 elk 而没有被 Elastic Stack 替换。 类似于 elkb。 结果,只能匹配 “Elastic Stack is so widely used”。
为了使其像前面的示例一样正常工作,我们需要将同义词规则从显式映射更改为等效同义词。 让我们按如下方式更新同义词过滤器:
......
"filter":
"synonym_filter":
"type": "synonym_graph",
"synonyms": [
"elk, elkb, Elastic Stack"
]
......
要更改现有索引的同义词,我们可以重新创建索引并重新索引所有文档,这是愚蠢且低效的。
更好的方法是更新索引的设置。 但是,我们需要在更新设置之前关闭索引,然后重新打开它才能访问它:
POST /synonym_graph/_close
PUT /synonym_graph/_settings
"settings":
"index.analysis.filter.synonym_filter.synonyms": [
"elk, elkb, Elastic Stack"
]
POST /synonym_graph/_open
请注意更新索引设置的特殊语法。
运行上述命令后,我们可以通过如下命令的返回值来进行验证:
GET synonym_graph
上面的命令返回:
"synonym_graph":
"aliases": ,
"mappings":
"properties":
"name":
"type": "text",
"analyzer": "index_analyzer",
"search_analyzer": "search_analyzer"
,
"settings":
"index":
"routing":
"allocation":
"include":
"_tier_preference": "data_content"
,
"number_of_shards": "1",
"provided_name": "synonym_graph",
"creation_date": "1673501061514",
"analysis":
"filter":
"synonym_filter":
"type": "synonym_graph",
"synonyms": [
"elk, elkb, Elastic Stack"
]
,
"analyzer":
"index_analyzer":
"filter": [
"lowercase"
],
"tokenizer": "standard"
,
"search_analyzer":
"filter": [
"lowercase",
"synonym_filter"
],
"tokenizer": "standard"
,
"number_of_replicas": "1",
"uuid": "UCIWtpQMTsCc1TwnvsywHA",
"version":
"created": "8060099"
让我们使用 _analyzer 端点测试 search_analyzer 并查看生成的 token:
GET /synonym_graph/_analyze
"analyzer": "search_analyzer",
"text": "elk"
上述命令返回:
它表明 elk 搜索查询被三个同义词的 token 替换和扩展(由 expand 选项控制)。 它还证明,如果在索引时应用等效同义词,则结果索引的大小可以显着增加。
然后当我们再次执行相同的搜索时:
GET /synonym_graph/_search?filter_path=**.hits
"query":
"match":
"name": "elk"
这次搜索的结果是:
"hits":
"hits": [
"_index": "synonym_graph",
"_id": "3",
"_score": 1.6949677,
"_source":
"name": "Elastic Stack is so widely used"
,
"_index": "synonym_graph",
"_id": "2",
"_score": 1.1220688,
"_source":
"name": "elkb is useful"
,
"_index": "synonym_graph",
"_id": "1",
"_score": 1.0126972,
"_source":
"name": "elk is very powerful"
]
我们可以看到三个文档都被搜索出来了。
使用同义词文件
上面我们一直在创建索引时直接指定同义词列表。 但是,当你有大量同义词时,将它们全部添加到索引中会很麻烦。 更好的方法是将它们存储在一个文件中,然后动态地将它们加载到索引中。 使用同义词文件有很多好处,其中包括:
- 方便维护大量的同义词。
- 可以被不同的索引使用。
- 可以在不关闭索引的情况下动态重新加载。
首先,我们需要先将同义词放入一个文件中。 每行都是一个同义词规则,与上面演示的相同。 更多细节可以在官方文档中找到。
我们将创建的同义词文件称为 synonyms.txt,但可以任意命名。 它具有以下内容:
$ pwd
/Users/liuxg/data/docker8
$ ls
docker-compose.yml synonyms.txt
$ cat synonyms.txt
# This is a comment! The file is named synonyms.txt.
elk,elkb,Elastic Stack
然后我们需要将同义词文件绑定到 Docker 容器中。 更新 docker-compose.yaml 如下:
docker-compose.yml
version: "3.9"
services:
elasticsearch:
image: elasticsearch:8.6.0
environment:
- discovery.type=single-node
- ES_JAVA_OPTS=-Xms1g -Xmx1g
- xpack.security.enabled=false
volumes:
- type: volume
source: es_data
target: /usr/share/elasticsearch/data
- type: bind
source: ./synonyms.txt
target: /usr/share/elasticsearch/config/synonyms.txt
ports:
- target: 9200
published: 9200
networks:
- elastic
kibana:
image: kibana:8.6.0
ports:
- target: 5601
published: 5601
depends_on:
- elasticsearch
networks:
- elastic
volumes:
es_data:
driver: local
networks:
elastic:
name: elastic
driver: bridge
我们可以使用 CTRL+C 来终止之前运行的 docker,然后再次使用如下命令来启动:
docker-compose up
请注意,同义词文件已加载到容器中的 config 文件夹中。你可以进入容器并使用以下两个命令之一检查它:
# User docker
docker exec -it elasticsearch-1 bash
# User docker-compose
docker-compose exec elasticsearch bash
现在我们需要停止并重新启动服务以使更改生效。 请注意,仅重新启动服务将不起作用。
docker-compose stop elasticsearch
docker-compose up -d elasticsearch
$ docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
3ae4b728dd44 kibana:8.6.0 "/bin/tini -- /usr/l…" 23 seconds ago Up 21 seconds 0.0.0.0:5601->5601/tcp docker8-kibana-1
878c82384761 elasticsearch:8.6.0 "/bin/tini -- /usr/l…" 23 seconds ago Up 22 seconds 0.0.0.0:9200->9200/tcp, 9300/tcp docker8-elasticsearch-1
$ docker exec -it docker8-elasticsearch-1 bash
elasticsearch@878c82384761:~$ pwd
/usr/share/elasticsearch
elasticsearch@878c82384761:~$ ls
LICENSE.txt NOTICE.txt README.asciidoc bin config data jdk lib logs modules plugins
elasticsearch@878c82384761:~$ cd config/
elasticsearch@878c82384761:~/config$ ls
elasticsearch-plugins.example.yml jvm.options log4j2.properties synonyms.txt
elasticsearch.keystore jvm.options.d role_mapping.yml users
elasticsearch.yml log4j2.file.properties roles.yml users_roles
从上面的输出中,我们可以看到 synonyms.txt 已经被成功地加载到容器里了。
然后我们可以使用同义词文件创建一个新索引:
PUT /synonym_graph_file
"settings":
"index":
"analysis":
"analyzer":
"index_analyzer":
"tokenizer": "standard",
"filter": [
"lowercase"
]
,
"search_analyzer":
"tokenizer": "standard",
"filter": [
"lowercase",
"synonym_filter"
]
,
"filter":
"synonym_filter":
"type": "synonym_graph",
"synonyms_path": "synonyms.txt",
"updateable": true
,
"mappings":
"properties":
"name":
"type": "text",
"analyzer": "index_analyzer",
"search_analyzer": "search_analyzer"
关键点:
- 对于 synonyms_path,它是同义词文件相对于 Elasticsearch 服务器中 config 文件夹的路径。
- 添加了一个新的 updateable 字段,它指定相应的过滤器是否可更新。 我们很快就会看到如何在不关闭和打开索引的情况下重新加载搜索分析器。
这个新索引 synonym_graph_file 的行为应该与前一个 synonym_graph 的行为相同。
现在让我们在同义词文件中添加更多的同义词,其内容如下:
$ pwd
/Users/liuxg/data/docker8
$ ls
docker-compose.yml synonyms.txt
$ cat synonyms.txt
# This is a comment! The file is named synonyms.txt.
elk,elkb,Elastic Stack
JS => JavaScript
TS => TypeScript
Py => Python
添加同义词后,我们可以关闭并打开索引使其生效。 然而,由于我们将同义词过滤器标记为可更新,我们可以重新加载搜索分析器以使更改立即生效,而无需关闭索引,因此无需停机。
要重新加载索引的搜索分析器,我们需要调用 _reload_search_analyzers 端点:
POST /synonym_graph_file/_reload_search_analyzers
上面的命令输出为:
"_shards":
"total": 2,
"successful": 1,
"failed": 0
,
"reload_details": [
"index": "synonym_graph_file",
"reloaded_analyzers": [
"search_analyzer"
],
"reloaded_node_ids": [
"tZLy82KRTaiCdpsbkEYnuA"
]
]
现在,当我们分析 JS 字符串时,我们将看到返回的 javascript token。
GET /synonym_graph_file/_analyze
"analyzer": "search_analyzer",
"text": "JS"
上面的命令返回:
"tokens": [
"token": "javascript",
"start_offset": 0,
"end_offset": 2,
"type": "SYNONYM",
"position": 0
]
这里应该注意两件重要的事情:
- 如果同义词过滤器的 updateable 设置为true,那么对应的分析器只能作为 search_analyzer 使用,不能用于索引,即使类型是同义词。
- updateable 选项只能在同义词文件与 synonyms_path 选项一起使用时使用,而不是在同义词直接通过 synonyms 选项提供时使用。
恭喜你到达这里! 我们已经涵盖了在 Elasticsearch 中使用同义词功能的所有要点。
我们已经分别介绍了如何在索引时间和搜索时间分析步骤中使用同义词。 此外,还介绍了如何直接提供同义词列表,以及如何通过文件提供。 最后但同样重要的是,介绍了关于如何更新现有索引的同义词列表的不同方法。 建议重新加载索引的搜索分析器,因为它不会给服务带来停机时间。
以上是关于搜索引擎之同义词、近义词、上位词挖掘的主要内容,如果未能解决你的问题,请参考以下文章
Elasticsearch:如何在 Elasticsearch 中正确使用同义词功能
Elasticsearch:如何在 Elasticsearch 中正确使用同义词功能