数据挖掘之同义词挖掘

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘之同义词挖掘相关的知识,希望对你有一定的参考价值。

参考技术A 在搜索过程中,需要使用同义词来达到提高召回的目的,例如用户搜索:口红,但是商品名称却不含口红关键词,比如商品名为:xxx彩色唇膏。但其实两个词是指代同一产品。那么在用户搜索的时候,就搜不到对应的产品。这时可以 同义词词典来解决这个问题,使用Elasticsearch做搜索引擎,在query和索引数据时,先将query和doc分词,然后使用同义词替换,将特定词替换成同义词索引。

如:同义词词典 口红 => 彩色唇膏 彩色唇蜜

那么问题又来了?同义词词典怎么构建呢?

首先,很多人会想到使用word2vec来挖掘同义词,实际上根据word2vec的原理可知,其挖掘的topK相近词其实是基于 共现关系的相关词,并不是只有近义词,因此会出现很大的噪声。
使用word2vec挖掘

如上所示,虽然富裕的相近词,富有,富足有返回,但是穷困,平穷也有返回,词义恰恰是反义词,因此使用完全无监督的word2vec挖掘近义词效果并不好。
关于word2vec挖掘同义词还有两个思路。

参考:
https://zhuanlan.zhihu.com/p/33942535
https://www.zhihu.com/question/40777785/answer/88189037
http://www.mamicode.com/info-detail-2486542.html

2017-6-9长尾关键词优化

挖掘长尾思路和方法:

1.工具:词库 5118

2.分析同行网站关键词

潜在客户和目标客户可能搜素的词

精准用户:用seo举例,seo圈内人,

潜在客户:网站管理员,

分析精准用户和潜在客户搜索的词  、

1.他们的常见问题

2.使用工具

3.关注名人

4.关注的书籍

从上面4个分析分析精准用户和潜在客户搜索的词 ,放到词库和5118来挖掘。

高级方法: 非常牛逼方法

同义词替换+排列组合

比如:母婴用品网站

宝宝早期教育  分成两个词 宝宝 和早期教育,分别为这两个词找同义词 

 

更高级方法   :比如2017清华大学 高考分数  重庆火锅点装修方案  重庆火锅店装修效果 火锅店替换:麻辣烫等 装修安案:

以上是关于数据挖掘之同义词挖掘的主要内容,如果未能解决你的问题,请参考以下文章

搜索引擎中同义词的挖掘及使用

蟒蛇数据挖掘

《Mining of Massive Datasets》笔记

当我创建同义词时,我收到以下错误

东软实习之数据库(12)——序列索引同义词

Python数据挖掘006-数据集成