99.9%不知道的淘宝下拉关键词推荐算法

Posted 驭宝SEO

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了99.9%不知道的淘宝下拉关键词推荐算法相关的知识,希望对你有一定的参考价值。




1.什么是Query suggestion?


Query下拉推荐是指搜索引擎系统根据用户当前的输入,自动提供一个Query候选列表供用户选择,Query下拉提示(Query suggestion)在搜索引擎和广告竞价平台中已经是标配的产品。Query suggestion可以帮助用户明确搜索意图减少用户的输入节约搜索时间提高搜索体验有重要作用。各个搜索系统的下拉推荐的处理流程基本相同,下拉推荐不同主要体现在后台的query候选产生机制不同,下面介绍几种淘宝下拉推荐算法


2. 基于PV的下拉推荐


最简单的下拉推荐是基于Query log中每个Query历史PV,这是最直观的下拉推荐算法,主要分三步进行:


Offline部分

S1: 在海量Query log中,统计一段时间内每个Query的PV和点击数


Online部分

S1: 经过相似度计算,得到与用户输入 Query相似的候选Query集合


S2: 在相似的候选Query集合中,按照Query的 PV和点击数进行排序


这种方案简单易实现,但也存在如下问题

a. 对top Query的推荐解决较好,对于长尾Query,其相似的候选query可能从历史Querylog中挖掘不到


b. 候选Query语义相同问题,比如输入“连衣裙”,可能推荐“连衣裙女”和“连衣裙女款”两个候选Query,他们的语义基本相同,浪费了一个推荐位置


c. 推荐Query的质量问题,一些质量不高或者作弊Query,由于PV或者点击比较高而被推荐,使得一些质量高的Query没有机会推荐出来


3. 基于静态分的下拉推荐


为了改善上述单纯基于PV的问题,增加高质量Query的被推荐机会增大下拉推荐中作弊的成本改善推荐Query排序合理性引入query静态分的概念,并用基于Query静态分的下拉推荐策略替代原来单纯基于PV的策略。那么什么是Query的静态分?


Query静态分是Query质量的综合指标,该指标拟合了Query各维度的知识:比如Query PV、IPV、UV、IUV、IPVUV、CTR、成交转化率、成交笔数、成交金额、召回商品数等。


将上述知识用logistic回归的方法拟合成一个实数,基于静态分的下拉推荐与基于PV的下拉推荐不同之处在于:


a. 离线部分计算每个Query的静态分


b. 在线部分,利用静态分而不是PV对候选Query进行排序,Query静态分不仅考虑了Query的历史PV/点击信息,而且考虑了Query的交易信息,使得交易行为良好的Query获得更多的展现机会,大大降低了低质量和作弊Query的展现概率。


4. 基于CTR预估的下拉推荐


基于静态分的算法解决了给予高质量候选Query以更多的展现机会和排序位置,但是这种算法与基于PV一样,主要依赖于历史Query自身的特征,搜索Query与候选Query之间的联系仅仅是两者的前缀相同。这种简单的动态特征没有将搜索Query与候选Query紧密的结合在一起,同时静态特征和动态特征的组合都是基于线性加权,每种特征的权重都是在BTS中调整得到的。为了解决两方面的问题,建立搜索词与候选Query的动态联系,这种联系通过CTR来表示。搜索词与候选Query关联性强,它的CTR就会高,反之则会比较低


CTR预估模型

利用Logistic回归模型来预估Query的CTR,在模型中用到的特征如下

(1)搜索词与推荐Query(用表示)相关的特征;

(2)搜索词与推荐Query的类目相关特征;

(3)候选Query静态分相关特征;

(4)搜索(推荐)Query的词性特征;

(5)搜索(推荐)词对应的结果页面特征。


模型评估

MSE是比较实际值与预测之间的差异,差异值越小越好


上述特征大部分都能够通过离线计算出来,线上按照通过得到的候选Query的CTR值进行排序。


5. 下拉推荐进阶

1)拼音搜索、拼音和汉字混合

2)拼写纠错与下拉提示

3)作弊Query清理

4)个性化下拉推荐

5)推荐丰富度和多样性

6)多维度推荐(数据规模、商品、买家、卖家、买家卖家握手)


6.1)数据规模维度:买家数量、卖家数量、商品数量;商品属性和类目数量


6.2)商品维度:商品描述角度:卖家经常会对商品进行个性化的描述,以便区别其他卖家并争取更多的曝光量和更好的价格;商品不同分类角度:除了商品所属的后台类目,还可以按照商品使用状态分为用过的,翻新的,珍藏的、有多新/旧;商品准入角度:有一些类目商品是禁止的,如arms,酒精、烟草


6.3)买家:买家类型(casual shopper, impulsive shopper,value-driven shopper, collector flippers)、买家年龄、性别、购买力、价格区间、对品牌是否在意


6.4)卖家:卖家的商品在哪些类目、好评率是否高、发货时间、描述是否属实


6.5)买家和卖家握手:买家和卖家习惯可能不同:买家搜索词和卖家标题、属性、描述可能不一致,如何解决不一致问题


看完不过瘾

想要每天都有精彩实用干货

电商不死,我们就每天精彩不停!


VIP高级淘宝SEO系统培训班
——第十七期

4月15日-21日 杭州
3天2夜系统培训+4天落地实操
免费搜索流量
自然搜索排名
豆腐块卡位
了解更多精彩内容方式↓↓
QQ:800066939(搜索找服务)
电话:0571-87672319
微信:yubaoseo (八脚王)

以上是关于99.9%不知道的淘宝下拉关键词推荐算法的主要内容,如果未能解决你的问题,请参考以下文章

算法直聘淘宝推荐算法部-推荐&NLP P5/P6/P7

第三十四周问答:抖音推荐算法揭秘,淘宝的内容推荐机制或相同

没流量?因为你不懂淘宝天猫的信息流推荐算法

直聘淘宝技术部-推荐算法各级别岗-杭州/北京

推荐系统[八]算法实践总结V4:混排算法在淘宝信息流第四代混排调控框架实战,提升推荐实时性捕捉实时兴趣。

技术 | 5类系统推荐算法,告诉你用户需要什么