推荐系统实践与思考-20201107

Posted 蚂蚁笔记2020

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐系统实践与思考-20201107相关的知识,希望对你有一定的参考价值。

Q1: fm、ffm、nn等模型实现了特征交叉,还有必要人为构造交叉特征吗?

A1: 有必要!上述模型学习的是两个独立的特征embedding的交叉,先人为构造交叉特征再输入模型之后得到的是一个单独的embedding;在线上实践中,向nn模型中仅仅增加数个人工交叉特征即可实现百分位的auc提升;


Q2: 在构造样本时,有时只选取最大点击位置以上的数据作为样本,为什么?

A2: 是为了去除伪曝光样本。最大点击位置以上的数据肯定曝光过,反之则不然,无法判断用户是否真的感兴趣,这种思想即是above click;有关负样本使用可以参考最新论文:Embedding-based Retrieval in Facebook Search; 曝光未点击样本使用可以参考论文: Unclicked User Behaviors Enhanced Sequential Recommendation


Q3: 在视频推荐中短视频完成率天然就高,如何处理呢?

A3: 可以加入时长做样本调权;


Q4: 如何使用one-hot或者embedding表示多值特征?

A4: 特征的每个值都会有一个单独的编码,该特征最终的表示可以通过将多值的编码取sum或者avg;


Q5: 在离线auc都涨,但是ctr等线上指标没涨,为什么?

A5: 首先保证没有bug;然后check一下包含/去除0值之后的auc;最后再check一下是否有融合等其他逻辑把收益吃掉了;


Q6: 可以用曝光未点击的样本作为cvr负样本吗?

A6: 不可以,cvr计算的是转化率,必须先有点击才能有转化;cvr的负样本必须是点击未转化的;


Q7: 如何使用用户的dislike信息?

A7: 可以考虑将这部分样本过滤或者降权,或者作为负样本;


Q8: 如何避免模型一直放出相似的item?

A8: 可以增加更多特征,避免模型过于依赖少数特征;也可以在排序后(我司叫GR)阶段通过强插、探索、规则等方式增加多样性;


Q9: 如何使用时间信息,比如文章发布时间、用户注册时间等?

A9: 可以计算不同行为时间段内的信息(如有必要,结合分桶),这个是比较有效的特征;


Q10: 为什么工业界很少使用xgboost等树模型?

A10:

(1)需要大量统计特征,效果不一定好;

(2)不支持增量,每次都是全量计算;

(3)不支持embedding,容易过拟合;

(4)不支持多模态;

(5)nn可以做各种结构改变、拓展,树模型可拓展性较差;

(6)不支持大规模id特征;


注:以上是本蚁在日常工作中的实践&思考,部分内容来自浅梦的学习交流小组中成员们的讨论和解答,这是他创建了一个推荐相关的知识星球,如感兴趣,可以扫码加入



以上是关于推荐系统实践与思考-20201107的主要内容,如果未能解决你的问题,请参考以下文章

推荐系统学习大纲与实践!

推荐系统Bias与Debias 2020最新综述 By 何向南组

推荐系统原理

推荐系统的工程实现

详解 | 推荐系统的工程实现

推荐系统背后的冷思考