2020推荐系统大会(RecSys2020) 亮点
Posted 比图科技
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2020推荐系统大会(RecSys2020) 亮点相关的知识,希望对你有一定的参考价值。
RecSys是聚焦于推荐系统的ACM学术会议,因为推荐系统应用广泛,这个会议也吸引着大量工业界的朋友参加。
RecSys 2020 [1] 原计划在南美洲巴西举办,因为疫情,会议不得不改到线上举办。虽说线上举办会议,参会效果会打折扣,但也为远在北京的我提供了参会便利。得益于各方的努力和软件的应用,整体来看此次参会的效果高于我对它的预期。这里分享一些从工程师角度发现的亮点,希望对大家有所帮助。
会议组织的一些亮点
先简单介绍一下此次会议的组织方式,不得不说组织方确实用心了,为了确保会议正常进行,相关人员可能连续24个小时都没休息:
为了使全球各时区的参会人员都能方便地听到文章作者们的演讲,大多数演讲作者会在不同的时间段演讲两次
为了线上会议的流程可以顺利进行,大会利用Whova软件帮助整个流程,Whova当中包括了会议时间表,直播平台,收集提问,论坛交友,活动组织等功能
为了参会者可以方便集合自由讨论,大会用Gather.town组织Poster Session等活动,大家可以自行在一个虚拟的空间进行交流,下图,我站在这个虚拟空间过道的RECSYS面板前,算是拍照留念了
Gather.town虚拟空间
RecSys2020最新研究的一些亮点
这是我第三次参加RecSys。推荐系统的研究进展并不快,在会议上常常看到一些奇怪的研究方向,重复的研究结果,不过也能看到一些亮点。
工业方向亮点有
PURS: Personalized Unexpected Recommender System for Improving User Satisfaction
Behavior-based Popularity Ranking on Amazon Video
Query as Context for Item-to-Item Recommendation
这些方法要么经过工业界AB测试的验证,要么是工程实现简单,并能解决实际问题。
学术方向亮点有
Counterfactual Learning for Recommender System
Debiasing Item-to-Item Recommendations with Small Annotated Datasets
A Large-scale Open Dataset for Bandit Algorithms
这些方法要么新奇,未来前景广泛,要么公开了源代码或者数据。
PURS: Personalized Unexpected Recommender System for Improving User Satisfaction
作者Pan Li是NYU Stern School of Business的一名博士生,这个工作是与阿里巴巴合作的成果,为了解决推荐系统当中的Filter Bubble的问题,他们提出了PURS,并公布了PURS源代码 [2] ,这个工作的优势包括
在优酷App进行了AB测试,并在一些关键指标上面有很大的提升,其中人均观看时长提升了4.6%
这个工作和Filter Bubble有关,这个话题大家讨论很多,但是这个方向的有效的研究并不多,这个工作是少有奏效的方法
这个工作考虑到了Exploration个性化的问题,有些人愿意探索不同类型的视频内容,有些人不愿意,作者有考虑到这一点,实现了个性化的Exploration
PURS的推荐思路在Embedding上面的实现
Behavior-based Popularity Ranking on Amazon Video
作者Lakshmi Ramachandran是Amazon Video的Applied Scientists,介绍了他们的Popularity Ranking的工作。
之前我以为Popularty Ranking用当前统计的Populartity即可完成排序,没想到Popularity Ranking也可以利用机器学习解决Popularity Ranking当中的冷启动的问题:一些新的内容无法通过基于统计的Popularity Ranking排到一个好的位置,曝光给用户。
作者利用内容本身的一些文本信息、之前的流行度和用户的交互信息等数据预测当前的Popularity,最终以预测的Popularity进行排序。一个有趣的现象是内容在平台上存在的时长这一特征,这个特征会给新内容高的分数。下面的截图提到了Age Feature(在平台上存在的时长)的影响。
Age Feature(在平台上存在的时长)的影响,X轴为Age,Y轴为预测的Popularity
Query as Context for Item-to-Item Recommendation
作者Moumita Bhattacharya是ESTY.COM一家电商网站的Senior Applied Scientist,她介绍了ESTY打造相关商品推荐的技术选择。他们有6500万的商品这使得他们的技术选择和Amazon Video就会很不一样,Amazon Video的视频数量可能也就是几万的量级。
用户所看到的ESTY.COM的相关物品推荐
ESTY.COM 相关物品推荐的两个阶段
相关物品推荐分成两个阶段,在第一个阶段的Candidate Set Generation部分,他们利用Word2Vector的技术,把用户搜索点击的内容作为训练数据,给每个内容生成Embedding,之后用 Faiss: A library for efficient similarity search,返回与当前物品最相似物品列表作为Candidate Set。
第二阶段用lightGBM对Candidate Set进行排序。
这个工作的亮点之一是,他们利用了Context进行相关物品的个性化。下图是提到,可以将当前的节目作为Context,比如说在万圣节时期,给红色帽子推荐相关的物品,可以把一些适合万圣节,同时相关的物品推荐出来,而不是只推荐红色的帽子。
在万圣节期间,可以利用当前的节日作为Context,推荐符合当前节日的物品
Counterfactual Learning for Recommender System
作者Zhenhua Dong是华为诺亚方舟实验室的Principal Researcher,这次演讲汇总了华为在Counterfactual方向上的一系列成果。为了解决Counterfactual的问题,作者提出Uniform Unbiased Data,通过在从1%流量当中,随机选择内容向用户展现,使得每一个内容都有机会收集到用户的反馈。利用Uniform Unbiased Data,作者展开了一系统的研究和实验,取得了一系列的成果,其中之一是利用这1%的流量产生的Unbiased Data,创造了3%的指标提升。
作者在介绍Counterfactual machine learning
Debiasing Item-to-Item Recommendations with Small Annotated Datasets
作者Tobias Schnabel是微软研究院的研究员,他提出利用小规模的标注数据来提升Item-to-Item的推荐(和之前提到的一个物品的相关推荐一样),同时公布了数据和源代码 [3]。智能不够,人工来凑。实验表明这种方式的确有效,这说明我们的训练数据当中有很多干扰,并不能完全表示用户对所有物品的喜好。工业界或许可以利用之前提到的Unbiased Data达到Small Annotated Dataset的效果。
文章当中的方法比其它的方法都要好
Large-scale Open Dataset for Bandit Algorithms
From Workshop: REVEAL 2020: Bandit and Reinforcement Learning from User Interactions
Yann Lecun说RL是整个机器学习蛋糕上面的樱桃
作者Yuta Saito是一名本科生,在这次Workshop展示了他在RL&Bandits方向的工作。
强化学习的核心问题之一是如何在上线或者进行实验之前,评估训练好的强化学习的模型,也就是Offline Policy Evaluation。学术界提出了很多的方法,很多都是用模拟器产生的数据,但是少有实际数据的支持。
这个工作提供了两组通过Uniform Rank和 Bernoliour Rank产生的服饰购物行为数据,其可以用来测评不同的Offline Policy Evaluation的效果,也可以用来开发新的Policy,用Offline Policy Evaluation进行评测 。Open Bantids Pipeline开源项目源 [4] 包含很多代码注释,代码质量高。
在3个展示位置收集的用户购物行为
作者提出的OPEN BANDIT PIPELINE
推荐系统不像图像识别,理论上推荐系统是典型的强化学习的应用场景,但限于各种工程约束和理论的不成熟,强化学习一直没有很好地应用于推荐系统,最近几年业界开始有成功的应用。这个领域值得继续关注。
总结
这次线上RecSys体验别具一格,并没有像我之前担心的那样,效果打很多折扣,很多参会者也有很认真准备演讲。希望下次RecSys能看到更多的有亮点的工作。
参考资料
[1] RecSys 2020官网:https://recsys.acm.org/recsys20/
[2] PURS 开源代码:https://github.com/lpworld/PURS
[3] Debiasing Item-to-Item Recommendations with Small Annotated Datasets的开源代码和数据:https://github.com/microsoft/debiasing-item2item
[4] Open Bandits Pipeline 开源项目代码:https://github.com/st-tech/zr-obp
以上是关于2020推荐系统大会(RecSys2020) 亮点的主要内容,如果未能解决你的问题,请参考以下文章
围观RecSys2020 | 推荐系统顶会说了啥?(附论文打包下载)
学习推荐系统必看的10篇RecSys论文,收藏!(官方推荐)