SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践
Posted Marcus-Bao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践相关的知识,希望对你有一定的参考价值。
SIGIR’20阿里巴巴利用Domain Adaptation在long-tail item上的实践
Domain Adaption应该是前几年CV里比较火的topic,这几年在推荐里也逐渐被应用了。。。 本文给分享的是阿里巴巴在SIGIR’2020上的一篇文章——《ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance》利用DA解决long-tail问题,提升模型表现。文中提到该方法已经在阿里实际业务上部署过,取得了不错的效果。
摘要&贡献
大部分ranking的模型都是基于被展示的items(大部分为hot items)进行训练,然后却被用来在整个displayed 和non-displayed items空间里进行检索和推荐(大部分non-displayed的为long-tailed items)。由于样本选择偏差,所谓的long-tailed items所学的特征表示也就是不充分(或者说有偏差的),这就导致了在这一部分长尾数据上表现比较差。
所谓长尾与否就可以根据其被展示的频率进行划分。本文作者对两个公开的数据集进行了分析,分别是MovieLens和CIKM Cup 2016 datasets,发现被展示过的items中有82%的为hot items,未被展示的有85%为long-tailed items。
以上是关于SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践的主要内容,如果未能解决你的问题,请参考以下文章
SIGIR2022 | 流行度偏差如何利用?探索解耦域适应无偏召回模型
[SIGIR‘22]图对比推荐论文SimGCL/XSimGCL算法和代码简介