SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践

Posted Marcus-Bao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践相关的知识,希望对你有一定的参考价值。

SIGIR’20阿里巴巴利用Domain Adaptation在long-tail item上的实践

Domain Adaption应该是前几年CV里比较火的topic,这几年在推荐里也逐渐被应用了。。。 本文给分享的是阿里巴巴在SIGIR’2020上的一篇文章——《ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance》利用DA解决long-tail问题,提升模型表现。文中提到该方法已经在阿里实际业务上部署过,取得了不错的效果。

摘要&贡献

大部分ranking的模型都是基于被展示的items(大部分为hot items)进行训练,然后却被用来在整个displayed 和non-displayed items空间里进行检索和推荐(大部分non-displayed的为long-tailed items)。由于样本选择偏差,所谓的long-tailed items所学的特征表示也就是不充分(或者说有偏差的),这就导致了在这一部分长尾数据上表现比较差。

所谓长尾与否就可以根据其被展示的频率进行划分。本文作者对两个公开的数据集进行了分析,分别是MovieLens和CIKM Cup 2016 datasets,发现被展示过的items中有82%的为hot items,未被展示的有85%为long-tailed items。

以上是关于SIGIR‘20阿里巴巴利用Domain Adaptation在long-tail item上的实践的主要内容,如果未能解决你的问题,请参考以下文章

SIGIR2022 | 流行度偏差如何利用?探索解耦域适应无偏召回模型

SIGIR2020推荐系统论文聚焦

[SIGIR‘22]图对比推荐论文SimGCL/XSimGCL算法和代码简介

SIGIR 2022 | 推荐系统相关论文分类整理

阿里技术专家详解 DDD 系列- Domain Primitive

ACM SIGIR 2022 | 美团技术团队精选论文解读