海量数据丰厚奖金,美团外卖推荐技术评测邀你来战!
Posted 美团技术团队
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了海量数据丰厚奖金,美团外卖推荐技术评测邀你来战!相关的知识,希望对你有一定的参考价值。
互联网的出现和普及在满足用户需求的同时带来了极大便利,与此同时,海量的商品及信息也给注意力有限的用户带来困扰。解决这类信息超载问题的一种有效方法是推荐技术,它可以根据用户的需求,兴趣,为用户推荐其可能感兴趣的商品或信息,已经成为学术界和工业界最为关注的研究问题之一。相较于普通的电商推荐,外卖推荐具有用户属性多维,用户决策时间短,用户兴趣具有周期性等特点,这也给外卖推荐技术研究带来了更多挑战。
SMP 2021美团外卖推荐技术评测由中国中文信息学会社会媒体处理专委会主办,美团和北京邮电大学联合承办,美团提供原始数据集及奖金,旨在促进外卖推荐技术和推荐系统领域的发展。在此,评测会务组诚邀各个团队或个人参加本次外卖推荐技术评测活动!
参赛者须知:比赛于6月21日开赛,7月5日公布数据,为了让比赛更贴近真实场景,组委会已于7月21日开放更近期的数据用于训练和评测排名,同时公开原数据测试集答案,选手需要将模型/方法迁移到新数据上进行训练和评测。两次数据均来自真实场景,符合用户行为的自然分布,原数据上的方法/模型可直接用于新数据。但由于两次数据加密编码方式存在差异,因此不可混合使用。
评测任务
本届美团外卖推荐的评测内容包含两个子任务,即基于用户在美团App的历史外卖订单行为,为用户推荐商家或菜品。参赛者可以选择参加任意一个任务或全部任务。
任务难点
目前学术界研究推荐算法常用的数据集有Douban(豆瓣打分数据集)、Amazon-Book(亚马逊书籍数据), Yelp(美国餐饮评分数据),MovieLens(电影数据集)等。外卖图谱推荐数据和上述现有的开源推荐数据相比,拥有以下特点:
(1)现有的开源数据,如Douban, Yelp, MovieLens主要为用户和商家/商品的交互打分数据,而外卖图谱数据结构更加复杂,信息更加丰富,其中节点和边的类型繁多,涉及商家、商品、用户的属性及上下文环境等多个维度;
(2)Amazon-Book数据集包含评分的同时,包含了图书相关的常识性图谱。但是相比现有的常识性图谱,外卖图谱中包含的商家/商品图谱中的部分信息由各个商家提供,存在格式众多,归一化困难等问题,也是研究基于外卖图谱的推荐算法的一个重要挑战;
(3)相比其他的商家或商品推荐,LBS(基于位置的服务)是外卖商家或商品推荐独有的特性,上述数据集均不具备该特性。即用户只能和其地理位置附近的商家或用户进行交互,不在相同地理区域的用户和商家无法发生交互。当用户的地理位置发生改变,可与用户交互的商家或者用户也会发生改变。图谱标签可建立不同位置的商家商品和用户之间的关系,这就提升了图谱标签在LBS推荐中可发挥价值的空间。
(4)此外,和基于上述开源数据的推荐算法不同,外卖餐饮用户的决策过程受到时空因素的影响。外卖图谱数据中包含了用户下单决策过程中的时空场景因素,这也是目前开源的推荐数据所不具备的,且目前的推荐模型也很少建模时空因素。
数据说明
原有数据(7月5日更新,该数据在数据包原数据-20210301-20210328展示)。
数据集源于美团App中来自北京11个商圈(蜂窝)的用户在2021年3月1日至2021年3月28日(四周)的订单及相关信息,包含了用户外卖订单,用户属性,商家属性,菜品属性,订单-菜品关系,以及订单下单前的商家点击序列共六类文件,数据规模如下:
该数据集按照时间划分为训练集与测试集,前三周(3月1日至3月21日)的数据作为训练集,最后一周(3月22日至3月28日)的数据作为测试集。其中,
新增数据(7月21日更新,为了更贴近真实场景,新增6月份数据,同时公开原数据测试集答案,在原数据-label-20210301-20210328中展示)。
该数据集按照时间划分为训练集与测试集,前20天(6月7日至6月27日)的数据作为训练集,最后5天(6月28日至7月2日)的数据作为测试集。
本次评测任务是利用以上文件信息,对文件orders_test.txt中的用户在最后一周可能购买的商家或菜品进行预测。
注:两次数据均来自真实场景,符合用户行为的自然分布,原数据上的方法/模型重训后可直接用于新数据。但由于两次数据加密编码方式存在差异,因此不可混合使用。选手仍可以通过迁移学习等方法使用原数据+新数据进一步提升实验结果。
详细数据示例、评测指标参考链接:
SMP2021-EMWRT 美团外卖推荐技术评测——菜品推荐
SMP2021-EMWRT 美团外卖推荐技术评测——商家推荐
注册报名
有意向参加的单位机构请直接填写在线报名表,或者扫描下方二维码进入在线报名表填写。
如报名存在任何问题,请联系评测会务组:smp2021emwrt@163.com
重要日期
以下所有时间点为北京时间(GMT+8)11:59 PM
除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。
报名:2021年6月15日-2021年8月5日
数据集上线:2021年6月21日
第一个任务评测结束:2021年6月21日-2021年8月15日
第二个任务评测结束,公布结果:2021年6月21日-2021年8月15日
撰写技术报告:2021年8月15日-2021年8月25日
SMP2021大会期间召开颁奖典礼:2021年9月3日-2021年9月5日
竞赛规则与提交物
1. 每支参赛队伍最多不超过3名队员。
2. 每支参赛队伍需指定一名队长,名称不超过15个字符。
3. 每名选手只能参加一支队伍,一旦发现某位选手参加多支队伍,将取消所有相关队伍的参赛资格。
4. 各参赛单位不可以使用除承办方提供的训练数据之外的标注数据,如若不确定外部数据是否可用,请发邮件与组委会联系。
5. 提交物:每支队伍需在提交最终结果截止时间之前,提交评测集的最终结果。最终将需要提交可运行的代码和测试结果,以邮件附件的形式发送到smp2021emwrt@163.com,邮件主题为”队伍名称-SMP2021美团外卖推荐评测提交”。代码以压缩包的形式提交,命名为”队伍名称-代码.zip”。测试结果形式:商家推荐任务上的最终结果文件命名为“队伍名称-商家.txt”,菜品推荐任务上的最终结果文件命名为“队伍名称-菜品.txt”,格式形如:
订单ID 订单Top5 商家ID(或菜品ID)
注意:每行是一条数据结果,订单ID与Top5商家ID之间用制表符\\t分隔,Top5商家ID之间同样用制表符\\t分隔。数据ID编号需要保证与所发布测试集的数据ID编号相同。提交的结果文件必须是无BOM的UTF-8格式文本文件;文件中不要有多余的空格。
奖励
额外奖励:一等奖队伍(学生参赛团队)均可获得实习直通终面名额!
评测委员会
评测委员会主席:
杨成(北京邮电大学)
王栋(美团)
评测委员会成员:
方瑞玉(美团)
张路浩(美团)
杨天持(北京邮电大学)
许斯泳(北京邮电大学)
联系方式
如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:
smp2021emwrt@163.com
致谢:
1. 主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
2. 承办方:北京邮电大学,美团
3. 赞助方:美团
比赛讨论区
如有任何问题,欢迎加入比赛的微信讨论群。
请添加biendata小助手,可以通过以下二维码添加小助手好友,添加请备注“机构+姓名+美团商家推荐2021”,备注格式不正确将不予通过。
如果您已添加数据竞赛小助手,请直接私信:机构+姓名+美团商家推荐2021。由数据竞赛小助手邀请加入比赛讨论群。
以上是关于海量数据丰厚奖金,美团外卖推荐技术评测邀你来战!的主要内容,如果未能解决你的问题,请参考以下文章
“伏魔”赏金 | WebShell检测之「模拟污点引擎」首次公测,邀你来战!
鲲鹏入晋 万里腾飞,鲲鹏应用创新大赛2021山西赛区邀你来战!
国际自主智能机器人大赛强势来袭,NAACL同声传译任务等你来战