盘点2017各大公司举办的数据挖掘大赛
Posted 人工智能与大数据技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了盘点2017各大公司举办的数据挖掘大赛相关的知识,希望对你有一定的参考价值。
网友投稿
转载请注明来自:大数据技术(ID:TheBigData1024)
2009年9月21日,一场历时三年的数据挖掘角逐终于落下帷幕。Netflix把百万美元颁发给一个7人研究小组,用于奖励他们把Netflix推荐系统的性能提高了10%(http://www.netflixprize.com/)。
2010年,kaggle平台(https://www.kaggle.com/)成立,为企业和数据挖掘人才建立起了桥梁:企业可以在平台上发布任务,悬赏吸引各路英豪,通过众包的方式解决建模问题;而参赛者则可以接触到丰富的真实数据,解决实际问题,造(zhuan)福(dian)人(xiao)类(qian)。
到今年,似乎大大小小的科技公司都看上了这种方式,这里就来简单盘点一下最近的数据挖掘大赛。
学生党性价比最高的比赛:腾讯社交广告高校算法大赛
参赛链接:
报名截止:5月31日
奖金指数:★★★★★
数据指数:★★★★
难度指数:★★★
优势:奖金丰厚、奖励力度大、TOP20队伍获得校招绿色通道。
劣势:仅针对在校学生,参赛对象范围较窄,不过这对于学生党也算是优势哦。
腾讯的社交广告是腾讯公司的第二大收入来源(仅次于腾讯游戏),腾讯这次把生金蛋的鹅拿出来溜溜也是诚意满满。从奖金看非常有吸引力,第一名30万人民币(还很“心机”地强行给指导老师发奖,冠军的指导老师送MacBook Air),就连第十名也有1万元的现金奖励,这样的奖励在以往的比赛中也是比较少见的。
这项比赛提供了腾讯部分用户在一个月里的广告点击行为和App安装行为,希望预测用户点了App广告之后,是否会进一步下载并打开(转化)。从题目看,可以说这是一个上手容易,做深难的问题。对于入门级的选手,现有的丰富特征已经可以快速跑出一个还不错的结果,也方便做各种机器学习工具的尝试。而要做深,可能就要仔细考虑App安装行为怎么建模了。同时这项比赛的数据规模也是同期赛事中最大的,决赛阶段还需要考虑如何在几亿条数据的规模下调参。
比较可惜的是,这项比赛只限在校生参加,当然这对于学生是个很好的机会。无论对于想熟悉大数据竞赛玩法的新手,还是对于想冲榜的大神,都非常值得一试。
最老牌的比赛:KDD Cup 2017
参赛链接:
报名截止:5月25日
奖金指数:★★★
数据指数:★★★★
难度指数:★★★★
优势:老牌比赛认可度高,数据挖掘专家云集的比赛,赛题新颖。
劣势:奖金略少、竞争非常激烈。
KDD Cup是由美国计算机协会(ACM)旗下数据挖掘分会举办的年度赛事。自1997年开始举办至今已有20年。作为一个老牌的数据挖掘竞赛,无论在学术界还是工业界,大家对这项赛事的认可度都非常高。这也吸引了全球顶级的数据挖掘专家前来参与其中,竞争非常激烈。从奖金来看,第一名6000美元的奖金并不高,但是夺冠能拥有的荣誉绝不是这6000美元所能比拟的。
今年的KDD Cup在阿里云的天池平台举办,天池平台从2014年开始举办阿里内外的各种数据类赛事,已是一个比较成熟的平台。
这次的赛题需要选手基于历史数据预测高速路口收费站的流量和通行时间。赛题数据规模并不大,约为几十万条车辆行驶记录,不过由于数据的结构比较特别,牵涉到道路的拓扑结构以及天气等各方面影响因素,要想做好也会比较有挑战。
最有挑战的比赛:滴滴-Udacity“无人驾驶”大挑战
参赛链接:
报名截止:4月22日
奖金指数:★★★★★
数据指数:★★★
难度指数:★★★★★
优势:奖金非常丰厚、比赛具有极强观赏性。
劣势:参赛门槛较高、奖金梯度过抖。
滴滴自去年发力投入无人车开始动作频频,这项赛事也展示滴滴对无人车的投入。比赛的冠军奖金是近期所有比赛中最高的,10万美元,但是奖金梯度很陡,第二名就只有1500美元了。这样的奖项设置会非常考验Top参赛者的心理素质,也让比赛变得很有观赏性。
更有挑战的是比赛的赛题,选手需要通过雷达、摄像头采集到的数据,计算出障碍物的位置。采用的评价指标是学术界比较主流的Kitti标准。整体而言这是一个非常专业的问题,参赛门槛比较高,从比赛中途延长了一个月也可以看出这一点。
与其他比赛不同的是,这项赛事需要选手提交高效运行的代码,而非仅仅是计算结果。算法需要运行在无人车平台上,以每秒10次的频率根据传感器传来的数据实时给出定位结果。比较有意思的是,参赛团队的代码需要开源,期待重金之下的勇夫。
京东JData算法大赛-高潜用户购买意向预测
参赛链接:
报名截止:5月13日
奖金指数:★★★★
数据指数:★★★★
难度指数:★★★
优势:奖金丰厚、排名靠前选手可能获得实习工作机会。
劣势:赛题经典,竞争激烈。
京东作为国内最大的自营电商,精准的商品推荐算法一直是其核心的技术。在这项比赛中,京东给出了部分用户在历史两个半月里的收藏、购买等行为,希望预测未来5天里的购买情况。从数据看,题目属于比较经典的推荐问题,不过比赛排名的指标是一个带权重的F1值,如何优化这样的目标会是选手遇到的一个挑战。京东算法大赛也给出了30万的冠军奖金,也给排名靠前的选手提供实习工作的机会,吸引力不小。
搜狐图文匹配算法大赛
参赛链接:https://biendata.com/competition/luckydata/
报名截止:5月12日
奖金指数:★★★
数据指数:★★★
难度指数:★★★★
优势:赛题新、图文匹配想象空间大、进入决赛者有机会获得搜狐offer。
劣势:奖金不算高,数据规模对于深度学习可能偏少。
搜狐为这项赛事提供了10万条新闻及其配图,希望选手给另外1万条新闻找到合适的配图。这场比赛是近期众多比赛中深度学习最有希望发挥优势的比赛,毕竟深度学习给图片和文本的直接匹配留下了很大的想象空间。喜欢玩深度神经网络的朋友不妨一试。
前海征信“好信杯”大数据算法大赛
参赛链接:https://kesci.com/apps/home_log/index.html#!/competition/58e46b3b9ed26b1e09bfbbb7/content/0
报名截止:5月10日
奖金指数:★★★
数据指数:★★★
难度指数:★★★
优势:比较难得的迁移学习数据竞赛。
劣势:奖金少、规模小、影响力略低。
前海征信是平安旗下专业第三方商业征信机构。比赛提供了4万条信用贷的记录以及4千条现金贷的记录,希望选手对现金贷的信用评分模型进行建模,预测客户是否会违约。这项比赛可以算是近期比赛中数据规模最小的,但也具有挑战。选手需要考虑的并不是用多么复杂的模型对数据进行建模,而是要用迁移学习的方法利用好4万条相关数据,改进对4千条数据的建模。
除了上面介绍的这些赛事,
华为(http://codecraft.huawei.com/home/introduce)、携程(https://kesci.com/apps/home_log/index.html#!/competition/58dba69775722d38fa2dfcf6/content/0)也举办了类似的大数据赛事。此外,kaggle、天池、DataCastle这类数据竞赛平台也会时不时地发布新的比赛。这些比赛的出现,其实对于多方都是有益的。
从学术发展的角度看,这些大赛帮助推进了算法的进化。Netflix的比赛中,研究人员为了赢得比赛,创造性地使用了SVD模型求解推荐问题,此后又进一步提出了SVD++模型,这两个模型到现在已经成为教科书般的经典。再比如KDD Cup 2011年的比赛中,上海交大和香港科大的联合队伍提出了SVDFeature模型,让这类分解模型也可以比较方便地加入特征。此后,在kaggle比赛中,Steffen Rendle用他的libFM模型横扫天下,通过单一模型拿了无数的第二名(第一名都是融合模型)。前两年霸榜各项大数据赛事的XGBoost以及最近的LightGBM,他们的作者陈天奇、柯国霖也都曾经是这些赛事的冠军。
从企业的角度看,通过举办数据挖掘竞赛,既能用较低的成本搜集新算法,还能发现合适的人才。实际上互联网企业举办比赛已经有很长时间的历史了,除去那些创新设计类的比赛,最经典的可能就是算法类竞赛了,比如2005年就开始举办的百度之星。但是时至今日,举办算法类比赛的企业已经越来越少了,这也是企业为了适应新的人才需求所作出的变化。
从参赛选手的角度看,参加数据挖掘竞赛既可以提升自己的数据挖掘技能,又可以近距离接触到企业的数据,无论是否拿奖,都会有不少收获。近几年有不少业界大拿也都是参加这类竞赛入门的。特别对于学生党,足不出户就能“实习”的机会甚是难得。至于赛题的选择,除了前面提到的那些,最重要的是看个人兴趣,就如前面介绍的竞赛涉及了广告、无人车、征信等多种不同的行业,或许未来的职业就开始于此。
●本文编号311,以后想阅读这篇文章直接输入311即可。
●输入m可以获取到文章目录
算法与数据结构
推荐:《》
涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、ios开发、C/C++、.NET、Linux、数据库、运维等。
以上是关于盘点2017各大公司举办的数据挖掘大赛的主要内容,如果未能解决你的问题,请参考以下文章