kaggle比赛一般几个人

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kaggle比赛一般几个人相关的知识,希望对你有一定的参考价值。

参考技术A

kaggle比赛的人数是没有固定限制的,因为这个比赛有很多题目是可以选的,根据不同的题目当然是有不同人数的,具体要求不过要注意大多数的题目,其实并没有具体的团队人数的限制。不过不是专业的团队人数最好是稍微控制一下,不要太多,如果人数有太多可能会导致划水量太大,这样就容易没有动力,而适当的减少人数反而能够减少划水量,这样可以更好的保持动力。要注意参加这个比赛的时候,想要做好就应该要专注再专注,还有不能只是纸上谈兵,应该要切实地动手去做。

参加 kaggle 最简单的流程就是:

第一步:在 Data 里面下载三个数据集,最基本的就是上面提到的三个文件,有些比赛会有附加的数据描述文件等。

第二步:自己在线下分析,建模,调参,把用 test 数据集预测好的结果,按照 sample_submission 的格式输出到 csv 文件中。

第三步:点击蓝色按钮 ’Submit Predictions’ ,把 csv 文件拖拽进去,然后系统就会加载并检验结果,稍等片刻后就会在 Leaderboard 上显示当前结果所在的排名位置。

参加kaggle竞赛是怎样一种体验?

参考技术A

首先说,绝大部分的Kaggle比赛是Data Mining(DM)比赛(除少数是和Discrete Optimization还有Computer Vision(CV) 有关),最重要的是和Machine Learning(ML)关系不大。这是很多人一个误区,往往希望在Kaggle上学到很多ML的知识。Kaggle教给我的第一件事情,就是让我清晰领会到了这两者之间的不同:ML一般从模型或者算法出发,讲的是模型或者算法本身存在的不合理的地方,然后提出新的假设,从而去优化模型或算法。在这个过程中并不针对某一个具体的特殊的问题。而DM恰恰相反,它是从数据本身问题本身出发,希望针对问题的特性来设计最适合的方案。关键是在于对问题和数据的理解。之前总是觉得,DM/CV的paper都好水,到处找一个应用套。在我想明白这个问题之后,我就开始懂得欣赏DM/CV的paper。

其次,我觉得在一个DM的比赛中,最能锻炼到的是对于数据的"嗅觉"。举一个最有趣的例子,往往在比赛中会存在Data Leakage的情况,也就是说,某些和label相关的信息不小心会泄漏在feature中。有人通过这样的feature取得了很好的成绩之后,往往有人觉得非常鄙视。当然我不是说Data Leakage是一件好事情,但是在这背后往往隐藏的是发现leakage的人对于数据本身深刻的认识。这并不是每个人都能做到的。换句话讲,就算没有leakage,这群人还是会排名很前。在Kaggle的比赛中,能收获最大的就是这种嗅觉。这其实也把我自己训练成了一个data believer:也许一次两次的巧合真的是意外,但是如果巧合总是持续发生,那么背后一定有一个原因。

参考技术B

Kaggle主要是以Data Mining的比赛为主,那么这个答案就非常直接了:Feature Engineering无数经验告诉我们,做Kaggle比赛如果是抱着Machine Learning的态度,沉迷于facny的模型而忽略数据本身,一定会死得很惨很惨!

当然,基本的ML知识还是有的。在比赛中,最常用的分类器一般是Gradient Boosting Tree(GBDT)和Random Forest(对,你没看错,不是那个在教科书中推Dual时让很多人痛不欲生的SVM)一些常见的预处理技巧,比如PCA,KMeans,TF/IDF,Hashing等等都还是必须的。这里就不展开讲了。

最后,但是非常关键的一点是Ensemble 从KDD Cup到Imagenet,我从来没见过ensemble不会改善结果的情况,只是多与少的问题。不做ensemble就意味着你自己告别了一大块宝藏。

参考技术C

参加过几次,只拿过几个前10%。

下面是我的一些个人经验:

1. 一定做Ensemble,甚至是对submissions做ensemble。

2. 目的如果单纯是拿好的排名,那么就找人多的比赛参加,因为那些参加人数上千的比赛里面大批僵尸参赛者,超过他们就可以进25%了。

3. 对大多数比赛来说,Feature Engineering比选用什么模型更重要

4. 多看论坛,大家会在比赛进行中讨论很多泛泛的思路,对自己可能有帮助。有时候会有人发布比较好的Beat the benchmark代码,仔细思考为什么这个模型能够work,在上面涂涂改改有时候效果更好。

5. 永远相信自己的cross validation结果,甚于public leaderboard,结束前后的榜单常常震动巨大,具体例子参见 Description - Africa Soil Property Prediction Challenge 和 Description - Higgs Boson Machine Learning Challenge6.

每次比赛最有价值的东西就是结束之后的方法分享帖,大家的方法都很不一样,挑一个说得比较全面清晰的方法,自己尝试重现一个一样或者接近的效果,然后再尝试改进它,这个过程能学到非常多东西。

以上是关于kaggle比赛一般几个人的主要内容,如果未能解决你的问题,请参考以下文章

收集几个打算做的kaggle比赛

kaggle比赛流程

Kaggle 比赛分类与学习资源整理

从 0 到 1 走进 Kaggle

Kaggle比赛总结

kaggle比赛含金量