Coggle 30 Days of ML 7月竞赛学习
Posted Datawhale
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Coggle 30 Days of ML 7月竞赛学习相关的知识,希望对你有一定的参考价值。
Part1 内容介绍
在给大家分享知识的过程中,发现很多同学在学习竞赛都存在较多的问题:
Pandas、Numpy 处理数据不熟悉
Sklearn、LightGBM 模型使用不熟悉
不知道如何构建特征工程、筛选特征
NLP模型不知道如何搭建
而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动,希望能够帮助大家入门数据竞赛。在活动中我们将布置具体竞赛任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。
7月份的竞赛活动将以以下两个比赛展开:
糖尿病遗传风险检测挑战赛
汽车领域多语种迁移学习挑战赛
Part2 活动安排
活动是免费学习活动,不会收取任何费用。
请各位同学添加下面微信,并回复【竞赛学习】,即可参与。
Part3 积分说明和奖励
为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成7月学习后(本次活动,截止到7月24号),将按照积分顺序进行评选 Top3 的学习者。
打卡可以写在一个地址,每次有新完成的可以重复提交打卡!
Top1的学习者将获得以下奖励:
Coggle 竞赛专访机会
《机器学习算法竞赛实战》
Top10的学习者将获得以下奖励:
“讯飞 x Datawhale” 联合颁发的优秀选手证书。
Coggle 周边福利
Coggle 竞赛专访机会
Part4 糖尿病遗传风险检测挑战赛
学习内容
本教程主要是针对糖尿病遗传风险检测挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习特征工程、特征筛选和模型调参过程。
比赛报名地址:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01
赛题介绍
在这次比赛中,您需要通过训练数据集构建糖尿病遗传风险预测模型,然后预测出测试数据集中个体是否患有糖尿病,和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。对于测试数据集当中的个体,您必须预测其是否患有糖尿病(患有糖尿病:1,未患有糖尿病:0),预测值只能是整数1或者0。
训练集(比赛训练集.csv)一共有5070条数据,用于构建您的预测模型(您可能需要先进行数据分析)。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识(最后一列),您也可以通过特征工程技术构建新的特征。
测试集(比赛测试集.csv)一共有1000条数据,用于验证预测模型的性能。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度。
打卡汇总
任务名称 | 难度 |
---|---|
任务1:比赛报名 | 低、1 |
任务2:比赛数据分析 | 低、1 |
任务3:逻辑回归尝试 | 低、1 |
任务4:特征工程 | 中、2 |
任务5:特征筛选 | 中、2 |
任务6:高阶树模型 | 中、2 |
任务7:多折训练与集成 | 高、3 |
打卡要求
注:
需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程,可以加入尝试&资料记录
Part5 汽车领域多语种迁移学习挑战赛
学习内容
本教程主要是针对汽车领域多语种迁移学习挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习文本分类和关键词提取。
比赛报名地址:http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-gzh05
赛题介绍
国内车企为提升产品竞争力、更好走向海外市场,提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束,要做好海外智能化交互,本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。
本次迁移学习任务中,讯飞智能汽车BU将提供较多的车内人机交互中文语料,以及少量的中英、中日、中阿平行语料作为训练集,参赛选手通过提供的数据构建模型,进行意图分类及关键信息抽取任务,最终使用英语、日语、阿拉伯语进行测试评判。
1.初赛
训练集:中文语料30000条,中英平行语料1000条,中日平行语料1000条
测试集A:英文语料500条,日文语料500条
测试集B:英文语料500条,日文语料500条
2.复赛
训练集:中文语料同初赛,中阿拉伯平行语料1000条
测试集A:阿拉伯文语料500条
测试集B:阿拉伯文语料500条
本模型依据提交的结果文件,采用accuracy进行评价。
意图分类accuracy = 意图正确数目 / 总数据量
关键信息抽取accuracy = 关键信息完全正确数目 / 总数据量
打卡汇总
任务名称 | 难度 |
---|---|
任务1:比赛报名 | 低、1 |
任务2:文件读取与文本分词 | 低、1 |
任务3:TFIDF与文本分类 | 低、1 |
任务4:正则表达式 | 中、2 |
任务5:BERT模型入门 | 中、2 |
任务6:BERT文本分类 | 中、2 |
任务7:BER实体抽取 | 中、2 |
打卡要求
注:
需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程,可以加入尝试&资料记录
一键三连,一起学习⬇️
以上是关于Coggle 30 Days of ML 7月竞赛学习的主要内容,如果未能解决你的问题,请参考以下文章
Coggle 30 Days of ML打卡广告-信息流跨域ctr预估