Coggle 30 Days of ML 7月竞赛学习

Posted Datawhale

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Coggle 30 Days of ML 7月竞赛学习相关的知识,希望对你有一定的参考价值。

Part1 内容介绍

在给大家分享知识的过程中,发现很多同学在学习竞赛都存在较多的问题:

  • Pandas、Numpy 处理数据不熟悉

  • Sklearn、LightGBM 模型使用不熟悉

  • 不知道如何构建特征工程、筛选特征

  • NLP模型不知道如何搭建

而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动,希望能够帮助大家入门数据竞赛。在活动中我们将布置具体竞赛任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。

7月份的竞赛活动将以以下两个比赛展开:

  • 糖尿病遗传风险检测挑战赛

  • 汽车领域多语种迁移学习挑战赛

Part2 活动安排

  • 活动是免费学习活动,不会收取任何费用。

  • 请各位同学添加下面微信,并回复【竞赛学习】,即可参与。


Part3 积分说明和奖励

为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成7月学习后(本次活动,截止到7月24号),将按照积分顺序进行评选 Top3 的学习者。

打卡可以写在一个地址,每次有新完成的可以重复提交打卡!

Top1的学习者将获得以下奖励

  • Coggle 竞赛专访机会

  • 《机器学习算法竞赛实战》

Top10的学习者将获得以下奖励

  • “讯飞 x Datawhale” 联合颁发的优秀选手证书。

  • Coggle 周边福利

  • Coggle 竞赛专访机会

Part4 糖尿病遗传风险检测挑战赛

学习内容

本教程主要是针对糖尿病遗传风险检测挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习特征工程、特征筛选和模型调参过程。

比赛报名地址:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01

赛题介绍

在这次比赛中,您需要通过训练数据集构建糖尿病遗传风险预测模型,然后预测出测试数据集中个体是否患有糖尿病,和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。对于测试数据集当中的个体,您必须预测其是否患有糖尿病(患有糖尿病:1,未患有糖尿病:0),预测值只能是整数1或者0。

训练集(比赛训练集.csv)一共有5070条数据,用于构建您的预测模型(您可能需要先进行数据分析)。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识(最后一列),您也可以通过特征工程技术构建新的特征。

测试集(比赛测试集.csv)一共有1000条数据,用于验证预测模型的性能。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度。

打卡汇总

任务名称难度
任务1:比赛报名低、1
任务2:比赛数据分析低、1
任务3:逻辑回归尝试低、1
任务4:特征工程中、2
任务5:特征筛选中、2
任务6:高阶树模型中、2
任务7:多折训练与集成高、3

打卡要求

注:

  • 需要所有的任务可以写在一个博客内

  • 推荐在打卡过程中加入思考过程,可以加入尝试&资料记录

Part5 汽车领域多语种迁移学习挑战赛

学习内容

本教程主要是针对汽车领域多语种迁移学习挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习文本分类和关键词提取。

比赛报名地址:http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-gzh05

赛题介绍

国内车企为提升产品竞争力、更好走向海外市场,提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束,要做好海外智能化交互,本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。

本次迁移学习任务中,讯飞智能汽车BU将提供较多的车内人机交互中文语料,以及少量的中英、中日、中阿平行语料作为训练集,参赛选手通过提供的数据构建模型,进行意图分类及关键信息抽取任务,最终使用英语、日语、阿拉伯语进行测试评判。

1.初赛

  • 训练集:中文语料30000条,中英平行语料1000条,中日平行语料1000条

  • 测试集A:英文语料500条,日文语料500条

  • 测试集B:英文语料500条,日文语料500条

2.复赛

  • 训练集:中文语料同初赛,中阿拉伯平行语料1000条

  • 测试集A:阿拉伯文语料500条

  • 测试集B:阿拉伯文语料500条

  1. 本模型依据提交的结果文件,采用accuracy进行评价。

  • 意图分类accuracy = 意图正确数目 / 总数据量

  • 关键信息抽取accuracy = 关键信息完全正确数目 / 总数据量

打卡汇总

任务名称难度
任务1:比赛报名低、1
任务2:文件读取与文本分词低、1
任务3:TFIDF与文本分类低、1
任务4:正则表达式中、2
任务5:BERT模型入门中、2
任务6:BERT文本分类中、2
任务7:BER实体抽取中、2

打卡要求

注:

  • 需要所有的任务可以写在一个博客内

  • 推荐在打卡过程中加入思考过程,可以加入尝试&资料记录

一键三连,一起学习⬇️ 

以上是关于Coggle 30 Days of ML 7月竞赛学习的主要内容,如果未能解决你的问题,请参考以下文章

Coggle 30 Days of ML打卡广告-信息流跨域ctr预估

Mysql查询今天昨天7天近30天本月上一月数据

mysql查询今天昨天7天近30天本月上一月 数据

GitHub 热门:机器学习 100 天!

mysql查询今天,昨天,近7天,近30天,本月,上一月数据的SQL

第十七届全国大学生智能车竞赛日期