中国高校大数据挑战赛含金量
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中国高校大数据挑战赛含金量相关的知识,希望对你有一定的参考价值。
大学生计算机高含金量比赛海书学长
来自专栏大学生综测加分专栏
1.竞赛内容
第三届全国高校计算机能力挑战赛分设大数据应用赛、人工智能应用赛、Office高级应用赛、程序设计赛、嵌入式系统应用赛和数字媒体创新设计赛六大赛项。
2.参赛对象
全日制高等院校专、本、硕大学生均可参赛。
大数据应用赛、人工智能应用赛、嵌入式系统应用赛和数字媒体创新设计赛为团队赛。每个参赛队可由不同学校的 1~3名学生组成,可设置1名指导老师。
Office高级应用赛和程序设计赛为个人赛,设指导老师一名,初赛指导老师颁发电子版证书。
3.竞赛形式
本次大赛各赛项和科目均分为两个赛段。
其中大数据应用赛、人工智能应用赛、嵌入式系统应用赛和数字媒体创新设计赛为团队作品赛,初赛为在线提交,参赛队伍登陆官网
http://www.cnccac.com/m/index/login/tuser/290143/ttype/1
提交作品。评审专家组先进行网络初评,通过初评的队伍可晋级决赛
答辩,决赛答辩根据情况由各赛项承办院校组织线下答辩或网络远程答辩。
Office高级应用赛和程序设计赛设初赛和决赛两个赛段。初赛通过在线智慧监考上机竞赛,参赛学生在
本校机房或其他空间通过带有摄像头的电脑登陆官网参赛。决赛段各赛区根据情况,组织线下赛或在线
智慧监考上机竞赛。 参考技术A 除了教育部指定的竞赛排行榜里的比赛,其他比赛基本没含金量,但参加也无可厚非,可以当做练手
第二届“中国高校计算机大赛-大数据挑战赛” 20名
赛题地址:http://bdc.saikr.com/vse/bdc/2017
1 引言
本次大赛以某人机验证产品采集的鼠标轨迹脱敏数据为基础,期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。复赛在DIX平台上利用初赛3000条训练集数据轨迹预测200万条测试集数据轨迹。
1.1 基本解题思路
由于复赛的200万条数据与初赛的训练集和A、B榜数据存在很大的不同,初赛特征不能完全适用于复赛,所以我们队在复赛期间重新观察3000训练数据(具体见2.1节)后认为:机器样本之中也存在着多种不同的类别,同样的特征在不同机器类别中会出现互斥现象,即多个特征用在同一模型的效果不如将多个特征分开使用的效果好。故而我们队采用不同的模型识别不同种类的机器样本,最后将不同模型的识别结果合并作为最终的机器样本结果。
我们队主要分为了五个不同的预测结果,包括四个GBDT模型及特征和一条规则,具体为:
1) GBDT1:主要以初赛的模型特征作为基础,特征20维;
2) rule:以3000训练集中的2800-2900机器样本为基础提取的规则;
3) GBDT2:采用一定条件对预测集数据进行筛选,再采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘轨迹是否有回勾’两个特征;
4) GBDT3:采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘角度唯一值个数的变异系数’两个特征;
5) GBDT4:采用gbdt模型训练预测,包括‘y方向增量的增量平均卷积的标准差’及‘y方向增量的增量标准差卷积的标准差’两个特征。
1.2 文件代码描述
所有代码包含在‘code’文件夹内,在DIX平台的运行方式参见3.2节,每一个代码文件的具体作用如下:
2 get_feature.py——初赛20维训练集测试集特征提取
2 GBDT.py——GBDT1模型训练及预测结果
2 rules.py——rule规则提取结果
2 get_linefeature.py——GBDT2、GBDT3、GBDT4训练集测试集特征提取
2 lineGBDT.py——GBDT2模型训练及预测结果
2 angleGBDT.py——GBDT3模型训练及预测结果
2 rollingGDBT.py——GBDT4模型训练及预测结果
2 merge.py——预测结果合并
2 模型及特征工程
2.1 数据观察
如上述所言,我们重点对3000训练集中的后400机器样本进行了轨迹观察,包括x、y方向速度、增量标准差、加速度等。最后我们将400条黑样本划分为了三个大类:
1)2601-2800为一大类,该类中按顺序每50条轨迹为一小类,该大类的主要特点就是每一条轨迹都能在其所属的小类中找到模板,即其最终的序列是相同的,只是根据验证码滑块的位置取到不同的序列,如图2-1所示就是2601-2650小类中x方向增量为0的序列
图2-1
2)2801-2900为一大类,该类的主要特点是其x方向的增量固定,用我们的特征表示为delt_x_std(x方向上增量标准差)为0。
3)2901-3000为一大类,该类的主要特点是y会频繁地随机上下波动,对y方向上的增量取窗口为2的滑窗标准差,其序列相比于前2900条轨迹更为散乱,即标准差更大。
2.2 GBDT1
该模型以初赛的模型特征作为基础,经过特征筛选后的最终特征20维,具体含义如下:
- 起始点特征:
2 ‘first_data_x’, #起始点x坐标
2 ‘first_speed_x’, #起始点x方向速度
2 ‘first_data_y’, #起始点y坐标
2 ‘first_delt_t’, #起始点与第二个点时间的时间差
- 统计信息特征:
2 ’X_max‘, #轨迹x坐标的最大值
2 ’y_min‘, #轨迹y坐标的最小值
2 ‘x_min ##轨迹x坐标的最小值
- 规则特征:
2 ‘data_x_return‘, #是否有回勾
- 交叉特征
2 ‘speed_xstd_laststd‘ #x 方向速度全局的标准差与最后9个点标准差的比值
以上是关于中国高校大数据挑战赛含金量的主要内容,如果未能解决你的问题,请参考以下文章
2021年中国高校大数据挑战赛-思路发布-思路开源-提供部分程序
2021年中国高校大数据挑战赛-智能运维中的异常检测与趋势预测-A题思路1028版
2021年中国高校大数据挑战赛-智能运维中的异常检测与趋势预测-A题思路(思路程序10.31更新)
2021年中国高校大数据挑战赛异常检测比赛知识体系-思维导图