第二届“中国高校计算机大赛-大数据挑战赛” 20名
Posted 张乐乐章
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第二届“中国高校计算机大赛-大数据挑战赛” 20名相关的知识,希望对你有一定的参考价值。
赛题地址:http://bdc.saikr.com/vse/bdc/2017
1 引言
本次大赛以某人机验证产品采集的鼠标轨迹脱敏数据为基础,期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。复赛在DIX平台上利用初赛3000条训练集数据轨迹预测200万条测试集数据轨迹。
1.1 基本解题思路
由于复赛的200万条数据与初赛的训练集和A、B榜数据存在很大的不同,初赛特征不能完全适用于复赛,所以我们队在复赛期间重新观察3000训练数据(具体见2.1节)后认为:机器样本之中也存在着多种不同的类别,同样的特征在不同机器类别中会出现互斥现象,即多个特征用在同一模型的效果不如将多个特征分开使用的效果好。故而我们队采用不同的模型识别不同种类的机器样本,最后将不同模型的识别结果合并作为最终的机器样本结果。
我们队主要分为了五个不同的预测结果,包括四个GBDT模型及特征和一条规则,具体为:
1) GBDT1:主要以初赛的模型特征作为基础,特征20维;
2) rule:以3000训练集中的2800-2900机器样本为基础提取的规则;
3) GBDT2:采用一定条件对预测集数据进行筛选,再采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘轨迹是否有回勾’两个特征;
4) GBDT3:采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘角度唯一值个数的变异系数’两个特征;
5) GBDT4:采用gbdt模型训练预测,包括‘y方向增量的增量平均卷积的标准差’及‘y方向增量的增量标准差卷积的标准差’两个特征。
1.2 文件代码描述
所有代码包含在‘code’文件夹内,在DIX平台的运行方式参见3.2节,每一个代码文件的具体作用如下:
2 get_feature.py——初赛20维训练集测试集特征提取
2 GBDT.py——GBDT1模型训练及预测结果
2 rules.py——rule规则提取结果
2 get_linefeature.py——GBDT2、GBDT3、GBDT4训练集测试集特征提取
2 lineGBDT.py——GBDT2模型训练及预测结果
2 angleGBDT.py——GBDT3模型训练及预测结果
2 rollingGDBT.py——GBDT4模型训练及预测结果
2 merge.py——预测结果合并
2 模型及特征工程
2.1 数据观察
如上述所言,我们重点对3000训练集中的后400机器样本进行了轨迹观察,包括x、y方向速度、增量标准差、加速度等。最后我们将400条黑样本划分为了三个大类:
1)2601-2800为一大类,该类中按顺序每50条轨迹为一小类,该大类的主要特点就是每一条轨迹都能在其所属的小类中找到模板,即其最终的序列是相同的,只是根据验证码滑块的位置取到不同的序列,如图2-1所示就是2601-2650小类中x方向增量为0的序列
图2-1
2)2801-2900为一大类,该类的主要特点是其x方向的增量固定,用我们的特征表示为delt_x_std(x方向上增量标准差)为0。
3)2901-3000为一大类,该类的主要特点是y会频繁地随机上下波动,对y方向上的增量取窗口为2的滑窗标准差,其序列相比于前2900条轨迹更为散乱,即标准差更大。
2.2 GBDT1
该模型以初赛的模型特征作为基础,经过特征筛选后的最终特征20维,具体含义如下:
- 起始点特征:
2 ‘first_data_x’, #起始点x坐标
2 ‘first_speed_x’, #起始点x方向速度
2 ‘first_data_y’, #起始点y坐标
2 ‘first_delt_t’, #起始点与第二个点时间的时间差
- 统计信息特征:
2 ’X_max‘, #轨迹x坐标的最大值
2 ’y_min‘, #轨迹y坐标的最小值
2 ‘x_min ##轨迹x坐标的最小值
- 规则特征:
2 ‘data_x_return‘, #是否有回勾
- 交叉特征
2 ‘speed_xstd_laststd‘ #x 方向速度全局的标准差与最后9个点标准差的比值
以上是关于第二届“中国高校计算机大赛-大数据挑战赛” 20名的主要内容,如果未能解决你的问题,请参考以下文章