[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析
Posted mumu_JiangZeLin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析相关的知识,希望对你有一定的参考价值。
简要记录一下比赛情况,下周继续努力。
赛题描述:基于爱奇艺所提供的视频数据、用户画像数据、用户启动日志、用户观影和互动行为日志等等数据集,对于测试集用户预测其“7日留存分”。
比赛报告:(对数据的分析)
首先,我们对于提供的数据集进行了阅读与分析。
在user_portrait中,共有596906 行数据,包含用户的设备类型(device_type),设备存储(device_rom),设备运行内存(device_ram),性别(sex),年龄(age),教育情况(education),职业(occupation_status),地域(territory_code)各方面信息。其中除rom与ram为具体数值外,其余都为类别数据。
查看各列数据分布可知,有一名用户有重复的数据记录,需要去除。
此外,观察各个属性的分布,为我们后续进行各个特征的嵌入做准备。
同样的,我们对于video_related,user_playback,user_interaction等数据都进行了阅读。所有的数据大致可以分为:如用户性别,剧集类别等类别数据;如播放长度,登陆日期等数值数据;以及可被抽取出的登陆、交互等序列数据。对于类别数据与数值数据,可以用回归问题的思路进行分析,对于序列数据,则可以使用GRU等结构提取顺序信息。
1. User portrait data
Field name |
Description |
Analysis |
user_id |
唯一,不同数据集中一致,重复少,596905个用户 |
|
device_type |
iOS, Android或其他端,null |
类别型特征 [1,2,3,4] |
device_rom |
rom of the device |
数值数据 |
device_ram |
ram of the device |
数值数据 |
sex |
性别 |
类别型特征[1,2],数量差距不大 |
age |
划分年龄段 |
类别型特征 [1,2,3,4,5], 3与4居多。 |
education |
教育水平 |
类别型特征 [0,1,2] ,0远多于2,1。 |
occupation_status |
职业状态 |
类别型特征 [0,1],数量差距不大 |
territory_code |
用户常驻地域编号 |
六位数 +86XXXX,数据分布差距大 |
2.App launch logs
Field name |
Description |
Analysis |
user_id |
|
|
date |
Desensitization, started from 0 |
数值数据,日期[100,222],集中于 |
launch_type |
spontaneous or launched by other apps & deep-links |
类别数据[0,1] 0的个数远大于1 |
3.Video related data
Field name |
Description |
Analysis |
item_id |
id of the video |
4250039个视频 |
father_id |
album id, if the video is an episode of an album collection |
类别型特征 89365种,数据分布差距大 |
cast |
a list of actors/actresses |
类别型特征,大明星出演次数很多,8781条 |
duration |
video length |
类别型特征 [0,16] |
tag_list |
a list of tags |
类别型特征 94967种,数据分布差距大 |
4.User playback data
Field name |
Description |
Analysis |
user_id |
|
544536个用户(不是所有用户) |
item_id |
|
4998182个视频(不是所有视频 冷启动) |
playtime |
video playback time |
数值特征,差距大,min 0.001,max 251348,mean 405 |
date |
timestamp of the behavior |
日期数据,分布于[100,222] 集中于140+ |
5.User interaction data
Field name |
Description |
Analysis |
user_id |
|
19946个用户(不是所有用户) |
item_id |
|
45536个视频(不是所有视频 冷启动) |
interact_type |
interaction types such as posting comments, etc. |
类别数据 [1,11] 最多的为1,10 (赞评?) |
date |
timestamp of the behavior |
日期数据,分布于[172,222] 集中于210+ |
可以看出,User interaction data是一张非常小的表。连接到主表后,该列中将只有极少量有数值,其余均为NAN。对其使用需谨慎。
以上是关于[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析的主要内容,如果未能解决你的问题,请参考以下文章