[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析

Posted mumu_JiangZeLin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析相关的知识,希望对你有一定的参考价值。

简要记录一下比赛情况,下周继续努力。

赛题描述:基于爱奇艺所提供的视频数据、用户画像数据、用户启动日志、用户观影和互动行为日志等等数据集,对于测试集用户预测其“7日留存分”。

比赛报告:(对数据的分析)

首先,我们对于提供的数据集进行了阅读与分析。

在user_portrait中,共有596906 行数据,包含用户的设备类型(device_type),设备存储(device_rom),设备运行内存(device_ram),性别(sex),年龄(age),教育情况(education),职业(occupation_status),地域(territory_code)各方面信息。其中除rom与ram为具体数值外,其余都为类别数据。

查看各列数据分布可知,有一名用户有重复的数据记录,需要去除。

 

此外,观察各个属性的分布,为我们后续进行各个特征的嵌入做准备。

  

 

      

同样的,我们对于video_related,user_playback,user_interaction等数据都进行了阅读。所有的数据大致可以分为:如用户性别,剧集类别等类别数据;如播放长度,登陆日期等数值数据;以及可被抽取出的登陆、交互等序列数据。对于类别数据与数值数据,可以用回归问题的思路进行分析,对于序列数据,则可以使用GRU等结构提取顺序信息。

1. User portrait data

Field name

Description

Analysis

user_id

 
唯一,不同数据集中一致,重复少,596905个用户

device_type

iOS, Android或其他端,null

类别型特征 [1,2,3,4]

device_rom

rom of the device

数值数据

device_ram

ram of the device

数值数据

sex

性别

类别型特征[1,2],数量差距不大

age

划分年龄段

类别型特征 [1,2,3,4,5], 3与4居多。

education

教育水平

类别型特征 [0,1,2] ,0远多于2,1。

occupation_status

职业状态

类别型特征 [0,1],数量差距不大

territory_code

用户常驻地域编号

六位数 +86XXXX,数据分布差距大

2.App launch logs

Field name

Description

Analysis

user_id

 

 

date

Desensitization, started from 0

数值数据,日期[100,222],集中于

launch_type

spontaneous or launched by other apps & deep-links   

类别数据[0,1] 0的个数远大于1

 3.Video related data

Field name

Description

Analysis

item_id

id of the video

4250039个视频

father_id

album id, if the video is an episode of an album collection

类别型特征 89365种,数据分布差距大

cast

a list of actors/actresses

类别型特征,大明星出演次数很多,8781条

duration

video length

类别型特征 [0,16]

tag_list

a list of tags

类别型特征 94967种,数据分布差距大

 

4.User playback data

Field name

Description

Analysis

user_id

 

544536个用户(不是所有用户)

item_id

 

4998182个视频(不是所有视频 冷启动)

playtime

video playback time

数值特征,差距大,min 0.001,max 251348,mean 405

date

timestamp of the behavior

日期数据,分布于[100,222] 集中于140+

 

5.User interaction data

Field name

Description

Analysis

user_id

 

19946个用户(不是所有用户)

item_id

 

45536个视频(不是所有视频 冷启动)

interact_type

interaction types such as posting comments, etc.

类别数据 [1,11] 最多的为1,10 (赞评?)

date

timestamp of the behavior

日期数据,分布于[172,222] 集中于210+

 

可以看出,User interaction data是一张非常小的表。连接到主表后,该列中将只有极少量有数值,其余均为NAN。对其使用需谨慎。

 

以上是关于[比赛] (爱奇艺)2022WSDM用户留存预测挑战赛 数据分析的主要内容,如果未能解决你的问题,请参考以下文章

刷爱奇艺会员永久代码

爱奇艺下载|爱奇艺app安卓版下载

爱奇艺APP产品体验报告

爱奇艺怎么看电视频道

爱奇艺技术分享:爱奇艺Android客户端启动速度优化实践总结

爱奇艺怎么恢复老界面?