淘宝APP用户行为数据分析之一 —— 数据集介绍

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了淘宝APP用户行为数据分析之一 —— 数据集介绍相关的知识,希望对你有一定的参考价值。

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。

数据来源☞ 传送门

数据情况介绍:

UserBehavior.csv

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。

数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

关于数据集中每一列的详细描述如下:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(\'pv\', \'buy\', \'cart\', \'fav\')
时间戳 行为发生的时间戳

注意到,用户行为类型共有四种,它们分别是

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

关于数据集大小的一些说明如下

维度 数量
用户数量 987,994
商品数量 4,162,024
商品类目数量 9,439
所有行为数量 100,150,807

由于源数据量较大(3.41G),后续只对300万条数据进行处理,这部分数据中包含29178名用户的行为记录。

由于源数据量较大(3.41G),本文只对300万条数据进行处理

处理时间戳

异常日期处理

生成本地CSV文件

以上是关于淘宝APP用户行为数据分析之一 —— 数据集介绍的主要内容,如果未能解决你的问题,请参考以下文章

淘宝用户行为数据分析

使用Appium爬取淘宝App数据

淘宝APP用户行为数据分析 by 一只废鹅

淘宝APP用户行为数据分析 by 一只废鹅

淘宝APP用户行为数据分析之二 —— 数据清洗

淘宝APP用户行为数据分析