基于Hive的淘宝用户行为数据分析
Posted Maynor大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Hive的淘宝用户行为数据分析相关的知识,希望对你有一定的参考价值。
基于Hive的淘宝用户行为数据分析
本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些举措。
一、 数据集介绍
本数据集取至阿里云天池的数据集,数据集名称为User behavior Data from Taobao for Recommendation,数据集包括用户ID,商品ID,商品类目ID,行为类型,时间戳,数据总条目数为100,150,807行。
1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
2、数据集展示:
图1-1 原始数据集部分截图
3、数据集介绍:
该数据集共有100,150,807行与5个属性,如表中的userid对应的是用户id,itemid对应的是商品id,categoryid对应的是商品类目ID,type对应的是行为类型,timestamp对应的是时间戳。
表1 淘宝用户数据集各字段说明
数据字段 | 描述 |
---|---|
userid | 用户id |
itemid | 商品id |
categoryid | 商品类目ID |
type | 行为类型 |
timestamp | 时间戳 |
表2 type包含属性各字段说明
数据字段 | 描述 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
二、 数据预处理
本课题的预处理方式主要是对数据进行数据清洗和数据规约。
(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集的日期范围是2017年11月25日至2017年12月2日,所以剔除这日期以外的数据
(2)数据规约:时间要在2017年11月25日至2017年12月2日
处理后数据集的部分截图如下:
图2-1 数据预处理结果(部分数据)
三、数据分析方法
1、分析目标
从用户id属性分析淘宝每日访问量的变化。
从时间属性分析用户在哪些时间、时段活跃。
从商品点击量维度分析热门商品类目有哪些。
统计出前10的热门商品。
2、分析思路与方法
根据数据集的特点,我们可以先从时间维度分析一下用户的一些行为习惯,比如哪个时间段是用户访问高发期,可以统计每天的访问量、每小时的访问量。直接统计商品分类前5名的分类,这样就可以按比例分配资源。
以上是关于基于Hive的淘宝用户行为数据分析的主要内容,如果未能解决你的问题,请参考以下文章