基于Hive的淘宝用户行为数据分析

Posted Maynor大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Hive的淘宝用户行为数据分析相关的知识,希望对你有一定的参考价值。

基于Hive的淘宝用户行为数据分析

本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些举措。

一、 数据集介绍

本数据集取至阿里云天池的数据集,数据集名称为User behavior Data from Taobao for Recommendation,数据集包括用户ID,商品ID,商品类目ID,行为类型,时间戳,数据总条目数为100,150,807行。

1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

2、数据集展示:

图1-1 原始数据集部分截图

3、数据集介绍:

该数据集共有100,150,807行与5个属性,如表中的userid对应的是用户id,itemid对应的是商品id,categoryid对应的是商品类目ID,type对应的是行为类型,timestamp对应的是时间戳。

表1 淘宝用户数据集各字段说明

数据字段描述
userid用户id
itemid商品id
categoryid商品类目ID
type行为类型
timestamp时间戳

表2 type包含属性各字段说明

数据字段描述
pv商品详情页pv,等价于点击
buy商品购买
cart将商品加入购物车
fav收藏商品

二、 数据预处理

本课题的预处理方式主要是对数据进行数据清洗和数据规约。

(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集的日期范围是2017年11月25日至2017年12月2日,所以剔除这日期以外的数据

(2)数据规约:时间要在2017年11月25日至2017年12月2日

处理后数据集的部分截图如下:

图2-1 数据预处理结果(部分数据)

三、数据分析方法

1、分析目标

从用户id属性分析淘宝每日访问量的变化。

从时间属性分析用户在哪些时间、时段活跃。

从商品点击量维度分析热门商品类目有哪些。

统计出前10的热门商品。

2、分析思路与方法

根据数据集的特点,我们可以先从时间维度分析一下用户的一些行为习惯,比如哪个时间段是用户访问高发期,可以统计每天的访问量、每小时的访问量。直接统计商品分类前5名的分类,这样就可以按比例分配资源。

以上是关于基于Hive的淘宝用户行为数据分析的主要内容,如果未能解决你的问题,请参考以下文章

HIVE大数据实战项目---用户行为分析

Hive基于搜索的用户日志行为分析

基于Solr的淘宝商家交易数据实时查询方法

淘宝APP用户行为数据分析之一 —— 数据集介绍

淘宝用户行为数据分析

淘宝用户行为分析