Excel项目实战-根据父母的购买行为来预测儿童的年龄,或者根据孩子的信息(年龄,性别等)来预测用户会购买哪种商品。
Posted bigbigbird
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Excel项目实战-根据父母的购买行为来预测儿童的年龄,或者根据孩子的信息(年龄,性别等)来预测用户会购买哪种商品。相关的知识,希望对你有一定的参考价值。
Tianchi_mum_baby
它包含了淘宝或天猫消费者提供的超过900万个孩子的生日和性别。
user_id:用户id
birthday:出生日期
gender:性别(0 男性;1 女性)
user_id:用户id
auction_id:购买行为编号
cat_id:商品种类ID
cat1:商品属于哪个类别
property:商品属性
buy_mount:购买数量
day:购买时间
三,提出问题
1、婴儿的性别、年龄对用户购买有什么关联?对不同品类的商品有什么购买偏向?
2、热销商品的购买人群特征?
3、有没有季节依赖性较强的商品?有没有问题商品?
四、数据清洗
1.为之后操作方便,改一下标题列
2.购买行为编号、商品属性、商品属于哪个类别对分析无太大意义,因此隐藏这些字段
单击列,右键,选择隐藏
3.更改用户id字段格式为数字格式,并对其排序
选中A列,并将其改为数字格式,并对其惊醒筛选和排序,选择升序
4.通过【条件格式】【重复值】查找并删除重复id,
选中A列,点击数据功能栏,点击删除重复值,点击确认,但是并没有发现有重复值
5.通过【查找和选择】【定位条件】查找缺失值,并删除缺失值,检查发现该数据集无缺失值。
按住ctrl+A选择全部数据,再案ctrl+F出现查找和替换,再查找内容里面输入一个空格,查找全部,发现并没有缺失值
6.一致化处理
将购买日期和生日栏改成相同的日期格式,
将性别栏 0-男,1-女,2-未知。
选择G列点击分列选择时间格式,就可以更改时间格式
同样的方式对生日进行更改为时间格式,同时将性别替换为中文
7.异常值处理
①对购买数量进行排序,发现有一个用户的购买数量为10000,严重大于其他值,去除此异常值。
②按用户ID合并两个表,合并后有效数据只有954。
可以通过vlookup合并两个表,以有生日和性别的为主表
③查找定位是否有缺失值,如果有删掉它,目前我们没有查到有缺失值
利用婴儿的出生日期和购买时间计算出购买商品时婴儿的年龄
用购买时间减去生日就可以得到天数
这里介绍一个函数,日期相减
计算购买时婴儿年龄发现了明显超出婴儿年龄范围的用户和大量在出生日期之前购买的用户,这部分用户无法判定是孕期购买还是出生日期信息错误,在此选择剔除这部分数据;因此选择剔除购买商品时婴儿年龄(天数)-365以下的值.
四、数据分析
插入数据透视表分析如下:
1.商品类别与购买数量
商品一共有6个分类,其中分类"50008168""50014815"的销量最佳
2.人体结构关联
①性别
总体来说男婴比女婴购买的多,细分的话主要体现在商品种类"50008168""50014815"上
②年龄
宝宝年龄越小需求就越大,特别是商品种类为"500014815"表现最为明显,使用商品"28""50008168"的婴儿年龄较大一点。
三、时间进度对销量影响
1.总体情况如下:
怎么在透视表中加入同比和环比
https://www.sohu.com/a/242351928_99914465z
可以发现2013年比2012年销量是有比较大的增加,主要是因为同年第二、三季度的销量有了巨大的提升。而2015年的第一季度同比减少59%。
2.将类别拆分,来寻找是否存在季节性商品
五、结论分析
1、婴儿的性别、年龄对用户购买有什么关联?对不同品类的商品有什么购买偏向?
结论:男宝宝比女宝宝购买的更多,“50014815”更多购买的是男宝宝,“50008168“男女都比较喜欢;年龄越小的孩子对母婴商品需求量越大,“50014815”是0-1岁宝宝最喜欢的,“50008168“和”28“使用年龄更长。
2、热销商品的购买人群特征?
结论:卖的最好的品类是“28“,但缺少大量用户信息;
根据现有用户信息来看50014815”和“50008168“反倒更受欢迎,这两个都是0-1岁婴儿较喜欢的。
3、有没有季节依赖性较强的商品?有没有问题商品?
结论:存在;商品类别为"38""50025520"的商品在第三第四季度销量比较多。
链接:https://zhuanlan.zhihu.com/p/90239317
以上是关于Excel项目实战-根据父母的购买行为来预测儿童的年龄,或者根据孩子的信息(年龄,性别等)来预测用户会购买哪种商品。的主要内容,如果未能解决你的问题,请参考以下文章