商品零售购物篮分析

Posted Carpe diem

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了商品零售购物篮分析相关的知识,希望对你有一定的参考价值。

二、分析方法与过程

主要步骤

购物篮关联规则挖掘主要步骤如下:

  1. 对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。
  2. 对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。
  3. 在步骤2得到的建模数据基础上,采用Apriori关联规则算法,调整模型输入参数,完成商品关联性分析。
  4. 结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。

总体流程

数据挖掘建模的总体流程:

 

 

 

数据分析探索

探索数据特征是了解数据的第一步。分析商品热销情况和商品结构,是为了更好地实现企业的经营目标。商品管理应坚持商品齐全和商品优选的原则,产品销售基本满足“二八定律”即80%的销售额是由20%的商品创造的,这些商品是企业主要盈利商品,要作为商品管理的重中之重。商品热销情况分析和商品结构分析也是商品管理不可或缺的一部分,其中商品结构分析能够帮助保证商品的齐全性,热销情况分析可以助力于商品优选。

某商品零售企业共收集了9835个购物篮的数据,购物篮数据主要包括3个属性:id、Goods和Types。属性的具体说明如表所示。

第一步:数据特征

探索数据的特征,查看每列属性、最大值、最小值,是了解数据的第一步。

import numpy as np
import pandas as pd

inputfile = \'../chap8/GoodsOrder.csv\'   # 输入的数据文件
data = pd.read_csv(inputfile,encoding = \'gbk\')  # 读取数据
data .info()  # 查看数据属性

data = data[\'id\']
description = [data.count(),data.min(), data.max()]  # 依次计算总数、最小值、最大值
description = pd.DataFrame(description, index = [\'Count\',\'Min\', \'Max\']).T  # 将结果存入数据框
print(\'描述性统计结果by number35任:\\n\',np.round(description))  # 输出结果

第二步:分析热销商品

商品热销情况分析是商品管理不可或缺的一部分,热销情况分析可以助力于商品优选。计算销量排行前10商品的销量及占比,并绘制条形图显示销量前10商品的销量情况。

 

# 销量排行前10商品的销量及其占比
import pandas as pd
inputfile = \'../chap8/GoodsOrder.csv\'  # 输入的数据文件
data = pd.read_csv(inputfile,encoding = \'gbk\')  # 读取数据
group = data.groupby([\'Goods\']).count().reset_index()  # 对商品进行分类汇总
sorted=group.sort_values(\'id\',ascending=False)
print(\'销量排行前10商品的销量by number35任:\\n\', sorted[:10])  # 排序并查看前10位热销商品

# 画条形图展示出销量排行前10商品的销量
import matplotlib.pyplot as plt
x=sorted[:10][\'Goods\']
y=sorted[:10][\'id\']
plt.figure(figsize = (8, 4))  # 设置画布大小 
plt.barh(x,y)
plt.rcParams[\'font.sans-serif\'] = \'SimHei\'
plt.xlabel(\'销量\')  # 设置x轴标题
plt.ylabel(\'商品类别\')  # 设置y轴标题
plt.title(\'商品的销量TOP10_by number35任\')  # 设置标题
plt.savefig(\'../chap8/top10.png\')  # 把图片以.png格式保存
plt.show()  # 展示图片

# 销量排行前10商品的销量占比
data_nums = data.shape[0]
for idnex, row in sorted[:10].iterrows():
    print(row[\'Goods\'],row[\'id\'],row[\'id\']/data_nums)

为了使bar图更好看,我设置了颜色

import random
colors = [[random.random() for _ in range(3)] for _ in range(len(data))]
plt.barh(x,y,color=colors)

参考链接:https://huaweicloud.csdn.net/63803d42dacf622b8df86997.html?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~activity-2-121288431-blog-110703336.pc_relevant_vip_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~activity-2-121288431-blog-110703336.pc_relevant_vip_default&utm_relevant_index=3

通过分析热销商品的结果可知,全脂牛奶销售量最高,销量为2513件,占比5.795%;其次是其他蔬菜、面包卷和苏打,占比分别为4.388%、4.171%、3.955%。

第三步:分析商品结构

对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置,方便顾客选购。或者放在商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的停留时间,促进非热销产品的销量。

原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。分析归类后各类别商品的销量及其占比,并绘制饼图显示各类商品的销量占比情况。

 

import pandas as pd
inputfile1 = \'../chap8/GoodsOrder.csv\'
inputfile2 = \'../chap8/GoodsTypes.csv\'
data = pd.read_csv(inputfile1,encoding = \'gbk\')
types = pd.read_csv(inputfile2,encoding = \'gbk\')  # 读入数据

group = data.groupby([\'Goods\']).count().reset_index()
sort = group.sort_values(\'id\',ascending = False).reset_index()
data_nums = data.shape[0]  # 总量
del sort[\'index\']

sort_links = pd.merge(sort,types)  # 合并两个dataframe 根据type
# 根据类别求和,每个商品类别的总量,并排序
sort_link = sort_links.groupby([\'Types\']).sum().reset_index()
sort_link = sort_link.sort_values(\'id\',ascending = False).reset_index()
del sort_link[\'index\']  # 删除“index”列

# 求百分比,然后更换列名,最后输出到文件
sort_link[\'count\'] = sort_link.apply(lambda line: line[\'id\']/data_nums,axis=1)
sort_link.rename(columns = \'count\':\'percent\',inplace = True)
print(\'各类别商品的销量及其占比:\\n\',sort_link)
outfile1 = \'../chap8/percent.csv\'
sort_link.to_csv(outfile1,index = False,header = True,encoding=\'gbk\')  # 保存结果

画饼图展示每类商品销量占比:

# 画饼图展示每类商品销量占比
import matplotlib.pyplot as plt
data = sort_link[\'percent\']
labels = sort_link[\'Types\']
plt.figure(figsize=(8, 6))  # 设置画布大小   
plt.pie(data,labels=labels,autopct=\'%1.2f%%\')
plt.rcParams[\'font.sans-serif\'] = \'SimHei\'
plt.title(\'每类商品销量占比_by number35任\')  # 设置标题
plt.savefig(\'../chap8/persent.png\')  # 把图片以.png格式保存
plt.show()

 

通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬三类商品销量差距不大,占总销量的50%左右,同时,根据大类划分发现和食品相关的类的销量总和接近90%,说明了顾客倾向于购买此类产品,而其余商品仅为商场满足顾客的其余需求而设定,并非销售的主力军。

查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示其销量占比情况:

# 先筛选“非酒精饮料”类型的商品,然后求百分比,然后输出结果到文件。
selected = sort_links.loc[sort_links[\'Types\'] == \'非酒精饮料\']  # 挑选商品类别为“非酒精饮料”并排序
child_nums = selected[\'id\'].sum()  # 对所有的“非酒精饮料”求和
selected[\'child_percent\'] = selected.apply(lambda line: line[\'id\']/child_nums,axis = 1)  # 求百分比
selected.rename(columns = \'id\':\'count\',inplace = True)
print(\'非酒精饮料内部商品的销量及其占比:\\n\',selected)
outfile2 = \'../chap8/child_percent.csv\'
sort_link.to_csv(outfile2,index = False,header = True,encoding=\'gbk\')  # 输出结果

# 画饼图展示非酒精饮品内部各商品的销量占比
import matplotlib.pyplot as plt
data = selected[\'child_percent\']
labels = selected[\'Goods\']
plt.figure(figsize = (8,6))  # 设置画布大小 
explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3)  # 设置每一块分割出的间隙大小
plt.pie(data,explode = explode,labels = labels,autopct = \'%1.2f%%\',
        pctdistance = 1.1,labeldistance = 1.2)
plt.rcParams[\'font.sans-serif\'] = \'SimHei\'
plt.title("非酒精饮料内部各商品的销量占比_by number35任")  # 设置标题
plt.axis(\'equal\')
plt.savefig(\'../chap8/child_persent.png\')  # 保存图形
plt.show()  # 展示图形

查看销量第二的西点类商品的内部商品结构,并绘制饼图显示其销量占比情况:

# 先筛选“西点”类型的商品,然后求百分比,然后输出结果到文件。
selected = sort_links.loc[sort_links[\'Types\'] == \'西点\']  # 挑选商品类别为“西点”并排序
child_nums = selected[\'id\'].sum()  # 对所有的“非酒精饮料”求和
selected[\'child_percent_xidian\'] = selected.apply(lambda line: line[\'id\']/child_nums,axis = 1)  # 求百分比
selected.rename(columns = \'id\':\'count\',inplace = True)
print(\'西点内部商品的销量及其占比_by number35任:\\n\',selected)
outfile2 = \'../chap8/child_percent_xidian.csv\'
sort_link.to_csv(outfile2,index = False,header = True,encoding=\'gbk\')  # 输出结果

# 画饼图展示西点内部各商品的销量占比
import matplotlib.pyplot as plt
data = selected[\'child_percent_xidian\']
labels = selected[\'Goods\']
plt.figure(figsize = (8,6))  # 设置画布大小 
explode = (0.05,0.04,0.04,0.05,0.06,0.07,0.03,0.03,0.03,0.02,0.03,0.02,0.02,0.02,0.02,0.08,0.3,0.34,0.38,0.4,0.8)  # 设置每一块分割出的间隙大小
plt.pie(data,explode = explode,labels = labels,autopct = \'%1.2f%%\',
        pctdistance = 1.1,labeldistance = 1.2)
plt.rcParams[\'font.sans-serif\'] = \'SimHei\'
plt.title("西点内部各商品的销量占比_by number35任")  # 设置标题
plt.axis(\'equal\')
plt.savefig(\'../chap8/child_persent_xidian.png\')  # 保存图形
plt.show()  # 展示图形

 

以上是关于商品零售购物篮分析的主要内容,如果未能解决你的问题,请参考以下文章

商品零售购物篮分析

商品零售购物篮分析

商品零售购物篮分析

商品零售购物篮分析

掌握顾客喜好,促进商品销售,商家应该如何做好购物篮分析?

数据挖掘之商品零售