作业——机器学习教你预测商品销售额

Posted 2022-01-13 少๑渊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了作业——机器学习教你预测商品销售额相关的知识，希望对你有一定的参考价值。

（一）作业要求

advertising.csv文件（文件私聊可取）是某商品的广告推广费用（单位为元）和销售额数据（单位为千元），其中每行代表每一周的广告推广费用（包含微信、微博和其他类型三种广告费用）和销售额。若在未来的某两周，将各种广告投放金额按如下分配，请预测对应的商品销售额：

（1）微信：100，微博：100，其他类型：100

（2）微信：200，微博：100，其他类型：50

另外，请提交对应的代码。若有对应的说明文档，也请提交。

（二）作业内容

对于这个实验，是机器学习中最常见的一类回归问题，通过已有的数据，判断对某一数据的影响，我将依次按照下列顺序进行。

对表格中基本信息的观察：

当我们打开Excel文件的时候，得到的是一系列的数据，一共201行，4列；第一行是标签的信息，包括微信、微博、其它和销售额（前三个是投放），底下的二百行是不同的投放量和对应的销售额。如此看来不是很直观，我们可以通过matplotlib将数据可视化出来，另外，为了使绘制的图更好看，我还使用了seaborn库中的set函数。

因为我想使用线性回归的方法对样本进行估计，所以需要观测三种投放量之间和销售额是否存在线性关系，简单直观的方式可以是使用散点图在二维平面中对数据进行可视化表示，于是我们再通过plt.scatter()绘制散点图：

观察图像我们得出的结论是：①每种投放量都是在一定区域内浮动的，没有一个准确的定值，且相对而言微信投放量最大、其他投放次之、微博投放最少②销售额大体上随着三种投放的增加而增加，并且在5~25（千元）内浮动③观察散点图中销售额和各投放量的关系我们可以得到：微信投放和销售额的线性关系最强，其他投放和销售额的线性关系最弱。但是都满足，随着投放量的增长，销售额也随之增长。

2、分别对各投放量的销售额进行估计

上面的散点图告诉我们，投放量和销售额大致满足线性关系，那我们分别用微信投放量、微博投放量、其他投放量和三者总投放量对销售额进行预测。

用三种总投放量预测销售额

首先，我们通过pandas库读取csv文件并分别获取投放量和销售额的信息，然后我们通过sklearn.model_selection中的train_test_split将数据分割为测试集和训练集，在此我定义测试集的比例为0.1。因为我首先选择使用最简单的线性回归进行预测，所以我们还要导入LinearRegression并且通过fit函数对模型进行训练，训练之后，为了检测结果的耦合程度，我们利用测试集的X_test通过predict函数产生一个预测的y_predict，然后和真实值y_test进行比较，为了使结果更形象，我们可以绘制一个折线图，并且通过sklearn库中封装好的score函数对模型进行评分，然后呈现出来。