时间序列ARIMA模型详解:python实现店铺一周销售量预测
Posted 大数据挖掘DT数据分析
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了时间序列ARIMA模型详解:python实现店铺一周销售量预测相关的知识,希望对你有一定的参考价值。
顾名思义,时间序列是时间间隔不变的情况下收集的时间点集合。这些集合被分析用来了解长期发展趋势,为了预测未来或者表现分析的其他形式。但是是什么令时间序列与常见的回归问题的不同?
有两个原因:
1、时间序列是跟时间有关的。所以基于线性回归模型的假设:观察结果是独立的在这种情况下是不成立的。
2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式,如:特定时间框架的具体变化。即:如果你看到羊毛夹克的销售上升,你就一定会在冬季做更多销售。
常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。
一、时间序列的预处理
拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。
先说下什么是平稳,平稳就是围绕着一个常数上下波动且波动范围有限,即有常数均值和常数方差。如果有明显的趋势或周期性,那它通常不是平稳序列。序列平稳不平稳,一般采用三种方法检验:
(1)时序图检验
看看上面这个图,很明显的增长趋势,不平稳。
(2)自相关系数和偏相关系数
还以上面的序列为例:用SPSS得到自相关和偏相关图。
分析:左边第一个为自相关图(Autocorrelation),第二个偏相关图(Partial Correlation)。
平稳的序列的自相关图和偏相关图要么拖尾,要么是截尾。截尾就是在某阶之后,系数都为 0 ,怎么理解呢,看上面偏相关的图,当阶数为 1 的时候,系数值还是很大, 0.914. 二阶长的时候突然就变成了 0.050. 后面的值都很小,认为是趋于 0 ,这种状况就是截尾。什么是拖尾,拖尾就是有一个缓慢衰减的趋势,但是不都为 0 。
自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式,这种趋势是单调趋势的典型图形,说明这个序列不是平稳序列。
(3)单位根检验
单位根检验是指检验序列中是否存在单位根,如果存在单位根就是非平稳时间序列。
不平稳,怎么办?
答案是差分,转换为平稳序列。什么是差分?一阶差分指原序列值相距一期的两个序列值之间的减法运算;k阶差分就是相距k期的两个序列值之间相减。如果一个时间序列经过差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。
还是上面那个序列,两种方法都证明他是不靠谱的,不平稳的。确定不平稳后,依次进行1阶、2阶、3阶...差分,直到平稳为止。先来个一阶差分,上图:
从图上看,一阶差分的效果不错,看着是平稳的。
平稳性检验过后,下一步是纯随机性检验。
对于纯随机序列,又称白噪声序列,序列的各项数值之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有信息可提取的平稳序列。
对于平稳非白噪声序列,它的均值和方差是常数。通常是建立一个线性模型来拟合该序列的发展,借此提取该序列的有用信息。ARMA模型是最常用的平稳序列拟合模型。
二、平稳时间序列建模
某个时间序列经过预处理,被判定为平稳非白噪声序列,就可以进行时间序列建模。
建模步骤:
(1)计算出该序列的自相关系数(ACF)和偏相关系数(PACF);
(2)模型识别,也称模型定阶。根据系数情况从AR(p)模型、MA(q)模型、ARMA(p,q)模型、ARIMA(p,d,q)模型中选择合适模型,其中p为自回归项,d为差分阶数,q为移动平均项数。
下面是平稳序列的模型选择:
自相关系数(ACF) |
偏相关系数(PACF) |
选择模型 |
拖尾 |
p阶截尾 |
AR(p) |
q阶截尾 |
拖尾 |
MA(q) |
p阶拖尾 |
q阶拖尾 |
ARMA(p,q) |
ARIMA 是 ARMA 算法的扩展版,用法类似 。
(3)估计模型中的未知参数的值并对参数进行检验;
(4)模型检验;
(5)模型优化;
(6)模型应用:进行短期预测。
三、python实例操作
以下为某店铺2015/1/1~2015/2/6的销售数据,以此建模预测2015/2/7~2015/2/11的销售数据。
#-*- coding: utf-8 -*-
#arima时序模型
import pandas as pd
#参数初始化
discfile = 'E:/destop/text/arima_data.xls'
forecastnum = 5
#读取数据,指定日期列为指标,Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')
#时序图
import matplotlib.pyplot as plt
#用来正常显示中文标签
plt.rcParams['font.sans-serif'] = ['SimHei']
#用来正常显示负号
plt.rcParams['axes.unicode_minus'] = False
data.plot()
plt.show()
#自相关图
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()
#平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF检验结果为:', ADF(data[u'销量']))
#返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore
原始序列的单位根(adf)检验 |
||||
adf |
cValue |
p值 |
||
1% |
5% |
10% |
||
1.81 |
-3.7112 |
-2.9812 |
-2.6301 |
0.9984 |
Pdf值大于三个水平值,p值显著大于0.05,该序列为非平稳序列。
#差分后的结果
D_data = data.diff().dropna()
D_data.columns = [u'销量差分']
#时序图
D_data.plot()
plt.show()
#自相关图
plot_acf(D_data).show()
plt.show()
from statsmodels.graphics.tsaplots import plot_pacf
#偏自相关图
plot_pacf(D_data).show()
#平稳性检测
print(u'差分序列的ADF检验结果为:', ADF(D_data[u'销量差分']))
一阶差分后序列的单位根(adf)检验 |
||||
adf |
cValue |
p值 |
||
1% |
5% |
10% |
||
-3.15 |
-3.6327 |
-2.9485 |
-2.6130 |
0.0227 |
Pdf值小于两个水平值,p值显著小于0.05,一阶差分后序列为平稳序列。
#白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox
#返回统计量和p值
print(u'差分序列的白噪声检验结果为:', acorr_ljungbox(D_data, lags=1))
一阶差分后序列的白噪声检验 |
|
stat |
P值 |
11.304 |
0.007734 |
P值小于0.05,所以一阶差分后的序列为平稳非白噪声序列。
from statsmodels.tsa.arima_model import ARIMA
#定阶
#一般阶数不超过length/10
pmax = int(len(D_data)/10)
#一般阶数不超过length/10
qmax = int(len(D_data)/10)
#bic矩阵
bic_matrix = []
for p in range(pmax+1):
tmp = []
for q in range(qmax+1):
#存在部分报错,所以用try来跳过报错。
try:
tmp.append(ARIMA(data, (p,1,q)).fit().bic)
except:
tmp.append(None)
bic_matrix.append(tmp)
#从中可以找出最小值
bic_matrix = pd.DataFrame(bic_matrix)
#先用stack展平,然后用idxmin找出最小值位置。
p,q = bic_matrix.stack().idxmin()
print(u'BIC最小的p值和q值为:%s、%s' %(p,q))
取BIC信息量达到最小的模型阶数,结果p为0,q为1,定阶完成。
#建立ARIMA(0, 1, 1)模型
model = ARIMA(data, (p,1,q)).fit()
#给出一份模型报告
model.summary2()
#作为期5天的预测,返回预测结果、标准误差、置信区间。
model.forecast(5)
最终模型预测值如下:
2015/2/7 |
2015/2/8 |
2015/2/9 |
2015/2/10 |
2015/2/11 |
4874.0 |
4923.9 |
4973.9 |
5023.8 |
5073.8 |
利用模型向前预测的时间越长,预测的误差将会越大,这是时间预测的典型特点。
参数检验如下:
Coef. |
Std.Err. |
t |
P值 |
|
const |
49.956 |
20.139 |
2.4806 |
0.0182 |
ma.L1.D.销量 |
0.671 |
0.1648 |
4.0712 |
0.0003 |
从检验结果p值来看,建立的模型效果良好。
数据挖掘DW 投稿邮箱:
2474299014@qq.com
说明:
以上是关于时间序列ARIMA模型详解:python实现店铺一周销售量预测的主要内容,如果未能解决你的问题,请参考以下文章
使用 Python 训练 arima 模型时如何解决 LinAlgError 和 ValueError
Python中的ARIMA模型SARIMA模型和SARIMAX模型对时间序列预测