连这两个关键点都不知道,你还玩啥时间序列模型

Posted SAS中文论坛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了连这两个关键点都不知道,你还玩啥时间序列模型相关的知识,希望对你有一定的参考价值。


 本文简介 

不知道您是否和我一样,在第一次看到Arima这个词的时候的第一反应是:Arima是什么鬼?一定是Armani写错了。好吧,言归正传,本文旨在帮助初学者或者想要学习却又被其看上去很恐怖的数学公式吓退的朋友理解Arima模型中的一些非常重要的概念和关键点,文中尽量不去罗列复杂的理论和公式,至于更多的细节以及代码,相信在各种书籍和论坛中已有详尽的描述。

从这里开始
连这两个关键点都不知道,你还玩啥时间序列模型

        Arima全称整合自回归移动平均模型(Integrated Autoregressive Moving Average Model)。它对很多时间序列能进行很好的拟合和预测,而时间序列的平稳性是建立Arima模型的前提。那么究竟什么是平稳的时间序列呢?严格来说,数学上的平稳又分为严平稳和宽平稳,严平稳指的是序列的统计特征不随时间的平移而变化,而宽平稳指的是其一、二阶中心矩不随时间的平移而变化。什么?你不知道一、二阶中心矩?其实就是期望和方差(原谅我装X,一种不自信的表现)。而判断平稳性的方法一般有:看图法、单位根检验法、自相关函数检验法、游程检验法等。看图法简单易懂,观察线图是否存在周期性和趋势性,如果没有明显的周期性和趋势性,则认为其是平稳序列。其他的方法嘛,不说也罢(我不会告诉你我也不懂)。

        如果翻开一本专门介绍时间序列的书籍,很容易发现,里面充满了密密麻麻的公式和推导。等我们完全理解了Arima模型的来龙去脉的时候,恐怕我们将会成为了一个统计学专家了。既然如此,那么我们该如何理解Arima模型呢?个人认为,序列的平稳化和阶数识别是其两个关键点。

连这两个关键点都不知道,你还玩啥时间序列模型
平稳化
连这两个关键点都不知道,你还玩啥时间序列模型
        然而,理想很丰满,现实却很骨感。我们在实际工作中遇到的时间序列往往都是非平稳的。对于非平稳序列,通常利用对数变换和差分运算将其平化。对数变换用来将指数趋势转化为线性趋势,而差分运算则可以用来消除线性趋势和周期性,其强大的确定性信息提取能力可以将很多非平稳序列变为平稳序列。下图是一个非平稳的序列,它记录了两年内每天的业务数据量,该序列存在约7天周期性,但没有明显的趋势性。
连这两个关键点都不知道,你还玩啥时间序列模型
        我们对序列作1阶7步差分,同时做一个的零均值化处理,得到下图:
连这两个关键点都不知道,你还玩啥时间序列模型
        通过简单的图形观察,差分后时序图显示出序列在0附近随机地波动,这说明该序列很可能是一个平稳序列。接下来,我们做进一步的检验以证实该序列的平稳性。仅从上图对时间序列的平稳性判断的准确性较差,且主观性太强,一般还可以考虑使用单位根检验的方法对时序的平稳性进行检验。
连这两个关键点都不知道,你还玩啥时间序列模型
        在显著性水平为0.05时,P值都是显著的,因此我们可以拒绝该时间序列是非平稳序列的原假设,说明该序列是平稳的。
连这两个关键点都不知道,你还玩啥时间序列模型
阶数识别
连这两个关键点都不知道,你还玩啥时间序列模型
        Arima建模的本质是阶数的识别。当然阶数的识别并不能一蹴而就,这就需要我们通过判断自相关和偏自相关图,并进行不断的迭代,同时结合AIC或者BIC准则才能最终确定较好的模型参数。
连这两个关键点都不知道,你还玩啥时间序列模型
        通过绘制差分后的自相关图(ACF)和偏自相关图(PACF)可以看到,两图显著的表现出不截尾,即自相关图中滞后1、2、3、6、7、8、9期超出了置信区间,偏自相关图中滞后4、5、6、7、14、15、21期也超出了置信区间。这说明在检验的显著性水平为0.05的条件下,序列中还蕴含着不容忽视的相关信息可供提取。此外,由BIC准则给出的最优模型推荐,BIC(1,9)最小,对应的是ARIMA(1,7,9)。
连这两个关键点都不知道,你还玩啥时间序列模型
        由于时间序列经常受节假日和非工作日的影响,所以将其生成一个哑变量作为解释变量。根据推荐的阶数,结合上面的自相关图和偏自相关图,反复的尝试和删减不显著的参数。
       经过反复的迭代和尝试,残差诊断图中自相关图和偏自相关图都是拖尾的,滞后6期通过白噪声检验,说明残差序列是白噪声,没有可提取的必影响因素,模型完成。红线为序列拟合值,黑线为序列观察值,蓝色区域为95%置信区间。可以看出,模型拟合效果较好。


 关于“朝阳35处” 

我们是来自于前海征信的专业大数据挖掘团队。我们不仅是数据科学家,更是数据玩客。我们既用数据挖掘技术解决专业领域的问题,也喜欢在各个领域寻找数据的乐趣,以好玩易懂的方式给大家提供新鲜靠谱的内容。我们会每周定时推送一篇原创干货,欢迎大家踊跃点击本帖底部的“写留言”与我们和广大大数据爱好者进行实时沟通和讨论。请后台回复“朝阳35处”获取“安二少的药”大数据趣闻全系列

以上是关于连这两个关键点都不知道,你还玩啥时间序列模型的主要内容,如果未能解决你的问题,请参考以下文章

功能测试就是“点点点”?连这8项技能都不会,你还说想进阶自动化?小伙子,先好好理解功能测试吧!

老公 今晚还玩“丝袜哥”Swagger 么?

Java内存模型-final域的内存语义

NOIP模拟 8-21 题解

用苹果手机拍照,连这三个功能都不会,你的iPhone白买了

Java并发编程:Java内存模型