时间序列分析：平稳时间序列分析之模型识别

Posted 2021-05-02 SAS知识

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了时间序列分析：平稳时间序列分析之模型识别相关的知识，希望对你有一定的参考价值。

前面文章中介绍了平稳时间序列的数据准备、平稳性和白噪声检验。本文介绍根据样本数据对ARMA模型的阶数p和q进行识别。

前面文章中介绍了平稳时间序列的数据准备、平稳性和白噪声检验。接下来这篇文章根据样本数据对ARMA模型的阶数p和q进行识别。我们的主要工具是样本自相关函数、样本偏自相关函数和样本逆自相关函数，它们不仅有助于推测模型的形式，而且可以推导出参数的近似估计。

运用自相关函数和偏自相关函数的性质识别

先来回忆一下在前面章节中曾讨论过的内容：有关移动平均、自回归和混合过程的理论，以及自相关和偏自相关函数的特征行为。

简要地说：

p阶自回归过程的自相关函数是拖尾的，而它的偏自相关函数在p阶延迟之后是截尾的。
q阶移动平均过程的自相关函数在延迟q阶之后是截尾的，而它的偏自相关函数是拖尾的。
若自相关函数和偏自相关函数均拖尾，则表明是混合过程。进一步，对于一个包含p阶自回归和q阶移动平均的混合过程来说，其自相关函数在q-p阶延迟之后是混合的指数和正弦波衰减。与此相应的，混合过程的偏自相关函数在q-p阶延迟之后被混合的指数和正弦波衰减所控制。

但在实践中，依据这些性质为模型定阶是有一定困难的。因为由于样本的随机性，样本的相关系数不会呈现出理论上的完美截尾情况，比如，本应截尾的样本自相关系数或偏自相关系数仍然会呈现出小值振荡的情况。这种现象导致我们必须判断，什么情况下该看作相关系数是截尾的，什么情况下该看作相关系数是在延迟若干阶之后正常衰减到零值附近做拖尾波动的呢？

对于较大的延迟，假设在q阶移动平均过程下，我们用样本估计值代替理论自相关系数，可以根据Bartlett公式计算出样本自相关系数的标准差：

对于偏自相关函数，和前面讨论的一样，在过程为p阶自回归的假设中，p+1阶或更高阶偏自相关系数的估计值的标准差是

对于适当大小的n，假设理论自相关系数时间序列分析（五）：平稳时间序列分析之模型识别为零，它的估计值服从近似正态分布，对于偏自相关系数有类似的结论。

这些事实可以提供一种非正式的标准，用来指示当延迟超出某特定值后理论自相关函数和偏自相关函数是否实质上为零。

根据正态分布的性质：

如果样本自相关系数或偏自相关系数在最初的k阶的取值明显大于2倍标准差范围，而在k阶之后几乎95%的样本相关系数都落在2倍标准差的范围以内，形成了小值波动；而且样本自相关系数由较大值衰减到2倍标准差范围内的过程非常突然，这时，通常视为相关系数截尾，阶数为k。
如果样本自相关系数或偏自相关系数在最初的k阶的取值明显大于2倍标准差范围，而k阶之后有超出5%的样本相关系数落入2倍标准差范围之外；或者是由显著非零的相关系数衰减为小值波动的过程比较缓慢或者非常连续，这时，通常视为相关系数不截尾。

注意：由于自相关函数的估计之间可能高度相关，因此，不可能指望自相关函数的估计值与理论值十分贴近。特别是，当理论自相关函数已经衰减了，而自相关函数的估计还可能出现相当大的、明显的波动和趋势，这种相悖的现象在理论中是没有依据的。在运用自相关函数的估计作为识别依据时，通常能对大致的特征有相当的把握，至于那些更精细的特征，它们可能未必代表真实的结果，因此，可能需要引入两个或更多的模型，以便在建模的估计和检验诊断阶段作进一步的研究。

除了样本自相关系数和样本偏自相关系数之外，样本逆自相关系数也可以用来帮助模型定阶。样本逆自相关系数和样本偏自相关系数的估计值符号相反，当样本偏自相关系数的截尾或者拖尾性质难以判断时，可以参考样本逆自相关系数的截尾或者拖尾性质来作出判断。

一阶、二阶AR过程和MA过程以及简单的混合ARMA过程都是特别重要的，接下来通过例子具体查看这类过程的相关系数的特征。

例17.4：通过例子分析一阶、二阶AR过程和MA过程以及混合ARMA过程的时序图、ACF图、PACF图和IACF图特征。

示例代码如下：

上述程序生成了8个时间序列Y1，Y2，…，Y8。Y1是AR（1）过程生成的时间序列；Y2和Y3分别是由不同的AR（2）过程生成的时间序列；Y4是MA（1）过程生成的时间序列；Y5和Y6分别是由不同的MA（2）过程生成的时间序列；Y7是ARMA（1,1）过程生成的时间序列；Y8是白噪声序列。接下来运用ARIMA过程输出各个时间序列的时序图、ACF图、PACF图和IACF图。代码如下：

输出内容如图17.17至图17.24所示（其中省略了序列的基本信息和白噪声检验结果）。

图17.17 例17.4中序列Y1的趋势和相关分析

在图17.17中，Y1是AR（1）过程生成的时间序列，样本自相关系数是指数衰减的，时间序列分析（五）：平稳时间序列分析之模型识别，从生成Y1的代码中可以看出=0.9。在PACF和IACF图中，1阶延迟后，偏自相关系数和逆自相关系数都迅速衰减为小值波动，且落在了2倍标准差范围内，符合截尾特征。

图17.18 例17.4中序列Y2的趋势和相关分析

如图17.18所示，在Y2的ACF图中，自相关系数呈现出类似指数衰减的特征，在PACF和IACF图中，2阶延迟后，偏自相关系数和逆自相关系数都迅速衰减成小值波动，具有截尾特征，符合AR（2）过程的相关系数的特征。

图17.19 例17.4中序列Y3的趋势和相关分析

如图17.19所示，Y3的PACF图和IACF图的形状和特征与Y2的非常类似，也都是延迟2阶之后截尾；不同的是，在Y3的ACF图中，自相关函数呈现出正弦波振荡衰减的特征，符合AR（2）的相关系数特征。

图17.20 例17.4中序列Y4的趋势和相关分析

在图17.20中，Y4是MA（1）过程生成的时间序列，ACF图呈现出明显的截尾特征，在1阶延迟之后，自相关函数迅速衰减成小值波动，在PACF和IACF图中，偏自相关函数和逆自相关函数都呈指数衰减，具有拖尾的特征。

图17.21 例17.4中序列Y5的趋势和相关分析

在图17.21中，Y5是MA（2）过程生成的时间序列，ACF图中，自相关函数在2阶延迟之后，迅速衰减到小值波动，具有截尾特征；PACF图和IACF图都具有明显的拖尾特征。

图17.22 例17.4中序列Y6的趋势和相关分析

在图17.22中，Y6是另一种MA（2）过程生成的时间序列，ACF图中，自相关函数在2阶延迟之后，迅速衰减成小值波动，具有截尾特征；PACF和IACF图中，偏自相关函数和逆自相关函数呈现正弦波振荡衰减的特征。

图17.23 例17.4中序列Y7的趋势和相关分析

在图17.23中，Y7的ACF图、PACF图和IACF图都呈现出拖尾的特征，符合混合模型的相关系数特征，但是仅通过相关系数很难判断混合模型的阶数。

图17.24 例17.4中序列Y8的趋势和相关分析

在图17.24中，Y8是白噪声序列，任意阶延迟的自相关函数、偏自相关函数和逆自相关函数都近似为0。

前面讨论了如何用TIMESERIES过程进行数据的预处理，实际上除了对数据进行预处理以外，TIMESERIES过程也可以用来生成序列的ACF图、PACF图和IACF图，语法如下：

TIMESERIES过程默认不输出任何图形或报表，因此在PROC TIMESERIES语句中，需要使用选项PRINT=和PLOT=来输出指定的报表或图形。当同时指定多个图形或报表时，需要将它们用括号括起来。可以输出的图形包括SERIES、RESIDULE、HISTOGRAM、CORR、ACF、PACF、IACF、WN（白噪声概率）、TCC（trend-cycle component）、SC（seasonal component）等；可以输出的报表包括DECOMP、SEASONS、DESCSTATS、SUMMARY、TRENDS等。

例17.5：利用TIMESERIES过程作出数据集work.armaExamples中序列Y1的相关系数图。

示例代码如下：

输出内容如图17.25和图17.26所示（省略了数据集的基本信息输出和序列的基本信息输出）。

图17.25 例17.5中序列Y1的相关性分析

从图17.25可见，在相关性分析面板里同时输出了Y1的ACF图、PACF图和IACF图，以及白噪声检验图。前三者和ARIMA过程输出的结果一样，这里不再解释。

白噪声检验图以延迟期数为横坐标，以Pr>|延迟期数对应的统计量LB的取值|的概率为纵坐标，每个柱子代表每个延迟期数对应的概率，概率越小柱子越高，图中，任意延迟期数对应的概率都小于0.001，代表着应拒绝白噪声检验的原假设，即Y1不是白噪声序列。

接下来，TIMESERIES过程还将分别输出Y1的ACF图及标准化ACF图、PACF图及标准化PACF图、IACF图及标准化IACF图。下面仅展示ACF图和标准化ACF图作为示例。标准化的ACF图仍然以延迟期数作为横坐标，以标准化之后的ACF作为纵坐标，它标出了2倍标准差范围和1倍标准差范围。

图17.26 例17.5中序列Y1的自相关图和标准化自相关图

自动识别

对于某些序列，通过观察自相关函数、偏自相关函数和逆自相关函数图，可以判断出AR模型或MA模型的阶数。但是，有的时候，ARMA混合模型可能可以生成更加准确的预测，并且一个合适的ARMA（p，q）模型所含参数的个数（p+q+2）通常要小于纯粹的AR（p'）或者MA（q'）所含参数的个数。但是，从例17.4中的时间序列Y7可知，ARMA混合模型的阶数通过观察相关系数图是很难判断的。

为了更有效和更简便地辨识ARMA模型的阶数，一些其他的模式辨识方法被提出并应用，例如ESACF（延伸自相关系数法）、SCAN（最小典型相关法）和MINIC 方法（最小信息准则法）。在ARIMA过程中，IDENTIFY语句中的选项ESACF、MINIC和SCAN就是分别对应的这三种模式辨识方法的。其使用语法为：

其中，选项P=指定了AR阶数范围，选项Q=指定了MA阶数范围；选项PERROR=指定了用来拟合残差序列的AR模型的阶数范围，默认情况下，PEmin设定为Pmax，PEmax设定为Pmax和Qmax之和。选项ESACF、SCAN和MINIC可以分开使用。

例17.6：分别用选项ESACF、MINIC、SCAN为work.armaExamples中的序列Y7进行模型识别。

示例代码如下：

输出的报表中包含了ESCAF方法的广义自相关系数矩阵和P值矩阵，根据这两个矩阵的结果，SAS接着输出了ESACF方法识别出的待选模型，如图17.27所示，待选模型包括ARMA（1,1），ARMA（9，8）和ARMA（10，8）。

图17.27 例17.6中ESACF方法识别出的待选模型

这里需要解释一下p+d的意思，例如，当p+d=2时，p和d的取值有三种情况：

p=2，d=0
p=1，d=1
p=0，d=2

在前面介绍自回归求和移动平均过程（ARIMA）时曾讲到，如果序列是非平稳的，可先通过差分将非平稳序列转化成平稳序列，d则表示差分的阶数。当d>0时，ARMA模型表示非平稳模型，所以上面ESACF方法也提供了一些待选的非平稳模型。

这里SAS直接输出了根据广义自相关系数矩阵和P值矩阵识别出的待选模型，如果读者感兴趣如何从这些矩阵中分析识别待选模型，可以查看相关参考文献，如Tsay and Tiao (1984)，及Pena，Tiao，and Tsay(2001)。

下面这段程序的输出了SCAN方法的典型相关估计矩阵和卡方统计量的P值矩阵。

基于对这两个矩阵的分析，SAS接着输出了SCAN方法识别出的模型，如图17.28所示，待选模型包括ARMA（1,1）、AR（8）和一些非平稳模型。注意，ARMA（1,1）同样是ESACF方法推荐的待选模型。

图17.28 例17.6中SCAN方法识别出的待选模型

下面这段程序输出了MINIC方法的信息准则矩阵。

该信息准则矩阵如图17.29所示，并且它基于最小信息准则，给出了推荐的模型ARMA（1,4）。

图17.29 例17.6中MINIC方法的信息准则矩阵

那么，通过这三种方法识别的待选模型有ARMA（1,1）、ARMA（9,8）、ARMA（10,8）、AR（8）、ARMA（1,4），并且ESACF方法和SCAN方法都推荐了ARMA（1,1）。

本文结束，下一篇文章介绍平稳时间序列分析之参数估计和诊断检验。

回复【数据和代码】可以下载《深入解析SAS》一书的数据和代码。

查询往期文章，请回复下列关键字：

【安全】==>【SAS智能平台安全管理】系列文章

【Base基础】==>【Base SAS基础】系列文章

【编程概念】==>【SAS编程基本概念】系列文章

【描述性统计】==>【SAS统计分析系列：描述性统计分析】系列文章

【读外部数据】==>【读取外部数据到SAS数据集】系列文章

【假设检验】==>【参数估计与假设检验】系列文章

【单数据集处理】==>【单数据集处理】系列文章

【方差分析】==>【方差分析】系列文章

【主成分与因子分析】==>【主成分分析与因子分析】系列文章

【多数据集处理】==>【多数据集处理】系列文章

【线性回归】==>【线性回归】系列文章

【数据汇总展现】==>【数据汇总与展现】系列文章

【SQL语言】==>【SQL语言】系列文章

【LOGISTIC回归分析】==>【LOGISTIC回归分】系列文章

小贴士

读者可以从以下链接获取SAS公司提供的免费版环境：

SAS大学版（SAS® University Edition）是SAS为在校大学生免费提供的基于虚拟机和网页的SAS环境。回复关键字【大学版】，可以查看详细介绍。

下载路径：

https://www.sas.com/en_us/software/university-edition/download-software.html

SAS学术版（SAS® OnDemand for Academics）是 SAS 为学术届人士免费提供的、在线的、基于SAS 私有云上的应用服务环境。

用户首先需要注册，然后按照提示信息就可登录。

注册路径：

http://odamid.oda.sas.com

本文转自《深入解析SAS — 数据处理、分析优化与商业应用》

如若转载本文，请在文章顶部标注 “本文转自SAS知识（ID: SASAdvisor），摘自《深入解析SAS — 数据处理、分析优化与商业应用》”

作者介绍

夏坤庄

《深入解析SAS — 数据处理、分析优化与商业应用》第一作者， SAS软件研究开发（北京）有限公司客户职能部总监。在承担研发工作的同时，夏及其团队负责对SAS非英语市场提供技术支持，并且与在美国及其它地区的团队一起，服务于SAS的SaaS/RaaS业务，同时提供和验证关于SAS产品和技术在应用领域的最佳实践。在加入SAS软件研究开发（北京）有限公司之前，夏就职于SAS中国公司，历任资深咨询顾问、项目经理、首席顾问、咨询经理，拥有丰富的咨询和项目实施经验。在长期的从业经历中，不但为SAS的金融行业客户成功实施了众多深受好评的项目，而且在近年领导实施了非金融行业的多个大数据分析项目。

SAS知识微信：SASAdvisor 长按二维码关注

欢迎大家投稿，一起分享SAS的点滴

投稿邮箱: sasadvisor@outlook.com

以上是关于时间序列分析：平稳时间序列分析之模型识别的主要内容，如果未能解决你的问题，请参考以下文章