对时间序列进行回归建模的思考

Posted 观想厅

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对时间序列进行回归建模的思考相关的知识,希望对你有一定的参考价值。

最近有做对时间序列进行分析的一个项目,针对商店的销售额进行预测。其中商店个数也有很多。给出的数据包括门店的历史数据,以及门店信息,还有自己爬去的天气信息。时间序列分析都可以通过回归方法来解决。当前的思路是用回归来解。

经过分析之后,时间序列说实话并不漂亮。当然,真实情况就是这样的。人生没有彩排,只有上帝洞察世间的所有规律。所以规律不是很好抓。时间序列分析首先可视化,大体看看时序图,一般很多规律可以抓取出来,比如周期性,长期的趋势等,然后可以对数据进行稳定性分析。时间的序列的稳定性有强稳定性和弱稳定性,详情可以知乎。这里我们一般理解为序列的均值和方法和时间t无关,同时协方差只和时间间隔delta t有关,依然和时间t无关。

针对不稳定的时间序列,通过差分之后可以趋于稳定,一阶不行二阶差分,差分不行也还有其他办法,应该有吧。此外,时间序列可以分解,周期性的成分,长期趋势成分,随机的一部分。我对时间序列的分析并不了解,这对概率论的要求比较高。时间序列的稳定性可以通过单位根分析。

好啦,回到回归模型。一般回归模型的特征参数有两部分,一是从历史的数据中拿统计数据作为特征。可以用同比环比均值等统计,还可以用差分,方差标准差。不过后者的几个统计值好像不太明显,数学角度差分可以刻画趋势,但是解释性说实话不太好。同时也特别容易被“平衡掉”。还有一部分数据从时间角度刻画,星期月份,节日,上下午诸如此类。此类特征往往很有用,自己体会。

当然,之前的差分特征容易被平衡,因为它是线形的,所以回归分析使用一般的特征会学习不出,要解决非线性问题,需要引入交叉变量或者采用树模型。回归模型和树模型的比较后面说。回归问题会遇到变量多重线形问题,又要注意。

同时本次遇到的问题,对单独店铺建模和全部门店统一建模又是需要权衡的一种方式。单独门店进行建模,粒度细,但是数据样本少。全部门店统一建模需要更多的特征用来标签化个性化,所以特征数量需要加大,优点是数据量大。

好久没写文章,此次也是潦草的笔记。理论和实际还需结合。对数据的灵敏程度需要加强。fighting!

回归模型和树模型的差别,啥时候具体推送。

以上是关于对时间序列进行回归建模的思考的主要内容,如果未能解决你的问题,请参考以下文章

数学建模暑期集训6:用SPSS对数据进行多元线性回归分析

python实现Lasso回归分析(特征筛选建模预测)

使用Pandas数据读取器进行Python回归建模

时间序列第二弹广义自回归条件异方差模型GARCH

R语言泊松回归对保险定价建模中的应用:风险敞口作为可能的解释变量

R语言—回归诊断