对时间序列进行回归建模的思考
Posted 观想厅
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对时间序列进行回归建模的思考相关的知识,希望对你有一定的参考价值。
最近有做对时间序列进行分析的一个项目,针对商店的销售额进行预测。其中商店个数也有很多。给出的数据包括门店的历史数据,以及门店信息,还有自己爬去的天气信息。时间序列分析都可以通过回归方法来解决。当前的思路是用回归来解。
经过分析之后,时间序列说实话并不漂亮。当然,真实情况就是这样的。人生没有彩排,只有上帝洞察世间的所有规律。所以规律不是很好抓。时间序列分析首先可视化,大体看看时序图,一般很多规律可以抓取出来,比如周期性,长期的趋势等,然后可以对数据进行稳定性分析。时间的序列的稳定性有强稳定性和弱稳定性,详情可以知乎。这里我们一般理解为序列的均值和方法和时间t无关,同时协方差只和时间间隔delta t有关,依然和时间t无关。
针对不稳定的时间序列,通过差分之后可以趋于稳定,一阶不行二阶差分,差分不行也还有其他办法,应该有吧。此外,时间序列可以分解,周期性的成分,长期趋势成分,随机的一部分。我对时间序列的分析并不了解,这对概率论的要求比较高。时间序列的稳定性可以通过单位根分析。
好啦,回到回归模型。一般回归模型的特征参数有两部分,一是从历史的数据中拿统计数据作为特征。可以用同比环比均值等统计,还可以用差分,方差标准差。不过后者的几个统计值好像不太明显,数学角度差分可以刻画趋势,但是解释性说实话不太好。同时也特别容易被“平衡掉”。还有一部分数据从时间角度刻画,星期月份,节日,上下午诸如此类。此类特征往往很有用,自己体会。
当然,之前的差分特征容易被平衡,因为它是线形的,所以回归分析使用一般的特征会学习不出,要解决非线性问题,需要引入交叉变量或者采用树模型。回归模型和树模型的比较后面说。回归问题会遇到变量多重线形问题,又要注意。
同时本次遇到的问题,对单独店铺建模和全部门店统一建模又是需要权衡的一种方式。单独门店进行建模,粒度细,但是数据样本少。全部门店统一建模需要更多的特征用来标签化个性化,所以特征数量需要加大,优点是数据量大。
好久没写文章,此次也是潦草的笔记。理论和实际还需结合。对数据的灵敏程度需要加强。fighting!
回归模型和树模型的差别,啥时候具体推送。
以上是关于对时间序列进行回归建模的思考的主要内容,如果未能解决你的问题,请参考以下文章