用Python预测「周期性时间序列」的正确姿势
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用Python预测「周期性时间序列」的正确姿势相关的知识,希望对你有一定的参考价值。
参考技术A 公司平台上有不同的api,供内部或外部调用,这些api承担着不同的功能,如查询账号、发版、抢红包等等。日志会记录下每分钟某api被访问了多少次,即一个api每天会有1440条记录(1440分钟),将每天的数据连起来观察,有点类似于股票走势的意思。我想通过前N天的历史数据预测出第N+1天的流量访问情况,预测值即作为合理参考,供新一天与真实值做实时对比。当真实流量跟预测值有较大出入,则认为有异常访问,触发报警。我放了一份样例数据在data文件夹下,
看一下数据大小和结构
画图看一下序列的走势:(一些画图等探索类的方法放在了test_stationarity.py 文件中,包含时间序列图,移动平均图,有兴趣的可以自己尝试下)。
看这糟心的图,那些骤降为0的点这就是我遇到的第一个坑,我当初一拿到这份数据就开始做了。后来折腾了好久才发现,那些骤降为0的点是由于数据缺失,ETL的同学自动补零造成的,沟通晚了(TДT)。
把坑填上,用前后值的均值把缺失值补上,再看一眼:
发现这份数据有这样几个特点,在模型设计和数据预处理的时候要考虑到:
前六天的数据做训练,第七天做测试集。
消除数据的毛刺,可以用移动平均法,我这里没有采用,因为我试过发现对于我的数据来说,移动平均处理完后并不能使数据平滑,我这里采用的方法很简单,但效果还不错:把每个点与上一点的变化值作为一个新的序列,对这里边的异常值,也就是变化比较离谱的值剃掉,用前后数据的均值填充,注意可能会连续出现变化较大的点:
平滑后的训练数据:
采用statsmodels工具包:
对分解出来的趋势部分单独用arima模型做训练:
预测出趋势数据后,加上周期数据即作为最终的预测结果,但更重要的是,我们要得到的不是具体的值,而是一个合理区间,当真实数据超过了这个区间,则触发报警,误差高低区间的设定来自刚刚分解出来的残差residual数据:
预测并完成最后的加法处理,得到第七天的预测值即高低置信区间:
对第七天作出预测,评估的指标为均方根误差rmse,画图对比和真实值的差距:
可以看到,均方根误差462.8,相对于原始数据几千的量级,还是可以的。测试数据中的两个突变的点,也超过了置信区间,能准确报出来。
前文提到不同的api形态差异巨大,本文只展示了一个,我在该项目中还接触了其他形态的序列,有的有明显的上升或下降趋势;有的开始比较平缓,后面开始增长... ... ,但是都属于典型的周期性时间序列,它的核心思想很简单:做好分解,做好预测结果的还原,和置信区间的设置,具体操作可根据具体业务逻辑做调整,祝大家建模愉快:-D。
[Python]判断序列是否为空的正确姿势
本篇文章起源于StackOverflow上一个热度非常高的问题:
@Ray Vega (提问者)
举例说明,现在我得到了如下代码:
a = []
我如何该检查
a
是否为空?
面对这个问题,各路高手给出了不尽相同的回答。
最高票答案十分简洁:
@Patrick (答题者)
if not a: print("List is empty")
利用空列表的隐式布尔值是一个非常Pythonic的方式。
排名第二的答案与第一观点相同,并以PEP 8作为依据,说明不仅是列表,Python中的内置序列类型都有推荐的做法:
@Harley Holcombe (答题者)
PEP 8 风格指南 给出了推荐的Pythonic的方法(其中Yes 表示推荐, No表示不推荐):
对序列数据类型(字符串,列表,元组),利用空列表隐式为
False
的事实Yes: if not seq: if seq: No: if len(seq): if not len(seq):
然而,排名第三的答案给出了不同的看法:
我更推荐显式的方法:
if len(li) == 0: print('the list is empty')
这种方式明确声明了
li
是一个序列类型的变量,并且我们是在检查它的长度。而if not li
的问题在于,它会给我li
是一个布尔类型变量的印象。
那么,判断列表(序列)是否为空的正确姿势到底是什么呢?这貌似只是一个编码风格的问题,但我们分别从两类不同看法的出发点挖掘更深层次的原因,可以让自己更明确地选择适合自己的风格。
什么是PEP 8
PEP,全称Python Enhancement Proposals (翻译过来就是Python增强建议书),有兴趣的读者可以直接阅览PEP原文。 PEP本质上是一份Python的官方文档库,给Python社区提供信息,或者描述Python的新特性或开发进展。而PEP 8是这个文档库中的一员,专门用于描述Python的编码规范,这里规范是指官方推荐的,被认为是更符合Python设计哲学的各种实践。
同样实现相同的功能,不同编程语言的倾向于使用不同的风格,这是因为每种语言都有自身的设计目的,而Python的设计目的非常明显:优雅,简单,可读。正如PEP 20(另一份PEP)Python之禅中所说:
简单优于复杂
于是,依据序列长度是否为0将序其隐式转化为布尔值,成为Python实现中的特性之一,并成为官方推荐的判断序列是否为空的Pythonic方式。
关于Python是如何做到序列类型乃至所有类型到布尔值的隐式转化的,我会专门就此问题写文讨论,欢迎关注。
什么是动态类型
那么为什么还会有人提出明确使用看上去复杂的if len(li) == 0
来判断,并且还有很多人表示赞同呢?这其实来源于Python语言的动态类型特性。
关于什么是动态类型,我也会另外专门讨论,在这里,我们只需阐明,动态类型带来了一个弊端,我们无法对变量在程序中某一位置的类型进行准确判断。在阅读Python代码的过程中,我们可能最为头痛的问题就是:这里这个变量是什么(类型)???唯一留给我们的线索也许只有变量名了。而在静态类型语言,如Java中,一个变量的类型从其声明时是确定的,在程序中不会发生改变。
回到我们的问题,if not li
,看到这段代码的程序猿可能会疑惑,这里的li
变量是什么,是一个布尔类型?还是一个整型?这里的测试是在干什么?而if len(li) == 0
可以很大程度上进行提示:这大抵是个容器性质的变量,我们在做的大抵是判断其元素数量是否为0.
总结
讨论到这里,我们仍然只能说,Python中如何判断一个列表是否为空,是一个与风格和习惯有关的问题,但是深入探究我们发现,风格和习惯不是目的,而是手段,代码最终是服务于编码者和阅读者的,抛开性能问题,只从可读性出发,你希望阅读这份代码的人接受到的是什么,是简单优雅,还是信息提示,这才是比所谓Pythonic更值得思考的问题。
获取最新文章更新,欢迎关注我的公众号: StackOverflow Daily
以上是关于用Python预测「周期性时间序列」的正确姿势的主要内容,如果未能解决你的问题,请参考以下文章