时间序列专题之三 时间序列的分段线性表示
Posted xiaokcehui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了时间序列专题之三 时间序列的分段线性表示相关的知识,希望对你有一定的参考价值。
本文来自于博客园玄歌
时间序列专题之三 时间序列的分段线性表示 - 玄歌 - 博客园
这篇文章非常有价值,过两天,博主也要写一个时间序列分段的综述。
在研究如何对时间序列进行线性分段的时候,浏览了60篇左右论文和教材的片段,对其中的6篇仔细阅读并编写程序和单元测试实现相应的算法。同时为了直观的看到分段效果,还制作简易的曲线图呈现原始序列和分段序列。这种超负荷的工作,是在一周之内完成的,目的只有一个:选择算法。
作为程序员,实际上并不能算是研究人员,多数情况下,他只需要不同的苹果中选择一个苹果而已,没有必要去种苹果树。
但凡需要“选择”的时候,工作步骤如下:1、确定你想要达到的目的,这个最为重要,你的目的贯穿整个工作,千万不要在相亲的时候,突然对对方的妹妹格外关注;2、区分关注的层次比如,简要的阅读能够排除很多不需深究的东西,上面说到的60篇论文中的54篇要么是作者本身显得不妥、要么是某种方式的抄袭、要么其提供的分段图形本身就不符合要求,简单的五分钟你就能够排除,无需浪费时间。3、你感兴趣的算法各有优势和缺陷的时候,有无可能对某种主要的算法进行调整,或者组合应用其他算法的某些概念?4、实在找不到合适的算法,或者组合相应算法也无力达成的时候,能否基于你的需要而自行设计新的算法?当然,到这个层面,你也变成了那群做研究的书呆子之中的一员,不过一定要确定一点,至少你的目的明确,这和他们混稿费、混基金、呆在实验室空想是不同的,身为程序员你其实很有优势的。
下面对算法的描述,并没有采用那些很精确的命名,而只是从算法的特征来分类。事实上大约有十来种主流的算法和近百种各类扩展、调整、优化的算法,每个都号称自己效果如何好、效率如何高、怎样支持在线划分等,但我们没有必要陷入他们的战争。选择到最后确定几种分段算法,我个人用的时间是一周,过于沉湎细节的话,恐怕一个月都无法做决断。例图中使用深圳A股深发展在2009年和2010年的实际收盘价走势,黑线为原始数据,红线为拟合线段,红点为分段点。
一、对时间序列分段,是什么意思?
时间序列,在二维平面上实际上是一条曲线,所谓分段,就是用一系列首尾相接的线段,近似的表达一条曲线。
下图是将误差设为5级的分段图,这个粗略一些,用于长期趋势的分析。实际曲线有482个点,压缩后用22个点描绘实际曲线的趋势变化:
下面是误差设为3级的分段图,和原有曲线走势更加吻合一些,用于短期波动的分析:
二、为什么要对时间序列分段?
第一个原因,很多时候,我们关注时间序列的主要趋势变化,而不太关注具体的数值和少量的异常点,对序列分段,我们可以抓住重点。比如某个公司更关心其在各城市销售数量增长没有,今天1百万,明天90万,后天110万,大后天130万,增长了没有?所以分段实际上是表达趋势,你可以将时间序列用自然语言表达,即在10月1日到11月5日之间,销售量大致保持每天增长0.5%的趋势,11月5日到11月9日之间,销售量以每日平均下跌0.02%的趋势。
第二个原因,提高时间序列的运算性能。时间序列往往很长,数据量比较大,而序列的查询操作、聚类操作,往往涉及的计算量惊人,举例来说,2000个接近4000条记录的时间序列,遍历搜索一遍,在性能不错的笔记本上往往需要10个小时左右的时间。而缩小时间序列的长度,将大幅提高计算的效率,这个提高往往是50倍甚至100倍这样的概念。这往往让不可能的事情变得可能,比如你的一项分析需要运算一周才能出数据,届时黄花菜肯定是分外的凉,估计没有人会需要这样的软件系统。
第三个原因,在不同精度层面上搜索。我们经常需要对同一时间序列,做长期趋势、中期趋势和短期趋势的分析。比如我们可能需要搜索60天的数据,也可能需要搜索5天的数据。通过控制划分时间序列的压缩度,我们可以在不同层次上运算,一些时候考虑长远趋势,图像会平滑一些。一些时候考虑短期趋势,图像会灵敏一些。固然,我们能够通过使用移动平均、或者将时间周期提升一个层次,来对原始序列做预处理,但在不同的压缩度的情况下划分时间序列,则是比较通用的办法。明明可以这么简单,又何须额外考虑许多数据预处理之类的工作?
三、在选择分段算法的时候,我们的核心要求是什么?
1、可以调整搜索的精度,以获取更精细的分段和更粗略的分段。
2、用于调整精度的阀值,要易于理解,且与不同时间序列的具体数值无关。
3、同样的压缩比,我们希望分段的效果和原来的曲线更加吻合。
4、次要目标:希望性能较好。这个很多时候可以放弃。
5、次要目标:希望支持在线划分,也就是增量划分,这样我们可以保存分段的结果,新增数据后只要做少量的调整就行了。支持增量划分,则性能会达到顶点,不过要注意,前提是你要支持多少个不同精度的划分?如果算法参数过于复杂,则增量搜索要保存很多不同的分段结果,这是不合适的。所以,即使支持增量划分的算法,也要考虑你实际应用有没有可能使用的可能。
所以对算法优劣的评估标准,应是:在相同拟合误差的情形下,压缩比越高越好;算法的阀值,不应与具体序列的数值有关。
四、先说说我们结论:
1、分段算法,可粗略的分为全局算法和局部算法。全局算法在整个时间序列的基础上,寻找最优的分段集合。局部算法根据局部的特征,从左到右寻找符合要求的分段。
2、如果要精确表达,同时获得较好的压缩比,采用BU算法,当然这种算法的计算量较大,且不支持在线划分。如果要支持增量划分,采用SW或者层次聚类的算法。
3、多数情况下,极值点和特征点算法,由于是局部算法,其精度和压缩比不能很好的平衡,不予考虑。
4、分段和降噪应区分开来考虑,即先分段,然后根据需要对分段的结果降噪。这有助于简化思维,因为在分段的时候,精度和压缩比之间,本来存在矛盾,分段算法的关键在于两者间的平衡。而降噪,则是和精度、压缩比有关的,降噪会导致精度下降同时提高压缩比。
5、阀值的确定,应该容易理解,同时也要容易选择,目前尚没有发现能够自行根据曲线的统计特征确定阀值的算法。所以我们不妨对阀值做一定的变换,比如我们将拟合误差变换成一个百分比,即误差越大则分段越少,取值在0到100之间。基于距离的,我们可以将其变换为与原始点的值的比例。算法应尽可能避免和序列的实际值有关,要保证相同的阀值针对不同序列具备相同的分段效果。
6、永远不要考虑多维时间序列的问题,因为你能处理一维,就意味着你可以处理多维,此时,你仅需要考虑不同维度的先后秩序问题和权重问题,这个并不复杂。许多从事多维数据序列分析研究的专家,其实并不适合于做研究,因为既然涉及到这个领域并投入精力,本身说明其抽象思维方面素质太差。
四、全局算法
1、自顶向下TD算法:
时间序列的开始点和结束点,是首先选中的分段点。然后,遍历两点之间的所有点,找出和这两点连成的直线距离最大的点,如果这个点到直线的距离“大于”预先给定的阀值,我们将其称为R,则将它作为第三个分段点。这样我们就有了两个线段,做了最初步的划分。
之后,这个新增点到左边相邻点和右边相邻点构成的两条线段,继续寻找距离最大的点,然后,找到的两个点,谁与相应的线段距离最大,且这个距离“大于”阀值R,则该点作为第四个分段点….如此循环,直到再也找不到距离大于R的点,分段完成。
这个阀值,也就是点到线段的距离,可以使用正交距离(原始点和分段线段在该点的值的差的绝对值)、垂直距离(原始点到分段线段的直线的长度)和欧式距离,当然也可以设置其他的特性作为阀值,比如拟合误差、又比如弧度、角度、余弦等,由此可以引申很多种不同的算法,这也是多数教授们所乐于从事的研究,简单。我们一般选择垂直距离就行了。
这个阀值不太好理解,且与不同的时间序列具体取值有关,直接应用完全没有通用性。我本人在项目中,将其做一定的变换处理的。
2、自底向上BU算法:
这是TD算法的逆过程,首先将时间序列,划分为相邻点的短序列,当然此时的拟合误差为0,因为第一点和第二点的连线,原始点都落在线段上。将相邻两个线段连接起来,此时每条线段包含三个原始点,计算中间那个点的拟合误差。这样,所有这些三个点的线段中的中间点的拟合误差计算出来后,找出误差最小且误差小于阀值R的分段,作为第一条包含三个点的线段。
在上面的基础上,第一条分段同样的和相邻线段连接,然后计算每一条分段的拟合误差,再找出误差最小且小于阀值R的分段,作为第二个分段。
依次方式循环,直到所有分段的拟合误差都小于阀值R,分段结束。
当然,你同样可以使用正交距离、垂直距离等其他属性,由此算法又演变成多种不同的算法。
五、局部算法
1、固定窗口PAA算法:
这个最简易,阀值为R,表示你要将序列分成多少段。然后使用线段的长度除以这个值,得到窗口的长度L。从序列的第一点开始,到第L-1点作为第一段,用其平均值表示。这种算法实际上类似股票日线中的5日均价、10日均量。非常粗略,拟合不够精确。但这种算法,好象是时间序列分段研究最早的成果。
2、滑动窗口SW算法:
给一个窗口长度的最小值N和最大值M,然后从序列第一点开始,与第N点连线,计算各点拟合误差,如果误差总值小于给定的阀值R,拟合成功,增加窗口的长度,连线再计算拟合误差,如果拟合误差小于R,继续增加窗口长度一直到窗口长度为M。如果拟合误差大于R,则第一段结束,该点作为新的窗口的起始点,继续同样的过程,直到序列划分完毕。
这种算法属于局部算法,有方向性,从算法的原理来看,就容易漏报和将本应拟合的线段划分为两条线段。代码实现的效果来看,划分的不太理想。
3、极值点:
所谓极值点,是指曲线中的转折点,寻找极值点的算法很简单,从序列第二点开始遍历,没点如果同时比前后两点大,或者同时比前后两点小,那么这个点就是时间序列的一个极值点。找出所有极值点的集合,就得到了所有分段点。这种算法,是基于人类视角的关注点而来,但很显然存在两个问题:1、是局部算法,只考虑与相邻两点的问题,所以划分的时候容易过于精确而忽略趋势。2、只考虑了趋势反向问题,即从上升到下降和从下降到上升,没有考虑趋势加速问题,比如先是15%角度上升,然后是40%角度上升,之间的结合点显然漏掉了。这也意味着此种算法从原理上就不能精确表达趋势。优点也是有的,即计算简单,性能很好,支持在线划分,没有阀值。
4、特征点:
在极值点的基础上,加上判断,比如两个极值点之间的距离必须大于某个阀值,或者该极值点除了比前后点同时大或同时小之外,还需要大于某个比例阀值R。这样的改进意义不大,只是进一步减少极值点而已。
5、趋势点:
在极值点的基础上,考虑了趋势加速问题,即计算某点和相邻点的角度,或者弧度、或者余弦等,大于某个特定阀值R的称为趋势点,按照这种算法基本上不会遗漏掉极值点,趋势加速或减速的关键点也不会遗漏掉。不过这同样是一种局部算法,极值点方法其他毛病,这种算法并没有避免。
6、层次聚类:实际上仅仅运用了KMean算法的中心和半径的概念,其他没多少区别。这种算法的阀值比较多,而且看起来分类的效果不好,没有看点。不过这种算法,其分类的效果好于SW算法,也同样的支持在线划分。
六、时间序列自身特征问题:
一部分类型的时间序列,遵循一定的规律,价格逐日波动的过程相对平稳,另一些很可能出现前后两天变动数倍的情形。
这样,首先我们面临的问题,是能否针对不同业务含义的数据调整精度,以正常的分段;第二,是能否对数据进行预处理,以支持分段。
这两种方式,事实上都与业务系统相关。
反过来说,我们需要研究,能否通过自动分析数据本身的特征,由算法来决定是否需要预处理、基于何种模式设置何种精度合适。这里涉及到的序列特征,包括序列的极值(最大与最小的差距)、序列的标准差(反映离散程度)、序列的最大取值范围(出现最多的区域,出现百分比多少),当然,这仅仅是一些统计学方面的概念。
事实上,对于波幅巨大的序列,如果分段,则很可能出现全部原始点都是分段点的情形,这种情形下的趋势价值有限。使用移动平均的方式来平滑是一个办法,但这里的相似性度量仍然会存在问题。
七、进一步关注的内容:
时间序列方面的具体应用,无非落实在识别、趋势分析和异常检测,在趋势分析方面,基于拟合的思路远不如使用时间序列基于搜索、聚类和统计的思路。基于拟合的思路,做决策支持分析的时候,是无法说服客户的。比如神经网络之类的方式,本质上就是用公式表示现在的走势,同时认为未来的走势也符合这个公式的规律,这个显然是期望使用数学来统治世界,很难令人信服。其他诸如ARMA之类的方法,大体上也是同样的路子。 只有基于搜索、聚类和统计的方法,才能够有一定的说服力,因为这里找出的是一些历史上已经发现的模式,期间蕴藏着我们不容易表达的规律。
由于时间序列,或者说有向序列,通常的需求无非在趋势和异常两点。而表达趋势方面,需要一定的模糊性,那么模糊数学、机器学习方面的一些概念,能否用于这个领域,目前尚没有特别有效的方法。
现有的时间序列工具,当图像被当作二维平面上的点的时候,按照先左后右获得第一条序列,从上到下获得所有序列这样的顺序,是能够进行分析的,比如找出相片中有多少人、找出相片中的人是不是你本人、找出相片中出现了一辆车没有、指纹是否符合等、雷达中获取的反射信息构成的模糊形状是否可能是一架飞机?当然,同样的扩展到三维空间,则对3d图形实际上也能够处理,无非是确定序列数量和方向、确定各序列权重的问题。
以上是关于时间序列专题之三 时间序列的分段线性表示的主要内容,如果未能解决你的问题,请参考以下文章