厘清指标维度,截面数据时间序列数据以及面板数据
Posted 数据分析师手记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了厘清指标维度,截面数据时间序列数据以及面板数据相关的知识,希望对你有一定的参考价值。
数据分析师手记
因为专注,所以专业
在接受三种不同维度的数据前,先在脑海中想象这样一幅场景,人类在一望无垠的时空中穿梭,这个三维的时空中,所过之处创造了无数的数据。
数据的长河
这些数据也是有维度的,维度角度的缺失,将使这些数据如一盘散沙一样,无法产生数据的价值。
指标与维度正是发掘和利用散落的数据必不可少的思维工具,在海量数据点的基础上,通过指标与维度的结合,可以搭建宏伟的沙雕甚至神奇的金字塔,实现数据的价值。
一、指标与维度
1
指标
大到反映经济发展状况的经济类指标,揭示生态环境质量的气候指标、水质指标,小到衡量工作业绩的绩效kPI,表征身体健康状态的体检指标,这些指标共通之处是都可以用数据来量化。
指标这个概念似乎有些司空见惯,被广泛应用与各个行业领域及业务细分的目标衡量。人们把需要研究的对象拆解为几大相对独立的模块,每个模块都对应着诸多指标,在基础指标的基础上可以构建一个能够全面刻画被研究对象的指标体系。
在一个全面的指标体系中,不仅有基础的指标组成,还有基于基础指标加工出的二级指标,它们能够再更上一层归纳一些基础指标的联动关系,近一步贴近研究对象的本质。诸如,相对于利润额而言,利润率这个指标更能揭示企业盈利能力的高低。
2
维度
最早接触维度,或许是从几何学开始的,一维的“线”,二维的“面”,三维的“立体”,维度是人们感知空间内一切物体的几何手段。
在日常使用中,维度的含义有着更为广泛的外延,而不限于空间维度。诸如洲、国家、地区、城市等地域维度,性别、年龄、身高、体重等生物属性维度,教育水平、收入水平、爱好等社会属性维度。维度是广泛的,不同的分析切入点需要不同维度数据的支撑。
在指标与维度结合之处,产生了数据分析中常见的三种数据组织方式,即:截面数据、时间序列数据与面板数据。
二、截面数据、时间序列数据、面板数据
1)
截面数据
截面数据是一种一维的数据组织方式,一般是指同一时期或时点下,一个或多个指标值串在一起。举个简单的统一时期多个指标组织在一起的截面数据例子,如下所示:
常见的截面数据还有很多,比如学校在2018年春季对学生抽样获取的身高数据,是一种单一指标—身高对应的截面数据。对于截面数据,通常采用的的分析方法主要是描述性统计分析以及横向比较,诸如占比分析。具体有:
a) 集中趋势分析
包括平均数、中位数、众数、最大值、最小值
b) 离散趋势分析
包括分位数、方差、标准差
c) 偏态与峰度分析
d) 指标横向对比分析
包括占比分析,横向对比
2)
时间序列数据
时间序列数据是一种一维的数据组织方式,且这种维度是指时间维度。将不同时刻或时期下,同一指标的观测值串到一起,就是时间序列数据。
时间序列分析由浅入深,分别有描述性时序分析、统计性时序分析、频域分析、时域分析以及时间序列挖掘。
a) 描述性时序分析:如下图所示,对时间序列数据进行简单的绘图观测,就是一种描述性时序分析。
b) 统计性时序分析:在描述性分析的基础上上,还可以对时间序列数据进行差分计算,对一阶差分、二阶差分后的时间序列进行绘图观测,属于统计性时序分析。
c) 频域分析:通过描述性、统计性时序分析,可以观测到时间序列数据的平稳性水平、变化趋势、季节性长度规律。随着人们对时间序列数据研究的深入,逐渐转向时序曲线的振幅频率和相位的研究,这就是时间序列的频域分析。
d) 时间序列的时域分析:经历了从研究时间序列的周期性特征的AR(2)/AR(4)模型、研究时间序列中随机成分的MA(h)模型,到实现了拟合平稳序列的ARMA模型,再到拟合非平稳自回归序列的ARIMA模型,及非线性参数自回归的异方差ARCH模型。
e) 时序数据挖掘:时间序列被应用于分类、聚类、模式发现、预测。
3)
面板数据
面板数据是一钟二维的数据组织方式,并且其中一个维度是时间维度。举了个简单的例子,如下所示:
从本质上来看,面板数据是一种二维结构的数据,也是日常分析工作中最常见的对象,各种方法都可以应用到面板数据的分析中,不在此展开。
QQ交流群:254674155
data.analysis666@qq.com
数据分析师手记
没时间解释了,快长按左边二维码关注我~~
以上是关于厘清指标维度,截面数据时间序列数据以及面板数据的主要内容,如果未能解决你的问题,请参考以下文章