新版白话空间统计(25):方向分布(标准差椭圆)

Posted 虾神说D

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新版白话空间统计(25):方向分布(标准差椭圆)相关的知识,希望对你有一定的参考价值。

方向分布是虾神最喜欢的一个空间统计工具,也是最简单明了,但是用处很广的一个

点模式的分析中,一般会考察如下五种内容:

1、点的疏密,包括点数据的分布探索,是否一致、均匀或者不均匀。

2、点的方位,包括点的分布和方向。

3、点的数量:多少(极值和均值)。

4、点的大小:代表的含义(如点一个点代表多少人口)。

5、其他,如点的一些动态变化等。

我们前面说的好几种算法,如中心要素、中位数中心和平均中心,都是关于点方位的分析,那么今天我们要讲的这个算法,就是同时对点的方向和分布进行分析的一种经典算法——标准差椭圆

这算法最早是由美国南加州大学(University of Southern California)社会学教授韦尔蒂.利菲弗(D. Welty Lefever)在1926年提出,所以有的书里面,也把这个算法称为Lefever's "Standard Deviational Ellipse"(利菲弗方向性分布)(又到每天的历史起源科普时间……)。

这个算法最大的特点,就如同他的名词一样,是用来度量一组数据的方向和分布的,生成的结果又正如他的别名一样,会输出一个椭圆,如下:(在ArcMap中,仅能分析二维数据,在ArcGIS Pro中,支持三维点数据的分析,生成的结果是一个三维体)

今天我们就看看这个神奇的椭圆代表的啥意思。

椭圆是一个非常神奇的几何图形——如果说(哲学意义)圆不仅是几何图形,它是未分化的统一性的象征,在神秘主义哲学中,它代表了宇宙创生一分为二时刻之前的那个宇宙。那么椭圆就是开天辟地之后的万物运行轨迹——所以开普勒关于行星的运动定律里面,所有的轨迹都是椭圆形的。

关于椭圆的方程比圆要麻烦一点,但是只要有几个标准参数确定了,也就很容易绘制出来的,绘制一个椭圆需要三个标准的参数:

1、确定圆心。

2、确定旋转角度。

3、确定XY轴的长度。

算法公式都很清晰,大家自己看看就知道了:

其中 x 和 y 是 i要素的坐标,x̄, ȳ 表示要素的平均中心,n 为要素总数。

确定了中心点和角度之后,计算长短轴的标准差:

 

之后就可以直接用椭圆方程绘制出椭圆来了……

好吧,我知道有很多同学有数学恐惧症,所以简单列一下就好,详细的请参阅官方文档,我也就不解释了

(题外话:新版本的ArcGIS帮助文档里面终于改用矩阵方程了……喜大普奔啊,老版本的帮助文档里面的公式那个乱的哟)

 

如果是学术界或者要写论文的同学,肯定希望手动演算一下这方程,那么自己动手丰衣足食……而像虾神这样的工程界(数学学渣)人士,只能通过工具来实现就可以了。

比如,最简单的用ArcGIS来做,直接使用工具就可以了:

 

方向分布工具非常简单,必选参数就是两个,一个输入要素,输入你要分析的点数据,一个输出的数据,就是结果的椭圆。

还有三个可选参数,后面再说。

如果我们做默认的分析,仅输入要分析的要素,不设置权重,得到的结果如下面的图。下面来简单解释一下:

首先,要分析的数据是是长江流域的伤寒病的案例,在图上用红色的点来表示,蓝色的河流是长江太湖流域。

当我们使用默认参数进行分析的时候,会得到这样一个椭圆(上图粉红色的椭圆),并且这个椭圆会有如下属性:

 

其中,Shape_Leng和Shape_Area是生成的椭圆的周长和面积,单位与你数据的单位相同,这里我的数据是经纬度的,所以生成的结果只能作为相对参考结果。

(空间分析的时候,如果需要比较精确的测量属性

一定要使用投影坐标系!

一定要使用投影坐标系!!

一定要使用投影坐标系!!!

重要的事情说三遍)

CenterX和CenterY表示的是椭圆的中心点。

XstdDist和YStdDist表示的X轴的长度和Y轴的长度。

Rotation表示的是椭圆的方向角度。如下:

 

结果解读如下:

1、椭圆的长半轴表示的是数据分布的方向短半轴表示的是数据分布的范围,长短半轴的值差距越大(扁率越大),表示数据的方向性越明显。反之,如果长短半轴越接近,表示方向性越不明显。如果长短半轴完全相等,就等于是一个圆了,的话就表示没有任何的方向特征

2、短半轴表示数据分布的范围,短半轴越,表示数据呈现的向心力越明显;反之,短半轴越,表示数据的离散程度越大。同样,如果短半轴与长半轴完全相等了,就表示数据没有任何的分布特征。

3、中心点表示了整个数据的中心位置,一般来说,只要数据的变异程度不是很大的话,这个中心点的位置大约与算数平均数的位置基本上是一致的,至于数据变异是什么情况,请看下面第4点。

4、有的同学会很疑惑,为什么你画的这个椭圆,还有很多的点都在外面,没有把所有的点都包含进去?那么就是就是“标准差椭圆”这个名词里面的“标准差”的含义所在了。

在ArcGIS工具里面(其他的工具也都差不多),提供了“椭圆大小”(Ellipse_Size)这个参数,这个参数表示你生成的椭圆的级别,一共有三个,如下表:

 

三个级别的椭圆,分别表示了你生成的椭圆,能够包含68%,95%和99%三个级别的数据,我们通过可以指定要表示的标准差数(1、2 或 3)来决定你生成的椭圆包含的数据比例。

当要素具有空间正态分布时(即这些要素在中心处最为密集,而在接近外围时会逐渐变得稀疏),第一级标准差(默认值)范围可将约占总数 68% 的输入要素的质心包含在内。第二级标准差范围会将约占总数 95% 的要素包含在内,而第三级标准差范围则会覆盖约占总数 99% 的要素的质心。

所以,当你选择不同标准差等级的时候,你发现你的中心点的位置也可能不同。

当然,作为空间分析工具,方向分布一样可以进行加权计算,这个计算主要还是与中心点的位置确定以及椭圆标准差等级生成的椭圆大小有关系。

下面我们来通过一个实例来了解方向分布工具的应用:

一共有两年的伤寒病数据,如下,红色的是2000年的,蓝色是2001年的:

 

使用1个标准差的结果,生成的椭圆如上,具体数据如下:

 

我们对关键性的两个指标进行对比:

 

生成面积表示范围,可以发现2000的伤寒病发病情况的范围要大于2001年的,扁率表示他的方向明确性和向心力的程度,2000年生成的椭圆扁率远高于2001年的,说明了2000的伤寒发病情况,比2001年的方向趋势更明显。

2000年生成的椭圆方向与长江的方向基本相相符,所以2000年的伤寒发病源与长江的关系较为密切。而2001年的发病情况虽然方向性并不如2000年的明显,但是长半轴几乎与长江垂直,可以基本确认,2001年伤寒发病源与长江关系不大,但是呈现向内陆爆发的趋势。

方向分布工具在空间统计中是综合能力最突出的工具之一,有着广泛的应用,在我们的分析和数据探索的时候,能够起到非常重大的作用。

最后,列出几个可能的应用:

1、可用来在地图上标示一组犯罪行为的分布趋势,并且能够确定该行为与特定要素(一系列酒吧或餐馆、某条特定街道等)的关系。

2、在地图上标示地下水井样本的特定污染,可以指示毒素的扩散方式,这在部署应急防灾策略时非常有用。

3、对各个物种所在区域的椭圆的大小、形状和重叠部分进行比较可以分析与物种入侵或者隔离相关的深入信息。

4、绘制一段时间内疾病爆发情况的椭圆可用于建立疾病传播的模型。

以上案例,以后有机会会进行展示。

最后,说说使用R语言进行方向分布的分析方法,主要使用的是aspace这个包:

展示结果如下:

 

以上R语言示例的代码和数据,在虾神的代码仓库中的“R语言代码仓库”里面,不知道的同学请在公众号里面发送“代码仓库”获取地址以及下载方法。

以上是关于新版白话空间统计(25):方向分布(标准差椭圆)的主要内容,如果未能解决你的问题,请参考以下文章

新版白话空间统计(25):方向分布(标准差椭圆)

新版白话空间统计(25):方向分布(标准差椭圆)

白话空间统计之九:方向分布(标准差椭圆)修正版

白话空间统计之九:方向分布(标准差椭圆)修正版

白话空间统计之十:标准距离

白话空间统计之十:标准距离