新版白话空间统计(15)空间关系概念化之距离
Posted 虾神说D
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新版白话空间统计(15)空间关系概念化之距离相关的知识,希望对你有一定的参考价值。
CSDN的被爬虫专用声明:虾神原创,公众号\\知乎:虾神说D
转发、转载和爬虫,请主动保留此声明。
首先祭出镇文神图:
空间统计学最核心的,就是对空间区域分布特性进行研究,所以要做任何空间分布分析,就需要定义什么是区域的概念——一个要素自然不能称之为区域,所以需要有多个要素凑在一起,才能称之为区域。
所以,空间分布研究,第一步工作,就是要找到,谁和谁能够组成一个区域,即:谁是谁的邻居,谁和谁有临近关系。
要说空间关系,第一反应肯定就是距离,正如“地理学第一定律”的“Tobler's First Law”(简称TFL),里面说的:“all attribute values on a geographic surface are related to each other, but closer values are more strongly related than are more distant ones”——任何事情呢,都是有关系,只不过靠得越近,关系就越紧密。
这个所谓的靠的越近,自然指的就是距离越近。
在空间分析里面通常用反距离或者反距离的平方这种概念。等等……啥叫反距离呢?难道是:
这里的反距离,实际上是数学中的反函数的意思,也可以直接看成距离的倒数——为什么呢,因为我们需要的通过距离,去衡量两个要素之间的关系,如果用纯粹用距离,那么不是表示,距离越大,关系越大了,所以这里需要用反函数:
把距离取反之后,距离越远(数值越大),那么关系自然就越不紧密了(权重越小)。二分之一代表的权重自然是大于十分之一的。
在空间统计研究里面,最重要的就是要了解,那些要素与我有关系,而我们的关系是大是小?所以在算法里面,如果选定了以距离为空间关系的话,就会去计算每个要素与其他所有要素的距离,然后根据距离取反,来计算权重。
下面我们来看一个例子:
首先用中国的省级行政区划做一个空间权重矩阵文件,工具在位置如下:
Spatial Statistics Tools —— Modeling Spatial Relationships——Generate Spatial Weights Matrix,然后选择空间关系为Inverse distance(反距离),下面的参数全部不选(这些参数后面再解释):
执行之后,结果信息如下:
首先有两个警告,分别是说我这里用的是地理坐标系(可能导致距离测量不准确)和我没有设置阈值,导致搜索的距离很大(这里说默认用了1106公里,为什么是这个值,我们后面说)。然后我们来看看这个文件:(该死的360压缩认为swm是他们可以打开的文件,实际上是打不开的,这是一个ArcGIS特有的二进制文件)。
这个二进制文件的格式实际上是开源的,如果在10年(或者更早)以前正儿八经的考过计算机二级C语言的同学,就能够通过自己去解析字节码来读取……but,我们没这兴趣去干这种费劲不讨好的事情,所以我们想看里面内容,只需要通过ArcGIS提供的把空间权重矩阵文件转换为表格文件工具,位置在:
Spatial Statistics Tools —— Utilities —— Convert Spatial Weights Matrix to Table
然后就得到这样一个表格:
比如我选中的,与北京有相关关系的,一共有14个省,这14个省是怎么出来的呢?它是按照上面做计算的时候拿1106公里的范围计算出来的,如下所示:
红圈就是以北京为中心,1106公里的缓冲区,在这1106公里半径内,一共有15个省,左下角的表格,除去北京以外,还剩14。
右下角就是空间权重矩阵中,与北京有关的城市,第一列code表示本要素,第二列NID表示临近要素的ID,第三列WEIGHT就是权重了,我们来看看北京与其他各个城市的权重分布情况:
饼状图是权重的组合,因为我在参数里面选择了行标准化,所以权重都全部累加起来正好等于1,下面的折现散点图,是距离与权重的对比,可以看见随着距离的增加,权重逐渐下降。
反距离(欧式距离)适用于对连续的数据(比如温度变化,直线测量等)进行建模,如果是在城市中固定位置的设施之间的空间关系衡量的时候,直线距离和路网距离可能都不太好用了,这种情况下,我们使用曼哈顿短距离,反而效果更好。
有时候我们还会选择“反距离的平方”这个概念,比如下面这个参数:
实际上与反距离的概念是一样的,只是你的曲线的坡度更陡,相邻要素之间的影响下降得更快,并且只有目标要素的最近相邻要素会对要素的计算产生重大影响。以下是关于反距离的幂对影响力的说明:
可以从图上看见,你选择反距离的幂越大,对距离就越敏感。
同时,在反距离模式里面,还可以选择Threshold_Distance参数,这个参数用来控制中断,比如你可以输入1000,就表示最大只在要素旁边1000米范围内去搜索他的临近要素。
好,现在我们回过头来讲,在前面用行政区划来计算距离的时候,默认给出了1106公里的默认查询距离,是因为在距离权重里面,最少需要找到一个临近要素,那么中国省级行政区划中,至少找到一个临近要素的距离,就是1106公里:
注意,如果你用面要素来做距离权重,默认会用面的质心来作进行计算。
待续未完。
CSDN的被爬虫专用声明:虾神原创,公众号\\知乎:虾神说D
转发、转载和爬虫,请主动保留此声明。
以上是关于新版白话空间统计(15)空间关系概念化之距离的主要内容,如果未能解决你的问题,请参考以下文章