论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

Posted 高性能空间计算智能实验室

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法相关的知识,希望对你有一定的参考价值。

基于K最短路径和层次聚类的城际交通网社区发现方法

Detecting Clusters over Intercity Transportation Networks using K-shortest Paths and Hierarchical Clustering: A Case Study of Mainland China

    


论文信息:

Yue, H.; Guan, Q.*; Pan, Y.; Chen, L.; Lv, J.; Yao, Y. 2019. Detecting clusters over intercity transportation networks using K-shortest paths and hierarchical clustering: a case study of mainland China. International Journal of Geographical Information Science. doi:10.1080/13658816.2019.1566551


论文连接:https://doi.org/10.1080/13658816.2019.1566551



引言

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

随着交通基础设施的发展与完善,城市之间的相互联系和作用越来越强,地理对象间空间与时间的限制正逐渐消失。交通,作为城市群发展的关键促成因素和驱动因素之一,是评估一个区域发展条件的重要指标。目前针对于区域内交通系统的研究主要集中在计算可达性、提高土地利用效率、促进经济发展、优化空间结构发展等方面。然而,针对现有的交通基础设施(如铁路和公路)和服务(如客运铁路线路和长途客车线路)是否能够支持区域一体化的发展鲜有研究。

通过在城际交通网络中进行城市节点社区发现,可以识别联系紧密的城市簇(下文中简称为“交通社区”)。将交通社区与政府划定的城市群范围叠加分析,可以识别出城市群中与其他城市交通联系较弱的城市,为城市群的交通网络规划提供有价值的信息。现有的社区发现算法在应用到地理交通网络时存在以下3个问题:(1)节点间邻近度定义不符合交通网络的特定需求。如Netwalk算法量化两点间的联系强度时使用随机游走的思想,但其假定粒子游走是完全随机的状态,不符合人的旅行行为。(2)部分算法可以得到较好的社区划分结果,如Infomap、CNM等,但却无法根据联系强度至下向上探究地理交通网络的层次结构。(3)一些算法通过层次聚类可以得到网络的树状图,并探究不同邻近度层次上的社区结构,然而却难以确定最终的社区划分结果。

针对上述问题,本文提出了一种结合K最短路径、层次聚类和地理模块度的交通社区划分方法(Transportation Cluster Detection, TCD),主要创新点为:(1)基于K最短路径量化城市间的邻近度,更符合人们日常的旅行行为;(2)采用层次聚类方法获得交通社区结构的树状图,可根据邻近度指标至下向上地揭示交通社区的层次结构;(3)在层次聚类过程中,引入地理模块度作为社区划分优化条件获得最优的交通社区划分结果。本研究以中国大陆地区所有地级市为研究区,分别将TCD方法应用于客运铁路网络、长途客车网络以及二者的结合网络。结果表明:TCD在以上3个网络上得到的地理模块度要优于现有常用的社区划分方法。进一步将交通网络社区划分的结果与政府划定的城市群边界进行叠置,以确定城市群中交通联系薄弱的城市与区域。上述结果将有助于制定区域交通规划,从而更好的支撑城市群的一体化发展。


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

研究区与数据

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

本文的研究范围包括中国大陆地区所有的地级城市,并以中国政府已经批复和即将批复的13个国家级城市群为研究对象,如图1所示:

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图1 城市群范围


研究数据主要包括有基础矢量数据(如地市级行政区划边界、地市级行政中心、国界线等)来源于国家地理空间信息中心(http://ngcc.sbsm.gov.cn);交通线路数据包括:(1)客运铁路线路数据(3280条高速线路、3484条低速线路和2919个火车站点),来源于12306火车票官方订票网站(http://www.12306.cn);(2)长途客车线路数据(67508条线路和1007个汽车站点),来源于“携程网”长途客车订票网站(http://www.ctrip.com)。


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

研究方法

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

本文基于K最短路径量化节点间的邻近度强度,基于层次聚类方法探究交通网络的社区结构,并在层次聚类过程中引入地理模块度作为优化条件,以得到最优的交通社区划分结果。具体的路线图如图2所示:

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图2 技术路线图


(1)构建网络

    以客运铁路线路为例,以地级城市为节点,若二者之间有线路连接,则构建一条边。边的权重与节点间的车次数量成正比,与节点间的平均旅行时间的n次幂成反比。分别构建客运铁路网络(T-Network)、长途客车网络(B-Network),以及集成二者的综合网络C-Network。

(2)计算K最短路径

    考虑到人们的出行旅行中的实际情况,在量化节点AB间的邻近度时,不仅要考虑AB两点之间的最优路径,还要考虑其他次优路径。本研究采用了YEN算法计算出网络中任意节点对之间的K最短路径。

(3)层次聚类法

    在定义节点邻近度时充分考虑人的旅行行为,从而给出节点间邻近度的计算公式如下:

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

K为K最短路径计算得到的路径数量, wk为两点间第k短路径的长度,为第k个最短路径的权重,k值越大,wk越小。

    所有节点对之间的邻近度指标计算完成后,采用层次聚类方法对节点进行合并,最终得到一个自下向上的树状图,从而可以探究城市节点基于联系强度聚集的过程。

(4)社区探测

    在步骤(3)层次聚类过程中按照地理模块度公式计算各个交通社区的地理模块度Qgeo。以交通社区C1和C2合并为例,如果Qgeo合>QgeoC1+QgeoC2,则将交通社区C1和交通社区C2合并,否则,停止合并。对步骤(3)层次结构树中的每个树枝倒溯,即可得到一系列的基础交通社区,同时得到网络的一个划分结果使得总的最大。地理模块度的计算公式如下:

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法    

eii为社区i内部节点间的连接,ai是连接到社区i内部节点的所有边的连接.


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

实验结果

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

将TCD方法分别应用于T-Network, B-Network 和 C-Network,并分别以三个发育成熟的城市群长三角(YRD)、珠三角(PRD)和京津冀(BTH)为例,探究其区域内城市节点聚集的过程;并将C-Network的交通社区划分结果与政府划定的城市群范围做叠加分析,以识别城市群内交通联系较弱的城市和区域。

(1)交通社区的层次结构

在实验中,使用不同的K值(从1到3,步长= 1)和wk(从0.00到1.00,步长= 0.01)进行多次试验,并选择使得地理模块度最大化的K值与wk值。对于T-Network,当K=1, wk= 1.0时,获得最大的地理模块度值,其生成的树状图如图3所示。

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图3 层次树状图(为了清楚显示,只显示了树状图的部分结果)


为了进一步探索T-Network的社区结构,选择社区间邻近度指标的值分别为0.11,0.60,2.04,10.80和30.77,对应的交通社区数量分别为290,200,150,80和40,长三角(YRD),珠三角(PRD)和京津冀(BTH)城市群内节点聚集过程如图4所示。在长三角地区,聚类开始初形成3个核心社区。随着接近度指标的增加,这些核心社区合并在一起。其他城市(边缘城市)也逐渐合并进来。长三角南部的城市相对于北部的城市较早进入交通社区,表明南部城市与核心之间的铁路连接强于北部城市。在珠三角和京津冀,首先,广州和深圳、北京和天津分别形成了各自区域内的核心社区,随着邻近度指标的增加,其他城市逐渐合并到各自的社区中。 

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图4 T-Network的聚集过程


同样的方法应用到B-Network和C-Network,结果分别如图5和图6所示:

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图5 B-Network的聚集过程


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图6 C-Network的聚集过程


(2)社区划分结果

以方法中步骤(4)中的地理模块度为优化条件,分别得到3个网络的社区划分结果总的地理模块度值。我们分别选择了常用的社区发现算法:Netwalk算法、Infomap算法和G-N算法进行对比。结果证明了针对于上述3个交通网络,TCD算法能获得最大的地理模块度,结果如表1所示。

表1. 不同算法得到的地理模块度值

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

基于C-Network生成的社区结果如图7所示,包括31个交通社区。胡焕庸线(又称“黑河 - 腾冲线”) 东侧的交通社区内的平均邻近度指标均小于3,而西侧的均大于3,表明中国西部的交通连接程度远远弱于中国东部。

为了评估交通基础设施和服务能否支持城市群的一体化发展,将基于C-Network划分的交通社区与中国政府划定的13个国家级城市群范围叠加在一起(图8),可以得到如下结论:

(1)珠三角(PRD),京津冀(BTH),呼包鄂榆(CIM),成渝(CC)和辽中南(LZN)城市群内的交通联系强度较强。尤其是京津冀(BTH)和山东半岛(SDP),辽中南(LZN)和哈长(HCC)城市群的大部分城市合并为一个大的交通社区,表明这些区域内的城市通过地面交通联系紧密相连,交通一体化已经超越了城际水平,达到了城市群际水平。

(2)在哈长(HCC),关中平原(GZP),中原(CP),长三角(YRD),长江中游(TCC)和海峡西岸(WSS)几个城市群中,有一些孤立的城市未融入交通社区,表明这些城市与相应区域内其他城市的交通联系强度较弱。因此,建议改善这些地区的交通运输条件,以提高城际交通的便利性和效率,从而有利于城市群的集成和发展。

(3)政府将武汉都市圈(WMA),长株潭城市群(CZT)和鄱阳湖城市群(PL)合并为了一个大型国家级城市群,称为长江中游城市群(TCC)。然而本研究中,基于C-Network在TCC内探测到三个交通社区,如图9所示,北部社区覆盖了WMA,而南部的交通社区覆盖了CZT和PL,这也表明TCC南北部之间的交通联系强度仍然薄弱,不能很好的支持整个区域的一体化发展。

针对联系薄弱的地区,我们建议加强交通基础设施和服务,以改善区域内城市的一体化并支持其协作发展。

论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图7 基于C-Network划分的交通社区


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图8 基于C-Network的交通社区结果与城市群范围叠加结果


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

图9 TCC城市群内的3个交通社区


论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法

结论

本研究提出了一种新的交通社区探测方法(TCD),主要贡献如下:(1)基于K最短路径量化城市间的邻近度,更符合人们日常的旅行行为;(2)采用层次聚类方法获得了交通社区结构的树状图,揭示了交通社区的层次结构;(3)在层次聚类过程中,引入地理模块度得到了最优的交通社区划分结果。我们将TCD方法分别应用于客运铁路网络(T-Network),长途客车网络(B-Network)以及二者的综合网络(C-Network),结果表明,通过在上述3个交通网络中计算地理模块度值,TCD优于现有的网络社区发现方法。分析结果识别出城市群中交通联系薄弱的城市和区域,从而为城市群交通网络规划提供决策支持。


欢迎关注中国地质大学(武汉)高性能空间计算智能实验室

HPSCIL@CUG)

以上是关于论文推送 | 基于K最短路径和层次聚类的城际交通网社区发现方法的主要内容,如果未能解决你的问题,请参考以下文章

聚类:层次聚类基于划分的聚类(k-means)基于密度的聚类基于模型的聚类

畅通工程 (最小生成树)(最短路径和)

UAEE China学术论文专栏丨王增平,等:基于k最短路径算法的负荷停电风险在线评估

R语言Kmeans聚类抽取聚类簇:fpc包的kmeansruns函数通过Calinski-Harabasz准则和平均轮廓系数(ASW)为Kmeans选择最优的聚类K值并与层次聚类的最优K值进行比较

聚类分析算法---学习

谱聚类算法总结