基于GIS与机器学习的健康户外跑路线评估与规划

Posted 易智瑞

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于GIS与机器学习的健康户外跑路线评估与规划相关的知识,希望对你有一定的参考价值。



















机器学习,深度学习越来越多的应用在GIS领域,通过机器学习算法与GIS集成可在更短的时间内提供更好,更优的分析结果。今天与大家分享的是2020易智瑞杯中国大学生GIS开发竞赛·地理设计组的二等奖作品《基于GIS与机器学习的健康户外跑路线评估与规划》,作者单位:南通大学地理科学学院,小组成员:马培龙,高丽娜,王辰怡,陈均任,指导老师:周侗,陶菲。




作品视频
基于GIS与机器学习的健康户外跑路线评估与规划


基于GIS与机器学习的健康户外跑路线评估与规划


作品简介
基于GIS与机器学习的健康户外跑路线评估与规划


基于GIS与机器学习的健康户外跑路线评估与规划



一、作品概述


1.1作品背景

近年来,经济社会的持续发展助推着人们对美好生活的追求,人们更加注重自我的发展与完善,健身锻炼正在越来越多地融入百姓的生活。其中,户外跑步是一种方便、有效且最为普及的锻炼方式。然而,以PM2.5为主的细颗粒污染物长时间在大气中漂浮,对居民健康和经济发展有较大威胁,研究表明,PM2.5对人体的呼吸系统和循环系统等都有危害,会提高人们患肺炎、肺癌、心血管疾病和高血压的概率,且跑步时呼吸速率加快,吸入的PM2.5是静坐时数倍,所以在PM2.5浓度高的区域,看似健康的运动实则暗藏危机。因此,为“跑友”规划出一条PM2.5浓度相对较低的健康跑步路线,才能真正发挥跑步的健身功能,提升跑友跑步过程中的安全感与幸福感。

1.2研究意义

提出的避开高污染区的跑步路线规划方法,在获取高精度PM2.5分布的基础上能有效减少人们在出行过程中有害颗粒物的吸入量,以减小污染物对人体的危害,主要意义如下:

1.街道级别的PM2.5分布数据可为跑友规划出空气质量最优的健康跑步路线,有效减少跑步过程中污染物的吸入量,最大化保障跑步过程中的身体健康,从而推进健康中国政策的有效实施。

2.精确的PM2.5空间分布估计有助于评估PM2.5空气污染的长期影响与变化特征,提升对PM2.5演变规律的认知,制定合理的污染控制政策,为我国未来的大气污染防治提供有价值的信息。

基于GIS与机器学习的健康户外跑路线评估与规划



二、设计过程


本作品的实现过程主要包含以下几个步骤,首先是数据获取与预处理,获取遥感影像数据,地面监测站点数据以及社会经济数据,对数据进行归一化,异常值剔除等,使用最近邻法将PM2.5监测值与气象监测值整合;然后是模型训练与评估,使用不同的机器学习算法分别进行建模,使用定量评级指标对模型进行评价与选择;接下来是PM2.5反演,通过整合某一时刻的上述数据,计算得出实时的PM2.5空间分布情况,并于城市道路矢量数据进行空间运算,得出每条道路上的PM2.5浓度分布情况;最后是路径规划,使用包含PM2.5浓度数据的矢量路网,构建网络数据集,结合不同的路径规划方法,计算得出不同应用场景下的最优路径。

2.1技术路线

基于GIS与机器学习的健康户外跑路线评估与规划

图1技术路线


2.2主要步骤

2.2.1数据获取与预处理

实验的遥感影像数据来自于美国地质勘探局(United States Geological Survey,简称USGS),依次对其进行辐射定标、大气校正以及去云处理,以消除大气以及云层等因素对于影像信息提取的干扰。
使用Python网络爬虫技术批量获取杭州市的工厂名称并使用百度地图API获取其地理坐标,根据点密度计算原理得出杭州市各地区工厂的分布密集程度。使用OpenStreetMap开源矢量路网获取杭州市道路数据,其要素类型为线状要素,使用线密度计算原理得出杭州市道路分布的空间分布情况。
由于气象站点与空气质量监测站点存在空间位置不对应的问题,因此对于落在某一个泰森多边形内的空气质量监测站点,该站点的气象数据均使用该泰森多边形关联点的气象站点监测值代替。

2.2.2模型训练与评估

使用多元线性回归、k近邻、支持向量机、回归树、随机森林、BP神经网络这六种较为流行的机器学习方法分别建模,并通过定量指标评价与比较不同模型的优劣及适用性,选择该最适合应用场景的模型。

2.2.3PM2.5反演

整合模型输入层所需要的所有要素并进行实时更新,其中更新频率最快的是气象数据,使用Python网络爬虫并结合国家气象中心所提供的API接口能够获取站点级别的各类气象要素,因此,PM2.5的反演结果也能够达到小时级别,保持了较高的更新频率。

基于GIS与机器学习的健康户外跑路线评估与规划

图2 气象数据示例

首先对模型计算得出的PM2.5分布结果进行矢栅转换,然后将转换结果与城市矢量路网进行空间运算,得到每一条道路上的PM2.5浓度情况,此时每一条独立路段都包含该路段的PM2.5浓度,通过将该浓度值与路段长度进行字段运算,即可得到每一条路段上的总PM2.5含量,可以此作为后续路径规划的边权重。

2.2.4路径规划

计算每段道路的权重,在每段道路的暴露时间等于距离L与速度V的比。由于不同的运动状态,速度V是不一样的,并且当将同一运动状态的速度看为匀速运动时,距离和时间成正比,因此用距离L代替时间,路段i权重的公式如下:

基于GIS与机器学习的健康户外跑路线评估与规划

本研究的路径规划算法与Dijkstra算法相似,确定起止点,权重如上文的基于GIS与机器学习的健康户外跑路线评估与规划,即可规划出相对健康的路径。

基于GIS与机器学习的健康户外跑路线评估与规划

 

图3 权重计算



基于GIS与机器学习的健康户外跑路线评估与规划



三、结果分析


3.1 模型对比

本作品使用Python机器学习包Sklearn进行模型构建,并使用其中的GridSearch模块进行参数寻优,运行系统为Windows 10,处理器为Intel Core i5-8300H,内存8G。根据决定系数R2确定最优模型。

基于GIS与机器学习的健康户外跑路线评估与规划

图4 不同机器学习模型的预测效果

首先定义实测PM2.5在中度污染(115-150μg/m3)及以上时为高值,否则为低值。由图5可知,所有模型的共同点是在低值区域的整体预测效果较好,随着PM2.5真实值的增大,模型的预测效果整体逐渐变差,其中MLR,KNN,SVR,RF模型在高值区域的预测值普遍偏低,说明这四种模型缺乏拟合PM2.5极大值的能力,BPNN模型在高值区域的拟合效果最好,最逼近高值分布,但是也会产生大量的将低值错误地估计成高值的现象。另外,MLR模型的效果显然最差,除了高值估计能力较差外,还误估出了大量负值,显然与事实不符。

表1 不同模型的评价指标得分

基于GIS与机器学习的健康户外跑路线评估与规划

从MAE,RMSE,R2三个定量评价指标来看,MAE位于6.72-13.29之间,RMSE位于10.11-18.78之间,R2位于0.51-0.86之间,整体结果较为理想,说明模型的的输入特征选择以及数据处理方法起到了良好的效果。 其中,RF模型的三项指标均表现最好,其中R2高达0.86,说明可以解释86%的变量,结果令人满意,且运行时间也在可接受范围之内,因此,该应用场景下,RF模型是最好的模型选择。

3.2 PM2.5反演

得到某一区域连续的PM2.5分布情况,常用方法是对该区域的空气质量监测站点测得的PM2.5值进行空间插值,如图5中的a,c,是对站点监测值进行克里金插值计算所得,b,d则是使用的RF模型,a,b是2017年12月21日的分布情况,c,d是2019年4月15日的分布情况。由图可知,反演模型所估算出的杭州市两天的日均PM2.5分布情况总体趋势上与克里金插值的结果一致,但空气质量站点的分布极为不均衡,插值结果仅能反映整体的分布趋势,而反演结果的空间分辨率为30m,能够反映细致的PM2.5分布情况。

基于GIS与机器学习的健康户外跑路线评估与规划

图5研究样区PM2.5反演结果

基于GIS与机器学习的健康户外跑路线评估与规划

图6 道路PM2.5分布


3.3路径规划

本作品针对两种不同的户外跑情形提出了固定起始点与固定距离两种不同的路径规划方案。

3.3.1固定目的地

通过20组随机实验结果表明:①系统能够准确规划出起点与终点间的最短路径。②相比于最短路径,污染最小路径虽然在路程长度上略有增加,但却仍然在路径总污染浓度与平均污染浓度方面有所提升,总污染浓度降幅普遍位于5%-10%之间,平均污染浓度降幅普遍位于10%-20%之间,效果明显。

基于GIS与机器学习的健康户外跑路线评估与规划

图7 最短路程与最低污染路程

3.3.2固定跑步距离

基于GIS与机器学习的健康户外跑路线评估与规划

图8 最高污染路程与最低污染路程

通过20组随机实验结果表明:在路程长度相同的情况下,系统规划出的最小污染路线,其污染浓度能够有较大幅度的降低,普遍位于20%-50%之间,效果显著,能有效降低户外跑过程中空气污染对于人体的损害。


基于GIS与机器学习的健康户外跑路线评估与规划



四、作品特色


本作品的特色分为三个部分,分别为模型创新,方法创新以及应用创新。

1. 模型创新:综合考虑了地表物理特征(Landsat 8遥感影像),地面监测站点数据(气象数据与历史区域日均PM2.5数据)与社会经济条件(道路、工厂密度,GDP分布,人口分布)等多种影响要素,提升了反演模型输入要素的客观性与全面性,保障了反演的精度。

    2. 方法创新:综合使用GIS、遥感、机器学习方法,实时计算出城市以及道路级别的空气质量分布情况。

    3. 应用创新:基于空气质量为户外跑步人群规划出污染最低、最健康的路径,保障其户外跑步过程中的身体健康。


基于GIS与机器学习的健康户外跑路线评估与规划



五、总结


本作品设计了一种避开高污染区的户外跑路径规划方法,能有效减少人们在出行过程中有害颗粒物的吸入量,以减小空气污染物对人体的危害。 本作品主要开展了基于多源数据的高精度PM2.5反演实验,然后在高精度PM2.5的分布数据基础上运用GIS空间分析、网络分析技术,实现最小污染路径的自动规划。  
该方法不同于现有的路径规划方法。通过精确简单的路网权重设计,其能有效快速的规划出一条对人体危害相对较小的出行路径,让跑步真正发挥其健身的作用。



作品评语
本作品对landsat预处理、爬取杭州市工厂名称并使用百度地图API获取其地理坐标,根据点密度得出各地区工厂分布密集程度,同时使用OpenStreetMap开源矢量路网获取道路数据线状要素得出道路分布空间分布;由于气象站点与空气质量监测站点存在空间位置不对应,因此对于落在某一个泰森多边形内的空气质量监测站点,均使用该泰森多边形关联点的气象站点监测值代替。对于整合后的数据:使用多元线性回归、k近邻、支持向量机、回归树、随机森林、BP神经网络这六种较为流行的机器学习方法分别建模,并定量评级指标选择最适合模型;接下来是PM2.5反演;紧接着整合模型输入层所需要的所有要素,其中更新频率最快的是气象数据,使用Python网络爬虫结合国家气象中心获取站点级别的各类气象要素,并进行实时更新;因此,PM2.5的反演结果也能够达到小时级别,保持了较高的更新频率:最后对PM2.5分布结果进行矢栅转换,然后与城市矢量路网进行空间运算,得到每一条道路上的PM2.5浓度情况,此时每一条独立路段都包含该路段的PM2.5浓度,通过将该浓度值与路段长度进行字段运算,得到每一条路段上的总PM2.5含量,作为后续路径规划的边权重;最后路径规划部分:使用包含PM2.5浓度数据的矢量路网构建网络数据集,结合不同的路径规划方法,计算得出不同应用场景下的最优路径。
1、本作品在选题上立意上较新,结合当下人们对健康需求的出发点进行设计和建模:综合考虑了地表物理特征(Landsat 8遥感影像),地面监测站点数据(气象数据与历史区域日均PM2.5数据)与社会经济条件(道路、工厂密度,GDP分布,人口分布)等多种影响要素,提升了模型反演的客观性与全面性,保障了反演的精度;
2、作品在一定程度上体现了学生的创新能力和对GIS设计分析应用能力,综合使用GIS、遥感、机器学习方法并使用机器学习算法分析评价与评估,同时结合网络数据集为户外跑步人群规划出一条基于空气质量污染最低、最健康的户外跑路径。 





以上是关于基于GIS与机器学习的健康户外跑路线评估与规划的主要内容,如果未能解决你的问题,请参考以下文章

机器学习2——学习路线规划

01机器学习算法整体知识体系与学习路线攻略

基于GIS的国土空间规划平台建设

大数据相关职位的知识储备与系统学习路线规划以及所需时间

2017年规划

斯坦福博士论文 | 机器学习的模型解释和数据评估