城市计算之交通事故预测综述

Posted 2020-12-10 snailnj

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了城市计算之交通事故预测综述相关的知识，希望对你有一定的参考价值。

一、领域问题描述

随着城市化的快速发展，机动车数量的激增导致了严重的交通事故，造成人员伤亡和巨大的经济损失。交通事故预测是城市传感智能交通系统的重要组成部分，交通事故风险预测能力对于预防事故的发生，减少事故造成的损失具有重要意义。据世界卫生组织2015年发布的《全球道路安全状况报告》，每年约有125万人死于交通事故。如果可以预测某一地区的交通事故风险，我们可以将这一信息传播给附近的司机，提醒他们或者让他们选择一条不那么危险的道路。例如，通过预测未来全市交通事故，政府可以设计更好的交通规划和调度策略，提前缓解交通事故和拥堵，可以帮助人们评估潜在的机动车碰撞风险，有效处理人群聚集，同样地，实时交通流预测使人们能够选择不那么拥挤的路线来避免交通堵塞，事故预测对于优化公共交通、使路线更安全、成本效益地改善交通基础设施非常重要，所有这些都是为了使道路更安全。因此，从城市地理区域的历史记录中了解其交通事故的发生规律，预测未来交通事故的发生已经成为当务之急。

然而，交通事故风险的准确预测是非常困难的，因为很多相关因素都会影响交通事故的发生，总结起来，主要面临以下几点挑战：

（1）特征数据结构的异构性：首先，交通事故的发生受到多种外部因素的影响，恶劣的天气条件，如雪或雾，会降低道路的能见度和交通容量，从而增加交通事故的变化，其次区域功能在城市空间中的分布，这些因素可以是静态的，也可以是动态的，例如， POI（Point-of-Interes)数据表征了每个地理区域的功能，有助于建立不同区域间的潜在相关性模型。此外，实时发生的异常事件(如车道堵塞、交通堵塞、道路建设等可以反映城市动态，除了上面列出的常见因素，随机因素如车辆机械问题，驾驶员的粗心驾驶，酒驾等因素也可能导致交通事故。

（2）事故发生的空间异质性：不同地区的交通事故率差异很大（例如城市和农村），据调查，处于人口流动比较大，繁华的城镇地带，事故较为频发，而处于相对偏远的农村，事故发生相对较少，如何处理这种数据频次的空间异质性也是此研究面临的又一重大挑战。

（3）事故数据的稀疏性：交通事故是罕见事件，一个地区发生交通事故的频次可能以月为单位，由于缺乏足够的样本，精确预测单个事故具有挑战性。

因此如何建立有效的交通事故风险预测系统是交通事故预防的一项重要任务，研究人员对此做出了尝试与努力。

二、研究现状

1. 传统的数据挖掘方法的研究：

在深度学习方法涌现之前，一些传统的数据挖掘的技术手段也推动了此领域的发展。

在早些年的研究中，使用统计模型，如Poisson(泊松模型）或者 Negative binomial regression models（负二项回归模型）用于分析车辆事故的频率，但是这些模型严重依赖于概率假设。

由于CART(Classification and Regression Tree，分类与回归树模型)不需要预先定义假设， Li-Yen Chang，Wen-Chieh Chen[1]等人利用CART模型和负二项回归模型，建立交通事故与公路几何变量、交通特征和环境因素之间的经验关系，在台湾国家一号高速公路2001 - 2002年交通事故数据中证明了其方法的有效性。但是，此方法也有很大的局限性，CART的缺点是不能有效地利用连续和有序变量，加之其是对高速公路道路上事故发生频次的预测，不能预测风险概率，而风险因素之间的相互影响也可能对事故发生有显著影响。

之后，Tessa K. Anderson[2]等人使用KDE（核密度估计）方法，检测道路交通事故的热点区域，其针对伦敦警察厅搜集到的1999年到2003年的交通事故数据进行处理，建立核密度估计图，并根据密度进行分类，建立起事故热点的基本空间单元，将环境特征添加到热点单元中，利用K-means聚类，对相似热点的结果进行解码。鉴于其聚类效果依赖于统计结果，且仅仅将事故风险划分成为0或者1的结果，缺少时间上的相关性，这也是此方法暴露出的一个缺点。

Zhixiao Xiea, Jun Yanb[3]等人认为，KDE方法被用于检测交通事故热点，而NetKDE（network kernel density estimation，网络核密度估计）对于网络空间中的事故分析是十分有效的，将其结合local Moran’I方法，对于肯塔基州05年的事故数据进行热点检测。此方法对道路密度进行建模，相比之前的KDE方法有了提升，但是现实案例中的交通量很少是固定的，此方法将道路网络和交通大大简化，且依赖于蒙特卡洛仿真和一些先验假设，还有进一步提升的空间。

在接下来的研究中，随着时间的推进，大量实时交通流和事故数据的可用性，使得研究人员致力于开发实时的交通事故风险模型，Lei Lin, Qian Wang[4]等人基于FP tree （Frequent Pattern tree）和 random forest method（随机森林）这两种变量选择方法，对弗吉尼亚州州际公路I-64的事故数据进行建模分析，开发了两种交通事故风险预测模型，即k-nearest neighbor（K近邻模型）和Bayesian network(贝叶斯网络)，结果显示能够预测61.11%的事故。此方法也有需要改进的地方，可以检验FCM中聚类数对FP树变量重要性计算的影响(在研究中，其设置为固定值3)，后续也可以采用SVM支持向量机的方法。

Quanjun Chen[5]等人在接下来的研究中，提出采用matrix fac-torization method（矩阵分解方法），融合了路网、POI（points of Interests）和人口流动数据，对日本13年1月到6月的交通数据进行风险建模。首先从异构数据中提取特征，得到描述事故发生时的特征矩阵；然后利用上下文非负矩阵分解方法对城市范围内的事故风险进行建模，实验结果表明即使在事故数据缺失或环境变化的情况下，事故风险估计的准确性也显著提高。此研究通过收集大数据和异构数据来推断交通事故风险，将交通事故划分为时空维度时，构建上下文来实现事故信息，解决交通事故稀疏问题，从而有效地评估事故风险。同时利用上下文感知非负矩阵分解方法，将这些矩阵协同分解为低秩矩阵。然而，由于交通事故的复杂性，此研究具有一定的局限性，交通事故的发生受到多种因素的影响，需要采集更多的特征，选取更好的时空相关模型来处理和分析特征。

在18年以后涌现出了一批基于深度学习的方法，在预测精度和实时间性方面都是对先前工作的改进。

2. 基于深度学习的方法的研究

基于深度学习方法的研究可分为两类，一类将事故预测定义为分类问题，旨在预测每个时间间隔（如小时、天）内，事故是否会发生在特定地点或特定区域（如某个路段）；另一类模型则回归模型预测给定时间和地点的事故数量，或者事故发生的频次，下文将讨论针对这两类方法所做的研究。

（1） 回归模型

Zhuoning Yuan[6]等人认为，之前的研究并没有考虑交通事故数据的空间异质性和时间自相关等独特特征，导致性能不理想，于是研究提出了Hetero-ConvLSTM模型，采用卷积长短期记忆（ConvLSTM）神经网络模型，并在模型中加入空间特征，以更好地捕捉数据的时间趋势和空间异质性，并且融合道路、天气、时间、交通、人为因素等异构大数据集，用于交通事故预测。此篇研究采用网格划分的方法，将Iowa, United State（爱荷华州,美国）划分成64*128的网格，使用32*32的滑动窗口，以天为单位，前7天的历史数据做为训练，预测后7天的事故次数，每个区域单独训练，考虑得到城镇和偏僻区域事故发生次数的空间异质性，重叠的网格区域采用加权重求平均的策略，在数据集上相比之前的方法取得了预测精度方面的提升。这项研究表明，深度学习技术，如ConvLSTM，可以解决空间异质性的问题，但是由于此模型是针对不同区域单独训练，实验复杂度较高，而且对于输入的多种异构数据特征的处理也是很大的一个工作量。

Honglei Ren[7]等人将大型交通事故数据在空间和时间上离散化，在此基础上，建立了基于LSTM（长短时记忆网络）的交通事故风险推断深度模型，经过数据训练后，得到预测的事故风险图。研究的数据是北京市16-17年两年的事故数据，同样，遵循之前基于网格的方法，将北京市以1km为单位划分成网格，以小时为单位，预测事故发生的频率，结合时空相关性，设计模型结构。此篇研究的新颖之处是，从事故频率出发而非事故次数，但是此研究也有一定的局限性，输入数据特征中只包含事故数据，并没有包含交通流、人的流动性、道路属性等对对交通事故风险预测有意义的特征，同时事故预测的粒度也很粗，不能具体到某条路来预测交通事故，对于此，后续的研究做出了改进。

Zhengyang Zhou[8]等人则将交通事故预测工作推进到分钟级别，实时细粒度地预测交通事故，对于交通数据的稀疏性问题，采用一种数据增强策略克服零膨胀问题（即事故数据中如果0太多的话，对于深度学习模型权重参数的训练不是很友好），论文中将纽约市根据路网结构划分成不等长的矩形区域进行粗粒度的预测，对于每个矩形区域中的正方形区域则进行细粒度的预测，模型采用DTGN（Differential Time-varying Graph neural network，差分时间变换图神经网络）进行多任务预测，即细粒度事故风险预测是主要任务，区域交通量预测是第一项辅助任务，不同中等矩形区域内的事故总数是第二项辅助任务，同时采用区域选择方案，突出全市最有可能发生事故的次区域，将预测的高风险区域与真实的高风险区域在一张地图中可视化，结果表明对于有些高风险区域的预测十分准确。此研究融入差分和时变特征，有效地解决零星数据的稀疏性问题，并且将图卷积网络应用到交通事故预测中，能够更好地捕捉空间上的流动关系。

（2）分类模型

Sobhan Moosavi[9]等人提出了DAP，一个深度神经网络模型，用于交通事故预测，数据源为美国交通事故数据，其将开源数据整合为US-Accidents，通过使用US-Accidents数据集和在几个大城市进行的广泛实验，模型捕捉了各种交通数据之间的关系，如交通事件、天气数据、POI和时间等，为了处理交通数据的时间相关性，DAP使用了LSTM组件；为了处理空间相关性，DAP采用前馈神经网络层，此外，为了更好地捕捉空间异质性，DAP对每个地理区域的经纬度进行嵌入式的编码，同时由于输入数据集的特殊性，模型中有一部分是对事故描述的自然语言处理组件，模型最后通过全连接层，在有监督的学习下（输入模型前，对事故做了标记，0表示不发生，1表示发生），输出事故发生的概率，最好的实验结果准确性在65%左右，这一结果对于事故预测来讲，准确率不是特别高，毕竟司机疏忽等各种复杂因素也可能导致事故的发生，但是研究中对于异构数据的结合以及时空相关性的处理工作是需要肯定的，后续研究也可以将人口统计信息和年度交通报告数据纳入处理范围。

Chao Huang[10]等人开发了DFN（深度动态融合网络框架），以提高深度神经网络在交通事故预测中动态建模异质外部因素的能力，即通过上下文感知嵌入模块和层次融合网络的协作，有效地传递来自不同外部单元的知识，实现跨时空的时空模式学习。同时此研究通过融合外部因素的静态和动态影响来解决交通事故精细预测问题，在纽约市收集的大量真实数据上验证了模型框架的有效性。此研究的贡献意义在于，在事故研究中加入了搜集到的反常交通事故记录，并且在模型中采用attention mechanism（注意力机制），赋予不同的权重，实现异质性和动态性。

以上是对本领域前人所做工作的总结，在接下里的第三节将对这些工作中已解决和待解决的问题进行分析。

三、现状分析

之前传统的数据挖掘方法都是对道路高速公路上的一些特征(如路网性质、天气、交通等)，分析环境对交通事故发生模式的影响，采用概率统计模型，如：Poisson(泊松模型）或者 Negative binomial regression models（负二项回归模型）做处理，接下里的研究中多采用

树搜索策略，如：FP tree （Frequent Pattern tree）和 random forest method（随机森林）等对事故数据进行建模分析，在后续研究中后也有采用SVM（支持向量机）的方法。

但是这些工作只是交通事故数据模型的一个简单分析，通过统计和传统的线性机器学习方法，分析被研究对象的历史轨迹或运动模式来识别交通事故，采用过于简化的方法进行交通事故预测，没有考虑交通事故数据的空间异质性和时间自相关等独特特征，导致性能不理想，同时也没有解决空间异质性的问题。

交通事故发生风险在日、周、月的时间分布差异较大，人群密度、交通流、天气、事件等复杂因素都会影响事故风险。此外，历史统计无法实现事故风险的精细动态预测。近年来，随着数据采集技术的快速发展和大数据集的可用性，丰富的环境数据、公共交通记录和机动车碰撞报告可以被收集和融合，使得交通事故预测更加接近现实。神经网络模型（如递归神经网络LSTM）被用于建立具有非线性的时空序列，与传统方法相比取得了显著的改进。因此，将深度学习方法引入交通事故风险预测中，对事故动态风险变化的精细定量预测具有重要意义。

交通事故预测，主要处理的是时空大数据，之前的研究将该问题表述为一个图像预测问题，通过学习交通事故记录和其他数据，如卫星图像、手机记录生成交通风险图，这些工作，要么忽略时间信息（只预测静态风险图），要么在小空间尺度的数据集上进行分析，而且特征非常有限，因此缺乏在空间异质性（例如，城市和农村地区）的更大尺预测事故的能力, Zhuoning Yuan[6]应用ConvLSTM模型解决了交通事故的时间和空间相关性，同时采用滑动窗口的策略，城镇地区和乡村地区单独分开训练，解决了数据分布的空间异质性。但是此方法分开训练比较耗时，而且采用的预测时间单位是天，并不是实时的交通预测。

Chao Huang[10]在接下来的研究中，融合了一些影响交通事故的动态因素，如道路修建，施工等的反常情况下的道路记录，采用注意力机制赋予不同的权重，可以捕捉到一些动态的情况对事故发生的影响。此研究的亮点在于预测的动态性，但是就时间方面的预测粒度来说还是比较粗的。

Zhengyang Zhou[8]的研究，将研究区域根据路网结构划分成不等长的矩形区域，进行多任务的事故预测，即在细粒度交通风险预测的同时，也能预测交通流量，同时将预测时间推进到分钟级别，由于事故数据的罕见性，研究中提出了一种数据增强策略克服数据训练过程中的零膨胀问题，解决了交通事故数据的稀疏性问题。

综上所述，现今的研究，对于交通事故的数据稀疏性和空间异质性都有很好的解决方法和模型，但是事故发生的随机性很强，司机酒驾或者驾驶的不专心这些因素都能影响交通事故的发生，这些因素该如何感知，以及一些特殊情况，比如演唱会、举办重大活动等这些路网流量变化的实时监控，所导致的交通堵塞，而引起的交通事故仍然没有很好的解决方案。

四、工作展望

基于第三节对于现状研究的问题，发现交通事故预测面临着以下两个待解决的内容，这同样也是未来的研究点。

(1)特殊事件导致的路网流量变化引起的交通事故：比如，一个地区因为举办重大活动，如音乐会等，这势必导致某几条道路的拥堵，而此时发生交通事故的概率大幅度提升，如何检测或者让模型学习到这种变化也是未来要努力的方向。

(2)现有的预测任务都是针对训练数据有效，如何让模型应对不同的任务学习，这也是未来研究发展的另一个趋势。

针对问题一，图神经网络 (Graph Neural Network, GNN) 能够捕获节点与节点、以及节点与边之间的动态流动性，将不同的道路与道路根据节点与边的关系建立网络，在图网络中捕捉特征的流动性（比如流量等）对于事故数据的影响，这是未来也是最近工作的一个研究点。

针对问题二，有郑宇团队提出的Meta Learning 元学习，在交通流数据的预测处理中取得了长足的进步，在今后的研究中能否让机器Learning to Learn,多任务地学习，将此方法迁移到事故的预测中，势必成为未来的一个研究方向。

参考文献

[1] Chang L Y , Chen W C . Data mining of tree-based models to analyze freeway accident frequency[J]. Journal of Safety Research, 2005, 36(4):p.365-375.

[2] Anderson T K . Kernel density estimation and K-means clustering to profile road accident hotspots[J]. Accident Analysis & Prevention, 2009, 41(3):359-364.

[3] Xie Z , Yan J . Detecting traffic accident clusters with network kernel density estimation and local spatial statistics: an integrated approach[J]. Journal of Transport Geography, 2013, 31(jul.):64-71.

[4] Lin L , Wang Q , Sadek A W . A novel variable selection method based on frequent pattern tree for real-time traffic accident risk prediction[J]. Transportation research, 2015, 55c(jun.):444-459.

[5] Chen Q , Song X , Fan Z , et al. A Context-Aware Nonnegative Matrix Factorization Framework for Traffic Accident Risk Estimation via Heterogeneous Data[C]// IEEE Conference on Multimedia Information Processing & Retrieval. IEEE, 2018.

[6] Yuan Z, Zhou X, Yang T, et al. Hetero-ConvLSTM: A Deep Learning Approach to Traffic Accident Prediction on Heterogeneous Spatio-Temporal Data[C]. knowledge discovery and data mining, 2018: 984-992.

[7] Ren H, Song Y, Wang J, et al. A Deep Learning Approach to the Citywide Traffic Accident Risk Prediction[C]. international conference on intelligent transportation systems, 2018: 3346-3351.

[8] Zhou Z, Wang Y, Xie X, et al. RiskOracle: A Minute-level Citywide Traffic Accident Forecasting Framework[J]. arXiv: Artificial Intelligence, 2020.

[9] Moosavi S , Samavatian M H , Parthasarathy S , et al. Accident Risk Prediction based on Heterogeneous Sparse Data: New Dataset and Insights[J]. 2019.

[10]Huang C, Zhang C, Dai P, et al. Deep Dynamic Fusion Network for Traffic Accident Forecasting[C]. conference on information and knowledge management, 2019: 2673-2681.

以上是关于城市计算之交通事故预测综述的主要内容，如果未能解决你的问题，请参考以下文章

城市计算之交通事故预测综述

一、 领域问题描述

二、 研究现状­

1. 传统的数据挖掘方法的研究：

三、 现状分析

四、工作展望

一、领域问题描述

二、研究现状

三、现状分析