论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe相关的知识,希望对你有一定的参考价值。

Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNet+ Neural Networks.

0 摘要

本文提出的方法,用于从高角度交通摄像机中提取车辆轨迹

        动态模式分解 (DMD) 方法通过将空间时间图 (STMap) 分解为稀疏前景和低秩背景来提取车辆线。通过采用两种流行的深度学习架构,为语义分割任务设计了一个名为 Res-UNet+ 的深度神经网络。 Res-UNet+ 神经网络显着提高了基于 STMap 的车辆检测性能,DMD 模型为理解 STMap 保存的底层时空结构的演变提供了许多有趣的见解。

        模型输出与之前的图像处理模型和主流语义分割深度神经网络进行了比较。经过全面评估,该模型被证明是准确和稳健的,可应对许多具有挑战性的因素。最后但同样重要的是,本文从根本上解决了 NGSIM 轨迹数据中发现的许多质量问题。发布清理后的高质量轨迹数据,以支持未来关于交通流和微观车辆控制的理论和建模研究。该方法是基于视频的轨迹提取的可靠解决方案,具有广泛的适用性。

1 introduction

        视频传感器已广泛用于提取车辆轨迹数据,以支持学术研究、交通运营、管理和设计。最具影响力的基于视频的轨迹数据集之一是下一代模拟 (NGSIM) 轨迹数据集 [1],它通过揭示微观交通特征显着推动了交通流和建模研究。正如[2]所强调的,尽管基于视频的轨迹数据极大地改进了模型的类型和模型的校准/训练,但对高质量、高分辨率的轨迹数据仍然存在大量需求。从交通摄像机中以令人满意的精度收集有用的轨迹数据是一项非常具有挑战性的任务。传统的轨迹提取范式包含多阶段算法,容易受到天气、光照、视频质量和其他因素的影响。车辆轨迹数据集通常需要大量的后处理工作,例如清理和验证。

        为了解决NGSIM数据集中的数据质量问题,满足交通流和建模研究的需要,本文提出了一种机器学习增强扫描线方法从时空地图(STMap)中检测轨迹。 动态模式分解 (DMD) 用于通过将 STMap 分解为不同的底层结构来分析它DMD 结果用于为新的深度神经网络预处理和准备训练数据。 利用两种现有的卷积神经网络架构来构建用于 STMap 分割任务的 Res-UNet+ 模型。 该方法在很大程度上改进了车辆检测的扫描线算法,简化了高保真轨迹数据采集。

        此外,本文还提供了一种通过在静态 STMap 上显示车辆运动验证提取的车辆轨迹的有效方法。 先前的轨迹验证过程依赖于通过将原始视频上的检测和跟踪结果可视化的直接方法,或通过针对原始轨迹和重建轨迹校准微观模型并比较两个校准模型中哪个更好的间接方法。 然而,时空图允许以最小的努力直接识别单个车辆的错误。

2  相关工作

2.1 高分辨率的车辆轨迹数据集

本节回顾了三个重要的高分辨率车辆轨迹数据集及其处理方法。

2.1.1 NGSIM

        NGSIM 轨迹数据集是交通研究界的一项重要资产,由从高层建筑拍摄的交通视频生成。 NGSIM 应用基于外观的车辆检测算法从图像中提取线段并将其与 3D 车辆模型进行匹配。检测到的车辆根据它们在摄像头图像中的外观进行跟踪。

         NGSIM 数据集已被用于校准和评估交通流模型中的真实数据,展示驾驶行为或交通现象,以及进行交通状态估计和预测 [3][4]。

        然而,越来越多的文献揭示了 NGSIM 数据集中潜在的系统错误。一些研究 [5][6][7][8][9] 研究了性能问题并提出了基于统计分布、过滤和平滑、交通通知约束和信息论的去噪方法 [10]。

2.1.2 HighD & inD 数据

        Krajewski 等人 [11] 发布了一个 HighD 数据集,该数据集由无人机在德国高速公路上收集的 110,500 辆车辆组成。

         同一组发布了包含行人、骑自行车的人、货车等的交叉路口道路使用者的 inD 轨迹数据集。

        用于生成 HighD 数据集的对象检测算法是 U-Net 语义分割算法。

2.1.3 pNEUMA

        与高速公路车辆轨迹数据集相比,Barmpounakis 和 Geroliminis [12] 提出了一个完整的城市数据集,该数据集是从名为 pNEUMA(使用航拍镜头的城市交通监测新时代)的大量无人机中收集的。 他们的项目是使用商业流量平台进行的[13]。

         该数据集在使用 10 架无人机的多模式交通环境下覆盖了 100 多公里车道和约 100 个十字路口的拥堵区域。 原始 pNEUMA 数据集不包含车道信息,这需要用户应用额外的车道识别方法。

2.2 交通录像分析中的CV算法

        交通检测是计算机视觉中目标检测问题的一部分。 近年来,随着深度学习的兴起,取得了长足的进步。 对象检测不仅涉及识别目标类中的对象,还涉及精确定位每个对象

        表 1 是与交通检测相关的计算机视觉技术的总结,可分为五个主要类别,包括基于形状的方法[14][15][16]、背景/前景建模[17][18][19] 、深度学习模型[20][21][22][23]、基于特征的模型[24][25]和扫描线方法[26][27]。

        

        语义分割是与交通视频分析相关的另一项计算机视觉任务,它预测每个图像的像素级别的类别标签。 挑战在于类标签的像素级精度和多尺度上下文信息的要求[28]。

         语义分割已用于许多应用:自动驾驶汽车、虚拟和增强现实、生物医学图像分割等。

        许多分割模型建立在流行的神经网络之上,例如 AlexNet [29]、VGG-16 [30]、GoogLeNet [31] 和 ResNet [32]。

        U-Net 于 2015 年首次被提出作为一种语义分割方法来处理生物医学图像 [33]。 原始的 vanilla U-Net 具有许多相似 U 形架构的变体,从而产生了一系列模型,如 U-Net 模型家族。

         多目标跟踪 (MOT) 对于计算机视觉中的许多应用至关重要,并且已被广泛研究。

         目标跟踪方法可以分为两种类型:在线跟踪和离线跟踪。 在线跟踪仅使用当前和以前的帧。 长期运动被嵌入到状态空间中以供记忆[34-36]。 离线跟踪基于使用所需对象的时间序列信息集合的全局优化算法[37-39]。

         最近的深度学习方法获得了巨大的动力并成功地提高了 MOT 的性能,包括 Siamese Networks、Attention and Transformer 和 Recurrent Neural Networks [40-43]。 其他一些实践考虑了基于数据关联或机器学习模型的数学公式中的跟踪问题,以提取用于聚类的轨迹特征[44-46]。

 2.3 扫描线方法 scanline

        扫描线方法源于计算机视觉文献中使用的时空切片(STS)。STS 方法被用于物体和行人检测[49][50]。 在交通研究中,该技术被称为扫描线法(scanline),它是一组像素,可以从视频图像中捕捉用户选择的道路上的物体运动。 在连续帧上将扫描线像素堆叠在一起后,就获得了时空图(STMap)。 在 STMap 上,横轴表示时间进程,纵轴包含距离信息。

        

        在交通检测中使用两种类型的扫描线,横向和纵向扫描线。 横向扫描线是横穿车道的横截面扫描线,而纵向扫描线是沿着交通方向的。 横向扫描线法主要用于交通计数 [51] 和速度测量 [52]。 纵向扫描线法用于车辆跟踪[53][54]和检测[55]。 然而,大多数以前的扫描线方法仅用于估计宏观参数,例如交通量、车头时距和点速度。

2.4  动态模式分解 DMD dynamic mode decomposition

        动态模式分解是一种数据驱动的分析方法,它集成了傅里叶变换和奇异值分解 (SVD)。

        DMD 方法对时空相干结构进行特征分解 [59],因此可以有效地降低复杂系统的维数而不会失去准确性 [60]。 DMD 方法在流体动力学、视频处理、控制、流行病学和金融模型等许多应用领域获得了广泛关注。 DMD 算法试图找到以下两个矩阵之间的最佳拟合。

        

         其中𝑥𝑘 (𝑘 = 1, . . , 𝑚 ) 是一个向量,表示时间间隔 𝑘 的动态系统状态,𝑋 矩阵表示从间隔 1 到 (𝑚 − 1) 的先验状态,𝑋' 矩阵表示从间隔 2到𝑚的后验状态。

        X和X'通过以下线性操作关联起来:

         我们的目标是找到代表状态演化的矩阵𝐴。 

        

                𝐴̂ 由最小二乘优化控制

         其中 𝑋† 是通过使用 Moore-Penrose 伪逆获得的

        

        对于 DMD 算法,不是直接求解矩阵算子 𝐴,而是通过对A进行正交分解之后在进行特征分解来实现的

  • 使用SVD 分解矩阵X

         

        其中𝑈和𝑉是矩阵X的列和行正交基,*表示复共轭转置。

  • 通过投影到Ur,对A进行降维,得到

        

         

        

  • 计算的特征值

         

        W是特征向量,是特征值的对角矩阵 

  •  重构A的特征向量

        

        上述方法将估计全矩阵A的回归问题的复杂性大大降低为计算对角线和稀疏矩阵的元素。DMD方法可以被认为是一种具有高计算效率的稳健主成分分析(PCA)。

        矩阵𝐴的特征值可以表明主导模式的时间演变[61]。

        Sirovich[62]将状态向量叠加到一个大矩阵中并识别其相干结构的方法命名为快照法。

3 方法

3.1 STmap的生成

        如图 1 所示,通过逐帧堆叠纵向扫描线(𝑙1、𝑙2、𝑙3、...、𝑙𝑚)以形成三维矩阵,其中 𝑛 表示每条扫描线的像素数, 𝑚是视频帧数,3表示RGB通道。

        

         在 STMap 中同时移动的彩色像素表示沿预定义扫描线通过的唯一车辆。 我们的目的是从 STMap 中分割每个车辆链以检测轨迹。

3.2  用于 STMap 分割的动态模式分解 (DMD)

        每帧的扫描线像素值可以被认为是特定时间戳的交通动态状态。

        在时间x的交通状态被我们记为 𝑙𝑥 ,于是我们有:

         

        其中矩阵𝐴描述了时差运算。 包含空间信息的 DMD 模式是 𝐴 的特征向量。 每个 DMD 模式对应一个特征值 𝐴。 通过求矩阵 𝐴 的特征向量和特征值,我们得到 DMD 模式 Φ。          

         Φ 的列是特征向量,𝛬 是特征值 的对角矩阵。 STMap 可以使用前 𝑘个 模式重建,其中 𝑘 ≤ min (𝑛, 𝑚)。

        

(个人感觉,每一列是特征向量的话,13式第一个矩阵应该是转置形式)

         其中 Φ 包含来自 STMap 的主要模式,矩阵 B 是幅度矩阵。 𝒱 是代表 DMD 模式时间演化的 Vandermonde 矩阵。 该功能如图 2 所示。

        

        在帧 𝑡 ∈ 1, ... , 𝑚 处的扫描线向量 𝑙𝑡 可以估计如下:  

        设t=1,表示扫描线的初始状态如下  

        

        然后可以使用第一条扫描线𝑙1 作为初始状态,将矩阵 B 估计为最小二乘问题。  

        

        任何不随时间变化的 DMD 模式都会有一个特征值𝜆𝑗 = 1,它构成了 STMap 的背景(background)。

        在 STMap 中,背景像素(模式不随时间变化)在相邻列之间高度相关,表现为 STMap 内的低秩结构。 因此,DMD 算法通过将 STMap 分解为低秩(背景)和稀疏(前景)分量来分离背景和前景。          

        4

(也就是前面说的

         其中

        如图 3 所示,与前景模式的特征值相比,背景与时间无关,并且具有最小的 DMD 特征值 (≈ )。 图 3 (D) 绘制了不同模式随时间的波动。 具有最低频率的背景模式的幅度表明随时间的变化最小。

        如图 3(A)和 3(B)所示,DMD 的前景检测结果对于 STMap 上的轨迹提取并不完美。 但是,它们足够清晰,可以为深度学习模型预处理和生成训练数据。

        

3.3 STMap 切割模型 

        Res-UNet+ 模型使用 ResNet 块作为主干,并通过修改解码层进一步提高其性能。

        在编码过程中,ResNet 块替换了 UNet 模型中的原始编码器。编码和解码层之间的互连旨在减少语义差距。

        我们在不同级别的解码阶段之间添加了内部连接。许多分割研究[63-65]表明,从不同尺度学习的特征通常包含不同的信息。较低级别的层捕获对象的边界,而较高级别的层探索目标对象的定位。在 vanilla UNet 架构中,相应级别的编码器和解码器之间只有互连。为了使较低级别的解码器信息能够传递给较高级别的解码器,我们连接所有解码器层以更好地定位并学习分割网络中的表示。各层的多尺度内连接和深度如图4所示,网络命名为Res-UNet+。

        

         编码器层使用两个分支 ResNet为基础架构,包含了上分支和下分支:(下标为l的是下分支,下标为u的是上分支,第i层的输出为

        

 Conv3是3×3的卷积算子

 

         不同级别之间具有内部连接的解码器层描述如下:

  

 是第i层解码器的输出,是第i层编码器的输出 ,[.]表示concatenate此操作

 分别表示卷积、转置的卷积、两次卷积(后面都跟着ReLU激活函数)

 4 实验部分

4.1 baseline

作为基线模型的主流图像语义分割模型考虑如下

  •  ResNet-18/ ResNet-50:

        ResNet 的构建块包括连续包含卷积、批量归一化和 ReLu 层的主分支,以及绕过主干以使梯度更容易流动的残差连接。

        在本文中,我们测试了 18 层和 50 层的 ResNet 架构作为参考模型。图 4 的左分支说明了在所提出的模型中使用的类似 ResNet 结构。

  • UNet:

        具有编码和解码阶段的 vanilla UNet 模型也用作参考模型。skip-connection由两组卷积和 ReLU 层组成。 vanilla UNet 具有类似于图 4 的 U 形结构,但具有更直接的左分支,并且没有在提议的模型中定义的内部连接解码层。

  • Res-UNet:

对于 Res-UNet 模型,我们没有添加内部连接来整合来自所有编码器层的信息。我们的 Res-UNet 架构通过用双分支 ResNet 块替换原始编码器层来改革 UNet 模型架构。

  • 全卷积网络(FCN):

FCN模型是一个端到端的编码器-解码器语义分割神经网络。

  • DeepLabv3+:

DeepLab 模型也是建立在编解码框架之上,采用 Xception 模型,实现更快更强的编解码器网络[67]。

  • SegNet:

另一个像素级分割神经网络是 SegNet,它使用 13 个拓扑(类似于 VGG16) 的卷积层作为编码器。他们的解码器层使用在相应编码器层中计算的池化索引来执行非线性上采样[68]。

4.2 数据集

        与其他高度专业化且需要大量专业知识和经验的数据标记过程不同,使用上述 DMD 方法,一个人就足以完成标记数百个 STMap 的任务。 这是使用 STMap 方法的优点之一,因为不需要从所有可能的比例、部分、角度、颜色或形状中收集车辆图像。

         此外,与背景像素相比,车辆线的模式很容易被分割。 在这项研究中,STMap 训练数据集是使用四个 15 分钟的 NGSIM I-80 视频创建的。 我们从 20 个车道中获得了 20 个 STMap,然后将其裁剪成 1000 个 512*512 图像。 由于 STMap 中的车辆链从左上角延伸到右下角,因此我们不需要在数据增强过程中使用旋转变换。

4.3 轨迹提取

        

 4.4  评估标准

        三个主要性能指标用于定量评估分割模型的性能、准确性、Jaccard 系数和 BF 分数(边界 F1 分数)。

         准确度 (Acc) :正确识别出轨迹的数量/轨迹的总数量

        

        但是,Acc 是一个主要指标,需要与其他指标结合使用才能进行完整的评估。  

        Jaccard 系数用于衡量两个集合 A 和 B 之间的相似性

        

         Jaccard 系数是一个重叠指数,用于量化两个分割图像区域之间的一致性。 Jaccard 系数也可以用真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 表示为:

        

        第三个性能指标是 BF 分数,,BF Score 定义为精确率和召回率值之间的调和平均值,以决定边界上的点是否已匹配。

        

        轨迹检测结果的误差度量是所有轨迹点的平均绝对误差(MAE)。

        

      其中,𝑜是轨迹指数,yo(𝑡)和ŷ𝑜(𝑡)分别是时间t的实际位置和模型估计的位置,𝑀𝐴𝐸𝑜是ground-truth轨迹和估计轨迹之间的平均绝对误差,通过对共同时间窗口内所有距离差异的平均计算。

        如果平均绝对误差低于预先确定的阈值(在本研究中为15英尺),我们将把检测到的轨迹视为真阳性TP。否则,它将被视为假阳性结果FP。

5  实验设计

本研究中使用的视频数据来自NGSIM I80-1数据集,该数据集于2005年4月13日下午4点至4点15分记录在加利福尼亚州埃默里维尔的交通情况。记录的交通流方向是北行。每台摄像机都从高速公路附近的一栋30层楼的屋顶上观察通过研究区域的车辆。研究中使用了四个摄像头的五条车道,包括一条高乘载车辆(HOV)车道,如图6所示。

 7 实验结果

7.1 STmap 分割评估

 全局精度是正确分类的像素数占总像素数的比值。 平均准确度是每个类别的平均准确度。

平均 IoU 是所有类别的平均 IoU 分数。 加权 IoU 是图像中每个类的像素数加权的 IoU 分数。 使用加权度量是为了减少不平衡类的影响。

以上是关于论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文笔记:GraphSleepNet: Adaptive Spatial-Temporal Graph Convolutional Networks for Sleep Stage Classific

交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》

论文笔记:Unsteady Multi-Element Time Series Analysis and Prediction Based on Spatial-Temporal Attention