用于自动驾驶的光流方法的应用挑战和改进
Posted Being_young
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用于自动驾驶的光流方法的应用挑战和改进相关的知识,希望对你有一定的参考价值。
点云PCL免费知识星球,点云论文速读。
文章:Optical Flow for Autonomous Driving: Applications, Challenges and Improvements
作者:Shihao Shen, Louis Kerofsky and Senthil Yogamani
编辑:点云PCL
来源:arXiv2023
欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载,欢迎各位同学积极分享和交流。
摘要
光流估计是自动驾驶应用的一个很好的研究课题,目前已经提出了许多光流估计方法,但当在通常遇到的具有挑战性的场景中测试时,它们会变得错误。尽管在自动驾驶中越来越多地使用鱼眼相机进行近场传感,但关于具有强透镜失真的光流估计的文献非常有限。因此,我们提出并评估了训练策略,以通过具有光流真值的唯一现有鱼眼数据集来改进基于学习的光流算法,虽然使用合成数据进行训练,但该模型显示出强大的泛化能力,可以应用于真实世界的鱼眼数据,现有技术算法忽略的另一个挑战是光线不足,所以提出了一种新颖的、通用的半监督框架,该框架可以显著提高现有方法在这种条件下的性能,据我们所知,这是第一种明确处理低光照场景下的光流估计的方法。
主要贡献
近场传感是自动驾驶的一个常见话题,一些主要用例是自动泊车系统和交通堵塞辅助系统。近场感测通常通过使用具有较大径向失真的多个广角相机构建环视图系统来实现。例如,鱼眼摄像头提供了比标准针孔摄像头更宽的视野(FoV),在实践中,位于前后左右四个鱼眼摄像头足以为车辆构建环视系统。尽管这样的鱼眼系统被广泛部署,但据我们所知,以前没有任何工作明确处理具有强透镜失真的图像(例如鱼眼图像)的光流估计。
如图1所示,当前最先进的方法之一在从WoodScape拍摄鱼眼图像时显示错误结果,因为其聚焦于仅具有轻微径向失真的窄视场相机。解决这一问题的直观方法是在通过神经网络之前作为预处理步骤校正输入图像中的失真。然而,这不可避免地导致视野减少,并在外围重新采样失真伪影,如果不进行校正,构建汽车数据集是鱼眼图像光流估计的主要瓶颈,很少有合成数据集提供与鱼眼图像相关的光流真值,而不存在具有光流真实性的真实世界数据集,这是由于每两个连续帧之间的每像素运动极难手动标记。
图1:通过将鱼眼图像输入RAFT进行错误的光流估计,每行从左到右:当前帧、下一帧、颜色编码结果、稀疏矢量覆盖图,以获得更好的可视化效果。注意地面上的估计光流矢量是如何缺失或与车辆运动不一致的。
在本文中,我们通过使用唯一具有光流背景真值的现有数据集SynWoodScape,研究并提高了RAFT在强失真输入上的性能。大多数AV应用程序预计不仅在白天运行,而且在夜间运行。相机变得不可靠,基于相机的计算在低光照条件下容易失败,这是由于其易受噪声和不一致曝光的影响。或者,LiDAR传感器可以在低光自动驾驶中稳健地工作,因为测量发射激光飞行时间的有源传感器与照明无关。然而,LiDAR体积庞大、成本高昂,并且需要更多的计算和内存资源来处理输出,这使得如果后者能够在低光照下提供同等可靠的结果,则其不如相机。热摄像机提供了鲁棒的低光性能,但它们不常用于最近的自动驾驶系统,当前的光流方法显示出处理低光数据的能力较差,因为低光是一种复杂的场景,具有低信噪比、运动模糊和多个光源带来的局部照明变化。此外,当前的光流数据集主要是白天图像。
在本文中,我们提出了一种新颖的通用架构,该架构有助于以半监督的方式学习夜间鲁棒表示,而无需任何额外数据的帮助或牺牲白天性能。据我们所知,这是第一个基于学习的方法,它明确地处理低光下的光流估计。本文的主要贡献是:
1、介绍和研究用于AV应用的光流估计中的两个挑战:强透镜失真和低光场景。
2、鱼眼输入的基线光流算法的实现和改进以及实验评估。
3、为基于学习的光流算法实现学习夜间鲁棒表示的有效但也是通用的新策略框架。
主要内容
这里分别描述了针对强失真输入和低光输入的两种提出的光流估计算法。并给出了相应的实验评价和结果分析。
强透镜失真
具有强透镜失真的数据集的有限可用性是阻碍最近方法推广到更失真输入的瓶颈,在SynWoodScape的帮助下,第一个鱼眼数据集为前景和背景运动提供了光流地面真相,我们能够使用RAFT作为主干训练光流模型,该模型在不牺牲针孔相机原始性能的情况下,很好地概括了强畸变镜头,我们在真实世界鱼眼自动运动数据集上运行现成的RAFT,例如WoodScape,我们发现了不一致的光流估计,这在图1中的地平面上尤其明显。为了解决这个问题,我们提供了两个基线及其定性和定量评估。一种是根据表1a中的训练计划,使用SynWoodScape对预训练的RAFT进行微调。另一种是在SynWoodScape和针孔相机图像上联合训练RAFT,这些图像通常用于基于学习的光流方法,联合训练基线遵循表1b中的训练计划。
然后,我们将定量结果显示在表2中,使用端点误差(EPE)作为度量,这是光流估计的标准误差度量,它是估计的流向量和真值之间的欧几里得距离,在所有像素上取平均值。我们评估了上述两个基线(阶段“微调”和“接合”)以及作者在SynWoodScape、Sintel和KITTI的四个保持测试集上提供的预训练模型。SynWoodScape是唯一一个强失真输入的测试集,而其他三个假设针孔相机模型失真很小。尽管经过预训练的模型在针孔相机上表现突出,但在鱼眼输入时其性能显著下降。我们的第一个基线,即对鱼眼图像进行微调的基线,在SynWoodScape上给出了最好的结果,但在其他基线上表现非常差。这符合我们的预期,因为预训练和微调的模型都分别针对针孔相机和鱼眼相机进行了最佳训练,而没有考虑一般性。另一方面,我们的第二个基线,即联合训练的模型,在所有四个数据集上保持第二好的同时非常接近最佳分数。因此,联合训练提供了一个简单而有力的基线,可以很好地概括具有明显失真的镜头。
在图2中,我们进一步展示了他们在WoodScape上的定性结果,支持我们通过在混合透镜畸变上联合训练RAFT获得的改进。在前视图中,请注意联合训练的模型如何能够一致地估计地面上的流量,这是图1所示的最近方法的主要失败之处。侧视图相机的结果还显示,联合训练的模型比微调的模型捕捉到更精细的细节。例如,在右侧视图中,不仅解决了地面上的不一致性,还清楚地估计了与右上角自行车车轮相关的光流。在左侧视图中,微调模型错过了与车辆前轮相关的流量,该流量由预训练模型捕获,但联合训练的模型“重新获得”了这样的详细估计。换言之,微调模型估计更一致的光流,这对预训练模型提出了挑战,因为鱼眼相机和针孔相机之间的投影几何结构明显不同,但反过来,它失去了预训练模型观察到的一些细节,因为考虑到强镜头失真,有趣的局部特征变得不那么重要。然而,联合训练的模型在前两个模型之间实现了巨大的权衡:它在局部重新捕捉细节,同时在不同的相机视图之间保持良好的全局性能。
图2:WoodScape的真实汽车数据的光流估计(彩色编码)。输入帧分别来自前视图、右侧视图和左侧视图的鱼眼摄像头
低光照场景
我们提出了一种新颖且通用的半监督框架,可显著提高现有最先进方法在低光条件下的性能。图3显示了框架的架构。我们的框架有三个好处。首先,它独立于现有方法的设计,可以实现开箱即用地增强其夜间性能。其次,半监督学习不需要任何额外的数据,因为夜间光流数据集的标记成本是巨大的。最后,它保持了估计器在原始日间数据上的竞争性能,而不做任何权衡。
图3:我们提出的框架概述,在训练期间,框架将两个连续帧作为输入,并将它们通过一组低光特定数据增强,以及应用随机照明掩模。然后,光流估计器并行地估计两对增强帧上的流。网络受到两种损失的监督:传统的光流损失和新颖的亮度一致性损失。在推断过程中,输入帧被直接传递到估计器中,估计器输出光流,这是现有技术中的标准方式。
我们首先分解了低光照下光流估计失败的根本原因,然后在框架中描述了我们提出的策略,以相应地解决这些根本原因:夜间拍摄图像的复杂噪声模型,曝光时间过长导致的严重运动模糊,场景中多个独立光源带来的不一致的局部亮度,在低光下拍摄的图像往往比在充足的环境光下拍摄到的图像具有更复杂的噪声,现有方法从未在数据增强步骤中合成此类噪声,这是光流估计器在低光条件下失败的一个原因。
运动模糊是在估计低光下的光流时需要解决的另一个根本原因,为了模拟更长曝光长度导致的模糊效果,我们使用不同核大小和强度的点扩散函数(PSF)生成真实的运动模糊核。强度决定了运动模糊的非线性和抖动程度,与低光噪声类似,我们将真实模糊应用于一对输入帧,作为一个额外的数据增强,概率为0:6。图4显示了两种引入的数据增强策略。局部亮度不一致是最后但并非最不重要的根本原因。这是由于低光场景中存在多个独立光源(路灯、前照灯、月光等),这导致图像中的明亮区域不均匀。
图4:低光噪声增强和运动模糊增强的效果。
例如,图3中原始输入中的接地平面仅在车辆前照灯前面照亮,但在其他地方保持黑暗。与白天太阳是主要光源不同,夜间拍摄的图像即使在同一物体上也具有不一致的局部亮度。由于光流是通过匹配两幅图像上的像素来估计的,这种不一致性导致现有方法很容易失败。
例如,在图5中,第一行显示了当行人从黑暗中走到车辆前灯中,其照明在整个框架中发生剧烈变化时,RAFT的灾难性故障。为了解决这个问题,我们求助于半监督学习。
图5:CULane低速序列的光流估计
由于缺乏具有光流真值的夜间数据,只能定性评估我们的方法,简称RAFT Dark,使用CULane,这是一个大型汽车数据集,包含许多具有挑战性的现实世界低光序列。在图5中,我们展示了香草RAFT和RAFT Dark在一些低速序列上的比较。RAFT Dark的性能优于RAFT。在第一排、第三排和第四排,RAFT Dark能够检测到与行人和车辆相关的运动,这些运动要么经历了一些剧烈的照明变化,要么显得过于黑暗和嘈杂。在其他情况下,请注意RAFT Dark如何在地平面以及与自我飞行器运动一致的方向和幅度上提供更好的估计。为了方便起见,右上角安装了一个彩色编码轮,用于显示每像素的光学流矢量:颜色表示流矢量的方向,而强度表示位移的长度。由于自车总是向前行驶,前摄像头图像中的地面真实光流矢量应该直观地指向图像边界并远离图像中心,由于运动视差,人们应该期望朝向图像边界的流向量的大小较大,而图像中心周围的流向量大小较小。
换句话说,尽管无法获得真值光流,但我们知道彩色编码的地面真值应该呈现与色轮相同的模式:图像左侧为蓝色或绿色,右侧为红色或黄色。考虑到这一点,RAFT无法估计与车辆运动一致的正确光流,尤其是在地面等背景区域。另一方面,RAFT Dark不仅在这些区域表现出色,而且在某些情况下还学会了分离黑暗的天空,并捕捉第二排的路灯等细节。
图6中CULane的高速序列进一步说明了这种改进。我们的学习策略框架使RAFT能够将估计精度平均提高50%以上(基于视觉观察),甚至可以解决一些灾难性故障。尽管我们展示了基于RAFT作为估计器的结果,但我们的框架是通用的,可以用任何现有的最先进的方法替代RAFT。
有兴趣的小伙伴请参考原文,后台发送“知识星球”扫码加入知识星球查看原文
总结
镜头失真和低光照对更高级别的自动驾驶来说都是重要问题,本文通过在合成鱼眼数据上对其进行训练,并证明其对真实世界失真图像的适应性以及对各种镜头失真的通用性,从而实现并改进了最先进的光流算法。我们实施了一个新颖的通用框架,该框架有助于以半监督的深度学习的方式鲁棒表示,其性能优于现有技术水平。在未来的工作中,我们计划将我们当前的解决方案集成到更高级别的方案中,并探索在自动驾驶环境下光流估计的其他独特挑战。
资源
自动驾驶及定位相关分享
【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法
自动驾驶中基于激光雷达的车辆道路和人行道实时检测(代码开源)
更多文章可查看:点云学习历史文章大汇总
SLAM及AR相关分享
结构化PLP-SLAM:单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案
更多详细内容后台发送“知识星球”扫码加入知识星球查看原文。
智驾全栈与3D视觉学习星球:主要针对智能驾驶全栈相关技术,3D/2D视觉技术学习分享的知识星球,将持续进行干货技术分享,知识点总结,代码解惑,最新paper分享,解疑答惑等等。星球邀请各个领域有持续分享能力的大佬加入我们,对入门者进行技术指导,对提问者知无不答。同时,星球将联合各知名企业发布自动驾驶,机器视觉等相关招聘信息和内推机会,创造一个在学习和就业上能够相互分享,互帮互助的技术人才聚集群。
以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除
扫描二维码
关注我们
让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。
分享及合作方式:微信“920177957”(需要按要求备注) 联系邮箱:dianyunpcl@163.com,欢迎企业来联系公众号展开合作。
点一下“在看”你会更好看耶
以上是关于用于自动驾驶的光流方法的应用挑战和改进的主要内容,如果未能解决你的问题,请参考以下文章