HF-Net:From Coarse to Fine: Robust Hierarchical Localization at Large Scale
Posted AI浩
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HF-Net:From Coarse to Fine: Robust Hierarchical Localization at Large Scale相关的知识,希望对你有一定的参考价值。
文章目录
🐇🐇🐇🐇🐇🐇 🐇 欢迎阅读 【AI浩】 的博客🐇 👍 阅读完毕,可以动动小手赞一下👍 🌻 发现错误,直接评论区中指正吧🌻 📆 这是一篇关于HF-Net论文翻译的文章📆 💯专栏目录: 高质量人类CV论文翻译, 论文地址💯
摘要
对于自动驾驶、移动机器人或增强现实等众多应用来说,稳健而准确的视觉定位是一项基本能力。然而,这仍然是一项具有挑战性的任务,特别是对于大规模环境和存在重大外观变化的情况。最先进的方法不仅难以解决这种情况,而且对于某些实时应用程序来说往往资源过于密集。在本文中,我们提出了HF Net,这是一种基于单CNN的层次定位方法,它同时预测局部特征和全局描述符,以实现精确的6-DoF定位。我们利用粗到细的定位范式:我们首先执行全局检索以获得位置假设,然后才匹配这些候选位置中的局部特征。这种分层方法节省了大量的运行时间,使我们的系统适合实时操作。通过利用习得的描述符,我们的方法在巨大的外观变化中实现了显著的本地化鲁棒性,并在大规模本地化的两个具有挑战性的基准上设置了新的最先进的技术。
1、简介
相机在现有3D模型中的精确6自由度(DoF)定位是计算机视觉的核心功能之一,它开启了许多最近的应用程序。其中包括在没有gps的环境下的自动驾驶[8,31,33,6]和具有增强现实功能的消费设备[32,24],其中厘米精度的6自由度姿态分别对于保证可靠和安全的操作和完全沉浸式体验至关重要。更广泛地说,视觉定位是计算机视觉任务的关键组成部分,如运动结构(SfM)或SLAM。视觉定位的应用范围不断扩大,要求在室内和室外都能可靠运行,而不受天气、照明或季节变化的影响。
因此,对如此大的变化的鲁棒性以及有限的计算资源至关重要。因此,在保持紧凑的同时,保持一个允许在多种条件下精确定位的模型是至关重要的。在这项工作中,我们研究了在移动设备资源有限的情况下,在大规模变化的环境中是否有可能实现稳健的本地化。更具体地说,我们的目标是在给定的3D模型中以尽可能高的精度估计查询图像的6自由度姿态。
目前领先的方法主要依赖于使用局部描述符估计查询中的2D关键点和稀疏模型中的3D点之间的对应关系。这种直接匹配要么健壮,但在移动设备上难以处理[51,55,43],要么优化了效率,但脆弱[29]。在这两种情况下,经典定位方法的鲁棒性都受到手工制作的局部特征不变性差的限制[9,28]。最近从卷积神经网络(CNN)中出现的特征以较低的计算成本表现出无与伦比的鲁棒性[14,15,34]。然而,直到最近,它们才被应用于视觉定位问题,而且只是以密集、昂贵的方式。习得的稀疏描述符[14,38]有望带来本地化中尚未探索的巨大好处。
在本文中,我们建议利用学习特征的最新进展来弥合分层定位范式中鲁棒性和效率之间的差距。类似于人类的本地化方式,我们采用了一种自然的粗-细姿态估计过程,该过程利用了全局描述符和局部特征,并在大型环境中很好地扩展(图1)。我们表明,学习的描述符在具有挑战性的条件下具有无与伦比的鲁棒性,而学习的关键点由于其更高的可重复性提高了计算和内存方面的效率。为了进一步提高这种方法的效率,我们提出了一种分层特征网络(HF-Net),一种联合估计局部和全局特征的CNN,从而最大限度地共享计算。我们展示了如何使用多任务蒸馏以灵活的方式训练这样一个压缩模型。通过将多个最先进的预测器联合提取到单个模型中,我们获得了无与伦比的快速,但健壮和准确的定位。这种异构蒸馏不仅适用于视觉定位,还适用于需要多模态昂贵预测和计算效率的任务。总体而言,我们的贡献如下:
- 我们在几个公共基准中设置了新的最先进的大规模本地化标准,在特别具有挑战性的条件下具有出色的稳健性;
- 我们引入了HF-Net,这是一个单片神经网络,它有效地预测分层特征,以实现快速和稳健的定位;
- 我们展示了多任务蒸馏的实际用途和有效性,以实现异构预测器的运行时目标。
2、相关工作
在本节中,我们将回顾与我们方法的不同组件相关的其他工作,即:可视化本地化、可伸缩性、特征学习和资源受限设备上的部署。
传统的六自由度视觉定位方法分为基于结构的和基于图像的两种。前者实现查询图像的2D关键点与3D SfM模型中的3D点之间的局部描述符直接匹配[51,55,43,27,52]。这些方法能够估计准确的姿态,但往往依赖于穷举匹配,因此计算密集。随着模型规模的增长和感知混叠的出现,这种匹配变得模糊,削弱了定位的鲁棒性,特别是在强烈的外观变化(如昼夜[44])下。一些方法直接从单幅图像回归姿态[7,22],但在精度[46]方面没有竞争力。基于图像的方法与图像检索相关[2,56,57],只能提供到数据库离散化为止的近似姿态,这对于许多应用来说不够精确[44,52]。然而,由于它们依赖于全局图像范围的信息,因此它们明显比直接局部匹配更健壮。这是以增加计算为代价的,因为最先进的图像检索是基于大型深度学习模型的。
可伸缩本地化通常通过使用廉价的特征来提取、存储和匹配来处理额外的计算约束[9,26,39]。这些改进了移动设备上的运行时间,但进一步削弱了本地化的健壮性,将其操作限制在稳定条件[29]。层次定位[21,32,42]采用了不同的方法,将问题分为全局粗搜索和精细姿态估计。最近,[42]提出在地图级别上使用图像检索进行搜索,并通过匹配手工制作的局部特征与检索到的3D点进行本地化。正如我们在第3节中进一步讨论的,它的健壮性和效率受到底层局部描述符和异构结构的限制。
学习到的局部特征最近被开发出来,试图取代手工制作的描述符。密集的像素特征自然地出现在cnn中,并为图像匹配[11,15,37,40]和定位[52,44]提供了强大的表示。然而,在有限的计算能力下,匹配密集的特征是很棘手的。稀疏学习特征,由关键点和描述符组成,提供了一个有吸引力的手工对等物的替代品,最近显示出出色的性能[14,38,18]。它们可以很容易地从密集的特征中采样,快速预测,因此适合移动部署。CNN关键点检测也被证明优于经典方法,尽管它们非常难以学习。SuperPoint[14]从自我监督中学习,而DELF[36]采用注意机制来优化地标识别任务。
移动端的深度学习。虽然学习一些本地化管道的构建模块可以提高性能和健壮性,但将它们部署到移动设备上却不是一项简单的任务。多任务学习的最新进展允许在不手动调优的情况下在任务之间有效地共享计算[23,10,50],从而减少所需的网络大小。蒸馏[20]可以帮助从已经训练好的较大网络中训练出较小的网络[41,59,60],但通常不用于多任务设置。
据我们所知,我们的方法是第一个结合上述领域的进步来优化效率和稳健性的方法。所提出的方法旨在利用这些算法的协同作用,提供具有竞争力的大规模本地化解决方案,并使该技术更接近资源有限的实时在线应用。
3、层次定位
旨在最大化定位的鲁棒性,同时保留易于处理的计算需求。该方法松散地基于层次定位框架[42],在这里进行总结。
先前的检索。通过使用全局描述符将查询与数据库图像进行匹配,执行map级别的粗搜索。k近邻(NN),称为先验框架,代表地图中的候选位置。这种搜索是有效的,因为数据库图像的数量远远少于SfM模型中的点。
Covisibility聚类。先验帧基于它们共同观察的3D结构进行聚类。这相当于在将数据库图像链接到模型中的3D点的共视图中找到连接的组件(称为位置)。
局部特征匹配。对于每个位置,我们依次将查询图像中检测到的2D关键点与该位置包含的3D点进行匹配,并尝试在RANSAC方案[16]中使用PnP[25]几何一致性检查来估计一个6-DoF姿态。这种局部搜索也是有效的,因为所考虑的3D点的数量在该位置明显低于整个模型。一旦估计出一个有效的姿势,算法就会停止。
讨论。在[42]的工作中,一个用于图像检索的大型最先进的网络NetVLAD[2]被提炼成一个较小的模型MobileNetVLAD (MNV)。这有助于实现给定的运行时约束,同时部分保留原始模型的准确性。然而,局部匹配步骤是基于SIFT[28]的,它的计算成本很高,并且会生成大量的特征,使得这一步的成本特别高。虽然这种方法在小规模环境中表现出良好的性能,但它不能很好地扩展到更大、更密集的模型。此外,SIFT与最近学习到的特征相比没有竞争力,特别是在光照变化较大的情况下[18,38,14,34]。最后,局部和全局描述符的计算有很大一部分是多余的,因为它们都是基于图像的低级线索。手工制作的特征和CNN图像检索的异质性因此在计算上是次优的,在资源受限的平台上可能是至关重要的。
4、提出的方法
现在,我们将展示如何解决这些问题并实现改进的健壮性、可伸缩性和效率。我们首先使用同构网络结构来激发学习到的特征的使用,然后在第4.1节详细介绍结构,在第4.2节详细介绍我们的新训练过程。
学习到的特征似乎很适合分层本地化框架。最近的方法,如SuperPoint[14],在关键点重复性和描述符匹配方面优于流行的基线,如SIFT,这两者都是定位的关键。此外,一些学习到的特征比SIFT更稀疏,从而减少了需要匹配的关键点数量,加快了匹配步骤。我们在第5.1节中展示了图像检索中最先进的网络和局部特征的结合自然地实现了最先进的本地化。这种方法在极具挑战性的条件下尤其出色,例如夜间查询,在更小的3D模型尺寸下,其性能大大优于其他竞争方法。
虽然这种网络的推理比GPU上的SIFT计算速度快得多,但对于所提出的定位系统来说,这仍然是一个很大的计算瓶颈。为了提高移动设备在线定位的能力,我们在这里介绍了一种用于分层特征的新型神经网络HF-Net,实现了从粗到细的高效定位。它可以一次性检测关键点并计算局部和全局描述符,从而最大限度地共享计算,但保持更大的基线网络的性能。我们在图2中展示了它在分层本地化框架中的应用。
4.1、HF-Net架构
卷积神经网络本质上呈现出一种层次结构。这种模式很好地符合局部和全局特征的联合预测,并且具有较低的额外运行时成本。HF-Net架构(图3)由一个编码器和三个头部组成:i)关键点检测分数,ii)密集的局部描述符和iii)全局图像范围描述符。这种计算共享是很自然的:在最先进的图像检索网络中,全局描述符通常是从局部特征映射的聚合中计算出来的,这可能对预测局部特征有用。
HF-Net的编码器是MobileNet[41]骨干网,一种流行的针对移动推理优化的架构。与MNV[42]类似,全局描述符是由MobileNet的最后一个特征映射之上的NetVLAD层[2]计算的。对于局部特性,SuperPoint[14]体系结构因其效率而具有吸引力,因为它以固定的非学习方式解码关键点和局部描述符。这比应用转置卷积对特征进行上采样要快得多。它预测密集的描述符,这是快速的双线性采样,导致运行时独立于检测到的关键点的数量。另一方面,基于补丁的架构,如LF-Net[38],将一个暹罗网络应用于以所有关键点位置为中心的图像补丁,导致计算成本与检测数量成正比。
为了提高效率和灵活性,我们对关键点和局部描述符采用了SuperPoint译码方案。局部特征头在比全局头更早的阶段从MobileNet编码器中分支出来,因为需要更高的空间分辨率来保留空间识别特征,局部特征比图像范围描述符[15]的语义水平更低。
4.2、训练过程
数据稀缺。局部和全局描述符通常使用度量学习训练,使用地面真值正对和负对局部补丁和完整图像。在训练大型cnn所需的规模下,这些地面真相对应尤其难以获得。虽然全局监督自然从局部对应中产生,但目前还没有这样的数据集,i)在全局图像级别上表现出足够的感知多样性,例如在不同的条件下,如白天、夜晚、季节,ii)包含匹配图像之间的地面真实局部对应。这些对应关系通常是从SfM模型计算的密集深度[38]中恢复的[47,49],这在图像检索所需的规模上是难以构建的。
数据增加。不依赖于通信的自监督方法(如SuperPoint)需要大量的数据扩充,这是局部描述符不变性的关键。虽然数据增强通常能很好地捕捉局部级别的真实世界中的变化,但它可能会破坏图像的全局一致性,并使全局描述符的学习非常具有挑战性。
多任务蒸馏是我们解决这个数据问题的方法。我们使用蒸馏直接从现成的训练有素的教师模型中学习表示。这缓解了上述问题,通过一个更简单和更灵活的训练设置,允许使用任意数据集,因为可以从教师网络的推断中获得无限数量的标记数据。直接学习预测教师网络的输出还简化了学习任务,允许直接训练更小的学生网络。我们注意到与SuperPoint有一个有趣的相似之处,它的检测器通过自举训练,在不同的训练运行中由自己监督。这个过程也可以被称为自我蒸馏,并显示了蒸馏作为一种实用的训练方案的有效性。
对局部和全局特征的监督可以来自不同的教师网络,从而产生多任务蒸馏培训,从而可以利用最先进的教师。多任务学习的最新进展[23]使学生s能够最优地复制所有教师
t
1
,
2
,
3
t_1,2,3
t1,2,3,而无需手动调整平衡损失的权重:
L
=
e
−
w
1
∥
d
s
g
−
d
t
1
g
∥
2
2
+
e
−
w
2
∥
d
s
l
−
d
t
2
l
∥
2
2
+
2
e
−
w
3
CrossEntropy
(
p
s
,
p
t
3
)
+
∑
i
w
i
(1)
\\beginaligned L & =e^-w_1\\left\\|\\mathbfd_s^g-\\mathbfd_t_1^g\\right\\|_2^2+e^-w_2\\left\\|\\mathbfd_s^l-\\mathbfd_t_2^l\\right\\|_2^2 \\\\ & +2 e^-w_3 \\text CrossEntropy \\left(\\mathbfp_s, \\mathbfp_t_3\\right)+\\sum_i w_i \\endaligned \\tag1
L=e−w1∥∥dsg−dt1g∥∥22+e−w2∥∥dsl−dt2l∥∥22+2e−w3 CrossEntropy (ps,pt3)+i∑wi(1)
其中
d
g
d^g
dg和
d
l
d^l
dl是全局和局部描述符,p是关键点得分,
w
1
,
2
,
3
w_1,2,3
w1,2,3是优化变量。
一般地说,所提出的多任务蒸馏公式可以应用于任何需要多次预测同时保持计算效率的应用程序,特别是在收集所有任务的真实数据都很昂贵的情况下。它也可以应用于一些被认为计算密集型的手工描述符。
5、实验
在本节中,我们将介绍HF-Net的构建模块和整个网络的实验评估。我们想要证明它在具有挑战性的条件下对大规模本地化问题的适用性,同时保持计算的可处理性。在第5.1节中,我们首先对当前最优秀的经典和基于学习的局部特征检测和描述方法进行了全面评估。我们的目标是解释这些见解如何影响第5.2节中介绍的HF-Net的设计选择。然后,我们在第5.3节中评估了我们挑战大规模本地化基准[44]的方法,并演示了从粗到细的本地化范例的优势。为了解决实时本地化的问题,我们在5.4节中总结了运行时的注意事项。
5.1、局部特征评价
我们通过调查两个数据集HPatches[4]和SfM[38]在不同设置下的局部匹配方法的性能来开始评估,这两个数据集在2D和3D场景的图像对之间提供了密集的地面真相对应。
数据集。HPatches[4]包含116个平面场景,包含照明和视点变化,每个场景5个图像对和地面真值单应项。SfM是[38]建立的数据集,由[19,53]收集的摄影旅游集合组成。地面真实对应是从密集的每幅图像深度图和相对的6自由度姿态中获得的,使用COLMAP[47]计算。我们选择10个序列进行评估,并为每个随机采样50个具有给定最小重叠的图像对。度量尺度不能用SfM重建恢复,但对计算本地化度量是重要的。因此,我们使用在谷歌Maps中测量的度量距离手动标记每个SfM模型。
指标。我们在每个数据集的所有对上计算并聚合由[14]定义的成对指标。对于探测器,我们报告了关键点位置的重复性和定位误差。两者对于视觉定位都很重要,因为它们会影响早期匹配的数量,匹配的可靠性,以及3D模型的质量。我们计算描述符之间的最近邻匹配,并报告平均精度和匹配分数。前者反映了该方法拒绝虚假匹配的能力。后者同时评估检测器和描述符的质量。我们还计算了姿态估计的召回率,无论是HPatches的单应性还是SfM数据集的6自由度姿态,阈值分别为3像素和3米。
方法。我们评估了经典探测器差分高斯(DoG)和哈里斯[17]和描述符RootSIFT[3]。对于基于学习的方法,我们评估了SuperPoint[14]和LFNet[12]的检测和描述符。我们还评估了DOAP[18]的密集版本和NetVLAD[2]的特征映射conv3_3,并对两者使用SuperPoint检测。更多的细节在附录中提供。
检测器。我们在表1中报告了结果。Harris的重复性最高,但定位误差也最高。相反,DoG的可重复性较差,但误差最低,这可能是由于多尺度检测和像素细化。SuperPoint似乎在重复性和错误之间找到了最好的平衡点。
描述符。DOAP在SfM数据集上的所有指标都优于SuperPoint,但不能在HPatches上进行评估,因为它是在这个数据集上训练的。NetVLAD在SfM上表现出较好的位姿估计能力,但匹配精度较差,这在关键点数量有限或重要比例较低(如定位)的情况下是不利的。总的来说,学习功能优于手工制作功能
有趣的是,SuperPoint描述符在从Harris检测中提取时表现不佳,尽管后者也是具有高重复性的角落检测器。这表明学习的描述符可以与相应的检测高度耦合。
LF-Net和SIFT这两种具有亚像素检测和基于补丁描述的多尺度方法,在性能上都被密集描述符(如DOAP和SuperPoint)所超越。因此,经过正确监督训练的简单表示比复杂且计算量大的架构更有效。我们注意到,SuperPoint需要更少的关键点来估计一个合适的姿态,这对运行时敏感的应用程序非常有益。
5.2、实现细节
基于5.1节给出的结果,本节简要介绍了HF-Net的设计和实现。下面,我们将解释我们对蒸馏教师模型、训练数据集的选择以及对基线2D-3D局部匹配的改进。
教师模型。我们在5.3节中评估了DOAP和SuperPoint这两个最好的描述符对本地化的影响。结果表明,后者对昼夜外观变化更稳健,因为它的训练集包括低光数据。我们最终选择它作为HF-Net描述符头的导师教师网络。全局头由NetVLAD监督。
训练数据。在这项工作中,我们的目标是城市环境的白天和夜间条件。为了充分利用学生模型在此数据上的性能,我们选择适合此分布的训练数据。在来自谷歌地标数据集[36]的185k图像上进行训练,其中包含各种各样的白天城市场景,以及来自Berkeley Deep Drive数据集[58]的夜间和黎明序列的37k图像,由具有运动模糊的道路场景组成。我们发现,在训练数据集中包含夜间图像对全局检索头夜间查询的泛化至关重要。例如,只在白天图像上训练的网络很容易混淆夜间黑暗的天空和白天黑暗的树。我们还使用光度数据增强进行训练,但使用在干净图像上预测的目标。
5.3、大规模的本地化
在局部评估的基础上,在[44]引入的三个具有挑战性的大规模基准上评估了分层定位。
数据集。每个数据集由一组参考图像构建的稀疏SfM模型组成。亚琛昼夜数据集[45]包含来自欧洲旧城的4328张日间数据库图像,以及在白天和夜间条件下的824张和98张查询。RobotCar Seasons数据集[30]是一个跨越多个城市街区的长期城市道路数据集。它由20,862幅阴天参考图像和11,934幅查询图像组成,这些图像在太阳、黄昏、夜晚等多种条件下拍摄。最后,在城市和郊区环境中记录了CMU四季数据集[5],覆盖范围为8.5 km。它包含了7159幅参考图像和75335幅查询图像,记录了不同的季节。该数据集的规模明显较低,因为查询是针对每个包含约400张图像的孤立子模型进行本地化的。
大规模模型构建。使用RootSIFT使用COLMAP[47,49]构建的SfM模型由数据集作者提供。然而,这些并不适合使用基于不同特征检测器的方法进行本地化。因此,用SuperPoint和HF-Net检测到的关键点建立新的3D模型。具体过程如下:i)利用特征和初始滤波率检验进行参考帧之间的2D-2D匹配;ii)在COLMAP中利用二视图几何对匹配结果进行进一步筛选;iii)使用提供的地面真实参考姿态对3D点进行三角剖分。这些步骤得到的3D模型与原始模型具有相同的比例和参考框架。
模型质量比较。HF-Net亚琛模型包含更少的3D点(SIFT为685k, SIFT为1899k)和更少的2D关键点(SIFT为2576,SIFT为10230)。然而,原始二维关键点的匹配率更高(33.8% vs SIFT 18.8%),每个三维关键点平均是从更多的参考图像中观测到的。因此,将查询关键点与该模型匹配更有可能成功,表明我们的特征网络产生的3D模型更适合定位。
方法。首先评估了基于NetVLAD[2]和SuperPoint[14]学习到的特征的分层定位。它名为NV+SP,使用了最强大的预测器。然后,通过HF-Net计算全局描述子和局部特征,评估了一种更有效的定位。还考虑了基准作者评估的几个本地化基线。主动搜索(AS)[43]和城市尺度定位(CSL)[51]都是目前精度最高的2D-3D直接匹配方法。DenseVLAD[56]和NetVLAD[2]是图像检索方法,通过检索到的顶部数据库图像的姿态来近似查询的姿态。最近提出的语义匹配一致性(SMC)[55]依赖于语义分割来拒绝异常值。它假设已知的重力方向和相机高度,对于RobotCar数据集,使用地面真实语义标签在评估数据上进行训练。本文提出一种额外的基线NV+SIFT,以RootSIFT作为局部特征进行分层定位,是[42]的MNV+SIFT方法的上界。
结果。本文报告了每个序列在不同位置和方向阈值下的姿态召回率,由基准[44]定义。表3展示了不同方法的定位结果。图4展示了三个最具挑战性的序列的累积图。
用NV+SP进行定位。在Aachen数据集上,NV+SP在日间查询中具有竞争力,在夜间查询中优于所有方法,在白天的性能下降明显小于直接匹配方法,后者受到匹配的模糊性增加的影响。在RobotCar数据集上,它在dusk序列上的表现与其他方法类似,在dusk序列上的精度趋于饱和。在更具挑战性的序列中,图像检索方法往往比直接匹配方法效果更好,但NV+SP在细精度和粗精度方面都远远优于直接匹配方法。在困难的CMU数据集上,与所有基线相比,NV+SP实现了出色的鲁棒性,包括最近的SMC。总的来说,NV+SP在CMU数据集和Aachen和RobotCar数据集的挑战性序列上取得了新的进展。在精细和粗精度体制下的优越性能表明,所提出方法既更精确,又更鲁棒。
与NV+SIFT比较。NV+SIFT的性能始终优于AS和CSL,尽管所有方法都基于相同的RootSIFT特征。这表明,具有粗糙初始先验的分层方法带来了显著的好处,特别是在具有挑战性的条件下,图像范围的信息有助于消除匹配的歧义。因此,它比AS和CSL中使用的复杂的特定领域启发式方法提供了更好的异常值拒绝。NV+SP的优越性突出了SuperPoint等学习特征的简单增益。在最简单的亚琛夜晚(Aachen night)和机器人黄昏(RobotCar dusk)序列上,NV+SIFT在精细阈值方面的表现略优于NV+SP。这可能是由于5.1节中强调的超点关键点的定位精度较低,因为DoG执行的是亚像素细化。
使用HF-Net进行本地化。在大多数序列上,HF-Net的表现与其上界NV+SP类似,平均召回率下降2.6%。我们在图5和附录中显示了定性的结果。在robocar night序列中,HF-Net显著差于NV+SP。我们将这归因于蒸馏的全局描述子在模糊的低质量图像上的性能不佳。这突出了所提出方法的一个明显局限性:在大型的自相似环境中,HF-Net的模型容量成为限制因素。全局检索的完全失败直接转化为层次定位的失败。
消融实验。在表4中,我们评估了分层定位框架中不同预测变量的影响。通过比较NV+SP和NV+HF,我们注意到局部HF- net特征的表现比用于训练它们的SuperPoint模型更好。这证明了多任务蒸馏的好处,其中来自全局教师的监督信号可以改进中间特征并帮助局部描述符。DOAP的定位在夜间明显更差,这可能是由于SuperPoint所基于的复杂的增强方案。最后,将HF-Net与NV+HF-Net进行比较,结果表明,与原始的NetVLAD相比,HF-Net的全局描述子容量有限,限制了性能。
5.4、运行时评估
由于我们提出的定位解决方案是在考虑计算约束的情况下开发的,我们分析了其运行时间,并将其与第5.3节中给出的基线进行比较。这些测试是在配备了英特尔Core i7-7820X CPU (3.60GHz) CPU、32GB RAM和NVIDIA GeForce GTX 1080 GPU的PC上进行的。表5给出了详细的时间。
层次定位。NV+SP和HF-Net的时序表明,所提出的从粗到细的方法可以很好地扩展到大型环境。全局搜索速度很快,只依赖于用于构建模型的图像数量。它成功地减少了潜在的候选对应关系集,并实现了可处理的2D-3D匹配。这在很大程度上取决于SfM模型——共可视性图越密集,每个先验帧检索和匹配的3D点越多,这增加了运行时间。因此,NV+SIFT非常慢,因为它的SfM模型密度更大,尤其是在亚琛(Aachen)上。NV+SP显著改善了它,因为更稀疏的SfM模型产生的3D点更少的聚类。然而,NetVLAD和SuperPoint的推理占其运行时间的75%,因此,如前所述,是瓶颈。HF-Net以7倍的推理速度缓解了这个问题。
现有的方法。表5中没有列出CSL和SMC,因为它们每个查询都需要几十秒,因此比我们最快的方法慢三个数量级。虽然在此基础上有所改进,但仍然较慢,特别是在成功率较低的情况下,例如在RobotCar night。总的来说,基于HFNet的定位系统在大规模环境下可以以20 FPS的速度运行。它比AS快10倍,是为效率而设计的,并且在所有数据集上都更准确。
6、结论
在本文中,我们提出了一种同时具有鲁棒性、准确性和实时运行的视觉定位方法。我们的系统遵循从粗到细的本地化范式。首先,它执行全局图像检索以获得一组数据库图像,随后使用三维SfM模型的共视图将这些图像聚类到位置。然后在候选位置内执行局部2D-3D匹配,以获得摄像机姿态的准确6-DoF估计。
我们的方法的一个版本是基于现有的神经网络图像检索和特征匹配。它在几个大型基准测试(包括昼夜查询和跨天气条件和季节的大量外观变化)上优于最先进的本地化方法。然后,我们通过提出HF-Net来提高它的效率,这是一种新颖的CNN,可以一次性计算关键点以及全局和局部描述符。我们证明了多任务蒸馏的有效性,以一种灵活的方式训练它,同时保持原有的性能。由此产生的定位系统在大规模情况下以超过20 FPS的速度运行,并在具有挑战性的条件下提供无与伦比的鲁棒性。
以上是关于HF-Net:From Coarse to Fine: Robust Hierarchical Localization at Large Scale的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读153Coarse-to-Careful:为开放域常识问答寻求语义相关知识
PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to fin
如何仅通过 ACCESS_COARSE_LOCATION 使用 GeofencingApi
ACCESS_COARSE_LOCATION android 权限问题
ACCESS_COARSE_LOCATION 在 Android 6 上不起作用 [重复]
缺少 FusedLocationProviderClient.getLastLocation 所需的权限:android.permission.ACCESS_COARSE_LOCATION