Non-planar Infrared-Visible Registration for Uncalibrated Stereo Pairs简介

Posted 2020-12-29 majiale

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Non-planar Infrared-Visible Registration for Uncalibrated Stereo Pairs简介相关的知识，希望对你有一定的参考价值。

摘要　　

　　对于非平面场景可见光-红外视频配准是视觉监控的一个新领域。它使用两种光谱信息的结合来更好的行人检测和分割。这里，提出一个新的用于非平面场景的可见光和红外配准的在线框架，这个框架包括前景分割、特征匹配、修正和差异计算。提出的方法基于稀疏轮廓点相关性。这个框架的关键想法是在视频的开始移除错误的区域和用于非平面场景的配准方法。

1. 介绍

　　红外和可见光(TIR-Vis)视频内容配准问题是计算机视觉的一个基本问题。配准的基本想法是找到视频帧对的相关性让场景和目标在一个共同的坐标系统中表示。一些人用密集特征匹配来获得高质量的配准，而另一些人用共同显著性特征的稀疏相关性来快速配准。尽管这些系统有许多贡献，但是仍然有许多缺点需要解决。这里主要解决了三个主要的缺点。

　　首先，密集相关性方法用基于区域的衡量标准来匹配相关性对于视频来说太慢。因此，这有个轻量级的快速配准过程。此外，当处理非平面场景(例如，场景中的目标出现在不同的深度)时，这些方法所需要的修整视频不好获得。一些人提出了他们自己的数据集，连同通过标定获得的修整后视频作为输入。这些工作不能适应于不同相机获得的原生视频输入。此外，在视频应用中，配准的质量较低。这里为了快速配准解决了稀疏特征相关性问题。

　　第二，现有的稀疏相关性方法只能处理平面场景。它们的框架假设所有获取的场景都近似平面。因此，这个假设限制它们只能应用于平面场景。

　　第三，因为大多数稀疏方法依赖于暴力匹配策略，它们的计算复杂性相当高。因此不适合移动或者分布式视频监控应用。

　　当前存在的这些用于稀疏配准的框架的典型结构包含3个主要的步骤，分别是特征提取、特征匹配和图像变换。在特征提取和匹配过程中，通过多模态图像之间的稀疏相关性来利用传统特征描述子。其它技术也提出了更有意义的特征。然而，这些技术并不总是成功的，因为TIR-Vis图像对的纹理和分辨率不同。在图像变换步骤，假设所有捕获的场景近似平面，应用单应性变换来最大化目标之间覆盖区域。应该注意，没有现有框架用非修正的视频作为TIR-Vis非平面场景配准输入。这里解决了TIR-Vis视频中平面和非平面场景配准问题中现有系统中的缺点。

　　Main contribution. 这里提出了4个重要的贡献。首先，提出了一个新的用原生输入视频稀疏相关性来对齐TIR-Vis blob的方法来处理非平面场景。实验结果表明提出的框架在平面场景也取得了最先进的效果。

　　第二，提出一个分割噪音滤波策略来消除先前处理阶段假的blob，这减少了之后不必要的计算。

　　第三，引出一个相关blob保存算法来近似每帧中blob之间的相关性，没有使用暴力方法。

　　第四，创建了一个带有原生输入视频用于TIR-Vis配准的公共数据集。

2. 相关工作

　　为了从TIR-Vis视频获得特征，有些用边缘图和轮廓信息。也有用骨架轮廓作为特征来估计单应配准变换。此外，也有利用blob跟踪来找到相关性的。以上方法仅仅在特殊情况下好用。更具体的说它们的准确率主要依靠获取视频的质量。尽管骨架和边缘信息对于通用估计是方便的，但是它们不能给出准确的相关特征来匹配，因为它们粗略的将目标表示为简单的多边形。

　　提出在处理前进行前景分割的想法是为了增加找到目标特征的准确率。然而，这种方法简单地利用形状轮廓和分别处理帧。因此，帧之间几乎没有连接信息。结果是，分割步骤的噪声在配准系统准确率方面有很大的影响。为了决定一个特征匹配好不好，一个空间相关性缓冲被使用。使用了几种缓冲填充策略，如first-in，first-out(FIFO)，或RANSAC。尽管如此，这些方法只试用于平面场景，因为它们假设所有的输入都是平面。现在依旧没有方法来解决非平面、非修正视频配准问题。

　　因为最近所有稀疏相关性方法都用于平面视频，所以对于所有帧仅用一个转换矩阵。这个方法不适用于每个目标有自己差异(在不同深度的平面)的非平面场景。3.3节提出的框架解决了这个限制。这里将每个目标处理为独立的blob，以至于一帧图像使用许多转换矩阵。

　　St-Charles等人的工作最接近这里的工作。他们用PAWCS分割来提取TIR-Vis视频的前景。轮廓提取和形状上下文匹配一起用于获得blob之间的相关性。此外，他们也创建了一个带有投票方案的随机采样缓冲区来过滤内点和异常值。然而，他们的设计用于平面场景的配准，而这里用于处理非平面场景，所以更通用。这里建立在他们的工作优点之上，提出了：(1)在早期处理阶段一个新的分割噪声滤波方法，(2)一个快速blob匹配策略，(3)一个关键点匹配策略通过避免彻底搜索来加速框架，(4)一个视频修正和差异计算方法来配准非平面场景。

　　这个框架是第一个提出来用稀疏相关性来配准非平面TIR-Vis视频。

3. 框架结构

　　整体框架如图1所示。考虑所有的输入帧对都不在一个平面场景。因此，每个目标都有自己的差异。对于帧对，使用PAWCS方法来分割，那使用统计模型来执行背景减法。然而，由此产生的前景分割仍然有噪声并且不适合下面的blob匹配步骤。为了滤除噪声，提出一个基于粗略图像变换的新方法来移除假的blob。变换后的blob如果在对应的图像中没有相关对应就会被移除，3.1节会解释。

　　这个新的干净的前景分割用于特征匹配。从目标blob提取轮廓并且应用形状上下文匹配获得每对帧之间的相关性。此外，应用RANSAC算法来滤除异常点为了增加目标blob之间的转换准确性。

　　然后，修正输入视频帧来减少搜索空间从2D到1D的差异。3.3节会描述配准非平面场景方法。用从先前阶段获得的相关blob对来计算每帧中每个目标的差异。基于这些差异，在每个目标中应用转换，并且修正视频来得到和原始输入一样格式的输出。

3.1 分割和噪声滤波

　　使用基于一个使用颜色、二元特征和一个自动反馈机制的统计模型的背景减法，来从背景中分割前景blob。使用的是PAWCS方法。由此产生的分割包含源于背景假的blob。消除这些假blob使得框架更加鲁棒。正如图2所展示的，从PAWCS返回的原始分割，可以计算出一个粗略的转换来估计整个场景的单应性。然后使用这个转换重叠帧对。移除转换后帧对中没有覆盖的blob。

　　算法1描述了细节。$B‘‘^{(F_{i})}$表示第$i$个帧对中其它帧中所有blob，$n$和$m^{(F_{i})}$分别是帧数和blob数。由于每个相机的位置，有些情况在一个帧对的其它帧中没有相关对应(单应性不能完美解释非平面场景)。通过应用一个投票策略替代计算一个广泛场景单应性来处理这个情况。为每个blob计算一个粗略的转换矩阵$M(B_{k}^{(F_{i})})$，并且每个矩阵为整个场景转换投票。通过提取$F_{i}$帧中每个blob$B_{k}^{(F_{i})}$的轮廓和通用形状来计算$M(B_{k}^{(F_{i})})$。从这些形状，基于点匹配策略为每一个blob计算最佳匹配，3.2节会有描述。因为这是一个在早期阶段消除噪音的粗配准，所以只要计算单应转换来替代计算每个blob的差异来减少计算损失。基于获得的相关性列表，如果一个blob在其它模态中没有相关性，它将不会参与投票。然后，对于当前帧对的最终的粗略转换$M_{F_{i}}$是所有投票blob的平均转换。

最终，使用这个场景转换来验证每个针对之间blob之间的覆盖率。将Blob从原始尺寸扩展120%来决定是否与其它帧中的任何blob有重叠。有相关重叠blob的blob保留，其它的移除。使用红外视频对可见光视频中的blob滤波，反之亦然。

3.2 特征匹配

　　在TIR-Vis配准中，追踪blob来找到相关性是许多挑战之一。确实，相关特征应该仅仅在相关blob中被发现。St-Chartles等人用一个暴力的方法找到每对帧中的特征相关性。在它们的方法中，使用形状上下文描述符来提取和描述轮廓点。使用$Χ^{2}$来计算相似性分数并找到匹配。对于每一次迭代，为了验证blob特征之间的最佳转换，使用Thin Plate Spine(TPS)模型。这里继承了这个策略的优点来找到相关性。关键的不同是没有彻底地考虑所有可能的特征匹配并且分别处理帧。因此，提出了给一个新方法来快速地计算相关性。主要想法是保留先前帧对的相关性，并且将它们应用到新的帧。

3.3 非平面配准

　　这里用于非平面配准的框架包括三步。框架的图解如图4所示。框架的通用公式是：

$D=H_{1}*T*H_{2}^{-1}$　　(1)

　　这里$D$是配准非平面目标的矩阵，$T$是当前帧每个blob的差异转换，$H_{1}$和$H_{2}$是分别将原生视频转换成修正后的输入和输出视视频的修正矩阵。

以上是关于Non-planar Infrared-Visible Registration for Uncalibrated Stereo Pairs简介的主要内容，如果未能解决你的问题，请参考以下文章