内容感知非监督深度单应估计

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了内容感知非监督深度单应估计相关的知识,希望对你有一定的参考价值。

参考技术A

单应性估计是许多应用中的基本图像对齐方法。它通常通过提取和匹配稀疏特征点来进行,这些特征点在低光和低纹理图像中容易出错。另一方面,以前的深度单应性方法要么使用合成图像进行监督学习,要么使用航拍图像进行无监督学习,都忽略了在现实世界应用中处理深度差异和移动物体的重要性。为了克服这些问题,在这项工作中,我们提出了一种具有新架构设计的无监督深度单应性方法。本着传统方法中 RANSAC 程序的精神,我们专门学习了一个异常值掩码,以仅选择可靠的区域进行单应性估计。我们根据学习到的深度特征计算损失,而不是像以前那样直接比较图像内容。为了实现无监督训练,我们还为我们的网络制定了一个新的三元组损失。我们通过对新数据集进行全面比较来验证我们的方法,该数据集涵盖了任务难度不同的广泛场景。实验结果表明,我们的方法优于最先进的方法,包括深度解决方案和基于特征的解决方案。

估计单应性可以对齐从不同角度拍摄的图像。但需要一个前提条件,那就是图像是经历旋转运动或是近似平面的。对于满足这种约束的情况,单应性可以直接用来对齐。对于不满足这种情况的场景,估计单应性也是使用更高级模型的前提,用于初始对齐。因此,单应性的估计至关重要。

作者比较了两种估计单应性的方法:

为了解决上述的问题,作者提出一种内容意识学习的新架构,构建无监督单应性估计解决方案。这种方法适用于基线较小的情况,适用于连续帧、连拍图像或双摄相机拍摄的照片。

作者的主要贡献为:

传统的单应性估计 :单应矩阵为一个 的8自由度的矩阵构成,为了解决单应性,传统方法利用特征提取和检测匹配图像。例如SIFT、SURF等等,然后采用鲁棒估计如RANSAC、MAGSAC等,用于模型估计期间的异常值拒绝。

深单应性 :随着光流等各种深度图像对齐方法的成功, 密集匹配 ,学习描述符和深层特征,一个深度单应性解决方案首先在2016年提出。网络以源图像和目标图像为输入,产生源图像的4个角位移向量,从而产生单应性。它使用 GT 单应性来监督训练。然而,生成具有 GT 单应性的训练图像时没有深度差异。

图像拼接 :图像拼接方法是专注于在大基线下拼接图像的传统方法为了构建全景图。拼接的图像通常以巨大的视点差异捕获。在这项工作中,我们专注于具有小基线的图像,以用于多帧应用程序。

作者的方法基于卷积神经网络。需要两个灰度图 和 作为输入,估计从 到 的单应性 ,整个结构可以被分为三个部分:特征提取 、掩码预测 和单应估计 , 和 是纯卷积神经网络,可以接收任意大小的图像, 使用ResNet-34作为backbone并且生成8个值。

不像之前提到的DNN的方法直接使用像素强度作为特征,作者提出的方法自动从输入图像中学习鲁棒的特征对齐,最终建立一个全卷积神经网络,输入图像大小为 ,产生一个大小为 的特征图。对于输入图像 和 ,提取到的特征分别为:

在非平面区域,特别是包括移动物体的情况下,不存在一个单应性可以将两张图片对齐。借助RANSAC的思想,作者构建一个子网络学习内点的位置。具体而言,利用子网络 生成内部概率图或掩码,突出显示对单应性估计贡献很大的特征图中的内容。掩码 和 的大小与特征图大小相同。有了掩码之后,在将数据喂到单应矩阵估计前可以对特征提取后的特征进行加权。,获得带权重的特征图:

有了带权重的特征图 和 ,可以构建一个 的特征图 ,喂到单应估计中,输出4个2为偏置(8个值)作为输出,以此估计单应性。用 表示这一过程,即

为ResNet-34结构,输出大小固定为8.

单应矩阵 估计之后,将 扭曲为 ,得到特征图 ,如果单应矩阵估计正确,那么 和 应该对齐,误差 会尽可能小,考虑到实际情况,单应矩阵不可能完全将两幅图像对齐,采用 和 对齐图像。

下标 表示掩码和特征图中的像素位置。

直接最小化(4)会使得 和 都为0,不能真实反映原始图像的对齐关系,定义另一种损失函数

最小化(4)的同时最大化(5),可以避免全零解。

在实际中,作者还产生了 到 的另一个单应矩阵 ,还使用了(4)式得到计算 到 的损失函数 ,将 和 互为逆作为约束条件,因此最终的损失函数变为:

在实验中,作者将 和 分别设为2.0和0.01,结果如下图所示。

作者提出了一种新架构,用于具有内容感知能力的无监督深度单应性估计,适用于小型基线场景。与严重依赖图像特征质量而容易受到低纹理和低光场景影响的传统特征基方法或以前不太关注深度视差问题的基于 DNN 的解决方案不同,本文提出的网络学习了一个内容感知掩码在估计期间拒绝异常值,以便网络可以专注于可以通过单应性对齐的区域。为了实现它,我们设计了一种新颖的三元组损失来实现对我们网络的无监督训练。此外,我们提供了一个用于图像对齐的综合数据集。数据集分为5类场景,可用于未来图像对齐模型的研究,包括但不限于单应性、网格对齐和光流。大量的实验和消融研究证明了我们的网络以及三重损失设计的有效性,并揭示了我们的方法相对于最先进技术的优越性。

标签估计(监督学习)

【中文标题】标签估计(监督学习)【英文标题】:Tag Estimation (Supervised Learning) 【发布时间】:2017-06-15 02:17:42 【问题描述】:

我有几千个样本,这些样本已经被标记为“A”或“Not A”。每个样本都分配了 [0-n] 个类别。

我想要实现的是找出哪些类别适合将新样本标记为“A”或“Not A”。

我的方法是将样本分成两组,一组包含所有标记为“A”的样本,一组包含所有“非 A”。

现在我正在创建一个包含所有不同类别的集合,并计算每个类别在“A”集合和“非 A”集合中出现的频率。

然后我根据每个类别的两组中的出现次数(“Not A”中的#occurrences /(“A”中的#occurrences +“Not A”中的#occurrences))计算错误率。然后将它们按升序排序(根据错误率)。

所以现在的挑战是找出哪些类别适合将样本标记为“A”。

----------------------------------------------------
| Category | error ratio | #occ "A" | #occ "Not A" |
--------------------------------------------------
| V        | 0           | 2        | 0            |
----------------------------------------------------
| W        | 0           | 59       | 0            |
----------------------------------------------------
| X        | 0,138       | 125      | 20           |
----------------------------------------------------
| Y        | 0,901       | 9        | 82           |
----------------------------------------------------
| Z        | 1           | 1        | 0            |
----------------------------------------------------

因此,首先我需要确定需要多少次观察才能进一步处理我的类别。在显示的表中,V 和 Z 可能不是很好选择的类别,因为出现的次数太少。但是有没有一种统计方法来决定哪些类别应该被丢弃?

之后,我需要选择我的决策边界在哪里。 我正在考虑创建所有可能的类别组合,然后测量准确度并选择准确度高于约 95% 的最大集合。

在第一步中,我只会使用 V 来决定样本是“A”还是“Not A”。然后 W, ... V, W, V, X, ... V, W, X, ... V, W, X, Y, Z。这似乎是 (2^n - 1) 的复杂度。

由于我有数千个类别,这是不可能的。 有没有可以用于此目的的优化算法?

【问题讨论】:

您可以按错误率 O(nlogn) 从小到大对类别进行排序。然后,根据前 k 个类别的 occ "A" 和 occ "Not A" 的累积计数 O(n),根据累积错误率选择前 k 个类别。此外,您可以通过在#occ "A" 和#occ "Not A" 中添加一些常量来考虑“优先”,以便可以以某种方式过滤错误率较低的类别。 【参考方案1】:

您可能不必发明自行车。

您可以以二进制方式对数据进行编码,如下所示:

A  V  W  X  Y  Z
1  1  1  0  0  1
0  0  1  1  0  0
1  0  1  1  1  0 
...

此后,您可以将数据提供给任何分类算法,例如朴素贝叶斯、逻辑回归、决策树分类器、SVM 等。

【讨论】:

以上是关于内容感知非监督深度单应估计的主要内容,如果未能解决你的问题,请参考以下文章

IDA-3D 解读基于实例深度感知的自动驾驶立体视觉三维目标检测

IDA-3D 解读基于实例深度感知的自动驾驶立体视觉三维目标检测

[算法整理]可能是最全的无监督/自监督单目深度估计方法汇总 - Part1:视频序列篇

radar毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合RPN融合弱监督融合决策融合深度估计跟踪)

radar毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合RPN融合弱监督融合决策融合深度估计跟踪)

TensorFlow实战-TensorFlow实现自编码器及多层感知机-第4章