《HR-Depth:High Resolution Self-Supervised Monocular Depth Estimation》论文笔记
Posted m_buddy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《HR-Depth:High Resolution Self-Supervised Monocular Depth Estimation》论文笔记相关的知识,希望对你有一定的参考价值。
参考代码:HR-Depth
1. 概述
介绍:这篇文章研究的是如何在自监督场景下预测得到细节更加丰富的深度结果,在现有的自监督深度估计网络中往往是通过增大输入图像尺寸、3D卷积(如,PackNet-SFM)或是分辨率通道编码(如,nn.PixelShuffle())的方式。这篇文章比较系统探究了自监督深度估计中影响深度估计效果的原因,在文章中将其归纳为两点原因:语义信息与空间信息的不足,它俩分别侧重描述的是物体的类别与边界。对此文章提出了两点改进的点:
1)对原本shortcut连接进行优化,获取更好的高分辨率特征;
2)使用新的特征融合算子(fSE,fusion Squeeze- and-Excitation);
在上述内容中已经提到了导致自监督深度估计网络在一些物体边界上深度预测出错的问题是由于Semantic和Spatial两个维度的不足,对此文章给出两点策略进行解决:
- 1)Semantic维度,这部分判别的是物体深度信息。对原本U型网络结构组成的深度编解码网络中的shortcut进行改进,从而提升高分辨率特征的表达能力;
- 2)Spatial维度,这部判别的是物体的轮廓信息。为了能够有效提取轮廓与语义信息文章设计了fSE模块用于特征融合;
从下图的对比中可以看到文章的算法在深度图中细节表现能力更佳:
在之前的工作中是通过增加网络输入图像分辨率的形式增加对于图像中细节/边界的预测能力的,按照分析也确实能够极大提升网络预测深度图的表达能力的。对此文章在MonoDepth2的基础上进行了实验,输入不同分辨率的图像作为输入,得到的性能结果见下表所示:
在上面的表中可以看到在MonoDpth2中单纯增加输入图像分辨率是不能带来性能指标的较大提升的。对此文章进行分析,其最大的问题是来自于双线性采样带来的错误无法被网络很好的修补。对于低分辨率到高分辨率的预测错误误差分析可见下图:
在上图中中间一行代表的是深度边界变化比较剧烈的case,可以看到经过低分辩到高分辨率的上采样之后,其结果存在了较大偏差,因而问题的关键便是怎么去弥补这部分偏差。
2. 方法设计
文章的整体pipeline见下图所示:
shortcut改进:
在上图中可以看到相比之前标准的U型shortcut结构,文章的shortcut网络结构更加复杂,可参见上图3中的网络结构示意图 。
Attention模块:
除了上述提到更多的残差连接的形式优化语义特征逼到,文章还通过channel-wise的attention操作去获得更好特征融合效果,其实现可以参考:
# layers.py#L302
class fSEModule(nn.Module):
...
这两部分改进对整体网络性能的影响见下表所示:
3. 实验结果
KITTI数据集:
以上是关于《HR-Depth:High Resolution Self-Supervised Monocular Depth Estimation》论文笔记的主要内容,如果未能解决你的问题,请参考以下文章
Deep High-Resolution Representation Learning for Human Pose Estimation
R语言ggplot2可视化保存高分辨率的图片(high resolution)实战
PX4模块设计之十二:High Resolution Timer设计
《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记
论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration
《Robust High-Resolution Video Matting with Temporal Guidance》论文笔记