[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing

Posted 明天去哪

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing相关的知识,希望对你有一定的参考价值。

Abstract

清华大学和一些企业合作的文章,发表于ICCV 2017.文章主要

目前,大多数的图片解析模型都将所有尺寸和位置的信息同等对待,而没有考虑汽车捕获的城市场景图片的几何属性. 因此,由于摄像头的透视投影,会导致存在不同的物体尺寸,并且不可避免地造成场景解析和识别错误.

本方法在Cityscapes和Camvid上达到了SOTA.

本文的主要贡献:(1)提出透视评估网络来学习城市街景图片中的全局透视几何信息(2)提出考虑透视的解析网络进行城市街景中差异化尺寸问题的解决方法(3)提出考虑透视的CRFs模型来减少大尺寸物体存在的“分解”问题.

Movitation


在摄像头下近的物体拍出来比较大,远的物体拍出来比较小,然而在现实中可能是同样大小的物体.通常的分割方法,由于忽略了这种信息,常常导致将一个大的物体分解,同时小的物体边界也容易产生错误. 因此考虑提出FoveaNet结合这种信息.

Frame


主要想法是预测一张图片中的透视几何,然后对不同尺寸的信息进行不同的解析,而不是统一解析.

  1. 考虑透视的评估网络
    主要是更好的解析消失点附近的小尺寸物体聚集区域.这里提出Perspective Estimation Network(PEN)如下:

    使用Deeplabv2-ResNet101的基本架构,然后res5不进行downsampling,最终得出的结果是原图的1/16.
    这里图片的ground truth如下:

    其中n表示第n张图,m是图中的实例,表示像素,l(m)表示实例m的类别,AveSize(l(m)),表示实例m在类别等级的平均大小.
    最终形成的heatmap图如下:

  2. 考虑透视的CRF
    主要是解决大尺寸物体的“分解”问题.
    CRF这一部分有空进行一下总结.

Result

在Cityscapes的图片训练中,将图片randomly crop为896x896.


在两个数据集上的性能并不是特别高,并没有PSPNet, Tusimple等高.

Code

None

以上是关于[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing的主要内容,如果未能解决你的问题,请参考以下文章

旋转 persp3d 绘图并将图像另存为 png

persp3d 绘图的格式

Ortho 和 Persp 正在反转 Z 深度符号?

R语言使用persp函数绘制三维图像实战(3D):自定义3D图图像旋转添加轴标签

数据可视化——三维

Unity基础知识