弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记

Posted 乄洛尘

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记相关的知识,希望对你有一定的参考价值。

弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记


写在前面

  这是一篇基于 Box 的弱监督实例分割文章,之前也分享过几篇(主页有,欢迎关注一下呗~),采用旧纸堆里面翻出来的能量函数来做弱监督。

一、Abstract

  本文提出一种 single-shot 的基于 box 监督的实例分割方法,致力于整合传统的能量函数模型以及深度神经网络。具体来说,以一种端到端的方式,通过一个连续的 Chan-Vese 能量函数来迭代地学习一系列层级(mask?):采用 SLOLv2 来自适应地预测实例感知的 mask 作为每一个实例层级。所有的输入图像及提取的特征都用来进化层级曲线,其中一个 box 投影函数用来获得初始的边界。通过最小化可微分的能量函数,每个实例的层级在其对应的 box 标注框内被迭代地优化,实验结果很牛皮。

二、引言

  第一段实例分割的目的,应用,之前方法对于标注的依赖。
  第二段介绍现有的基于 Box 的方法,基于伪标签的以及颜色相似度的,即 BBTP 和 Boxinst。本文指出这两种方法过于简化了一个假设:像素或者颜色对被强制共享相同的颜色,于是来自相似形状目标和背景的噪声上下文无可避免地会影响训练,使得性能不太好。
  本文提出一种 single-shot 的基于 box 监督的实例分割方法来解决这些问题,致力于整合传统的能量集合模型以及深度神经网络。以一种端到端的方式在标注的 Bounding box 内,从隐藏的曲线卷积中来迭代地学习一系列层级(mask?)。
  具体来说,引入一种传统 Chan-Vese 能量函数,并采用 SOLOv2来预测实例感知的mask 图来作为每个实例的层级。除输入的特征图外,还采用了一种长范围依赖的深度结构特征来稳定地进化层级曲线,得以向目标边界逼近。通过最小化可微分的能量函数,每个实例的层级在其对应的 box 标注框内被迭代地优化,实验结果很牛皮。

贡献如下:

  • 第一个提出一种基于层级进化的方法用在基于 box 的弱监督实例分割上;
  • 将深度结构特征并入低层级的图像,在 bounding box 区域内实现稳定的层级进化,其中一个 box 的投影函数用于层级初始化。
  • 在 COCO、PASCAL VOC、遥感数据集 iSAID 和医疗数据集 LiTS上效果很好。

三、相关工作

3.1 基于 Box 的实例分割

  讲一下最近的方法,指出 BBTP 和 Boxinst,这两种方法过于简化了一个假设:像素或者颜色对被强制共享相同的颜色,因此来自相似形状目标和背景的噪声上下文无可避免地会影响训练,使得性能不太好。除了这两个外,最近的 BBAM 和 DIscoBox 关注于代理 mask 标签的生成,需要多个阶段的训练或者多个网络结构。而本文提出的基于层级方法以一种端到端的隐含方式通过优化 box 区域内的能量函数来迭代地对齐实例边界。

3.2 基于层级的分割

  主要划分为两类:基于区域和边缘的方法。核心理念是在一个高维度通过一个能量函数来展现隐藏的曲线,而这能够用梯度下降来优化。接下来是一些举例,指出他们的不足:全监督方式训练网络去预测不同的子区域并得到目标的边界,而本文提出的是 box 级别的监督。

四、提出的方法

  一些符号:输入的图像 I i m g I_img Iimg,高层深度特征 I f e a t I_feat Ifeat,初始层级 ϕ 0 \\phi_0 ϕ0

4.1 图像分割中的层级模型

  对层级方法的回顾:将图像分割视为一种连续的能量最小化问题。
  Mumford-Shah 层级模型:给定一图像 I I I,找到一组参数化的轮廓 C C C,将图像层级 Ω ∈ R 2 \\Omega\\in\\mathbbR^2 ΩR2 划分为 N N N 个不联通的区域 Ω 1 , ⋯   , Ω N \\Omega_1, \\cdots, \\Omega_N Ω1,,ΩN。Mumford-Shah 能量函数 F M S \\mathcal F^MS FMS 定义如下:
F M S ( u 1 , ⋯   , u N , Ω 1 , ⋯   , Ω N ) = ∑ i = 1 N ( ∫ Ω i ( I − u i ) 2 d x d y + μ ∫ Ω i ∣ ∇ u i ∣ 2 d x d y + γ ∣ C i ∣ ) , \\mathcal F^MS(u_1,\\cdots,u_N,\\Omega_1,\\cdots,\\Omega_N)=\\sum\\limits_i=1^N(\\int\\limits_\\Omega_i(I-u_i)^2dxdy+\\mu\\int\\limits_\\Omega_i|\\nabla u_i|^2dxdy+\\gamma|C_i|), FMS(u1,,uN,Ω1,,ΩN)=i=1N(Ωi(Iui)2dxdy+μΩi∣∇ui2dxdy+γCi),其中 u i u_i ui 为接近于输入 I I I 的光滑分段函数,目的是确保每个区域 Ω i \\Omega_i Ωi 内的光滑。 μ \\mu μ γ \\gamma γ 为加权系数。
  之后 Chan 和 Vese 简化了这一能量函数:
F CV ( ϕ , x , c 2 ) = ∫ Q ∣ I ( x , y ) − c 1 ∣ 2 H ( ϕ ( x , y ) ) d x d y + ∫ Q ∣ I ( x , y ) − c 2 ∣ 2 ( 1 − H ( ϕ ( x , y ) ) ) d x d y + γ ∫ Q ∣ ∇ H ( ϕ ( x , y ) ) ∣ d x d y \\beginaligned\\mathcalF^\\textCV(\\phi,x,c_2)&=\\int\\limits_Q\\left|I(x,y)-c_1\\right|^2H(\\phi(x,y))dxdy\\\\ &+\\int\\limits_Q\\left|I(x,y)-c_2\\right|^2(1-H(\\phi(x,y)))dxdy+\\gamma\\int\\limits_Q\\left|\\nabla H(\\phi(x,y))\\right|dxdy\\endaligned FCV(ϕ,x,c2)=QI(x,y)c12H(ϕ(x,y))dxdy+QI(x,y)c22(1H(ϕ(x,y)))dxdy+γQH(ϕ(x,y))dxdy其中 H H H 为 Heaviside 海塞函数, ϕ ( x , y ) \\phi(x,y) ϕ(x,y) 为层级函数,如果为 0 则表示轮廓 C = ( x , y ) : ϕ ( x , y ) = 0 C=\\(x,y):\\phi(x,y)=0\\ C=(x,y):ϕ(x,y)=0 将图像空间 Ω \\Omega Ω 划为两个不连通区域,内部轮廓为 C  ⁣ : Ω 1 = ( x , y ) : ϕ ( x , y ) > 0 C\\colon\\Omega_1=\\(x,y):\\phi(x,y)>0\\ C:Ω1=(x,y):ϕ(x,y)>0,外部轮廓为 C  ⁣ : Ω 2 = ( x , y ) : ϕ ( x , y ) < 0 C\\colon\\Omega_2=\\(x,y):\\phi(x,y)<0\\ C:Ω2=(x,y):ϕ(x,y)<0。上式右边一二项倾向于拟合数据,第三项用一个非负系数 γ \\gamma γ 归一化 0 0 0 层级轮廓。 c 1 c_1 c1 c 2 c_2 c2 分别为 C C C 内部和 C C C 外部的输入 I ( x , y ) I(x,y) I(x,y) 的均值。
  于是通过 c 1 c_1 c1 c 2 c_2 c2​<

基于深度学习的图像语义分割方法综述

技术图片
近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分基于区域分类的图像语义分割方法基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势. 
技术图片
技术图片
其中,文中提出:CNN RNN GAN 三者是并列的。
技术图片
ISSbRC 方法取得了一定的分割效果,但也存在图像分割精度不高和分割速度不够快等问题,因此,一些研究者提出直接在像素级别上进行图像语义分割,产生了基于像素分类的图像语义分割方法。从时间上来看bPC比bRC要晚。

ISSbPC 方法利用DNN 从带有大量标注的图像数据中提取出图像特征和语义信息,再根据这些信息来学习、推理原始图像中像
素的类别,通过端到端训练的方式对每个像素进行分类,以像素分类的方式达到语义分割的目标.这是下一步研究方向。

技术图片

ENet 在执行分割任务时采用分解滤波器策略,使用低阶近似(low-rank approximation)将卷积操作分解为更简单的操作,在保证分割精度的同时,显著降低了计算量,是一种可完成像素标注、场景解析等任务的实时分割网络.ENet 中编码部分的网络比解码部分复杂很多,是一种不对称的编码器-解码器结构。这个重点关注。

关注以下两个数据集:
Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)
.KITTI 是目前国际上用于自动驾驶场景检测的最大评测数据集,主要用于评测车载环境下路面分割、目标检测、目标跟踪等技术.KITTI 数据集包含市区、乡村和高速公路等真实场景图像,每张图像中含有不同程度的遮挡现象. 
Cityscapes Dataset(简称 Cityscapes)Cityscapes 主要提供无人驾驶环境下的图像分割数据,用于评估算法在城区场景语义理解方面的性能.Cityscapes 包含 50 个城市不同环境、不同背景、不同季节的街道场景,提供 5 000 张精细标注的图片、20 000 张粗略标注的图片和 30 种标注物体. 

小结:由天空分割项目驱动,开始enet系列的研究。






附件列表

     

    以上是关于弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记的主要内容,如果未能解决你的问题,请参考以下文章

    AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升...

    AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升...

    论文解读 用于弱监督表面缺陷分割的缺陷注意模板循环对抗网络 (Defect attention template generation cycleGAN for weakly supervised)

    论文笔记图像分割和图像配准联合学习模型——DeepAtlas

    基于深度学习的图像语义分割方法综述

    《基于深度学习的图像语义分割方法综述》阅读理解