Mask R-CNN为什么“家喻户晓”

Posted 2021-12-28 浩瀚之水_csdn

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Mask R-CNN为什么“家喻户晓”相关的知识，希望对你有一定的参考价值。

目标检测和语义分割技术通过强大的目标检测框架和语义分割框架取得显著进步，这些方法提供了灵活性、鲁棒性，快速的训练。

对象分割要求正确检测图像中所有目标的同时精确地分割每个实例。因此，结合对象检测的经典计算机视觉任务的元素，其中的目标是分类单个对象和使用边界框定位每个对象和语义分割，目标是将每个像素分类为一组固定的类别，不区分对象实例。何恺明团队证明了这一点一个非常简单、灵活和快速的系统Mask R-CNN可以超越它先前最先进的实例分割结果。

该方法，称为Mask R-CNN。

文章传送门：https://arxiv.org/abs/1703.06870

“家喻户晓”的Mask R-CNN是图像分割领域中非常经典的实例分割（Instance segmentation）算法。Mask R-CNN不仅在实例分割任务中表现优异，还是一个非常灵活的框架，可以通过增加不同的分支完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种不同的任务。

Mask R-CNN扩展了Faster R-CNN通过添加一个分支来预测分割掩码在每个感兴趣区域(RoI)上，与现有分支并行进行分类和边界框回归。

Mask R-CNN

本质上，Mask R-CNN是一种直观的延伸Faster R-CNN，但构建掩模分支正确是取得好结果的关键。最重要的是，更快的RCNN不是为网络输入和输出之间的像素对像素对齐而设计的。这一点在RoIPool是处理实例的实际核心操作，它如何执行粗空间量化特征提取。为了解决这个问题，我们提出了一个简单的，无量化的层，叫做RoIAlign忠实地保留精确的空间位置。

尽管看似很小的变化，RoIAlign却有很大的影响：

提高掩模精度10%到50%，显示在更严格的标准下获得更大的收益。有必要解耦掩码和类预测，为每个类单独预测一个二进制掩码，而不依赖于网络的投资回报率分类分支预测类别。

基本结构——two-state结构：一阶段网络找出RPN；对RPN找到的每个RoI进行分类、定位、并找到binary mask。Mask Representation：结构中没有采用全连接层，而使用了RoIAlign，并是在一个小feature map上做分割。RoIAlign：为从RPN网络确定的ROI中导出较小的特征图。RPN网络会提出若干RoI的坐标，然后输入RoI Pooling，输出供分类和定位使用的特征图。

效果：Mask RCNN的分割效果好于FCIS，尤其在目标重合的部分。

Mask RCNN精度高于Faster RCNN。Mask RCNN的分割任务得分与定位任务得分相近。

Mask R-CNN预测效果：

文章传送门：https://arxiv.org/abs/1703.06870

以上是关于Mask R-CNN为什么“家喻户晓”的主要内容，如果未能解决你的问题，请参考以下文章