图像分割和分类哪个吃资源

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图像分割和分类哪个吃资源相关的知识,希望对你有一定的参考价值。

图像分类
图像分类主要是基于图像的内容对图像进行标记,通常会有一组固定的标签,而你的模型必须预测出最适合图像的标签。这个问题对于机器来说相当困难的,因为它看到的只是图像中的一组数字流。
上图片来自于Google Images
而且,世界各地经常会举办多种多样的图像分类比赛。在Kaggle中就可以找到很多这样的竞赛。最著名的比赛之一就是ImageNet挑战赛。ImageNet实际上是一个很神奇的图像库(截止到编辑本文时,其中就约有1400万张图像),拥有超过20000个图像标签。这是由斯坦福大学计算机视觉实验室维护的。ImageNet挑战或大规模视觉识别挑战(LSVRC)都是一个年度竞赛,其中具有诸如目标分类,目标检测和目标定位等各种子挑战。LSVRC,特别是目标分类的挑战,自从2012年,Alex Krizhevsky实施了著名的AlexNet,将图像的错误率降低到15.7%(在当时从未实现),便开始获得了很多关注。而最新的结果显示,微软ResNet的错误率为3.57%,Google的Inception-v3已经达到3.46%,而Inception-v4则又向前进了一步。
来源于Alfredo Canziani,Adam Paszke和Eugenio Culurciello于2017年撰写的文章《实际应用中深度神经网络模型的分析》(https://arxiv.org/pdf/1605.07678.pdf)
2、目标检测
图像中的目标检测涉及识别各种子图像并且围绕每个识别的子图像周围绘制一个边界框。这里有一个例子:
上图片来自于Google Images
与分类相比,这个问题要稍微复杂一点,你必须对图像进行更多的操作和处理。现在最著名检测方法叫做Faster-RCNN。RCNN是局部卷积神经网络,它使用一种称为候选区域生成网络(Region Proposal Network,RPN)的技术,实际上是将图像中需要处理和分类的区域局部化。后来RCNN经过调整效率得以调高,现在称之为faster – RCNN,一种用作候选区域生成方法的一部分用以生成局部的卷积神经网络。目前最新的image-net挑战(LSVRC 2017)有一个目标检测的挑战赛的冠军,被一个名为“BDAT”的团队所囊括,该团队包括来自南京信息工程大学和伦敦帝国理工学院的人员。
3、图像/实例分割
图像分割或实例分割包括对具有现有目标和精确边界的图像进行分割。
图片来自于是Google Images
它使用了一种叫做Mask R-CNN的技术,实际上就是我们前面看到的R-CNN技术上的几个卷积层。微软、Facebook和Mighty AI联合发布了这个称为COCO的数据集。它与ImageNet很相似,但它主要用于分割和检测。
参考技术A 0点赞·1095人阅读
1 神经网络
各种技巧第一次使用

relu Alexnet
dropout Alexnet
重叠的池化 Alexnet
卷积堆叠(5 * 5 = 3 * 3) VGG
第一次使用1 * 1卷积 VGG16(中使用了1 * 1卷积,通道数不变)
加深网络结构可以提升性能 VGG
1 * 1降维 inceptionV1
模型融合 inceptionV1
辅助分类节点:inceptionV1
不在存在5 * 5以上的卷积:inceptionV2
深度可分离卷积:inceptionV2
BN的使用:inceptionV2
不对称卷积:IncentionV3 7 * 1 + 1 * 7
分支后在分支结构:IncentionV3
inception+resnet:inceptionV4
resnet中没有使用dropout
通道注意力:SENet
密集连接:DenseNet
全深度分离网络:MobileNet
通道混乱:ShuttleNet
跳级结构:FCN,3 4 5分别上采样然后融合
输入任意:FCN
空洞卷积:deeplabv1
CRF的引入:deeplabV1
ASPP:deeplabv2
1.1 卷积类型/块
参考来源:https://baijiahao.baidu.com/s?id=1625255860317955368&wfr=spider&for=pc

常规多通道卷积
深度分离卷积(’减少运算量‘)
分组卷积(VGG中使用的分通道的卷积)
Inception Block(特征融合)
膨胀卷积/空洞卷积(deeplab)
空间金字塔特征卷积(deeplabv2)
反卷积:点对应的加到对应的点上
1.2 分类神经网络
1.1.1 Lenet
LeNet5 –没啥特点-不过是第一个CNN应该要知道
1.1.2 AlexNet
relu,dropout,重叠的最大池化(步长少于卷积核),LRN

使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题。但是直到AlexNet的出现才将其发扬光大。
训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合。Dropout虽有单独的论文论述,但是AlexNet将其实用化,通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖。
提出了LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
1.1.3 VGGNet
一个主要结论(网络越深越好)

数据层堆叠,通过2至3个 3 ∗ 3 3 * 3 3∗3卷积层堆叠来形成 5 ∗ 5 5 * 5 5∗5和 7 ∗ 7 7 * 7 7∗7大小的感受野,比1个 7 ∗ 7 7 * 7 7∗7的卷积层拥有更少的参数量,只有后者的 3 ∗ 3 ∗ 3 7 ∗ 7 = 55 \frac3 * 3 * 37 * 7 = 55% 7∗73∗3∗3​=55的参数量,拥有更多的非线性变化,3个卷积层可以进行3次非线性变化,而1个卷积层只能1次.
训练和预测时的技巧,训练时先训练级别A的简单网络,再复用A网络的权重来初始化后面的几个复杂模型,这样训练收敛的速度更快。模型分为五级
训练时VGGNet也使用了多尺度的方法做数据增强.
固定尺寸,即缩放图像最小边S到256或者384,然后裁剪得到输入数据是224 * 224,进行训练。
多尺度,即缩放图像最小边到[256,512]之间,然后裁剪训练,该方法有效的考虑了图像中目标大小的不一致,有利于训练。并且考虑到速度原因,本文在单尺度(S=384)的基础上,进行微调得到多尺度模型。
得出LRN层作用不大,网络结构还是越深越好
使用1 * 1来做线性变换
1.1.4 Googlenet–inceptionV1
模型融合(3卷积一池化) ,1 * 1降维(减少运算量,新训练了一层,添加了非线性变换,增加泛化能力),辅助分类器
原网络模型中224 * 224的输入
- 创新点

将1x1,3x3,5x5的conv和3x3的pooling,堆叠在一起,一方面增加了网络的width,另一方面增加了网络对尺度的适应性。
在Inception v1中 1 ∗ 1 1 * 1 1∗1卷积用于降维,减少模型参数量和feature map维度, 1 ∗ 1 1*1 1∗1卷积特有的功能,由于 1 ∗ 1 1 * 1 1∗1卷积只有一个参数,相当于对原始feature map做了一个scale,并且这个scale还是训练学出来的,无疑会对识别精度有提升
增加了网络的深度
增加了网络的宽度
在Google Inception V1中,采用了辅助分类节点,即将中间某一层的输出用作分类,并按一个较小的权重加到最终的分类结果中,这样相当于做了模型的融合,同时给网络增加了反向传播的梯度信号,提供了额外的正则化的思想.
1.1.5 InceptionV2
BN,深度可分离卷积的第一次使用

5x5 卷积层被替换为两个连续的 3x3 卷积层. 网络的最大深度增加 9 个权重层. 参数量增加了大约 25%,计算量增加了大约 30%,不在拥有 5 * 5大卷积核,多使用了一个激活函数,增加了非线性能力。
28x28(35 * 35) 的 Inception 模块的数量由 2 增加到了 3,整体模块数目由2-5-2——>3-5-2
加入了BN层,减少了Internal Covariate Shift(内部协变量转变), 上一层网络的输出数据经过这一层网络计算后,数据的分布会发生变化,为下一层网络的学习带来困难(神经网络本来就是要学习数据的分布,要是分布一直在变,学习就很难了)
在模块内部,有时使用平均池,有时使用最大池。这在对应于表的池化层的条目中显示
inceptionV2的第一层使用了深度可分离卷积。
1.1.6 IncentionV3
输入大小变为 299 * 299

空间卷积分解为不对称卷积 7 ∗ 7 7 * 7 7∗7 ----- 1 ∗ 7 1 * 7 1∗7, 7 ∗ 1 7 * 1 7∗1
inceptionV3的inception模块共有三种,网络先下降八倍, 35 ∗ 35 35 * 35 35∗35中采用Inceptionv2中模块, 17 ∗ 17 17 * 17 17∗17中采用不对称卷积模块(四个组合)

8 ∗ 8 8 * 8 8∗8 中分支之后分支
网络深度进一步增加,增加了网络的非线性
1.1.7 InceptionV4
将最先进的Inception和Residual结构结合起来同时也提出了我们不含残差结构的inception v4,以求达到性能上的进一步提升
整个结构所使用模块和V3基本一致,不同的是Stem和Reduction-B
stem 299 - 35大小

模块结构
1.1.8 ResNet
参考来源 https://blog.csdn.net/liuxiao214/article/details/79588844

引入了跳跃连接,这可以使上一个残差块的信息流入到下一个残差块,提高了信息流通,并且也避免了由与网络过深所引起的梯度消失问题(解决了连乘的影响)和退化问题
没有使用dropout,利用BN和全局平均池化进行正则化,加快训练速度。
层数较高时减少了3x3卷积核的个数,用1x1卷积核控制3x3卷积的输入输出特征map的数量
两个 3 ∗ 3 3 * 3 3∗3—> 1 ∗ 1 1 * 1 1∗1 + 3 ∗ 3 3 * 3 3∗3 + 1 ∗ 1 1 * 1 1∗1(resnet50及以上)
如果残差映射(F(x))的结果的维度与跳跃连接(x)的维度不同,那是没有办法对它们进行相加操作的,必须对x进行升维操作,维度相同时才能计算。
升维的方法有两种:
全0填充;
采用1 * 1卷积
1.1.9 SENet
关注channel之间的关系,希望模型可以自动学习到不同channel特征的重要程度
Squeeze-and-Excitation (挤压和激励)模块
全局平均池化完成挤压 C ∗ H ∗ W C * H * W C∗H∗W ~~~~ C ∗ 1 ∗ 1 C * 1 * 1 C∗1∗1
之后sigmoid函数对值处理,然后乘到原来的特征图中
可以有效的运用到resnet 和 inception中
1.1.10 DenseNet
它建立的是前面所有层与后面层的密集连接(dense connection)

每个层都会接受其前面所有层作为其额外的输入,每个块之间的输入共通
主体结构为Denseblock + transition
在DenseBlock(每个块)中,各个层的特征图大小一致,可以在channel维度上连接
对于Transition层,它主要是连接两个相邻的DenseBlock,并且降低特征图大小。Transition层包括一个1x1的卷积和2x2的AvgPooling(步长2),结构为BN+ReLU+1x1 Conv+2x2 AvgPooling。
减轻了梯度消失,创建从早期层到后期层的短路径
加强了feature的传递
一定程度上较少了参数数量,网络更窄,在dense block中每个卷积层的输出feature map的数量都很小,而不是像其他网络一样动不动就几百上千的厚度,每一层都直接得到了损失函数和原始输入信号的梯度,这样更深网络不是问题,即只学习非常少的特征图(最极端情况就是每一层只学习一个特征图),DenseNet 的每一层只需学习很少的特征,使得参数量和计算量显著减少
DenseNet泛化性能更强。神经网络每一层提取的特征都相当于对输入数据的一个非线性变换,而随着深度的增加,变换的复杂度也逐渐增加(更多非线性函数的复合)
1.2 轻量化网络
1.2.0 MobileNet
MobileNets不是模型压缩技术!! 只是一种网络设计思想,利用这种方法设计出来的网络存在1)参数少 2) 运算速度快。

采用深度可分离卷积
逐通道卷积----Depthwise Convolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积(常规卷积中是一个卷积核卷积所有通道)
逐点卷积----(1 * 1 卷积)Pointwise Convolution的运算与常规卷积运算非常相似,它的卷积核的尺寸为 1×1×M,M为上一层的通道数。所以这里的卷积运算会将上一步(逐通道卷积)的map在深度方向上进行加权组合,生成新的Feature map。有几个卷积核就有几个输出Feature map
MobileNetV1 中引入的两个超参数
Width Multiplier( α \alpha α): 更薄的模型,所有层的 通道数(channel)乘以 α \alpha α 参数(四舍五入),模型大小近似下降到原来的 α 2 \alpha^2 α2倍,计算量下降到原来的 α 2 \alpha^2 α2倍
Resolution Multiplier( ρ \rho ρ): 分辨率下降,输入层的 分辨率(resolution) 乘以 ρ \rho ρ参数 (四舍五入),等价于所有层的分辨率乘 ρ \rho ρ,模型大小不变,计算量下降到原来的 ρ 2 \rho^2 ρ2.
1.2.1 ShuttleNet
Channel Shuffle for Group Convolutions
分组卷积的改进版本
1.3 分割神经网络
主流分割网络
https://blog.csdn.net/helloworld_fly/article/details/80306117
总体来说,分割的逻辑如下:

必须经历从大到小,再从小到大的两个过程
在升采样过程中,分阶段增大比一步到位效果更好
在升采样的每个阶段,使用降采样对应层的特征进行辅助
1.3.1 FCN------所有的层都是卷积层,故称为全卷积网络
用于语义分割的全卷积网络

FCN与CNN的区别在于FCN把CNN最后的全连接层换成卷积层,输出一张已经label好的图
增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。
结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性
跳级(strip)结构:对第5层的输出执行32倍的反卷积得到原图,得到的结果不是很精确,论文中同时执行了第4层和第3层输出的反卷积操作(分别需要16倍和8倍的上采样),再把这3个反卷积的结果图像融合,提升了结果的精确度:
是可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸。
使用了反卷积.
1.3.2 UNet
特征提取部分,每经过一个池化层就一个尺度,包括原图尺度一共有5个尺度。
上采样部分,每上采样一次,就和特征提取部分对应的通道数相同尺度融合,但是融合之前要将其crop。这里的融合也是拼接。
个人认为改进FCN之处有:
多尺度;
适合超大图像分割,适合医学图像分割,医学图像结构比较单一(所以理论上不需要太多的参数)。比如说细胞,肿瘤这些,都是比较固定的结构,所以很好区分;
concat有助于还原降采样所带来的信息损失。
CRF
https://blog.csdn.net/qq_43258953/article/details/103190412

全连接条件随机场使用二元势函数解释了一个像素与另一个像素之间的关系,给像素关系紧密的两个像素赋予相同的类别标签,而关系相差很大的两个像素会赋予不同的类别标签,这个“关系”的判断与像素的颜色值、像素间的相对距离都有关系。一元势能为概率分布图,即由模型输出的特征图经过softmax函数运算得到的结果;二元势能中的位置信息和颜色信息由原始影像提供。当能量E(x)越小时,预测的类别标签X就越准确,我们通过迭代最小化能量函数,得到最终的后处理结果。

1.3.3 DeepLabv1
参考来源https://www.jianshu.com/p/295dcc4008b4
CRF参考来源https://blog.csdn.net/cicibabe/article/details/71173965
Semantic image segmentation with deep convolutional nets and fully connected CRFs

空洞卷积-----膨胀卷积,用于稠密特征提取和视野增大
加入了CRF,CNN是一个逐步提取特征的部分,原始位置信息会随着网络深度的增加而减少或消失。CRF在传统图像处理上的应用是做一个平滑。CRF简单说,是在决定一个位置的像素值时(paper里是label),会考虑周围像素点的值(label),有利于将相同标记分配给空间上接近的像素。定性的说,这些短程条件随机场主函数会清除构建在局部手动特征上层弱分类器的错误预测。但是通过CNN得到的概率图在一定程度上已经足够平滑,所以短程的CRF没有太大的意义。于是考虑使用Fully connected CRF,综合考虑全局信息,恢复详细的局部结构,如精确图形的轮廓。CRF几乎可以用于所有的分割任务中图像精度的提高。
CRF是后处理,是不参与训练的,在测试时对特征提取后得到的得分图进行双线性插值,恢复到原图尺寸,然后再进行CRF处理,因为缩小8倍的,所以直接放大到原图是可以接受的。如果是32倍,则需要上采样(反卷积)
结构为VGG + 微调
问题
全连接条件随机场-----将每一个像素点,对其他所有像素点都构成一个边缘,达到稠密的全连接模型,此时面临的一个问题就是图像像素数目非常大,会有上万个点和数十亿的边,其计算复杂度导致模型几乎无法实施。

1.3.4 DeepLabv2
参考来源 https://blog.csdn.net/XZZPPP/article/details/51377731

相关SPP简介:空间金字塔池化,在一般的CNN结构中,在卷积层后面通常连接着全连接。而全连接层的特征数是固定的,所以在网络输入的时候,会固定输入的大小(fixed-size)。但在现实中,我们的输入的图像尺寸总是不能满足输入时要求的大小。然而通常的手法就是裁剪(crop)和拉伸(warp)。不管输入尺寸是怎样,SPP 可以产生相同大小长度的表示特征的输出,多尺度特征提取出固定大小的特征向量,图像特征提取为向量特征,使用多个窗口,当我们输入一张图片的时候,我们利用不同大小的刻度,对一张图片进行了划分。上面示意图中,利用了三种不同大小的刻度( 4 ∗ 4 4 * 4 4∗4, 2 ∗ 2 2 * 2 2∗2, 1 ∗ 1 1 * 1 1∗1),对一张输入的图片进行了划分,最后总共可以得到16+4+1=21个块,我们即将从这21个块中,每个块提取出一个特征,这样刚好就是我们要提取的21维特征向量。第一张图片, 我们把一张完整的图片,分成了16个块,也就是每个块的大小就是(w/4,h/4); 第二张图片,划分了4个块,每个块的大小就是(w/2,h/2);第三张图片,把一整张图片作为了一个块,也就是块的大小为(w,h)。空间金字塔最大池化的过程,其实就是从这21个图片块中,分别计算每个块的最大值,从而得到一个输出神经元 ( 21 ∗ 1 21 * 1 21∗1)。最后把一张任意大小的图片转换成了一个固定大小的21维特征(当然你可以设计其它维数的输出,增加金字塔的层数,或者改变划分网格的大小)。上面的三种不同刻度的划分,每一种刻度我们称之为:金字塔的一层,每一个图片块大小我们称之为:窗口大小了。如果你希望,金字塔的某一层输出n * n个特征,那么你就要用windows size大小为:(w/n,h/n)进行池化了。
- SPP 可以使用同一图像不同尺寸(scale)作为输入, 得到同样长度的池化特征。

DeeplabV2的特点
实际使用的是带孔空间金字塔池化 ,并行的采用多个采样率的空洞卷积提取特征,再将特征融合,类似于空间金字塔结构
空洞卷积
DeepLabV2使用ResNet和VGGNet进行实验
CRF来进行精细化处理
1.3.5 DeeplabV3
设计了串行和并行的带孔卷积模块
ASPP的改进:在最后多了个1 ∗ 1卷积和全局平均池化,concat后1 * 1卷积到输出
网络变得更深,对原来的resnet进行改进,又堆叠了三个block在block4后面,分别为block5,6,7,同时调整采样率,原始的有五次下采样,修改后只进行四次下采样,block4后就不会进行下采样了。
1是串行的空洞卷积,2是并行的空洞卷积,1和2两种方法的结构合并并不会带来提升,相比较来说,ASPP的纵式结构要好一点。所以deeplab v3一般也是指aspp的结构,也就是2这种结构
1.3.6 deeplabv3+
原DeepLabv3当作encoder,添加decoder得到新的模型(DeepLabv3+)

金字塔池化(SPP)能编码多尺度上下文信息,编码解码结构能够通过逐渐恢复空间信息来捕获清晰的边缘细节信息。作者提出一种模型,能够结合这两种结构的优势。作者提出的DeepLabV3+模型,通过在DeepLabV3基础上扩展一个解码模块来优化目标边缘细节信息。即原DeepLabv3当作encoder,添加decoder得到新的模型(DeepLabv3+)。
引入深度可分离网络,因为它能够保持性能的同时大大减少计算量,所有的max pooling结构被stride = 2的深度可分离卷积代替。
Encoder就是原来的DeepLabv3,注意点有2点:
输入尺寸与输出尺寸比,最后一个stage的膨胀率rate为2
ASPP有四个不同的rate,额外一个全局平均池化
Decoder
明显看到先把encoder的结果上采样4倍,然后与resnet中下采样前的Conv2特征concat一起,再进行3x3的卷积,最后上采样4倍得到最终结果
需要注意点:融合低层次信息前,先进行1x1的卷积,目的是降通道(例如有512个通道,而encoder结果只有256个通道)
每个3x3的depthwise convolution都跟BN和Relu
如有错误欢迎联系,文中内容均在参考原文以及他人分享后所作

神经网络
深度学习
生肖牛,37岁之后贵人缠身,特别强调1985年的,不要钱!
麦玲玲-仅供娱乐
广告

图像分类、目标检测、语义分割、实例分割、全景分割
331阅读·0评论·1点赞
2022年10月6日
图像分割与分类
22下载·6评论
2012年3月24日
图像分类、目标检测、图像分割区别
3.4W阅读·3评论·9点赞
2018年4月13日
全卷积网络(FCN)与图像分割
15.8W阅读·21评论·98点赞
2016年5月14日
计算机视觉领域不同的方向:目标识别、目标检测、语义分割等
1.0W阅读·0评论·9点赞
2017年12月29日
18. 图像分类、分割
2958阅读·0评论·4点赞
2019年12月3日
你命中有没有二婚之兆?命中注定要离婚吗?

音动-仅供娱乐
广告
图像分类,目标检测,语义分割,实例分割,全景分割联系与区别
3889阅读·0评论·13点赞
2020年10月22日
图像分类、目标检测、图像分割----简介
1343阅读·0评论·0点赞
2021年11月25日
什么是语义分割、实例分割、全景分割?
663阅读·0评论·4点赞
2021年2月3日
【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别
1.1W阅读·0评论·11点赞
2018年10月9日
图像分割的方法
1.0W阅读·2评论·7点赞
2021年10月22日
一文讲清图像分类,目标检测,语义分割,实例分割,全景分割。
957阅读·0评论·2点赞
2020年7月27日
(一)图像分割方法的分类
1.9W阅读·0评论·6点赞
2017年7月24日
图像分类,物体检测,语义分割,实例分割等概念
1.0W阅读·0评论·1点赞
2017年12月2日
详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割...
4.8W阅读·1评论·63点赞
2018年4月19日
图像分类,物体检测,语义分割,实例分割的联系和区别
1.4W阅读·3评论·16点赞
2016年10月27日
深度学习 --- CNN的变体在图像分类、图像检测、目标跟踪、语义分割和实例分割的简介(附论文链接)
1.1W阅读·0评论·8点赞
2018年12月7日
参考技术B 图像分割和分类哪个吃资源?图像分类吃资源。图像分割:应用于像素级分类,softmax应用于特征通道方向,上采样后对每个像素进行像素级的分类,常用FCN等 zhege_Deep Learning... 参考技术C 分割吧,分类就那样,没啥好做的。分割可以从两个方面入手,比如你有一个好的项目,拿模型去解决这个项目的问题,得到一个好的结果。或者是是从算法层面,做一些模型设计的改进,提升精度或者效率。 参考技术D 图像分割和分类哪个吃资源如果输入图像中有两个相同类别的对象,则分割图本身并不一定将它们区分为单独的对象.存在另外一类不同的模型,称为实例,总而言之当然是分类吃资源。

分类目标检测语义分割实例分割的区别

计算机视觉的任务很多,有图像分类、目标检测、语义分割、实例分割和全景分割等,那它们的区别是什么呢?

1、Image Classification(图像分类)

图像分类(下图左)就是对图像判断出所属的分类,比如在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片输出图片里含有哪些分类,比如下图的例子是含有person、sheep和dog三种。

技术图片

2、Object detection(目标检测)

目标检测(上图右)简单来说就是图片里面有什么?分别在哪里?(把它们用矩形框框住)

目前常用的目标检测算法有Faster R-CNN和基于YOLO的目标检测的算法

 

3、semantic segmentation(语义分割)

通常意义上的目标分割指的就是语义分割

语义分割(下图左)就是需要区分到图中每一点像素点,而不仅仅是矩形框框住了。但是同一物体的不同实例不需要单独分割出来。对下图左,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。

技术图片

4、Instance segmentation(实例分割)

实例分割(上图右)其实就是目标检测语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体(羊1,羊2,羊3...)

目前常用的实例分割算法是Mask R-CNN

Mask R-CNN 通过向 Faster R-CNN 添加一个分支来进行像素级分割,该分支输出一个二进制掩码,该掩码表示给定像素是否为目标对象的一部分:该分支是基于卷积神经网络特征映射的全卷积网络。将给定的卷积神经网络特征映射作为输入,输出为一个矩阵,其中像素属于该对象的所有位置用 1 表示,其他位置则用 0 表示,这就是二进制掩码。

一旦生成这些掩码, Mask R-CNN 将 RoIAlign 与来自 Faster R-CNN 的分类和边界框相结合,以便进行精确的分割:

 

5、Panoramic segmentation(全景分割)

全景分割语义分割实例分割的结合。跟实例分割不同的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的所有物体包括背景都要进行检测和分割。

 

以上是关于图像分割和分类哪个吃资源的主要内容,如果未能解决你的问题,请参考以下文章

基于深度学习的图像语义分割方法综述

《基于深度学习的图像语义分割方法综述》阅读理解

分类目标检测语义分割实例分割的区别

使用深度 CNN 和完全连接的分类器转换分割掩码 numpy 数组以进行图像分割

计算机视觉图像分类目标检测人脸比对人脸识别语义分割实例分割图像搜索

2.3全卷积网络(FCN)与图像分割