用于语义分割的分层多尺度注意力

Posted 2023-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了用于语义分割的分层多尺度注意力相关的知识，希望对你有一定的参考价值。

参考技术A https://arxiv.org/abs/2005.10821

https://github.com/NVIDIA/semantic-segmentation

1.5k星

21 May 2020

最近开源了： https://paperswithcode.com/paper/hierarchical-multi-scale-attention-for#code

摘要：多尺度推理常用于改善语义分割结果。将图像缩放到多个不同尺度，再输入给同一个网络，再将结果取平均或最大池化。本文提出一个基于注意力的方法来组合多尺度预测。我们表明，某些尺度下的预测更能处理特定的故障情况，而网络学会了在这种特定情况下更倾向于这些尺度，以便输出更好的结果。我们的注意力机制是分层的，这使得它的内存效率比其他最近的方法快4倍。这样除了能够训练地更快以外，还能让我们使用更大的裁剪尺寸训练，从而使得模型准确度更高。我们在Cityscapes和Mapillary Vistas两个数据集上验证我们的方法。对于具有大量弱标注图像的Cityscapes数据集，我们还利用自动标注改进泛化能力。我们的方法在Cityscapes数据集（85.1 IOU test）和Mapillary Vistas数据集（61.1 IOU val）上都取得最先进水平。

关键词：语义分割、注意力、自动标注

1.引言

语义分割的任务是给图像中所有像素打上多个类别中的一个的标签。该任务有个折中，就是某些情况下的预测在低分辨率下推理得更好，而另一些情况下的预测在高分辨率下推理得更好。在放大的图像尺寸下，精细的细节，例如物体边缘或者细长的结构，会推理得更好。同时，缩小的图像尺寸下，对需要更多的全局上下文信息的大物体会推理得更好，因为网络的感受野可以观察到更多的必要的上下文信息。我们将后一种问题称为类别混淆(class confusion)。两种情况的例子如图1所示。

多尺度推理是这一问题的常见解决办法。图像缩放到多个不同尺度，再输入给同一个网络，再将结果取平均或最大池化。取平均来组合多个尺度的预测通常可提高结果，但存在将最佳预测和最差预测结合的问题。煮个栗子，对于某像素，最佳预测来自2×尺度，其0.5×尺度的预测要差很多，取平均的话会将这两者结合起来，得到一个次优的输出。另一方面，最大池化是选择该像素在多个尺度预测中的一个，而最优结果可能是多个尺度预测的加权组合。

为了解决这个问题，我们提出一种使用注意力机制来将某像素的多个尺度预测结合在一起的办法，类似于Chen[1]。我们提出一种层次化的注意力机制，学习预测相邻尺度之间的关系权重，由于它是层次化的，所以我们只需要增加一个额外的尺度的训练pipeline，而其它的方法，例如[1]，则需要在训练阶段显示地增加每一个额外的推理尺度。例如，当多尺度推理为0.5，1.0，2.0时，其它的注意力方法要求网络在所有这些尺度上训练，导致额外的倍的训练成本。我们的方法只需要再增加0.5×尺度的训练，导致增加倍的训练成本。此外，我们提出的层次化机制还可使推理时具有选择额外的尺度的灵活性，而以往的方法在推理的时候只能使用训练时候的尺度。为了在Cityscapes上取得最先进水平，我们还使用了一种对粗标注图像的自动标注策略，以增加数据集中的方差，以提高泛化能力。我们的自标注方法是受一些最近的工作的启发，包括[2,3,4]。和典型的软标签不同，我们使用硬标注，这样标签存储内存就更小，可以降低磁盘IO成本，提高训练速度。

1.1 贡献

一种高效地层次化注意力机制，使网络可以学习如何最好地组合多个尺度的推理，能解决类别混淆和细节的问题。

一种基于硬-阈值的自动标注策略，利用未标记图像来提升IOU。

在Cityscapes数据集（85.1 IOU test）和Mapillary Vistas数据集（61.1 IOU val）上取得最先进水平。

2 相关工作

多尺度上下文最先进的语义分割网络使用低输出步长的主干网络，这可以更好地分割细节，但是感受野也较小。小的感受野会导致网络难以预测大物体。金字塔池化可通过组合多个尺度的上下文来解决感受野较小的问题。PSPNet[5]使用一个空间金字塔池化模块，使用主干网络的最后一层的特征，用一些列卷积和池化来组合多个尺度的特征。DeepLab[6]使用Atrous Spatial Pyramid Pooling(ASPP)，用不同扩张率的扩张卷积，以建立比PSPNet更加稠密的特征。最近ZigZagNet[7]和ACNet[8]使用中间层特征，而不仅仅是最后层特征，来创建多尺度上下文。

关系上下文实际上金字塔池化关注的是固定的方形上下文区域，因为池化和扩张通常都是对称的。此外这些方法是固定的，不是可学习的。关系上下文通过关注像素之间的关系来构建上下文，而不是固定的方向区域。关系上下文的可学习特性使得上下文的构建可基于图像的各个分区。该方法能够对非正方形的物体区域构建更合适的上下文，例如长火车和细高的灯柱。OCRNet[9]、DANET[10]、CFNet[11]、OCNet[12]和其他相关工作[13,14,15,16,17,18,19,20]利用这些关系来构建更好的上下文。

多尺度推理一些关系上下文和多尺度上下文方法都使用了多尺度推理来达到最好的结果，例如[21,22,23,9]。多尺度推理有两种常见方法：取平均和最大池化，取平均要更常见些。然而，取平均对不同尺度的输出是等权重的，这样的结果可能是次优的。为了解决这个问题，[1,24]使用注意力组合多个尺度。[1]使用网络的最后层特征来训练一个建模各个尺度间关系的注意力头。[24]组合不同层的特征来构建更好的上下文信息。然而，这两种方法有共同的确定，网络和注意力头是用一组固定尺度训练的，推理时只能使用这些尺度，否则网络要重新训练。我们提出一种层次化的注意力机制，它对推理时用多少个尺度是无关的。我们方法不仅比取平均的性能更好，而且，更进一步地，我们的方法可用于可视化、诊断不同尺度分别对不同物体类别和场景的重要性。此外，我们的方法和其它的注意力方法和金字塔池化方法是正交的，例如[22,25,26,9,27,10,28]，因为这些方法使用单个尺度，并使用注意力来更好地组合不同层级的特征，以生成高分辨率的预测。

自动标注很多在Cityscapes上的语义分割工作都使用了大约2w张的粗标注图像以达到最先进水平[12,29]。然而，由于标签是粗标注的，图像中相当一部分是未标记的。为了在Cityscapes上取得最先进水平，我们提出一种自动标注策略，我们的灵感是来自于NoisyStudent[2]，以及其他语义分割半监督自训练方法[30,31,32,33,34]，以及其他基于伪标注方法[4,35,36,3]。我们为Cityscapes的粗标注图像生成稠密标注。我们生成的标签只有很少的未标注区域，这样我们就能够充分利用粗标注数据的全部图像内容。

虽然大多数图像分类的自标注方法使用软标签，但为了提高存储效率和训练速度，我们用的是被阈值过的硬标签。软标签在语义分割中是指，教师网络为图像的每个像素上都提供分别属于每个类别的概率。而硬标签是用阈值从各个类别的概率中选出最大的。类似于[37,4]，我们为Cityscapes粗标注图像生成稠密的硬标签。图4是一些例子。不同于NoisyStudent[2]，我们对生成的伪标签不做迭代的调精。相反，我们使用默认的粗标注数据和精细标注数据，对教师模型进行一次完整的训练。在联合训练之后，对粗标注图像进行自动标注，在将这些自动标注数据替换我们教师模型用的粗标注数据，以获得最好的测试结果。使用我们的伪硬标注和层次化注意力，我们能获得在Cityscapes上的最先进水平。

3.层次多尺度注意力

我们的注意机制在概念上与[1]（Attention to scale）非常相似，在[1]中，在每个尺度下都学习，得到dense mask，并通过在对mask执行像素级乘法，然后在不同尺度之间进行像素级求和，来组合这些多尺度预测，以获得最终结果，见图2。我们称陈的方法为显式方法。使用我们的分层方法，我们学习相邻尺度之间的相对注意mask，而不是学习每个尺度的所有注意mask。在训练网络时，我们只使用相邻的尺度对(adjacent scale pairs)进行训练。如图2所示，给定一组来自单个（较低）尺度的图像特征，我们预测两个图像尺度之间的像素级的密集的相对注意力权重(dense pixel-wise the relative attention)。实际上，为了获得一对缩放图像，我们获取一个输入图像并将其缩小2倍，这样我们就剩下1倍缩放输入和0.5倍缩放输入，尽管可以选择任何缩小比率。需要注意的是，网络输入本身是原始训练图像的重新缩放版本(re-scaled version)，因为我们在训练时使用图像缩放增强。这允许网络学习预测一个范围内(a range of)的图像尺度的相对注意力。在进行推理时，我们可以分层地应用所学的注意力，将N个预测尺度组合在一起，形成一个计算链，如图所示，并由下面的等式描述。我们优先考虑较低的尺度，并努力向更高的尺度发展，我们的想法是，它们有更多的全局上下文，可以选择哪些区域是需要通过更高尺度的预测来refine的。

更正式地，在训练期间，给定的输入图像缩放因子，r=0.5表示下采样两倍，r=2.0表示上采样2倍，r=1表示不进行操作。对于我们的训练，我们选择r=0.5和r=1.0。然后，r=1和r=0.5的两个图像通过一个共同的网络块(the shared network trunk)，该网络块输出各个尺度下的semantic logits 和注意力掩码，该掩码用来组合不同尺度下的logits 。因此，如果训练和推理都使用2个尺度的话，令表示双线性上采样，∗ 和+分别为逐像素乘法和加法，公式可形式化为：

使用我们提出的方法有两个优势：

•    在推理时，我们现在可以灵活地选择不同的尺度，因此，通过我们提出的分层式注意力机制链，对于在0.5x和1.0x尺度下训练的模型，我们在推理时可以添加新的尺度例如如0.25x或2.0x。这不同于先前提出的方法，先前的方法训练时使用哪些尺度，在推理时就得用哪些尺度。

•    与显式方法相比，这种层次结构使我们能够提高训练效率。使用显式方法，如果使用0.5、1.0、2.0尺度，相对于单量表训练，训练成本为0.5^2+1.0^2+2.0^2=5.25。采用我们的分层方法，训练成本仅为0.5^2+1.02=1.25。

3.1    架构

主干：对于本节中的消融研究，我们使用ResNet-50[38]（配置为输出步幅8）作为我们网络的trunk。为了获得最先进的结果，我们使用了更大、功能更强大的主干HRNet OCR[9]。

语义头：语义预测由一个专用的全卷积头执行，该卷积头包括（3x3 conv）→ （BN）→ （ReLU）→ （3x3卷积）→ （BN）→ （ReLU）→ （1x1 conv）。最后的卷积输出num_classes个通道。

注意头:

注意力预测是使用一个单独的头部来完成的，该头部在结构上与语义头部相同，除了最终的卷积输出，它输出一个通道。当使用ResNet-50作为主干时，语义头和注意头会收到ResNet-50最后阶段的特征。当使用HRNet OCR时，语义和注意头会收到OCR块中的特征。使用HRNet OCR的时候，还存在一个辅助语义头，在OCR之前直接从HRNet主干获取其特征。该头部包括（1x1 conv）→ （BN）→ （ReLU）→ （1x1 conv）。在将注意力应用于语义logits之后，使用双线性上采样将预测上采样到目标图像大小。

3.2    分析

为了评估我们的多尺度注意力方法的有效性，我们使用DeepLab V3+架构和ResNet50主干训练网络。在表1中，我们表明，与基线平均法（49.4）或显式法（51.4）相比，我们的分层注意法具有更好的准确性（51.6）。我们还观察到，当添加0.25倍尺度时，我们的方法的结果明显更好。与显式方法不同，当使用额外的0.25倍尺度时，我们的方法不需要重新训练网络。这种推理时的灵活性是我们方法的一个主要优点。我们可以训练一次，但可以灵活地用不同的尺度进行评估。

此外，我们还观察到，对于基线平均多尺度方法，简单地添加0.25倍尺度对精度有害，因为它会导致IOU减少0.7，而对于我们的方法，添加额外的0.25倍尺度会将精度再提高0.6个IOU。使用基线平均法，0.25倍的预测是如此粗糙，以至于当与到其他尺度平均时，我们观察到诸如车道标记、人洞、电话亭、路灯、交通灯和交通标志（前后）、自行车架等类别下降1.5 IOU。预测的粗糙度损害了边缘和细节。然而，在我们提出的注意方法中，添加0.25倍的比例将我们的结果提高了0.6，因为我们的网络能够以最合适的方式应用0.25倍的预测，避免在边缘使用它。这方面的例子可以在图3中观察到，其中对于左侧图像中的fine posts，0.5x预测很少关注posts，但2.0x尺度中存在非常强的注意信号。相反，对于右侧非常大的区域，注意机制学习到最大程度地利用较低的尺度（0.5倍），很少利用错误的2.0倍预测。

3.2.1单尺度与双尺度特征

虽然我们确定的架构只从两个相邻图像尺度中较低的一个尺度的特征输入给注意力头（见图2），但我们也尝试用两个相邻尺度的特征训练注意力头。我们没有观察到准确度上的显著差异，所以我们选择了单个尺度的特征。

4.Cityscapes上的自动标注

受最近的在图像分类上任务上的自动标注工作[2,39]的启发，我们在Cityscapes数据集上使用自动标注来提升有效数据集的大小和标注的质量。Cityscapes有2w张粗标注图像和3500张精细标注图像。粗标注图像的标注非常一般，有大量像素是无标签的，如图4所示。通过我们的自动标注方法，我们可以提高标签质量，这反过来又有助于提升模型的IOU。

图像分类中常用的是软标签，或者称为连续标签。在语义分割中，软标签是为每一像素标上所属各个类别的概率，这样很占磁盘空间，训练速度会很慢，标签会占大约3.2TB的磁盘：20000×2048×1024×19×4B=3.2TB。训练期间读取这些标签会大大降低训练速度。

因此，我们用硬标签，即对每个像素，选择教师网络输出的最大类别概率。我们对教师网络输出的概率标签进行阈值化。超过阈值的概率视为标签，否则该像素被视为忽略类。实践中，我们使用0.9的阈值。

5    结果

5.1    实施协议

在本节中，我们将详细描述我们的实现协议。

训练详情

我们的模型在Nvidia DGX服务器上使用Pyrotch[40]进行训练，每个节点包含8个GPU，具有混合精度、分布式数据并行训练和同步批处理规范化。我们的优化器使用随机梯度下降（SGD），每GPU的批量大小为1，动量为0.9，重量衰减为5e−4.在训练中。我们采用“多项式”学习率策略[41]。在默认设置下，我们使用RMI[42]作为主要损失函数，并使用交叉熵作为辅助损失函数。对于城市景观，我们使用2.0的多指数，初始学习率为0.01，并在2个DGX节点上训练175个历元。对于Mapillary，我们使用1.0的多边形指数、0.02的初始学习率，并在4个DGX节点上训练200个历元。如[29]中所述，我们在数据加载器中使用类均匀采样，从每个类中平均采样，这有助于在数据分布不均匀时改进结果。

数据增强：

在训练过程中，我们对输入图像采用高斯模糊、颜色增强、随机水平翻转和随机缩放（0.5x-2.0x）来增强数据集。城市景观的裁剪尺寸为2048x1024，Mapillary Vistas为1856x1024。

5.1.1城市景观结果

Cityscapes[43]是一个大型数据集，在5000幅高分辨率图像上标记了19个语义类。对于城市景观，我们使用HRNet OCR作为主干，并提出了多尺度注意方法。我们使用RMI作为主分割头的损失，但对于辅助分割头，我们使用交叉熵，因为我们发现使用RMI损失会导致深入训练的训练精度降低。我们的最佳效果是首先在较大的Mapillary Vistas数据集上进行预训练，然后在城市景观上进行训练。对于Mapillary预训练任务，我们不会使用注意力机制进行训练。除了自动标记的粗略图像外，我们还使用train+val图像实现了最先进的城市景观配方。我们从train+val集合中用50%的概率采样，另外我们从自动标记的图像池中采样。在推断时，我们使用scales=0.5,1.0,2.0和图像翻转。

我们对城市景观验证集进行了消融研究，如表2所示。多尺度注意力产生的IOU比基线HRNet OCR架构平均池高0.5%。自动标签比基线提高了1.1%的IOU。将这两种技术结合在一起可获得1.4%IOU的总增益。

最后，在表3中，我们展示了我们的方法与Cityscapes测试集中其他性能最好的方法相比的结果。我们的方法得分为85.1，这是所有方法中报告的最佳城市景观测试分数，比之前的最佳分数高0.6 IOU。此外，我们的方法在除三个类别外的所有类别中都拥有最高的每班分数。图5显示了一些结果。

5.1.2    Mapillary Vistas远景的结果

Mapillary Vistas[45]是一个大型数据集，包含25000个高分辨率图像，注释为66个对象类别。对于Mapillary，我们使用HRNet OCR作为主干，并提出了多尺度注意方法。因为Mapillary Vistas图像可以具有非常高且不同的分辨率，所以我们调整图像的大小，使长边为2177，如[23]中所述。我们使用在ImageNet分类上训练的HRNet的权重初始化模型的HRNet部分。由于Mapillary中66个类需要更大的内存，我们将裁剪大小减少到1856 x 1024。在表4中，我们展示了我们的方法在Mapillary验证集上的结果。我们单个模型达到61.1，比下一个最接近的方法Panopoptic Deeplab[23]高2.4，后者使用模型集成实现58.7。

6    结论

在这项工作中，我们提出了一种分层的多尺度注意语义分割方法。我们的方法在提高分割精度的同时，也提高了内存和计算效率，这两者都是实际问题。训练效率限制了研究的速度，而GPU内存效率限制了裁剪网络的训练尺度，这也限制了网络的准确性。我们的经验表明，使用我们提出的方法可以持续改善城市景观和Mapillary Vistas。

致谢：我们要感谢Sanja Fidler、Kevin Shih、Tommi Koivisto和Timo Roman的有益讨论。

MR 图像分割相关论文摘要整理

《多分辨率水平集算法的乳腺MR图像分割》

针对乳腺 MR 图像信息量大、灰度不均匀、边界模糊、难分割的特点, 提出一种多分辨率水平集乳腺 MR图像分割算法. 算法的核心是首先利用小波多尺度分解对图像进行多尺度空间分析, 得到粗尺度图像; 然后对粗尺度图像利用改进 CV 模型进行分割. 为了去除乳腺 MR 图像中灰度偏移场对分割效果的影响, 算法中引入局部拟合项, 并用核函数进一步改进 CV模型, 进而对粗尺度分割效果进行优化处理. 仿真和临床数据分割结果表明, 所提算法分割灰度不均匀图像具有较高的分割精度和鲁棒性, 能够有效的实现乳腺 MR 图像的分割。

《三维肝脏MR图像分割技术研究》

医学影像学发展至今，已经广泛地应用于临床医学的各个相关邻域。利用合适的图像处理算法对医学图像进行相应的处理，能够对基于医学图像的诊断以及其他研究工作提供更加有效、便捷的信息，医学图像的分割在医学图像处理中占据着重要的位置。从医学影像中可通过分割算法提取出感兴趣区域并予以单独显示，能够更加直观地提供病变或正常组织结构信息，并且分割的结果可以应用在为一定目的而进行的后续处理当中，比如图像配准、目标组织的定量测量等。磁共振成像技术在当前医学研究与临床诊疗中发挥着愈加重要的作用，与其他成像方式相比，MRI对软组织和内脏的成像能力高，能够非常清晰的显示人体组织解剖结构，并具有多参数（T1、T2等）、多方位成像的优点。MR图像的成像效果很好地区分了各个组织，在此基础上可以对感兴趣区域进行更为直观地分割。近年来国民肝部病变的多发使得基于腹部扫描图像的肝脏分割成为亟待解决的问题，然而人体腹部包含大量脏器及软组织，结构复杂，并且脏器与软组织之间的粘连导致成像结果中存在浸润现象，从而形成大量弱边缘和伪边缘，这使得面向内脏的分割非常困难。再加上磁共振成像过程较为复杂，成像效果存在一定的不确定性，不同的组织器官之间广泛存在的差异性，准确地从腹部MR扫描图像中提取出肝脏具有重要的理论意义以及应用价值。本文系统的分析了当前应用于医学图像分割的多种算法，对它们的优劣势以及应用范围进行了比较和总结。根据腹部图像的特点选取水平集算法对肝脏进行提取，详细描述了水平集算法的原理、特征，以及发展至今研究人员对其进行的各种改进和应用。由于人体结构的复杂性和个体之间的差异性，图像分割算法发展至今仍然没有一种单一的方法对人体各个部位达到有效的分割，当前主要的研究方向是综合多种算法的优点，结合目标分割区域的形态特征进行混合分割。本文课题就是在此前提下分析考量了多种算法并研究了人体肝脏的形态特征和成像特点之后，选用阈值分割算法与水平集结合的方式，并加入一些其他的算法进行辅助分割，较好的实现了三维腹部图像肝脏的提取工作。本文主要研究工作如下：一、首先将从医学影像设备中获取的序列切片图像根据扫描间隔和切片层厚进行堆叠，为使其更加接近真实人体数据在切片间进行插值，为保证数据的真实性插值的数据尽量减小。二、对插值后的体数据进行降噪滤波，由于水平集算法对图像边界信息敏感，要尽量保持图像中的边缘，采用高斯滤波或各向异性扩散滤波均可达到良好的效果。三、使用阈值分割与水平集结合对肝脏进行提取，并在此步骤中加入非线性映射，在增强图像的同时产生良好的速度图像，使得分割结果中的演化溢出现象得以避免。四、结合可视化工具包VTK使用光线投射算法对分割结果以及中间步骤各个算法的处理效果进行三维重建。实验结果表明本课题所选用的算法结合方式获得了较为理想的分割效果，很好的将水平集算法应用到了三维肝脏的分割工作当中，有效的避免了水平集算法在弱边缘处泄露的问题，为针对肝脏的后续研究提供了基础。

《结合非局部均值的快速FCM算法分割MR图像研究》

针对FCM算法分割医学MR图像存在的运算速度慢、对初始值敏感以及难以处理MR图像中固有Rician噪声等缺陷,提出了一种结合非局部均值的快速FCM算法。该算法的核心是首先针对MR图像中存在的Rician噪声,利用非局部均值算法对图像进行去噪处理,消除噪声对分割结果的影响；然后根据所提出的新的自动获取聚类中心的规则得到初始聚类中心；最后将得到的聚类中心作为快速FCM算法的初始聚类中心用于去噪后的图像分割,解决了随机选择初始聚类中心造成的搜索速度慢和容易陷入局部极值的问题。实验表明,该算法能够快速有效地分割图像,并且具有较好的抗噪能力。

《MR图像中的肝脏分割和肿瘤提取》

磁共振MR(Magnetic Resonance)图像是公认的确认肝脏有无肿瘤等器质性病变的金标准检查方法,其中涉及肝脏的分割以及肿瘤的提取.由于脏器组织浸润和个体差异,在解决肝脏分割和肿瘤提取方面还没有通用的数字图像处理方法.在现有研究的基础上,以迭代四叉树(IQD)自动分割算法和基于灰度的分割方法,实现MR图像中肝脏的自动分割和肿瘤的提取.实验结果表明,这一套方法的可行性和优势.

《基于图划分的形状统计主动轮廓模型心脏MR图像分割》

为有效分析心脏功能，高精度分割左、右心室是必要的.心脏MR图像中存在图像灰度不均，左、右心室及周围其它组织灰度接近，存在弱边缘、边缘断裂及噪声造成边缘模糊等现象，给精确分割左、右心室轮廓带来困难.本文在基于图划分的主动轮廓方法基础上，通过对训练形状进行配准及变化模式分析，定义左、右心室轮廓形状变化允许空间，提出基于图划分的形状统计主动轮廓模型来分割心脏MR图像.该方法通过图划分理论将图像分割问题转化为最优化问题，所以能够得到全局最优解，具有较大的捕捉范围.还引入形状统计来引导曲线的演化，有效处理曲线演化时存在的边缘泄漏问题，提高分割精度.实验结果表明，本文方法较以往方法具有更高的分割精度和更好的稳定性，为临床应用提供一种较可行的方法.

《Cardiac MR Image Segmentation Techniques: an overview》

Broadly speaking, the objective in cardiac image segmentation is to delineate the outer and inner walls of the heart to segment out either the entire or parts of the organ boundaries. This paper will focus on MR images as they are the most widely used in cardiac segmentation – as a result of the accurate morphological information and better soft tissue contrast they provide. This cardiac segmentation information is very useful as it eases physical measurements that provides useful metrics for cardiac diagnosis such as infracted volumes, ventricular volumes, ejection fraction, myocardial mass, cardiac movement, and the like. But, this task is difficult due to the intensity and texture similarities amongst the different cardiac and background structures on top of some noisy artifacts present in MR images. Thus far, various researchers have proposed different techniques to solve some of the pressing issues. This seminar paper presents an overview of representative medical image segmentation techniques. The paper also highlights preferred approaches for segmentation of the four cardiac chambers: the left ventricle (LV), right ventricle (RV), left atrium (LA) and right atrium (RA), on short axis image planes.

《MR Image Segmentation of Left Ventricle Based on the Multi-information Gaussian Mixture Model》

The Level set method has consequence in the fields of image segmentations.As the traditional active contour methods only use the information of the edge,when it segments images with strong noise or with weak edges it is difficult to get the true edge.Gaussian mixture model uses the global information of the image,so it can do solve the problems of the weak edges.But the traditional Gaussian mixture model only uses the information of the histogram and not uses the information of the location of the pixel.So it is sensitive to the noise.This paper gives a method to make a new information field,which combines the information of the region,texture and region simulation.With the new information field the Gaussian mixture model can reduce the effect of the noise.In this paper the Gaussian mixture model is introduced to the Level set model and reduces the effect of the noise and prevents the curve over the weak edges.After getting the inner edge of the left ventricle,this paper uses the region and shape information to segment the out edge.Experiments on the segmentation of left ventricle magnetic resonance images show this model has better effect in image segmentation.

《Prostate MR image segmentation using 3D Active Appearance Models》

This paper presents a method for automatic segmentation of the prostate from transversal T2-weighted images based on 3D Active Appearance Models (AAM). The algorithm consist of two stages. Firstly, Shape Context based non-rigid surface registration of the manual segmented images is used to obtain the point correspondence between the given training cases. Subsequently, an AAM is used to segment the prostate on 50 training cases. The method is evaluated using a 5-fold cross validation over 5 repetitions. The mean Dice similarity coefficient and 95% Hausdorff distance are 0.78 and 7.32 mm respectively. Prostate segmentation is essential for calculating prostate volume, image fusion, creating patient-specific prostate anatomical models, and as a pre-processing step for many computer aided diagnosis algorithms. Furthermore, information about the size, volume, shape and location of the prostate relative to adjacent organs is an essential part of planning for minimally invasive therapies and biopsies. Because manual segmentation of the prostate is time-consuming and highly subjective, (semi-)automatic segmentation methods are preferable. However, segmenting the prostate in MR images is challenging due to the large variations of prostate shape between subjects, the lack of clear prostate boundaries and the similar intensity profiles of the prostate and surrounding tissues. The 2012 MICCAI challenge: " Prostate MR Image Segmentation " involves segmentation of the prostate on transversal T2-weighted images. The goal of the challenge is to evaluate segmentation algorithms on images from multiple centers and multiple MRI device vendors. Only a few prostate segmentation methods for T2-weighted MR images currently exist. Klein et al. [1] proposed a method based on non-rigid registration of a set of pre-labeled atlas images, against the target patients image, using mutual information. Subsequently, the segmentation is obtained as the average of the best matched registered atlas sets. Multiple modifications are published on this atlas based prostate segmentation method [2–4]. The methods presented by Toth et al. [5] and Ghose et al. [6, 7] are based on statistical shape models. Toth et al. used a levelset-based statistical shape。

《A combinatorial Bayesian and Dirichlet model for prostate MR image segmentation using probabilistic image features》

Blurred boundaries and heterogeneous intensities make accurate prostate MR image segmentation problematic. To improve prostate MR image segmentation we suggest an approach that includes: (a) an image patch division method to partition the prostate into homogeneous segments for feature extraction; (b) an image feature formulation and classification method, using the relevance vector machine, to provide probabilistic prior knowledge for graph energy construction; (c) a graph energy formulation scheme with Bayesian priors and Dirichlet graph energy and (d) a non-iterative graph energy minimization scheme, based on matrix differentiation, to perform the probabilistic pixel membership optimization. The segmentation output was obtained by assigning pixels with foreground and background labels based on derived membership probabilities. We evaluated our approach on the PROMISE-12 dataset with 50 prostate MR image volumes. Our approach achieved a mean dice similarity coefficient (DSC) of 0.90 ± 0.02, which surpassed the five best prior-based methods in the PROMISE-12 segmentation challenge.

《Fully Automatic Localization and Segmentation of 3D Vertebral Bodies from CT/MR Images via a Learning-Based Method》

In this paper, we address the problems of fully automatic localization and segmentation of 3D vertebral bodies from CT/MR images. We propose a learning-based, unified random forest regression and classification framework to tackle these two problems. More specifically, in the first stage, the localization of 3D vertebral bodies is solved with random forest regression where we aggregate the votes from a set of randomly sampled image patches to get a probability map of the center of a target vertebral body in a given image. The resultant probability map is then further regularized by Hidden Markov Model (HMM) to eliminate potential ambiguity caused by the neighboring vertebral bodies. The output from the first stage allows us to define a region of interest (ROI) for the segmentation step, where we use random forest classification to estimate the likelihood of a voxel in the ROI being foreground or background. The estimated likelihood is combined with the prior probability, which is learned from a set of training data, to get the posterior probability of the voxel. The segmentation of the target vertebral body is then done by a binary thresholding of the estimated probability. We evaluated the present approach on two openly available datasets: 1) 3D T2-weighted spine MR images from 23 patients and 2) 3D spine CT images from 10 patients. Taking manual segmentation as the ground truth (each MR image contains at least 7 vertebral bodies from T11 to L5 and each CT image contains 5 vertebral bodies from L1 to L5), we evaluated the present approach with leave-one-out experiments. Specifically, for the T2-weighted MR images, we achieved for localization a mean error of 1.6 mm, and for segmentation a mean Dice metric of 88.7% and a mean surface distance of 1.5 mm, respectively. For the CT images we achieved for localization a mean error of 1.9 mm, and for segmentation a mean Dice metric of 91.0% and a mean surface distance of 0.9 mm, respectively.

以上是关于用于语义分割的分层多尺度注意力的主要内容，如果未能解决你的问题，请参考以下文章

用于语义分割的分层多尺度注意力

MR 图像分割 相关论文摘要整理

MR 图像分割相关论文摘要整理