UNet++ 论文翻译

时间 2021-06-05 标签深度学习论文

题目：UNet++: A Nested U-Net Architecture for Medical Image Segmentation
UNet++：一种用于医学图像分割的嵌套U-Net体系结构

摘要：在本文中，我们提出了一种新的、更强大的医学图像分割体系结构UNet++。我们的架构本质上是一种深度监督的编解码器网络，其中编码器和编解码器子网通过一系列嵌套的、密集的跳跃路径连接起来。重新设计的跳跃路径旨在缩小编码和解码子网络特征映射之间的语义鸿沟-。我们当解码器和编码器网络的特征映射在语义上相似时，优化器将处理更容易的学习任务。我们评估了UNet++与U-Net和wide-U-Net架构在多个医学图像分割中的比较任务：结节分割在胸部低剂量CT扫描中，显微镜图像中的细胞核分离，腹部CT扫描中的肝脏分割，结肠镜视频中的息肉分割。实验结果表明，具有深度监控的UNet++在U网和宽U网上分别获得了3.9和3.4点的IoU增益。
1 Introduction
最先进的图像分割模型是编解码器体系结构的变体，如U-Net[9]和完全卷积网络(FCN)[8]。这些用于分割的的编解码网络有一个关键的相似性：跳过连接，它将来自解码器子网的深、语义、粗粒度特征映射与来自编码器子网的浅、低级别、细粒度特征映射相结合。跳过连接已被证明有效地恢复目标对象的细粒度细节；即使在复杂的背景下，也能生成具有精细细节的分割掩码。跳跃连接对于实例级分割模型(如掩码RCNN)的成功也是至关重要的，它能够分割被遮挡的对象。可以说，图像分割在自然图像分割达到令人满意的性能水平，但这些模型是否满足医学图像的严格分割要求？
医学图像中的分割病变或异常需要比自然图像中所需的更高的准确性。而精确的分割掩码在自然图像中可能不是关键即使是医学图像中的边缘分割误差也会导致临床环境中用户体验差。例如，结节周围细微的旋转模式可能表明结节恶性；因此，将它们排除在分割掩模之外将降低模型在临床中的可信度。此外，不准确的分割也可能导致随后的计算能量诊断的重大变化。例如，纵向研究中对结节生长的错误测量可能导致将不正确的肺-RADS类别分配给筛查患者。因此，需要设计更有效的图像分割体系结构，以有效地恢复医学图像中目标对象的精细细节。
为了解决医学图像中更精确分割的需要，我们提出了一种基于嵌套和密集跳过连接的新分割体系结构UNET++。我们架构的基本假设是：当编码器网络的高分辨率特征映射在之前逐渐丰富时，该模型可以更有效地捕获前景对象的细粒度细节与解码器网络中相应的语义丰富的特征映射融合。我们认为，当来自解码器和编码器网络的特征映射在语义上相似时，网络将处理一个更容易的学习任务。这与U-Net中常用的普通跳过连接形成了鲜明的对比，它直接将高分辨率特征映射从编码器到解码器网络，从而实现了融合语义上不同的特征映射。根据我们的实验，所提出的体系结构是有效的，在U-Net和宽U-Net上产生了显著的性能增益。
2 Related Work
Long等人。 [8]首先引入了完全卷积网络(FCN)，而UNET是由Ronneberger等人引入的。 [9]。他们都有一个关键的想法：跳过连接。在FCN中，向上采样的特征映射用从编码器跳过的特征映射求和，而U-Net将它们连接起来，并在每个上采样步骤之间添加卷积和非线性。跳过连接已显示有助于恢复网络输出的全部空间分辨率，，使完全卷积方法适合于语义分割。受densenet网架构[5]的启发，Li等人。 [7]提出了 H-denseunet用于肝脏和肝脏肿瘤的分割。本着同样的精神，Drozdzalet al。 [2]系统地研究了跳过连接的重要性，并在编码中引入了短跳过连接 .尽管上述体系结构之间存在微小的差异，但它们都倾向于融合来自编码器和解码器子网络的语义上不同的特征映射，根据我们的经验，可以降级分割性能。
另外两个最近的相关工作是网格网GridNet[3]和Mask-RCNN[4]。网格网是一种编解码结构，其中特征映射以网格的方式连接，概括了几种经典的分割体系结构。然而，网格网在跳过连接之间缺乏上采样层；因此，它不代表UNET++。掩码-RCNN可能是对象检测、分类和分割最重要的元框架。我们要指出这一点通过简单地用建议的嵌套密集跳过路径替换普通跳过连接，UNET可以很容易地部署为Mask-RCNN中的骨干架构。由于空间有限，我们没有能力包括以UNET++为骨干架构的掩码RCNN的结果；然而，感兴趣的读者可以参考补充材料以获得更多细节。
3 Proposed Network Architecture: UNet++

图。 1：(A) UNET++由编码器和解码器组成，它们通过一系列嵌套的密集卷积块连接。 UNET++的主要思想是弥合融合前的编码器和解码器特征映射之间的语义鸿沟。例如，(X0.0，X1.3)之间的语义间隙是用三个卷积层的密集卷积块桥接的。在图形摘要中，黑色表示原始的U-Net，绿色和蓝色在跳过路径上显示密集的卷积块，红色表示深度监督。红色、绿色和蓝色组件区分UNET++和U-Net (b) 详细分析UNET++的第一跳过路径 ©如果在深入的监督下训练，UNET++可以在推理时间进行修剪。
3 Proposed Network Architecture: UNet++
图 1a显示了建议架构的高度总结概述。正如所看到的，UNet++从编码器子网或者称为骨干网络开始，然后是解码器子网。 UNET++与U-Net的区别 (图1a中的黑色成分。是重新设计的跳跃路径（以绿色和蓝色显示)，连接两个子网络和使用深度监督(红色显示）。
3.1 Re-designed skip pathways
重新设计的跳过路径改变了编解码子网络的连通性。在U-Net中，编码器的特征映射直接在解码器中接收；然而，在UNET++中，它们经历一个密集的卷积块，其卷积层的数量取决于金字塔级别。例如，节点X0，0和X1，3之间的跳过路径由一个密集的卷积块组成三个卷积层，其中每个卷积层前面有一个连接层，该层将来自相同密集块的上一个卷积层的输出与相应的低级别的密集块的上采样输出融合。本质上，密集卷积块使编码器特征映射的语义水平更接近等待在解码器中的特征映射。假设当接收到的编码器特征映射和相应的解码器特征映射在语义上相似时，优化器将面临一个更容易的优化问题。
在形式上，我们将跳过路径描述为：让xi，j表示节点Xij的输出，其中i代表沿着编码器的下采样层，j代表沿跳跃路径的密集块的卷积层。由xi，j表示的特征映射堆栈计算为

其中函数H（·）是卷积运算，后面是**函数，U（·）表示上采样层，[]表示连接层。基本上，j=0级的节点只接收来自编码器前一层的一个输入；j=1级的节点接收两个输入，这两个输入都来自编码器子网络，但连续两个级别以及j>1级的节点接收j1输入，其中j输入是同一跳过路径中前j个节点的输出，最后一个输入是来自较低跳跃路径的上采样输出。所有先前的特征映射积累并到达当前节点的原因是因为我们利用了沿着每个跳过路径的密集卷积块。图 1B进一步澄清了等式1。通过显示特征图如何通过UNET++的跳过路径的顶部。
3.2 Deep supervision
我们建议在UNET++中使用深度监督[6]，使模型能够在两种模式下运行：1)精确模式，其中所有分割分支的输出都是平均的；2)快速模式最后的分割图只从其中一个分割分支中选择，其选择决定了模型修剪的程度和速度增益。图 1c显示了如何选择分割快速模式下的分支导致不同复杂性的体系结构。
由于嵌套的跳过路径，UNET++在多个语义级别生成全分辨率特征映射{x0，j，j∈{1，2，3，4}，这些映射是可以接受的深度监督。我们将二元交叉熵和骰子系数的组合作为损失函数添加到上述四个语义层次中的每一个，描述为：

其中Yˆb和Yb分别表示bth图像的平坦预测概率和flatten ground truths，N表示批处理大小。
总之，如图所示。在三个方面，UNET++与原来的U-Net不同：1)在跳过路径上有卷积层（绿色显示），它弥补了编码器和解码器特征映射之间的语义差距 2)在跳过路径上具有密集的跳过连接（以蓝色表示)，这改善了梯度流；3)具有深度监督(以红色表示），如第4节所示，它允许模型剪枝和改进，或者在最坏的情况下，实现与只使用一个损失层相当的性能。

图 2：U-Net、宽U-Net和UNET++之间的定性比较，显示了息肉、肝脏和细胞核数据集的分割结果（仅用于不同的可视化）。
表3：U-Net、宽U-Net和我们建议的架构UNET++的分割结果(IoU：%)，有和没有深度监督(DS)。

图 3：(A)细胞核、(B)结肠息肉、©肝和(D)肺结节分割任务修剪后UNET++的复杂性、速度和准确性。推理时间是使用一个具有12GB内存的NVIDIATITANX(Pascal)处理10k测试图像所花费的时间。

4 Experiments 数据集：如表1所示，我们使用四个医学成像数据集进行模型评估，涵盖来自不同医学成像方式的病变/器官。有关数据集和相应数据预处理的进一步细节，我们请读者参阅补充材料。基线模型：为了比较，我们使用了原始的U-Net和定制的宽U-Net体系结构。我们选择U-Net是因为它是图像分割的通用性能基线。我们也设计一个宽的U-Net，具有与我们建议的体系结构相似的参数。这是为了确保我们的体系结构产生的性能增益不仅仅是由于参数数量的增加。表2详细介绍了U-Net和宽U-Net体系结构。实现细节：我们监测了Dice系数和IntersectionoverUnion(IoU)，并在验证集上使用了早期停止机制。我们也是使用Adam优化器，学习速率为3e-4。 UNET和宽U-Net的架构细节如表2所示。 UNET++是由最初的U-Net架构构建的。所有的卷积层沿着跳跃路径(Xi，j)使用大小为3×3(或3×3的k核进行三维肺结节分割)，其中k=32×2i。为了实现深度监督，一个1×1卷积层，然后是乙状结肠行为将ivation函数附加到每个目标节点：{x0、j|j∈{1、2、3、4}}。因此，UNet++生成四个分割映射，给定一个输入图像，将进一步对其进行平均，生成最终的分割映射。更多细节可以在github.com/Nested-UNET上建立。结果：表3比较了U-Net、宽U-Net和UNET++在肺结节分割、结肠息肉分割、肝分段任务中的数量参数和分割精度和细胞核的分割。正如所看到的，宽的U-Net始终优于U-Net，除了肝脏分割，这两种结构的性能相当。这种改进归因于t 他在宽的U-Net中有更多的参数。在没有深度监督的情况下，UNET++在UNET和宽U-Net上都取得了显著的性能增益，平均改进了2.8和3.3点在伊奥。深度监管的UNET++比无深度监管的UNET++平均改善0.6个点。具体来说，使用深度监督导致肝安明显改善肺结节分割，但这种改进消失了细胞核和结肠息肉的分割。这是因为息肉和肝脏在视频帧和CT中以不同的尺度出现切片；因此，使用所有分割分支（深度监督）的多尺度方法对于精确分割至关重要。图 2对U-Net++，宽的U-Net和UNET结果进行了定性比较，模型修剪：图 3显示了应用不同修剪级别后UNET++的分割性能。我们使用UNET++ Li表示在I级修剪的UNET++(见图。进一步详情请参阅图1c)。如所见，，UNet ++ L3的推理时间平均减少了32.2%，而Io U只降低了0.6个点。更积极的修剪进一步减少了推理时间，但代价是显着的精度退化。 5 Conclusion 为了解决更精确的医学图像分割的需要，我们提出了UNET++。建议的体系结构利用了重新设计的跳过路径和深度监督。重新设计的跳跃路径的目的是减少编码器和解码器子网的特征映射之间的语义间隙，从而为优化器带来一个可能更简单的优化问题去解决。深度监督也使更准确的分割，特别是对出现在多个尺度上的病变，如结肠镜视频中的息肉。我们使用四个医学成像数据集对UNET++进行了评估，包括肺结节分割，结肠息肉分割、细胞核分割和肝脏分割。我们的实验表明，具有深度监督的UNET++实现了在U-Net和宽U-Net上，平均IoU增益分别为3.9和3.4点。确认本研究已得到NIH部分支持的奖励编号R01HL128785，由ASU和Mayo诊所通过种子赠款和创新赠款。内容完全是回应作者的可信度，不一定代表NIH的官方观点。