FCN-Fully Convolutional Networks for Semantic Segmentation


Fully Convolutional Networks for Semantic Segmentation)
论文地址
论文解读

Abstract

卷积网络是强大的视觉模型,它产生了特征的层次结构。 我们表明,卷积网络本身,训练的端到端,像素到像素,超过了最先进的语义分割。 我们的主要观点是建立“全卷积”网络,它接受任意大小的输入,并产生相应大小的输出,并进行有效的推理和学习.我们定义和详细描述了完全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并绘制了与先前模型的连接。 我们将目前的分类网络(AlexNet[19]、VGG网络[31]和GoogleLeNet[32])调整为完全卷积网络,并通过微调将它们的学习表示传递给分割任务。 然后,我们开发了一种新的体系结构,它将深层、粗层的语义信息与浅层、细层的外观信息结合起来,以产生精确和详细的分割。我们的完全卷积网络实现了最先进的分割PASCALVOC(相对于2012年62.2%的平均IU)、NYUDv2和SIFT流,而对于典型图像,推理所需的时间不到五分之一秒。

1. introduction

卷积网络正在推动识别的进步。 对流网不仅在全图像分类[19,31,32]上有所改进,而且在结构化输出的局部任务上也取得了进展。 这些包括边界盒对象检测[29,12,17]、部分和关键点预测[39,24]以及局部对应[24,9]的进展. 从粗推理到精细推理的自然下一步是对每个像素进行预测。 以前的方法使用凸网进行语义分割[27,2,8,28,16,14,11],其中每个像素都被标记为其包围对象或区域的类,但这项工作解决了缺点。
图1
图1 完全卷积网络可以有效地学习对每个像素任务进行密集预测,如语义分割。
我们表明,一个完全卷积网络(FCN),经过训练的端到端,像素到像素的语义分割超过了最先进的,没有进一步的机制。 据我们所知,这是第一次训练FCNs端到端(1)进行像素预测和(2)从监督的预训练。 现有网络的完全卷积版本预测来自任意大小输入的密集输出。 学习和推理都是通过密集的前馈计算和反向传播来完成整个图像数据时间。 网络内上采样层可以在具有子采样池的网络中进行像素级预测和学习。
这种方法是有效的,渐近和绝对的,并排除了需要的并发症在其他工作。 分批训练是常见的,但缺乏完全卷积训练的效率。 我们的方法不使用预处理和后处理并发症,包括超像素[]、建议或随机字段或本地分类器的后组织细化。 我们的模型将最近在分类]中的成功转移到密集预测,方法是将分类网重新解释为从它们的学习表示中完全卷积和微调。 相反,以前的工作已经应用了小凸网,没有监督的训练前
语义分割面临着语义和位置之间固有的张力:全局信息解决什么,而局部信息解决哪里,深层特征1arXiv:1411.4038v2[cs。 简历]2015年3月8日的层次结构联合编码位置和语义在一个地方到全球金字塔。 我们定义了一种新的“跳过”体系结构,将深度、粗、语义信息和4.2节中的浅、细、外观信息结合起来(见图3)。
在下一节中,我们将回顾关于深度分类网、FCNs和最近使用卷积网进行语义分割的方法的相关工作。 下面的部分解释了FCN设计和密集预测权衡,介绍了我们的网络内上采样和多层组合的体系结构,并描述了我们的实验框架。 最后,我们展示了PASCALVOC2011-2、NYUDv2和SIFT流的最新结果。

2.相关工作

我们的方法借鉴了最近在图像分类和迁移学习方面的深度学习网络的成功。 在混合提议分类器模型中,首先在各种视觉识别任务上,然后在检测上,以及在实例和语义分割上实现了转移。 我们现在重新构建和细化分类网络,以直接、密集地预测语义分割。 我们绘制了FCN的空间,并在这个框架中定位了历史和最近的先验模型。
据我们所知,将ConvNet扩展到任意大小的输入的想法首先出现在Matan等人身上。 这扩展了经典的乐网来识别数字串。 因为他们的网络仅限于一维输入字符串,Matan等人。 使用Viterbi解码来获得它们的输出。 沃尔夫和普拉特[37]将Convnet输出扩展到邮政地址块四个角的检测分数的二维映射。 这两个历史作品都做了推理和学习完全卷积的检测。 Ning等人。定义了一个卷积网,用于用完全卷积推理对线虫组织进行粗多类分割。
在目前的多层网络时代,完全卷积计算也得到了利用。 滑动窗口检测由Sermanet等人。Pinheiro和Collobert[28]的语义分割,以及Eigen等人的图像恢复。 [5]做完全卷积推理。 完全卷积训练是罕见的,但汤普森等人有效地使用。 ]学习端到端部件检测器和空间模型进行姿态估计,尽管它们不使用或分析这种方法。
或者,他等人。丢弃分类网的非卷积部分,以制作特征提取器。 它们结合了建议和空间金字塔池,以产生一个局部的,固定长度的特征进行分类。 虽然快速有效,但这种混合模型不能端到端学习。
最近的几项工作将凸网应用于密集预测问题,包括宁等人的语义分割。Farabet等人。Pinheiro和CollobertCiresan等人的电子显微镜边界预测。 用Ganin和Lempitsky[11]的混合神经网络/近邻模型对自然图像进行[2]和处理;用Eigen等人进行图像恢复和深度估计。这些方法的共同要素包括:
限制容量和接收场的小模型;·
分批训练[27,2,8,28,11];
·通过超像素投影、随机场正则化、滤波或局部分类]进行后处理;
·输入移位和输出交错,用于超过Feat[29]引入的密集输出];
·多尺度金字塔处理·饱和Tanh非线性
和·组合[2,11]
而我们的方法没有这种机器。 然而,我们确实从FCNS的角度研究了分批训练3.4和“移位-缝合”密集输出3.2。 我们还讨论了网络内上采样3.3,其中Eigen等人的完全连接预测。 [6]是个特例。
与这些现有的方法不同,我们适应和扩展了深度分类体系结构,使用图像分类作为有监督的预训练,并进行完全卷积的微调,以便从整个图像输入和整个图像地面测试中简单有效地学习。
Hariharan等人。 [16]和Gupta等人。 [14]也将深度分类网适用于语义分割,但在混合建议-分类器模型中也是如此。 这些方法通过采样边界框和/或区域建议来微调R-CNN系统[12]用于检测、语义分割和实例分割。 两种方法都是端到端学习的。
它们分别在PASCALVOC分割和NYUDv2分割上取得了最先进的结果,因此我们直接将我们的独立的、端到端的FCN与它们在第5节中的语义分割结果进行比较。

3.Fully convolutional networks

一个convnet中的每一层数据是一个大小为h×w×d的三维数组,其中h和w是空间维数,d是特征或信道维数。 第一层是图像,像素大小h×w和d颜色通道。 较高层次的位置对应于它们所连接的图像中的位置,这些位置被称为它们的接收字段。
卷积网是建立在平移不变性的基础上的。 它们的基本分量(卷积、池和**函数)在局部输入区域上工作,并且只依赖于相对空间坐标。 为特定层中的位置(i,j)的数据向量编写xij,并为以下内容编写yij- 在层中,这些函数计算输出yij

yij = fks ({xsi+δi,sj+δj}0≤δi,δj≤k)
其中k称为核大小,s是步长或次采样因子,fks决定层类型:卷积或平均池的矩阵乘法、最大池的空间最大值或**函数的元素非线性,等等。
这种功能形式在组合下保持,内核大小和步长服从转换规则

fks ◦ gk0s0 = (f ◦ g)k0+(kk1)s0
,ss0 .
当一般的深网计算一般的非线性函数时,只有这种形式的层的网络计算非线性滤波器,我们称之为深滤波器或完全卷积网络。 一个FCN自然地对任何大小的输入进行操作,并产生相应的(可能重新采样的)空间维度的输出。
由FCN去罚款任务组成的实值损失函数。 如果损失函数是最终层空间维数的和,(x;θ)=Pij0(xij;θ),它的梯度将是其每个空间分量梯度的和。 因此,在整个图像上计算的上的随机梯度下降将与0上的随机梯度下降相同,将所有最终层接收场作为一个小块。
当这些接收场显著重叠时,前馈计算和反向传播在整个图像上逐层计算时都要有效得多,而不是独立的逐片计算。
接下来,我们将解释如何将分类网转换为产生粗输出映射的完全卷积网。 对于像素级预测,我们需要将这些粗输出连接回像素。 第3.2节描述了为此目的引入[29]超过Feat的技巧。 我们通过将其重新解释为等效的网络修改来洞察这个技巧。 作为一种有效的替代方法,我们在3.3节中介绍了用于上采样的反褶积层。 在第3.4节中,我们考虑通过分段抽样进行训练,并在第4.3节中给出了我们整个图像训练更快、更有效的证据.

3.1适应分类器用于失谐预测

典型的识别网,包括LeNet[21]、AlexNet[19]及其更深层次的后继者[31,32],表面上采取固定大小的输入并产生非空间输出。 这些网的完全连接层具有固定的尺寸,并丢弃空间坐标。 然而,这些完全连接的层也可以看作是包含其整个输入区域的内核的卷积。 这样做将它们转换成完全卷积的网络,这些网络接受任何大小的输入和输出分类映射。
这种转变 如图2所示。 (相反,非卷积网,如Le等人的网。 [20],缺乏这种能力。 )
图2。 将完全连接的层转换为卷积层使分类网能够输出热图。 添加层和空间损失(如图1所示)会产生一台用于端到端密集学习的高效机器
图2
此外,虽然得到的地图相当于对特定输入补丁上的原始网络的评估,但计算在这些补丁的重叠区域中被高度摊销。 例如,虽然AlexNet需要1.2ms(在典型的GPU上)来产生227×227图像的分类分数,但完全卷积版本需要22ms来产生来自500×500图像的10×10网格输出,这比NA¨ıve方法1快5倍多。
这些卷积模型的空间输出映射使它们成为语义分割等密集问题的自然选择。 在每个输出单元都有地面真相,前向和后向传递都是简单的,并且都利用卷积的固有计算效率(和积极的优化。
对于AlexNet示例,相应的向后时间是单个图像2.4ms,对于完全卷积的10×10输出映射,则为37ms,前向传递的加速。 这种密集的反向传播如图1所示。
虽然我们将分类网重新解释为完全卷积,但为任何大小的输入生成输出映射,但输出维数通常通过次采样来减少。 分类网子样本,以保持滤波器小和计算要求合理。 这会缩小这些网的完全卷积版本的输出,将其从输入的大小减少一个等于输出单元接收字段的像素步长的因子。

3.2 Shift-and-stitch is fifilter rarefaction

从没有插值的粗输出中的NSE预测,由Over Feat[29]引入。 如果输出被f的因子下采样,则输入向右移动(通过左填充和顶部填充)x像素,向下移动y像素,对于(x,y)∈{0,…,f{1}×{0,…,f{1}的每个值都移动一次}。 这些f2输入都是通过Convnet运行的,输出是交错的,这样预测就对应于它们接收字段中心的像素。
只更改Convnet的过滤器和层步骤可以产生与此移位和缝合技巧相同的输出。 考虑一个具有输入步长s的层(卷积或池),以及一个具有滤波器权重fij的后续卷积层(忽略特征维数,在这里不相关)。 将下层的输入步长设置为1,将其输出设置为s的因子,就像移位和缝合一样。 然而,将原始过滤器与上采样输出进行卷积并不会产生与技巧相同的结果,因为原始过滤器只看到其(现在上采样)输入的减少部分。 为了重现这个技巧,将滤镜放大,使滤镜更加稀有
(基于i和j的零)。 复制整个净输出的技巧涉及重复这个过滤器扩大逐层,直到所有次采样被删除。
公式1
简单地减少网络中的次采样是一种权衡:过滤器看到更精细的信息,但有更小的接收字段,计算需要更长的时间。 我们已经看到,移位和缝合技巧是另一种权衡:输出更密集,而不减少过滤器的接收场大小,但过滤器被禁止以比原来设计更精细的规模访问信息。
虽然我们已经用移位和缝合做了初步的实验,但我们没有在我们的模型中使用它。 我们发现,通过上采样学习,如下一节所述,更有效和高效,特别是当与后面描述的跳过层融合相结合时。

3.3Upsampling is backwards strided convolution

将粗输出连接到密集像素的另一种方法是插值。 例如,简单的双线性插值通过只依赖于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出yij。
在某种意义上,因子f的上采样是与分数输入步长为1/f的卷积。 因此,只要f是积分的,一种自然的上采样方法就是向后卷积(有时称为反褶积),输出步长为f。这样的操作很容易实现,因为它只是反转卷积的前向和后向传递。 因此,在网络中进行上采样,以便通过从像素损失反向传播进行端到端学习。
请注意,这种层中的反褶积滤波器不需要固定(例如,双线性上采样),但可以学习。 一堆反褶积层和**函数甚至可以学习非线性上采样。
在我们的实验中,我们发现网络中的上采样对于学习密集预测是快速有效的。 我们最好的分割体系结构使用这些层来学习在4.2节中对精化预测进行上采样。

3.4 Patchwise training is loss sampling

在随机优化中,梯度计算是由训练分布驱动的。 贴片训练和完全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和最小匹配大小。 整个图像完全卷积训练与贴片训练是相同的,其中每个批次由图像丢失(或图像集合)下面的单元的所有接收字段组成)虽然这比均匀采样补丁更有效,但它减少了可能的批次数量。 然而,在图像中随机选择补丁可以简单地恢复。 将损失限制在其空间项的随机抽样子集(或等效地在输出和损失之间应用DropConnect掩码[36])将补丁排除在梯度计算之外。
如果保持的补丁仍然有明显的重叠,完全卷积计算仍然会加快训练速度。 如果梯度累积在多个向后传递累积,则批处理可以包括来自多个图像的补丁。
整片训练中的抽样可以纠正类不平衡[27,8,2],减轻密集斑块[28,16]的空间相关性。 在完全卷积训练中,也可以通过加权损失来实现类平衡,并且可以使用损失采样来解决空间相关性。
我们在第4.3节中探索了抽样训练,没有发现它为密集预测产生更快或更好的收敛。 全形象培训有效高效。

4.Segmentation Architecture

我们将ILSVRC分类器转换为FCN,并将其增强,以便在网络内进行密集预测,并具有上采样和像素损失。 我们通过微调来训练分割。 接下来,我们构建了一种新的跳过体系结构,它结合了粗、语义和局部、外观信息来重新精细预测。
对于本研究,我们对PASCALVOC2011分割挑战[7]进行了训练和验证。 我们一起训练 一个每像素多项逻辑损失,并验证了标准度量的平均像素交集超过联合,平均接管所有类,包括背景。 训练忽略了在地面真相中被屏蔽掉的像素(如模糊或困难。

4.1From classififier to dense FCN

我们首先对已证明的分类体系结构进行卷积,如第3节所示。 我们考虑赢得ILSVRC12的AlexNet3架构[19],以及VG G网[31]和Google LeNet4[32]这在ILSVRC14中做得特别好。 我们选择VGG16层net5,我们发现它相当于这个任务上的19层net。 对于Google LeNet,我们只使用最终的损失层,并通过丢弃最终的平均池层来提高性能。 我们通过丢弃最终的分类器层来分解每个网络,并将所有完全连接的层转换为卷积.我们附加了一个具有信道维数21的1×1卷积来预测每个PASCAL类(包括背景)在每个粗输出位置的分数,然后是一个反褶积层,以双线性地将粗输出采样到像素密集输出,如3.3节所述。 表1将初步验证结果与每个网络的基本特性进行了比较。 我们报告了在固定学习速率(至少175个时代)收敛后取得的最佳结果)。
从分类到分割的微调给出了每个网络的合理预测。 即使是最糟糕的模型也∼75%的最先进性能。 分段要求的VGG网络(FCN-VGG16)似乎已经是最先进的,在Val上的平均IU为56.0,而在测试[16]上为52.6。 关于额外数据的培训将val7的子集的性能提高到59.4个平均IU。 训练详情见第4.3节。
尽管分类精度相似,但我们对GoogleLeNet的实现与这个分割结果不匹配。

4.2Combing what and where

我们定义了一种新的完全卷积网(FCN)用于分割,它结合了特征层次的层次,并细化了输出的空间精度。 见图3。
虽然完全卷积分类器可以细化到4.1所示的分割,甚至在标准度量上得分很高,但它们的输出是不令人满意的粗(见图4)。 最终预测层的32像素步幅限制了上采样输出中细节的尺度.
我们通过添加链接来解决这个问题,这些链接将最终的预测层与较低的层和更精细的步幅结合起来。这表1。 我们将三个分类凸网适应并扩展到分割中。 我们比较性能的平均交集超过联合在PASCALVOC2011的验证集和推理时间(平均超过20个试验的500×500输入在NVIDIA特斯拉K40c)。 我们详细介绍了适应的网络在密集预测方面的结构:参数层数、输出单元的接收场大小和网络中最粗的步长。 这些数字给出了在固定学习速率下获得的最佳性能,而不是最佳性能。 )
表1
将线拓扑转换为DAG,边缘从低层跳到高层(图3)。 当它们看到较少的像素时,更精细的尺度预测应该需要更少的层,因此从较浅的净输出中提取它们是有意义的。 将细层和粗层结合起来,可以使模型做出尊重全局结构的局部预测。 通过类比Florack等人的多尺度局部射流。 [10],我们将我们的非线性局部特征层次称为深射流。
我们首先通过从16像素的步幅层预测将输出步幅分成一半。 我们在pool4的顶部添加1×1卷积层,以产生额外的类预测。 我们将这一输出与在Conv7(卷积FC7)上计算的预测融合在32步上,增加了2个×的上采样层,并对这两个预测进行了总结。 (见图3)。 我们将2×上采样初始化为双线性插值,但允许学习第3.3节中描述的参数。 最后,跨步16预测被重新采样回图像。我们把这个网称为FCN-16。 FCN-16是端到端学习的,用最后一个粗糙的网络的参数初始化,我们现在称之为FCN-32s。 作用于pool4的新参数是零初始化的,因此网络从未修改的预测开始。 学习率降低了100。
学习这个跳过网提高了验证集的性能,平均IU提高到62.4。 图4显示了输出的精细结构的改进。 我们将这种融合与只从pool4层学习(这导致了性能差)进行了比较,并且在不添加额外链接的情况下简单地降低了学习速率(这导致了性能的微不足道的改进,而没有提高输出的质量)。
图4。 通过融合不同步长层的信息来细化完全卷积网,提高了分割细节。 前三幅图像显示了我们的32、16和8像素跨步网的输出(见图3)。
图4
表2

我们继续以这种方式,将来自pool3的预测与来自pool4和conv7的预测的2×上采样相融合,建立了FCN-8的网络。我们得到了表2。 跳过FCNs在PASCALVOC2011验证的子集上的比较7。 学习是端到端的,除了FCN-32s固定,只有最后一层被微调。 请注意,FCN-32s是FCN-VGG16,重命名为突出步幅。
一个小的额外改进,达到62.7平均IU,并发现一个轻微的改善,平滑和细节,我们的输出。 此时,我们的融合改进已经满足了递减的回报,无论是在强调大规模正确性的IU度量方面,还是在可见的改进方面。 在图4中,所以我们不会继续融合更低的层。
通过其他方法改进。减少池层的步长是获得更精细预测的最直接的方法。 然而,这样做对我们基于VGG16的网络是有问题的。 将池5层设置为步长1需要我们的卷积FC6具有内核大小 14×14,以保持接收场的大小。 除了计算成本外,我们还很难学习这样大的滤波器。 我们试图用较小的过滤器重新构建池5上面的层,但在实现类似的性能方面并不成功;一个可能的解释是,从图像网训练的上层权重初始化是很重要的。
另一种获得更精细预测的方法是使用3.2节中描述的移位和缝合技巧。 在有限的实验中,我们发现这种方法的成本与改进比比层融合差。

Experimental framework

优化:
我们用SGD的动量训练。 我们使用20幅图像的小块大小和固定的10뫶3、10뫶4和5뫶5的学习速率,分别用于FCN-AlexNet、FCN-VGG16和FCN-Google LeNet,通过行搜索选择。 我们使用动量0.9,5뫶4或2뫶4的重量衰减,并将偏差的学习速率增加一倍,尽管我们发现训练对这些参数不敏感(但对学习速率敏感) 。 我们对类评分卷积层进行零初始化,找到随机初始化,既不能获得更好的性能,也不能获得更快的收敛速度。 在原始分类器网络中使用的地方包括辍学
正则化:
我们通过整个网络反向传播对所有图层进行微调。 与表2相比,单独微调输出分类器只产生70%的完全微调性能。 从零开始的培训是不可行的,考虑到学习基础分类网所需的时间。 (请注意,VGG网络是分阶段训练的,而我们从完整的16层版本初始化。) 微调需要三天的一个GPU为粗FCN-32s版本,大约每一天升级到FCN-16和FCN-8s版本。
批处理样本:

图3。 我们的DAG网学习将粗,高层信息与细,低层信息结合起来。 图层显示为显示相对空间粗度的网格。 只显示池层和预测层;省略中间卷积层(包括我们转换的完全连接层。 实线(FCN-32s):我们的单流网,在4.1节中描述,向上示例将32个预测在一个步骤中回到像素。 虚线(FCN-16):结合来自最终层和池4层的预测,在16步,让我们的网络预测更精细的细节,同时保留高级语义信息。 虚线(FCN-8s):来自pool3的附加预测,在8步,提供了进一步的精度

图3
图5。 对整个图像的训练与采样补丁一样有效,但通过更有效地使用数据,会导致更快的(墙时间)收敛。 左显示了采样对固定期望批次大小收敛速度的影响,而右则按相对壁时间绘制相同的图。
图5
正如3.4节中所解释的,我们的完整图像训练有效地将每个图像批量化为一个大型重叠斑块的LAR网格。 相反,先前的工作随机采样补丁在一个完整的数据集[27,2,8,28,11],可能导致更高的方差批次,可能加速收敛[22]。 我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,做出一个独立的选择,以一定的概率11p忽略每个最终层单元。 为了避免更改有效批处理大小,我们同时将每批图像的数量增加1/p因子。 请注意,由于卷积的效率,对于足够大的p值(例如,根据3.1节中的数字,至少对于p>0.2),这种形式的拒绝抽样仍然比贴片式训练更快)。)。 图5显示了这种形式的采样对收敛的影响。 我们发现,与整个图像训练相比,采样对收敛速度没有显著影响,但由于每批需要考虑的图像数量较多,因此需要花费更多的时间。 因此,我们选择)。 图5显示了这种形式的采样对收敛的影响。 我们发现,与整个图像训练相比,采样对收敛速度没有显著影响,但由于每批需要考虑的图像数量较多,因此需要花费更多的时间。 因此,我们选择。
类平衡完全卷积训练可以通过加权或抽样损失来平衡类。 虽然我们的标签有点不平衡(大约3/4是背景),但我们发现类平衡是不必要的。
密集预测通过网络内的反褶积层将分数提升到输入维数。 最后一层反卷积滤波器被固定为双线性插值,而中间上采样层被初始化为双线性上采样,然后学习。 移针(第3.2节)或过滤器稀薄当量,不使用。
增强我们试图通过随机镜像和“抖动”图像来增强训练数据,方法是将它们翻译成32个像素(预测的最粗尺度。 这没有产生明显的改善。
更多的培训数据PASCALVOC2011分段挑战训练集,我们使用表1,标签1112图像。 Hariharan等人。 [15]已经收集了一组更大的8498个PASCAL训练图像的标签,该图像用于训练以前最先进的系统SDS[16]。 该训练数据将FCNVGG16验证分数7提高了3.4分,达到59.4个平均IU。
实现.所有型号都是在单个NVIDIA特斯拉K40c上用Caffe[18]进行训练和测试。 模型和代码将在发布时公开发布。

5.Result

我们测试我们的FCN在语义分割和场景解析,探索PASCALVOC,NYUDv2和SIFT流。 虽然这些任务在历史上区分了对象和区域,但我们将两者统一视为像素预测。 我们在这些数据集上评估我们的FCN跳过体系结构8,然后将其扩展到NYUDv2的多模态输入和SIFT流的语义和几何标签的多任务预测.
度量我们从常见的语义分割和场景解析评估中报告了四个度量,它们是像素精度和区域交集(IU)的变化)。 设nij为i类预测属于j类的像素数,其中有ncl不同的类,设ti=pjnij为i类的像素数。 我们计算:

• pixel accuracy: Pi nii/Pi ti • mean accuraccy: (1/ncl)Pi nii/ti • mean IU: (1/ncl)Pi nii/ ti + Pj nji 뫶 nii • frequency weighted IU:
(Pk tk)뫶1 Pi tinii/ ti + Pj nji 뫶 nii
帕斯卡尔VOC表3给出了我们的FCN-8s在帕斯卡尔VOC2011和2012测试集上的性能,并将其与以前最先进的SDS[16]和著名的R-CNN[12]进行了比较。 我们在平均IU9上的相对裕度为20%。 参考时间减少114×(仅Convnet,忽略建议和改进)或286×(总体)。
表3
表3。 我们的完全卷积网在PASCALVOC2011和2012测试集上的最先进水平上相对提高了20%,并减少了推理时间。
表4。 结果在NYUDv2上。 RGBD是RGB和深度通道在输入处的早期融合。 HHA是[14]的深度嵌入,如水平视差、地面高度和局部表面与推断重力方向的夹角。 RGB-HHA是对RGB和HHA预测进行求和的联合训练的后期融合模型。
表4
微软Kinect。 它有1449幅RGB-D图像,像素标签已经被Gupta等人合并成40类语义分割任务。 [13]。 我们报告了795张训练图像和654张测试图像的标准分割结果。 (注:所有模型选择均在PASCAL2011VAL上进行。) 表4给出了我们的模型在几个变化中的性能。 首先,我们在RGB图像上训练我们的未修改的粗模型(FCN-32s。 添加深度信息,我们训练一个模型升级,采取四通道RGB-D输入(早期融合)。 这几乎没有什么好处,也许是因为很难通过模型传播有意义的梯度。 继Gupta等人的成功之后。 [14],我们尝试了深度的三维HHA编码,只对这些信息进行训练网,以及RGB和HHA的“后期融合”,其中两个网络的预测被总结在最后一层,所得到的双流网是端到端学习的。 最后,我们将这个后期的融合网络升级到16层版本。
SIFT Flow是一个包含33个语义类别(“桥”、“山”、“太阳”)以及三个几何类别(“水平”、“垂直”和“天空”)像素标签的2688幅图像的数据集”)。 FCN可以自然地学习同时预测两种类型标签的联合表示。 我们学习了一个双头版本的FCN-16具有语义和几何预测层和损失。 学习模型在两个任务上的表现都与两个独立训练的模型一样好,而学习和推理本质上与每个独立模型本身一样快。。 在标准上计算的表5的结果分为2488个训练和200个测试图像,10显示了这两个任务的最新性能。
表5。 对SIFTFlow10进行类分割(中心)和几何分割(右)的结果)。 跳河[33]是一种非参数传递方法。 Tighe1是SVM的范例,2是SVM MRF。 法拉贝特是在类平衡样本(1)或固有频率样本(2)上训练的多尺度卷积网)。 皮涅罗是一种多尺度的递归卷积网,表示RCNN3(◦3)。 几何的度量是像素精度。
表5
图6。 完全卷积分割网在PASCAL上产生了最先进的性能。 左列显示了我们性能最高的网FCN-8的输出。 第二部分展示了Hariharan等人先前最先进的系统所产生的片段。 [16]。 注意恢复的精细结构(第一行)、分离密切相互作用的对象的能力(第二行)和对封堵器的鲁棒性(第三行)。 第四排显示一个失败案例:网视救生衣在船上为人。
图6

6.Conclusion

完全卷积网络是一类丰富的模型,其中现代分类卷积网是一种特例。 认识到这一点,将这些分类网扩展到分割,并改进具有多分辨率层组合的体系结构,大大提高了最先进的水平,同时简化和加快了学习和推理.
致谢部分支持这项工作 通过DARPA的MSEE和SMISC项目,NSF授予IIS-1427425、IIS-1212798、IIS-1116411和NSFGRFP、丰田和伯克利视觉和学习中心。 我们感谢NVIDIA捐赠GPU。 我们感谢BharathHariharan和SaurabhGupta提供的建议和数据集工具。 我们感谢Sergio Guadarrama在Caffe复制Google LeNet。 我们感谢Jitendra Malik的有益评论。 感谢刘伟指出了一个问题,我们的SIFT流量平均IU计算和一个错误的频率加权平均IU公式。

A. Upper Bounds on IU
在本文中,我们在平均IU分割度量上取得了良好的性能,即使是粗语义预测。 为了更好地理解这个度量和这种方法对它的限制,我们计算了性能的近似上界,并在不同的尺度上进行了预测。 我们通过对地面真相图像进行下采样,然后再次对它们进行上采样,以模拟具有特定下采样因子的最佳结果。 下表给出了各种下采样因子的PASCAL2011VAL子集上的平均IU。

在这里插入图片描述
像素完美的预测显然不需要达到平均IU远远超过最先进的水平,相反,平均IU不是一个很好的衡量精细尺度精度的指标。

B. More Results
我们进一步评估了我们的FCN用于语义分割。 PASCAL-上下文[26]提供PASCAL VOC2010的全场景注释。 虽然有超过400个不同的类,但我们遵循由选择最频繁类的[26]定义的59个类任务。 我们分别对训练和Val集进行了训练和评估。 在表6中,我们比较了卷积特征掩蔽的联合对象材料变化[3]这是以前在这项任务上的最新进展。 FCN-8s的得分为35.1,平均IU相对提高了11。
更新日志
本文的arXiv版本是最新的更正和额外的相关材料。 下面给出一个简短的变化历史。 表6。 PASCAL-Context的结果。 采用VGG网络进行卷积特征掩蔽和分段寻踪[3],CFM是最好的结果。 O2P是二阶池方法[1]如[26]的勘误表所报告的那样。 59类任务包括59个最频繁的类,而33类任务由一个由[26]标识的更容易的子集组成。
添加附录A,给出平均IU和附录B的上限,并给出PASCAL上下文结果。 正确的PASCAL验证编号(以前,一些Val图像包含在列车中)、SIFT流平均IU(使用了不适当的严格度量)和频率加权平均IU公式中的错误。 向模型添加链接并更新时间编号以反映改进的实现(这是公开可用的)。
在这里插入图片描述