基于融合多尺度标记信息的深度交互式图像分割

图像分割是通过计算机视觉算法将图像划分为若干内部连通却彼此特征互异的区域，优秀的分割结果可以显著提升计算机视觉的其他任务表现，例如目标检测，图像识别等.传统图像分割算法对图像中的目标缺乏偏好性.而为了获取用户感兴趣目标，交互式图像分割算法被提出.通过引入少量的用户标记(边界框、画线、单击等)，将这些标记作为先验，从而指导网络分割出用户感兴趣目标，此外，先验能够对网络分割的结果起到很好的修正作用.交互式图像分割在图像编辑、医疗图像分析等领域都有着广泛的应用[1-3].

传统的交互式图像分割算法主要利用颜色、纹理等手工特征设计算法.在此基础上，一些基于图论的交互式图像分割算法被提出，例如GraphCut[4]，GrabCut[5]，Random walks[6]等.这些算法在一些简单的图像上获得了较好的分割结果.然而这些简单的手工特征对一些复杂图像缺乏鲁棒性，导致算法性能急剧下降.而近些年随着深度学习的成功应用，深度特征逐渐取代传统手工特征，大大提升了交互式图像分割的性能.

在基于深度学习的交互式图像分割领域，涌现了大量性能优异的网络模型.深度交互式目标选择(deep interactive object selection)[7]首次将深度学习应用在交互式图像分割领域，基于全卷积神经网络模型(fully convolutional neural network, FCN)[8]，用户通过单击的方式提供前景与背景的先验，然后计算图像中的所有像素到用户单击点的欧氏距离(为了便于存储，在大于255处截断)获得交互映射，将交互映射与原始图像相拼接作为网络的原始输入，从而获得用户感兴趣的目标.这种模型结构简单，但依然能够获取比传统手工特征更好的分割效果.基于这种融合用户交互信息的思想也被其他深度交互式图像分割算法应用[9-11].这种结合用户交互信息作为网络初始输入来指导网络分割的思想被称作先融合策略.然而，先融合策略会使得用户交互信息随着网络的加深而逐渐衰减，从而在编码器部分很难获得交互信息的持续监督.因此，一些基于后融合策略的算法被提出[12-13]，具体而言，对交互信息单独卷积，从而与编码器的高级特征进行融合，这样的做法使得交互信息更多地体现在选择的作用上，因此对主网络的分割精度要求较高.此外，通过计算欧氏距离来构建交互映射的方式具有一些固有问题：首先，由于原始输入图像需要进行归一化处理，而用户交互映射上的所有值分布在0～255，因此会使得网络对于用户交互过于敏感，从而增加用户交互的次数；其次，由于对于像素到每个交互点的欧氏距离在255处截断，使得每个交互点的影响范围固定且比较大，从而对于目标细小区域很难获得令人满意的效果.究其本质，对于不同的单击交互点的作用并不相同，对于大区域的交互，其作用更多体现在选择，而细小区域的交互更多体现了微调的作用.在文献[9]中，作者第1次利用高斯分布来表达用户的交互信息，使得交互映射的值分布在0～1之间，实验表明这种方法能够显著提升深度交互式图像分割算法的性能.而Forte等人[14]对于每个交互点计算了3种不同尺度的高斯映射，其消融实验可以看出该方法能够显著提升算法的分割精度.但这种方法是直接将3种尺度交互信息作为网络的输入，并未将其不同作用分开，因此有进一步提升的空间.文献[15]将用户交互的不同作用分开，着重强调了用户的初始交互，利用双路网络的结构对初始单击映射单独进行特征提取，从而使得网络基于初始交互的结果具有更好的位置指导能力以及容错能力.

为了解决以上的问题，本文提出了基于多尺度标记信息融合的深度交互式图像分割算法.首先，对用户单击点计算2组不同尺度的高斯映射图，即先计算每个点到用户单击点的欧氏距离，然后基于欧氏距离计算高斯分布，通过设置不同的高斯半径获得不同尺度的交互映射图.其次，基于最新的语义分割框架DeepLabV3+[16]，设计出融合不同尺度交互映射的双路网络结构用于提取目标的多尺度特征.原始DeepLabV3+[16]的编码器会过早将特征图缩小多倍，从而影响提取目标的细节特征.因此，基础分割网络的编码器在ResNet50[17]的基础上，移除了最大池化层，避免小目标被大幅度下采样而过早丢失较多的细节信息.同时为了保持目标的非局部特征提取，恢复使用最大池化层对特征图下采样并形成新的特征提取分支，即非局部特征注意力模块.最后，利用一致性增强损失以及概率单击损失函数来监督非局部特征注意力模块以及网络最终的输出.此外，由于导向滤波(guided filter)[18]对目标具有优异的边缘保持性能，因此本文利用导向滤波进一步提升网络的分割精度.

本文的主要贡献包括3个部分：

1) 充分利用多尺度交互信息，将其用于监督不同目标不同尺度特征的分割表现.

2) 针对目标的不同尺度特征，通过修改网络编码器的下采样位置，使得目标细节特征不被过度下采样，而目标全局特征的分割性能依然能够保持.

3) 利用一致性增强损失函数与概率单击损失函数相结合，显著提升网络的分割效果.

1 相关工作

图像分割是计算机视觉中的一个关键过程，它包括将图像输入分割成片段以简化图像分析.片段表示目标或者目标的一部分，由像素集或者超像素组成.而交互式图像分割通过引入用户交互，使得这些分割出的片段更符合用户需求.

传统的图像分割算法利用手工设计特征与严格的算法，因此需要更多的人工干预和专业知识，主要包括阈值分割[19]、Meanshift分割[20]以及边缘检测法[21]等.这些方法对于一些复杂的图像性能表现欠佳.近些年深度学习技术在计算机视觉领域日益成熟，大大促进了图像分割算法的表现.Shelhamer等人[8]第1次将深度学习应用于图像分割，提出了全卷积神经网络(fully convolutional neural network, FCN)，通过将VGG(Visual Geometry Group)[22]网络的全连接层更换为卷积层，然后通过上采样获得最终分割结果.在此思想基础上，大量优秀的深度图像分割模型被提出.例如在医疗图像分割领域大放异彩的U-net模型[23]及其衍生模型[24]，基于编码器-解码器架构的SegNet模型[25]以及集大成之作的DeepLab系列模型[16,26-28].其中DeepLab系列模型利用空洞卷积(atrous convolution)[27]而不是规则的卷积，每个卷积不同扩张率使残差模块能够捕获多尺度的上下文信息而且不增加模型参数.并且使用ASPP(atrous spatial pyramid pooling)模块[16]聚合这些不同尺度的上下文信息.这些思想被后续深度图像分割算法大量应用，并且取得了优异的效果.同时也极大地鼓舞了深度交互式图像分割算法的发展.

传统交互式图像分割算法同样采用手工设计特征，使得算法对图像质量尤为敏感，即算法在复杂图像的表现极差，极大地增加了用户的负担.因此，受深度图像分割算法的启发，近些年涌现出大量深度交互式图像分割算法.2016年，Xu等人[7]结合FCN网络，利用欧氏距离映射来表达用户交互信息，并且作者提出的几种模拟用户交互策略被其他深度交互式图像分割算法普遍采用.2017年，Liew等人[10]提出了区域交互式图像分割算法，结合全局上下文信息优化局部区域分割的结果.2018年，Maninis等人[29]通过极限单击点(即目标的边界框上的4个顶点)作为网络的输入，辅以少部分额外单击修正分割误差.文献[12]给出了网络的多种可能性分割，然后利用选择网络结合用户交互得到最终用户感兴趣目标.Mahadevan等人[9]提出了迭代训练的方式，即训练过程中每次用户单击点都基于上一次分割的最大错误区域，此外，还利用高斯分布代替欧氏距离表达的交互映射，并通过消融实验证明了其有效性.2019年，Jang等人[11]提出了反向修正机制(backpro-pagating refinement scheme, BRS)在测试阶段通过对交互映射微小的调节来强制网络在用户标记位置分割正确.Majumder等人[30]利用基于超像素的映射指导网络分割，而不是距离映射或者高斯映射.2020年，Sofiiuk等人[31]提出了一种基于特征的反向修正机制(feature backpropagating refinement scheme, f-BRS)，该机制可在网络的中间特征上运行，并且只需要对部分网络进行正向和反向传递，使得运算速度大大提升.用户交互信息为网络提供了自注意力先验，因此结合一些注意力模型[32]，一些新的方法相继被提出.Lin等人[15]提出了首次单击注意力，着重强调用户的初始单击，并对初始单击分割的结果单独卷积用以监督其余几次交互的结果，并利用加权损失函数平衡第1次与其他几次交互的分割结果.

深度交互式图像分割算法的主要出发点有：高效地利用用户标记信息、修改网络的结构、不同的训练机制以及损失函数的利用.本文提出的融合多尺度标记信息的算法通过编码多尺度的高斯映射，从而指导网络提取目标的不同尺度特征.另外通过修改网络的部分结构，缓解目标由于过早大幅下采样而损失较多细节信息.本文还结合一致性增强损失函数与新提出的概率单击损失函数，有效提升了网络的分割性能.

2 用户交互信息变换

在深度交互式图像分割算法中，用户的交互信息尤为重要，优秀的交互方式既能够为网络提供丰富的先验信息，又能减轻用户交互的负担.常用的交互方式有单击、涂鸦线以及边界框等方式.其中涂鸦线不利于模拟用户习惯用于网络训练，边界框的方式需要用户标记紧贴目标，从而增加用户交互负担.而单击的方式既有利于模拟用户习惯用于网络训练，对用户标记要求最低，而且通过简单的变换就可以提供较为丰富的先验信息，因此单击被广泛用于深度交互式图像分割算法中.本节主要介绍对单击交互常用的信息变换方式，丰富用户提供的先验信息从而指导网络分割.

2.1 基于欧氏距离映射的交互信息转换

在基于单击的交互式方法中，用户需要提供序列单击以分割感兴趣目标，其中每个在特定位置单击的标签为“前景”或者“背景”.用户交互序列集合

包括指示前景的序列集合

以及指示背景的序列集合

深度交互式图像分割算法利用与输入图像相同长和宽的矩阵ε1和ε0表示

和

的欧氏距离映射，然后在通道维拼接交互映射图和输入图像作为网络的输入.交互映射位置(i,j)处的像素值

计算为

其中，

计算欧氏距离映射图中所有像素点与每个交互点的最小距离：

为了便于存储，欧氏距离映射图的值在255处截断.根据用户交互习惯，第1次单击点很少在背景上，因此第1次交互的背景欧氏距离映射的所有像素值均为255.

这种基于欧氏距离映射的方法被很多深度交互式图像分割算法所采用，具有一定的有效性.但由于深度学习需要对输入图像进行预处理，其中正则化预处理使得图像的特征分布与欧氏距离映射的特征分布差距较大，从而不利于网络训练，而且对于用户交互过于敏感.

2.2 基于高斯映射的交互信息转换

为了缓解欧氏距离映射存在的问题，一些算法提出了基于高斯映射的交互信息转换.高斯映射

可通过欧氏距离映射ε1,ε0直接计算得到.其中，高斯映射位置(i,j)处像素值

计算为

其中σ为高斯半径，其可以控制每个交互点的影响范围.通过式(3)可以看出，高斯映射上位置距离单击点越近的像素值越接近1，反之越接近0.高斯映射提供了一种更好的统计先验信息，而且高斯分布使得交互点的影响范围成非线性分布，即距离交互点越近影响越明显.文献[9]通过消融实验证明了高斯映射能显著地提升算法性能.

为了使用户交互具有多尺度性，本文利用2种不同尺度的高斯半径{σc,σf}，使得对于每个交互点具有2种不同大小的影响范围，从而用以引导网络关注目标不同尺度的特征.

3 网络结构

本文网络结构如图1所示，基础分割网络在DeepLabV3+[16]的基础上做一些改动从而分割目标细节特征信息，在此基础上，附加一个模块称之为非局部特征注意力模块，使得目标整体特征信息得以保持.

3.1 基础分割网络

如图1所示，本文采用类似于DeepLabV3+[16]网络结构作为基础分割网络.它包含编码器、空洞空间金字塔池化模块(atrous spatial pyramidal pooling, ASPP)以及解码器.

本文采用ResNet50[17]作为编码器模块.如图1所示，编码器的每一层特征记作{F0,F1,F2,F3,F4}.为了避免目标因过度下采样而丢失较多细节信息，本文在F0之后移除了最大池化层.原始残差网络中F1得到的特征图是原始图像的四分之一，而本文中为原始图像的二分之一，根据卷积算子的特性，较小的特征图使得目标的细节特征贡献较弱.同时，在最后一层使用空洞卷积获得更为丰富的多尺度特征.经过修改后的ResNet50网络详细结构如图2所示，其中F0由卷积核大小为7×7，输出通道为64，步长(stride)为2，填充(padding)为3的卷积操作组成，而F1至F4由瓶颈模块构成.瓶颈模块的详细结构如图3所示，其中方角矩形框对应卷积操作，圆角矩形对应特征图的尺寸.瓶颈模块分为3种，第1种对特征图通道扩充4倍但不下采样，第2种对特征图通道仅扩充2倍但不下采样，第3种对特征图通道扩充2倍且下采样.图3中的重复次数指的是该瓶颈模块重复执行的次数.基础分割网络的输入为RGB图像与高斯映射的拼接，这里的高斯映射为了指导网络关注更细节的特征，本文将基础分割网络所融合的高斯映射的半径设置为10.

如图4所示，ASPP模块的输入是(F4⊕G4)，其中，⊕表示特征拼接操作，G4为非局部注意力模块的输出.特征经过拼接后被输入到4个膨胀率分别为1,6,12,18的空洞卷积层以及1个自适应全局池化层.接着聚合这5个特征图将其输入到解码器中的卷积模块.

如图1中的解码器模块所示，与常规的DeepLabV3+[16]解码器不同的是，本文融合的低级特征为原始图像分辨率的一半而不是四分之一，这样可以使网络在解码器阶段捕获更丰富的细节特征.另外，在原始的解码器基础上，本文添加了一个导向滤波模块(guided filter)[18]来微调分割的结果.导向滤波比双边滤波在边界处理方面更优秀，并且它还有O(N)线性时间的速度优势，如图5所示.对于一个输入图像p，通过引导图像I，经过滤波后得到输出图像q，其中n表示输入图像中的噪声，而qi=aIi+b表示对引导图像的线性加权，其中i表示图像任意位置的坐标.为了获取加权系数a与偏置项b，使p与q的差别尽量小，同时为了保持局部线性模型，导向滤波构建带有正则项的岭回归：

其中i表示图像任意位置的坐标.

通过求解式(4)得到a与b在局部的值，从而得到滤波器的最终输出.本文利用对原始图像与高斯映射的预处理特征作为导向图对分割结果进行滤波，从而提升网络对目标边缘分割效果.

3.2 非局部特征注意力模块

基础分割网络的编码器模块通过移除最大池化层使得网络能够获取更为丰富的细节特征，但同时为了保持目标的非局部特征，本文在基础分割网络的基础上，设计了一个与基础分割网络平行的非局部特征注意力模块.如图6所示，该模块的主要部分也是由瓶颈模块组成，输入为基础分割网络初始卷积后的特征F0与大尺度高斯映射，本文在F0之后通过添加最大池化层进一步缩小特征图，在大尺度高斯映射的指导下使网络获取用户感兴趣目标的非局部特征.需要注意的是，瓶颈模块G4输入特征的通道为66，但经过第1次卷积之后通道为64，而G4后的输出特征通道数与基础分割网络编码器输出特征F4相同，均为2048.非局部注意力模块的输出在ASPP模块前被融合进基础分割网络.另外，为了监督该模块的特征，本文通过双线性插值的方式将特征恢复至原始图像大小，利用概率单击损失函数来监督G4，这里的概率由大尺度高斯映射提供.具体细节在第4节详细描述.

显然，普通的ResNet结构[17]如图1中的F0→G1→G2→G3→G4信息流，经过改动的基础分割网络在擅长处理目标细节特征的同时，也能保持目标的整体信息，即非局部特征.如图1中的输出结果所示，非局部特征注意力模块很好地保持了羊的整体分割，但对于难以分割的羊腿部分，通过小尺度高斯映射指导基础分割网络提取细节特征，以及在解码器部分融合编码器高分辨率的特征图，最终得到更为细腻的分割结果.

4 损失函数

交互式图像分割本质上是一种逐像素的二值分类问题，对于二值分类常用的损失函数为二值交叉熵损失(binary cross entropy loss, BCE)，该损失函数有利于关注全局分割效果.首先，对于网络的输出fo，可计算出最终的预测为

其中，p∈

N×2×H×W表示N个预测特征图，N表示批大小(batchsize),H,W分别表示预测图的长和宽.pt，t∈{0,1}表示特征图属于前景或背景的概率矩阵.sigmoid(Conv(·))表示网络最后一层对特征图采用卷积操作与sigmoid激活函数处理.传统的二值交叉熵损失函数为

其中，log(·)表示逐元素计算自然对数.g∈{0,1}N×2×H×W代表分割真实标签.从式(6)中可以看出，二值交叉熵损失函数将前景与背景同等看待，而在小目标分割的问题上，前景的重要性更容易被背景抵消，从而难以获得用户感兴趣目标的精确轮廓.

从用户的角度，待分割目标即属于显著性目标，因此，本文借鉴显著性检测中常用的一致性增强损失(consistency-enhanced loss, CEL)[33-34]，从而突出用户感兴趣目标的重要性：

其中TP,FP和FN分别表示真正例、假正例和假反例的个数.这里的p与g主要是前景的特征与真实值.通过式(7)可以看出该损失函数更关注前景的分割效果，因此目标的尺度不会给损失函数造成太大的波动.另外，当预测前景与真实前景重合程度越低则惩罚越大.

除此之外，本文针对交互式分割问题，为了充分利用用户交互信息，使其也能在优化网络训练的过程中起到一定的作用，提出了概率单击损失函数(probability click loss, PCL)：

其中,abs(·)表示绝对值运算，

即为前景或者背景的高斯映射.可以看出，在越靠近交互点附近的区域给予越大的优化力度，反之预测值与真实值均被处理为接近0.因此相比文献[14]中的单击损失函数，本文提出的概率单击损失函数充分利用了交互信息，使得优化范围更大.

值得注意的是，式(8)中的高斯映射针对本文网络的2处输出使用不同的高斯半径.基础分割网络的输出使用较小的高斯半径σf迫使网络关注围绕交互点更为集中的分割区域.而对于非局部注意力模块的输出，采用较大的高斯半径σc，使得非局部注意力模块能够保持目标的非局部信息.

通过组合这3部分的损失函数，本文算法的基础分割网络与非局部注意力模块的损失函数分别为

其中，λe,βe与λp,βp分别为平衡因子用于平衡一致性增强损失与概率单击损失之间的比重.LPCL(·)表示使用半径为σf或者σc得到的高斯映射计算出的概率单击损失.

因此，本文算法的最终损失函数为

其中α表示平衡因子用于平衡这2部分的损失函数重要性.本文损失函数经过平均化处理之后均分布在[0,1]之间，因此平衡因子均设为1，并且高斯半径σf=10,σc=100.

5 实验结果与分析

5.1 实验设置

本文利用Semantic Boundaries Dataset(SBD)[35]数据集中的训练集来训练模型，该数据集是PASCAL VOC2012[36]数据集的增强版本，其提供了比PASCAL VOC2012更多的真实分割图.SBD数据集一共有8 498张训练集共10 582个实例和2 857张测试集共4 119个实例.本文采用与文献[7]相同的交互点模拟策略在SBD数据集上逐实例生成用于训练的前景与背景交互点.并且采用随机翻转，随机裁剪为320×320，随机高斯模糊等方法对数据集进行扩充.模型利用在ImageNet[37]上预训练的ResNet50[17]来初始化基础分割网络的编码器与非局部注意力模块的参数，并用学习率为10-3(其中编码器与非局部注意力模块的学习率为10-4)且权值衰减为10-5的Adam优化器来优化网络.最后采用多项式学习率衰减法训练30个周期.所有实验在Intel i5-8400 2.80 GHz CPU和单张NVIDIA RTX2080Ti GPU用Pytorch框架实施.

而对于测试阶段，本文利用每次在最大错误分割中心的方式生成交互点来验证模型的有效性.每次点击320×320的图像需要约0.01 s，满足实时性要求.

5.2 比较数据集

本文在一些常用的图像分割数据集上验证算法的有效性.除了SBD数据集的测试集外，本文还在经典的GrabCut数据集[5]、Berkeley数据集[38]以及MSCOCO数据集[39]上测试算法.

1) GrabCut数据集.该数据集是交互式图像分割常用的经典数据集，一共50张图像，每张图像只有一个目标，该数据集前景与背景有明显的差别.

2) Berkeley数据集.该数据集有96张图像共100个目标.该数据集一些图像的前景与背景相似，因此分割难度相对较大.

3) MSCOCO数据集.该数据集为用于计算机视觉各种任务的大规模数据集，一共有80个类别的目标.本文对其中用于分割的部分将其分为MSCOCO(seen)和MSCOCO(unseen)，并按照文献[7]中的策略为每个类别各抽取10张图像用于评估算法.

5.3 评价指标

本文对分割效果的评价指标采用图像分割中常用的平均交并比(mean intersection over union, mIoU)来评价分割质量的优劣.基于此，本文绘制了mIoU与单击次数的曲线用于比较每种方法在固定交互次数下的表现.同时，本文还利用基于单击交互分割中常用的平均交互点数(mean number of clicks, mNoC)指标来衡量算法的性能.它反映了数据集中的每张图像达到固定mIoU所需要的平均交互次数.对于不同数据集所设定的固定mIoU不同，并且每个样本的最大交互次数为20.

5.4 性能比较

本文所比较的算法分2类，一类为传统的基于手工特征的算法：Graphcut(GC)[4]，Growcut(GRC)[40]，geodesic star convexity(GSC)[41]，geodesic matting(GM)[42]，random walks(RW)[6].这类算法主要是基于图论的方法，利用交互信息构建一元势能与二元势能从而实现图像分割.另一类算法是基于深度学习的交互式分割算法：deep object selection(DOS)[7]，regional image segmentation(RIS)[10]，latent diversity based segmentation(LD)[12]，fully convolutional two-stream fusion network(FCTSFN)[13]，back-propagating refinement scheme(BRS)[11].

如图7所示，本文给出了mIoU-单击次数曲线，即不同算法在不同单击次数下的mIoU值.可以看出，本文算法在最初几个交互点即可获得比其他算法优秀的性能，尤其在MSCOCO(seen部分)数据集上性能提升尤为明显.这是由于本文利用不同尺度的交互信息，以及非局部特征注意力模块的使用，使得本文算法既在目标的细节特征上取得优异分割结果，又保持了非局部层次的表现.由于GrabCut数据集的图像前景背景对比明显，较为容易分割，因此与其他算法优势并不明显，但也获得了一定的性能提升.

表1显示了不同方法在5个数据集上的mNoC值，在数据集GrabCut与Berkeley上，计算mIoU值为90%时所需要的平均单击次数，另外2个数据集所要达到的阈值为85%.从表1中可以看出，基于深度学习的算法性能均远远优于传统的算法，这体现了深度特征更强大的语义感知能力.本文算法除了在Berkeley数据集上高于BRS算法不足0.1个单击次数，在其他数据集上均取得了最好的表现，尤其在MSCOCO数据集(seen)上表现最为优异，比其他算法减少了2.37次单击.这是由于本文所采用的融合多尺度交互信息的思想，丰富了单击点的语义信息，大大减轻了用户的交互负担.值得注意的是，本文算法与BRS算法的性能较为接近，这是因为BRS算法根据分割结果不断调整用户的交互映射，本质上是修正交互信息的尺度，可以看出，充分利用交互映射的不同尺度可以显著提升用户的交互效率.

图8给出了本文算法在5个数据集上的部分定性结果，其中红点表示前景点击，蓝点表示背景点击.这些图像既有大目标图像也有小目标图像，同时也有很多细节信息.例如袋鼠和狼细长的腿部，企鹅短小的尾部，以及目标较小的瓢虫与只露机头的飞机，本文算法在这些细长局部的目标上仅需少量的交互即可获得不错的分割效果，同时，本文算法对于目标的非局部信息分割依然能够获得很好的保证.此外，从图8(c)中沙发的分割可以看出，本文算法对于非闭合的目标也能取得不错的效果，体现了本文算法更强的鲁棒性.

5.5 消融实验

为了验证本文算法各个模块的有效性，本文在SBD与MSCOCO(seen)上进行了几组消融实验.以完整模型为基准，不断移除本文中所提出的各个模块，所得到的mNoC如表2所示.其中Full表示完整模型；NLF表示非局部特征注意力模块；MP表示基础分割网络中所采用的最大池化层，这里需要通过恢复使用最大池化层来验证该设置的有效性；GF表示导向滤波；CEL表示一致性增强损失函数；PCL表示概率单击损失函数.

消融实验分为2组，一组是通过设置相同的高斯半径，以验证多尺度高斯映射的重要性，另一组在移除非局部特征注意力模块后，根据第1组实验的表现，使用高斯半径为10的交互映射作为输入的消融实验.

首先，针对多尺度交互信息的利用，通过设置4组相同的高斯半径可以看出，网络的2部分融合使用相同半径的高斯映射都会使得模型的性能有所下降，同时可以发现，设置小的高斯半径更有效，但当高斯半径过小时，模型性能会有微弱的下降，这是由于过小的高斯半径随着网络的加深，交互信息会越来越弱，从而削弱用户交互的作用，这也是本文选择高斯半径为10作为网络的最初输入的原因.

其次，当移除非局部特征注意力模块时，模型性能有所下降，这是因为基础分割网络对小尺度特征图的卷积层减少，因此对于全局特征的抽象不如单独的非局部特征注意力模块.而在恢复基础分割网络的最大池化层时，性能却比仅移除非局部特征注意力模块有所提升，这是由于目标的特征图被进一步下采样，因此获得的全局特征更为丰富，在有限的交互次数下，保证了大目标的分割精度.导向滤波同样是为了提升细节的分割精度，所以移除导向滤波也降低了模型的部分性能.最后，通过移除一致性增强损失与概率单击损失，进一步降低了模型的表现.

通过将所有这些模块移除的结果可以看出，即使使用最基础的网络与二值交叉熵损失，mNoC也依然低于深度交互目标选择算法(DOS)，可以看出基础网络的选择的重要性以及高斯映射相比欧氏距离映射更有效.

6 总结

本文提出了融合多尺度标记信息的深度交互式图像分割算法.利用单击点计算2组具有不同尺度的高斯映射以指导网络分割，并通过对网络进行一些简单的改动即可分割出目标的细节，同时为了保持分割的完整性，在基础分割网络的基础上附加了非局部特征注意力模块.实验证明了该方法能够有效提升细节处的分割效果，同时也减轻了用户的交互负担.

作者贡献声明：丁宗元负责撰写初稿、理论推导、实施实验以及修改工作；孙权森负责提供理论指导以及论文检阅；王涛负责理论指导与实验指导，王涛与孙权森并列通信作者；王洪元协助指导实验与修改论文.

[1]Wang Tao, Ji Zexuan, Sun Quansen. A segmentation algorithm combined with non-local information and graph cut[J]. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(5): 783-791 (in Chinese)(王涛, 纪则轩, 孙权森. 结合非局部信息与图割的图像分割算法[J]. 计算机辅助设计与图形学学报, 2015, 27(5): 783-791)

[2]Liu Lei, Shi Zhiguo, Su Haoru, et al. Image segmentation based on higher order Markov random field[J]. Journal of Computer Research and Development, 2013, 50(9): 1933-1942 (in Chinese)(刘磊, 石志国, 宿浩茹, 等. 基于高阶马尔可夫随机场的图像分割[J]. 计算机研究与发展, 2013, 50(9): 1933-1942)

[3]Wang Guotai, Li Wenqi, Zuluaga Maria A, et al. Interactive medical image segmentation using deep learning with image-specific fine tuning[J]. IEEE Transactions on Medical Imaging, 2018, 37(7): 1562-1573

[4]Boykov Y Y, Jolly M P. Interactive graph cuts for optimal boundary & region segmentation of objects in ND images[C] //Proc of the 8th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2001: 105-112

[5]Rother C, Kolmogorov V, Blake A. “GrabCut” interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2004, 23(3): 309-314

[6]Grady L. Random walks for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(11): 1768-1783

[7]Xu Ning, Price B, Cohen S, et al. Deep interactive object selection[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 373-381

[8]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3431-3440

[9]Mahadevan S, Voigtlaender P, Leibe B. Iteratively trained interactive segmentation[J].arXiv preprint, arXiv:1805.04398, 2018

[10]Liew Junhao, Wei Yunchao, Xiong Wei, et al. Regional interactive image segmentation networks[C] //Proc of the 2017 IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 2746-2754

[11]Jang W D, Kim C S. Interactive image segmentation via backpropagating refinement scheme[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 5297-5306

[12]Li Zhuwen, Chen Qifeng, Koltun V. Interactive image segmentation with latent diversity[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 577-585

[13]Hu Yang, Soltoggio A, Lock R, et al. A fully convolutional two-stream fusion network for interactive image segmentation[J]. Neural Networks, 2019, 109(3): 31-42

[14]Forte M, Price B, Cohen S, et al. Getting to 99% accuracy in interactive segmentation[J]. arXiv preprint, arXiv:2003.07932, 2020

[15]Lin Zheng, Zhang Zhao, Chen Linzhuo, et al. Interactive image segmentation with first click attention[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 13339-13348

[16]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C] //Proc of the 2018 European Conf on Computer Vision. Berlin: Springer, 2018: 801-818

[17]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778

[18]Wu Huikai, Zheng Shuai, Zhang Junge, et al. Fast end-to-end trainable guided filter[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1838-1847

[19]Chen Haipeng, Shen Xuanjing, Long Jianwu. Threshold optimization framework of global thresholding algorithms using Gaussian fitting[J]. Journal of Computer Research and Development, 2016, 53(4): 892-903 (in Chinese)(陈海鹏, 申铉京, 龙建武. 采用高斯拟合的全局阈值算法阈值优化框架[J]. 计算机研究与发展, 2016, 53(4): 892-903)

[20]Comaniciu D, Meer P. Mean shift: A robust approach toward feature space analysis[J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619

[21]Al-Amri S S, Kalyankar N V, Khamitkar S D. Image segmentation by using edge detection[J]. International Journal on Computer Science and Engineering, 2010, 2(3): 804-807

[22]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J].arXiv preprint, arXiv:1409.1556, 2014

[23]Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C] //Proc of the 2015 Int Conf on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241

[24]Zhou Zongwei, Siddiquee M M R, Tajbakhsh N, et al. Unet++: Redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 39(6): 1856-1867

[25]Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495

[26]Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J].arXiv preprint, arXiv:1412.7062, 2014

[27]Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848

[28]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J].arXiv preprint, arXiv:1706.05587, 2017

[29]Maninis K K, Caelles S, Pont-Tuset J, et al. Deep extreme cut: From extreme points to object segmentation[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 616-625

[30]Majumder S, Yao A. Content-aware multi-level guidance for interactive instance segmentation[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 11602-11611

[31]Sofiiuk K, Petrov I, Barinova O, et al. F-brs: Rethinking backpropagating refinement for interactive segmentation[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 8623-8632

[32]Gao Xinjian, Zhang Zhao, Mu Tingting, et al. Self-attention driven adversarial similarity learning network[J]. Pattern Recognition, 2020, 105(1): 107331

[33]Pang Youwei, Zhao Xiaoqi, Zhang Lihe, et al. Multi-scale interactive network for salient object detection[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 9413-9422

[34]Ji Yuzhu, Zhang Haijun, Zhang Zhao, et al. CNN-based encoder-decoder networks for salient object detection: A comprehensive review and recent advances[J]. Information Sciences, 2021, 546(1): 835-857

[35]Hariharan B, Arbeláez P, Bourdev L, et al. Semantic contours from inverse detectors[C] //Proc of the 2011 Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2011: 991-998

[36]Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338

[37]Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248-255

[38]McGuinness K, O’connor N E. A comparative evaluation of interactive segmentation algorithms[J]. Pattern Recognition, 2010, 43(2): 434-444

[39]Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C] //Proc of the 2014 European Conf on Computer Vision. Berllin: Springer, 2014: 740-755

[40]Vezhnevets V, Konouchine V. GrowCut: Interactive multi-label ND image segmentation by cellular automata[J]. Graphicon, 2005, 1(4): 150-156

[41]Gulshan V, Rother C, Criminisi A, et al. Geodesic star convexity for interactive image segmentation[C] //Proc of the 23rd IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3129-3136

[42]Bai X, Sapiro G. Geodesic matting: A framework for fast interactive image and video segmentation and matting[J]. International Journal of Computer Vision, 2009, 82(2): 113-132