-
摘要:
多聚焦图像3维形貌重建旨在利用不同聚焦水平的图像序列恢复场景的3维结构信息. 现有的3维形貌重建方法大多从单一尺度对图像序列的聚焦水平进行评价,通过引入正则化或后处理方法引导重建过程,由于深度信息选择空间的局限性往往导致重建结果无法有效收敛. 针对上述问题,提出一种多尺度代价聚合的多聚焦图像3维形貌重建框架MSCAS(multi-scale cost aggregation framework for shape from focus),该框架首先引入非降采样的多尺度变换增加输入图像序列的深度信息选择空间,然后联合尺度内序列关联与尺度间信息约束进行代价聚合,通过这种扩张-聚合模式实现了场景深度表征信息的倍增与跨尺度和跨序列表征信息的有效融合. 作为一种通用框架,MSCAS框架可实现已有模型设计类方法和深度学习类方法的嵌入进而实现性能提升. 实验结果表明:MSCAS框架在嵌入模型设计类SFF方法后4组数据集中的均方根误差RMSE(root mean squared error)平均下降14.91%,结构相似性SSIM(structural similarity index measure)平均提升56.69%,嵌入深度学习类SFF方法后4组数据集中的RMSE平均下降1.55%,SSIM平均提升1.61%. 验证了MSCAS框架的有效性和通用性.
Abstract:3D shape reconstruction aims to recover the 3D structure information of the scene by using image sequences with different focus levels. Most of the existing 3D shape reconstruction methods evaluate the focus level of the image sequence from a single scale, and guide the reconstruction process by introducing regularization or post-processing methods. Due to the limitation of the selection space of depth information, the reconstruction results often cannot converge effectively. To address this issue, this paper proposes a multi-scale cost aggregation framework for shape from focus, MSCAS. Firstly, non-downsampling multi-scale transformation is introduced to increase the depth information selection space of the input image sequence, and then the cost aggregation is performed by combining the intra-scale sequence correlation and the inter-scale information constraint. Through this expansion-aggregation mode, the doubling of scene depth representation information and the effective fusion of cross-scale and cross-sequence representation information are realized. As a general framework, the MSCAS framework can embed existing model design methods and deep learning methods to achieve performance improvement. The experimental results show that the MSCAS framework in this paper reduces the root mean square error (RMSE) on average by 14.91% and improves the structural similarity (SSIM) by 56.69% in the four datasets after embedding the model design class SFF method. After embedding the deep learning class SFF method, the RMSE in the four datasets decreases by an average of 1.55% and the SSIM increases by an average of 1.61%. These results verify the effectiveness of the MSCAS framework.
-
深度估计是计算机视觉和3维形貌重建领域的重要任务之一,目前基于图像的深度估计主要包括单目与多目深度估计,其中单目深度估计主要包括基于聚焦信息(shape from focus,SFF)[1]、阴影[2]、纹理[3]和虚焦[4]等线索的深度估计方法;多目深度估计主要包括双目视觉[5]和4D光场[6]等深度估计方法. 由于双目视觉深度估计的准确性依赖于配准算法的有效性,而4D光场方法则依赖于复杂的硬件设备,因此多目深度估计通常缺乏场景普适性. 单目深度估计方法因其数据采集端无差别化与数据易获取等特点近年来广受学术与工业界的关注[7]. 鉴于图像的阴影、纹理和轮廓等深度线索大多采用单幅图像估计场景深度信息,较少的先验信息使其无法适用于高精度的3维形貌重建场景. 而SFF重建则采用多幅不同聚焦水平的图像序列进行场景深度估计,可实现诸多场景深度更为精确的深度信息估计,广泛应用于精密制造产品质量控制、大气环境颗粒物形态学分析、生物医学分子结构观测等领域[8].
SFF重建首先通过等间隔调整相机与重建场景之间的距离,获得可以覆盖重建场景全部景深范围的不同聚焦水平的图像序列,然后采用聚焦测量方法计算图像序列的聚焦水平,最后利用后处理方法融合所有位置最清晰像素的索引,进而得到场景的3维形貌重建结果. 然而现有的聚焦测量方法具有典型的场景偏好性,使其无法有效应对复杂场景中的噪声和稀疏纹理的干扰,导致深度信息估计容易出现偏差;与此同时,现有的后处理方法难以有效联合图像序列中的关联关系与不同尺度间互补信息,无法捕捉不同场景的多尺度特征,导致深度误差被放大和积累,降低了场景的重建精度[9].
图1展示了不同尺度和噪声对场景深度估计结果造成的影响. 图1(a)为模型设计类RR算法[10](2021/TIP)加入高斯噪声与尺度缩小为64×64的重建结果;图1(b)为深度学习类FV[11]方法(2022/CVPR)在加入噪声和尺度为64×64时的重建结果. 由图1的结果可知,相比深度学习的FV方法,模型设计类RR算法在降尺度后的重建结果有一定优势,但无法有效克服噪声的干扰,而FV方法则有一定的噪声鲁棒性,但具有典型的尺度敏感性.
综上所述,为应对现有SFF方法出现的噪声和尺度鲁棒性等问题,本文提出了一种基于多尺度代价聚合的多聚集图像3维重建框架MSCAS. 作为一种通用框架,MSCAS框架可对大多数模型设计类SFF算法与深度学习类SFF算法进行嵌入,进而实现算法在噪声鲁棒性,尺度敏感性方面的性能提升,本文主要贡献如下:
1)提出了一种多尺度代价聚合的多聚集图像3维重建框架MSCAS,该框架主要分为多尺度分解与跨尺度代价聚合2个关键核心步骤. 多尺度分解有助于增加场景的深度表征信息选择空间,跨尺度聚合不仅加入了尺度间与尺度内的双重深度信息约束,而且在整个聚合过程中充分考虑图像序列中各相邻图像之间的聚焦趋势变化关系,有效提升场景重建精度的同时加速重建结果的鲁棒性收敛.
2)MSCAS作为一种通用框架,现有的大多数模型设计类SFF算法与深度学习类SFF算法均可以嵌入MSCAS框架,实现不同类型SFF重建方法性能的提升.
1. 相关工作
1.1 多聚焦图像3维形貌重建原理
多聚焦图像3维形貌重建SFF的原理是利用图像中聚焦区域反推相对深度的一种方法. 该方法通过调节成像端与场景之间的相对距离,获得场景不同焦距的图像序列;然后采用聚焦测量函数Fm(focus measure)对图像序列进行聚焦水平评价,形成聚焦度量堆栈;最后,通过聚合所有聚焦度量堆栈最大值所在索引,即可得场景的3维重建结果. 其过程如式(1)所示:
Di=argmax (1) 其中图像序列总数为N,单帧图像大小为H \times W, F{m_{i,n}} 表示第n张图像中第 i个像素索引位置的焦点测量结果,{D_i}表示第i个像素索引位置对应的深度信息,最后对深度结果进行3维空间映射可得到待测场景的3维结构信息[12].
1.2 多聚焦图像3维形貌重建研究进展
多聚焦图像3维形貌重建可分为模型设计重建与深度学习重建2大类方法.
模型设计重建方法按照处理流程可以分为聚焦测量与后处理2个关键步骤[13]. 其中,聚焦测量主要用来评价图像序列中的聚焦水平,进而获得场景的初始深度图,该过程根据聚焦信息判断的差异可以分为空间域、频率域、统计类3大类. 空间域聚焦测量评价方法主要通过聚焦测量算子与图像的卷积操作判断图像的聚焦信息,代表性的聚焦测量算子包括Laplace算子及其变体[14]、梯度类算子[15]、可变形算子等[16];频率域聚焦测量方法主要将图像变换至频域空间,然后利用高频信息判断图像的聚焦水平,代表性方法包括非降采样小波变换[17]、非降采样剪切波变换[18]、Curvelet变换[19]等;统计类聚焦测量方法主要通过统计学指标计算图像的聚焦程度,代表性方法包括基于熵的聚焦测量算子和本征值等[20]. 由于聚焦测量过程形成的初始深度会包含较多的深度不连续信息,后处理主要针对初始深度图的修复展开,典型的方法包括罚函数法、正则化、迭代修复法[21]等. 由于模型设计类聚焦判别重建方法依赖于聚焦测量方法设计的鲁棒性与有效性,其对聚焦信息判断的误差可能会传播至后处理过程,导致重建结果无法收敛. 因此,深度学习类重建方法正逐渐引起研究者们的关注.
深度学习类重建方法首先需要构建多聚焦图像序列与深度真值数据集,然后通过训练端到端的深度网络模型对场景的深度信息进行预测. 因此,现有的深度学习类重建方法主要包括数据集构建与深度网络模型设计2大类.
由于多聚焦图像3维形貌重建领域缺乏标准的真实数据集. 现有的数据集大多通过其他任务的数据移植而来. 如LF_4D_PSF数据集[22]来自于4维光场重建领域,该数据集包括人为设计的多组室内场景,数据集包含场景的全聚焦图像与深度图像,通过深度图像的点扩散函数与全聚焦图像的卷积操作获得多幅不同聚焦水平的图像序列;Middlebury_FS数据集[23]来源于多目立体匹配领域,该数据集通过RGB相机与结构光扫描仪获取的场景图与视差图;FlyingThings3D数据集[24]来源于光流估计领域,主要通过深度网络将光流估计扩展至视差估计;FoD500数据集[25]来自于虚焦深度估计领域,但该数据无法有效覆盖场景完整的深度范围. 基于上述高质量的合成数据集,借助相关网络模型可实现多聚焦图像的3维形貌结构的预测与推理.
在网络模型设计方面:DDFF模型主要提出一种单纯的端到端的卷积神经网络,并利用构建的DDFF-12数据集进行训练与预测[26];AiF在网络模型中设计了一个共享的中间注意力模块,可实现场景中全聚焦图像与深度图像的同时推理[27];FV与DFV网络模型重新审视了SFF重建问题的本质,构建了聚焦差分模块实现场景的深度信息预测[11], DFW模型提出一种对齐网络实现了错位图像序列的配准,然后设计了聚焦信息检测模块获取场景的焦点信息[22];DSFFNet通过设计可变形卷积与局部-全局关系耦合模块提升模型的全局聚焦信息捕获能力[28]. 因此,深度学习类SFF重建方法致力于如何对网络模型进行有效设计,进而提升多聚焦图像序列中聚焦体积特征刻画的准确性.
1.3 代价聚合
代价聚合源于双目立体匹配问题[29],通常情况下双目立体匹配算法首先需要进行代价计算,即在一定的视差搜索范围内计算待匹配像素与候选像素之间的相关性,这种相关性通过代价值体现,由于代价计算过程通常仅考虑局部信息,极易受到噪声与弱纹理区域的影响. 因此代价聚合则是基于一些特定假设(如相邻像素的视差值一致)使得聚合后的代价值能够更为准确的反映像素之间的相关性,其原理是将一个位置的加权响应传播到附近位置该权重由参考图像像素之间的先验知识确定[30]. 而在SFF重建中,对不同聚焦水平图像序列的聚焦测量函数Fm可以视为一种代价量变体,代价聚合过程亦可对Fm值进行优化.
代价聚合可分为局部方法和全局方法. 局部代价聚合方法的一个例子是边缘保持过滤器. 由于深度图中的异质过渡区域通常对应于场景图像中的边缘,因此可以使用双边滤波器和图像引导滤波器[31]作为代价聚合方法. 这些滤波器使用局部窗口优化代价量,同时保留引导图像中的边缘,由于局部代价聚合方法中仅仅利用了局部特征进行聚合,得到的视差对全局特征效果较差. 全局代价聚合将全局特征整合为一个能量函数,能量函数主要对整幅视差图进行能量评估,最小化能量函数可得到最终视差图,但其计算复杂度高、效率低下[32]. 上述方法基本仅考虑单一尺度情况,由于单一尺度的代价聚合容易受到噪声的影响,特别是对弱纹理或无纹理区域的聚合,可能会导致视差计算过程中误差的传播. 而多尺度代价聚合[33]由于能够在捕获不同尺度的多层次特征,能够对不同尺度的图像局部信息进行融合与筛选[34], 由于现有的多尺度代价聚合方法在分解过程存在降采样操作,且这种操作在特征融合过程中可能会出现信息损失,这无法直接应用于SFF重建过程,因为SFF重建严重依赖于图像的细节特征,任何降采样操作都可能损失一些关键深度表征信息. 因此,设计非降采样操作的多尺度代价聚合并结合SFF重建本身具有的序列关联特点有望解决目前SFF重建方法面临的深度信息有效聚合收敛的问题.
2. 多尺度代价聚合SFF重建框架
2.1 框架概述
研究表明无论是模型设计类SFF方法还是深度学习类SFF方法,均需通过聚焦体积Fv(focus volume)导出场景最终的深度结果[28]. 因此聚焦体积Fv的准确性是决定重建结果的关键. 现有的聚焦体积Fv的计算方法和设计模式大多从单一尺度进行评价,无法有效利用多尺度之间的有效信息. 尽管一些研究也采用了多尺度聚焦评价的方式[19],但这类方法缺乏图像序列之间关联关系的约束,容易导致深度信息的不连续.
本文提出一种多尺度代价聚合的多聚焦图像3维形貌重建框架MSCAS框架示意图如图2所示. MSCAS框架引入了非降采样的多尺度分解与多尺度代价聚合操作,这种扩展-聚合的模式不仅考虑了单一尺度下图像序列之间的关联关系,而且同时加入了不同尺度之间的内在联系,有助于深度表征信息的扩增与跨尺度深度信息的融合收敛. 可适配于现有主流的模型设计类SFF方法与深度学习类SFF方法中.
2.2 Atrous多尺度分解
多尺度分解的主要目的是得到多聚焦图像序列的多尺度表达,由于典型的多尺度分解方法大都涉及图像序列的降采样操作,这会导致后续聚合过程中深度表征信息的缺失. Atrous多尺度分解,因其滤波器上采样操作替代图像的下采样操作,可保证分解前后的信息在尺度上的一致性,广泛应用于图像融合[35]和图像去噪[36]等领域. 目前,已有一些研究利用Atrous多尺度分解算法应用于多聚焦图像序列融合[7],但该研究采用Atrous多尺度分解仅为获得质量较好的融合图像来引导深度信息,未考虑不同尺度对深度信息本身存在的影响. 除此之外,也有研究利用Atrous多尺度分解算法解决SFF问题[21],但该研究仅采用了其中单一尺度的信息进行深度回溯,没有充分利用多尺度信息蕴含的丰富的深度线索. 因此,本文首先对多聚焦图像序列进行Atrous多尺度分解,可保证分解后的图像序列与原始图像序列的大小保持一致. 然后在此基础上充分挖掘不同尺度中的深度线索.
定义1. 给定输入图像序列中图像的大小为H \times W,则N幅图像序列组成的多聚焦图像序列可表示为
{\boldsymbol I} = \left\{ {{I_i}\left( {x,y} \right)} \right\}_{i = 1}^N\text{,} (2) 其中 1\le x,y,z\le N .
定义2. 给定一个S级塔式分解滤波器组{{\boldsymbol H}_s}\left( z \right), 0 \leqslant s \leqslant S,则多聚焦图像序列{\boldsymbol I}在S + 1个尺度的低频子图{{\boldsymbol I}^s}可表示为
{{\boldsymbol I}^s} = {H_s}\left( z \right) * {\boldsymbol I},\;\;0 \leqslant s \leqslant S\text{,} (3) 其中{{\boldsymbol H}_s}\left( z \right)为滤波器组\{ {{\boldsymbol H}_s}\} 的z变换,表达式为
{{\boldsymbol H}_s}\left( z \right) = \prod\limits_{j = 0}^s {{{\boldsymbol H}_0}({z^{{2^j}}})} ,\;\;0 \leqslant s \leqslant S\text{,} (4) 其中{{\boldsymbol H}_0}(z)为低通分解滤波器.
定义2中后一级滤波器{{\boldsymbol H}_0}({z^{{2^{j + 1}}}})由前一级滤波器{{\boldsymbol H}_0}({z^{{2^j}}})按照采样矩阵2E(E为2阶单位矩阵)进行上采样得到,因此经过塔式滤波器后的多尺度图像序列{{\boldsymbol I}^s}与原图像序列{\boldsymbol I}具有相同大小,这种不同尺度对齐的方式不仅可减少后续多尺度代价聚合过程中复杂的权重划分问题,而且可有效保留不同尺度之间同一位置的深度表征信息,进而有助于增强深度信息判断的准确性.
2.3 多尺度代价聚合
多尺度代价聚合是MSCAS框架的核心,该模块的主要目的是对不同尺度上对聚焦体积进行逐尺度逐层聚合,单一尺度聚合过程在原有单帧图像的邻域范围的基础上加入了图像序列之间的关联关系. 跨尺度聚合过程则考虑了不同尺度的权重划分问题.
定义3. 给定一个聚焦测量方法Fm(focus measure),该方法可建立图像序列{\boldsymbol I}与聚焦体积Fv之间的映射关系:
{\boldsymbol {Fv}} = Fm\left( {\boldsymbol I} \right)\text{,} (5) 其中Fm可以是模型设计类方法的聚焦测量算子或者深度学习类方法的编码过程,对于单个像素i = \left( {{x_i},{y_i}} \right)({x_i},{y_i}表示像素位置)而言,\boldsymbol {Fv}\left( {i,l} \right) 表示第l幅图像中\left( {{x_i},{y_i}} \right)位置的聚焦测量结果.
由于SFF方法对多聚焦图像序列采用单帧图像独立聚焦评价的模式,而在实际场景中广泛存在稀疏纹理和低对比度区域的情形,这可能导致聚焦体积Fv中包含较多的噪声信息. 受加权最小二乘法去噪的启发,引入代价聚合可对Fv中的噪声进行有效去除,去噪后的聚焦体积\widetilde {{\boldsymbol {Fv}}}表示为
\widetilde {\boldsymbol {Fv}}\left( {i,l} \right) = \mathop {\arg \min }\limits_z \dfrac{1}{{{Z_i}}}\sum\limits_{j \in {{{N}}_i}} {W\left( {i,j} \right){{\left\| {z - \boldsymbol {Fv}\left( {j,l} \right)} \right\|}^2}} \text{,} (6) 其中{N_i}表示像素i 的邻域范围,W\left( {i,j} \right)表示像素i与像素j之间的相似性度量,{Z_i}为归一化常量,其表达式为
{Z_i} = \sum\limits_{j \in {N_i}} {W\left( {i,j} \right)} . (7) 由于代价聚合过程本身来自于双目立体匹配,因此典型的代价聚合过程仅考虑单幅图像邻域之间的联系,由于多聚焦图像序列之间存在较为密切的关联关系,因此本文提出的MSCAS框架中将相似性度量过程扩展至序列之间,有助于解决低对比度或者稀疏纹理区域的有效聚合问题. 具体邻域设计的差异如图3所示.
式(6)的解可通过式(8)得到:
\widetilde {\boldsymbol {Fv}}\left( {i,l} \right) = \dfrac{1}{{{Z_i}}}\sum\limits_{j \in {N_i}} {W\left( {i,j} \right)\boldsymbol {Fv}\left( {j,l} \right)} . (8) 研究表明2维图像中的颜色纹理信息通常与深度图中同质和异质区域呈现一定相关性,受引导滤波过程启发,像素间的相似度度量W\left( {i,j} \right)采用式(9)计算:
W\left( {i,j} \right) = \dfrac{1}{{{{\left| \omega \right|}^2}}}\sum\limits_{k:\left( {i,j} \right) \in {\omega _k}} {\left( {1 + \dfrac{{\left( {{I_i} - {\mu _k}} \right)\left( {{I_j} - {\mu _k}} \right)}}{{\sigma _k^2 + \varepsilon }}} \right)} \text{,} (9) 其中{\mu _k}和{\sigma _k}是图像序列{I}以第k个像素为中心,以r \times r \times r立方体范围为窗口的均值和方差. {I_i}和{I_j}表示图像序列中对应位置的像素值,|\omega |表示该窗口中的像素数,\varepsilon 是平滑度参数,在本文中参考文献[30]设置为{0.01^2}.
当加入尺度信息后,对于任一尺度
s \in \left\{ {0,1,2, … ,S} \right\},其可通过式(10)独立求解:
{\widetilde {\boldsymbol {Fv}}^s}\left( {{i^s},{l^s}} \right) = \mathop {\arg \min }\limits_{\{ {z^s}\} _{s = 0}^S} \dfrac{1}{{Z_{^{{i^s}}}^s}}\sum\limits_{j \in {N_{{i^s}}}} {W\left( {{i^s},{j^s}} \right){{\left\| {{z^s} - {\boldsymbol {Fv}}{^s}\left( {{j^s},{l^s}} \right)} \right\|}^2}} . (10) 根据式(8)可以计算得到式(10)的解如下所示:
\forall s,{\widetilde {\boldsymbol {Fv}}^s}\left( {{i^s},{l^s}} \right) = \dfrac{1}{{Z_{{i^s}}^s}}\sum\limits_{j \in {N_{{i^s}}}} {W\left( {{i^s},{j^s}} \right)C\left( {{j^s},{l^s}} \right)} . (11) 由于不同尺度之间聚焦体积存在信息互补的情形,因此为有效利用不同尺度之间的联系,通过引入正则化项可实现不同尺度之间的约束. 式(10)则变为如下优化问题:
\begin{split} {\widehat {\boldsymbol {Fv}}^s}\left( {{i^s},{l^s}} \right) =& \mathop {\arg \min }\limits_{\{ {z^s}\} _{s = 0}^S} \Bigg( \dfrac{1}{{Z_{^{{i^s}}}^s}}\sum\limits_{j \in {N_{{i^s}}}} {W\left( {{i^s},{j^s}} \right){{\left\| {{z^s} - {\boldsymbol {Fv}}{^s}\left( {{j^s},{l^s}} \right)} \right\|}^2}} +\\ & \lambda \sum\limits_{s = 1}^S {{{\left\| {{z^s} - {z^{s - 1}}} \right\|}^2}} \Bigg).\\[-1pt] \end{split} (12) 通过对式(12)求导可得
\begin{split} & {\dfrac{{\partial {{\widehat {\boldsymbol {Fv}}}^s}}}{{\partial {z^s}}} = \dfrac{2}{{Z_{{i^s}}^s}}\sum\limits_{{j^s} \in {N_{{i^s}}}} {W\left( {{i^s},{j^s}} \right)\left( {{z^s} - {\boldsymbol {Fv}}{^s}\left( {{j^s},{l^s}} \right)} \right)} } + 2\lambda \left( {{z^s} - {z^{s - 1}}} \right) -\\ &2\lambda \left( {{z^{s + 1}} - {z^s}} \right) = 2\left( { - \lambda {z^{s - 1}} + \left( {1 + 2\lambda } \right){z^s} - \lambda {z^{s + 1}} - {{\widetilde {\boldsymbol {Fv}}}^s}\left( {{i^s},{l^s}} \right)} \right). \end{split} (13) 令\dfrac{{\partial {{\widehat {\boldsymbol {Fv}}}^s}}}{{\partial {z^s}}} = 0,即有
{\widetilde {\boldsymbol {Fv}}^s}\left( {{i^s},{l^s}} \right) = - \lambda {z^{s - 1}} + \left( {1 + 2\lambda } \right){z^s} - \lambda {z^{s + 1}}. (14) 同理上述结果适用于尺度范围从0~S的情形,因此可以建立 {\widehat {\boldsymbol {Fv}}^s}与{\widetilde {{\boldsymbol {Fv}}}^s}的联系,即
{\boldsymbol A}{\widehat {\boldsymbol {Fv}}^s} = {\widetilde {{\boldsymbol {Fv}}}^s}\text{,} (15) 其中矩阵{\boldsymbol A}由不同尺度构成的三角矩阵,当最大尺度S = 2时,其表达式为
{\boldsymbol A} = \left[ {\begin{array}{*{20}{c}} {1 + \lambda }&{ - \lambda }&0 \\ { - \lambda }&{1 + 2\lambda }&{ - \lambda } \\ 0&{ - \lambda }&{1 + \lambda } \end{array}} \right]\text{,} (16) 且其必然存在逆矩阵{{\boldsymbol A}^{ - 1}},则可得到
{\widehat {\boldsymbol {Fv}}^s} = {{\boldsymbol A}^{ - 1}}{\widetilde {{\boldsymbol {Fv}}}^s}. (17) 最后将所有尺度汇总到最精细尺度{\widehat {\boldsymbol {Fv}}^0}:
{\widehat {\boldsymbol {Fv}}^0}\left( {{i^{\,0}},{l^{\,0}}} \right) = \sum\limits_{s = 0}^S {{{\boldsymbol A}^{ - 1}}\left( {0,s} \right){{\widetilde {\boldsymbol {Fv}}}^s}\left( {{i^s},{l^s}} \right)} . (18) 通过式(19)得到多尺度代价聚合后聚焦体积的深度结果:
{{\boldsymbol D}_{{i^{\,0}}}} = \mathop {\arg \max }\limits_{{l^{\,0}}} \left\{ {P\left( {{{\widehat {\boldsymbol {Fv}}}^0}\left( {{i^{\,0}},{l^{\,0}}} \right)} \right)} \right\} \text{,} (19) 其中 {\boldsymbol D} 为3维形貌重建结果,由于 {i^{\,0}} 为最精细尺度, 所以有 {i^{\,0}} = i , {l^{\,0}} = l . P( \cdot ) 为模型设计类方法的后处理过程或者是深度学习类方法解码过程.
通过上述多尺度代价聚合过程,MSCAS框架不仅在特定尺度考虑了图像序列间的关联关系,还将跨尺度之间的信息约束考虑在内,进而从水平的单一尺度与垂直的跨多尺度2个层面提升深度信息判断的准确性与抗噪鲁棒性.
2.4 MSCAS算法流程
算法1. MSCAS:多尺度代价聚合SFF重建框架.
输入:多聚焦图像序列{\boldsymbol I};
输出:根据式(19)得到场景的3维形貌重建结果 {\boldsymbol D} .
① 图像序列{\boldsymbol I}进行Atrous多尺度分解,得到{{\boldsymbol I}^s}, 0 \leqslant s \leqslant S;
② 对任意尺度使用聚焦评价得到聚焦体积{\boldsymbol F}{{\boldsymbol v}^s}, 0 \leqslant s \leqslant S;
③ 根据式(11)对所有尺度的{\boldsymbol F}{{\boldsymbol v}^s}进行代价聚合 得到{\widetilde {{\boldsymbol {Fv}}}^s};
④ 根据式(18)计算多尺度代价聚合后的聚焦体 积{\widehat {\boldsymbol {Fv}}^0}.
3. 实验及结果分析
3.1 实验设置
本文实验可分为2部分:模型设计类SFF重建方法与深度学习类SFF重建方法. 其中模型设计类SFF重建方法均使用matlab中的图像处理与计算机视觉工具包实现,深度学习类SFF方法则均使用PyTorch框架实现,运算环境为Ubuntu 18.04.6 LTS,62.5 GB DDR4 DDIM,Intel@ Xeon(R) W-2255 CPU @ 3.70 GHz×20,NVIDIA GeForce RTX 4090,显存24 GB. 模型设计类SFF重建各方法均采用原算法默认参数. 深度学习类SFF重建方法中所有模型的训练设置相同,使用Adam优化器,初始学习率设置为10−4,训练100轮次,批处理大小设置为4.
3.2 数据集
本文采用SFF重建方法常用的4种多聚焦图像3维形貌重建基准数据集:LF_4D_PSF[22],Middlebury_FS[23],FlyingThings3D[24],FoD500[25]. 各数据集统计信息如表1所示.
表 1 数据集统计信息Table 1. Statistic Information of Datasets数据集名称 图像来源 场景数 图像大小 LF_4D_PSF 合成场景 24 512×512×30 Middlebury_FS 真实场景 33 2 964×1 988×15 FlyingThings3D 合成场景 1 000 960×540×15 FoD500 合成场景 500 256×256×5 LF_4D_PSF数据集来源于4维光场重建领域,包含24个模拟场景,每个场景提供了场景图与深度真值. 每个场景的深度真值通过点扩散函数映射至场景图实现30幅不同聚焦水平的图像序列.
Middlebury_FS数据集来源于立体匹配3维重建领域,包含33个静态室内场景,提供了相机标定参数和结构光扫描仪获取的场景真值视差图. 每个场景包含15幅不同聚焦水平的堆栈,场景包括重复结构、遮挡、细线状物体以及无纹理区域.
FlyingThings3D数据集来源于光流估计领域,包含1 000幅随机生成的飞行物体及3D轨迹,该数据集将卷积网络光流估计的概念扩展到视差估计,每个场景包含15幅不同聚焦水平的堆栈.
FoD500数据集来源于单目深度估计领域,包含500个场景,由于该数据集采用散焦模式生成,因此每个场景包含的5幅不同聚焦水平的堆栈无法有效覆盖场景全部景深范围,因此本文实验仅比较其量化指标.
3.3 对比方法
本文分别选择4种模型设计类SFF方法与4种深度学习类SFF方法进行实验分析. 各对比算法的参数设置见表2.
表 2 对比SFF算法信息汇总Table 2. Information Summary of Comparative SFF Algorithms对比
算法归属类型 期刊或会
议/年份参数设置 SML 模型设计类SFF PR/2013 T1=7,step=1,N=2 GD 模型设计类SFF PR/2013 Sigma=2,hsize=5 RDF 模型设计类SFF TIP/2020 Tmad=0.1,Tbokeh=0.15,
Fm (r1=1 r2=2 r3=5)RR 模型设计类SFF TIP/2021 lambda=0.3,alpha=0.1,beta=1.5,gamma=2.5,itr=8,nei=2 DFV 深度学习类SFF CVPR/2022 Adam (β1 = 0.9,β2 = 0.999),
alpha ={8/15,4/15,2/15,1/15}FV 深度学习类SFF CVPR/2022 Adam(β1 = 0.9 ,β2 = 0.999),
alpha ={8/15,4/15,2/15,1/15}DFW 深度学习类SFF ECCV/2022 Adam( β1 = 0.9,β2 = 0.99) AiF 深度学习类SFF ICCV/2021 Adam( β1 = 0.9,β2 = 0.999) 1)4种模型设计类SFF方法
①修正拉普拉斯SML(sum-modified Laplacian)[13]和函数. SML作为聚焦度量算子,主要通过提取图像边缘判定图像的清晰区域,该方法对亮度变化不敏感,可得到明显聚焦峰值,表达式为
F{m}_{\text{SML}}(x,y)= {\displaystyle \sum _{u=-k}^{k}{\displaystyle \sum _{v=-k}^{k}\left|{I}_{xx}(x+u,y+v)\right|}+\left|{I}_{yy}(x+u,y+v)\right|\text{,}} (20) 其中{I_{xx}}和{I_{yy}}代表图像在x和y方向上的2阶偏导数,k表示模板大小的半径. u和v表示模板中的像素位置相对于当前像素(x,y)的偏移量.
②高斯导数(Gaussian derivative,GD)算子[13]. GD算子通过高斯平滑有效地抑制噪声,由于拥有不同大小的高斯核,具备较好的尺度不变性,表达式为
F{m_{{\text{GD}}}}(x,y) = - \dfrac{1}{{2{\text{π}}{\sigma ^2}}}{{\text{e}}^{ - \tfrac{{{x^2} + {y^2}}}{{2{\sigma ^2}}}}}\text{,} (21) 其中 \sigma 为标准差,表示高斯函数的宽度.
③环差滤波器(ring difference filter,RDF)[16]. 算子通过设计不同半径的环形模板,将多个环形模板得到的局部聚焦度量值进行线性加权平均获取图像的局部和全局信息,进而得到综合聚焦度量值. 其表达式为
F{m}_{\text{RDF}}=\left\{\begin{aligned}&\dfrac{2}{\text{π}{R}_{1}^{2}}\text{,}\quad\quad\quad\quad\, \left|x-y\right| < {R}_{1}\text{,}\\ &-\dfrac{2}{\text{π}\left({R}_{3}^{2}-{R}_{2}^{2}\right)}\text{,}\;\; {R}_{2}\le \left|x-y\right|\le {R}_{3}\text{,}\end{aligned}\right. (22) 其中{R_1},{R_2},{R_3}分别为环半径.
④ RR(robust regularization)[10]. RR方法采用体积约束进行正则化,将3维形貌重建问题转化为一个罚函数优化问题,并通过最小化能量函数来实现深度估计,其表达式如下:
F{m_{{\text{RR}}}} = \sum\limits_{p \in {\varOmega }} {{{({u_p} - F{m_{{\text{ML}}}})}^2} + \lambda {\varTheta }(u)} \text{,} (23) 其中{u_p}为数据保真项,F{m_{{\text{ML}}}}为修正的拉普拉斯聚焦测量算子,{\varTheta }(u)为正则化项,\lambda 控制2项的相对重要性.
2)4种深度学习类SFF方法
① DFV(deep differential focus volume)[11]. DFV网络根据卷积神经网络模型,提出了深度差分聚焦体积网络. 旨在通过使用不同焦距上的堆叠特征计算一阶导数,进而捕获焦点和上下文信息辅助进行焦点分析.
② FV(focus volume)[11]. FV网络首次将4维聚焦体积引入SFF任务,通过最大值自变量点集计算位置概率信息,具有高效实时等特点,可以快速响应图像中的轮廓和边缘信息.
③ DFW(depth from wild)[23] . DFW网络提出了可学习的基于上下文图像对齐方法,能够对虚焦图像进行有效对齐. 引入了锐化区域检测模块减少弱纹理区域中细微焦点变化引起的模糊歧义,同时设计了一种高效下采样模块提取焦点信息流.
④ AiF(all-in-focus)[27]. AiF方法连接了有监督和无监督学习,AiF提出了一种共享网络,可从不同聚焦图像序列中利用一个中间的注意力机制同时估计深度和全焦图像.
3.4 评价指标
本文在重建结果评价方面采用4种评价指标,均方根误差RMSE(root mean squared error),结构相似度SSIM(structural similarity index measure),相关系数Corr(correlation coefficient),峰值信噪比PSNR(peak signal-to-noise ratio),其公式如下:
\left\{\begin{aligned} & RMS E=\sqrt{\dfrac{1}{M}{\displaystyle \sum _{i\in M}{(G{T}_{i}-{D}_{i})}^{2}}}\text{,}\\ & S S I M=\dfrac{(2{\mu }_{GT}{\mu }_{D}+{C}_{1})(2{\sigma }_{GT,D}+{C}_{2})}{({\mu }_{GT}^{2}+{\mu }_{D}^{2}+{C}_{1})({\sigma }_{GT}^{2}+{\sigma }_{D}^{2}+{C}_{2})}\text{,}\\ & Corr=\dfrac{{\displaystyle \sum _{i\in M}({D}_{i}-{\mu }_{D})(G{T}_{i}-{\mu }_{GT})}}{\sqrt{{\displaystyle \sum _{i\in M}{({D}_{i}-{\mu }_{D})}^{2}}}\sqrt{{\displaystyle \sum _{i\in M}(G{T}_{i}-{\mu }_{GT}){}^{2}}}}\text{,}\\ & PS NR=10\times \mathrm{lg}\left(\dfrac{\text{max}\times M}{{\displaystyle \sum _{i\in M}{(G{T}_{i}-{D}_{i})}^{2}}}\right)\text{,}\end{aligned}\right. (24) 其中GT代表场景真值深度图,D代表预测深度图,M代表深度图的总像素数,{\mu _{GT}}代表场景真值深度图的深度均值,{\mu _D}代表预测深度图的深度均值,{\sigma _{GT}}代表场景深度真值深度标准差,{\sigma _D}代表预测深度图的深度标准差. {\text{max}}代表图像中像素比较的最大范围.
3.5 正则化参数\lambda 的选择
由式(12)可知,正则化参数\lambda 可调整不同尺度之间权重的变化,\lambda 越小表明最精细尺度Fv起主要作用,随着\lambda 的增加,其他尺度的权重逐渐增加. 为客观评价本文框架对不同算法性能的提升,本节实验将正则化参数\lambda 的范围设置为0~2,观察不同算法在LF_4D_PSF 数据集中平均RMSE指标的变化情况.
图4表明所有算法随着\lambda 逐渐增大平均RMSE值出现降低,在\lambda \geqslant 1时RMSE下降幅度逐渐放缓. 因此, 针对不同算法设计不同的\lambda 值会使得算法的性能得到有效提升,为兼顾不同算法间性能,同时便于分析比较MSCAS框架对各算法的提升效果. 本文推荐\lambda {\text{ = }}1作为各算法的正则化参数.
3.6 稀疏区域样本的定性分析
本节选择具有稀疏区域的样本验证MSCAS框架的有效性,由图5(a)可知,场景中小矩形框中的白色瓶体因为光照原因导致了表面具有稀疏纹理的特性,而大矩形区域由于场景物体表面的金属高反光特性也产生了弱纹理区域. 由图5(b)可以看出,RR算法因为未考虑图像序列间聚焦信息的趋势变化关系,导致其无法对这2部分区域进行有效重建,而嵌入本文框架后的RR-MSCAS算法则充分考虑了尺度内序列间关联关系与跨尺度间深度表征信息的互补特性,可对这2类区域实现有效重建.
3.7 尺度鲁棒性对比实验分析
为验证本文MSCAS框架在不同尺度下的鲁棒性,本节选择对场景的结构信息保留程度较好的平均SSIM值作为评价指标,并以LF_4D_PSF数据集为例,将该数据集扩展为512×512,256×256,128×128,64×64这4种尺度,分别在8种SFF重建方法进行 实验.
图6中不带网点的SxOA(x \in \{ 1,2,3,4\} 分别表示上述4种不同尺度)代表未嵌入MSCAS的原方法,带网点的SxMSCAS代表嵌入MSCAS后的SFF重建方法. 结果可以发现不同尺度中嵌入MSCAS框架的SxMSCAS算法的平均SSIM值有显著提升. 具体而言, 嵌入MSCAS框架后算法在512×512尺度上平均SSIM提升了15.04%,在256×256尺度上平均提升了27.88%,在128×128尺度平均提升了47.14%,在64×64尺度上平均提升了64.87%. 实验结果呈现出尺度越低,性能提升越明显的趋势. 因此,引入MSCAS框架可有效提升不同类型SFF重建算法的尺度鲁棒性.
3.8 噪声鲁棒性对比实验分析
为验证本文MSCAS框架的噪声鲁棒性,本节以LF_4D_PSF数据集为例,分别对该数据集加入\sigma = 0.005,\sigma = 0.01,\sigma = 0.02,\sigma = 0.04这4种不同强度高斯白噪声. 然后以平均SSIM测试8种不同算法的噪声鲁棒性. 具体从以下4个角度进行实验分析,分别是加入噪声的原算法(NxOA,x \in \{ 1,2,3,4\} 分别表示上述4种不同强度噪声),仅加入多尺度分解的算法(NxMS),仅加入跨尺度代价聚合算法(NxCA)和嵌入本文MSCAS框架的算法(NxMSCAS).
由图7的实验结果可知,嵌入MSCAS框架后的各SFF算法NxMSCAS在不同强度噪声干扰下性能均优于仅加入多尺度分解的NxMS算法,仅加入跨尺度代价聚合算法NxCA和原算法NxOA. 其中NxCA算法的贡献显著优于NxMS算法. 具体结果如下:当噪声强度为\sigma = 0.005时(图7(a)),NxMSCAS算法,NxCA算法和NxMS算法相比于NxOA算法分别提升了29.21%,23.20%,12.58%,在\sigma = 0.01时(图7(b))分别提升了32.29%,18.63%,7.64%,在\sigma = 0.02时(图7(c))分别提升了30.87%,20.88%,11.69%,在\sigma = 0.04时(图7(d))分别提升了30.91%,20.72%,12.53%. 上述实验表明了嵌入MSCAS框架后各SFF重建方法具有了一定的噪声鲁棒性.
3.9 对比实验结果分析
本节主要从3.4节的4种客观评价指标和3维形貌重建的实际效果2个层面对本文提出的MSCAS框架进行定量与定性分析.
如表3所示,分别为将本文MSCAS框架嵌入8种不同类型的SFF重建方法中,并在LF_4D_PSF,Middlebury_FS,FlyingThings3D,FoD500这4种数据集中通过RMSE,SSIM,PSNR,Corr这4个评价指标的平均值进行统一量化分析. 由于深度学习类SFF重建方法将RMSE值做了归一化处理,为了便于统一分析比较,本节实验中将模型设计类SFF重建方法的RMSE指标也进行了归一化处理.
表 3 8种SFF算法在嵌入MSCAS框架前后在4组数据集中的性能比较Table 3. Performance Comparison of Eight SFF Methods Before and After Embedding Into the MSCAS Framework Across Four Datasets数据集 SFF算法 RMSE SSIM PSNR Corr 原算法 MSCAS 原算法 MSCAS 原算法 MSCAS 原算法 MSCAS LF_4D_PSF 模
型
设
计
类
方
法SML 0.1496 0.1090 0.4469 0.7966 18.3668 23.9198 0.8696 0.9485 GD 0.2223 0.1165 0.2832 0.7442 14.5452 20.4300 0.6336 0.8989 RDF 0.2316 0.2199 0.7560 0.7842 23.6176 24.2911 0.9277 0.9404 RR 0.2032 0.2008 0.7202 0.7326 20.4564 21.6689 0.9528 0.9533 平均值 0.2017 0.1616 0.5516 0.7644 19.2465 22.5775 0.8459 0.9353 MSCAS-原算法 ↓ 19.90% ↑ 38.58% ↑ 17.31% ↑ 10.56% LF_4D_PSF 深
度
学
习
类
方
法DFV 0.1537 0.1535 0.8550 0.8568 31.3306 31.3323 0.9724 0.9726 FV 0.1549 0.1539 0.8570 0.8570 31.2746 31.2746 0.9722 0.9727 DFW 0.1288 0.1267 0.9059 0.9075 22.8388 22.9407 0.9802 0.9807 AiF 0.2014 0.2008 0.8609 0.8610 24.7897 24.8060 0.9610 0. 9614 平均值 0.1597 0.1587 0.8697 0.8706 27.558 27.5884 0.9714 0.9753 MSCAS-原算法 ↓0.61% ↑ 0.10% ↑ 0.11% ↑ 0.40% Middlebury_FS 模
型
设
计
类
方
法SML 0.2427 0.1587 0.5822 0.8357 20.2120 28.5160 0.6537 0.7842 GD 0.3323 0.2315 0.2832 0.7442 14.5452 20.4300 0.6336 0.8989 RDF 0.2173 0.2001 0.7560 0.7842 23.6176 24.2911 0.9277 0.9404 RR 0.2373 0.2177 0.6993 0.7443 20.4192 20.8774 0.7303 0.7617 平均值 0.2574 0.2020 0.5802 0.7771 19.6985 23.5286 0.7363 0.8463 MSCAS-原算法 ↓ 21.52% ↑ 33.94% ↑ 19.44% ↑14.94% 深
度
学
习
类
方
法DFV 0.2072 0.1781 0.6259 0.7832 16.5332 20.3561 0.6277 0.7242 FV 0.2315 0.2257 0.7195 0.7428 18.5480 19.1125 0.6478 0.6453 DFW 0.1611 0.1604 0.9003 0.9056 24.3239 24.7180 0.9477 0.9573 AiF 0.1863 0.1839 0.8316 0.8344 15.6351 15.7596 0.6470 0.6528 平均值 0.1965 0.1870 0.7693 0.8165 18.7600 19.9866 0.7175 0.7449 MSCAS-原算法 ↓ 4.83% ↑ 6.13% ↑ 6.54% ↑ 3.81% FlyingThings3D 模
型
设
计
类
方
法SML 0.4932 0.4233 0.5712 0.7676 19.5562 22.2396 0.6081 0.7771 GD 0.5674 0.4941 0.3421 0.6855 18.0108 21.0306 0.4860 0.6908 RDF 0.4296 0.4688 0.8084 0.8088 22.5519 22.5993 0.8082 0.7995 RR 0.3595 0.3332 0.6777 0.7380 21.3148 22.6925 0.6617 0.7336 平均值 0.4624 0.4299 0.5999 0.7500 20.3584 22.1405 0.6410 0.7503 MSCAS-原算法 ↓ 7.04% ↑ 25.03% ↑ 8.75% ↑ 17.04% 深
度
学
习
类
方
法DFV 0.1671 0.165 0.7211 0.7243 17.4136 17.5663 0.7637 0.7659 FV 0.1785 0.1775 0.6589 0.6594 11.1037 11.259 0.7783 0.7796 DFW 0.0989 0.0982 0.8981 0.9005 21.2965 21.3839 0.9752 0.9775 AiF 0.1221 0.1220 0.9303 0.9307 20.0441 20.0441 0.8157 0.8158 平均值 0.1416 0.1406 0.8021 0.8037 17.4644 17.5633 0.8332 0.8346 MSCAS-原算法 ↓ 0.68% ↑ 0.20% ↑ 0.56% ↑ 0.17% FoD500 模
型
设
计
类
方
法SML 0.7568 0.6556 0.0588 0.2907 7.7804 7.4255 0.1323 0.4021 GD 0.7725 0.7672 0.0382 0.4569 7.4420 9.0262 0.0863 0.2245 RDF 0.6517 0.6492 0.4119 0.4514 8.0394 8.7521 0.4675 0.4990 RR 0.7580 0.5391 0.2103 0.4493 13.9154 15.2250 0.2036 0.3114 平均值 0.7348 0.6528 0.1798 0.4121 9.2943 10.1072 0.2224 0.3593 MSCAS-原算法 ↓ 11.16% ↑ 129.19% ↑ 8.75% ↑ 61.52% 深
度
学
习
类
方
法DFV 0.1667 0.1667 0.9064 0.9064 31.0472 31.0482 0.8548 0.8549 FV 0.1667 0.1667 0.9064 0.9064 31.0475 31.0479 0.8548 0.8549 DFW 0.0859 0.0857 0.9251 0.9252 24.2539 24.2541 0.9207 0.9213 AiF 0.1509 0.1507 0.9104 0.9107 30.2036 30.2038 0.8742 0.8743 平均值 0.1425 0.1424 0.9120 0.9121 29.1380 29.1385 0.8761 0.8764 MSCAS-原算法 ↓ 0.07% ↑ 0.01% ↑ 0.00% ↑ 0.02% 表3表明本文MSCAS框架对模型设计类SFF重建方法性能的提升显著优于深度学习类SFF重建方法. 这是由于深度学习类SFF重建方法基于上述数据集进行训练,可能会出现过拟合的情况,加之训练数据集场景样本多样性较少,如FoD500数据集中堆栈数仅为5,除此之外, RMSE指标均做归一化处理,所以体现在性能指标上的变化也最小.
带有下划线的指标表示性能提升.
图8选择了LF_4D_PSF数据集中的2个样本进行主观分析,从矩形区域可以看出,本文MSCAS框架对模型设计类SFF重建方法的提升效果明显,特别是较好的聚合了GD算法原始稀疏的重建结果,除此之外,MSCAS框架可对RR算法的错误深度点进行有效聚合,最后本文MSCAS框架对深度学习类SFF算法在边缘细节方面有一定提升.
图9为Middlebury_FS数据集中选择的场景,且该数据集中的深度真值本身存在一些深度缺失区域,从矩形区域可以看出,MSCAS框架不仅对深度信息缺失区域有一定的修复效果,而且对RDF和RR方法的细节保留和噪声去除方面有一定效果,特别是对深度学习类的FV方法的有显著提升,如场景一种的椅子与场景2中的桌子的深度层次更加趋于真值.
图10为FlyingThings3D数据集中的重建结果比较,由于该数据集通过软件合成,因此深度真值具有典型的层次结构,各算法均可以得到较为理想的结果.
从矩形框可以看出,模型设计类SFF在嵌入MSCAS框架后可以去除一些背景噪声,深度学习类SFF方法在嵌入MSCAS框架后可以得到较为清晰的边缘细节.
综上所述,本文提出的MSCAS框架无论是在细节保留还是背景去噪方面均具有一定的优势,而且可以对主流的大多数模型设计类SFF方法与深度学习类SFF重建方法进行嵌入且实现性能提升,尤其是对模型设计类SFF重建方法的性能有较大提升,对深度学习类SFF重建方法的边缘细节信息有较好的保留.
4. 总 结
为了克服现有多聚焦图像3维形貌重建方法在重建过程中的深度信息缺乏与序列间趋势关联信息的缺失. 提出了一种多尺度代价聚合的多聚焦图像3维形貌重建通用框架MSCAS,该框架引入了非降采样多尺度分解过程实现深度表征信息的倍增,通过多尺度代价聚合实现了尺度间与尺度内关联信息的快速收敛,可对主流的模型设计类SFF方法与深度学习类SFF方法进行嵌入并实现性能的提升. 在未来的工作中,需要进一步考虑如何根据场景内容实现不同尺度间自适应权重的划分,这将有助于算法的性能实现进一步提升.
作者贡献声明:闫涛提出算法框架并撰写论文;尙起慧进行实验分析;吴鹏和张江峰提出了修改意见;钱宇华指导了论文整体框架;陈斌提出了论文的实验角度.
-
表 1 数据集统计信息
Table 1 Statistic Information of Datasets
数据集名称 图像来源 场景数 图像大小 LF_4D_PSF 合成场景 24 512×512×30 Middlebury_FS 真实场景 33 2 964×1 988×15 FlyingThings3D 合成场景 1 000 960×540×15 FoD500 合成场景 500 256×256×5 表 2 对比SFF算法信息汇总
Table 2 Information Summary of Comparative SFF Algorithms
对比
算法归属类型 期刊或会
议/年份参数设置 SML 模型设计类SFF PR/2013 T1=7,step=1,N=2 GD 模型设计类SFF PR/2013 Sigma=2,hsize=5 RDF 模型设计类SFF TIP/2020 Tmad=0.1,Tbokeh=0.15,
Fm (r1=1 r2=2 r3=5)RR 模型设计类SFF TIP/2021 lambda=0.3,alpha=0.1,beta=1.5,gamma=2.5,itr=8,nei=2 DFV 深度学习类SFF CVPR/2022 Adam (β1 = 0.9,β2 = 0.999),
alpha ={8/15,4/15,2/15,1/15}FV 深度学习类SFF CVPR/2022 Adam(β1 = 0.9 ,β2 = 0.999),
alpha ={8/15,4/15,2/15,1/15}DFW 深度学习类SFF ECCV/2022 Adam( β1 = 0.9,β2 = 0.99) AiF 深度学习类SFF ICCV/2021 Adam( β1 = 0.9,β2 = 0.999) 表 3 8种SFF算法在嵌入MSCAS框架前后在4组数据集中的性能比较
Table 3 Performance Comparison of Eight SFF Methods Before and After Embedding Into the MSCAS Framework Across Four Datasets
数据集 SFF算法 RMSE SSIM PSNR Corr 原算法 MSCAS 原算法 MSCAS 原算法 MSCAS 原算法 MSCAS LF_4D_PSF 模
型
设
计
类
方
法SML 0.1496 0.1090 0.4469 0.7966 18.3668 23.9198 0.8696 0.9485 GD 0.2223 0.1165 0.2832 0.7442 14.5452 20.4300 0.6336 0.8989 RDF 0.2316 0.2199 0.7560 0.7842 23.6176 24.2911 0.9277 0.9404 RR 0.2032 0.2008 0.7202 0.7326 20.4564 21.6689 0.9528 0.9533 平均值 0.2017 0.1616 0.5516 0.7644 19.2465 22.5775 0.8459 0.9353 MSCAS-原算法 ↓ 19.90% ↑ 38.58% ↑ 17.31% ↑ 10.56% LF_4D_PSF 深
度
学
习
类
方
法DFV 0.1537 0.1535 0.8550 0.8568 31.3306 31.3323 0.9724 0.9726 FV 0.1549 0.1539 0.8570 0.8570 31.2746 31.2746 0.9722 0.9727 DFW 0.1288 0.1267 0.9059 0.9075 22.8388 22.9407 0.9802 0.9807 AiF 0.2014 0.2008 0.8609 0.8610 24.7897 24.8060 0.9610 0. 9614 平均值 0.1597 0.1587 0.8697 0.8706 27.558 27.5884 0.9714 0.9753 MSCAS-原算法 ↓0.61% ↑ 0.10% ↑ 0.11% ↑ 0.40% Middlebury_FS 模
型
设
计
类
方
法SML 0.2427 0.1587 0.5822 0.8357 20.2120 28.5160 0.6537 0.7842 GD 0.3323 0.2315 0.2832 0.7442 14.5452 20.4300 0.6336 0.8989 RDF 0.2173 0.2001 0.7560 0.7842 23.6176 24.2911 0.9277 0.9404 RR 0.2373 0.2177 0.6993 0.7443 20.4192 20.8774 0.7303 0.7617 平均值 0.2574 0.2020 0.5802 0.7771 19.6985 23.5286 0.7363 0.8463 MSCAS-原算法 ↓ 21.52% ↑ 33.94% ↑ 19.44% ↑14.94% 深
度
学
习
类
方
法DFV 0.2072 0.1781 0.6259 0.7832 16.5332 20.3561 0.6277 0.7242 FV 0.2315 0.2257 0.7195 0.7428 18.5480 19.1125 0.6478 0.6453 DFW 0.1611 0.1604 0.9003 0.9056 24.3239 24.7180 0.9477 0.9573 AiF 0.1863 0.1839 0.8316 0.8344 15.6351 15.7596 0.6470 0.6528 平均值 0.1965 0.1870 0.7693 0.8165 18.7600 19.9866 0.7175 0.7449 MSCAS-原算法 ↓ 4.83% ↑ 6.13% ↑ 6.54% ↑ 3.81% FlyingThings3D 模
型
设
计
类
方
法SML 0.4932 0.4233 0.5712 0.7676 19.5562 22.2396 0.6081 0.7771 GD 0.5674 0.4941 0.3421 0.6855 18.0108 21.0306 0.4860 0.6908 RDF 0.4296 0.4688 0.8084 0.8088 22.5519 22.5993 0.8082 0.7995 RR 0.3595 0.3332 0.6777 0.7380 21.3148 22.6925 0.6617 0.7336 平均值 0.4624 0.4299 0.5999 0.7500 20.3584 22.1405 0.6410 0.7503 MSCAS-原算法 ↓ 7.04% ↑ 25.03% ↑ 8.75% ↑ 17.04% 深
度
学
习
类
方
法DFV 0.1671 0.165 0.7211 0.7243 17.4136 17.5663 0.7637 0.7659 FV 0.1785 0.1775 0.6589 0.6594 11.1037 11.259 0.7783 0.7796 DFW 0.0989 0.0982 0.8981 0.9005 21.2965 21.3839 0.9752 0.9775 AiF 0.1221 0.1220 0.9303 0.9307 20.0441 20.0441 0.8157 0.8158 平均值 0.1416 0.1406 0.8021 0.8037 17.4644 17.5633 0.8332 0.8346 MSCAS-原算法 ↓ 0.68% ↑ 0.20% ↑ 0.56% ↑ 0.17% FoD500 模
型
设
计
类
方
法SML 0.7568 0.6556 0.0588 0.2907 7.7804 7.4255 0.1323 0.4021 GD 0.7725 0.7672 0.0382 0.4569 7.4420 9.0262 0.0863 0.2245 RDF 0.6517 0.6492 0.4119 0.4514 8.0394 8.7521 0.4675 0.4990 RR 0.7580 0.5391 0.2103 0.4493 13.9154 15.2250 0.2036 0.3114 平均值 0.7348 0.6528 0.1798 0.4121 9.2943 10.1072 0.2224 0.3593 MSCAS-原算法 ↓ 11.16% ↑ 129.19% ↑ 8.75% ↑ 61.52% 深
度
学
习
类
方
法DFV 0.1667 0.1667 0.9064 0.9064 31.0472 31.0482 0.8548 0.8549 FV 0.1667 0.1667 0.9064 0.9064 31.0475 31.0479 0.8548 0.8549 DFW 0.0859 0.0857 0.9251 0.9252 24.2539 24.2541 0.9207 0.9213 AiF 0.1509 0.1507 0.9104 0.9107 30.2036 30.2038 0.8742 0.8743 平均值 0.1425 0.1424 0.9120 0.9121 29.1380 29.1385 0.8761 0.8764 MSCAS-原算法 ↓ 0.07% ↑ 0.01% ↑ 0.00% ↑ 0.02% -
[1] Nayar S K, Nakagawa Y. Shape from focus[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(8): 824−831 doi: 10.1109/34.308479
[2] Tao M W, Srinivasan P P, Hadap S, et al. Shape estimation from shading, defocus, and correspondence using light-field angular coherence[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 546−560
[3] Clerc M, Mallat S. The texture gradient equation for recovering shape from texture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 536−549 doi: 10.1109/34.993560
[4] Lee J Y, Park R H. Complex-valued disparity: Unified depth model of depth from stereo, depth from focus, and depth from defocus based on the light field gradient[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 830−841 doi: 10.1109/TPAMI.2019.2946159
[5] Zhan Yu, Guo Xinqing, Lin Haibing, et al. Line assisted light field triangulation and stereo matching[C]//Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2013: 2792−2799
[6] Li Jianqiao, Lu Mindong, Nian Ze. Continuous depth map reconstruction from light fields[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3257−3265 doi: 10.1109/TIP.2015.2440760
[7] 闫涛,陈斌,刘凤娴,等. 基于多景深融合模型的显微三维重建方法[J]. 计算机辅助设计与图形学学报,2017,29(9):1613−1623 doi: 10.3969/j.issn.1003-9775.2017.09.004 Yan Tao, Chen Bin, Liu Fengxian, et al. Multi-focus image fusion model for micro 3D reconstruction[J]. Journal of Computer-Aided Design and Computer Graphics, 2017, 29(9): 1613−1623 (in Chinese) doi: 10.3969/j.issn.1003-9775.2017.09.004
[8] 闫涛,高浩轩,张江峰,等. 分组并行的实时微观三维形貌重建方法[J]. 软件学报,2024,35(4):1717−1731 Yan Tao, Gao Haoxuan, Zhang Jiangfeng, et al. Grouping parallel lightweight real-time microscopic 3D shape reconstruction method[J]. Journal of Software, 2024, 35(4): 1717−1731(in Chinese)
[9] 闫涛,钱宇华,李飞江,等. 三维时频变换视角的智能微观三维形貌重建方法[J]. 中国科学:信息科学,2023,53(2):282−308 doi: 10.1360/SSI-2021-0386 Yan Tao, Qian Yuhua, Li Feijiang, et al. Intelligent microscopic 3D shape reconstruction method based on 3D time-frequency transformation[J]. Scientia Sinica Informationis, 2023, 53(2): 282−308(in Chinese) doi: 10.1360/SSI-2021-0386
[10] Ali U, Mahmood M T. Robust focus volume regularization in shape from focus[J]. IEEE Transactions on Image Processing, 2021, 30: 7215−7227 doi: 10.1109/TIP.2021.3100268
[11] Yang Fengting, Huang Xiaolei, Zhou Zihan. Deep depth from focus with differential focus volume[C]//Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 12642−12651
[12] Muhammad M S, Choi T S. Sampling for shape from focus in optical microscopy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 564−573 doi: 10.1109/TPAMI.2011.144
[13] Pertuz S, Puig D, Garcia M A. Analysis of focus measure operators for shape-from-focus[J]. Pattern Recognition, 2013, 46(5): 1415−1432 doi: 10.1016/j.patcog.2012.11.011
[14] Ma Z, Kim D, Shin Y G. Shape-from-focus reconstruction using nonlocal matting Laplacian prior followed by MRF based refinement[J]. Pattern Recognition, 2020, 103: 107302 doi: 10.1016/j.patcog.2020.107302
[15] Thelen A, Frey S, Hirsch S, et al. Improvements in shape-from-focus for holographic reconstructions with regard to focus operators, neighborhood-size, and height value interpolation[J]. IEEE Transactions on Image Processing, 2009, 18(1): 151−157 doi: 10.1109/TIP.2008.2007049
[16] Jeon H G, Surh J, Im S, et al. Ring difference filter for fast and noise robust depth from focus[J]. IEEE Transactions on Image Processing, 2020, 29: 1045−1060 doi: 10.1109/TIP.2019.2937064
[17] Yan Tao, Wu Peng, Qian Yuhua, et al. Multiscale fusion and aggregation PCNN for 3D shape recovery[J]. Information Sciences, 2020, 536: 277−297 doi: 10.1016/j.ins.2020.05.100
[18] Singh S, Gupta D, Anand RS, et al. Nonsubsampled shearlet based CT and MR medical image fusion using biologically inspired spiking neural network[J]. Biomedical Signal Processing and Control, 2015, 18: 91−101 doi: 10.1016/j.bspc.2014.11.009
[19] Minhas R, Mohammed A A, Wu Q M J. Shape from focus using fast discrete curvelet transform[J]. Pattern Recognition, 2011, 44(4): 839−853 doi: 10.1016/j.patcog.2010.10.015
[20] Wee C Y, Paramesran R. Measure of image sharpness using eigenvalues[J]. Information Sciences, 2007, 177(12): 2533−2552 doi: 10.1016/j.ins.2006.12.023
[21] Yan Tao, Hu Zhiguo, Qian Yuhua, et al. 3D shape reconstruction from multifocus image fusion using a multidirectional modified Laplacian operator[J]. Pattern Recognition, 2020, 98: 107065 doi: 10.1016/j.patcog.2019.107065
[22] Honauer K, Johannsen O, Kondermann D, et al. A dataset and evaluation methodology for depth estimation on 4D Light Fields[C]//Proc of the 13th Asian Conf on Computer Vision. Berlin: Springer, 2016: 19−34
[23] Won C, Jeon H. Learning depth from focus in the wild[J]. arXiv preprint, arXiv: 2207.09658, 2022
[24] Mayer N, Ilg E, Husser P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]//Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 4040−4048
[25] Maximov M, Galim K, Leal L. Focus on defocus: bridging the synthetic to real domain gap for depth estimation[C]//Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 1071−1080
[26] Hazirbas C, Soyer S G, Staab M C, et al. Deep depth from focus[C]//Proc of the 14th Asian Conf on Computer Vision. Berlin: Springer, 2018: 525−541
[27] Wang Ninghsu, Wang Ren, Liu Yulun, et al. Bridging unsupervised and supervised depth from focus via all-in-focus supervision[C]//Proc of the 21st IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 12621−12631
[28] 张江峰,闫涛,王克琪,等. 多景深图像聚焦信息的三维形貌重建:数据集与模型[J]. 计算机学报,2023,46(8):1734−1752 doi: 10.11897/SP.J.1016.2023.01734 Zhang Jiangfeng, Yan Tao, Wang Keqi, et al. 3D shape reconstruction from multi depth of field images: Datasets and models[J]. Chinese Journal of Computers, 2023, 46(8): 1734−1752(in Chinese) doi: 10.11897/SP.J.1016.2023.01734
[29] Liu C, Yuen J, Torralba A. SIFT flow: Dense correspondence across scene and its application[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978−994 doi: 10.1109/TPAMI.2010.147
[30] Hosni A, Rheman C, Bleyer M, et al. Fast cost-volume filtering for visual correspondence and beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 504−511 doi: 10.1109/TPAMI.2012.156
[31] He Kaiming, Sun Jian, Tang Xiaoou. Guided Image Filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6): 1397−1409 doi: 10.1109/TPAMI.2012.213
[32] Yang Qinxiong. A non-local cost aggregation method for stereo matching[C]//Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1402−1409
[33] Zhang Kang, Fang Yuqiang, Min Dongbo, et al. Cross-scale cost aggregation for stereo matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(5): 965−976 doi: 10.1109/TCSVT.2015.2513663
[34] 梁新彦,钱宇华,郭倩,等. 多粒度融合驱动的超多视图分类方法[J],计算机研究与发展,2022,59(8):1653−1667 Liang Xinyan, Qian Yuhua, Guo Qian, et al. Multi-granulation fusion-driven method for many-view classification[J]. Journal of Computer Research and Development, 2022, 59(8): 1653−1667 (in Chinese)
[35] 王晓慧,贾珈,蔡莲红. 基于小波图像融合的表情细节合成[J],计算机研究与发展,2013,50(2):387−393 Wang Xiaohui, Jia Jia, Cai Lianhong. Expression detail synthesis based on wavelet-based image fusion[J]. Journal of Computer Research and Development, 2013, 50(2): 387−393 (in Chinese)
[36] Zhang Lei, Bao Paul, Wu Xiaolin. Multiscale LMMSE-based image denoising with optimal wavelet selection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2005, 15(4): 469−481 doi: 10.1109/TCSVT.2005.844456