基于雾浓度分类与暗-亮通道先验的多分支去雾网络

张琪东; 迟静; 陈玉妍; 张彩明

doi:10.7544/issn1000-1239.202220812

基于雾浓度分类与暗-亮通道先验的多分支去雾网络

张琪东^{1, 2,},
迟静^{1, 2, ,},
陈玉妍^{1, 2},
张彩明^{2, 3}

1.
山东财经大学计算机科学与技术学院　济南　250014
2.
山东省数字媒体技术重点实验室（山东财经大学）　济南　250014
3.
山东大学软件学院　济南　250101

基金项目: 山东省高等学校青创科技支持计划项目（2020KJN007）；济南市“新高校20条”科研带头人工作室项目（2021GXRC092）；国家自然科学基金重点项目（U1909210）；山东省重点研发计划项目（2019GSF109112, 2021SFGC0102）

详细信息

作者简介:
张琪东: 1997年生. 硕士. 主要研究方向为图像处理

迟静: 1980 年生. 博士，教授，博士生导师. 主要研究方向为计算机动画、数字图像处理、信息可视化

陈玉妍: 1997 年生. 硕士研究生. 主要研究方向为图像处理

张彩明: 1955 年生. 博士，教授，博士生导师. CCF高级会员. 主要研究方向为数据挖掘、计算机图形学、信息可视化

通讯作者:
迟静（chijing@sdufe.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 129
- HTML全文浏览量: 23
- PDF下载量: 58
出版历程
- 收稿日期: 2022-09-13
- 修回日期: 2023-04-27
- 网络出版日期: 2023-11-29
- 刊出日期: 2024-03-01

A Multi-Branch Defogging Network Based on Fog Concentration Classification and Dark and Bright Channel Priors

Zhang Qidong^{1, 2,},
Chi Jing^{1, 2, ,},
Chen Yuyan^{1, 2},
Zhang Caiming^{2, 3}

1.
College of Computer Science and Technology, Shandong University of Finance and Economics, Jinan 250014
2.
Shandong Provincial Key Laboratory of Digital Media Technology (Shandong University of Finance and Economics), Jinan 250014
3.
School of Software, Shandong University, Jinan 250101

Funds: This work was supported by the Science and Technology Plan for Young Talents in Colleges and Universities of Shandong Province (2020KJN007), the Plan of Scientific Research Leader Studio in Colleges and Universities of Jinan City (2021GXRC092), the Key Program of the National Natural Science Foundation of China (U1909210), and the Key Research and Development Program of Shandong Province (2019GSF109112, 2021SFGC0102).

More Information

Author Bio:
Zhang Qidong: born in 1997. Master. His main research interest includes image processing

Chi Jing: born in 1980. PhD, professor, PhD supervisor. Her main research interests include computer animation, digital image processing, and information visualization

Chen Yuyan: born in 1997. Master candidate. Her main research interest includes image processing

Zhang Caiming: born in 1955. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include data mining, computer graphics, and information visualization

摘要

摘要:
在图像去雾领域中，目前多数去雾模型难以维持精度与效率的平衡，高精度的模型往往伴随着复杂的网络结构，而简单的网络结构又往往会导致低质量的结果. 针对该问题提出一个基于雾浓度分类与暗-亮通道先验的多分支去雾模型，通过对带雾图像分类，使用复杂度不同的网络来处理不同雾浓度的图像，可在保证精度的同时提高计算效率. 模型由轻量级雾图像分类器和基于暗-亮通道先验的多分支去雾网络2部分构成：前者将带雾图像分为轻雾、中雾、浓雾3类，输出雾浓度标签；后者包含3个结构相同、宽度不同的分支网络，根据雾浓度标签选择不同的分支网络处理不同雾浓度图像，恢复至无雾图像. 提出一个新的雾浓度分类方法以及基于该方法的雾浓度分类损失函数，可根据带雾图像的暗通道特征和恢复难度，结合生成图像质量和模型计算效率，得到对带雾图像合理准确的分类结果，达到去雾效果和算力需求的良好平衡. 提出新的暗通道与亮通道先验损失函数，用于约束分支去雾网络，可有效提高去雾精度. 实验结果表明，模型能够以更低的网络参数量和复杂度得到更优的去雾结果.
- 图像去雾 /
- 雾浓度分类 /
- 暗通道先验 /
- 亮通道先验 /
- 卷积神经网络
Abstract:
In the field of image defogging, it is difficult for most defogging models to maintain a balance between accuracy and efficiency. Specifically, high-precision models are often accompanied by complex network structures, and simple network structures often lead to low-quality results. To address the problem, we propose a multi-branch defogging network based on fog concentration classification and dark and bright channel priors. The model uses the defogging networks with different complexity to handle the images with different fog concentrations, which significantly raises the computational efficiency under ensuring the defogging precision. The model is composed of a lightweight foggy image classifier and a multi-branch defogging network. The classifier divides the foggy images into light, medium and dense foggy images and outputs the fog concentration labels. The multi-branch network contains three branches with the same structure but different widths that process three types of fog images separately. We propose a new fog concentration classification method and a new fog concentration classification loss function. The function combines the dark channel characteristics and defogging difficulty of the foggy image with the defogging precision and computational efficiency of the model, so as to obtain a reasonable fog concentration classification, and consequently achieve a good balance of defogging quality and computing power requirements. We propose a new dark channel prior loss function and a new bright channel prior loss function to constrain the multi-branch defogging network, which effectively enhances the defogging precision. Extensive experiments show that the model is beneficial to get better defogging effect with lower network parameters and complexity.
- image defogging /
- fog concentration classification /
- dark channel prior /
- bright channel prior /
- CNN

HTML全文

视觉目标跟踪是计算机视觉的重要研究方向^[1]. 其研究任务是在视频序列首帧中给定任意目标，并在后续视频序列中持续预测目标位置. 目标跟踪被广泛应用于无人驾驶、智能视频监控、人机交互等领域^[2]. 如何设计简单、高效的通用视觉目标跟踪方法是一个亟需解决的难题. 尤其在真实复杂场景中，目标表观受光照影响、尺寸变化、严重遮挡等挑战，会产生持续的剧烈变化，从而影响跟踪结果.

近些年，基于卷积神经网络（convolutional neural network, CNN）的目标跟踪获得广泛关注. 然而受限于感受野规模，CNN更多用于处理目标在时间域或空间域的局部特征，未能有效捕获目标特征之间的长期依赖关系^[3]. 当前基于CNN的主流跟踪框架主要包括：基于孪生网络（siamese network）^[4-7]的目标跟踪和基于在线学习判别式模型^[8-10]的目标跟踪. 这些方法在获取图像局部特征时表现优异，但在复杂场景中，如目标被频繁遮挡或出现剧烈形变时，则不能很好地建模特征的全局上下文关系.

此外，基于Transformer的跟踪方案通过引入全局自注意力（self-attention）机制获取特征间长期依赖关系^[11-13]. 在此类方案中，多数跟踪方法采用CNN作为主干网络对图像进行特征提取，随后利用Transformer设计编码器和解码器. 文献[-]专注简化跟踪步骤，将Transformer作为特征提取器并直接输出预测位置. 然而，此类跟踪方案中起核心作用的自注意力机制，由于其计算复杂度为 $O\left({N}^{2}\right)$ ，使得其随图像大小增加导致计算量陡增，并直接影响目标跟踪效率.

为了降低计算量，一些研究采用视觉多层感知器（multi-layer perceptron，MLP）来构建主干网络^[16-17]. 这些研究使用MLP层代替Transformer中的自注意力层，并在时域进行令牌（token）间信息交互，所谓令牌即目标和搜索区域对应的样本被切分成若干个不重叠的图像块. 令牌间的信息交互进一步简化时域信息的融合操作. MLP的引入降低了计算复杂度，但是在训练和测试中随着令牌数量增加，会显著加大MLP计算量，同样会影响目标跟踪效率.

受全局滤波网络设计启发^[3]，本文提出利用快速傅里叶变换（fast Fourier transform, FFT）对令牌进行高效融合，以降低视觉MLP模型在令牌数量增加时产生的计算开销. 首先，利用FFT将令牌时域特征转变为频域特征. 随后，在频域空间中捕获目标当前信息及其历史信息与搜索区域信息间的长程依赖关系. 最后，利用快速傅里叶逆变换（inverse FFT, IFFT）将频域特征转换回时域特征. 上述FFT，IFFT运算步骤使得所提跟踪方法，能够以较低的对数复杂度在频域空间快速学习目标在时空维度上的交互关系. 此外，为了更好地自适应目标在跟踪过程中的表观变化，提出一种基于质量评估的目标模板记忆存储机制. 该机制根据当前跟踪状态动态更新记忆存储器中稳定的历史目标信息，用于学习适应目标变化的外观模型，有助于在搜索区域内准确匹配目标.

本文的主要贡献有3点：

1）提出一种快速获取令牌间长程依赖关系的跟踪算法. 特征提取与融合以端到端的形式进行学习，同时在频域空间以更小的计算复杂度建模目标令牌与搜索区域令牌间的交互关系.

2）提出一种基于质量评估的目标模板记忆存储机制，动态自适应地捕捉目标在视频序列中的稳定变化过程，提供高质量的长期历史目标信息.

3）所提跟踪方法在3个公共跟踪数据集LaSOT^[18]，OTB100^[19]，UAV123^[20]上获得优秀评价.

1. 相关工作

1.1 基于CNN的目标跟踪

目标跟踪框架通常可以被划分为3部分：1）提取图像特征的主干网络；2）目标与搜索区域特征融合模块；3）生成预测位置模块. 多数跟踪方法^[5-9]将CNN作为主干网络. 其中，基于孪生网络的跟踪框架以端到端方式进行训练.SiamFC^[7]采用全卷积孪生网络提取目标特征，跟踪过程中不进行目标模板更新.DSiam^[21]基于孪生网络以正则化线性回归模型动态更新目标模板.SiamRPN^[6]利用孪生网络提取目标与搜索区域特征，同时结合目标检测研究中的区域推荐网络对目标位置进行精准定位.SiamRPN++^[5]在训练过程中辅以位置均衡策略缓解CNN在训练过程中存在的位置偏见问题. 此外，一些基于在线学习的判别式目标跟踪模型也取得优异性能.DiMP^[8]采用端到端网络模型离线学习目标与背景间的差异，同时在线更新目标模板.PrDiMP^[9]基于DiMP^[8]将概率回归用于端到端训练，在测试阶段对搜索区域生成关于目标状态的条件概率密度来捕获目标. 基于CNN的目标跟踪在训练时容易造成归纳偏置.

1.2 基于Transformer的目标跟踪

当前Transformer网络被广泛用于各项视觉任务中，如目标分类及检测^[22-24]. Transformer中的自注意力机制将每个输入元素与其他元素进行相关性计算. 在视觉跟踪研究中，TrDiMP^[13]使用Transformer增强目标上下文信息，在编码器中通过自注意力机制增强目标模板特征，利用解码器融合上下文模板进行目标定位. TransT^[12]提出一种基于多头注意力机制的特征融合网络，融合后特征分别输入目标分类器及边界回归器. Stark^[11]则利用ResNet^[25]作为主干网络提取目标特征，以Transformer编码器和解码器进行端到端训练. SwinTrack^[14]借鉴Swin Transformer^[22]，采用完全基于注意力机制的Transformer进行特征提取及融合. ToMP^[26]同样是一种完全基于Transformer的跟踪算法，使用一个并行的2阶段跟踪器来回归目标边界. Mixformer^[15]提出一种同时混合注意力模块用于特征提取及融合. 基于Transformer的目标跟踪方法虽然取得出色性能，但是随着搜索区域增大，其计算复杂度也将呈2次方增加，从而影响目标跟踪效率.

1.3 基于MLP的混合令牌相关工作

MLP-mixer^[16]采用MLP代替Transformer中的自注意力机制进行令牌混合.ResMLP^[17]基于MLP-mixer，利用仿射变换代替归一化进行加速处理.gMLP^[27]使用空间门控单元在空间维度上给令牌重新加权. 上述MLP混合令牌的研究同样存在计算量增加问题，即随着输入令牌数量增多其时间复杂度会以2次方增加，并且MLP通常存在固定空间权重很难扩展到高分辨率图像的情形.

2. 方法介绍

展示了基于FFT的目标与搜索区域间令牌高效混合的目标跟踪框架，该框架为端到端方式. 首先，初始目标模板大小设置为 ${{H}_{\mathrm{t}}\times W}_{\mathrm{t}}\times 3$ ，记忆存储器中存储的历史目标模板的帧数设置为 $T$ ，搜索目标区域的大小为 ${H}_{\mathrm{s}}\times {W}_{\mathrm{s}}\times 3$ . 之后，将记忆存储器内所有目标样本和搜索区域对应图像样本，切分成不重叠的、规格为 $\tau \times \tau \times 3$ 的图像块，这些图像块称为令牌. 将这些令牌拼接起来，组成1维令牌序列. 该序列包含目标信息与搜索区域信息. 下面分2步进行模型的离线训练.

图 1 本文所提跟踪算法框架

Figure 1. The tracking algorithm framework proposed in our paper

下载: 全尺寸图片幻灯片

1）针对预测目标框分支进行训练. 为了高效学习目标与搜索区域令牌间的长程依赖关系，采用3阶段网络设计进行令牌间混合. 在阶段1中，使用线性嵌入层将原始令牌投影为维度为 $C$ 的令牌特征，再将这些令牌特征输入至线性嵌入层和包含2个FFT的令牌混合网络层. 在阶段2中，为了扩大模型的感受野，通过线性合并层来减少令牌数量，并将其输出特征维度设置为 $2C$ ，这一过程由线性合并层和3个FFT的令牌混合网络层组成. 在阶段3中，继续进行线性合并，同时经过6个FFT令牌混合网络层，此时输出的特征维度设置为 $4C$ . 将在频域空间中获得的融合令牌信息进行IFFT运算，将频域特征重新转换为时域特征，并输入由3个Conv-BN-ReLU网络组成的预测头网络估计目标位置.

2）对跟踪质量评估分支进行离线训练，受Stark^[11]启发，跟踪质量评估分支由一个3层MLP网络组成，用于评价当前跟踪质量，以决定是否将当前跟踪结果更新到记忆存储器中.

下面将详细介绍基于FFT的令牌混合网络和基于跟踪质量评估的目标模板动态记忆存储机制.

2.1 基于FFT的令牌混合网络

如所示，提出的基于FFT令牌混合网络层将特征提取与融合进行集成. 具体地，先利用图像分块操作将原始的2维目标模板和搜索区域样本转化为 $N$ 个不重叠的 $\tau \times \tau \times 3$ 大小的令牌. 经过裁剪等预处理后，得到一组特征矩阵 ${{\boldsymbol P}}=\left({\boldsymbol{p}}_{0},{\boldsymbol{p}}_{1},…,{\boldsymbol{p}}_{N-1}\right)， {\boldsymbol{p}_{i}}\in {\mathbb{R}}^{3{\tau }^{2}}，i\in [0,N-1]$ . 之后，将 ${{\boldsymbol P}}$ 输入至FFT令牌混合网络，在频域空间快速获得目标特征的多尺度交互及搜索区域与目标之间的有效交互. 其中，FFT令牌融合网络层的结构如所示，对于第 $i$ 个令牌先将其映射成 $C$ 维向量：

图 2 FFT令牌融合网络结构图

Figure 2. Structure diagram of FFT tokens fusion network

下载: 全尺寸图片幻灯片

${\boldsymbol{x}}_{i}={\omega }_{0}{\boldsymbol{p}_{i}}+{\boldsymbol{b}_{0}},i\in \left[0,N-1\right] \text{，}$

(1)

其中 ${\boldsymbol{\omega}}_{0}\in {\mathbb{R}}^{3{\tau }^{2}\times C}$ 为每个令牌首层可学习权重， ${\boldsymbol{b}_{0}}$ 为首层权重位移参数向量， $N$ 为输入令牌个数.

FFT令牌融合网络层的输入特征为 $\boldsymbol{X}={(\boldsymbol{x}}_{0},{\boldsymbol{x}}_{1},…, {\boldsymbol{x}}_{N-1})\in {\mathbb{R}}^{C\times N}$ ，其中 $C$ 为输出通道数. 然后采用式（2）将输入的时域特征转换为频域特征 $\boldsymbol{X}'$ ：

${\boldsymbol{X}}'=F\left(\boldsymbol{X}\right)\in {\mathbb{C}}^{H\times W\times N} \text{，}$

(2)

其中，FFT函数为 $F\left(\cdot\right)$ 用于获得输入特征的频域表达， $W$ 为输入图像的宽， $H$ 为输入图像的高.

FFT令牌混合网络层利用可学习的滤波器 $\boldsymbol{K}\in {\mathbb{C}}^{H\times W\times N}$ 学习 ${\boldsymbol{X}}^{'}$ 的频域特征 ${\boldsymbol{X}}^{''}$ ：

${\boldsymbol{X}}^{''}=\boldsymbol{K}\odot{\boldsymbol{X}}^{'} \text{，}$

(3)

其中 $\odot$ 为 $\boldsymbol{K}$ 中每一个元素与 ${\boldsymbol{X}}^{'}$ 对应位置元素间相乘^[3].

最后，根据式（4）将频域特征 ${\boldsymbol{X}}^{''}$ 转换为时域特征 ${\boldsymbol{X}}^{{*}}$ ，并更新令牌进入下一层特征融合模块.

${\boldsymbol{X}}^{{*}}={F}^{-1}\left({\boldsymbol{X}}^{''}\right) ,$

(4)

其中 ${F}^{-1}\left(\cdot\right)$ 为IFFT，用于将频域特征转化为时域特征.

参照Stark^[11]，本文采用一个3层Conv-BN-ReLU预测头网络来估计目标位置. 具体地，估计过程被建模为预测边界框的左上角和右下角坐标的概率值图，并回归概率值图分布获得预测目标的最终坐标. 不同于Stark的预测头网络高度依赖编码器和解码器，本文所提预测头网络由3个简单的全卷积网络组成. 离线训练预测头位置分支的损失 ${L}_{\mathrm{l}\mathrm{o}\mathrm{c}}$ 由 ${L}_{1}$ 损失和 ${L}_{\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{u}}$ 损失组成，具体定义为：

${L}_{\mathrm{l}\mathrm{o}\mathrm{c}}=\alpha {L}_{1}\left({B}_{i},{B}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}\right)+\beta {L}_{\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{u}}\left({B}_{i},{B}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}\right) \text{，}$

(5)

其中 $\alpha$ 为 ${L}_{1}$ 损失的权重系数，设置 $\alpha=5$ ； $\beta$ 为 ${L}_{\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{u}}$ 的权重系数，设置 $\beta=2$ . ${B}_{i}$ 为第 $i$ 帧搜索区域的真实标签， ${B}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}$ 为预测头网络输入预测的目标位置.

2.2 基于跟踪质量评估的目标模板记忆存储机制

为了提升跟踪速度的同时规避跟踪过程中引入的累计误差，多数跟踪算法仅采用第1帧目标模板进行匹配. 然而在跟踪过程中目标表观通常会出现剧烈变化，此时固定目标模板的跟踪方法容易产生漂移. 部分算法采用跟踪响应图的统计特性来预测当前跟踪质量，如使用峰旁比^[28]、平均峰值相关能量^[29]等. 然而基于上述统计数值判断跟踪质量的做法在经历长期不稳定的跟踪后，容易导致不准确的评分结果.

如果跟踪算法可以及时预先获取当前跟踪质量，并将高质量跟踪结果放入记忆存储器中，则能够有效捕获目标在时序上的稳定表观信息变化，为目标与搜索区域的令牌混合提供有效依据.

因此，在预测头网络中添加了一个用于预测当前跟踪质量的分支. 该分支的输入为令牌融合网络层最终输出的令牌时域特征，输出为2个经过softmax函数处理过后的数值 ${S}_{i0}$ 与 ${S}_{i1}$ . 其中 ${S}_{i0}$ 代表第 $i$ 帧输出的预测目标位置不是目标， ${S}_{i1}$ 表示当前预测结果是目标.当 ${S}_{i1}{ > S}_{i0}$ 时，表示当前跟踪质量良好，可以将当前跟踪结果更新到记忆存储器中，此时设置 ${{\epsilon}_{i}}=1$ ；当 ${S}_{i1}\le {S}_{i0}$ 时，表示当前跟踪质量较弱，不适宜将跟踪结果更新至记忆存储器，同时设置 ${\epsilon}_{i}=0$ . ${\epsilon}_{i}$ 表示预测当前跟踪质量评估结果. 离线训练跟踪质量评价分支使用二值交叉熵损失评估，具体定义为：

${L}_{\mathrm{C}\mathrm{E}}={l}_{i}\mathrm{l}\mathrm{b}\left({\epsilon}_{i}\right)+\left(1-{l}_{i}\right)\mathrm{l}\mathrm{b}\left(1-{\epsilon}_{i}\right),$

(6)

其中 ${l}_{i}$ 为第 $i$ 帧样本真实的标签，当 ${l}_{i}=1$ 时表示当前搜索区域包含真实目标，当 ${l}_{i}=0$ 时表示当前搜索区域不包含搜索目标.

记忆存储器 $M$ 定义为长度 $T$ 的队列，更新间隔设为 ${T}_{\mathrm{I}\mathrm{N}\mathrm{R}}$ . 对应的更新策略如算法1所示，当第 $i$ 帧的质量评估为跟踪状态良好时，即 ${\epsilon}_{i}=1$ 且符合提取间隔，则将当前跟踪结果加入记忆存储队列 $M$ . 若记忆存储队列 $M$ 的长度超过 $T$ ，则选择删除 $M$ 队列中首个元素 ${M}_{0}$ . 当跟踪失败或者跟踪质量较低时，所提基于跟踪质量评估的目标记忆存储机制，能够有效缓解目标模板产生误差带来的消极影响.

该机制的可视化展示如所示. 第1帧给定初始目标，并将其存入记忆存储器中. 记忆存储器的长度 $T$ 设置为5，根据跟踪质量评价结果，动态地将可靠的目标模板存入 $M$ 中. 第200帧时，目标被完全遮挡，此时质量评估较差，不进行更新存储操作. 至此， $M$ 中的目标模板分别来自第90帧、第100帧、第110帧、第120帧、第130帧的跟踪结果. 在第260帧时目标重新出现，此时质量评估良好，所以当前 $M$ 存储的目标模板调整为第120帧、第130帧、第240帧、第250帧、第260帧的跟踪结果.

图 3 基于质量评估的模板记忆存储算法的可视化

Figure 3. Visualization of template memory storage algorithm based on quality assessment

下载: 全尺寸图片幻灯片

算法1. 基于跟踪质量评估的目标模板记忆存储.

输入： ${I}_{0}$ 为第1帧的目标模板区域，

${I}_{i}$ 为第 $i$ 帧跟踪结果区域，

${\epsilon}_{i}$ 为第 $i$ 帧跟踪质量评估结果，

$M$ 为记忆存储器队列，

$T$ 为记忆存储器长度，

${L}_{\mathrm{V}\mathrm{I}\mathrm{D}}$ 为视频序列长度，

${T}_{\mathrm{I}\mathrm{N}\mathrm{R}}$ 为更新间隔；

输出： $M$ 为更新后的记忆存储器.

① $M=\varnothing$ ；

② while len（ $M$ ）< $T$

③ $M\leftarrow M\cup \left\{{I}_{0}\right\}；$

④ for $i=1，2，\cdots {，L}_{\mathrm{V}\mathrm{I}\mathrm{D}}$

⑤ 　　if $({\epsilon}_{i}$ ==1 $)$ and $($ mod $(i,{T}_{\mathrm{I}\mathrm{N}\mathrm{R}})$ ==0）

⑥　　　 $M\leftarrow M\cup \left\{{I}_{i}\right\}；$

⑦　　 end if

⑧ 　　if len $\left(M\right)$ < $T$

⑨　　　 $M\leftarrow M\mathrm{r}\mathrm{e}\mathrm{m}\mathrm{o}\mathrm{v}\mathrm{e}{M}_{0}；$

⑩　　 end if

⑪ end for

3. 实验结果分析

3.1 模型训练设置

目标模板大小为 ${{H}_{\mathrm{t}}\times W}_{\mathrm{t}}\times 3$ ，搜索区域的大小为 ${{H}_{\mathrm{s}}\times W}_{\mathrm{s}}\times 3$ . 设置 ${H}_{\mathrm{t}}$ ， ${W}_{\mathrm{t}}$ 两者值均为128； ${H}_{\mathrm{s}}$ ， ${W}_{\mathrm{s}}$ 两者值均为384.记忆存储器长度 $T=5$ . 记忆器更新模板的间隔 ${T}_{\mathrm{I}\mathrm{N}\mathrm{R}}=10$ . 图像分块操作中块大小 $\tau =4$ . 训练数据集为LaSOT^[18]，GOT-10k^[30]，TrackingNet^[31].

考虑到定位和分类的联合学习可能导致2个任务存在次优解^[11]. 因此，借鉴Stark^[11]和Mixformer^[15]的训练方式，分2步训练特征融合模型. 首先，进行300批次的预测目标位置分支训练，采用Adam^[32]损失优化器将学习率设置为 $1\mathrm{E}-4$ ；其次，进行100批次的预测当前跟踪质量的分支训练，学习率设置为 $1\mathrm{E}-5$ . 软件环境为Ubuntu20.04，Python3.6，Torch1.10.3，Cuda11.3.硬件环境为NVIDIA RTX3090 24 GB.

3.2 定量分析

在LaSOT^[18]，OTB100^[19]，UAV123^[20]数据集上验证本文方法的有效性. 评价指标为成功率（success ratio）和精度图（precision plot），其中成功率使用成功率曲线下面积（area under curve, AUC）作为排序依据.

LaSOT^[18]数据集包含1400个视频序列，共计70类目标. 其中1120个视频用于训练，280个视频用于测试. 视频序列平均长度2400帧. 数据集包含视野外等14种挑战.图4显示本文算法与TrDiMP^[13]，TransT^[12]，Alpha-Refine^[33]，SiamR-CNN^[34]，PrDiMP^[9]，DiMP^[8]，SiamGAT^[35]，SiamBAN^[36] 8种优秀算法比较结果. 结果表明本文算法在成功率和精度图中均处于领先水平. 精度图方面比TransT高3.3%，成功率比Alpha-Refine高0.8%.图5展示本文算法与5种先进算法在不同挑战下的实验结果，可以看出本文算法在多数挑战中均表现优异.

图 4 本文算法与其他最先进算法在LaSOT数据集上的成功率指标与精度图比较

Figure 4. Comparison of success ratio and precision plot in our algorithm and other state-of-the-art algorithms on LaSOT dataset

下载: 全尺寸图片幻灯片

图 5 LaSOT数据集上不同挑战的成功率指标和精度图指标得分比较

Figure 5. Score comparison of the indictors in success ratio and precision plot for different challenges on LaSOT dataset

下载: 全尺寸图片幻灯片

OTB100^[19]数据集包含100个视频序列，涉及快速运动等11种挑战.图6展示本文算法与TransT^[12]，SiamRPN++^[5]，SiamBAN^[36]，PrDiMP^[9]，DiMP^[8]，ECO^[37]，MDNet^[38]，ATOM^[10]的比较结果. 本文方法取得最高的成功率值和精度图值，分别比SiamRPN++ 提升0.2%和0.5%.

图 6 本文算法与其他最先进算法在OTB100数据集上的成功率与精度图比较

Figure 6. Comparison of the success ratio and precision plot in our algorithm and other state-of-the-art algorithms on OTB100 dataset

下载: 全尺寸图片幻灯片

UAV123^[20]数据集由123个无人机低空拍摄的视频序列构成. 小目标和频繁遮挡是该数据集的独特挑战. 表1显示本文算法与TrDiMP^[13]，TransT^[12]， SiamR-CNN^[34]，SiamGAT^[35]，SiamBAN^[36]，PrDiMP^[9]，DiMP^[8]，SiamRPN++^[5]的比较结果. 本文算法在成功率和精度图评价指标上均排名第一.

表 1 本文算法与其他先进算法在UAV123数据集上的比较

Table 1. Comparison of Our Algorithm and Other State-of-the-art Algorithms on UAV123 Dataset

算法	AUC	精度图
本文算法	0.702	0.877
TransT	0.691	0.864
PrDiMP	0.690	0.867
TrDiMP	0.680	0.852
DiMP	0.662	0.838
SiamBAN	0.650	0.820
SiamR-CNN	0.649	0.834
SiamGAT	0.646	0.843
SiamRPN++	0.610	0.803

下载: 导出CSV

| 显示表格

3.3 定性分析

本节用可视化展示本文算法与6种优秀算法在旋转、快速移动、尺寸变换及遮挡等挑战下的表现.

图7展示LaSOT^[18]数据集中bird-17视频序列的跟踪结果. 该视频序列具备快速移动、视野外等挑战. 目标在148~156帧快速向左移动至视野外，导致Alpha-Refine^[33]和TrDiMP^[13]发生跟踪漂移. 在第184帧中目标再次回归视野内，只有本文算法可以准确跟踪目标. 由于目标同时发生快速移动、运动模糊、旋转等挑战，其他算法均跟踪失败. 而本文算法拥有记忆存储器中的稳定目标模板，可以增强跟踪器对目标表观的自适应能力，并且在搜索目标时可快速计算目标模板和搜索区域之间的匹配关系，因此可以高效、稳健地跟踪目标.

图 7 LaSOT数据集中bird-17视频序列中的跟踪结果

Figure 7. Tracking results of bird-17 video sequence in LaSOT dataset

下载: 全尺寸图片幻灯片

图8展示LaSOT^[18]数据集中bicycle-18视频序列的跟踪结果. 在此视频中目标受遮挡、旋转等挑战影响. 第344~400帧目标被岩石遮挡，导致TransT^[12]和SiamGAT^[35]丢失目标. 第437~517帧目标发生剧烈旋转，SiamGAT，TransT，PrDiMP^[9]均无法快速应对剧烈旋转引起的外观突变而发生漂移. 本文算法则依托令牌混合方案快速对目标与搜索区域特征进行交互，有效地获取更加稳健的时空特征，最终成功跟踪目标.

图 8 LaSOT数据集中bicycle-18视频序列中的跟踪结果

Figure 8. Tracking results of bicycle-18 video sequence in LaSOT dataset

下载: 全尺寸图片幻灯片

3.4 消融实验

本节验证本文算法中基于FFT的令牌混合网络和基于跟踪质量评估的目标模板动态记忆存储机制的有效性. 表2展示不同变体在LaSOT^[18]测试集上的成功率和精度图得分.

表 2 在LaSOT数据集上本文算法的消融实验结果

Table 2. Results of the Ablation Experiments of Our Proposed algorithm on LaSOT Dataset

模型变体	基于CNN 的融合	基于FFT 的融合	记忆存储机制	成功率	精度图	平均跟踪速度/fps
变体1	√			0.648	0.684	23
变体2		√		0.661	0.709	41
变体3		√	√	0.667	0.723	34
注：√表示采用的方法.

下载: 导出CSV

| 显示表格

首先，探讨基于FFT的令牌混合网络的有效性.表2中变体1采用基于CNN融合目标与搜索区域令牌的方法，并且仅利用第1帧初始目标区域作为目标模板. 变体2采用FFT融合方法，同样仅采用第1帧初始目标区域作为目标模板进行匹配. 结果显示，基于FFT的融合方法比基于CNN的融合方法的成功率和精度图分别高1.3%和2.5%. 基于传统CNN的融合方式在训练时只能学习特征间的局部依赖关系，无法获取全局长程依赖，且利用CNN训练模型存在较大的归纳偏置. 为了更加充分融合目标与搜索区域间的信息同时建立两者间的长程依赖关系，本文提出利用FFT进行令牌间的高效融合. 可以观察到在平均跟踪速度上变体2比变体1提升近1倍，结果证实基于FFT令牌混合网络的有效性.

其次，变体3在变体2的基础上增加了基于质量评估的目标模板动态记忆存储机制，用于获得更新稳定的目标模板信息，从而自适应目标表观变化. 由于记忆存储机制增加了目标模板数量，所以对平均跟踪速度上有一定影响. 变体3在测试时的平均跟踪速度比变体2降低了7 fps，但变体3在成功率和精度图上，分别比变体2高出0.6%和1.4%. 结果显示基于跟踪质量评估的目标模板动态记忆存储机制有效.

此外，为了进一步验证本文方法具备高效的特征提取与融合能力. 在LaSOT数据集上将本文方法与基于1阶段训练的Mixformer^[15]和基于2阶段训练的TrDiMP^[13]进行对比，结果如表3所示. 与采用2阶段训练的TrDiMP^[13]相比，本文方法的成功率和精度图分别提升2.7%和5.7%，同时平均跟踪速度比TrDiMP^[13]快8 fps.与基于1阶段训练的Mixformer^[15]相比，虽然成功率和精度图降低2.5%和2.4%，但是推理速度比Mixformer^[15]高9 fps.实验结果表明本文方法在准确率和推理速度间的平衡能力更好，同时34 fps的平均跟踪速度达到跟踪实时性^[11]要求（>30 fps）.

表 3 LaSOT数据集上推理速度的对比实验结果

Table 3. Comparative Experimental Results of Reasoning Speed on LaSOT Dataset

方法	出处	成功率	精度图	平均跟踪速度/fps
TrDiMP	CVPR21	0.640	0.666	26
Mixformer	CVPR22	0.692	0.747	25
本文算法		0.667	0.723	34

下载: 导出CSV

| 显示表格

4. 总　　结

本文提出了一种端到端的基于傅里叶变换的高效混合目标与搜索区域令牌的视觉目标跟踪方法. 该方法将特征提取与融合相结合，利用傅里叶变换将令牌的时域特征转换为频域特征，以便快速学习搜索区域与目标模板之间的长程依赖关系. 为了捕获目标在时序上的外观变化，提出了一种基于跟踪质量评估的目标模板动态记忆存储机制，确保更新目标外观模板的合理性. 广泛的实验结果验证了所提方法的有效性.

作者贡献声明：薛万利提出论文整体思路并负责撰写与修改论文；张智彬负责算法设计与实验并撰写论文；裴生雷负责算法设计及论文审核；张开华负责论文修改；陈胜勇参与了论文思路的讨论及审核.

图 1 本文方法框架

Figure 1. Framework of our method

下载: 全尺寸图片幻灯片

图 2 雾浓度与去雾后图像PSNR值和SSIM值乘积的关系可视化

Figure 2. Visualization of the relationship between fog concentration and PSNR-SSIM product of defogged images

下载: 全尺寸图片幻灯片

图 3 新的雾浓度分类方法在ITS数据集上的预分类结果

Figure 3. Pre-classification result with the new fog concentration classification method on ITS dataset

下载: 全尺寸图片幻灯片

图 4 带雾图像与清晰图像的暗通道值对比曲线

Figure 4. Comparison curves of dark channel values between the foggy and clear images

下载: 全尺寸图片幻灯片

图 5 带雾图像与清晰图像的亮通道值对比曲线

Figure 5. Comparison curves of bright channel values between the foggy and clear images

下载: 全尺寸图片幻灯片

图 6 不同方法对SOTS数据集中的轻雾图像去雾后的视觉对比结果

Figure 6. Visual comparison of defogged results obtained by different methods on light fog images in SOTS dataset

下载: 全尺寸图片幻灯片

图 7 不同方法对SOTS数据集中的中雾图像去雾后的视觉对比结果

Figure 7. Visual comparison of defogged results obtained by different methods on medium fog images in SOTS dataset

下载: 全尺寸图片幻灯片

图 8 不同方法对SOTS数据集中的浓雾图像去雾后的视觉对比结果

Figure 8. Visual comparison of defogged results obtained by different methods on dense fog images in SOTS dataset

下载: 全尺寸图片幻灯片

图 9 不同方法在RS-HAZE数据集上的去雾效果视觉对比

Figure 9. Visual comparison of defogged results obtained by different methods on RS-HAZE dataset

下载: 全尺寸图片幻灯片

图 10 不同方法在O-HAZE数据集上的去雾效果视觉对比

Figure 10. Visual comparison of defogged results obtained by different methods on O-HAZE dataset

下载: 全尺寸图片幻灯片

图 11 不同方法在HSTS数据集上的去雾效果视觉对比

Figure 11. Visual comparison of defogged results obtained by different methods on HSTS dataset

下载: 全尺寸图片幻灯片

图 12 采用不同损失函数约束项的模型去雾视觉效果对比

Figure 12. Visual comparison of defogged results obtained by models with different loss function constraints

下载: 全尺寸图片幻灯片

图 13 采用不同损失函数约束项训练模型时的PSNR曲线

Figure 13. PSNR curves of the model under different loss function constraints

下载: 全尺寸图片幻灯片

图 14 不同权重雾浓度分类损失的PSNR和参数量对比

Figure 14. Comparison of PSNR and parameters of different weight of fog concentration classification loss

下载: 全尺寸图片幻灯片

表 1 本文分支网络处理SOTS室内数据集中3类图像的平均PSNR以及参数量对比

Table 1 Average PSNR and Parameters Comparison of Our Branch Networks for Three Levels of Images in SOTS (Indoor)

本文模型	平均PSNR/dB			参数量/MB
本文模型	轻雾	中雾	浓雾	参数量/MB
轻雾分支网络(48)	39.85	36.98	35.73	2.63
中雾分支网络(56)	39.87	37.45	36.31	3.59
浓雾分支网络(64)	39.91	37.79	36.78	4.68
LFC				0.32
注：括号内的数字表示分支去雾网络的宽度.

下载: 导出CSV

表 2 不同方法在SOTS, RS-HAZE, O-HAZE数据集上的平均PSNR与SSIM评估结果

Table 2 Average PSNR and SSIM Evaluation for Different Methods on SOTS, RS-HAZE and O-HAZE Datasets

模型	SOTS(室内)		SOTS(室外)		RS-HAZE		O-HAZE
模型	平均PSNR/dB	SSIM	平均PSNR/dB	SSIM	平均PSNR/dB	SSIM	平均PSNR/dB	SSIM
DCP^[6]	20.71	0.8494	21.23	0.9214	18.13	0.7301	14.28	0.5791
AOD-Net^[11]	17.59	0.7872	19.51	0.8300	19.95	0.8472	15.78	0.5126
DehazeNet^[8]	21.34	0.8615	22.61	0.8606	23.25	0.8239	15.50	0.5450
GCANet^[18]	30.06	0.9596			32.83	0.9320	16.46	0.6009
FFA^[12]	36.12	0.9874	32.13	0.9796	36.32	0.9603	14.88	0.5300
MSBDN^[14]	33.29	0.9784	30.16	0.9629	36.23	0.9556	16.26	0.6177
AECRNet^[15]	36.58	0.9883			34.84	0.9563	14.19	0.5296
D4^[16]	24.92	0.9301	25.28	0.9483	28.96	0.9217	16.55	0.6332
本文方法	37.45	0.9894	33.12	0.9825	36.70	0.9614	16.29	0.6054
注：加粗数字表示每一列的最高评估结果.

下载: 导出CSV

表 3 不同方法在SOTS室内数据集中对轻雾、中雾、浓雾图像去雾后的平均PSNR与SSIM评估结果

Table 3 Average PSNR and SSIM Evaluation of Defogged Results obtained by Different Methods on Light, Medium and Dense Fog Images in SOTS (Indoor)

模型	轻雾图像		中雾图像		平均浓雾图像		参数量/MB
模型	平均PSNR/dB	SSIM	平均PSNR/dB	SSIM	平均PSNR/dB	SSIM	参数量/MB
DCP	23.95	0.8650	21.36	0.8702	17.64	0.7752
AOD-Net	20.84	0.7878	18.55	0.8150	13.46	0.6934	0.002
DehazeNet	25.06	0.8637	22.32	0.8833	17.08	0.7877	0.008
GCANet	31.48	0.9584	30.05	0.9629	29.71	0.9488	0.70
FFA	38.37	0.9901	36.21	0.9884	35.20	0.9837	4.46
MSBDN	33.93	0.9832	33.86	0.9805	31.18	0.9701	31.35
AECRNet	38.42	0.9908	36.57	0.9890	35.61	0.9853	2.61
D4	27.02	0.9357	24.69	0.9294	24.33	0.9287	10.70
本文轻雾分支网络	39.85	0.9913					2.96
本文中雾分支网络			37.45	0.9901			3.81
本文浓雾分支网络					36.79	0.9867	5.01
注：加粗数字表示每一列的最高评估结果.

下载: 导出CSV

表 4 图12中第2~5列图像的PSNR评估结果

Table 4 PSNR Evaluation Results of Images in Columns 2 to 5 in Fig.12

约束项	PSNR/dB
约束项	图12(a)	图12(b)	图12(c)
${L_{\text{1}}}$	30.09	32.05	28.12
${L_{\text{B}}} - {L_{\text{d}}}$	32.52	32.78	28.38
${L_{\text{B}}} - {L_{\text{b}}}$	33.42	33.07	30.18
${L_{\text{B}}}$ （本文方法）	33.71	33.20	30.79
注：加粗数字表示每一列的最高评估结果.

下载: 导出CSV

参考文献(37)

[1]	Li Pengyue, Tian Jiandong, Tang Yandong, et al. Deep retinex network for single image dehazing[J]. IEEE Transactions on Image Processing, 2020, 30(99): 1100−1115
[2]	曹绪民,刘春晓. 基于亮度对比度增强与饱和度补偿的快速图像去雾算法[J]. 计算机辅助设计与图形学学报,2018,30(10):1925−1934 doi: 10.3724/SP.J.1089.2018.17000 Cao Xumin, Liu Chunxiao. Fast image defogging algorithm based on luminance contrast enhancement and saturation compensation[J]. Journal of Computer-Aided Design and Computer Graphics, 2018, 30(10): 1925−1934(in Chinese) doi: 10.3724/SP.J.1089.2018.17000
[3]	杨燕,陈高科,周杰. 基于高斯权重衰减的迭代优化去雾算法[J]. 自动化学报,2019,45(4):819−828 Yang Yan, Chen Gaoke, Zhou Jie. Iterative optimization defogging algorithm using Gaussian weight decay[J]. Acta Automatica Sinica, 2019, 45(4): 819−828(in Chinese)
[4]	胡伟,袁国栋,董朝,等. 基于暗通道优先的单幅图像去雾新方法[J]. 计算机研究与发展,2010,47(12):2132−2140 Hu Wei, Yuan Guodong, Dong Zhao, et al. Improved single image dehazing using dark channel prior[J]. Journal of Computer Research and Development, 2010, 47(12): 2132−2140(in Chinese)
[5]	范新南,冶舒悦,史朋飞,等. 改进大气散射模型实现的图像去雾算法[J]. 计算机辅助设计与图形学学报,2019,31(7):1148−1155 doi: 10.3724/SP.J.1089.2019.17458 Fan Xinnan, Ye Shuyue, Shi Pengfei, et al. An image dehazing algorithm based on improved atmospheric scattering model[J]. Journal of Computer-Aided Design and Computer Graphics, 2019, 31(7): 1148−1155(in Chinese) doi: 10.3724/SP.J.1089.2019.17458
[6]	He Kaiming, Sun Jian, Tang Xiaoou, et al. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341−2353 doi: 10.1109/TPAMI.2010.168
[7]	Xu Yueshu, Guo Xiaoqiang, Wang Haiying, et al. Single image haze removal using light and dark channel prior[C]// Proc of the 5th IEEE Int Conf on Communications in China. Piscataway, NJ: IEEE, 2016: 323−328
[8]	Cai Bolun, Xu Xiangmin, Jia Kui, et al. DehazeNet: An end-to-end system for single image haze removal[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5187−5198 doi: 10.1109/TIP.2016.2598681
[9]	Ren Wenqi, Liu Si, Zhang Hua, et al. Single image dehazing via multi-scale convolutional neural networks[C]// Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 154−169
[10]	Zhang He, Patel V M. Densely connected pyramid dehazing network[C]// Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 3194−3203
[11]	Li Boyi , Peng Xiulian , Wang Zhangyang , et al. AOD-Net: All-in-one dehazing network[C]// Proc of the 16th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 4770−4778
[12]	Qin Xu, Wang Zhilin, Bai Yuanchao, et al. FFA-Net: Feature fusion attention network for single image dehazing[C/OL]// Proc of the 34th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2020[2022-08-20].https://doi.org/10.1609/aaai.v34i07.6865
[13]	Liu Xiaohong, Ma Yongrui, Shi Zhihao, et al. GridDehazeNet: Attention-based multi-scale network for image dehazing[C]// Proc of the 17th IEEE/CVF Conf on Computer Vision. Los Alamitos, CA: IEEE Computer Society, 2019: 7314−7323
[14]	Dong Hang, Pan Jinshan, Xiang Lei, et al. Multi-scale boosted dehazing network with dense feature fusion[C] //Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2020: 2157−2167
[15]	Wu Haiyan, Qu Yanyun, Lin Shaohui, et al. Contrastive learning for compact single image dehazing[C]// Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2021: 10551−10560
[16]	Yang Yang, Wang Chaoyue, Liu Risheng, et al. Self-augmented unpaired image dehazing via density and depth decomposition[C]//Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2022: 2037−2046
[17]	Engin D, Genç A, Ekenel H K. Cycle-dehaze: Enhanced cycleGAN for single image dehazing[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition Workshops. Los Alamitos, CA: IEEE Computer Society, 2018: 825−833
[18]	Chen Dongdong, He Mingming, Fan Qingnan, et al. Gated context aggregation network for image dehazing and deraining[C]// Proc of the 19th IEEE Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2019: 1375−1383
[19]	Shao Yuanjie , Li Lerenhan , Ren Wenqi , et al. Domain adaptation for image dehazing[C]// Proc of the 33rd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2020: 2808−2817
[20]	Asery R, Sunkaria R K, Sharma L D, et al. Fog detection using GLCM based features and SVM[C]// Proc of the 3rd Conf on Advances in Signal Processing. Piscataway, NJ: IEEE, 2016: 72−76
[21]	Wan Jinjin, Qiu Zhenan, Gao Haifeng, et al. Classification of fog situations based on Gaussian mixture model[C]// Proc of the 36th Chinese Control Conf. Piscataway, NJ: IEEE, 2017: 10902−10906
[22]	Zhang Yuanyuan, Sun Guangmin, Ren Qian, et al. Foggy images classification based on features extraction and SVM[C]// Proc of the 3rd Int Conf on Software Engineering and Computer Science. Berlin: Springer, 2013: 142−145
[23]	吴琪,汪小武,章军,等. 利用序数关系实现相对学习的雾图像能见度检测算法[J]. 计算机辅助设计与图形学学报,2020,32(12):1938−1947 doi: 10.3724/SP.J.1089.2020.18250 Wu Qi, Wang Xiaowu, Zhang Jun, et al. Ordinal relation and relative learning for foggy image visibility detection[J]. Journal of Computer-Aided Design and Computer Graphics, 2020, 32(12): 1938−1947(in Chinese) doi: 10.3724/SP.J.1089.2020.18250
[24]	Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]// Proc of the 18th Conf on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234−241
[25]	Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C] //Proc of the 27th Int Conf on Neural Information Proc Systems. Cambridge, MA: MIT, 2014: 2672−2680
[26]	Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C] //Proc of the 16th IEEE Conf on Computer Vision. Los Alamitos, CA: IEEE Computer Society, 2017: 2242−2251
[27]	汪航,田晟兆,唐青,等. 基于多尺度标签传播的小样本图像分类[J]. 计算机研究与发展,2022,59(7):1486−1495 Wang Hang, Tian Shengzhao, Tang Qing, et al. Few-shot image classification based on multi-scale label propagation[J]. Journal of Computer Research and Development, 2022, 59(7): 1486−1495(in Chinese)
[28]	张强,杨吉斌,张雄伟,等. CS-Softmax:一种基于余弦相似性的Softmax损失函数[J]. 计算机研究与发展,2022,59(4):936−949 Zhang Qiang, Yang Jibin, Zhang Xiongwei, et al. CS-Softmax: A cosine similarity-based Softmax loss function[J]. Journal of Computer Research and Development, 2022, 59(4): 936−949(in Chinese)
[29]	Li Boyi, Ren Wenqi, Fu Dengpan, et al. Benchmarking single image dehazing and beyond[J]. IEEE Transactions on Image Processing, 2018, 28(1): 492−505
[30]	Hu Jie, Shen Li, Sun Gang, et al. Squeeze-and-excitation networks[C]// Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 7132−7141
[31]	Lin Min, Chen Qiang, Yan Shuicheng. Network in network[C/OL]// Proc of the 2nd IEEE Int Conf on Learning Representations. 2014[2022-08-20].https://openreview.net/forum?id=ylE6yojDR5yqX
[32]	Kong Xiangtao, Zhao Hengyuan, Qiao Yu, et al. ClassSR: A general framework to accelerate super-resolution networks by data characteristic[C]// Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2021: 12016−12025
[33]	Song Yuda, He Zhuqing, Qian Hui, et al. Vision transformers for single image dehazing[J]. arXiv preprint, arXiv: 2204. 03883, 2022
[34]	Ancuti C O, Ancuti C, Timofte R, et al. O-HAZE: A dehazing benchmark with real hazy and haze-free outdoor images[C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition Workshops. Los Alamitos, CA: IEEE Computer Society, 2018: 754−762
[35]	Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[C]// Proc of the 12th European conf on Computer Vision. Berlin: Springer, 2012: 746−760
[36]	Scharstein D, Szeliski R. High-accuracy stereo depth maps using structured light[C]// Proc of the 13th IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Los Alamitos , CA: IEEE Computer Society, 2003: 195−202
[37]	Kingma D P, Ba J. Adam: A method for stochastic optimization[C/OL]// Proc of the 3rd Int Conf on Learning Representations. 2015[2022-08-20]. https://openreview.net/forum?id=8gmWwjFyLj

施引文献(4)

期刊类型引用(4)

1.	邱淼波，高晋，林述波，李椋，王刚，胡卫明，王以政. 线性分解注意力的边缘端高效Transformer跟踪. 中国图象图形学报. 2025(02): 485-502 . 百度学术
2.	郭虎升，刘正琪，刘艳杰，王文剑. 时空特征强化与感知的视觉目标跟踪方法. 陕西师范大学学报(自然科学版). 2025(01): 60-70 . 百度学术
3.	张忠林. 基于蒙特卡罗算法的海上目标搜索研究. 中国新通信. 2024(16): 10-12 . 百度学术
4.	郭虎升. 目标检测综述：从传统方法到深度学习. 新兴科学和技术趋势. 2024(02): 128-145 . 百度学术