Processing math: 6%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

面向车联网数据持续共享的安全高效联邦学习

乐俊青, 谭州勇, 张迪, 刘高, 向涛, 廖晓峰

乐俊青, 谭州勇, 张迪, 刘高, 向涛, 廖晓峰. 面向车联网数据持续共享的安全高效联邦学习[J]. 计算机研究与发展, 2024, 61(9): 2199-2212. DOI: 10.7544/issn1000-1239.202330894
引用本文: 乐俊青, 谭州勇, 张迪, 刘高, 向涛, 廖晓峰. 面向车联网数据持续共享的安全高效联邦学习[J]. 计算机研究与发展, 2024, 61(9): 2199-2212. DOI: 10.7544/issn1000-1239.202330894
Le Junqing, Tan Zhouyong, Zhang Di, Liu Gao, Xiang Tao, Liao Xiaofeng. Secure and Efficient Federated Learning for Continuous IoV Data Sharing[J]. Journal of Computer Research and Development, 2024, 61(9): 2199-2212. DOI: 10.7544/issn1000-1239.202330894
Citation: Le Junqing, Tan Zhouyong, Zhang Di, Liu Gao, Xiang Tao, Liao Xiaofeng. Secure and Efficient Federated Learning for Continuous IoV Data Sharing[J]. Journal of Computer Research and Development, 2024, 61(9): 2199-2212. DOI: 10.7544/issn1000-1239.202330894
乐俊青, 谭州勇, 张迪, 刘高, 向涛, 廖晓峰. 面向车联网数据持续共享的安全高效联邦学习[J]. 计算机研究与发展, 2024, 61(9): 2199-2212. CSTR: 32373.14.issn1000-1239.202330894
引用本文: 乐俊青, 谭州勇, 张迪, 刘高, 向涛, 廖晓峰. 面向车联网数据持续共享的安全高效联邦学习[J]. 计算机研究与发展, 2024, 61(9): 2199-2212. CSTR: 32373.14.issn1000-1239.202330894
Le Junqing, Tan Zhouyong, Zhang Di, Liu Gao, Xiang Tao, Liao Xiaofeng. Secure and Efficient Federated Learning for Continuous IoV Data Sharing[J]. Journal of Computer Research and Development, 2024, 61(9): 2199-2212. CSTR: 32373.14.issn1000-1239.202330894
Citation: Le Junqing, Tan Zhouyong, Zhang Di, Liu Gao, Xiang Tao, Liao Xiaofeng. Secure and Efficient Federated Learning for Continuous IoV Data Sharing[J]. Journal of Computer Research and Development, 2024, 61(9): 2199-2212. CSTR: 32373.14.issn1000-1239.202330894

面向车联网数据持续共享的安全高效联邦学习

基金项目: 国家重点研发计划项目(2022YFB3103500);国家自然科学基金项目(61932006,62202071,62302072);中国博士后科学基金项目(2022M710518,2022M710520);重庆市自然科学基金项目(CSTB2022NSCQ-MSX0358,CSTB2022NSCQ-MSX1217)
详细信息
    作者简介:

    乐俊青: 1991年生. 博士,助理研究员. CCF会员. 主要研究方向为隐私保护、联邦学习、信息安全

    谭州勇: 1997年生. 硕士. 主要研究方向为隐私保护、联邦学习

    张迪: 1993年生. 博士,助理研究员. 主要研究方向为隐私保护、区块链、密码学

    刘高: 1991年生. 博士,助理研究员. 主要研究方向为车联网、区块链、隐私保护

    向涛: 1980年生. 博士,教授,博士生导师. CCF会员. 主要研究方向为隐私保护、信息安全、机器学习

    廖晓峰: 1964年生. 博士,教授,博士生导师. CCF会员. 主要研究方向为神经网络、隐私保护、密码学

    通讯作者:

    张迪(dizhang@cqu.edu.cn

  • 中图分类号: TP309;TP181

Secure and Efficient Federated Learning for Continuous IoV Data Sharing

Funds: The work was supported by the National Key Research and Development Program of China (2022YFB3103500), the National Natural Science Foundation of China (61932006, 62202071, 62302072), the China Postdoctoral Science Foundation (2022M710518, 2022M710520), and the Natural Science Foundation of Chongqing (CSTB2022NSCQ-MSX0358, CSTB2022NSCQ-MSX1217).
More Information
    Author Bio:

    Le Junqing: born in 1991. PhD, research assistant. Member of CCF. His main research interests include privacy protection, federated learning, and information security

    Tan Zhouyong: born in 1997. Master. His main research interests include privacy protection and federated learning

    Zhang Di: born in 1993. PhD, research assistant. Her main research interests include privacy protection, blockchain, and cryptography

    Liu Gao: born in 1991. PhD, research assistant. His main research interests include Internet of vehicles, blockchain, and privacy protection

    Xiang Tao: born in 1980. PhD, professor, PhD supervisor. Member of CCF. His main research interests include privacy protection, information security, and machine learning

    Liao Xiaofeng: born in 1964. PhD, professor, PhD supervisor. Member of CCF. His main research interests include neural network, privacy protection, and cryptography

  • 摘要:

    车联网与人工智能结合推动了自动驾驶汽车的快速发展. 分散于不同车辆中的车联网数据共享并用于训练人工智能模型可实现更高效、更可靠的智能驾驶服务. 自动驾驶汽车可通过车载摄像头、传感器等持续采集车辆实时信息、道路图像和视频等车联网数据,并用于优化更新智能交通模型,弥补车联网数据变化导致的模型准确度下降问题. 提出面向车联网环境下数据持续共享的高效安全联邦学习方案SEFL,以解决车联网数据采集低效、数据动态更新导致的灾难性遗忘、模型训练参数导致的隐私泄露等问题. 在方案SEFL中,车辆基于全局模型,只采集模型识别率较低的车联网数据,并以最大概率对应的输出作为该样本的标签,完成训练样本自动采集. 由于车辆存储空间有限,采集的新样本会覆盖旧样本,导致车辆上数据是动态变化的,传统微调训练方式容易引起灾难性遗忘问题. 为此,方案中设计了一种基于双重知识蒸馏的训练算法,确保模型学习到每个样本的知识,使模型保持较高的准确度. 此外,为了防止车辆与服务器之间传播的模型参数泄露用户隐私,提出了一种自适应的差分隐私策略来实现客户端级的强隐私保护,同时该方案能最大限度地减少差分隐私噪声对全局模型准确度的负面影响. 最后,进行了安全性分析并结合交通标志数据集GTSRB和车辆识别数据集对SEFL方案进行了性能评估. 实验结果表明所提出的SEFL方案能提供可靠的强隐私保护和高效的采集策略,并且在模型准确度方面要优于现有基于联邦学习的算法.

    Abstract:

    The combination of the Internet of vehicles (IoV) and artificial intelligence (AI) has driven the rapid development of autonomous vehicles. Sharing IoV data distributed across different vehicles for training AI models enables more efficient and reliable intelligent driving services. Autonomous vehicles can continuously gather real-time vehicle information, road images and videos among other IoV data, through onboard cameras and sensors. This data are then utilized to optimize and update intelligent traffic models, addressing issues where changes in IoV data result in decreased model accuracy. We propose an efficient and secure federated learning scheme (named as SEFL) for continuous data sharing in an IoV environment to address the problems related to inefficient data collection, catastrophic forgetting problems due to dynamic data updates and privacy leakage from model training parameters. In SEFL, to enable the automatic collection of training samples, each vehicle is based on the global model to only collect IoV data with lower recognition accuracy, and the output with the highest probability is used as the label for that sample. Since vehicle storage space is limited and new samples can overwrite old ones, the data on vehicles are dynamically changing, making traditional fine-tuning training methods prone to catastrophic forgetting. Thus, a dual-knowledge distillation-based training algorithm is proposed in SEFL to ensure that the model learns the knowledge of each sample, maintaining high accuracy. Besides, to prevent privacy leakage from the model parameters between vehicles and servers, an adaptive differential privacy strategy is proposed to achieve client-level privacy protection. Simultaneously, this strategy minimizes the negative impact of differential privacy noise on the accuracy of the global model. Finally, a security analysis and performance evaluation of SEFL scheme are conducted using the GTSRB dataset and vehicle identification dataset. The analysis and experimental results indicate that the proposed SEFL scheme can provide strong privacy protection and efficient data collection. Furthermore, SEFL outperforms existing federated learning-based algorithms in terms of model accuracy.

  • 图像融合旨在从不同传感器或不同拍摄设置捕获的图像中提取最有意义的信息,并将这些信息融合生成单幅信息更完备、对后续应用更有利的图像[1-3]. 红外与可见光图像融合是应用最为广泛的图像融合任务之一. 具体来说,红外传感器对成像环境较鲁棒,所捕获的红外图像具有显著的对比度,能有效地将热目标与背景区分开. 然而,红外图像往往缺乏纹理细节,不符合人类的视觉感知习惯. 相反,可见光图像往往包含丰富的纹理细节,但容易受天气、光照等因素影响,且无法有效突出目标. 红外与可见光图像融合致力于同时保留这2种模态的优异特性,以生成既具有显著对比度又包含丰富纹理细节的图像. 由于融合图像的优良特性,红外与可见光图像融合已被广泛应用于军事探测、目标监控以及车辆夜间辅助驾驶等领域[4-5].

    现存的红外与可见光图像融合方法根据其原理可分为传统方法和基于深度学习的方法. 传统方法通常利用相关的数学变换在空间域或变换域进行活动水平测量,并设计相应的融合规则来实现图像融合[6]. 代表性方法有:基于多尺度变换的方法[7-8]、基于稀疏表示的方法[9]、基于子空间的方法[10]、基于显著性的方法[11]以及混合方法[12]. 一般来说,这些传统方法手工设计的活动水平测量及融合规则具有较大的局限性:一方面,源图像的多样性势必会使这些手工设计越来越复杂;另一方面,这也限制了融合性能的进一步提升,因为不可能以手工设计的方式考虑所有因素.

    近年来,深度学习的快速发展推动了图像融合领域的巨大进步. 基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,不断提升融合性能[13]. 根据图像融合的实现过程,现存的基于深度学习的图像融合方法可以分为端到端融合方法和非端到端融合方法. 端到端融合方法[14-17]通常在损失函数的引导下隐式地实现特征提取、特征融合及图像重建,其损失函数被定义为图像空间中融合图像与源图像绝对分布(如像素强度、梯度等原始图像属性)之间的距离,如图1所示. 在这一类方法中,图像融合网络的优化实际上是寻求红外与可见光图像绝对分布的中和比例,这势必会造成有益信息被削弱,如纹理结构和热目标被中和.

    图  1  端到端融合方法示意图
    Figure  1.  Schematic of the end-to-end fusion method

    非端到端融合方法一般基于自编码网络,其先用编码器实现特征提取,然后使用融合策略聚合提取到的特征,最后使用译码器对融合特征进行译码实现图像重建. 然而,在现存非端到端图像融合方法中,所采用的中间特征融合策略仍然是传统的[18],如Mean策略、Max策略以及Addition策略等,如图2所示. 这些融合策略是全局的,不能根据输入图像来自适应地调整,融合性能十分有限. 比如,Mean策略对输入特征直接取平均,会造成显著目标的亮度被中和;Addition策略直接将输入特征相加,会造成部分区域亮度中和或饱和.

    图  2  非端到端融合方法示意图
    Figure  2.  Schematic of the non-end-to-end fusion method

    为了解决上述挑战,本文提出一个基于特征空间多类别对抗机制的红外与可见光图像融合网络,显著提升了融合性能. 首先,该方法基于自编码网络,利用编码器网络和译码器网络显式地实现特征提取和图像重建. 其中,编码器网络引入了空间注意力机制来关注更重要的区域,如显著目标区和丰富纹理区;译码器网络引入通道注意力机制来筛选对重建图像本身更有利的通道特征,如高频特征通道和包含了显著性目标的低频特征通道. 此外,译码器网络还采用了多尺度卷积,其可以从不同尺度处理特征,从而在重建过程中更好地保留细微纹理. 然后,采用生成式对抗网络(generative adversarial network, GAN)实现中间特征融合策略的可学习化. 具体来说,本文设计了一个特征融合网络作为生成器来融合由训练好的编码器提取的特征,其致力于生成同时符合红外和可见光2种模态概率分布的融合特征. 提出一个多分类器鉴别器,其致力于区分红外特征、可见光特征以及融合特征. 特征融合网络和多分类器鉴别器持续地进行多分类对抗学习,直到多分类器鉴别器认为融合特征既是可见光特征,又是红外特征. 此时,特征融合网络便能保留红外图像和可见光图像中最显著的特性,从而生成高质量的融合特征. 最终的融合图像由训练好的译码器网络对融合特征译码得到. 值得注意的是,所提方法采用的多分类对抗机制区别于传统GAN[19]的二分类对抗,其更符合图像融合任务的多源信息拟合需求. 与当前基于GAN的图像域对抗融合方法[16]也不同,所提方法首次将生成对抗机制引入特征空间,对技术路线中的“特征融合”环节更具针对性. 更重要的是所提方法摆脱了当前几乎所有的基于GAN的融合方法都需要的距离(内容)损失,仅在GAN分类决策所捕获的模态概率分布(如对比度、纹理等模态属性)之间构建损失,有效地避免了有益信息的削弱,从而实现显著热目标和丰富纹理结构的自适应保留.

    所提方法有两大优势:1)相较于现存端到端的融合方法,本文方法没有使用融合图像与源图像绝对分布之间的距离作为损失函数,而是在分类决策捕获的模态概率分布之间建立对抗损失,从而避免有益信息被削弱. 2)相较于现存非端到端的融合方法,所提方法将中间特征融合策略可学习化,能够根据输入图像自适应地调整融合规则,较好地保留了源图像中的显著对比度和丰富纹理细节. 这种智能融合策略可以避免传统融合策略造成的亮度中和或饱和以及信息丢失等问题. 为了直观展示所提方法的优势,选取了代表性的端到端融合方法U2Fusion[15]和非端到端融合方法DenseFuse[18]来对比显示,其中DenseFuse按照原始论文建议选取了性能相对较好的Addition策略,融合结果的差异如图3所示. 可以看出,U2Fusion的融合结果中出现了典型的亮度中和现象,目标建筑物的亮度没有被保持,纹理结构也很不自然. DenseFuse使用Addition融合策略,虽然能较好地维持纹理结构的显著性,但目标建筑物的亮度依旧被削弱. 相比之下,本文方法能显著地改善这些问题,融合结果不但准确地保持了目标建筑物的亮度,而且包含丰富的纹理细节. 这得益于所提方法中特征融合网络的优异性能,其能自适应地保留红外与可见光的模态特性.

    图  3  融合性能对比
    Figure  3.  Comparison of fusion performance

    本文的主要贡献有3个方面:1)提出了一个新的红外与可见光图像融合网络,其利用多分类对抗机制将传统融合策略扩展为可学习,具有更好的融合性能. 2)所提模型将现存方法中融合图像与源图像绝对分布之间的距离损失扩展为模态概率分布之间的对抗损失,有效避免了现存融合方法中有益信息被削弱的问题. 3)本文方法具有良好的泛化性,可以推广到任意红外与可见光图像融合数据集.

    本节回顾和所提方法最相关的技术和工作,包括基于深度学习的融合方法及GAN.

    近几十年,基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,获得了远超传统方法的性能[20]. 现存的基于深度学习的图像融合方法可以分为端到端融合方法以及非端到端融合方法.

    端到端融合方法通常直接使用一个整体网络将输入的红外和可见光图像进行融合. 换句话说,融合的各个阶段如特征提取、特征融合以及图像重建都是隐式的. 端到端融合方法可根据所采取的架构分为基于卷积神经网络的融合方法[21-22]和基于GAN的融合方法[23-25]. 这些方法的共性在于依赖融合图像与源图像绝对分布之间的距离损失. 例如,PMGI[14]在融合图像和2幅源图像间建立强度和梯度距离损失,并通过调节损失项的权重系数来调整信息融合过程中的保留比例,从而控制融合结果绝对分布的倾向性. U2Fusion[15]则在融合图像和2幅源图像间建立强度和结构相似度损失[26],并通过度量特征图的信息质量来自适应地调整损失项系数,从而引导融合图像保留有效信息. 不幸的是,这种融合图像与2幅源图像绝对分布之间的距离损失会建立一个博弈,导致最终融合图像是2幅源图像原始属性(如像素强度、梯度)的折中,不可避免地造成有益信息被削弱. 除此以外,武汉大学的Ma等人[16]将GAN架构引入到图像融合领域并提出了引起广泛关注的FusionGAN,其中网络的优化不仅依赖图像绝对分布之间的距离损失,还依赖模态概率分布之间的对抗损失. 随后,文献[16]的作者引入双鉴别器来平衡红外与可见光信息以进一步提升融合性能[17],但是网络优化仍离不开图像绝对分布之间的内容损失,这意味有益信息的丢失问题仍然存在.

    非端到端融合方法主要是基于自编码架构[27],其特征提取、特征融合以及图像重建3个阶段都是非常明确的,由不同的网络或模块来实现. 现存非端到端图像融合方法的融合质量一直受融合策略的性能制约. 具体来说,现存的基于自编码结构的融合方法采用的融合规则都是手工制作的,且不可学习. 例如,DenseFuse[18]采用Addition策略和l1-norm策略;SEDRFuse[28]采用最大值策略. 这些策略不能根据输入图像自适应地调整,可能会造成亮度中和或过饱和、信息丢失等问题,因此,研究可学习的融合规则非常有意义.

    原始GAN由Goodfellow等人[19]于2014年提出,其由一个生成器和一个鉴别器组成. 生成器是目标网络,致力于生成符合目标分布的伪数据;鉴别器是一个分类器,其负责准确分辨出真实数据和生成器伪造的假数据. 因此,生成器和鉴别器之间是敌对关系. 也就是说,生成器希望生成鉴别器无法区分的伪数据,而鉴别器则希望能准确鉴别出伪数据. 生成器和鉴别器不断迭代地优化,直到鉴别器无法区分是真实数据还是由生成器产生的伪数据. 此时,生成器便具备生成符合目标分布数据的能力. 下面,我们形式化上述对抗学习过程.

    假设生成器被表示为G,鉴别器被表示为D,输入到生成器的随机数据为Z={z1,z2,,zn}Pz,目标数据为X={x1,x2,,,xn}PX. 那么,生成器致力于估计目标数据X的分布PX,并尽可能生成符合该分布的数据G(Z),而鉴别器D需要对真实数据X和生成的伪数据G(Z)进行准确区分. 总而言之,GAN的目的就是在不断地对抗训练中使得伪数据的分布PG不断逼近目标数据分布PX. 因此,GAN的目标函数被定义为

    min (1)

    随着研究的深入,研究者发现使用交叉熵损失的原始GAN在训练过程中非常不稳定,且生成结果质量不高. 最小二乘GAN[29]的提出改善了这一现象,其使用最小二乘损失作为损失函数,引入标签来引导生成器和鉴别器的优化. 最小二乘GAN的目标函数被定义为

    \begin{split} &\min\limits _{D} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(D\right)=\frac{1}{2}{E}_{{x}_{i}\sim{P}_{X}}\left[D\left({x}_{i}\right)-{r}^{2}\right] +\\ &\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{s}^{2}\right], \end{split} (2)
    \begin{aligned}\min\limits _{G} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(G\right)=\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{t}^{2}\right],\end{aligned} (3)

    其中r, s, t是对应的概率标签. 具体来说,r是鉴别器判定目标数据集合X中数据 {x}_{i} 对应的标签,设定r = 1;s是鉴别器判定由生成器构造的伪数据G {z}_{i} )对应的标签,设定s = 0;t是生成器希望鉴别器判定伪数据G {z}_{i} )对应的标签,设定t = 1.

    本节详细描述提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络. 首先,我们给出问题建模,然后介绍网络详细结构,最后提供损失函数的具体设计.

    从定义上来说,图像融合是从源图像中提取最有意义的特征,将它们融合并重建包含更丰富信息的单幅图像. 因此,图像融合的整个过程可以分为3个阶段:特征提取、特征融合以及图像重建. 基于上述思想,本文提出一个基于特征空间多分类对抗机制的红外与可见光图像融合网络,其总体框架如图4所示.

    图  4  本文方法的总体框架图
    Figure  4.  Overall framework of the proposed method

    首先,鉴于自编码器网络的“低维—高维—低维”映射理念非常契合特征提取和图像重建这2个环节,所提方法提出一个引入注意力机制的自编码器网络来实现特征提取和图像重建. 其中,编码器网络 {E}_{\mathrm{I}} 中的空间注意力机制能使得低维向高维映射时更关注那些包含重要信息的区域,如包含丰富纹理或显著热目标的区域;而译码器网络 {D}_{\mathrm{I}} 中的通道注意力机制则使得高维向低维映射时更关注对重建图像更有利的通道特征,如高频特征通道和包含显著目标的低频特征通道. 除此以外,译码器网络 {D}_{\mathrm{I}} 还引入了多尺度卷积来加强对细微空间纹理的保留.

    其次,使用训练好的编码器网络 {E}_{\mathrm{I}} 从红外和可见光图像中提取特征,并设计一个特征融合网络F来融合这些特征,这种可学习的特征融合策略比现存方法所使用的传统融合策略具有更强的性能. 具体来说,所提的特征融合网络F被当作生成器,然后结合使用1个多分类鉴别器MD,二者构成特征空间上的生成式对抗网络. 特征融合网络F致力于同时估计红外与可见光2种模态特征概率分布,以生成同时符合这2种模态概率分布的融合特征;而多分类鉴别器MD则致力于准确区分可见光特征、红外特征以及特征融合网络生成的融合特征. 经过持续的对抗学习,直到多分类鉴别器认为融合特征既是红外特征又是可见光特征,此时该融合特征便具备了红外和可见光2种模态中最显著的特性. 值得注意的是,所提模型中生成式对抗网络的优化仅依赖于模态概率分布之间的对抗损失,不依赖绝对分布之间的距离损失,这极大地避免了现存方法中存在的有益信息被削弱问题. 最终,将特征融合网络F生成的融合特征经训练好的译码器网络 {D}_{\mathrm{I}} 译码得到高质量的融合图像 {\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 整个融合过程可以被形式化为

    \begin{array}{c}{\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}={D}_{\mathrm{I}}\left(F\left({E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right),{E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\right)\right),\end{array} (4)

    其中{\boldsymbol{I}}_{{\rm{ir}} }{\boldsymbol{I}}_{{\rm{vis}}}分别表示红外图像和可见光图像; {E}_{\mathrm{I}} (·)表示编码器网络对应的功能函数,F(·) 表示特征融合网络对应的功能函数, {D}_{\mathrm{I}}(·) 表示译码器网络对应的功能函数.

    本文所提红外与可见光图像融合网络包括2部分:负责特征提取和图像重建的自编码器网络;负责融合规则学习的GAN.

    自编码器网络是一种经典的自监督网络,其以重建输入数据为导向,先利用编码器网络将图像映射到高维特征空间,再利用译码器网络将高维特征重新映射为图像. 因为译码器网络重建图像的质量依赖于中间高维特征的质量,所以编码器网络必须能提取具有高表达能力的特征,而译码器网络必须具备从中间特征准确重建出源图像的能力. 本文提出了一种新的自编码器网络来实现融合过程中的特征提取和图像重建,如图5(a)所示.

    图  5  用于特征提取和图像重建的自编码器网络结构图
    Figure  5.  Structures of the autoencoder network for feature extraction and image reconstruction

    编码器网络 {E}_{\mathrm{I}} 使用10个卷积层从源图像中提取特征,其中卷积核尺寸均为 \text{3×3} ,激活函数均为lrelu (leaky relu). 在第5和第9层后,使用空间注意力模块对所提特征沿空间位置加权,以增强特征中重要的空间区域(如显著目标、结构纹理). 空间注意力模块[30]的网络结构如图5(b)所示,可以看到,空间注意力模块先使用最大池化和平均池化对固定空间位置不同通道的信息进行聚合,然后使用1个卷积层处理串接的聚合特征,以生成与原始特征空间尺寸相同的注意力谱. 该注意力谱本质上是一系列学习到的权重,对输入特征沿着空间维度进行选择性加权,从而实现感兴趣区域特征的增强. 在编码器中使用空间注意力模块可以有效满足对感兴趣特征的提取偏好,提升编码特征的表达能力. 此外,编码器还将密集连接[31]和残差连接[32]相结合,其一方面把浅层特征不断跳跃连接到深层网络以增强后续特征表达能力和增加特征利用率,另一方面残差连接也避免了特征提取过程出现的梯度消失和爆炸问题.

    在译码器网络 {D}_{\mathrm{I}} 中,先使用2个结合通道注意力模块的多尺度卷积层处理由编码器网络 {E}_{\mathrm{I}} 提取的中间特征. 在每个多尺度卷积层,3个具有不同尺寸卷积核的卷积层并行处理输入特征,其卷积核尺寸分别为 \text{7×7} , \text{5×5} , \text{3×3} ,激活函数均为lrelu. 通道注意力模块[30]的网络结构如图5(c)所示,其先使用最大池化和平均池化对固定通道不同空间位置的特征进行聚合,然后在2个分支中分别使用2个卷积层对聚合特征进行处理,最后将2个分支的处理结果求和得到最终的注意力谱. 该注意力谱是一个长度与输入特征通道数相同的向量,表示将为输入特征每个通道分发的权重. 在自监督重建的优化导向下,译码器将自适应地关注对重建更重要的特征通道,从而提升重建精度. 最后,使用3个卷积核尺寸为 \text{3×3} 的卷积层来重建源图像. 其中,除了最后一层,其他卷积层均使用lrelu作为激活函数,最后一层使用tanh作为激活函数. 在上述特定设计下,所提自编码网络具有强大的特征提取和图像重建能力.

    本文设计了一种新颖的特征融合规则构建方式,其利用GAN将融合策略可学习化,从而获得更好的融合性能,如图6所示.

    图  6  用于融合规则学习的生成式对抗网络结构图
    Figure  6.  Structures of generative adversarial network for fusion rule learning

    首先,特征融合网络F在对抗架构中扮演生成器的角色,其将训练好的编码器网络 {E}_{\mathrm{I}} 提取的红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 和可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 进行融合,生成融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在特征融合网络F中,先使用3个卷积核尺寸为3×3、激活函数为lrelu的卷积层来处理输入的红外特征与可见光特征. 然后,采用3个分支来分别预测融合权重 {\omega }_{\mathrm{i}\mathrm{r}} , {\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及偏差项 \varepsilon . 每个分支包含2个卷积层,其卷积尺寸均为3×3. 在融合权重预测分支,2个卷积层分别使用lrelusigmoid作为激活函数;在偏差预测分支,2个卷积层的激活函数均为lrelu. 融合特征可以被表示为

    \begin{split} &{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}=F\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}},{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)=\\ &{\omega }_{\mathrm{i}\mathrm{r}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}+{\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}+\varepsilon . \end{split} (5)

    其次,使用1个多分类鉴别器MD来区分红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 、可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及特征融合网络 F 合成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在多分类鉴别器MD中,先使用4个卷积层来处理输入特征,它们的卷积核尺寸均为3×3,激活函数均为lrelu. 然后,处理后的特征被重塑为1个1维向量,并使用1个线性层来输出1个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis. 特征融合网络 F 和多分类鉴别器MD连续地对抗学习,直到多分类鉴别器MD认为生成器产生的融合特征既是红外特征又是可见光特征,此时特征融合网络 F 便学会合理的融合规则.

    本文的损失函数包括2部分:自编码器网络损失函数和生成式对抗网络损失函数.

    自编码器网络先利用编码器网络 {E}_{\mathrm{I}} 将低维图像映射为高维特征,再利用译码器网络 {D}_{\mathrm{I}} 重新将高维特征映射为低维图像. 也就是说,自编码器网络致力于重建输入图像. 所提方法在强度域和梯度域构建重建图像与输入图像的一致性损失:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{A}\mathrm{E}}={\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}+\beta {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}},\end{array} (6)

    其中 {\mathcal{L}}_{\mathrm{A}\mathrm{E}} 是自编码器网络的总损失, {\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}} 是强度损失, {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}} 是梯度损失, \beta 是平衡强度损失项和梯度损失项的参数. 值得注意的是,自编码器网络的训练同时在红外图像与可见光图像上进行,即红外图像和可见光图像共享编码器网络 {E}_{\mathrm{I}} 和译码器网络 {D}_{\mathrm{I}} 的权重,因此对应的强度损失和梯度损失被定义为:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}=\left|{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (7)
    \begin{array}{c}{\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}}=\left|{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\nabla \boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-\nabla {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (8)

    其中IirIvis是输入源红外和可见光图像, {\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}} {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}} 是自编码网络重建的红外和可见光图像,其可以表示为 {\boldsymbol{I}}_{(·)}^{\mathrm{r}\mathrm{e}}={D}_{\mathrm{I}}\left({E}_{\mathrm{I}}\right({\boldsymbol{I}}_{\left(·\right)}\left)\right) . 此外,|·| \ell_1范数,\nabla是Sobel梯度算子,其从水平和竖直2个方向来计算图像的梯度. 在上述损失的约束下,编码器网络 {E}_{\mathrm{I}} 能较好地从源图像中提取特征,译码器网络 {D}_{\mathrm{I}} 则能从编码特征中准确地重建源图像.

    生成式对抗网络通过连续地对抗学习构建高性能融合规则,其网络优化仅依赖于模态概率分布之间的对抗损失,不依赖融合图像与源图像绝对分布之间的距离损失,极大地避免了有益信息被削弱.

    对于特征融合网络F,其目的是产生可以骗过多分类鉴别器MD的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,即让MD认为所生成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} 既是红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 又是可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} . 因此,特征融合网络F的损失 {\mathcal{L}}_{{F}}

    \begin{array}{c}{\mathcal{L}}_{{F}}={\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-a\right)}^{2}+ {\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-a\right)}^{2},\end{array} (9)

    其中MD(·) 表示多分类鉴别器的函数,其输出是1个1×2的概率向量. MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [1]指的是该向量的第1项,表示多分类鉴别器判定输入特征是红外特征的概率Pir MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [2]指的是该向量的第2项,表示多分类鉴别器判定输入特征是可见光特征的概率Pvis. a 是概率标签,设定a = 0.5,即特征融合网络希望通过自身的优化使得多分类鉴别器无法区分融合特征是红外特征还是可见光特征.

    与特征融合网络F成敌对关系,多分类鉴别器MD希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征. 因此,多分类鉴别器损失 {\mathcal{L}}_{MD} 包括3部分:判定红外特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 、判定可见光特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 以及判定融合特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} ,即

    \begin{array}{c}{\mathcal{L}}_{MD}={\alpha }_{1}{\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}+{\alpha }_{2}{\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}+{\alpha }_{3}{\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}},\end{array} (10)

    其中, {\alpha }_{1} , {\alpha }_{2} , {\alpha }_{3} 是平衡这些损失项的参数.

    当输入特征为红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} ,多分类鉴别器判定的Pir应趋于1,Pvis应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}= &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[1\right]-{b}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[2\right]-{b}_{2}\right)}^{2}, \end{split} (11)

    其中 {b}_{1} {b}_{2} 是红外特征对应的概率标签,设定 {b}_{1} = 1, {b}_{2} = 0,即多分类鉴别器应该准确识别出输入特征是红外特征而不是可见光特征.

    类似地,当输入特征为可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} ,对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[1\right]-{c}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[2\right]-{c}_{2}\right)}^{2}, \end{split} (12)

    其中 {c}_{1} {c}_{2} 是可见光特征对应的概率标签,设定 {c}_{1} = 0, {c}_{2} = 1,即多分类鉴别器应该准确识别出输入特征是可见光特征而不是红外特征.

    当输入特征为融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,多分类鉴别器输出的PirPvis都应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-{d}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-{d}_{2}\right)}^{2}, \end{split} (13)

    其中 {d}_{1} {d}_{2} 是融合特征对应的概率标签, {d}_{1} {d}_{2} 都被设为0,即MD应能准确识别出输入特征既不是红外特征也不是可见光特征.

    本节将在公开数据集上评估所提方法. 5个最先进的红外与可见光图像融合方法被挑选作为对比,包括GTF[12], MDLatLRR[33], DenseFuse[18], FusionGAN[16], U2Fusion[15]. 值得注意的是,在后续实验中,DenseFuse使用推荐的性能更好的Addition策略. 首先,提供实验配置,如实验数据、训练细节以及评估指标. 其次,从定性和定量2方面实施对比实验. 本节还提供泛化性实验、效率对比及消融实验来验证所提方法的有效性.

    本文选用TNO数据集[34]和MFNet数据集[35]作为对比实验的数据,TNO数据集和MFNet数据集用于测试的图像对数量分别为20和200, 用于训练的数据分别为裁剪得到的45910对和96200对80×80的图像块. 此外,选用RoadScene[36]数据集作为泛化性实验的数据,用于测试的图像对数量为20. 以上3个数据集中的图像对都已被严格配准[37].

    首先训练自编码器网络. 在自编码器网络的训练过程中,批大小被设置为s1,训练1期需要m1步,一共训练M1期. 在实验中,设置为s1 = 48,M1 = 100,m1是训练图像块总数量和批大小s1的比率. 自编码器网络训练好后冻结其参数,然后在训练好的编码器网络提取的特征空间中训练GAN. 在GAN的训练过程中,批大小被设置为s2,训练1期需要m2步,一共训练M2期. 在实验中,设置s2 = 48,M1 = 20,m2是训练图像块总数量和批大小s2的比率. 无论是自编码器网络还是GAN,都采用Adam优化器来更新参数. 在整个训练结束后,将编码器网络、特征融合网络以及译码器网络级联组成完整的图像融合网络. 值得注意的是,因为该图像融合网络是一个全卷积神经网络,输入可以是任意尺寸源图像对,即测试时不需要像训练那样对源图像进行裁剪. 此外,根据经验,设定式(6)中的参数β = 10,式(10)中的参数α1 = 0.25, α2 = 0.25, α3 = 0.5. 所有的实验均在GPU NVIDIA RTX 2080Ti及CPU Intel i7-8750H上实施.

    本文从定性和定量2个方面评估各方法的性能. 定性评估是一种主观评估方式,其依赖于人的视觉感受,好的融合结果应同时包含红外图像的显著对比度和可见光图像的丰富纹理. 定量评估则通过一些统计指标来客观评估融合性能,本文选用了7个在图像融合领域被广泛使用的定量指标,如视觉信息保真度[38](visual information fidelity, VIF)、信息熵[39](entropy, EN)、差异相关和[40](the sum of the correlations of differences, SCD)、互信息[41](mutual information, MI)、质量指标[42](quality index, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} )、标准差[43](standard deviation, SD)及空间频率[44](spatial frequency, SF). VIF测量融合图像保真度,大的VIF值表示融合图像保真度高;EN测量融合图像的信息量,EN值越大,融合图像包含的信息越多;SCD测量融合图像包含的信息与源图像的相关性,SCD越大意味着融合过程引入的伪信息越少;MI衡量融合图像中包含来自源图像的信息量,MI越大意味着融合图像包含来自源图像的信息越多; {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 衡量融合过程中边缘信息的保持情况, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 越大,边缘被保持得越好;SD是对融合图像对比度的反映,大的SD值表示良好的对比度;SF测量融合图像整体细节丰富度,SF越大,融合图像包含的纹理越丰富.

    首先,在TNO数据集上进行定性对比. 5组典型的结果被挑选来定性地展示各方法的性能,如图7所示. 可以看出,本文所提方法有2方面的优势:一方面,本文方法能非常精确地保留红外图像中的显著目标,它们的热辐射强度几乎没有损失,且边缘锐利;另一方面,所提方法也能很好地保留可见光图像中的纹理细节.

    图  7  TNO数据集上对比实验的定性结果
    Figure  7.  Qualitative results of the comparative experiment on TNO dataset

    从融合结果的倾向性可以把对比方法分为2类:第1类是融合结果倾向于可见光图像的方法,如MDLatLRR, DenseFuse, U2Fusion. 从图7中可以看到,这一类方法的融合结果虽然包含丰富的纹理细节,但其对比度较差,热辐射目标被削弱. 例如,在第1组结果中,MDLatLRR, DenseFuse, U2Fusion对树木纹理保留得较好,但却削弱了目标建筑物的亮度. 类似的还有第2组中的水面、第3组和第4组中的人以及第4组中的坦克. 第2类是融合结果倾向于红外图像的方法,如GTF和FusionGAN. 这一类方法能较好地保留热目标,但纹理细节不够丰富,它们的结果看起来很像是锐化的红外图像. 如在图7中的第1组结果中,GTF和FusionGAN较好地保留了目标建筑物的显著性,但周边树木的纹理结构却不够丰富. 类似地还有第2组中的灌木、第3组中的路灯以及第4组中的树叶. 本文所提方法综合了这2类方法的优势. 具体来说,所提方法既能像第1类方法那样保持场景中的纹理细节,又能像第2类方法那样准确保持热辐射目标. 值得注意的是所提方法对热目标边缘保持得比第2类方法更锐利. 总的来说,本文方法在定性对比上优于这些最新方法.

    进一步,在20幅测试图像上的定量对比结果如表1所示. 可以看出,本文所提方法在EN, SCD, MI, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} , SD, SF这6个指标上都取得最高平均值;在VIF上,本文方法排行第2,仅次于方法U2Fusion. 这些结果说明:本文方法在融合过程中从源图像传输到融合图像的信息最多、引入的伪信息最少、能最好地保持边缘. 生成的融合结果包含的信息量最大、有最好的对比度、具有最丰富的整体纹理结构. 总的来说,本文方法相较于这些对比方法在定量指标上也是有优势的.

    表  1  TNO数据集上对比实验的定量结果
    Table  1.  Quantitative Results of the Comparative Experiment on TNO Dataset
    融合方法VIFENSCDMI{ \boldsymbol{Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.350±0.0526.753±0.3960.985±0.1651.200±0.4400.423±0.10035.157±11.40510.315±5.268
    MDLatLRR0.346±0.0516.438±0.4081.663±0.1351.037±0.2250.435±0.07726.148±6.2427.930±3.587
    DenseFuse0.386±0.0916.836±0.2731.835±0.1281.114±0.2690.440±0.10335.144±8.8919.296±3.806
    FusionGAN0.231±0.0466.450±0.3231.512±0.2281.099±0.2070.210±0.05527.683±6.0526.075±2.051
    U2Fusion0.423±0.1066.923±0.2511.808±0.0940.906±0.1970.430±0.06834.446±7.65911.928±4.681
    本文方法0.414±0.1037.183±0.2831.936±0.0601.240±0.2750.446±0.11048.605±8.67113.203±4.792
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    在MFNet数据集上实施定性对比实验,同样提供5组代表性的结果来展示各种方法的性能,如图8所示. 可以看到,只有GTF, FusionGAN以及本文方法能较好地维护红外图像中热辐射目标的显著度,但相较于这2种方法,本文方法能更好地保持热目标边缘的锐利性,呈现良好的视觉效果. 例如,在第3, 4, 5组结果中,本文方法能较好地保持热目标行人的姿态,而GTF, FusionGAN均由于边缘扩散导致轮廓模糊. 相反,MDLatLRR, DenseFuse, U2Fusion太过于偏重于保留结构纹理,而忽视了热辐射目标保留,这导致一些场景中目标削弱或丢失. 例如,在第2组结果中,汽车旁边的微小行人在这些方法的结果中被丢失. 相较而言,本文方法能在热目标和结构纹理的保留上取得较好的平衡. 例如,第1组结果中,所提方法既维持了窗户的显著性,又保留了墙壁的纹理细节. 总体而言,本文方法在MFNet数据集的定性对比上比这些最新方法有优势.

    图  8  MFNet数据集上对比实验的定性结果
    Figure  8.  Qualitative results of the comparative experiment on MFNet dataset

    在MFNet数据集中的200幅测试图像上定量地对比这些最新方法以及本文所提方法,结果如表2所示. 本文方法在EN, SCD, MI, SD这4个指标上排行第1,在指标SF上排行第2,仅次于U2Fusion. 这些客观结果表明本文方法所得结果包含的信息量最丰富、引入的伪信息最少,与源图像的相关性最大,以及具有最好的对比度,这些定量结果和图8展示的视觉结果相符合. 总的来说,本文方法在MFNet数据集上的定量对比上比其他方法性能更好.

    表  2  MFNet数据集上对比实验的定量结果
    Table  2.  Quantitative Results of the Comparative Experiment on MFNet Dataset
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.311±0.0227.458±0.1971.027±0.1861.575±0.2300.399±0.05955.343±8.67110.501±1.866
    MDLatLRR0.327±0.0256.896±0.2251.306±0.2391.325±0.2330.461±0.03439.477±7.1819.016±0.986
    DenseFuse0.326±0.0307.131±0.2291.653±0.1491.398±0.2410.475±0.03848.696±8.16310.200±1.265
    FusionGAN0.178±0.0226.882±0.3000.609±0.5941.424±0.1860.234±0.04435.397±5.7657.299±1.288
    U2Fusion0.350±0.0357.253±0.1981.657±0.1151.266±0.2320.496±0.02850.794±8.58214.072±1.546
    本文方法0.319±0.0277.562±0.2051.731±0.0851.609±0.2460.422±0.03665.392±8.49410.749±1.242
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    本文所提方法能较好地迁移到其他数据集,也可以处理彩色可见光和红外图像融合. 为了评估本文方法的泛化性,实施了泛化性实验. 具体来说,使用RoadScene数据集中的图像测试在TNO数据集上训练得到的模型. 由于RoadScene数据集中的可见光图像是彩色图像,先将可见光图像从RGB转换到YCbCr色彩空间,然后融合Y通道与红外图像. 最后,将融合结果与Cb和Cr通道拼接在一起,并重新转换到RGB色彩空间得到最终的融合结果. 上述5种对比方法在泛化性实验中仍然被采用,且评估仍然从定性和定量2个方面来进行.

    5组代表性的定性结果被挑选来展示各方法的泛化能力,如图9所示. 可以看出,本文所提方法在RoadScene数据集上仍具有良好性能,且相较于对比方法在纹理保持和显著目标保留2个方面的优势仍十分明显. 首先,在显著目标保持上,本文所提方法表现最好,如第1组图像中的车辆、第2组和第4组中的骑行者,以及第3组和第5组中的行人. 相反,在MDLatLRR, DenseFuse, U2Fusion的融合结果中,这些显著目标被削弱. 虽然GTF和FusionGAN相对这些方法能更好地保留显著目标,但其在目标边缘保护上却不如所提方法. 其次,本文方法也能保证可见光图像中的纹理细节被很好地传输到融合图像中,如第1组和第4组结果中的云朵、第2组和第3组结果中的树木,以及第5组结果中的广告牌,而GTF和FusionGAN做不到这些. 因此,这些定性结果可以说明本文方法具有良好的泛化性,其能被迁移到RoadScene数据集,并得到高质量的融合图像.

    图  9  泛化实验的定性结果
    Figure  9.  Qualitative results of the generalization experiment

    定量实验被实施来进一步验证所提方法的泛化性能,结果如表3所示. 本文方法在EN, SCD, MI, SD这4个指标上取得了最好的结果,在SF上取得了第2好的结果. 对于VIF {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} ,所提方法分别排行第4和第3. 总的来说,本文所提方法在RoadScene数据集上的定量结果最好,这进一步说明了所提方法优良的泛化性.

    表  3  泛化实验的定量结果
    Table  3.  Quantitative Results of the Generalization Experiment
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.303±0.0317.486±0.1901.047±0.1011.563±0.2410.340±0.04548.911±6.4878.247±1.342
    MDLatLRR0.320±0.0366.933±0.2981.257±0.3241.445±0.2860.506±0.05532.647±6.3369.287±2.158
    DenseFuse0.329±0.0487.283±0.2451.669±0.2181.503±0.2800.534±0.04243.337±6.86911.228±2.197
    FusionGAN0.204±0.0227.111±0.1581.057±0.3931.377±0.1720.280±0.03839.024±4.3548.203±1.024
    U2Fusion0.344±0.0527.249±0.2631.546±0.2361.293±0.2590.535±0.03740.279±7.03214.406±2.668
    本文方法0.316±0.0397.575±0.1851.726±0.1351.641±0.3030.506±0.03654.533±6.57711.774±2.274
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    运行效率是评估方法性能的重要依据之一,为此,统计各方法在TNO, MFNet, RoadScene数据集上的平均运行时间来比较运行效率,结果如表4所示. 本文所提方法在3个数据集上都取得了最快的平均运行速度,比对比方法快5倍以上.

    表  4  各方法在3个数据集上的平均运行时间
    Table  4.  Mean of Running Time of Each Method on Three Datasets s
    融合方法TNOMFNetRoadScene
    GTF5.3023.2591.644
    MDLatLRR35.56928.05215.188
    DenseFuse0.3580.2990.562
    FusionGAN0.3600.1960.403
    U2Fusion0.6130.2640.643
    本文方法0.0660.0380.029
    注:加粗表示最优结果.
    下载: 导出CSV 
    | 显示表格

    在所提方法中,最终实现红外与可见光图像融合的框架包括编码器网络、特征融合网络以及译码器网络. 为了验证它们的有效性,相应的消融实验被实施.

    特征融合网络的作用是将中间特征的融合策略可学习化,从而使得融合特征同时符合红外与可见光2种模态特征的概率分布. 相较于现存方法使用的传统特征融合策略,所提的特征融合网络具有更强的性能. 为了验证这一点,将本文提出的用于特征提取和特征重建的编码器网络和译码器网络固定,中间特征融合规则分别用Mean策略、Max策略、Addition策略、l1-norm策略及所提特征融合网络,实验结果如图10所示.

    图  10  特征融合网络的消融实验结果
    Figure  10.  Ablation experiment results of feature fusion network

    首先,由Mean策略、Max策略以及l1-norm策略得到的结果的对比度都非常差,不仅显著目标被削弱,场景纹理结构也不够自然. Addition策略虽然比这些策略的性能更好,但其无法自适应地选择性保留有益信息,以至于某些区域出现过度饱和或亮度中和的现象. 比如,在第1组结果中,由Addition策略得到的结果没有充分保留水面的亮度;在第2组结果中,建筑物的亮度又是过度饱和的. 相反,采用本文所提的特征融合网络可以自适应地保留红外与可见光源图像中的显著特征,其不仅具有显著的对比度,而且包含丰富的纹理细节. 这些结果可以说明所提特征融合网络的有效性.

    自编码器网络的作用是实现特征提取和图像重建,其性能对融合结果的质量影响很大. 为了验证本文设计的自编码器网络的优势,将其与经典的DenseFuse[13]进行对比. 具体地,我们控制融合规则保持相同(Addition策略以及l1-norm策略),使用本文提出的自编码器网络或DenseFuse中的自编码器网络来提取特征和重建图像,实验结果如图11所示.

    图  11  自编码器的消融实验结果
    Figure  11.  Ablation experiment results of autoencoder

    对于Addition策略,DenseFuse结果中的显著目标被严重削弱,而本文方法却可以很好地保持它们. 对于l1-norm策略,DenseFuse丢失了一些纹理结构,如云朵和椅子,而所提方法很好地保持了这些细节. 总的来说,本文设计的自编码器网络的性能比DenseFuse中的更强,其可以较好地实现特征提取和图像重建.

    综上所述,本文提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络主要包括2个部分:1) 引入空间注意力机制,同时使用密集连接和残差连接来构建高性能编码器网络实现特征提取;引入通道注意力机制,同时使用多尺度卷积来构建高性能译码器网络实现图像重建. 2) 将融合策略网络化,引入多分类生成对抗机制使融合特征同时符合红外与可见光2种模态的概率分布,从而构建高性能的深度融合策略. 最终的红外与可见光图像融合网络由训练好的编码器、特征融合网络以及译码器级联而成,生成高质量的融合结果. 相较于现存方法,所提方法可解释性好,能根据输入图像自适应生成更合理的融合策略,从而在源图像中同时保留丰富的纹理细节和显著的对比度,有效避免融合过程中有益信息的削弱问题. 广泛的实验表明,所提方法与最新的融合方法GTF, MDLatLRR, DenseFuse, FusionGAN, U2Fusion相比,融合性能更好. 同时,本文方法的融合速度很快,较对比方法快5倍以上.

    作者贡献声明:张浩提出方法思路,设计及实施实验,分析结果并撰写论文;马佳义构思和设计研究方向,对论文提出建设性的意见,并对手稿进行修改;樊凡协助实施实验,并分析实验结果;黄珺对论文提出建设性的意见,并对稿件进行了修改;马泳完善方法理论,并对稿件进行了修改.

  • 图  1   高效安全的联邦学习架构

    Figure  1.   Architecture of efficient and secure federated learning

    图  2   车辆基于全局模型自动采集

    Figure  2.   Vehicles automatically collecting based on the global model

    图  3   基于知识蒸馏的本地独立训练

    Figure  3.   Local independent training based on knowledge distillation

    图  4   在车辆客户端基于知识蒸馏进行全局模型更新

    Figure  4.   Global model updates on vehicle clients based on knowledge distillation

    图  5   模型反转攻击

    Figure  5.   Model inversion attack

    图  6   模型超参数设置

    Figure  6.   Model hyperparameter configuration

    图  7   GTSRB上的样本采集方式对比及采集范围变化

    Figure  7.   Comparison of collecting methods and changes in collecting range on GTSRB

    图  8   本地独立训练和基于双重知识蒸馏训练

    Figure  8.   Local independent training and training based on dual knowledge distillation

    图  9   不同本地训练方式的对比

    Figure  9.   Comparison of different local training methods

    图  10   相同隐私保护程度下的准确度与信息损失对比

    Figure  10.   Comparison of accuracy and information loss with the same privacy protection

    图  11   训练过程中的模型参数替换

    Figure  11.   Model parameter replacement during training

    表  1   相关工作对比

    Table  1   Comparison of Related Work

    性能 文献 SEFL
    (本文)
    [1115] [1618] [2325] [2628]
    强隐私保护 × ×
    高效学习 ×
    高准确度 × ×
    注:×表示不支持,√表示支持.
    下载: 导出CSV
  • [1]

    Yang Fangchun, Wang Shangguang, Li Jinglin, et al. An overview of Internet of vehicles[J]. China Communications, 2014, 11(10): 1−15

    [2]

    Muhammad K, Ullah A, Lloret J, et al. Deep learning for safe autonomous driving: Current challenges and future directions[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(7): 4316−4336

    [3] 刘占文,赵祥模,李强,等. 基于图模型与卷积神经网络的交通标志识别方法[J]. 交通运输工程学报,2016,16(5):122−131 doi: 10.3969/j.issn.1671-1637.2016.05.014

    Liu Zhanwen, Zhao Xiangmo, Li Qiang, et al. A traffic sign recognition method based on graph models and convolutional neural networks[J]. Journal of Transportation Engineering, 2016, 16(5): 122−131 (in Chinese) doi: 10.3969/j.issn.1671-1637.2016.05.014

    [4]

    Konečný J, McMahan H B, Ramage D, et al. Federated optimization: Distributed machine learning for on-device intelligence[J]. arXiv preprint, arXiv: 1610.02527, 2016

    [5]

    McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th Int Conf on Artificial Intelligence and Statistics. Cambridge, MA: MIT, 2017: 1273−1282

    [6]

    Zhao Yue, Li Meng, Lai Liangzhen, et al. Federated learning with non-IID data[J]. arXiv preprint, arXiv: 1806.00582, 2018

    [7]

    Bonawitz K, Eichner H, Grieskamp W, et al. Towards federated learning at scale: System design[C/OL]//Proc of the 2nd Conf on Machine Learning and Systems. 2019[2024-03-12].https://proceedings.mlsys.org/paper_files/ paper/2019/file/7b770da633baf74895be22a8807f1a8f-Paper.pdf

    [8] 刘飚,张方佼,王文鑫,等. 基于矩阵映射的拜占庭鲁棒联邦学习算法[J]. 计算机研究与发展,2021,58(11):2416−2429 doi: 10.7544/issn1000-1239.2021.20210633

    Liu Biao, Zhang Fangjiao, Wang Wenxin, et al. Byzantine-robust federated learning algorithm based on matrix mapping[J]. Journal of Computer Research and Development, 2021, 58(11): 2416−2429 (in Chinese) doi: 10.7544/issn1000-1239.2021.20210633

    [9]

    Manias M D, Shami A. Making a case for federated learning in the Internet of vehicles and intelligent transportation systems[J]. IEEE Network, 2021, 35(3): 88−94 doi: 10.1109/MNET.011.2000552

    [10]

    Xing Ling, Zhao Pengcheng, Gao Jianping, et al. A survey of the social Internet of vehicles: Secure data issues, solutions, and federated learning[J]. IEEE Intelligent Transportation Systems Magazine, 2022, 15(2): 70−84

    [11]

    Xie Kan, Zhang Zhe, Li Bo, et al. Efficient federated learning with spike neural networks for traffic sign recognition[J]. IEEE Transactions on Vehicular Technology, 2022, 71(9): 9980−9992 doi: 10.1109/TVT.2022.3178808

    [12]

    Stergiou K D, Psannis K E, Vitsas V, et al. A federated learning approach for enhancing autonomous vehicles image recognition[C]//Proc of the 4th Int Conf on Computer Communication and the Internet. Berlin: Springer, 2022: 87−90

    [13]

    Liang Feiyuan, Yang Qinglin, Liu Ruiqi, et al. Semi-synchronous federated learning protocol with dynamic aggregation in Internet of vehicles[J]. IEEE Transactions on Vehicular Technology, 2022, 71(5): 4677−4691 doi: 10.1109/TVT.2022.3148872

    [14]

    Zhou Xiaokang, Liang Wei, She Jinhua, et al. Two-layer federated learning with heterogeneous model aggregation for 6G supported Internet of vehicles[J]. IEEE Transactions on Vehicular Technology, 2021, 70(6): 5308−5317 doi: 10.1109/TVT.2021.3077893

    [15]

    Zhou Hongliang, Zheng Yifeng, Huang Hejiao, et al. Toward robust hierarchical federated learning in Internet of vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(5): 5600−5614 doi: 10.1109/TITS.2023.3243003

    [16]

    Li Zhizhon, Hoiem D. Learning without forgetting[J]. IEEE Transactions on Pattern Analysis and Aachine Intelligence, 2017, 40(12): 2935−2947

    [17]

    Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13): 3521−3526 doi: 10.1073/pnas.1611835114

    [18]

    Rebuffi S A, Kolesnikov A, Sperl G, et al. iCaRL: Incremental classifier and representation learning[C]//Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2001−2010

    [19]

    Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proc of the 22nd ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2015: 1322−1333

    [20]

    Shokri R, Stronati M, Song Congzheng, et al. Membership inference attacks against machine learning models[C]//Proc of the 38th IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 3−18

    [21]

    He Zecheng, Zhang Tianwei, Lee R B. Model inversion attacks against collaborative inference[C]//Proc of the 35th Annual Computer Security Applications Conf. New York: ACM, 2019: 148−162

    [22] 周纯毅,陈大卫,王尚,等. 分布式深度学习隐私与安全攻击研究进展与挑战[J]. 计算机研究与发展,2021,58(5):927−943 doi: 10.7544/issn1000-1239.2021.20200966

    Zhou Chunyi, Chen Dawei, Wang Shang, et al. Research progress and challenges in privacy and security attacks on distributed deep learning[J]. Journal of Computer Research and Development, 2021, 58(5): 927−943 (in Chinese) doi: 10.7544/issn1000-1239.2021.20200966

    [23]

    Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//Proc of the 24th ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2017: 1175−1191

    [24]

    Fang Chen, Guo Yuanbo, Wang Na, et al. Highly efficient federated learning with strong privacy preservation in cloud computing[J]. Computers & Security, 2020, 96: 101889

    [25]

    Lu Yunlong, Huang Xiaohong, Zhang Ke, et al. Blockchain empowered asynchronous federated learning for secure data sharing in Internet of vehicles[J]. IEEE Transactions on Vehicular Technology, 2020, 69(4): 4298−4311 doi: 10.1109/TVT.2020.2973651

    [26]

    Shokri R, Shmatikov V. Privacy-preserving deep learning[C]//Proc of the 22nd ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2015: 1310−1321

    [27]

    McMahan H B, Ramage D, Talwar K, et al. Learning differentially private recurrent language models[J]. arXiv preprint, arXiv: 1710.06963, 2017

    [28]

    Wei Kang, Li Jun, Ding Ming, et al. Federated learning with differential privacy: Algorithms and performance analysis[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3454−3469 doi: 10.1109/TIFS.2020.2988575

    [29]

    Kairouz P, McMahan H B, Avent B, et al. Advances and open problems in federated learning[J]. Foundations and Trends® in Machine Learning, 2021, 14(1/2): 1−210

    [30]

    Dwork C, Roth A. The algorithmic foundations of differential privacy[J]. Foundations and Trends® in Theoretical Computer Science, 2014, 9(3/4): 211−407

    [31]

    Dwork C. Differential privacy: A survey of results[C]//Proc of the 5th Int Conf on Theory and Applications of Models of Computation. Berlin: Springer, 2008: 1−19

    [32]

    Abadi M, Chu A, Goodfellow I, et al. Deep learning with differential privacy[C]//Proc of the 23rd ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2016: 308−318

    [33]

    Amin K, Kulesza A, Munoz A, et al. Bounding user contributions: A bias-variance trade-off in differential privacy[C]//Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 263−271

    [34]

    Andrew G, Thakkar O, McMahan B, et al. Differentially private learning with adaptive clipping[J]. Advances in Neural Information Processing Systems, 2021, 34: 17455−17466

    [35]

    Le Junqing, Zhang Di, Lei Xinyu, et al. Privacy-preserving federated learning with malicious clients and honest-but-curious servers[J]. IEEE Transactions on Information Forensics and Security, 2023, 18: 4329−4344 doi: 10.1109/TIFS.2023.3295949

    [36]

    Dwork C, Lei Jing. Differential privacy and robust statistics[C]//Proc of the 41st Annual ACM Symp on Theory of Computing. New York: ACM, 2009: 371−380

    [37]

    Gou Jianping, Yu Baosheng, Maybank S J, et al. Knowledge distillation: A survey[J]. International Journal of Computer Vision, 2021, 129(6): 1789−1819 doi: 10.1007/s11263-021-01453-z

    [38]

    Fan Liyue, Li Xiong. An adaptive approach to real-time aggregate monitoring with differential privacy[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(9): 2094−2106 doi: 10.1109/TKDE.2013.96

  • 期刊类型引用(5)

    1. 杨文彬. 基于联邦学习的移动边缘节点计算的数据智能分类问题研究. 自动化与仪器仪表. 2024(06): 19-23 . 百度学术
    2. 程梁华,黄瑞雪,沈鑫. 适于高动态视频场景下的城市道路违停检测算法. 计算机科学. 2024(12): 190-198 . 百度学术
    3. 陈乃海. 基于边缘云的在线监测系统模型构建与实现. 粘接. 2023(04): 173-177 . 百度学术
    4. 孙德彬,汪林,张秉皓,谢金鑫. 编解码无损压缩技术与5G实时传输技术在高速公路收费中的应用研究. 公路交通科技. 2023(08): 199-206+221 . 百度学术
    5. 许宇辉,邱丹青. 基于边缘计算的数据获取与处理系统设计与实现. 中国新通信. 2023(24): 30-32 . 百度学术

    其他类型引用(5)

图(11)  /  表(1)
计量
  • 文章访问数:  301
  • HTML全文浏览量:  58
  • PDF下载量:  110
  • 被引次数: 10
出版历程
  • 收稿日期:  2023-10-31
  • 修回日期:  2024-05-19
  • 网络出版日期:  2024-06-12
  • 刊出日期:  2024-08-31

目录

/

返回文章
返回