基于Transformer的文物图像修复方法

基于Transformer的文物图像修复方法

Transformer-Based Image Restoration Method for Cultural Relics

基于Transformer的文物图像修复方法

Transformer-Based Image Restoration Method for Cultural Relics

1. 相关工作

2. 文物图像修复方法

3. 实验结果与分析

4. 总　　结

1. 相关工作

2. 文物图像修复方法

3. 实验结果与分析

4. 总 结

期刊类型引用(0)

其他类型引用(3)

目录

1. 相关工作

2. 文物图像修复方法

3. 实验结果与分析

4. 总 结

4. 总　　结

4. 总　　结

1.1 传统的图像修复方法

1.2 基于深度学习的修复方法

2.1 多元化结构修复网络

2.2 上采样纹理修复网络

2.3 联合感知损失函数

3.1 实验数据库

3.2 评价指标

3.3 实验细节

3.4 实验对比与分析

3.5 常规图像修复

3.6 多元化修复

3.7 阶段性子网络分析实验

1.1 传统的图像修复方法

1.2 基于深度学习的修复方法

2.1 多元化结构修复网络

2.2 上采样纹理修复网络

2.3 联合感知损失函数

3.1 实验数据库

3.2 评价指标

3.3 实验细节

3.4 实验对比与分析

3.5 常规图像修复

3.6 多元化修复

3.7 阶段性子网络分析实验

1.1 传统的图像修复方法

1.2 基于深度学习的修复方法

2.1 多元化结构修复网络

2.2 上采样纹理修复网络

2.3 联合感知损失函数

3.1 实验数据库

3.2 评价指标

3.3 实验细节

3.4 实验对比与分析

3.5 常规图像修复

3.6 多元化修复

3.7 阶段性子网络分析实验

2.3.1 内容损失函数

2.3.2 对抗损失函数

2.3.3 全变分损失函数

3.4.1 符合现实场景破损的修复实验

3.4.2 针对大面积破损的修复实验

3.4.3 数据库中其他类型图片的修复实验

计量

计量

出版历程

2.3.1 内容损失函数

2.3.2 对抗损失函数

2.3.3 全变分损失函数

3.4.1 符合现实场景破损的修复实验

3.4.2 针对大面积破损的修复实验

3.4.3 数据库中其他类型图片的修复实验

计量

出版历程

2.3.1 内容损失函数

2.3.2 对抗损失函数

2.3.3 全变分损失函数

3.4.1 符合现实场景破损的修复实验

3.4.2 针对大面积破损的修复实验

3.4.3 数据库中其他类型图片的修复实验

作者简介:
王真言: 1999年生. 学士. 主要研究方向为图像处理

蒋胜丞: 2000年生. 学士. 主要研究方向为图像处理

宋奇鸿: 2001年生. 学士. 主要研究方向为图像处理

刘波: 1987年生. 博士，讲师. CCF会员. 主要研究方向为图像处理、多媒体取证

毕秀丽: 1982年生. 博士，副教授，博士生导师. CCF会员. 主要研究方向为图像处理、多媒体信息安全

肖斌: 1982年生，博士. 教授，博士生导师. CCF会员. 主要研究方向为图像处理、模式识别

通讯作者:
刘波（boliu@cqupt.edu.cn）

Author Bio:
Wang Zhenyan: born in 1999. Bachelor. His main research interest includes image processing

Jiang Shengcheng: born in 2000. Bachelor. His main research interest includes image processing

Song Qihong: born in 2001. Bachelor. His main research interest includes image processing

Liu Bo: born in 1987. PhD, lecturer. Member of CCF. His main research interests include image processing and multimedia forensics

Bi Xiuli: born in 1982. PhD, associate professor, PhD supervisor. Member of CCF. Her main research interests include image processing and multimedia information security

Xiao Bin: born in 1982. PhD, professor, PhD supervisor. Member of CCF. His main research interests include image processing and pattern recognition

通讯作者: 刘波（boliu@cqupt.edu.cn）

通讯作者:
刘波（boliu@cqupt.edu.cn）

王真言; 蒋胜丞; 宋奇鸿; 刘波; 毕秀丽; 肖斌

doi:10.7544/issn1000-1239.202220623

图像认知重庆市重点实验室（重庆邮电大学）　重庆　400065

基金项目: 国家自然科学基金项目(62172067，61976031)；国家重点研发计划项目(2019YFE0110800)；重庆市杰出青年自然科学基金项目(CSTB2022NSCQ-JQX0001)；重庆市教委科技研究计划项目(KJQN202200635)

详细信息

中图分类号: TP391
计量
- 文章访问数: 509
- HTML全文浏览量: 145
- PDF下载量: 194
出版历程
- 收稿日期: 2022-07-06
- 修回日期: 2023-06-29
- 网络出版日期: 2023-11-30
- 刊出日期: 2024-03-01

Chongqing Key Laboratory of Image Cognition(Chongqing University of Posts and Telecommunications), Chongqing 400065

Funds: This work was supported by the National Natural Science Foundation of China (62172067，61976031), the National Key Research and Development Program of China (2019YFE0110800), the Natural Science Foundation of Chongqing for Distinguished Young Scholars (CSTB2022NSCQ-JQX0001), and the Science and Technology Research Program of Chongqing Municipal Education Commission(KJQN202200635).

More Information

摘要

摘要:
文物极易因为保存不当而导致部分结构或纹理缺失,而现有的图像修复技术由于受到先验信息和卷积操作的局限而无法直接应用于文物图像修复，为更合理地恢复文物图像原貌，提出了一种新的文物图像修复方法，将文物图像修复工作分为2个步骤：第1步使用Transformer进行粗略的图像重建并恢复连贯的结构；第2步使用卷积神经网络将粗略的重建图像进行上采样并恢复缺失区域的精细纹理. 考虑到目前国内外没有高质量的大型文物数据库，因此也提出了一个新的高质量大型文物图像数据库. 最终实验结果表明，在符合现实场景的破损修复实验和大面积破损修复实验中，修复效果在主观和客观评估中均优于当前图像修复算法. 同时，支持多元化输出，为修复人员提供多样化参考，极大地提升了文物修复效率.
- 文物数据库 /
- 文物图像补全 /
- Transformer /
- 卷积神经网络 /
- 超分辨 /
- 虚拟修复
Abstract:
Cultural relics are prone to partial losses of structure or texture due to improper preservation. In order to restore the original image of cultural relics, we propose a new method for restoring cultural relics by using Transformer’s global structure understanding ability to restore the coherent structure of cultural relics and using convolutional neural networks’ local texture understanding ability to restore the delicate texture of cultural relics. To achieve this goal, the restoration work is divided into two steps: the first step is to use Transformer to reconstruct the rough image and restore the coherent structure; the second step is to use a convolutional neural network to enlarge the rough image and restore the fine texture of the missing area. Considering that there is no high-quality, large-scale heritage database in China and abroad, a new heritage image database is also proposed. The experimental results show that the restoration results outperform the current image restoration algorithms in both subjective and objective evaluations in both breakage restoration experiments and large-area breakage restoration experiments that match realistic scenes. At the same time, the proposed method supports diversified output, which provides diverse references for restorers and improves the restoration efficiency.
- cultural relic database /
- cultural relic image completion /
- Transformer /
- convolutional neural networks /
- super-resolution /
- virtual restoration

HTML全文

文物是国家的瑰宝，其蕴含着一个民族独有的精神价值、思维方式和想象力，具有极高的历史、艺术与科学研究价值. 由于材质的特殊性，文物极易受到潮湿发霉、虫蛀鼠咬、人为破坏等威胁. 纸张的自然老化也会产生破洞、碎裂、褪色等问题. 如果不及时修复，文物的价值就会下降. 传统破损文物修复技术经过数代人继承和发展已经逐渐成熟，但现有修复技术都会对文物本身造成一定的损害. 此外，传统文物修复行业还面临供需不平衡、人才紧缺、技能门槛高等一系列问题. 因此，国内外博物馆都倾向使用数字图像修复技术对文物进行虚拟化修复，该技术已成为当前的研究热点^[1-4].

目前主要的文物图像修复技术都是基于传统的图像处理算法. 例如：陈永等人^[5]针对敦煌壁画裂纹修复问题提出了一种改进曲率驱动扩散的修复算法； Criminisi等人^[6]提出的基于块匹配的方法，以及Barnes等人^[7]提出的基于随机采样的块匹配方法PatchMatch，在文物修复领域也有很广泛的应用^[8-9]. 这类方法的主要思想是通过迭代地执行待修复样本块相似度计算、最佳匹配样本块搜索、待修复样本块填充3个步骤来完成修复任务. 但是这类方法把图像的局部特征作为修复的主要依据，忽视了上下文的特征信息.

深度学习技术通过对大规模数据进行自监督训练，并使用学习到的高维特征映射修复缺失区域，能结合语义信息来恢复图像，具有较强的生成泛化能力. 目前，使用深度学习技术进行文物图像修复成为一种趋势. 例如，2022年Yu等人^[10]使用现代计算机视觉和机器学习技术对敦煌文化遗产进行修复. 但是，大多数方法都使用自然图像修复中常见的卷积神经网络（convolutional neural network， CNN）. 同时，网络框架也大多采用编解码器的结构. 这类方法能够结合上下文语义信息进行修复. 但是，由于卷积操作的局部相关性和平移不变性，网络难以利用图像的全局结构. 因此，重复的纹理和伪影经常出现在被修复的区域中. 近年来， Transformer^[11]在计算机视觉领域取得了极其优异的成绩. 与CNN相比，它克服了卷积的局部相关性，通过自注意力模块来获取图像的全局信息，其应用在文物图像修复任务中可更好地恢复出图像的完整结构. 同时，使用多头注意力机制可以实现修复结果的多元化输出. 但是，Transformer也存在着计算量过大的问题.

值得注意的是，自然图像修复与文物图像修复存在一定的区别，如图1所示. 从破损结构而言，自然图像的破损大多具有固定的结构，而文物图像的破损多是不规则且连续的. 虽然有针对不规则破损图像补全的方法，并已实现了良好的补全效果，但并没有运用到图像修复领域中；从破损面积而言，自然图像破损面积更大且破损区域往往并不连续，而文物图像的破损面积都较小；从纹理复杂程度而言，文物图像的纹理比自然图像更加复杂. 同时，基于深度学习的方法大多以数据驱动，但目前国内外并没有高质量的大型文物数据集，导致网络模型无法学习到足够的文物图像特征. 因此，从自然图像修复领域直接迁移的模型并不能很好地实现对文物图像的修复.

图 1 破损图像对比

Figure 1. Comparison of damaged images

下载: 全尺寸图片幻灯片

综上所述，针对文物图像修复任务，本文结合文物图像的特点和艺术家工作时“先结构后细节”的工作流程提出了一种基于Transformer的文物图像修复方法，将文物图像修复工作分为2个步骤：第1步使用Transformer进行多元化结构修复；第2步使用卷积神经网络进行上采样并恢复缺失区域的纹理，方法流程图如图2所示. 实验结果表明，在符合现实场景的破损文物修复实验和文物大面积破损修复实验中，本文方法的修复结果视觉效果更好，客观指标也高于代表性方法. 同时，支持多元化输出，为修复人员提供了多样化的参考，在文物修复领域具有较高的价值.

图 2 基于Transformer的文物图像修复方法

Figure 2. Transformer-based image restoration method for cultural relics

下载: 全尺寸图片幻灯片

本节主要介绍图像修复领域的相关工作及其在文物修复领域的应用，并讨论这些方法的优缺点. 图像修复方法可以分为传统方法和基于深度学习的方法.

传统的图像修复方法主要包括基于扩散的修复方法和基于样本块匹配的修复方法. 目前主要的文物图像修复都是基于这2类修复技术.

基于扩散的修复方法通过设计的扩散函数将相邻区域的像素块传递到缺失区域内^[12-14]. 陈永等人^[5]针对壁画裂纹修复问题提出了改进曲率驱动扩散的敦煌壁画修复算法，使曲率扩散的扩散项更合理.

基于样本块匹配的修复方法是从同一幅图像的相似区域选择关联度高的样本块并填充到缺失区域^[6,15-16]. 其中，2004年提出的PatchMatch^[6]通过使用快速最近邻算法可以很好地完成图像修复任务. 然而实现这种方法的前提是能够在图像的已知区域找到缺失区域的相似纹理，但并不是所有待修复图像都能满足这样的条件. 在文物图像修复领域，2019年Yao^[9]在修复唐卡图像的过程中，在Criminisi算法的基础上引入结构信息对匹配策略进行优化，尽可能避免了错误匹配的问题.2019年Wang等人^[17]针对敦煌壁画修复问题提出了结合多个候选区的稀疏模型来保证纹理的相似性和结构的连续性.

基于扩散的修复方法和基于样本块匹配的修复方法主要依赖单张图像的局部特征，很难恢复出符合上下文特性的缺失区域.

深度学习技术通过对大规模数据进行自监督训练，并使用学习到的高维特征映射修复缺失区域，相较于传统方法其能够学习到更高维度的特征^[18]，并且能够在缺失的区域生成连贯的结构. 基于CNN的方法占主导地位，可以分为基于编解码结构的单阶段修复模型和提供先验信息的修复模型.

最先使用基于编解码结构的单阶段修复模型是2016年提出的Context Encoder^[19]，编码器映射图像缺失区域到低维特征空间，解码器用来构造输出图像. 然而，输出图像的恢复区域通常包含视觉伪影且模糊. 2018年Liu等人^[20]为解决普通卷积特征提取不足的问题创造了“部分卷积”，把传统卷积层替换为部分卷积层，将编码器层的深层和浅层特征作为CNN的输入，使得修复后的图像纹理更加一致. 2021年，Zeng等人^[21]提出一种使用可学习的损失函数替代注意力机制的2阶段模型. 基于上下文重建损失，无注意力机制的生成器也能学习到从已知区域匹配特征进行修复的能力. 在文物图像修复领域，2021年Zhang等人^[22]针对古代石刻碑文保护的问题提出了一种基于多尺度特征融合的石刻图像去噪与修复方法.

提供先验信息的修复方法^[23-24]在单阶段方法的基础上加入了先验信息，因此效果更好. 2018年Contextual Attention^[25]采用的策略为：第1阶段使用简单的膨胀卷积网络粗略地恢复缺失内容；第2阶段的细化网络使用上下文注意力机制来优化结果. 2018年Shift-Net^[26]受样本块匹配思想的启发，在U-Net模型的基础上增加了Shift连接层，可以计算每个缺失区域样本块与已知区域的相似度系数，并在编码器特征上引入了引导损失，提升了修复的精度. 2020年Zeng等人^[27]利用深度卷积神经网络对破损图像进行粗略修复，然后利用最近邻像素匹配进行可控制的再次修复，使得修复的图像更具真实感. 2021年Qin等人^[28]提出了基于多尺度注意力网络的修复模型，通过引入多尺度注意力组来提高修复后图像的真实性. 在文物图像修复领域，2019年曹建芳等人^[29]针对古代壁画起甲、脱落等问题提出一种基于增强一致性生成对抗网络的图像修复算法，提高了壁画修补区域与全局的一致性.

将文献[23-29]所述的方法直接应用到文物图像修复领域虽然能够修复大面积破损的图像，但由于文物的破损往往存在细节丢失、特征不足等问题^[5,30]，难以恢复连贯结构^[28-29]. 同时卷积的局部连接和平移不变性导致其对图像的全局结构很难把握，也容易产生重复的纹理. 随着深度学习理论的发展，Transformer在计算机视觉领域内的广泛应用，一些初步的工作^[31-33]也证明了它在自然图像合成方面有非常强的能力. 如2021年ICT（image completion transformer）^[33]采用Transformer的输出作为结构先验以实现高保真度的图像补全. 此外，Transformer中的多头注意力机制可以实现结果的多样化输出. 但是，由于自注意力机制每次都要计算所有块之间的注意力，计算复杂度为输入长度的平方，因此处理高分辨率图像较为困难^[34].

本文受到提供先验信息的深度学习方法的启发，为避免卷积操作难以恢复全局结构的缺点，先采用Transformer模型来恢复整体的结构信息，再通过一个具有上采样功能的修复网络进行纹理修复，使得修复后的文物图像整体结构连贯，同时避免出现伪影、模糊等现象，并且使修复结果更加逼近原始图像. 文物图像修复的目的是将有缺失像素的输入图像I_D=I ⊙（1－M）通过预测转化成完整图像I_C. 因此，本文方法将文物图像修复任务分成多元化结构修复和上采样纹理修复2个阶段，网络结构分别如图3、图4所示. 第1阶段中，Transformer模型将输入图像I_D变换为具有连贯结构的中间修复结果I_R，此过程可表示为p（I_R|I_D）. 第2阶段中，I_R通过CNN模型学习到I_C的特征映射，将I_R进行上采样的同时修复精细纹理，并在特征层次进行融合得到输出图像I_C，实现对文物图像的修复，此过程可表示为p（I_C|I_R，I_D）. 综上，整个修复过程可表述为

图 3 多元化结构修复网络结构图

Figure 3. Diversified structure repair network structure diagram

下载: 全尺寸图片幻灯片

图 4 上采样纹理修复网络结构图

Figure 4. Upsamping texture repair network structure diagram

下载: 全尺寸图片幻灯片

$p({{{\boldsymbol{I}}}_{\text{C}}}|{{{\boldsymbol{I}}}_{\text{D}}}) = p({{{\boldsymbol{I}}}_{\text{R}}}|{{{\boldsymbol{I}}}_{\text{D}}}) \times p({{{\boldsymbol{I}}}_{\text{C}}}|{{{\boldsymbol{I}}}_{\text{R}}},{{{\boldsymbol{I}}}_{\text{D}}}).$

(1)

Transformer摒弃了CNN的局部相关性和平移不变性，通过多个自注意力模块来获取图像的全局信息^[11]，其应用在文物图像修复任务中可更好地恢复出图像的完整结构.

本文使用的Transformer模块结构如图3所示，与GPT-2模型^[35]的做法相同，仅使用Transformer的解码器，其计算过程可表述为

$\begin{aligned} {{F}}^{l-1}=LN\left(MSA\left({T}^{l-1}\right)\right)+{T}^{l-1}，\\ {T}^{l-1}=LN\left(MLP\left({T}^{l-1}\right)\right)+{F}^{l-1}\text{，}\end{aligned}$

(2)

其中LN，MSA，MLP分别代表层归一化、多头自注意力模块、全连接层. 其中，MSA可表示为

$\begin{aligned}MSA\left({\boldsymbol{Q,K,V}}\right)=Concat\left(hea{d}_{1},… ,hea{d}_{n}\right)ML{P}^{\text{O}}\text{，}\end{aligned}$

(3)

$\begin{aligned} hea{d}_{{i}}={softmax}\left(\dfrac{{\boldsymbol{QK}}}{\sqrt{{d}_{{{\boldsymbol{K}}}}}}\right){\boldsymbol{V}}.\end{aligned}$

其中n代表注意力头的个数；Q，K，V代表3个可学习的映射矩阵；d_K为K的特征维度；MLP^O是一个连接不同自注意力模块的全连接层.

由于GPT模型是通过单向注意力预测缺失区域的元素，仅能关注到前序序列的信息. 为了使每个样本块都能关注到所有位置的信息，本文采用与BERT^[36]类似的遮蔽语言模型（mask language model， MLM）来优化Transformer模型，确保生成像素可以捕获所有可用的上下文信息，从而使生成内容与已知区域相一致. 具体来说，让 ${\boldsymbol{\varPi}} =（{\pi }_{1}，{\pi }_{2}，\dots ，{\pi }_{m}）$ 表示离散化输入中标记为掩膜的索引，其中m是被屏蔽的标记数量. MLM的目标是使所有观察区域条件下 ${{{X}}_{\mathbf{{\boldsymbol{\varPi }}}}}$ 的负对数似然最小，用公式表示为

${{L}}_{{\mathrm{MLM}}}=\underset{{{{X}}}}{E}\left[\frac{1}{{m}}{\displaystyle \sum _{{k}=1}^{{m}}-\mathrm{log}{p}\left({{x}}_{{{\boldsymbol{\varPi}} }_{k}}|{{X}}_{-{\boldsymbol{\varPi}} },\theta \right)}\right]\text{，}$

(4)

其中 $\theta$ 代表Transformer模型所学习到的参数. MLM和双向注意力机制相结合，确保了网络可以利用所有位置的信息来预测缺失区域的内容.

在输入到Transformer之前，图像首先被编码成为一个离散化的序列，表示为 ${{{\boldsymbol{I}}}_{\mathrm{r}}} = \left( {i_1},{i_2}, … ,{i_{len}}\right)$ ，其中 $len$ 代表I_r的长度. 为了对图像的空间信息进行编码，将一个可学习位置的特征选择器添加到每个位置的标记特征中，然后再将这个离散化序列通过预学习编码映射到一个高维的特征向量中，最后再组成Transformer模型的输入. 考虑到Transformer的计算复杂度与输入长度的平方成正比，且多头注意力机制^[11]的计算复杂度与输入长度的4次方成正比，如果采用正常的RGB像素表达矩阵，那么计算量将过于巨大. 为了降低计算成本，采用与ICT相似的做法，使用原始文物图像对应的低分辨率版本来表示其连贯结构的先验，即使用大小为32×32的块来表示原始图像的结构信息和粗略的纹理. 为了进一步降低维度，本文还使用K-Means聚类算法在文物图像数据集上构造大小为512×3的RGB像素词表. 可以通过搜索这个词表来重建每个连贯结构的先验信息.

由于Transformer中多头注意力机制的存在使I_R可以很容易地输出多种合理的结果，针对每一种结果，在重建低维结构先验信息之后，本文方法还学习了一个确定的映射将低维图像I_R放大为输入图像的大小，并且没有改变空洞区域和非掩码区域的边缘结构信息. 为了尽可能恢复图像的纹理细节和高频信息，本文使用了传统CNN卷积及残差结构，并使用联合感知损失函数对细节修复的结果进行约束，在上采样的过程中尽可能恢复高频细节.

在上采样纹理修复网络中，双层残差结构在保证输入先验结构信息不被篡改的同时，使修复结果更加符合上下文语义信息. 然后利用PixelShuffle像素重组技术对图像进行上采样，在不损失清晰度与真实细节信息的前提下对图像进行超分辨.

为达到这个目的，本文方法的第2阶段训练了前馈式CNN的生成网络 ${G_\theta }$ ，网络结构如图4所示. 其中生成器网络的训练过程可以表示为

${\hat \theta }_{G}=\mathop{\mathrm{arg\;min}}\limits_{{\theta }_{G}}\frac{1}{N}{\displaystyle \sum _{n=1}^{N}{l}^{\text{SP}}\left({G}_{{\theta }_{G}}\left({{\boldsymbol{I}}}_{n}^{\text{R}}\right),{{\boldsymbol{I}}}_{n}^{\text{GT}}\right)}\text{，}$

(5)

其中联合损失函数l^SP是若干损失函数的加权组合以模拟恢复图像的不同特征. ${\theta _G} = \left\{ {{W_{1:L}};{b_{1:L}}} \right\}$ 代表第N层网络通过联合损失函数l^SP优化后的权重和偏置. 为恢复更加逼真的纹理细节，在网络训练阶段将生成器参数 ${\hat \theta }_{G}$ 和辨别器参数 ${\hat \theta }_{D}$ 进行交替优化，优化表达式为：

$\begin{aligned} &\underset{{D}}{\mathrm{max}}{{E}}_{{\boldsymbol{I}}^{\mathrm{H}} \sim {p}\left({\boldsymbol{I}}^{\mathrm{H}}\right)}\left[\mathrm{log}{D}\left({\boldsymbol{I}}^{\mathrm{H}}\right)\right]+{{E}}_{{\boldsymbol{I}}^{{\mathrm{L}}} \sim p\left({\boldsymbol{I}}^{{\mathrm{L}}}\right)}\left[\mathrm{log}\left(1-{D}\left({\boldsymbol{I}}^{{\mathrm{L}}}\right)\right)\right]\text{，}\\ &\underset{{G}}{\mathrm{min}}{{E}}_{{\boldsymbol{I}}^{{\mathrm{L}}} \sim {p}\left({\boldsymbol{I}}^{{\mathrm{L}}}\right)}\left[\mathrm{log}\left(1-{D}\left({\boldsymbol{I}}^{{\mathrm{L}}}\right)\right)\right]\text{，}\end{aligned}$

(6)

其中 ${{\boldsymbol{I}}^{\mathrm{H}}}$ 为高分辨率图像， ${{\boldsymbol{I}}^{{\mathrm{L}}}}$ 为低分辨率图像.

为了更好地完成基于结构先验的修复任务，本文在Ledig等人^[37]的基础上设计改进了更适用于文物图像修复任务的联合感知损失函数，其表达式为

${l}^{\text{SP}}={l}_{\text{context}}+{10}^{-3}{l}_{\text{adv}}+{10}^{-3}{l}_{\text{TV}}.$

(7)

联合感知损失函数由3部分组成：内容感知损失l_context、生成对抗损失l_adv、全变分损失l_TV. 无论是在像素层面还是感知层面都能很好地提升修复图像的质量.

内容损失l_context主要分为2部分，即像素层面的均方差损失 $l_{{{\mathrm{MSE}}}}^{{{\mathrm{SP}}}}$ 和特征层面上提出VGG损失 $l_{{{\mathrm{VGG}}} /i,j}^{{{\mathrm{SP}}}}$ . 像素层面的均方差损失 $l_{{{\mathrm{MSE}}}}^{{{\mathrm{SP}}}}$ 的表达式为：

${l}_{{\mathrm{MSE}}}^{{\mathrm{SP}}}=\frac{1}{{{R}}^{2}{WH}}{\displaystyle \sum _{{x}=1}^{{RW}}{\displaystyle \sum _{{y}=1}^{{RH}}{({\boldsymbol{I}}^{{\mathrm{H}}}_{{x},{y}}-({G}_{{\theta }_{{G}}}{({\boldsymbol{I}}^{{\mathrm{L}}})}_{{x},{y}}))}^{2}}}\text{，}$

(8)

其中R，W，H分别表示图像缩放系数、图像宽度、图像高度. 这是图像修复领域运用最广泛的损失函数. 然而实验结果表明虽然修复结果具有较高的峰值信噪比（peak signal noise rating， PSNR）指标，但使用其进行优化往往会导致修复结果缺乏高频细节，丧失图像原本的真实性. 因此前人在特征层面提出VGG损失 $l_{{{\mathrm{VGG}}} /i,j}^{{{\mathrm{SP}}}}$ 为：

$\begin{split} {l}_{\mathrm{VGG}/i,j}^{\mathrm{SP}}=&\frac{1}{{{W}}_{{i,j}}{{H}}_{{i,j}}}{\displaystyle \sum _{{x}=1}^{{{W}}_{{i,j}}}{\displaystyle \sum _{{y}=1}^{{{H}}_{{i,j}}}({\phi }_{i,j}{({\boldsymbol{I}}_{\mathrm{R}})}_{{x},{y}}}}-\\ &{\phi}_{i,j}({{G}_{{\theta }_{G}}(I_{\mathrm{C}})_{x,y})^2}\text{，}\end{split}$

(9)

其中 ${{\mathrm{VGG}}} /i,j$ 中的i，j代表本文所选用的卷积层， ${\phi _{i,j}}$ 为第i个池化层前的第j个卷积层，W_i,j和H_i,j表示VGG网络中特征图的宽度与高度. 这种方法得到的PSNR较高，纹理也相对真实.

本文方法在训练阶段还额外添加了一个对抗损失来产生更加真实的纹理：

${{l}}_{\text{adv}}={E}\left[\mathrm{log}\left(1-{{D}}_{{\omega}}\left({{\boldsymbol{I}}}_{\text{pred}}\right)\right)\right]+{E}\left[\mathrm{log}{{D}}_{{\omega}}\left({\boldsymbol{I}}\right)\right]\text{，}$

(10)

其中D是参数为 ${\omega }$ 的辨别器. 交替共同训练生成器网络F和辨别器D来求解优化问题：

$\underset{F}{\mathrm{min}}\;\underset{D}{\mathrm{max}}{l}_{\text{up}}\left(\delta ,\omega \right)={\alpha }_{1}{l}_{{\ell }_{1}}+{\alpha }_{2}{l}_{\text{adv}}\text{，}$

(11)

其中 ${l_{{\ell _1}}}$ 为L₁损失函数， ${\alpha _1}$ =1.0， ${\alpha _2}$ =0.1.

使用2.3.2节的损失函数能够产生较好的修复结果，但在文物图像破损区域仍然存在部分失真与不平滑的区域. 因此，本文引入了全变分损失函数 ${l_{{\text{TV}}}}$ ^[38]，使修复图像和掩膜的边缘更加平滑. 其表达式为：

${l}_{\mathrm{TV}}(x)={\displaystyle \sum _{i,j}^{{u}_{i,j}}{\left({\left|{{x}}_{i+1,j}-{x}_{i,j}\right|}^{2}+{\left|{x}_{i,j+1}-{x}_{i,j}\right|}^{2}\right)}^{\tfrac{\beta }{2}}}\text{，}$

(12)

其中u为支持域， $\beta$ =2.0.

为了讨论和验证本文提出的修复方法，并将其与已有的修复方法进行对比和分析，本节将从5个角度进行实验. 首先，对比各方法在现实场景下的破损修复效果；然后对比各方法对大面积破损的修复效果、验证本文方法在不同数据集上的修复效果、验证本文方法在自然图像上的修复效果；最后讨论多元化文物图像修复的优点.

目前文物图像修复领域并没有高质量的大型公开数据集，而大多数基于深度学习的方法均以数据为驱动，如果训练集过小则会导致网络性能不佳、修复效果不理想等问题. 为解决文物图像数据库过小的问题，本文对中国台北故宫博物馆官网提供的5000张分辨率为3000×4000的文物图像进行处理，最终得到的88000张分辨率为256×256的文物图像作为本次实验的基础数据集. 具体处理过程为：首先将5000张分辨率为3000×4000的图像进行人工筛选，剔除颜色过于单一、无关内容太多的图像；然后通过随机剪裁分成分辨率为256×256的图像；再进行一次人工筛选，最终构成包含山水画、人物画像、壁画、花鸟画4类共计80000张的大型文物图像数据集. 此外，为了降低数据集原始样本的影响，本文在训练样本中随机抽取8000张图像进行数据增广，详细的数据集划分与增广操作如表1所示.

表 1 使用数据集的统计信息

Table 1. Statistics for Using Datasets

数据划分	数据增广		训练数据	测试数据
数据划分	高斯噪声 K=3 σ_X=2 σ_Y=2	高斯模糊 μ=0 σ=0.01	训练数据	测试数据
山水画	1000	1000	41900	100
人物像	1000	1000	11900	100
壁画	1000	1000	11900	100
花鸟画	1000	1000	21900	100

下载: 导出CSV

| 显示表格

在图像修复领域，目前最常用的评估指标有峰值信噪比和结构相似性（structural similarity index measure， SSIM）. 近年来，为更深层次地评价修复图像的质量，常使用学习感知图像块相似性^[39]（learned perceptual image patch similarity， LPIPS）来作为评估指标.

本文实验的硬件环境为Intel^® Xeon^® Platinum 8255C和2块Tesla V100.实验平台的软件环境为Pytorch 1.8.0，CUDA 11.1.1.训练过程中采用Adam优化器对参数进行优化，学习率为1×10⁻⁴，1阶动量为0.5，2阶动量为0.1.

本节在符合现实场景破损和大面积破损2种情况下，与基于块匹配的传统方法代表PM^[6]、结合先验信息的深度学习方法代表Shift-Net^[26]、双阶段修复模型CRF^[21]和EC^[23]、使用不同类型卷积的单阶段深度学习方法代表PC^[20] 、基于Transformer和CNN的双阶段修复方法代表ICT^[33]和EC^[33]进行对比，以验证本文方法的有效性.

本节将对比各种方法在符合现实场景的皲裂山水画的修复效果. 结合现实中文物破损面积小、破损不规则、破损区域连续等特点，本文专门设计了大小在10%~15%且破损区域连续、大小依次递增的5张掩膜，表示为M_s-1~5.本节实验均采用这5张特定的掩膜. 同时，由于山水画更加强调结构的连贯性与纹理的细腻性，修复难度更高，因此实验在本节与3.4.2节均在山水画中进行对比.

图5展示了各方法的修复结果. 由图5（c）可见，PM整体表现优异，但修复区域缺乏上下文的语义信息. 在已知区域无法提供足够多的先验信息时尤为明显. 由图5（d）（e）所示，PC和Shift-Net的修复结果在连贯结构的恢复上并不合理，存在重复的纹理和伪影. 由图5（f）（g）所示，EC，CRF的修复结果较为优秀，但在某些特定掩膜下会出现严重的伪影. 相对这些方法，本文的2阶段修复模型的图像处理效果均比较理想，阶段性的修复过程更加适用于文物图像修复任务.图5（h）的ICT与本文方法的修复质量相对较高，由此可见，基于Transformer的修复方法可以给模型提供更好的先验信息. 但ICT未将上采样和修复过程结合，导致其在上采样过程中丢失的关键像素无法被修复，部分区域仍存在颜色失调的现象. 而本文方法先使用Transformer进行结构先验，再结合图像超分辨的思想，把上采样和修复的过程结合起来，增强了网络上采样的能力，使网络在上采样的过程中能保留更多的关键信息. 同时在联合损失函数的约束下，文物图像修复的质量得到极大提升，修复结果语义连贯、伪影和重复的纹理较少，取得了较好的指标和视觉效果.

图 5 不同算法对现实破损场景的修复结果对比

Figure 5. Comparison of repair results of different algorithms for realistic damaged scenes

下载: 全尺寸图片幻灯片

各种方法的修复指标如表2所示，本文方法在PSNR，SSIM上表现均为最优. 相较于PM，PC，Shift-Net，EC，CRF，ICT这6种方法，SSIM指标分别提升了13.2个百分点、11.7个百分点、11.9个百分点、1.3个百分点、2.7个百分点、0.8个百分点；PSNR指标分别提升了14.4个百分点、14.5个百分点、22.3个百分点、9.7个百分点、6.0个百分点、11.5个百分点. 随着掩膜逐渐增大，PSNR，SSIM这2项指标均有所下降，但本文方法相较于其他方法下降趋势更加平稳.

表 2 本文方法与其他方法针对现实破损场景修复的结果

Table 2. Results of Our Method and Other Methods for Repairing Real-Life Damaged Scenes

指标	PSNR/dB						SSIM
指标	M_S-1	M_S-2	M_S-3	M_S-4	M_S-5	均值	M_S-1	M_S-2	M_S-3	M_S-4	M_S-5	均值
PM^[6]	32.26	32.27	34.59	33.59	36.71	33.89	0.88	0.82	0.88	0.88	0.88	0.870
Shift-Net^[26]	34.33	33.15	31.77	34.35	35.69	33.86	0.89	0.85	0.84	0.84	0.89	0.882
PC^[20]	30.41	28.01	32.47	32.79	34.78	31.69	0.90	0.81	0.90	0.90	0.90	0.880
EC^[23]	36.86	33.29	35.85	34.88	35.69	35.31	0.98	0.96	0.97	0.97	0.98	0.972
CRF^[21]	34.72	35.69	38.44	35.65	38.37	36.58	0.98	0.95	0.95	0.94	0.97	0.958
ICT^[33]	33.55	32.58	36.57	34.72	36.45	34.77	0.98	0.97	0.98	0.98	0.97	0.976
本文方法	36.99	36.07	40.25	37.97	40.86	38.76	0.98	0.98	0.99	0.99	0.98	0.984
注：黑体数值为最优值.

下载: 导出CSV

| 显示表格

3.4.1节实验中使用的是特定的掩膜. 为进一步验证本文方法对大面积破损文物修复的有效性，本节使用3张20%~25%的随机掩膜进行测试，表示为M_L-1~3.

各种方法的修复结果如表3所示. 可以看出，PM，PC，Shift-Net 这三者的指标相较于3.4.1节实验中的值出现了比较明显的下降，而基于Transformer的2种修复方法在面对大小不同的掩膜时，指标下降的趋势相对平稳，由此可以验证基于Transformer的模型的泛化性、鲁棒性更好. 本文方法相较于PM，PC，Shift-Net，EC，CRF，ICT这6种方法，SSIM指标分别提升了27.8个百分点、30.9个百分点、30.9个百分点、3.2个百分点、2.0个百分点、1.0个百分点；PSNR指标分别提升了21.1个百分点、20.7个百分点、32.6个百分点、17.8个百分点、15个百分点、11.6个百分点. 由表4左侧可以看出，在破损区域较为集中时，得益于Transformer模型提供的先验信息和上采样修复模型的约束，本文方法可以很好地恢复文物图像的底色和山的轮廓，局部纹理也清晰可见，伪影较少. 由表4右侧中可以看出，在破损区域较为随机时，本文方法恢复的结构很好地把握了全局的信息，局部纹理也非常逼真.

表 3 本文方法与其他方法针对大面积破损修复的结果

Table 3. Results of Our Method and Other Methods for Repairing Large Areas of Damage

指标	PSNR/dB				SSIM
指标	M_L-1	M_L-2	M_L-3	均值	M_L-1	M_L-2	M_L-3	均值
PM^[6]	30.03	29.75	29.23	29.67	0.74	0.77	0.75	0.753
Shift-Net^[26]	30.38	29.39	29.60	29.79	0.75	0.71	0.75	0.736
PC^[20]	27.87	26.95	26.51	27.11	0.72	0.75	0.74	0.736
EC^[23]	30.80	28.09	32.64	30.51	0.95	0.89	0.96	0.933
CRF^[21]	30.45	29.91	33.28	31.21	0.95	0.93	0.95	0.944
ICT^[33]	32.23	31.54	32.95	32.24	0.96	0.94	0.96	0.953
本文方法	36.91	33.80	37.17	35.96	0.97	0.95	0.97	0.963
注：黑体数值为最优值.

下载: 导出CSV

| 显示表格

表 4 大面积破损修复效果

Table 4. Large Area Damage Repair Renderings

下载: 导出CSV

| 显示表格

表3和表4表明本文方法对大面积破损文物的结构恢复能力突出，纹理、颜色的恢复也较为合理，具有很好的修复效果.

在实验过程中发现，少部分指标较高的图片却存在修复区域模糊的现象，而符合人类视觉感知的修复结果其指标反而更低，如图6所示.

图 6 异常指标对比图

注：位于图像右下角的数值分别为当前图像的PSNR（dB值）和SSIM评估指标值.

Figure 6. Comparison chart of abnormal indicators

下载: 全尺寸图片幻灯片

本文认为利用单一损失函数约束的回归模型在PSNR，SSIM两个指标上能得到提升，但其修复结果并不是人类视觉感知上最好的结果. 并且损失函数的部分约束计算和PSNR，SSIM这2个指标计算类似，因此会影响网络的训练环节，导致部分文物图像修复结果出现轻微模糊、但其图像指标颇高的现象. 为进一步验证本文方法的有效性，本文引入更深层次衡量修复图像质量的指标LPIPS^[39]. 初步实验结果证明，LPIPS指标更符合人类的视觉感知，其值越低表示2张图像越相似，结果如图7所示. 本文方法相较于基于深度学习的Shift-Net，PC，EC，CRF，ICT这5种方法，LPIPS指标分别下降了41.1个百分点、70.7个百分点、27.1个百分点、1.8个百分点、17.2个百分点.

图 7 不同掩膜的LPIPS值对比

Figure 7. Comparison of LPIPS values of different masks

下载: 全尺寸图片幻灯片

综上所述，本文方法在PSNR，SSIM，LPIPS这3种指标上表现均优于其他具有代表性的方法.

本节将验证本文方法在人物画像、壁画、花鸟画中的修复效果. 人物画像、壁画、花鸟画绘画技法都以线为主勾勒表现绘画对象，对整体结构的连贯性要求比较小，颜色的层次更少，纹理相较于山水画更简单. 因此本节实验中分别使用数据集中的人物画像、壁画、花鸟画进行训练，实验细节与3.4.1节、3.4.2节完全一致. 表5中，对于花卉修复结果，无论掩膜区域相对集中还是随机，本文方法都能恢复出连贯的结构和合理的颜色；人物画像修复结果主要结构相对集中，在主体结构缺失的情况下，本文方法恢复的结果语义相对连贯，轮廓、细节都能得到很好的恢复；壁画的结构相对简单，颜色相对单一，本文方法恢复的结果伪迹较少，具有良好的视觉效果；但由于根据类别划分的数据集样本较少，以及Transformer多元化输出的特点，本文方法在修复大面积破损图像时会出现轻微失真的情况. 对于此现象带来的优缺点，本文将在3.6节中对多元化修复作进一步阐述.

表 5 其他类型文物修复效果图

Table 5. Restoration Renderings of Other Types of Cultural Relics

类型	破损区域较集中
类型	原图	掩膜	修复结果
花卉
花卉
画像
壁画
注：“修复结果”中位于图像右下角的数值分别为当前图像的PSNR（dB值）和SSIM评估指标值.

下载: 导出CSV

| 显示表格

以上结果表明在对不同类别文物图像的修复中，本文方法在主观和客观指标上都具有较好的修复效果.

由于目前大多数基于深度学习的图像修复方法针对的都是常规图像，因此本文也验证了所提方法对自然图像的修复效果. 由表6可见，针对缺失面积较大的图像，本文方法恢复的图像结构连贯，与原图相对一致，轮廓清晰，局部纹理逼真. 针对缺失面积较小的图像，本文方法恢复的图像结构连贯且符合上下文语义信息.

表 6 常规图像修复效果图

Table 6. Conventional Image Restoration Renderings

下载: 导出CSV

| 显示表格

文物修复往往需要将修复人员的主观认知和原始参照物结合起来. 但在实际的文物修复任务中，存在无对照样本的情况，导致修复结果无法验证合理性. 针对此问题，本文方法通过多头注意力机制实现多样化输出. 多元化的修复结果如表7、表8所示. 值得注意的是，本文方法虽然在进行大面积修复时偶尔会出现轻微失真、模糊的情况，但可以为专家提供多种修复参考，为后序修复提供决策依据，在降低文物修复的主观性、随机性的同时加强修复的准确性，极大地提升了文物修复效率.

表 7 多元化修复效果图

Table 7. Diversified Restoration Renderings

原图	掩膜	修复结果1	修复结果2	修复结果3	修复结果4

下载: 导出CSV

| 显示表格

表 8 多元化修复边缘检测效果图

Table 8. Diversified Restoration Edge Detection Renderings

原图	掩膜	修复结果1	修复结果2	修复结果3	修复结果4

下载: 导出CSV

| 显示表格

本节通过讨论2阶段网络的修复结果，分析论证各阶段子网在文物修复任务中的不同作用. 在实际修复任务中，文物图像常常会因老化而产生破洞、裂痕等问题，使图像整体结构受到破坏，如图8所示. 第1阶段利用Transformer对破损文物图像进行整体结构先验信息修复的结果如图8（b）所示；第2阶段利用多重残差卷积网络对第1阶段输出图像进行纹理修复的结果如图8（d）所示.

图 8 各阶段文物修复效果

Figure 8. Effect of the various stages of cultural relics restoration

下载: 全尺寸图片幻灯片

本文方法从文物图像的特性出发，在修复过程中充分考虑了图像的整体结构与局部纹理. 如果在文物图像修复任务中仅仅使用第1阶段的子网络，虽然可以生成连贯且符合语义的整体结构，但为减少计算量的降维操作往往会导致修复结果较为模糊、缺乏相应的细节语义信息，如图8（b）所示；如果在文物图像修复任务中仅仅使用第2阶段的子网络，虽然可以生成有效的局部纹理，但修复的图像会缺乏正确的上下文语义信息，如图8（d）所示.

综合上述对阶段性子网络的分析表明，本文方法只有在2阶段网络共同作用下才能实现最优修复效果.

在文物图像补全领域，长期存在着既要实现足够的多样性又要求修复效果逼真的困境. 本文针对文物图像修复任务提出了一种基于Transformer的修复方法，该方法将Transformer和CNN的优点结合；利用Transformer的全局结构理解能力和多元化输出以及CNN较强的局部感知能力，本文方法实现了对文物图像的高质量修复. 同时，本文提出了一个新的高质量文物数据库，解决了国内外缺乏相关数据库的问题. 大量实验表明，本文方法在主客观效果上均优于现有方法，并实现了多元化输出，提升了文物修复效率. 本文方法仍有需要深入研究与改进的方面，如图8的修复结果在原始缺损区域附近产生模糊等问题. 此外，本文设计的2阶段网络能够生成多元化的结果，最大程度地为文物修复提供指导与参考，但在修复大面积破损图像时也会产生与原始图像不一致的结果. 最后，由于评估指标的缺陷，实验中会出现高指标、低主观感知质量和低指标、高主观感知质量的修复结果，对网络训练的非线性回归产生影响. 后续工作考虑在第2阶段子网络设计方面对图像进行多尺度特征融合与去噪^[25]；探索更能反映文物图像修复质量的评价指标，加强对网络的约束并提升文物图像修复质量. 也可借助门控卷积^[40]网络的设计思想对第2阶段进行改进，使其更能适应缺损面积较大的文物图像修复任务. 还可以进一步提高文物图像数据集的数量与质量，将各类文物图像进行更加细致地划分，以适应更加复杂的修复场景；更新专项训练策略，提高修复结果的分辨率和观赏价值.

作者贡献声明：王真言负责部分实验开发任务、数据整理分析并提供论文修改意见；蒋胜丞完成部分实验开发任务、数据集的创建并撰写论文；宋齐鸿提供论文修改意见；刘波、毕秀丽和肖斌提供实验开发思路，给予工作支持和指导意见.

图 1 破损图像对比

Figure 1. Comparison of damaged images

下载: 全尺寸图片幻灯片

图 2 基于Transformer的文物图像修复方法

Figure 2. Transformer-based image restoration method for cultural relics

下载: 全尺寸图片幻灯片

图 3 多元化结构修复网络结构图

Figure 3. Diversified structure repair network structure diagram

下载: 全尺寸图片幻灯片

图 4 上采样纹理修复网络结构图

Figure 4. Upsamping texture repair network structure diagram

下载: 全尺寸图片幻灯片

图 5 不同算法对现实破损场景的修复结果对比

Figure 5. Comparison of repair results of different algorithms for realistic damaged scenes

下载: 全尺寸图片幻灯片

图 6 异常指标对比图

注：位于图像右下角的数值分别为当前图像的PSNR（dB值）和SSIM评估指标值.

Figure 6. Comparison chart of abnormal indicators

下载: 全尺寸图片幻灯片

图 7 不同掩膜的LPIPS值对比

Figure 7. Comparison of LPIPS values of different masks

下载: 全尺寸图片幻灯片

图 8 各阶段文物修复效果

Figure 8. Effect of the various stages of cultural relics restoration

下载: 全尺寸图片幻灯片

表 1 使用数据集的统计信息

Table 1 Statistics for Using Datasets

数据划分	数据增广		训练数据	测试数据
数据划分	高斯噪声 K=3 σ_X=2 σ_Y=2	高斯模糊 μ=0 σ=0.01	训练数据	测试数据
山水画	1000	1000	41900	100
人物像	1000	1000	11900	100
壁画	1000	1000	11900	100
花鸟画	1000	1000	21900	100

下载: 导出CSV

表 2 本文方法与其他方法针对现实破损场景修复的结果

Table 2 Results of Our Method and Other Methods for Repairing Real-Life Damaged Scenes

指标	PSNR/dB						SSIM
指标	M_S-1	M_S-2	M_S-3	M_S-4	M_S-5	均值	M_S-1	M_S-2	M_S-3	M_S-4	M_S-5	均值
PM^[6]	32.26	32.27	34.59	33.59	36.71	33.89	0.88	0.82	0.88	0.88	0.88	0.870
Shift-Net^[26]	34.33	33.15	31.77	34.35	35.69	33.86	0.89	0.85	0.84	0.84	0.89	0.882
PC^[20]	30.41	28.01	32.47	32.79	34.78	31.69	0.90	0.81	0.90	0.90	0.90	0.880
EC^[23]	36.86	33.29	35.85	34.88	35.69	35.31	0.98	0.96	0.97	0.97	0.98	0.972
CRF^[21]	34.72	35.69	38.44	35.65	38.37	36.58	0.98	0.95	0.95	0.94	0.97	0.958
ICT^[33]	33.55	32.58	36.57	34.72	36.45	34.77	0.98	0.97	0.98	0.98	0.97	0.976
本文方法	36.99	36.07	40.25	37.97	40.86	38.76	0.98	0.98	0.99	0.99	0.98	0.984
注：黑体数值为最优值.

下载: 导出CSV

表 3 本文方法与其他方法针对大面积破损修复的结果

Table 3 Results of Our Method and Other Methods for Repairing Large Areas of Damage

指标	PSNR/dB				SSIM
指标	M_L-1	M_L-2	M_L-3	均值	M_L-1	M_L-2	M_L-3	均值
PM^[6]	30.03	29.75	29.23	29.67	0.74	0.77	0.75	0.753
Shift-Net^[26]	30.38	29.39	29.60	29.79	0.75	0.71	0.75	0.736
PC^[20]	27.87	26.95	26.51	27.11	0.72	0.75	0.74	0.736
EC^[23]	30.80	28.09	32.64	30.51	0.95	0.89	0.96	0.933
CRF^[21]	30.45	29.91	33.28	31.21	0.95	0.93	0.95	0.944
ICT^[33]	32.23	31.54	32.95	32.24	0.96	0.94	0.96	0.953
本文方法	36.91	33.80	37.17	35.96	0.97	0.95	0.97	0.963
注：黑体数值为最优值.

下载: 导出CSV

表 4 大面积破损修复效果

Table 4 Large Area Damage Repair Renderings

下载: 导出CSV

表 5 其他类型文物修复效果图

Table 5 Restoration Renderings of Other Types of Cultural Relics

类型	破损区域较集中
类型	原图	掩膜	修复结果
花卉
花卉
画像
壁画
注：“修复结果”中位于图像右下角的数值分别为当前图像的PSNR（dB值）和SSIM评估指标值.

下载: 导出CSV

表 6 常规图像修复效果图

Table 6 Conventional Image Restoration Renderings

下载: 导出CSV

表 7 多元化修复效果图

Table 7 Diversified Restoration Renderings

原图	掩膜	修复结果1	修复结果2	修复结果3	修复结果4

下载: 导出CSV

表 8 多元化修复边缘检测效果图

Table 8 Diversified Restoration Edge Detection Renderings

原图	掩膜	修复结果1	修复结果2	修复结果3	修复结果4

下载: 导出CSV

参考文献(40)

[1]	Wang Hua, Li Qing, Jia Songtao. A global and local feature weighted method for ancient murals inpainting[J]. International Journal of Machine Learning and Cybernetics, 2020, 11(6): 1197−1216 doi: 10.1007/s13042-019-01032-2
[2]	Chen Hao, Zhao Lu, Wang Zhenyu, et al. DualAST: Dual style-learning networks for artistic style transfer[C]//Proc of the 34th IEEE/CVF Int Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE , 2021: 872−881
[3]	Haliassos A, Barmpoutis P, Stathaki T, et al. Classification and detection of symbols in ancient papyri[C]//Proc of the 5th Visual Computing for Cultural Heritage. Berlin: Springer, 2020 : 121−140
[4]	Opgenhaffen L. The impact of digital technology on archaeological recording strategies and ensuing open research archives[J]. Digital Applications in Archaeology and Cultural Heritage, 2022, 27: 1−15
[5]	陈永,艾亚鹏,郭红光. 改进曲率驱动模型的敦煌壁画修复算法[J]. 计算机辅助设计与图形学学报,2020,32(5):787−796 Chen Yong, Ai Yapeng, Guo Hongguang. Improved curvature driven model for Dunhuang Fresco restoration algorithm[J]. Journal of Computer Aided Design & Computer Graphics, 2020, 32(5): 787−796(in Chinese)
[6]	Criminisi A, Perez P, Toyama K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing, 2004, 13(9): 1200−1212 doi: 10.1109/TIP.2004.833105
[7]	Barnes C, Shechtman E, Finkelstein A, et al. PatchMatch: A randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 24−34
[8]	卢小宝,王维兰. 基于样本块的破损唐卡图像修复算法的改进[J]. 计算机应用,2010,30(4):943−946 doi: 10.3724/SP.J.1087.2010.00943 Lu Xiaobao, Wang Weilan. Improvement of damaged Thangka image repair algorithm based on sample block[J]. Journal of Computer Applications, 2010, 30(4): 943−946(in Chinese) doi: 10.3724/SP.J.1087.2010.00943
[9]	Yao Feng. Damaged region filling by improved Criminisi image inpainting algorithm for Thangka[J]. Cluster Computing, 2019, 22(6): 13683−13691
[10]	Yu Tong, Lin Chuan, Zhang Shuo, et al. Artificial intelligence for dunhuang cultural heritage protection: The project and the dataset[J]. International Journal of Computer Vision, 2022, 130(11): 2646−2673 doi: 10.1007/s11263-022-01665-x
[11]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C] //Proc of the 31st Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 6000–6010
[12]	Bertalmio M, Sapiro G, Caselles V, et al. Image inpainting[C] //Proc of the 27th Annual Conf on Computer Graphics and Interactive Techniques. New York: ACM, 2000: 417−424
[13]	Efros A A, Freeman W T. Image quilting for texture synthesis and transfer[C] //Proc of the 28th Annual Conf on Computer Graphics and Interactive Techniques. New York: ACM, 2001: 341−346
[14]	Ballester C, Bertalmio M, Caselles V, et al. Filling-in by joint interpolation of vector fields and gray levels[J]. IEEE Transactions on Image Processing, 2001, 10(8): 1200−1211 doi: 10.1109/83.935036
[15]	Darabi S, Shechtman E, Barnes C, et al. Image melding: Combining inconsistent images using patch-based synthesis[J]. ACM Transactions on Graphics, 2012, 31(4): 1−10
[16]	Hays J, Efros A A. Scene completion using millions of photographs[J]. ACM Transactions on Graphics, 2007, 26(3): 4−33 doi: 10.1145/1276377.1276382
[17]	Wang Hua, Li Qing, Zou Qian. Inpainting of Dunhuang murals by sparsely modeling the texture similarity and structure continuity[J]. Journal on Computing and Cultural Heritage, 2019, 12(3): 1−21
[18]	Xu Shoujin, Liu Dong, Xiong Zhihong. E2I: Generative inpainting from edge to image[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(4): 1308−1322 doi: 10.1109/TCSVT.2020.3001267
[19]	Pathak D, Krähenbühl P, Donahue J, et al. Context Encoders: Feature learning by inpainting[C] //Proc of the 29th IEEE/CVF Int Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 2536−2544
[20]	Liu Guilin, Reda F A, Shih K J, et al. Image inpainting for irregular holes using partial convolutions[C] //Proc of the 15th IEEE/CVF European Conf on Computer Vision. Piscataway, NJ: IEEE, 2018: 89−105
[21]	Zeng Yuhui, Lin Zhouchen, Lu Hongbin, et al. CR-Fill: Generative image inpainting with auxiliary contextual reconstruction[C] //Proc of the 18th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE 2021: 14144−14153
[22]	Zhang Hui, Qi Yuchao, Xue Xiaoyan, et al. Ancient stone inscription image denoising and inpainting methods based on deep neural networks[J]. Discrete Dynamics in Nature and Society, 2021, 2021: 1−12
[23]	Nazeri K, Ng E, Joseph T, et al. EdgeConnect: Structure guided image inpainting using edge prediction[C] //Proc of the 17th IEEE/CVF Int Conf on Computer Vision Workshop. Piscataway, NJ: IEEE, 2019: 3265−3274
[24]	Yeh R A, Chen C, Lim T Y, et al. Semantic image inpainting with deep generative models[C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6882−6890
[25]	Yu Jiahui, Lin Zhe, Yang Jimei, et al. Generative image inpainting with contextual attention[C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5505−5514
[26]	Yan Zhaoyi, Li Xiaodong, Li Mu, et al. Shift-Net: Image inpainting via deep feature rearrangement[C]//Proc of the 16th IEEE/CVF European Conf on Computer Vision. Piscataway, NJ: IEEE, 2018: 3−19
[27]	Zeng Yijun, Gong Yi, Zeng Xianglong. Controllable digital restoration of ancient paintings using convolutional neural network and nearest neighbor[J]. Pattern Recognition Letters, 2020, 133: 158−164 doi: 10.1016/j.patrec.2020.02.033
[28]	Qin Jie, Bai Honggang, Zhao Yizhou. Multi-scale attention network for image inpainting[J]. Computer Vision and Image Understanding, 2021, 204: 1−12
[29]	曹建芳,李艳飞,崔红艳. 自适应样本块局部搜索算法对古代寺观壁画的修复[J]. 计算机辅助设计与图形学学报,2019,31(11):2030−2037 Cao Jianfang, Li Yanfei, Cui Hongyan, et al. Restoration of ancient temple murals by adaptive sample block local search algorithm[J]. Journal of Computer Aided Design & Computer Graphics, 2019, 31(11): 2030−2037(in Chinese)
[30]	李清泉,王欢,邹勤. 一种基于稀疏表示模型的壁画修复算法[J]. 武汉大学学报:信息科学版,2018,43(12):1847−1853 Li Qingquan, Wang Huan, Zou Qin. A mural restoration algorithm based on sparse representation model[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 1847−1853(in Chinese)
[31]	Chen M, Radford A, Child R, et al. Generative pretraining from pixels[C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 1691−1703
[32]	Parmar N, Vaswani A, Uszkoreit J, et al. Image Transformer[C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 4055−4064
[33]	Wan Zijian, Zhang Jing, Chen Dongdong, et al. High-fidelity pluralistic image completion with transformers[C] //Proc of the 18th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE 2021: 4672−4681
[34]	Yang Yuting, Jiao Licheng, Liu Xu, et al. Transformers meet visual learning understanding: A Comprehensive Review[J]. arXiv preprint, arXiv: 2203. 12944, 2022
[35]	Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[C/OL]. 2019[2021-04-17].https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
[36]	Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C] //Proc of the 17th Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2019: 4171−4186
[37]	Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 105−114
[38]	Rudin L I, Osher S, Fatemi E. Nonlinear total variation based noise removal algorithms[J]. Physica D: Nonlinear Phenomena, 1992, 60(1): 259−268
[39]	Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 586−595
[40]	Yu Jiahui, Lin Zhe, Yang Jimei, et al. Free-form image inpainting with gated convolution[C] //Proc of the 17th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4471−4480

施引文献(3)

期刊类型引用(0)

其他类型引用(3)

资源附件(0)

图(8) / 表(8)

文章访问数: 509
HTML全文浏览量: 145
PDF下载量: 194
被引次数: 3

1. 相关工作
1.1 传统的图像修复方法
1.2 基于深度学习的修复方法
2. 文物图像修复方法
2.1 多元化结构修复网络
2.2 上采样纹理修复网络
2.3 联合感知损失函数
2.3.1 内容损失函数
2.3.2 对抗损失函数
2.3.3 全变分损失函数
3. 实验结果与分析
3.1 实验数据库
3.2 评价指标
3.3 实验细节
3.4 实验对比与分析
3.4.1 符合现实场景破损的修复实验
3.4.2 针对大面积破损的修复实验
3.4.3 数据库中其他类型图片的修复实验
3.5 常规图像修复
3.6 多元化修复
3.7 阶段性子网络分析实验
4. 总　　结

1. 相关工作
1.1 传统的图像修复方法
1.2 基于深度学习的修复方法
2. 文物图像修复方法
2.1 多元化结构修复网络
2.2 上采样纹理修复网络
2.3 联合感知损失函数
2.3.1 内容损失函数
2.3.2 对抗损失函数
2.3.3 全变分损失函数
3. 实验结果与分析
3.1 实验数据库
3.2 评价指标
3.3 实验细节
3.4 实验对比与分析
3.4.1 符合现实场景破损的修复实验
3.4.2 针对大面积破损的修复实验
3.4.3 数据库中其他类型图片的修复实验
3.5 常规图像修复
3.6 多元化修复
3.7 阶段性子网络分析实验
4. 总　　结

参考文献(40)

施引文献(3)

资源附件(0)

注：“修复结果”中位于图像右下角的数值分别为当前图像的PSNR（dB值）和SSIM评估指标值.