针对深度神经网络模型指纹检测的逃避算法

钱亚冠1,2 何念念1,2 郭艳凯1,2 王滨2 李晖3 顾钊铨4 张旭鸿5 吴春明6

1(浙江科技学院大数据学院杭州 310023) 2(海康威视&浙江科技学院边缘智能安全联合实验室杭州 310023) 3(西安电子科技大学网络与信息安全学院西安 710071) 4(广州大学网络空间先进技术研究院广州 510006) 5(浙江大学控制科学与工程学院杭州 310058) 6(浙江大学计算机科学与技术学院杭州 310058)

摘要随着深度神经网络在不同领域的成功应用，模型的知识产权保护成为了一个备受关注的问题.由于深度神经网络的训练需要大量计算资源、人力成本和时间成本，攻击者通过窃取目标模型参数，可低成本地构建本地替代模型.为保护模型所有者的知识产权，最近提出的模型指纹比对方法，利用模型决策边界附近的指纹样本及其指纹查验模型是否被窃取，具有不影响模型自身性能的优点.针对这类基于模型指纹的保护策略，提出了一种逃避算法，可以成功绕开这类保护策略，揭示了模型指纹保护的脆弱性.该逃避算法的核心是设计了一个指纹样本检测器——Fingerprint-GAN.利用生成对抗网络(generative adversarial network, GAN)原理，学习正常样本在隐空间的特征表示及其分布，根据指纹样本与正常样本在隐空间中特征表示的差异性，检测到指纹样本，并向目标模型所有者返回有别于预测的标签，使模型所有者的指纹比对方法失效.最后通过CIFAR-10，CIFAR-100数据集评估了逃避算法的性能，实验结果表明：算法对指纹样本的检测率分别可达95%和94%，而模型所有者的指纹比对成功率最高仅为19%，证明了模型指纹比对保护方法的不可靠性.

关键词知识产权保护；模型窃取；模型指纹；生成对抗网络；逃避算法

深度神经网络(deep neural network, DNN)目前已被成功地应用于图像分类[1]、语音识别[2-3]、自然语言处理[4-5]等领域.由于训练深度神经网络需要大量的计算资源，很多使用者没有条件训练自己的模型.在这种情况下，攻击者开发出模型窃取技术，非法获取已训练好的目标模型的相关信息[6].例如，攻击者通过向目标模型发起大量样本的迭代查询，利用目标模型反馈的预测结果来推断模型参数[6]、超参数[7-8]、架构[7]、训练数据[9]、决策边界等[10]，最后仿制出替代模型[11-12].攻击者把仿制出的替代模型部署为自己的云服务或者客户端软件，让客户付费使用预测应用程序接口(application programming interface, API)，获得不当收益.

目前针对模型知识产权的保护主要有水印和模型指纹这2种策略.水印技术[13]是在训练或微调目标模型的过程中，将水印嵌入到目标模型的参数或训练样本的标签中，但这类方法会影响模型的预测准确率.最近提出的指纹比对方法[13-14]，利用目标模型决策边界附近的指纹样本及其指纹(标签)，对模型窃取攻击得到的替代模型进行比对.该方法的优点是不会影响目标模型的预测准确率.

本文针对模型指纹的保护策略，提出了一种基于生成对抗网络(generative adversarial network, GAN)[15]的逃避算法.该算法的基本思路是设计一种可以检测指纹样本的网络，本文将其命名为Fingerprint-GAN，利用生成对抗网络学习正常样本在隐空间的特征表示及其分布，依据隐空间特征表示的差异性来检测指纹样本.当目标模型所有者向替代模型发送指纹样本，用以查验模型是否被窃取，替代模型为了不被发现，故意返回与预测结果不一致的标签，混淆目标模型的比对算法.

攻击者和防御者的交互场景如图1所示.①表示模型窃取攻击过程：攻击者通过API向目标模型MT查询x的预测标签通过不断的查询N次，可在本地构建出训练集用于训练替代模型MS.②表示模型所有者利用指纹比对技术，判断模型是否被窃取的过程：假设目标模型MT的指纹样本集为X′，其模型指纹为Y′.向替代模型MS查询X′，得到预测标签集模型所有者比对Y′和判断是否被窃取.③表示本文提出的基于Fingerprint-GAN的逃避算法：Fingerprint-GAN首先检测发送到替代模型MS的查询样本是否为指纹样本，如果“是”则返回不同于预测的标签，以逃避目标模型MT的指纹比对.

本文的实验结果表明：目前保护DNN知识产权的模型指纹比对方法是不可靠的，仍然可以被模型窃取者所逃避；在CIFAR-10，CIFAR-100数据集上，逃避算法对指纹样本的检测率分别可达95%和94%，而模型所有者的指纹比对成功率最高仅为19%，证明了本文提出的逃避算法的有效性.

Fig. 1 Attacker and defender interact scenarios
图1 攻击者和防御者交互场景

1 相关工作

1.1 模型窃取攻击

模型窃取[6,10-11,16-18]，也称为模型提取或者逆向工程.在黑箱环境下，攻击者首先通过API不断查询目标模型，得到一系列的预测输出，利用获得的输入-输出对来训练重构本地模型，称之为替代模型.攻击者的目的主要包括推断超参数[7-8]、恢复精确参数[6,19-20]、窃取黑盒模型的功能[11-12].文献[19]通过窃取简单线性模型，用于过滤垃圾邮件.文献[6]是窃取复杂深度神经网络模型，特别是基于卷积神经网络(convolutional neural network, CNN)的图像分类器.文献[11-12]通过提取黑盒模型信息构建训练集，训练替代模型来模仿目标黑盒模型的功能.

1.2 模型保护

水印技术被广泛应用于保护DNN模型的知识产权[21-27]，包括基于参数的水印和基于标签的水印.基于参数的水印[22,26]，是在目标模型训练时向损失函数添加正则化项，将水印嵌入到模型的参数中，要求模型所有者能够访问其他模型的模型参数，才能验证水印.基于标签的水印[21,23-25,27]，是将水印嵌入到某些数据样本的预测标签或神经元激活层中，带有水印的样本和其他样本一同训练，通过查询替代模型进行水印验证.

由于水印会带来模型精度的损失，最近提出利用对抗样本标识模型的唯一性[13,28].文献[13]在目标模型的决策边界附近寻找对抗样本，利用这些对抗样本的标签对模型的唯一性，区分目标模型和盗版的替代模型.文献[28]通过构造目标性的对抗样本，并利用对抗样本的可转移性，生成可协商性对抗样本，用其标签来唯一标识目标模型，从而区分目标模型和替代模型.

1.3 逃避水印保护

虽然水印技术一定程度上保护了模型的知识产权，但仍存在缺陷[29-32].文献[29]表明基于参数的水印技术改变了模型的统计分布，攻击者可以导出嵌入的水印长度并去除水印.文献[31]通过构建一个检测器判断查询样本是否带有水印.当判定为带有水印时，替代模型返回随机标签，从而避免模型所有者的验证.文献[32]利用正则化和微调技术去除水印，从而逃避验证.与这些针对水印保护的逃避算法不同，本文主要逃避利用对抗样本进行比对的保护技术，在算法中我们采用GAN检测模型指纹.

2 基于指纹的DNN保护

2.1 基本定义

本节主要从模型指纹生成和指纹比对2方面介绍基于指纹的DNN保护原理.DNN分类器模型通常表示成函数F(X,μ):Rd→Rm,其中，X∈Rd是输入变量，μ表示所有参数，m是输出类的数量.假设DNN分类器的输出层是softmax层，softmax函数表示为S(z):Rm→Rm，S(z)i令Z为最后一个隐藏层的输出向量，映射函数X|→Z提取数据表示，则分类器可以表示为F(X)=S(WZ+b)，其中，W和b分别是softmax层的权重矩阵和偏置向量.给定一个输入x(X的一个实例)，它的预测标签表示为给出模型保护的核心概念“目标模型”和“替代模型”的定义[6]:

定义1. 目标模型(target model).目标模型是指部署在现实应用中的商业DNN，需要大量的时间、金钱和人工来开发，是攻击者窃取的对象，记为MT.

定义2. 替代模型(substitute model).替代模型是攻击者通过API查询目标模型，利用获得的信息在本地构建与目标模型相似功能的DNN，记为MS.

攻击者把替代模型部署为自己的云服务或者客户端软件，让客户付费使用预测API，剥夺了目标模型所有者的商业优势.替代模型后续可以进一步使用查询来改进模型；也可以构建可转移的对抗样本[33]来欺骗目标模型，使其做出错误的预测.

具体而言，攻击者通过API查询目标模型对x的预测，目标模型仅返回预测类的标签攻击者由黑盒查询的结果可以构造出替代模型的训练集:其中，N为查询次数.利用D训练得到替代模型MS.

2.2 指纹生成

受生物指纹唯一性的启发，模型所有者可以通过某种算法提取模型的指纹，从而判断一个模型是否为目标模型或盗版的替代模型.本文借鉴文献[13,28]的方法，采用指纹样本对应的预测标签来表示目标模型的指纹.此处指纹样本是指模型决策边界附近一些样本，可利用对抗样本来实现[13].

定义3. 对抗样本[33].对于每一个x，存在一个小的扰动η，使得第i个输出Fi(x)满足：

arg max Fi(x)=ytrue∧ arg max Fi(x+η)≠ytrue,

(1)

其中，ytrue表示输入x的真实标签，称η为对抗扰动，x+η为对抗样本.

若使模型产生特定的错误标签，则称其为目标性对抗样本，即：

arg max Fi(x+η)=ytarget.

(2)

定义4. 指纹样本.指纹样本是指目标模型决策边界附近的一些样本，由目标性对抗样本构成.模型决策边界的集合BM为

BM={x|∃i,j,i≠j and

(3)

其中，zi(x)表示样本x在模型最后一个隐藏层的输出标签为i.通过在决策边界附近寻找一些对抗样本构成指纹样本集合

定义5. 模型指纹.目标模型指纹样本集合在目标模型上的预测标签集合称为模型指纹.

本文采用CW- width=6,height=11,dpi=110 2方法[34]生成目标性对抗样本.由于CW-2在目标模型决策边界附近寻找指纹样本效率较低，我们将指纹样本的生成转化为解决优化问题：

s.t. ReLU(u)=max{0,u},

(4)

其中，i和j是随机采样的标签，x′是被初始化预测标签为i的指纹样本，φ是调节指纹样本对目标模型的唯一性以及对替代模型鲁棒性的参数.

2.3 指纹比对

获得目标模型的指纹样本和指纹后，利用指纹样本查询替代模型，将替代模型返回的预测标签和目标模型的指纹进行比对，从而确定替代模型是否窃取了目标模型.具体地，目标模型指纹比对过程通过提取函数和比对函数来实现：

定义6. 提取函数.给定一个目标模型MT,模型所有者执行提取函数以提取模型指纹其中，为MT的n个指纹样本集合，为对应的n个指纹集合.

定义7. 比对函数.假设替代模型n个指纹样本

查询返回的预测标签为如果有q个预测标签和MT的指纹相同，即定义比对函数为

width=234,height=58,dpi=110

(5)

其中，为匹配率，γ为阈值，结果1表示替代模型被判定为目标模型的盗版.

3 指纹比对逃避算法

针对第2节给出的基于模型指纹的保护策略，本文提出一种逃避算法，目的是使保护方的指纹匹配率尽可能低，从而实现窃取模型同时不被发现的目的.逃避算法对查询替代模型的样本(包含正常样本和指纹样本)先进行检测，辨别该样本是否为指纹样本.如果判断为指纹样本，则意味着该样本具有取证功能，因此逃避算法返回不同于替代模型预测的标签，从而混淆保护方的指纹比对算法.

我们提出基于GAN的逃避算法，设计了称为Fingerprint-GAN的指纹样本检测器，它利用GAN的策略来检测指纹样本.Fingerprint-GAN仅在正常样本上训练，重构正常样本的分布特征，训练阶段的参数不适用于指纹样本.正常样本与其重构样本在隐空间(latent space)中的特征表示不会相差很大，理想情况下是相同的；而当输入的样本是指纹样本时，解码器不能很好地在隐空间中对其重构，重构后的样本丢失了特征信息，导致隐空间中的特征表示相差很大[35].因此Fingerprint-GAN依据隐空间中特征表示的差异来判断当前查询样本是否为指纹样本.

具体而言，当模型合法所有者利用指纹样本查询替代模型进行指纹比对时,指纹样本首先经过替代模型的附加网络Fingerprint-GAN，由Fingerprint-GAN检测当前查询样本是否为指纹样本.替代模型根据检测结果故意返回不同于预测的标签.模型所有者在比对替代模型返回的预测标签和目标模型指纹后得到不匹配的结果，从而使模型指纹比对失败.基于Fingerprint-GAN的逃避算法如图2所示：

Fig. 2 Evasion algorithm flowchart based on Fingerprint-GAN
图2 基于Fingerprint-GAN的逃避算法流程图

Fig. 3 GAN structure
图3 GAN结构图

3.1 生成对抗网络

生成对抗网络GAN是Goodfellow等人[15]提出的一种由生成器和判别器共同构成的动态博弈模型.如图3所示，生成器G接收随机噪声t，生成样本数据G(t)，生成器的目的是尽可能使得生成的样本和真实样本一样.判别器D的输入是真实数据x和生成器生成的数据G(t)，输出真或假.

生成器和判别器可以看成是博弈中的2个对手.在模型训练的过程中，生成器和判别器会各自更新自身的参数使得损失最小，通过不断迭代优化，最终达到一个纳什均衡状态，此时模型达到最优.博弈过程可用优化问题描述：

E[lg(1-D(G(t)))].

(6)

3.2 Fingerprint-GAN

受文献[35-36]在异常检测问题中应用GAN的启发，本文提出的Fingerprint-GAN将指纹样本看作异常样本，其余样本看作正常样本.Fingerprint-GAN本质上是一个特征提取器或重构器，进行3次映射，将输入样本空间映射到隐空间；再映射到样本空间，这个过程称为重构；重构后的样本空间再映射到隐空间.在训练阶段仅使用正常样本，这样能更好地提取正常样本在隐空间中的特征，以此辨别指纹样本，逃避目标模型指纹比对.

如图4所示，Fingerprint-GAN结构由生成器G和判别器D组成.生成器G由2个结构相同的编码器GE1,GE2和一个解码器GD组成.编码器和解码器都有一个自动编码器结构，用于学习训练样本的真实分布以及在隐空间中的分布.这样的设置可以更好地重构训练样本并且控制隐空间.

编码器GE1由卷积层、批归一化层、Leaky-ReLU激活层构成.假设输入样本为x∈Rw×h×c，经编码器GE1编码后输出t1，即:

t1=GE1(x),

(7)

其中，t1∈Rd，是GE1压缩x后的低维向量，并具有x的最佳特征表示，也称为瓶颈特征(bottleneck feature).

解码器GD由反卷积层、批归一化层、ReLU激活层、tanh层构成.GD输出x的重构样本

(8)

编码器GE2和GE1的结构相同，仅参数不同.GE2压缩其隐空间上输出为t2：

(9)

式(9)中的t2和式(7)中的t1维数相同.

判别器D由卷积层、反卷积层、批归一化层、Sigmoid激活层构成，其目标是区分x和利用隐空间对x和不同的特征表示，判别当前查询样本是否为指纹样本.

Fig. 4 Fingerprint-GAN structure
图4 Fingerprint-GAN结构图

3.3 训练Fingerprint-GAN

为了使Fingerprint-GAN更好地学习样本特征，我们定义生成器和判别器的损失函数，用于训练Fingerprint-GAN.借鉴文献[35]，将欺诈损失、上下文损失和潜在损失加权求和定义为生成器的损失，利用文献[37]的特征匹配损失作为判别器的损失.

定义8. 欺诈损失.为了欺骗判别器D，向D输入

重构样本定义判别器输出的损失为欺诈损失L1：

(10)

其中，σ为二分类交叉熵损失函数，h是D中间层的函数，用于提取输入样本的特征表示，取权重参数α=1.

定义9. 上下文损失.通过引入上下文损失L2，使得G不断学习输入样本的上下文信息.使用输入样本x和重构样本的距离( width=6,height=11,dpi=110 1范数)来定义L2为

(11)

定义10. 潜在损失.通过引入潜在损失L3，使得G更好地对正常样本进行编码，最小化隐空间特征表示损失.使用隐空间中t1和t2之间的距离( width=6,height=11,dpi=110 2范数)定义L3为

(12)

基于损失函数的定义，我们将生成器G的损失函数LG定义为它们的加权之和：

LG=λ1L1+λ2L2+λ3L3,

(13)

其中，λ1,λ2,λ3是3种损失的权重.

定义判别器损失LD为

(14)

式(14)用 width=6,height=11,dpi=110 2范数计算输入样本和重构样本的特征匹配损失，能够降低GAN训练的不稳定性.

如图4所示，在训练阶段，输入样本首先经过Fingerprint-GAN生成器中第一个编码器GE1，经卷积层、批归一化层以及LeakyReLU激活层后把样本映射到隐空间中，有效地保留特征信息.解码器GD学习隐空间中的特征表示t1，利用式(11)对生成器的惩罚作用，优化输入样本的上下文信息，得到重构样本使其尽可能接近输入样本.最后经过第2个编码器GE2，使得正常样本在隐空间内的特征潜在损失最小.最后，判别器对输入样本x以及重构样本作出判断.训练Fingerprint-GAN模型的过程如算法1所示：

算法1. 训练Fingerprint-GAN模型.

输入：epoch、α=1、batchsize=32；

输出：经过训练的Fingerprint-GAN.

① 初始化Fingerprint-GAN的超参数λ1=1，λ2=50，λ3=1；

② for i=1,2,…,epoch do

③ t1←GE1(x)；

④

⑤

⑥ 表示判别器D中间层函数*/

⑦

⑧ 使用Adam更新生成器G、判别器D的网络参数；

⑨ end for

3.4 指纹样本检测

对于模型保护方发来的查询样本x，我们定义指纹样本异常分数为

C(x)=λL2(x)+(1-λ)L3(x),

(15)

L2衡量输入样本和重构样本之间的相似性，见式(11)；L3衡量隐空间特征表示之间的差异性，见式(12).λ是控制异常分数相关重要性的参数，本文采用λ2和λ3比率作为λ.

由式(15)计算每个样本xi的异常分数，得到异常分数集合A={ai|ai=C(xi)}，将异常分数归一化得到集合

由于只在正常样本上训练Fingerprint-GAN，隐空间只保留了正常样本的特征表示和样本分布,因此，正常样本的异常分数值偏小，而指纹样本值偏大.设置阈值θ，当时提示该样本为指纹样本.Fingerprint-GAN检测算法如算法2所示：

算法2. Fingerprint-GAN检测算法.

输入：经过训练的Fingerprint-GAN、样本阈值θ；

输出：异常分数.

① for i=1,2,…,B do

② t1←GE1(xi)；

③

④

⑤

⑥ C(xi)←λL2(xi)+(1-λ)L3(xi)；

/*计算异常分数*/

⑦

A={ai|ai=C(xi)}；

/*异常分数归一化*/

⑧

⑨ xi为指纹样本；

⑩ end if

width=13,height=13,dpi=110 end for

其中，B取值取决于实验数据集的样本量.

4 实验设置

4.1 数据集

本文采用数据集CIFAR-10，CIFAR-100评估Fingerprint-GAN的有效性.

CIFAR-10.CIFAR-10共有10个类别，包含60 000张大小为32×32的图像.其中，50 000张正常图像用于训练Fingerprint-GAN；10 000张正常图像以及生成的7 925张指纹样本图像用于测试.

CIFAR-100.CIFAR-100共有100个类别，包含60 000张大小为32×32图像.其中，50 000张正常图像用于训练Fingerprint-GAN；10 000张正常图像以及生成的8 173张指纹样本图像用于测试.

4.2 目标模型

我们以广泛使用的ResNet[38]作为目标模型,分别训练了2个目标模型：ResNet20和ResNet50.表1展示了目标模型的参数.由于CIFAR-10类别较少，我们使用ResNet20；而CIFAR-100数据集类别较多，为了提高模型在CIFAR-100上的预测精度，我们修改原始的ResNet50，将第1层卷积由7×7改为3×3，并去掉最大池化层.修改后的卷积结构在CIFAR-100上性能表现更好，测试精度更高.

Table 1 ResNet20, ResNet50 Model Parameters
表1 ResNet20，ResNet50模型参数

模型层数参数数量∕万个ResNet202027ResNet505076

4.3 替代模型

本实验选择的替代模型网络架构与目标模型相同，但网络权重和其他超参数采用随机方式初始化.采用Knockoff[11]模型窃取方法，使用CIFAR-10，CIFAR-100数据集训练替代模型，得到4个替代模型，记为ResNet20-TF，ResNet20-TW，ResNet50-TF，ResNet50-TW.其中，TF表示微调模型的最后一层全连接层，其他层保持不变；TW表示重新初始化模型最后一层的权重，其他层保持不变，如ResNet20-TF表示微调ResNet20网络最后一层全连接层，其他层保持不变，以此类推ResNet20-TW，ResNet50-TF，ResNet50-TW.

4.4 Fingerprint-GAN

Fingerprint-GAN由生成器和判别器构成，如图4所示.生成器中的编码器是一个CNN，输入32×32的图像，卷积层由LeakyReLU激活层、Batch-Norm层构成，卷积核大小为4×4、步长为2.解码器是反卷积神经网络，由BatchNorm层、ReLU激活层、tanh激活层构成，卷积核大小为4×4、步长为1.

判别器也是一个卷积神经网络，允许输入32×32的图像，卷积层的卷积核大小为4×4、步长为2，使用LeakyReLU激活层、BatchNorm层，最后一层为Sigmoid激活层.

Fingerprint-GAN的训练采用PyTorch深度学习框架，Adam优化器.初始学习率r=2exp(-4)，动量β1=0.5，β2=0.999，生成器的权重参数初始化为λ1=1，λ2=50，λ3=1，分别在CIFAR-10，CIFAR-100数据集上取epoch=15进行训练.实验环境为Ubuntu20. 04.1LTS，运行在4个Geforce RTX 2080Ti GPU上.

5 实验结果

5.1 评价方法

ROC曲线通常被用于评估二分类器的性能，而本文提出的Fingerprint-GAN本质上是检测正常样本和指纹样本的二分类器.因此，我们使用ROC曲线下的区域面积AUC[39]从整体上评估Fingerprint-GAN检测的性能.AUC值越大，表明Fingerprint-GAN的性能越好.由于AUC值不是针对单个类别的评估指标，为进一步评估指纹样本的检测率，本文又使用精确率(Precision)和召回率(Recall)的调和平均F1分数.F1分数越接近1，表明Fingerprint-GAN区分正常样本和指纹样本的能力越强.

ROC曲线中的每一对(TPR,FPR)对应一个阈值.给定多种不同的阈值，ROC曲线描绘出所有(TPR,FPR)对.AUC取值范围是[0,1]，AUC值越接近1，模型的性能越好.TPR,FPR定义为

(16)

(17)

其中，TP为正确地预测的正例数，TN为正确地预测的负例数，FN为错误地预测的负例数，FP为错误地预测的正例数.

F1分数定义为

(18)

其中，如式(18)所示，F1分数是Precision和Recall的调和平均，在给定阈值下，F1分数越接近1，模型的性能越好.

5.2 目标模型性能评估

我们首先在CIFAR-10，CIFAR-100上评估目标模型的准确率.如图5所示，目标模型ResNet20在CIFAR-10上取epoch=200进行训练，其TOP-1准确率稳定在91%；相比ResNet20，ResNet50层数更多，网络结构更复杂，在类别数较多的CIFAR-100上同样取epoch=200训练，得到ResNet50的TOP-1准确率稳定在78%.使用CIFAR-10，CIFAR-100测试集中10 000张图像分别对ResNet20，ResNet50进行测试，准确率分别达到92%，79%，这也保证了后文生成的模型指纹对目标模型的唯一性，更好地验证替代模型是否为目标模型的盗版.

Fig. 5 The TOP-1 accuracy of ResNet20 and ResNet50 on CIFAR-10 and CIFAR-100 respectively
图5 ResNet20，ResNet50模型分别在CIFAR-10， CIFAR-100上的TOP-1准确率

目标模型ResNet20和ResNet50分别在CIFAR-10和CIFAR-100数据集上生成指纹样本及对应的模型指纹.生成模型指纹样本的参数：超参数c=1，迭代步长steps=1000,学习率r=0.01.CIFAR-10上部分正常样本和指纹样本、指纹如图6所示：

Fig. 6 Visualization of partial normal examples and fingerprint examples on CIFAR-10
图6 CIFAR-10上部分正常样本和指纹样本可视化图

5.3 替代模型性能评估

表2是4个替代模型分别在CIFAR-10，CIFAR-100测试集上的准确率.在CIFAR-10测试集上，ResNet20-TF准确率达到93%，ResNet20-TW略低1个百分点；在CIFAR-100测试集上，ResNet50-TF和ResNet50-TW准确率分别为78%和75%.4个替代模型在测试集上的准确率和目标模型ResNet20，ResNet50的准确率基本一致，表明替代模型成功地仿制了目标模型.

Table 2 The Test Accuracy of Alternative Models onCIFAR-10 and CIFAR-100

表2 替代模型在CIFAR-10，CIFAR-100上的准确率 %

模型准确率CIFAR-10CIFAR-100ResNet20-TF93ResNet20-TW92ResNet50-TF78ResNet50-TW75

5.4 Fingerprint-GAN性能评估

图7表示Fingerprint-GAN检测得到的ROC曲线，中间的虚线表示纯随机分类的ROC曲线.在CIFAR-10上，由ROC曲线可以看出，AUC值达到0.96(最大值为1)，表明Fingerprint-GAN在CIFAR-10上能够很好地检测指纹样本.CIFAR-100上的AUC值略小于CIFAR-10，为0.93，表明Fingerprint-GAN的检测性能有所下降.这是由于CIFAR-100数据集类别更多、更复杂.比如海豚和海豹比较相似，对应的指纹样本差异性也较小，在隐空间的特征表示差异性也较小，检测时可能把对应的正常样本和指纹样本归为一类，导致AUC值降低.

Fig. 7 ROC curves of normal examples and fingerprint examples on CIFAR-10 and CIFAR-100
图7 CIFAR-10，CIFAR-100上正常样本和指纹样本的 ROC曲线图

AUC值从整体上说明了Fingerprint-GAN的有效性，表明其在训练阶段充分学到了输入的正常样本分布特征以及隐空间中的特征表示.

取epoch=15训练Fingerprint-GAN，将指纹样本视为正例，正常样本视为负例，在CIFAR-10，CIFAR-100测试集上得到的Precision，Recall，F1分数如表3所示:

Table 3 Precision,Recall, and F1 Scores of Normal and Fingerprint Examples

表3 正常样本和指纹样本的Precision,Recall,F1分数

数据集类别精确率∕%召回率∕%F1分数∕%CIFAR-10CIFAR-100正常样本939694指纹样本959293正常样本959896指纹样本989496

由表3可以看出，Fingerprint-GAN在测试时，无论是对正常样本还是指纹样本，分类精确率达到93%以上，召回率达到92%以上，F1分数最高达到了96%，表明Fingerprint-GAN能很好的区分正常样本和指纹样本，具有良好的检测性能.

5.5 逃避成功率

本节从指纹样本的检测精确率、替代模型逃避的成功率以及目标模型的指纹比对成功率这3个方面进行评估，结果如表4所示：

Table 4 Performance Evaluation of Evasion Algorithm Based on Fingerprint-GAN
表4 基于Fingerprint-GAN的逃避算法性能评估

数据集(目标模型,替代模型)检测精确率∕%逃避成功率∕%指纹比对成功率∕%CIFAR-10CIFAR-100(ResNet20,ResNet20-TF)958317(ResNet20,ResNet20-TW)958218(ResNet50,ResNet50-TF)948119(ResNet50,ResNet50-TW)948218

将CIFAR-10测试集中10 000个正常样本以及生成的7 925个指纹样本输入Fingerprint-GAN进行测试，得到图8(a)所示的正常样本和指纹样本在隐空间上的异常分数分布图；同样将CIFAR-100测试集中10 000个正常样本以及生成的8 173个指纹样本输入Fingerprint-GAN进行测试，得到图8(b)所示的正常样本和指纹样本在隐空间上的异常分数分布图.分布图中相交部分表示未被正确分类的样本.

Fig. 8 Histogram of abnormal score of normal examples and fingerprint examples
图8 正常样本和指纹样本的异常分数直方图

由图8(a)可以看到，CIFAR-10测试集上正常样本和指纹样本的分布近似呈高斯分布，两者分布的横轴交点为0.2，表明异常分数为0.2.因此，取阈值θ=0.2.保护方共发送7 925个指纹样本，以替代模型ResNet20-TF为例，Fingerprint-GAN检测到7 512个指纹样本,替代模型对这7 512个指纹样本返回不同于预测的标签.由于指纹样本本质是对抗样本，替代模型仿制目标模型的功能无法达到百分百，因此对于目标模型生成的指纹样本，统计得到替代模型返回的标签中有6 577个与指纹不同，最终的替代模型逃避成功率为6 577/7 925≈83%，模型所有者进行指纹比对的成功率约为17%.同样，图8(b)表示CIFAR-100上正常样本和指纹样本的分布，横轴交点为0.27，因此，取阈值θ=0.27.其他替代模型的结果见表4.

本文提出的逃避算法在CIFAR-10，CIFAR-100上对指纹样本的检测精度分别达到95%，94%，4个替代模型的逃避成功率在81%～83%之间，而模型所有者的指纹比对成功率最高仅为19%，证明了该算法的有效性.

5.6 权重参数影响

本节讨论损失函数式(13)的权重超参数.实验最初使用文献[35]中的权重值λ1=1，λ2=50，λ3=1，是由经验取得的参考值.图9展示了式(13)损失函数中不同的权重取值对AUC值产生的影响.以数据集CIFAR-10上的正常样本和指纹样本为例，目标模型为ResNet20，替代模型为ResNet20-TF，可以看到，当取λ1=1，λ2=20，λ3=1时，AUC值取得最高，Fingerprint-GAN检测正常样本和指纹样本效果最佳，逃避模型指纹比对成功率最高.

Fig. 9 Influence of weight parameters of Fingerprint-GAN on CIFAR-10
图9 权重参数对Fingerprint-GAN的影响- CIFAR-10为例

6 结论

本文提出基于Fingerprint-GAN的逃避算法，在CIFAR-10，CIFAR-100上对模型指纹样本的检测率分别达到95%，94%，逃避的成功率为81%～83%，证明了逃避算法的有效性，同时也揭示了当前基于模型指纹保护策略的脆弱性.后续工作我们将继续研究针对图神经网络的模型窃取技术，以及如何保护图神经网络的知识产权.

贡献说明：钱亚冠提出论文理论方法和思路及论文撰写;何念念、郭艳凯进行论文实验和实验部分撰写;王滨指导论文思路与撰写;李晖、顾钊铨、张旭鸿、吴春明对论文提出修改建议.

参考文献

[1]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90

[2]Zhang Ying, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks[J]. arXiv preprint, arXiv:1701.02720, 2017

[3]Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C] //Pro of the 2013 IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 6645-6649

[4]Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint, arXiv:1408.5882, 2014

[5]Chen Danqi, Manning C D. A fast and accurate dependency parser using neural networks[C] //Pro of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 740-750

[6]Tramèr F, Zhang Fan, Juels A, et al. Stealing machine learning models via prediction apis[C] //Proc of the 25th USENIX Security Symp (USENIX Security 16). Berkeley, CA: USENIX Association, 2016: 601-618

[7]Oh S J, Schiele B, Fritz M. Towards reverse-engineering black-box neural networks[M] //Explainable AI: Interpreting, Explaining and Visualizing Deep Learning. Berlin: Springer, 2019: 121-144

[8]Wang Binghui, Gong N Z. Stealing hyperparameters in machine learning[C] //Proc of 2018 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2018: 36-52

[9]Shokri R, Stronati M, Song Congzheng, et al. Membership inference attacks against machine learning models[C] //Proc of 2017 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 3-18

[10]Papernot N, McDaniel P, Goodfellow I, et al. Practical black-box attacks against machine learning[C] //Proc of the 2017 ACM on Asia Conf on Computer and Communications Security. New York: ACM, 2017: 506-519

[11]Orekondy T, Schiele B, Fritz M. Knockoff nets: Stealing functionality of black-box models[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2019: 4954-4963

[12]Correia-Silva J R, Berriel R F, Badue C, et al. Copycat CNN: Stealing knowledge by persuading confession with random non-labeled data[C/OL] //Proc of 2018 Int Joint Conf on Neural Networks (IJCNN). Piscataway, NJ: IEEE, 2018 [2021-02-22]. https://arxiv.org/abs/1806.05476

[13]Cao Xiaoyu, Jia Jinyuan, Gong N Z. IPGuard: Protecting the intellectual property of deep neural networks via fingerprinting the classification Boundary[J]. arXiv preprint, arXiv:1910.12903, 2019

[14]Hartung F, Kutter M. Multimedia watermarking techniques[J]. Proceedings of the IEEE, 1999, 87(7): 1079-1107

[15]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C] //Proc of the Advances in Neural Information Processing Systems. New York: Curran Associates, Inc, 2014: 2672-2680

[16]Lee T, Edwards B, Molloy I, et al. Defending against model stealing attacks using deceptive perturbations[J]. arXiv preprint, arXiv:1806.00054, 2018

[17]Jagielski M, Carlini N, Berthelot D, et al. High-fidelity extraction of neural network models[J]. arXiv preprint, arXiv:1909.01838, 2019

[18]Juuti M, Szyller S, Marchal S, et al. PRADA: Protecting against DNN model stealing attacks[C] //Proc of 2019 IEEE European Symp on Security and Privacy. Piscataway, NJ: IEEE, 2019: 512-527

[19]Lowd D, Meek C. Adversarial learning[C] //Proc of the 11th ACM SIGKDD Int Conf on Knowledge Discovery in Data Mining. New York: ACM, 2005: 641-647

[20]Milli S, Schmidt L, Dragan A D, et al. Model reconstruction from model explanations[C/OL] //Proc of the Conf on Fairness, Accountability, and Transparency. 2019 [2021-02-08]. https://arxiv.org/abs/1807.05185

[21]Adi Y, Baum C, Cisse M, et al. Turning your weakness into a strength: Watermarking deep neural networks by backdooring[C] //Proc of the 27th USENIX Security Symp (USENIX Security 18). Berkeley, CA: USENIX Association, 2018: 1615-1631

[22]Chen Huili, Rohani B D, Koushanfar F. DeepMarks: A digital fingerprinting framework for deep neural networks[J]. arXiv preprint, arXiv:1804.03648, 2018

[23]Darvish Rouhani B, Chen Huili, Koushanfar F. DeepSigns: An end-to-end watermarking framework for ownership protection of deep neural networks[C/OL] //Proc of the 24th Int Conf on Architectural Support for Programming Languages and Operating Systems. 2019 [2021-02-08]. https://dl.acm.org/doi/abs/10.1145/3297858.3304051

[24]Guo Jia, Potkonjak M. Watermarking deep neural networks for embedded systems[C/OL] //Proc of the 2018 IEEE/ACM Int Conf on Computer-Aided Design (ICCAD). Piscataway, NJ: IEEE, 2018 [2021-02-22]. https://ieeexplore.ieee.org/document/8587745

[25]Le Merrer E, Perez P, Trédan G. Adversarial frontier stitching for remote neural network watermarking[J]. Neural Computing and Applications, 2020, 32(13): 9233-9244

[26]Nagai Y, Uchida Y, Sakazawa S, et al. Digital watermarking for deep neural networks[J]. International Journal of Multimedia Information Retrieval, 2018, 7(1): 3-16

[27]Zhang Jialong, Gu Zhongshu, Jang Jiayong, et al. Protecting intellectual property of deep neural networks with watermarking[C/OL] //Proc of the 2018 on Asia Conf on Computer and Communications Security. 2018 [2021-02-08]. https://dl.acm.org/doi/abs/10.1145/3196494.3196550

[28]Lukas N, Zhang Yuxuan, Kerschbaum F. Deep neural network fingerprinting by conferrable adversarial examples[J]. arXiv preprint, arXiv:1912.00888, 2019

[29]Wang Tianhao, Kerschbaum F. Attacks on digital watermarks for deep neural networks[C] //Proc of IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2019: 2622-2626

[30]Wei Lifei, Chen Congcong, Zhang Lei, et al. Security issues and privacy protection of machine learning[J]. Journal of Computer Research and Development, 2020, 57(10): 2066 (in Chinese)(魏立斐, 陈聪聪, 张蕾, 等. 机器学习的安全问题及隐私保护[J]. 计算机研究与发展, 2020, 57(10): 2066)

[31]Hitaj D, Mancini L V. Have you stolen my model? Evasion attacks against deep neural network watermarking techniques[J]. arXiv preprint, arXiv:1809.00615, 2018

[32]Shafieinejad M, Wang Jiaqi, Lukas N, et al. On the robustness of the backdoor-based watermarking in deep neural networks[J]. arXiv preprint, arXiv:1906.07745, 2019

[33]Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint, arXiv:1312.6199, 2013

[34]Carlini N, Wagner D. Towards evaluating the robustness of neural networks[C] //Proc of 2017 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 39-57

[35]Akcay S, Atapour-Abarghouei A, Breckon T P. Ganomaly: Semi-supervised anomaly detection via adversarial training[C] //Proc of Asian Conf on Computer Vision. Berlin: Springer, 2018: 622-637

[36]Jiang Wenqian, Hong Yang, Zhou Beitong, et al. A GAN-based anomaly detection approach for imbalanced industrial time series[J]. IEEE Access, 2019, 7: 143608-143619

[37]Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training GANs[C] //Proc of the Advances in Neural Information Processing Systems. New York: Curran Associates, Inc, 2016: 2234-2242

[38]He Kaiming, Zhang Xianyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2016: 770-778

[39]Hajian-Tilaki K. Receiver operating characteristic (ROC) curve analysis for medical diagnostic test evaluation[J]. Caspian Journal of Internal Medicine, 2013, 4(2): No.627

An Evasion Algorithm to Fool Fingerprint Detector for Deep Neural Networks

Qian Yaguan1,2, He Niannian1,2, Guo Yankai1,2, Wang Bin2, Li Hui3, Gu Zhaoquan4, Zhang Xuhong5, and Wu Chunming6

1(School of Big-data Science, Zhejiang University of Science and Technology, Hangzhou 310023) 2(Edge Intelligence Security Joint Laboratory, Hikvision & Zhejiang University of Science and Technology, Hangzhou 310023) 3(School of Cyber Engineering, Xidian University, Xi’an 710071) 4(Cyberspace Institute of Advanced Technology, Guangzhou University, Guangzhou 510006) 5(College of Control Science and Engineering, Zhejiang University, Hangzhou 310058) 6(College of Computer Science and Technology, Zhejiang University, Hangzhou 310058)

Abstract With the successful application of deep neural networks in various fields, the protection of intellectual property of models becomes more important. Since training the deep neural network requires a large number of computing resources, labor costs, and time costs, some people attempt to build a local substitute model with lower cost by stealing the target model’s parameters. For protecting the intellectual property of model owners, a model fingerprint matching method is proposed recently, which uses the fingerprint examples near the decision boundary of the model and their fingerprints to check whether their models have been stolen. The advantage of this method is that it does not affect the performance of the model itself. However, this protection strategy has some vulnerabilities, and we propose an evasion algorithm to successfully bypass the protection. The key component of our evasion algorithm is a fingerprint-example detector termed as Fingerprint-GAN. The Fingerprint-GAN first learns the feature representation and distribution of normal examples in a latent space. According to the difference of the feature representation in the latent space between the fingerprint examples and the normal examples, the Fingerprint-GAN finds the fingerprint examples. Finally, the labels of the fingerprint examples different from the predictions are returned to fool fingerprint matching method of the target model owner. Extensive experiments are conducted on CIFAR-10 and CIFAR-100. The results show that the detection rate of this algorithm for fingerprint examples can reach 95% and 94%, respectively, while the model owner’s fingerprint matching success rate is only 19%, which proves the unreliability of the model fingerprint matching protection method.

Key words intellectual property protection; model stealing; model fingerprints; generative adversarial network; evasion algorithms

收稿日期：2020-11-07；修回日期：2021-03-12

基金项目：国家重点研发计划项目(2018YFB2100400,2018YFB1800601)；国家自然科学基金项目(61902082)；浙江省重点研发计划项目(2020C01077,2021C01036,2020C01021)；之江实验室科技预研项目(2018FD0ZX01)

This work was supported by the National Key Research and Development Program of China (2018YFB2100400, 2018YFB1800601), the National Natural Science Foundation of China (61902082), the Key Research and Development Program of Zhejiang Province (2020C01077, 2021C01036, 2020C01021), and the Major Scientific Project of Zhejiang Lab (2018FD0ZX01).

通信作者：王滨(wbin2006@gmail.com)

(qianyg@yeah.net)

中图法分类号 TP309

作者简介

Qian Yaguan, born in 1976. PhD, associate professor. Member of CCF. His main research interests include deep learning, AI security and big data processing.

钱亚冠，1976年生.博士，副教授，CCF会员.主要研究方向为深度学习、人工智能安全和大数据处理.

He Niannian, born in 1995. Master candidate. Her main research interests include deep learning, AI security and big data processing.

何念念，1995年生.硕士研究生.主要研究方向为深度学习、人工智能安全和大数据处理.

Guo Yankai, born in 1993. Master candidate. His main research interests include deep learning, AI security and big data processing.

郭艳凯，1993年生.硕士研究生.主要研究方向为深度学习、人工智能安全和大数据处理.

Wang Bin, born in 1978. PhD, professor. Senior member of CCF. His main research interests include IoT security, AI security and network security.

王滨，1978年生.博士，教授，CCF高级会员.主要研究方向为物联网安全、人工智能安全和网络安全.

Li Hui, born in 1968. PhD, professor. Senior member of CCF. His main research interests include cryptography, information and coding theory, and cloud computing security.

李晖，1968年生.博士，教授.CCF高级会员，主要研究方向为密码学、信息与编码理论、云计算安全.

Gu Zhaoquan, born in 1989. PhD, professor. Member of CCF. His main research interests include wireless networks, distributed computing, big data analysis, and artificial intelligence security.

顾钊铨，1989年生.博士，教授，CCF会员.主要研究方向为无线网络、分布式计算、大数据分析和人工智能安全性.

Zhang Xuhong, born in 1988. PhD, associate professor. Member of CCF. His main research interests include AI security, data-driven software and system security, big data systems and analytics.

张旭鸿，1988年生.博士，副研究员，CCF会员.主要研究方向为人工智能安全、数据驱动软件与系统安全、大数据系统与分析.

Wu Chunming, born in 1967. PhD, professor. His main research interests include software-defined networks, reconfigurable networks, proactive network defense, network virtuali-zation and intelligent networks.

吴春明，1967年生.博士，教授.主要研究方向为软件定义的网络、可重新配置的网络、主动型网络防御、网络虚拟化和智能网络.