一种基于特征导向解耦网络结构的滤波器修剪方法

施瑞文; 李光辉; 代成龙; 张飞飞

doi:10.7544/issn1000-1239.202330085

一种基于特征导向解耦网络结构的滤波器修剪方法

1.
江南大学人工智能与计算机学院　江苏无锡　214122
2.
江苏邦融微电子有限公司　江苏昆山　215300

基金项目: 国家自然科学基金项目（62072216）；苏州市科技计划项目（SGC2021070）

详细信息

作者简介:
施瑞文: 1999年生. 硕士. 主要研究方向为模型压缩、深度学习

李光辉: 1970年生. 博士，教授，博士生导师. CCF高级会员. 主要研究方向为无线传感网、模型压缩、智能无损检测技术

代成龙: 1992年生. 讲师. 主要研究方向为脑电图处理、脑电图分析、模型压缩

张飞飞: 1982年生. 硕士. 主要研究方向为图像处理算法的硬件加速、SoC芯片设计

中图分类号: TP18
计量
- 文章访问数: 85
- HTML全文浏览量: 18
- PDF下载量: 37
出版历程
- 收稿日期: 2023-02-15
- 修回日期: 2023-10-11
- 网络出版日期: 2024-04-09
- 刊出日期: 2024-07-03

Feature-Oriented and Decoupled Network Structure Based Filter Pruning Method

1.
School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi, Jiangsu 214122
2.
Jiangsu Bangrong Microelectronics Co., Ltd., Kunshan, Jiangsu 215300

Funds: This work was supported by the National Natural Science Foundation of China（62072216）and the Science and Technology Program of Suzhou（SGC2021070）.

More Information

Author Bio:
Shi Ruiwen: born in 1999. Master. His main research interests include model compression and deep learning

Li Guanghui: born in 1970. PhD, professor and PhD supervisor. Senior member of CCF. His main research interests include wireless sensor network, model compression and intelligent nondestructive detection technology

Dai Chenglong: born in 1992. Lecturer. His main research interests include electroencephalogram processing, electroencephalogram analyzing, and model compression

Zhang Feifei: born in 1982. Master. His main research interests include the hardware acceleration implementation of image processing algorithm and SoC chip design

摘要

摘要:
现有的很多深度神经网络模型剪枝方法需要修改损失函数或在网络中嵌入额外的变量，无法直接受益于预训练网络，而且复杂化了前向推理和训练过程. 到目前为止，大部分特征导向的剪枝工作仅利用通道内信息分析滤波器的重要性，使得剪枝过程无法利用通道间的潜在联系. 针对上述问题，基于特征导向从通道间的角度考虑滤波器修剪任务，使用几何距离度量通道间的潜在相关性，将滤波器修剪定义为一个优化问题，并引入贪婪策略寻求最优解的近似解. 该方法实现了剪枝与网络、剪枝与训练的解耦，从而简化了修剪任务. 大量的实验证明了该方法对于各种网络结构都有良好的性能，例如在CIFAR-10数据集上，将VGG-16的参数量和浮点运算量分别降低了87.1%和63.7%，并且达到93.81%的高精度. 还使用轻量型网络MobileFaceNets和CASIA-WebFace数据集评估该方法的性能，结果显示使用该剪枝方法后，MobileFaceNets在参数量和浮点运算量分别降低58.0%和63.6%的情况下，在LFW上的测试精度仍然达到99.02%，而且推理精度几乎没有损失（源代码发布在：https://github.com/SSriven/FOAD）.
- 深度学习 /
- 模型压缩 /
- 模型剪枝 /
- 神经网络加速 /
- 几何距离
Abstract:
Many existing pruning methods for deep neural network models require modifying the loss function or embedding additional variables in the network, thus they can’t benefit from the pre-trained network directly, and complicate the forward inference and training process. So far, most of the feature-oriented pruning work only use the intra-channel information to analyze the importance of filters, which makes it impossible to use the potential connections among channels during the pruning process. To address these issues, we consider the feature-oriented filter pruning task from an inter-channel perspective. The proposed method uses geometric distance to measure the potential correlation among channels, defines filter pruning as an optimization problem, and applies a greedy strategy to find an approximate solution to the optimal solution. The method achieves the decoupling of pruning from network and pruning from training, thus simplifying the pruning task. Extensive experiments demonstrate that the proposed pruning method achieves high performance for various network structures, for example, on CIFAR-10 dataset, the number of parameters and floating point operations of VGG-16 are reduced by 87.1% and 63.7%, respectively, while still has an accuracy of 93.81%. We also evaluate the proposed method using MobileFaceNets, a lightweight network, on CASIA-WebFace large dataset, and the evaluation results show that, when the number of parameters and floating-point operations are reduced by 58.0% and 63.6%, respectively, MobileFaceNets achieves an accuracy of 99.02% on LFW dataset without loss of inference accuracy (The code is available at: https://github.com/SSriven/FOAD).
- deep learning /
- model compression /
- model pruning /
- neural network acceleration /
- geometric distance

HTML全文

融合机器学习与逻辑推理一直是人工智能（artificial intelligence, AI）领域长期存在且备受关注的问题. 为了克服当前机器学习方法的局限性，许多研究者倡导下一代人工智能需要将数据驱动的机器学习与知识驱动的推理（例如逻辑推理）相结合^[1]. 神经符号学习（neuro-symbolic learning，NeSy）^[2-3]和统计关系人工智能（statistical relational AI）^[4]是近年来这个方向的代表性工作，它们尝试基于一阶逻辑表示的领域知识构建神经网络结构或概率图模型. 另一方面，概率逻辑程序（probabilistic logic program，PLP）^[5]则尝试扩展一阶逻辑以容纳概率逻辑事实，从而实现概率推理.

反绎学习（abductive learning, ABL）^[6-7]是一种将机器学习模型与逻辑推理模型结合的新框架. 该框架可以同时保留双方的完整表达能力：机器学习模型将原始未标记输入数据（例如图像、文本）转换为符号表示的逻辑事实，称为伪标记（pseudo-label），这些伪标记被用作逻辑推理部分的输入. 而一阶逻辑推理模型试图对伪标记进行反绎推理（abductive reasoning），以修正逻辑事实的真值，并用于更新机器学习模型. 由于反绎学习保留了完整的逻辑推理能力，因此它可以直接利用一阶逻辑规则表示的背景知识库，并减少对大量标记数据的需求.

在现有的反绎学习方法中，根据最小化不一致性的原则，会为所有未标记样本生成相应的反绎标记（abduced label）. 具体来说，由于反绎推理是非确定性的，对于每个未标记的样本，可能存在多个反绎标记. 反绎学习基于最小化反绎标记和符号背景知识之间的不一致性的原则来选择最佳的反绎标记. 随后，这些反绎标记会被当作未标记样本的真实标记，与输入示例一起用于更新机器学习模型. 由于机器学习模型预测的伪标记可能存在错误，反绎推理也存在不确定性，因此得到的反绎标记也具有不确定性，不一定与真实标记相同.

反绎标记中可能存在不正确的标记，这可能损害机器学习模型的性能，并且很难被发现. 例如，在手写数字等式识别任务中，若将一个手写数字图片“1”错误地修改为“6”并用于训练机器学习模型. 由于这个错误标记的误导，更新后的模型可能会将很多与数字“1”相似的图片都识别为数字“6”. 这不仅会导致反绎学习的训练速度变慢，还可能使得其中的机器学习模型陷入局部最优解^[8-9]，无法收敛到最优. 由于输入的样本没有真实标记，难以发现隐藏在不确定反绎标记中的错误，这给学习带来了不少困难.

为了解决上述问题，本文定义并设计了针对反绎标记的不确定性. 由于反绎标记同时受到机器学习模型的伪标记以及逻辑推理的影响，我们同时考虑机器学习模型生成伪标记的模型不确定性以及反绎推理的推理不确定性对它的影响. 其中，模型不确定性由分类器输出的置信度（confidence）计算而来，而推理不确定性通过反绎逻辑推理得到的结果集合的大小进行估算. 基于上述反绎标记的不确定性，我们提出了一种带拒绝推理的反绎学习（abductive learning with rejection reasoning，ABL_r）方法. 该方法尝试过滤反绎学习中具有较大不确定性的反绎标记，即若遇到不确定的样本，ABL_r会拒绝反绎推理的结果并抛弃该样本. 我们在若干数据集上进行了实验，验证了本文提出的方法可以拒绝错误的反绎标记，不仅加速反绎学习训练，还能同时带来更好的性能.

1. 相关工作

神经符号学习^[2-3]提出将符号推理与神经网络相结合，以学习从环境中感知并对已感知的信息进行推理. 大多数NeSy方法采用端到端的深度神经网络来建模这一过程，其中使用符号表示的领域知识库构建神经网络结构^[2,10-11]. 然而，这类方法大多用分布式表示替代符号表示，并采用模糊算子近似逻辑推理. 因此，它们通常需要大量的标记训练数据.

PLP^[5]和统计关系学习（statistical relational learning, SRL）^[4,12] 试图在保留逻辑公式的同时为逻辑模型提供了概率语义. PLP通过扩展一阶逻辑使其能进行概率逻辑推理；SRL利用领域知识构建概率图模型结构进行统计推理. 这些方法通常需要直接的语义级别输入，难以应用于如图像等原始数据的输入.

近期，一些研究者提出了建立混合模型的想法，这些方法通常由一个用于机器学习的感知模型和一个用于逻辑推理的推理模型组成. 代表性框架包括DeepProbLog^[13]、反绎学习^[6-7]和神经语法符号模型（neural-grammar-symbolic model, NGS）^[14]. 这些方法中的感知模型负责学习将原始数据转换为原始逻辑事实，作为符号推理的输入；而推理模型则尝试基于给定的知识库推理并修改所感知到的逻辑事实的真值，以更新感知模型. 这2个系统的集成是通过反绎来实现的.

近年来，研究者提出了许多基于反绎学习的方法. ABL^[15]是第1个基于反绎学习框架实现的方法. SS-ABL^[16]将半监督学习与反绎学习结合，并成功应用于法律文书判决任务. GABL^[8]提出了在知识库为具体事实库（ground knowledge base）时的反绎策略及对应的反绎学习方法. Meta_Abd^[9]基于反绎学习，提出了同时学习机器学习模型和一阶逻辑知识库的方法. ABLSim^[17]提出使用集束搜索（beam search）结合相似度加速反绎学习中的一致性优化过程. ABL_nc^[18]提出在开放环境出现新概念时，可对反绎学习的知识库进行知识精化（knowledge refinement）. ABL-KG^[19]提出可以从大规模知识图谱中提取规则库作为反绎学习的知识库.

上述文献[8-9, 16-19]所述的反绎学习相关方法分别关注不同的问题设定，例如在知识库不完备的情况下，如何利用知识图谱或数据等作为知识库的来源. 一般而言，这些方法通过反绎推理修改标记后，会使用所有的反绎标记更新机器学习模型. 与上述方法不同，本文方法假设知识库已知，并选择性地挑选一部分反绎标记用于模型的更新，以提升训练效率和模型性能.

2. 基础知识

本文提出的方法主要基于反绎学习，下面对相关概念和基本知识进行介绍.

2.1 反绎推理

反绎推理是逻辑推理的一种基本形式，它尝试通过逻辑蕴含关系寻求一个假设，以解释观察到的现象. 为了更清晰地阐述，本文将逻辑符号表示为：“ $\wedge$ ”表示合取（逻辑与）；“ $\vee$ ”表示析取（逻辑或）； “ $\leftarrow$ ”表示蕴涵，即若“ $\leftarrow$ ”右侧的前提成立，则左侧的结论成立. 例如，考虑以下命题逻辑规则：

$草地湿\leftarrow 昨晚下雨\vee 洒水器开启 \text{，}$

(1)

$鞋子湿\leftarrow 草地湿 \text{，}\qquad\qquad\qquad\;\;$

(2)

$\qquad\;\;假\leftarrow 昨晚下雨\wedge 洒水器开启 \text{，}$

(3)

其中前2条规则（式（1）和式（2））阐明了草地和鞋子湿的原因，后一条规则（式（3））表明昨晚下雨和洒水器开启这2个命题不能同时为真. 当我们观察到鞋子湿时，式（2）表明草地湿也应该为真. 延续这个过程，根据式（1），昨晚下雨和洒水器开启都是2种可能的解释. 假如我们还观察到昨晚没有下雨，根据式（3），洒水器开启便是鞋子湿这个现象的唯一的解释. 上述例子描述了根据鞋子湿这一现象，反绎推理得到洒水器开启这一解释/假设的推理过程.

2.2 反绎学习框架

反绎学习^[6-7]是一个融合感知模型和推理模型的框架. 感知模型负责将原始输入数据 ${\boldsymbol{x}} \in \mathcal{X}$ 映射到离散符号 ${\boldsymbol{z}} \subseteq \mathcal{Z}$ ，其中 $\mathcal{X}$ 为输入空间， $\mathcal{Z}$ 为感知模型的输出空间； ${\boldsymbol{x}}$ 和 ${\boldsymbol{z}}$ 分别为输入示例和提取的符号组成的向量，其中 ${\boldsymbol{ x}} = ({x_1},{x_2}, … )$ 和 ${\boldsymbol{z}} = ({z_1},{z_2}, … )$ 分别表示 ${\boldsymbol{x}}$ 中的各个示例和相应的符号. 以手写等式识别任务为例，输入的等式图像是 ${\boldsymbol{x}}$ ，各个分割好的手写数字图像是 ${x_i}$ ；预测的等式符号序列是 ${\boldsymbol{z}}$ ，其中每个符号分别为 ${z_i}$ ；等式是否满足知识库表示为 $y = {\text{True}}$ 或 $y = {\text{False}}$ .

图 1 反绎学习框架的预测过程和训练过程

Figure 1. The predicting process and training process of abductive learning framework

下载: 全尺寸图片幻灯片

推理模型包含一个一阶逻辑规则知识库 $KB$ ，它可以接收符号序列 ${\boldsymbol{z}}$ 并通过逻辑推理得到最终输出 $y \in \mathcal{Y}$ . 例如，给定十进制整数的加法规则，当输入事实 ${\boldsymbol{z}} = (1, + ,1, = ,2)$ （记为“1+1=2”）时，推理模型将输出具体逻辑事实（ground fact） $y = {\text{True}}$ ，表示这是一个正确的等式；而当输入 ${\boldsymbol{z}}$ 为“2+9=10”时，其输出具体逻辑事实 $y = {\text{False}}$ ，表明这是一个不正确的等式. 图1（a）展示了在手写等式破解任务^[6]中预测过程的一个例子.

反绎学习的训练过程可以形式化为：给定未标记数据集 $X$ 、知识库 $KB$ 和最终期望的输出集合 $Y$ ，反绎学习旨在学习一个感知模型 $f:\mathcal{X} \mapsto \mathcal{Z}$ ，它能准确预测输入实例的标记，并且这些标记可以与 $KB$ 一起逻辑蕴涵（entail）得到 $y$ . 由于我们没有 ${\boldsymbol{z}}$ 的监督信息，因此类似于弱监督学习^[20]，我们将 ${\boldsymbol{z}}$ 称为伪标记.

反绎学习训练包括3个步骤：预测伪标记、反绎推理标记和更新模型. 首先，对输入数据 ${\boldsymbol{x}} \in X$ ，反绎学习使用感知模型 $f$ 获取预测伪标记 ${\boldsymbol{z}} = f\left( {\boldsymbol{x}} \right)$ . 然后，推理模型接收符号 ${\boldsymbol{z}}$ 并判断它们与一阶逻辑知识库 $KB$ 的一致性，若不一致，则通过反绎推理将伪标记 ${\boldsymbol{z}}$ 修改为 $\bar {\boldsymbol{z}}$ . 通常来说，存在几个与 $KB$ 一致的候选 $\bar {\boldsymbol{z}}$ . 推理模型基于最小化数据和知识库之间不一致性的原则，推理出最有可能正确的伪标记 $\bar {\boldsymbol{z}}$ . 最后，反绎学习将 $\bar {\boldsymbol{z}}$ 视为真实标记来更新感知模型，上述过程不断迭代重复. （b）展示了一个反绎学习例子，其中输入的具体事实真实标记是“2+9=11”且 $y = {\text{True}}$ . 感知模型 $f$ 预测了错误的伪标记 ${\boldsymbol{z}} =$ “2+9=10”. 反绎推理得到“2+9=11” “2+8=10” “1+9=10”等可能的结果，在最小化不一致性之后，选择 $\bar {\boldsymbol{z}} =$ “2+9=11”作为最终反绎标记并用于更新模型 $f$ .

3. 带拒绝推理的反绎学习方法ABL_r

本文提出了带拒绝推理的反绎学习方法ABL，其基本思想是在反绎学习中拒绝高不确定性的反绎标记，只用剩余较为确定的反绎标记及对应样本更新模型. 在本节，我们首先提出反绎标记的不确定性这个概念，并将其分为模型不确定性和推理不确定性，给出相应的设计. 随后介绍基于模型不确定性和推理不确定性的拒绝推理策略，该策略同时考虑反绎标记的模型不确定性和推理不确定性，并拒绝模型和推理不确定性均较高的样本. 最后介绍本文提出的ABL_r方法，该方法在反绎学习中利用了拒绝推理策略，并动态调节参数以控制拒绝样本的比例，使得训练样本数量保持在预设范围之内.

3.1 反绎标记的模型不确定性

由于反绎标记是由机器学习模型生成的伪标记修改而得，因此可以通过模型的输出计算得到反绎标记的模型不确定性. 具体而言，我们在计算模型不确定性时，用到机器学习模型输出的置信度. 机器学习模型的置信度是指模型对某个预测结果的可信程度或者预测的准确度，其取值范围为[0,1]. 在分类问题中，模型的置信度通常指模型对某个样本属于某个类别的概率估计值. 例如，对于一个二分类问题，模型对于某个样本预测其属于正类的概率为0.8，那么我们可以认为这个模型的置信度较高，因为它对预测结果比较自信. 而如果模型对于另一个样本预测其属于正类的概率为0.5，那么我们就认为这个模型的置信度比较低.

我们定义反绎标记 $\bar {\boldsymbol{z}}$ 的模型不确定性为：

${{Model Uncertainty}}\left( {\bar {\boldsymbol{z}}} \right) = 1 - \frac{1}{{\left| {\bar {\boldsymbol{z}}} \right|}}\mathop \sum \limits_{{{\bar {{z}}}_{{i}}} 为 \bar {\boldsymbol{z}}的元素} Conf\left( {{x_i},{{\bar {{z}}}_i}} \right)\text{，}$

(4)

其中， $Conf\left( {{x_i},{{\bar {{z}}}_i}} \right)$ 指的是模型 $f$ 输出的关于样本 ${x_i}$ 属于类别 ${\bar z_i}$ 的置信度， $\left| {\bar {\boldsymbol{z}}} \right|$ 是输入示例的个数. 式（4）等号右侧的 $\displaystyle\frac{1}{{\left| {\bar {\boldsymbol{z}}} \right|}}\mathop \sum \limits_{{{\bar {{z}}}_i} 为 \bar {\boldsymbol{z}}的元素} Conf\left( {{x_i},{{\bar {{z}}}_i}} \right)$ 计算的是机器学习模型对各个示例对应的反绎标记的平均置信度，若反绎标记的平均置信度越高，说明模型对对应的标记越自信，因此 ${{Model Uncertainty}}\left( {\bar {\boldsymbol{z}}} \right)$ 也越低. 通常情况下，若机器学习模型具有一定的预测能力，那么一个准确的反绎标记应该有较高的置信度以及较低的模型不确定性. 因此，可以根据模型不确定性的大小评估反绎标记的质量，并对反绎标记进行筛选，以确保反绎标记的可靠性.

3.2 反绎标记的推理不确定性

在引言中提到，反绎推理具有不确定性，推理模型可以通过逻辑推理得到若干反绎标记，因此，除了模型不确定性外，我们还可以从推理的角度描述反绎标记的不确定性，即推理不确定性. 例如，对于一个手写等式，如果现有的知识库可以反绎推理得到的反绎候选标记集合为{“1+1=2”}，由于集合内只有1个元素，说明在这种情况下，只有这个修改后的标记与知识库一致，也就是说，推理部分对推理结果的确定性非常高，因此可以直接将该标记作为反绎标记更新模型. 如果知识库反绎推理得到的反绎候选标记集合为{“1+1=2”,“1+2=3”,…}，共包含10个候选反绎标记，而在最小化不一致性时需要从中选择1个作为最终反绎标记，此时能选到样本对应真实标记的概率，与仅有1个候选标记的情况相比大大降低. 因此，我们可以通过反绎候选标记的集合的大小衡量推理部分的不确定性.

形式化地说，对一个训练样本，给定最终输出 $y$ 和知识库 $KB$ ，令 $A$ 为该样本反绎推理得到的所有与知识库一致的候选标记的集合，即 $A = \left\{ {\bar {\boldsymbol{z}}\mid KB \cup \bar {\boldsymbol{z}} \vDash y} \right\}$ ，我们可以定义反绎标记 $\bar {\boldsymbol{z}}$ 的推理不确定性为：

${ {Reasoning Uncertainty}}\left( {\bar {\boldsymbol{z}}} \right) = 1 - \frac{1}{{\left| A \right|}}\text{，}$

(5)

其中， $\left| A \right|$ 指的是该样本的反绎候选标记集合内的元素个数，而 $\displaystyle\frac{1}{{\left| A \right|}}$ 表示从集合 $A$ 中随机选1个反绎候选标记的概率. 与模型不确定性相同，推理不确定性的取值也是在[0,1]之间. 反绎推理得到的可能标记个数越多，从中能选中真实标记的概率越低，因此推理不确定性也就越高.

3.3 基于模型不确定性和推理不确定性的拒绝推理策略

在反绎学习中，我们需要同时考虑模型不确定性和推理不确定性的影响，以评估反绎推理结果的可靠性. 如果模型不确定性和推理不确定性都很低，则反绎标记是真实标记的可能性较高；如果模型不确定性和推理不确定性都较高，那么反绎结果很可能不可靠，给后续训练带来噪声，使得机器学习模型收敛速度变慢同时性能降低. 为了减少不可靠反绎标记对反绎学习的负面影响，我们需要根据反绎标记的不确定性，拒绝一部分推理得到的反绎标记.

我们设计了一种拒绝推理策略，即根据反绎标记的不确定性来决定是否接受该标记. 在这种策略中，我们根据模型不确定性和推理不确定性的程度分别定义2个阈值 ${\theta _{\text{m}}}$ 和 ${\theta _{\text{r}}}$ ，如果某个训练样本对应的反绎标记的模型不确定性和推理不确定性均大于该阈值，则将其拒绝，并将其从反绎学习本轮循环的训练数据集中移除. 阈值 ${\theta _{\text{m}}}$ 和 ${\theta _{\text{r}}}$ 的值越高，则被拒绝的样本越少，反之，其值越低，则被拒绝的样本数量越多. 具体来说，令 $\bar Z$ 为所有样本的反绎标记 $\bar {\boldsymbol{z}}$ 的集合，则需要拒绝的反绎标记集合为

$\begin{split} {\bar Z_{{\text{rej}}}} =\;& \{ \bar {\boldsymbol{z}} \in \bar Z\mid {{ModelUncertainty}}\left( {\bar {\boldsymbol{z}}} \right) > {\theta _{\text{m}}} \wedge\\ &{{ReasoningUncertainty}}\left( {\bar {\boldsymbol{z}}} \right) > {\theta _{\text{r}}}\} \text{，} \end{split}$

(6)

剩下的反绎标记用于训练，即

$\begin{split} {\bar Z_{{\text{use}}}} =\;& \bar Z \setminus {\bar Z_{{\text{rej}}}} = \{ \bar {\boldsymbol{z}} \in \bar Z\mid {{Model Uncertainty}}\left( {\bar {\boldsymbol{z}}} \right) \leqslant {\theta _{\mathrm{m}}} \vee\\ &{{Reasoning Uncertainty}}\left( {\bar {\boldsymbol{z}}} \right) \leqslant {\theta _{\mathrm{r}}}\} . \end{split}$

(7)

这个拒绝推理策略的思想是：当一个样本的模型不确定性和推理不确定性都高于对应阈值时，那么这个标记很可能是错误的或者不可靠的，因此我们拒绝该样本. 例如，考虑图1（b）中的手写等式任务，若反绎候选标记只有1个（“2+9=11”），说明推理部分的不确定性很低，这很可能是正确的标记，因此即便此时模型不确定性较高，也能用于更新模型；反之，若反绎标记的平均置信度很高（如0.9），说明模型对这个反绎标记非常自信，同样此时这很可能是正确的标记，因此即便此时推理不确定性较高，也可以相信这个伪标记；如果模型不确定性和推理不确定性都较高，此时该标记很可能包含噪声，因此拒绝该标记.

3.4 带拒绝推理的反绎学习

图2展示了带拒绝推理的反绎学习方法ABL_r的基本流程. 从图2可以看到，在反绎推理得到样本的反绎标记后，ABL_r会基于模型不确定性和推理不确定性的拒绝推理策略，来判断是否应该拒绝该反绎标记. 如果决定拒绝，那么在本轮循环暂不使用该样本；如果没有拒绝，那么将其视为真实标记更新机器学习模型.

图 2 ABL_r方法的训练过程

Figure 2. Training process of ABL_r

下载: 全尺寸图片幻灯片

在方法的具体实现中，ABL_r还引入了动态自适应阈值机制. 当训练刚开始时，通常此时机器学习模型输出的置信度较低. 如果直接将3.3节的拒绝推理策略应用于反绎学习，则大多数样本的模型不确定性都会较高，从而可能导致训练样本过少的问题. 若直接将模型不确定性阈值 ${\theta _{\text{m}}}$ 固定为一个较高的值，那么绝大部分反绎标记样本都会被接受，失去了拒绝的作用. 为了解决这个问题，ABL_r方法动态调整模型不确定性阈值 ${\theta _{\text{m}}}$ ，确保反绎样本的数量不会过少：给定训练样本的最低占比 $\rho$ ，如果根据阈值 ${\theta _{\text{m}}}$ 得到反绎标记后，其数量 $\left| {{{\bar Z}_{{\text{use}}}}} \right|$ 占总数 $\left| {\bar Z} \right|$ 的比例小于 $\rho$ ，那么将 ${\theta _{\text{m}}}$ 动态调整为能使 $\left| {{{\bar Z}_{{\text{use}}}}} \right| \geqslant \rho \left| {\bar Z} \right|$ 成立的最小阈值 ${\theta '_{\text{m}}}$ ，即 ${\theta '_{\mathrm{m}}} = \mathop {{\text{arg min}}}\limits_{{\theta _{\text{m}}}} \left| {{{\bar Z}_{{\text{use}}}}} \right|/\left| {\bar Z} \right| \geqslant \rho$ ，其中 ${\bar Z_{{\text{use}}}}$ 的定义为式（7）. 一般来说，超参数 $\rho$ 的值越大，调整后模型不确定性 ${\theta '_{\text{m}}}$ 的值越高. 通过此做法，ABL_r可以在训练开始时自动提高模型不确定性阈值 ${\theta _{\text{m}}}$ ，避免训练样本过少的问题.

ABL_r算法如算法1所示. 容易计算出，拒绝推理部分的时间复杂度为 $O\left( {\left| {\boldsymbol{z }}\right|} \right)$ ，空间复杂度为 $O\left( 1 \right)$ ，而不使用拒绝推理方法的时间和空间复杂度均为 $O\left( 1 \right)$ . 尽管采用拒绝推理导致时间复杂度增加，但得益于训练数据中噪声的减少，实际运行速度却有所提升. 值得注意的是，由于反绎学习是一个通用的框架，具有足够的灵活性，因此其中的机器学习模型 $f$ 可以是任何模型，如神经网络、决策树、随机森林等.

算法1. 带拒绝推理的反绎学习方法ABL_r.

输入：未标记数据 $X$ ，最终期望的输出 $Y$ ，知识库 $KB$ ，机器学习模型 $f$ ，阈值 ${\theta _{\text{m}}}$ ， ${\theta _{\text{r}}}$ ， $\rho$ ，迭代轮数 $T$ ；

输出：机器学习模型 $f$ .

① for $t = 1$ to $T$ do

② $Z = f\left( X \right)$ ；

③ $\bar Z = Abduce\left( {KB,Z,Y} \right)$ ；

④ ${\bar Z_{{\text{use}}}} = Filter\left( {\bar Z,{\theta _{\text{m}}},{\theta _{\text{r}}}} \right)$ ；/*根据式（7）计算*/

⑤ if $\left| {{{\bar Z}_{{\text{use}}}}} \right| < \rho \left| {\bar Z} \right|$ then

⑥ ${\bar Z_{{\text{use}}}} = Filter\left( {\bar Z,{\theta_{\text{m}}'},{\theta _{\text{r}}}} \right)$ ；/* ${\theta '_{\text{m}}}$ 为能使

$\left| {{{\bar Z}_{{\text{use}}}}} \right| \geqslant \rho \left| {\bar Z} \right|$ 成立的最小阈值*/

⑦ end if

⑧ $f = Update\left( {f,{X_{{\text{use}}}},{{\bar Z}_{{\text{use}}}}} \right)$ ；

⑨ end for

4. 实　　验

在本节中，我们通过在若干个数据集上进行实验，将本文提出的ABL_r方法与多种方法进行对比和分析，以验证本文所提出的方法的有效性.

4.1 实验数据

我们在神经符号学习领域的3个公开数据集上进行实验，包括Addition，HWF，HED. 表1提供了实验数据集的详细信息.

表 1 实验中所用数据集的基本信息

Table 1. Basic Information of the Datasets in the Experiments

数据集	训练样本数量	测试样本数量	类别数量	领域知识库
Addition	30000	10000	10	个位数加法规则
HWF	9000	2 000	13	加减乘除运算规则
HED	20000	2 000	12	多位数加法规则

下载: 导出CSV

| 显示表格

Addition^[13]数据集最初在DeepProbLog^[13]中被提出，其输入是一对MNIST图像，最终输出是它们的总和. 该数据集要求根据原始输入的手写数字图片和最终计算结果，学习一个能识别未见过手写数字的机器学习模型. 同时，我们还有关于个位数加法规则的一阶逻辑领域知识库.

HWF^[14]数据集包括手写的十进制式子以及它们的最终计算结果，如“1+4/3”. 与此同时，我们还有关于十进制数字的运算规则. 我们希望通过同时利用输入数据和领域知识，学习一个能准确识别手写数字/符号的分类器. 值得注意的是，由于原始论文中的HWF数据集包括长度为1的式子用作预训练模型，我们在实验中删除了这些式子. 因此，我们的运行结果与原文^[14]中的结果有所不同.

HED^[15]数据集源自于反绎学习^[15]论文中的手写等式破解任务. 该数据集的示例如所示，其输入包含十进制等式算术的图像，涵盖12个符号（ $0,1, \cdots , 9, + , =$ ），最终输出为其正确性标记. 此外，知识库包含关于如何进行十进制加法运算的符号规则，用于训练的等式的正确性标记（True或False）也以逻辑事实的形式提供. 与前2个数据集一样，我们希望通过同时利用数据和知识库学习一个能准确识别手写图像的分类器. 由于该任务较难，我们为每一类别提供2张带有标记的图片供模型预训练.

4.2 评价指标及基准模型

在本文研究中，由于主要目标是利用一阶逻辑领域知识库辅助学习机器学习模型，我们采用常用的评价指标准确率（accuracy）来评估机器学习模型的性能. 同时，为了验证本文方法对训练效率的影响，我们还统计了不同方法的运行时间. 在此，我们将运行时间定义为模型测试准确率达到目标值（Addition和HWF数据集为98%，HED数据集为97%）所需的时间.

我们将本文方法ABL_r与DeepProbLog^[13] ，NGS^[14]，ABL^[15]进行比较. DeepProbLog通过梯度下降方法融合概率逻辑推理和神经网络. NGS采用类似反绎的思想，将上下文无关语法作为知识库，并使用马尔可夫链蒙特卡罗采样，根据后验概率修改伪标记并更新模型. ABL通过反绎推理并最小化不一致性的思想修改标记，与ABL_r不同的是，这里的ABL没有采用拒绝推理策略.

在实验中，我们通过对训练数据进行了机器学习中广泛接受和使用的10折交叉验证来确定本文方法的超参数. 我们设定阈值 ${\theta _{\text{m}}} = 0.4,\rho = 0.8, {\theta _{\text{r}}} = 0.86$ . 所有方法均设置了30 min的限时，若30 min内没有收敛，则判定为超时. 我们在一台配置有Intel Xeon Gold 6248R CPU和Nvidia Tesla V100S GPU的服务器上进行了10次重复实验，并统计了平均值和标准差. 所有方法都共享相同的知识库和随机初始化的感知模型.

4.3 实验结果与分析

表2展示了ABL_r方法与其他对比方法在不同数据集上的准确率和训练时间对比. 可以看出，ABL_r方法在3个数据集上都取得了最高的准确率，并且相比其他方法用了更短的时间收敛.

表 2 实验中不同方法的感知准确率和训练时间

Table 2. Perception Accuracy and Training Time of Different Methods in the Experiments

评价指标	数据集	DeepProbLog	NGS	ABL	ABL_r (本文)
准确率/%	Addition	96.5±0.5	98.5±0.7	90.7±9.6	98.9±0.4
	HWF	32.2±0.6	99.5±0.3	99.7±0.1	99.9±0.1
	HED	83.7±6.4	96.7±5.4	97.0±0.2	97.5±0.1
训练时间/s	Addition	596±6	203±5	501±50	140±14
	HWF	超时	180±8	171±15	132±10
	HED	超时	606±68	608±83	557±61
注：黑体数值为最优值. “±”前后分别表示平均值和标准差.

下载: 导出CSV

| 显示表格

在Addition数据集中，4种方法都能达到90%以上的准确率. DeepProbLog能正常收敛，但却耗时最长，这是因为其对概率逻辑程序的梯度计算非常耗时. NGS具有与ABL类似的反绎思想，最终模型达到了较高的准确率，但由于其随机游走采样过程较耗时，因此比ABL_r方法花费的时间更长. ABL方法的性能较低，主要原因是有几次实验ABL陷入了局部最优且跳出较慢. 在陷入局部最优时，由于ABL将所有反绎标记用于训练，其对训练集中的部分错误反绎标记产生了过拟合，因此收敛较慢甚至偶尔一直停留在局部最优点. ABL_r方法通过拒绝部分不可靠的反绎结果，使得模型接受了较少的标记噪声，因此收敛更快且最终性能更好.

在HWF数据集的实验中，可以看到除了DeepProbLog之外的方法都收敛且达到了很高的准确率. 这是由于HWF数据集相比其他数据集更加简单，因此学习较为容易. DeepProbLog性能较低的原因主要是其推理效率太低，而HWF的知识库较为复杂，因此到达设定限时的时候，其仍在收敛过程中. 由于数据集较为简单，因此NGS，ABL，ABL_r在收敛速度上差别不大，ABL_r稍微比其他方法收敛快一些，同样说明拒绝部分样本后虽然数据集变小，但减少了错误标记的影响后反而提升了性能和速度.

HED是实验中难度最大的一个数据集，因此整体训练时间比其他任务长且最终准确率比其他任务低. 同样，我们的ABL_r方法在HED数据集上也取得了最高的准确率和最快的收敛速度. DeepProbLog在该数据集上表现欠佳，主要是由于数据集的复杂性导致模型的学习难度较大. 由于使用全部反绎标记，NGS和ABL方法也出现了过拟合错误反绎标记的问题，导致收敛较慢. ABL_r方法通过拒绝部分不可靠的反绎结果，更快地跳出局部最优，并达到更好的性能. 总体而言，ABL_r方法在这3个数据集上都表现出色，并且相比其他方法具有更好的准确率和训练效率.

4.4 消融实验分析

ABL_r方法综合考虑了模型不确定性和推理不确定性，并加入了动态自适应阈值机制. 为了深入研究这3个部分对最终效果的影响，我们设计了ABL_r方法中关于模型不确定性（model uncertainty, MU）、推理不确定性（reasoning uncertainty, RU）和动态阈值（dynamic threshold, DT）的消融实验. 在消融实验中，我们分别移除ABL_r方法的模型不确定性（w/o MU）、推理不确定性（w/o RU）和动态阈值（w/o DT）部分，以研究这3个部分对最终效果的贡献.

在消融实验中，我们比较了5种方法：

1）ABL基准方法（ABL）. 使用原始的ABL方法，即接受所有反绎标记和样本.

2）ABL_r基准方法（ABL_r）. 使用完整的ABL_r方法，即包括模型不确定性、推理不确定性和动态阈值.

3）移除模型不确定性（w/o MU）. 从ABL_r方法中移除模型不确定性部分，只保留推理不确定性和动态阈值部分.

4）移除推理不确定性（w/o RU）. 从ABL_r方法中移除推理不确定性部分，只保留模型不确定性和动态阈值部分.

5）移除动态阈值（w/o DT）. 从ABL_r方法中移除动态阈值部分，只保留模型不确定性和推理不确定性部分.

消融实验的结果如表3所示. 在本次实验中，我们统计了各种方法在测试准确率和反绎准确率2个方面的表现. 测试准确率衡量了机器学习模型在测试集上的最终预测能力，而反绎准确率则关注在第1轮中用于训练的反绎标记的准确率. 实验结果表明，与ABL方法相比，ABL_r在拒绝部分不可靠标记后，在3个数据集上的反绎准确率均有所提高，这说明我们的方法在减少错误反绎标记的比例方面取得了明显的效果. 此外，在分别去除模型不确定性和推理不确定性后，测试准确率都出现了一定程度的降低，这进一步说明，模型不确定性和推理不确定性部分对ABL_r方法的性能发挥了积极作用. 与此同时，大部分相应的反绎准确率也得到了提高，这进一步证实了拒绝样本能够提高真实标记的比例.

表 3 消融实验：不同方法的测试准确率和反绎准确率

Table 3. Ablation Study: Testing Accuracy and Abduced Accuracy of Different Methods %

准确率	数据集	ABL	ABL_r (本文)	w/o MU	w/o RU	w/o DT
测试	Addition	90.7±9.6	98.9±0.4	98.5±0.2	98.6±0.2	86.6±30.3
	HWF	99.7±0.3	99.9±0.1	99.8±0.1	99.8±0.1	99.8±0.1
	HED	97.0±0.2	97.5±0.1	97.1±0.3	82.4±20.1	84.5±24.0
反绎	Addition	56.5±13.0	59.8±6.9	61.7±6.7	55.7±8.2	57.7±18.4
	HWF	91.9±0.8	93.5±0.9	96.4±0.6	91.7±1.3	96.0±0.5
	HED	77.9±5.0	79.9±5.0	77.4±9.2	72.8±6.2	70.9±4.6
注：“±”前后分别表示平均值和标准差.

下载: 导出CSV

| 显示表格

我们还发现，在去除动态自适应阈值机制后，Addition和HED数据集的测试准确率明显下降. 经过进一步分析，我们发现这是由于在训练初期，模型输出的置信度普遍较低，从而导致大量样本被拒绝，这会使模型陷入局部最优，且性能无法得到有效提升. 这些消融实验充分说明了ABL_r方法中的3个关键部分，即模型不确定性、推理不确定性和动态自适应阈值机制，都对整体性能产生了积极的影响.

5. 总　　结

本文提出了一种反绎学习的提升方法，这个方法同时从模型不确定性和推理不确定性来衡量反绎标记的可靠性，并拒绝可能不可靠的推理结果. 实验结果表明，我们的方法能够有效地拒绝错误的反绎标记，从而加速反绎学习的训练过程，并提升机器学习模型的性能. 此外，这个方法具有良好的通用性，同样可以应用于其他基于反绎的方法. 尽管本文工作在评估反绎标记的模型不确定性和推理不确定性方面取得了一定的成功，但所采用的方法相对简单. 如何更精确地刻画反绎标记的不确定性，以便更准确地识别不可靠的反绎标记，仍是一个亟待进一步研究的问题.

作者贡献声明：黄宇轩负责提出方法、完成实验、撰写论文；姜远负责写作指导和修改审定.

图 1 根据特征通道间的几何距离贪婪地修剪滤波器

注：计算特征图每个通道之间的几何距离，若某个通道在前面的迭代中已被移除，那么就不参与后续的计算. 例如第8通道最先被移除，那么后续的通道不再与第8通道计算，后续也不会被移除，例如第0通道和第1通道.

Figure 1. Greedy pruning of the filter based on the geometric distance between feature channels

下载: 全尺寸图片幻灯片

图 2 鲁棒性分析

Figure 2. Robustness analysis

下载: 全尺寸图片幻灯片

图 3 FOAD及其变体的剪枝结果

Figure 3. Pruning results for FOAD and its variants

下载: 全尺寸图片幻灯片

图 4 超参数t和s的分析实验结果

Figure 4. Analysis experimental results of hyperparameters t and s

下载: 全尺寸图片幻灯片

表 1 VGG-16和ResNet-56在CIFAR-10数据集上的修剪结果

Table 1 Pruning Results of VGG-16 and ResNet-56 on CIFAR-10 Dataset

模型	方法	精度/%	params	params.drop/%	FLOPs	FLOPs.drop/%
VGG-16	L1^[13]（ICLR 2017）	93.40	9.69×10⁶	34.2	0.41280×10⁹	34.2
	SSS^[45]（ECCV 2018）	93.02	3.86×10⁶	73.8	0.36638×10⁹	41.6
	GAL^[46]（CPVR 2019）	93.42	2.62×10⁶	82.2	0.34379×10⁹	45.2
	FPGM^[29]（CVPR 2019）	93.54			0.41280×10⁹	34.2
	Hinge^[35]（CVPR 2020）	93.59	2.93×10⁶	80.1	0.38206×10⁹	39.1
	FOAD-O（t=1，s=0.3）	94.00	6.89×10⁶	53.2	0.39331×10⁹	37.3
	FOAD-O（t=2，s=0.4）	93.82	4.42×10⁶	70.0	0.33932×10⁹	45.9
	ThiNet^[32]（ICCV 2017）	90.76	5.30×10⁶	64.0	0.22585×10⁹	64.0
	NS^[20]（ICCV 2017）	93.80	1.69×10⁶	88.5	0.30741×10⁹	51.0
	HRank^[22]（CVPR 2020）	92.34	2.63×10⁶	82.1	0.21769×10⁹	65.3
	Di^[26]（IJCAI 2022）	93.27	2.13×10⁶	85.5	0.26788×10⁹	57.3
	FOAD-G	93.81	1.90×10⁶	87.1	0.22778×10⁹	63.7
	FOAD-O（t=3，s=0.3）	93.36	2.73×10⁶	81.5	0.24684×10⁹	60.7
	COP^[31]（IJCAI 2019）	93.31	1.06×10⁶	92.8	0.16625×10⁹	73.5
	ABCPruner^[38]（IJCAI 2020）	93.08	1.66×10⁶	88.7	0.16499×10⁹	73.7
	OTO^[37]（NeurIPS 2021）	93.30	0.81×10⁶	94.5	0.16813×10⁹	73.2
	CHIP^[25]（NeurIPS 2021）	93.18	1.87×10⁶	87.3	0.13425×10⁹	78.6
	Di^[26]（IJCAI 2022）	93.08	1.02×10⁶	93.1	0.16876×10⁹	73.1
	FOAD-G	93.41	0.74×10⁶	95.0	0.17880×10⁹	71.5
	FOAD-O（t=3，s=0.2）	93.08	2.56×10⁶	82.6	0.16562×10⁹	73.6
ResNet-56	L1^[13]（ICLR 2017）	93.06	0.59×10⁶	27.6	0.21232×10⁹	13.7
	PFA^[24]（CVPR 2018）	92.49	0.49×10⁶	40.4	0.15130×10⁹	38.5
	NISP^[47]（CVPR 2018）	93.01	0.47×10⁶	42.4	0.15868×10⁹	35.5
	GAL^[46]（CPVR 2019）	92.98	0.72×10⁶	11.8	0.16352×10⁹	37.6
	FOAD-O（t=3，s=0.2）	93.50	0.40×10⁶	51.2	0.15186×10⁹	38.3
	He^[33]（ICCV 2017）	91.80			0.12301×10⁹	50.0
	FOAD-G	93.06	0.23×10⁶	72.0	0.11809×10⁹	52.0
	FOAD-O（t=3，s=0.1）	92.59	0.38×10⁶	53.7	0.12301×10⁹	50.0
	CHIP^[25]（NeurIPS 2021）	92.05	0.23×10⁶	71.8	0.06815×10⁹	72.3
	FOAD-G	92.45	0.21×10⁶	74.4	0.07627×10⁹	69.0
	FOAD-O（t=4，s=0）	91.20	0.29×10⁶	64.6	0.07897×10⁹	67.9
	HRank^[22]（CVPR 2020）	90.72	0.26×10⁶	68.1	0.06372×10⁹	74.1
	FilterSketch^[48]（TNNLS 2021）	91.20	0.23×10⁶	71.8	0.06298×10⁹	74.4
	FOAD-G	91.34	0.15×10⁶	81.7	0.05314×10⁹	78.4
	FOAD-O（t=5，s=0）	90.38	0.24×10⁶	70.7	0.06495×10⁹	73.6
注：黑体数值表示本文方法的实验结果；“drop”表示降低.

下载: 导出CSV

表 2 VGG-16和ResNet-56在CIFAR-100数据集上的修剪结果

Table 2 Pruning Results of VGG-16 and ResNet-56 on CIFAR-100 Dataset

模型	方法	精度	params.drop	FLOPs.drop
VGG-16	PFA^[24]（CVPR 2018）	70.00	66.9	42.9
	COP^[31]（IJCAI 2019）	71.77	73.2	43.1
	DPES^[49]（2021）	67.06		19.9
	CHIP^[25]（NeurIPS 2021）	72.15	39.9	43.0
	Di^[26]（IJCAI 2022）	72.00	80.4	56.5
	FOAD-G	73.30	79.4	48.0
	FOAD-O（t=3，s=0.3）	73.21	72.9	44.0
ResNet-56	PFA^[24]（CVPR 2018）	69.22	18.5	20.6
	PFA^[24]（CVPR 2018）	68.05	26.4	33.3
	DPES^[49]（IS 2021）	57.81		16.19
	CHIP^[25]（NeurIPS 2021）	69.00	38.2	41.4
	PGMPF^[50]（AAAI 2022）	70.21		52.6
	FOAD-O（t=2，s=0.1）	71.00	43.4	42.2
注：黑体数值表示本文方法FOAD的实验结果；“drop”表示降低.

下载: 导出CSV

表 3 MobileFaceNets在CASIA-WebFace数据集上的修剪结果

Table 3 Pruning Results of MobileFaceNets on CASIA-WebFace Dataset

模型	LFW精度/%	params	params.drop/%	FLOPs	FLOPs.drop/%
MobileFaceNets	99.17	1.00×10⁶	0	0.38×10⁹	0
FOAD-O（t=1，s=0）	99.14	0.71×10⁶	29.0	0.25×10⁹	34.0
FOAD-O（t=2，s=0）	99.07	0.54×10⁶	46.0	0.18×10⁹	52.6
FOAD-O（t=3，s=0）	99.02	0.42×10⁶	58.0	0.14×10⁹	63.6
注：“drop”表示降低.

下载: 导出CSV

表 4 对比不同度量特征图相似性的方法

Table 4 Methods for Comparing the Similarity of Different Metric Feature Maps

数据集	度量方法	精度/%	params	params.drop/%	FLOPs	FLOPs.drop/%
CIFAR-10	余弦相似度	93.49	6.19×10⁶	57.9	0.29×10⁹	53.8
CIFAR-10	几何距离（本文）	93.52	6.79×10⁶	53.9	0.30×10⁹	52.3
CIFAR-100	余弦相似度	71.26	4.35×10⁶	70.5	0.20×10⁹	68.1
CIFAR-100	几何距离（本文）	71.67	4.75×10⁶	67.8	0.18×10⁹	70.8
注：黑体数值表示本文方法FOAD的实验结果；“drop”表示降低.

下载: 导出CSV

表 5 不同Batch Size对模型剪枝性能的影响分析

Table 5 Analysis of the Effect of Different Batch Sizes on Model Pruning Performance

Batch Size	精度/%	params	FLOPs
16	93.69	6.74×10⁶	0.29793×10⁹
32	93.56	6.58×10⁶	0.29200×10⁹
64	93.52	6.79×10⁶	0.29929×10⁹
128	93.48	6.89×10⁶	0.30372×10⁹
256	93.70	6.76×10⁶	0.30235×10⁹
512	93.46	6.78×10⁶	0.30125×10⁹

下载: 导出CSV

参考文献(50)

[1]	Pohlen T, Hermans A, Mathias M, et al. Full-Resolution residual networks for semantic segmentation in street scenes [C] // Proc of the 2017 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3309−3318
[2]	Dettmers T. 8-bit approximations for parallelism in deep learning[J]. arXiv preprint, arXiv: 1511.04561, 2016
[3]	Hwang K, Sung W. Fixed-point feedforward deep neural network design using weights +1, 0, and −1[C] // Proc of the 2014 IEEE Workshop on Signal Processing Systems. Piscataway, NJ: IEEE, 2014: 174−179
[4]	Courbariaux M, Bengio Y, David J. BinaryConnect: Training deep neural networks with binary weights during propagations [C] // Proc of the Annual Conf on Neural Information Processing Systems 2015. Piscataway, NJ: IEEE 2015: 3123−3131
[5]	Courbariaux M, Bengio Y. BinaryNet: Training deep neural networks with weights and activations constrained to +1 or -1 [J]. arXiv preprint, arXiv: 1602.02830, 2016
[6]	Rastegari M, Ordonez V, Redmon J, et al. XNOR-Net: ImageNet classification using binary convolutional neural networks [C] // Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 525−542
[7]	龚成,卢冶,代素蓉,等. 一种超低损失的深度神经网络量化压缩方法[J]. 软件学报,2021,32(8):2391−2407 Gong Cheng, Lu Ye, Dai Surong, et al. Ultra-low loss quantization method for deep neural network compression[J]. Journal of Software, 2021, 32(8): 2391−2407 (in Chinese)
[8]	Romero A, Ballas N, Kahou S, et al. FitNets: Hints for thin deep nets[J]. arXiv preprint, arXiv: 1412.6550, 2015
[9]	Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint, arXiv: 1503.02531, 2015
[10]	张晶,王子铭,任永功. A3C深度强化学习模型压缩及知识抽取[J]. 计算机研究与发展,2023,60(6):1373−1384 Zhang Jing, Wang Ziming, Ren Yonggong. A3C deep reinforcement learning model compression and knowledge extraction[J]. Journal of Computer Research and Development, 2023, 60(6): 1373−1384 (in Chinese)
[11]	林振元,林绍辉,姚益武,等. 多教师对比知识反演的无数据模型压缩方法[J/OL]. 计算机科学与探索,2022[2023-09-13]. http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2204107 Lin Zhenyuan, Lin Shaohui, Yao Yiwu, et al. Multi-teacher contrastive knowledge inversion for data-free distillation[J/OL]. Journal of Frontiers of Computer Science and Technology, 2022[2023-09-13]. http://fcst.ceaj.org/CN/10.3778/j.issn.1673-9418.2204107 (in Chinese)
[12]	Han Song, Mao Huizi, William J, et al. Deep compression: Compressing deep neural network with pruning, trained quantization and Huffman coding[J]. arXiv preprint, arXiv: 1510.00149, 2016
[13]	Li Hao, Kadav A, Durdanovic I, et al. Pruning filters for efficient ConvNets [C/OL] // Proc of the 5th Int Conf on Learning Representations. Berlin: Springer, 2017[2023-09-13]. https://openreview.net/forum?id=rJqFGTslg
[14]	Lin Tao, U. Stich S , Barba L, et al. Dynamic model pruning with feedback [C/OL] // Proc of the 8th Int Conf on Learning Representations. Berlin: Springer, 2020[2023-09-13]. https://openreview.net/forum?id=SJem8lSFwB
[15]	Zhu M, Gupta S. To prune, or not to prune: Exploring the efficacy of pruning for model compression [C/OL] // Proc of the 6th Int Conf on Learning Representations. Berlin: Springer, 2018[2023-09-13]. https://openreview.net/forum?id=Sy1iIDkPM
[16]	Frankle J, Carbin M. The lottery ticket hypothesis: Finding sparse, trainable neural networks [C/OL]// Proc of the 7th Int Conf on Learning Representations. Berlin: Springer, 2019[2023-09-13]. https://openreview.net/forum?id=rJl-b3RcF7
[17]	Guo Yiwen, Yao Anbang, Chen Yurong. Dynamic network surgery for efficient DNNs [C]// Proc of the Annual Conf on Neural Information Processing Systems 2016. Piscataway, NJ: IEEE, 2016: 1379−1387
[18]	Han Song, Liu Xingyu, Mao Huizi, et al. EIE: Efficient inference engine on compressed deep neural network [C] // Proc of the 43rd ACM/IEEE Annual Int Symp on Computer Architecture. Piscataway, NJ: IEEE, 2016: 243−254
[19]	He Yang, Kang Guoliang, Dong Xuanyi, et al. Soft filter pruning for accelerating deep convolutional neural networks [C] // Proc of the 27th Int Joint Conf on Artificial Intelligence. Berlin: Springer, 2018: 2234−2240
[20]	Liu Zhuang, Li Jianguo, Shen Zhiqiang, et al. Learning efficient convolutional networks through network slimming [C]// Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 2755−2763
[21]	Meng Fanxu, Cheng Hao, Li Ke, et al. Pruning filter in filter [C/OL] // Proc of the Annual Conf on Neural Information Processing Systems 2020. Piscataway, NJ: IEEE, 2020[2023-09-13]. https://proceedings.neurips.cc/paper/2020/hash/ccb1d45fb76f7c5a0bf619f979c6cf36-Abstract.html
[22]	Lin Mingbao, Ji Rongrong, Wang Yan, et al. HRank: Filter pruning using high-rank feature map [C] // Proc of the 2020 IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 1526−1535
[23]	Tang Yehui, Wang Yunhe, Xu Yixing, et al. SCOP: Scientific control for reliable neural network pruning [C/OL] // Proc of the Annual Conf on Neural Information Processing Systems 2020. Piscataway, NJ: IEEE, 2020[2023-09-13]. https://proceedings.neurips.cc/paper/2020/hash/7bcdf75ad237b8e02e301f4091fb6bc8-Abstract.html
[24]	Suau X, Zappella L, Apostoloff N, et al. Network compression using correlation analysis of layer responses [C/OL] // Proc of the 2018 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018[2023-09-13]. https://readpaper.com/pdf-annotate/note?noteId=1959569544894668800
[25]	Sui Yang, Yin Miao, Xie Yi, et al. CHIP: Channel independence-based pruning for compact neural networks [C] // Proc of the Annual Conf on Neural Information Processing Systems 2021. Piscataway, NJ: IEEE , 2021: 24604−24616
[26]	Jiang Di, Cao Yuan, Yang Qiang. On the channel pruning using graph convolution network for convolutional neural network acceleration[C] // Proc of the 21st Int Joint Conf on Artificial Intelligence. Berlin: Springer, 2022: 3107−3113
[27]	Zhuang Tao, Zhang Zhixuan, Huang Yuheng, et al. Neuron-level structured pruning using polarization regularizer [C/OL] // Proc of the Annual Conf on Neural Information Processing Systems 2020. Piscataway, NJ: IEEE, 2020[2023-09-13]. https://proceedings.neurips.cc/paper/2020/hash/703957b6dd9e3a7980e040bee50ded65-Abstract.html
[28]	You Zhonghui, Yan Kun, Ye Jinmian , et al. Gate Decorator: Global filter pruning method for accelerating deep convolutional neural networks [C] // Proc of the Annual Conf on Neural Information Processing Systems 2019. Piscataway, NJ: IEEE, 2019: 2130−2141
[29]	He Yang , Liu Ping , Wang Ziwei , et al. Filter pruning via geometric median for deep convolutional neural networks acceleration [C] // Proc of the Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4340−4349
[30]	Dubey A, Moitreya C, Ahuja N, et al. Coreset-based neural network compression [C] // Proc of the 15th European Conf Computer Vision. Piscataway, NJ: IEEE, 2018: 469−486
[31]	Wang Wenxiao, Cong Fu, Guo Jishun, et al. COP: Customized deep model compression via regularized correlation-based filter-level pruning [C] // Proc of the 28th Int Joint Conf on Artificial Intelligence. Berlin: Springer, 2019: 3785−3791
[32]	Luo Jianhao, Wu Jianxin, Lin Weiyao, et al. ThiNet: A filter level pruning method for deep neural network compression [C] // Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 5068−5076
[33]	He Yihui, Zhang Xiangyu, Sun Jian. Channel pruning for accelerating very deep neural networks [C] // Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 1398−1406
[34]	Zhuang Zhuangwei, Tan Mingkui, Zhuang Bohan, et al. Discrimination-aware channel pruning for deep neural networks [C] // Proc of the Annual Conf on Neural Information Processing Systems 2018. Piscataway, NJ: IEEE, 2018: 883−894
[35]	Li Yawei, Gu Shuhang, Mayer C, et al. Group sparsity: The hinge between filter pruning and decomposition for network compression [C] // Proc of the 2020 IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 8015−8024
[36]	Tiwari R, Bamba U, Chavan A, et al. ChipNet: Budget-aware pruning with heaviside continuous approximations [C/OL] // Proc of the 9th Int Conf on Learning Representations. Berlin: Springer, 2021[2023-09-13]. https://openreview.net/forum?id=xCxXwTzx4L1
[37]	Chen Tianyi, Ji Bo, Ding Tianyu, et al. Only train once: A one-shot neural network training and pruning framework [C] // Proc of the Annual Conf on Neural Information Processing Systems 2021. Piscataway, NJ: IEEE, 2021: 19637−19651
[38]	Lin Mingbao, Ji Rongrong, Zhang Yuxin, et al. Channel pruning via automatic structure search [C] // Proc of the 29th Int Joint Conf on Artificial Intelligence. Berlin: Springer, 2020: 673−679
[39]	Dong Xuanyi, Yang Yi. Network pruning via transformable architecture search [C] // Proc of the Annual Conf on Neural Information Processing Systems 2019. Piscataway, NJ: IEEE, 2019: 759−770
[40]	Edouard Y, Arnaud D, Matthieu C, et al. RED : Looking for redundancies for data-free structured compression of deep neural networks[J]. arXiv preprint, arXiv: 2105.14797, 2021
[41]	Liu Shiwei, Chen Tianlong, Chen Xiaohan, et al. Sparse training via boosting pruning plasticity with neuroregeneration [C] // Proc of the Annual Conf on Neural Information Processing Systems 2021. Piscataway, NJ: IEEE, 2021: 9908−9922
[42]	Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images[J/OL]. Handbook of Systemic Autoimmune Diseases, 2009[2023-09-13]. https://xueshu.baidu.com/usercenter/paper/show?paperid=c55665fb879e98e130fce77052d4c8e8&site=xueshu_se
[43]	Chen Sheng, Liu Yang, Gao Xiang, et al. MobileFaceNets: Efficient CNNs for accurate real-time face verification on mobile devices [C] // Proc of the 13th Chinese Conf on Biometric Recognition. Berlin: Springer, 2018: 428−438
[44]	Huang G, Mattar M, Berg T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments [C/OL] // Proc of the Workshop on Faces in 'Real-Life' Images: Detection, Alignment, and Recognition. 2008[2023-09-13]. https://cs.brown.edu/courses/csci1430/2011/proj4/papers/lfw.pdf
[45]	Huang Zehao, Wang Naiyan. Data-driven sparse structure selection for deep neural networks [C] // Proc of the 15th European Conf on Computer Vision. Piscataway, NJ: IEEE, 2018: 317−334
[46]	Lin Shaohui, Ji Rongrong, Yan Chenqian, et al. Towards optimal structured CNN pruning via generative adversarial learning [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 2790−2799
[47]	Yu Ruichi, Li Ang, Chen Chunfu, et al. NISP: Pruning networks using neuron importance score propagation [C] // Proc of the 2018 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 9194–9203
[48]	Lin Mingbao, Cao Liujuan, Li Shaojie, et al. Filter sketch for network pruning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(12): 7091−7100 doi: 10.1109/TNNLS.2021.3084206
[49]	Fernandes F, Yen G. Pruning deep convolutional neural net-works architectures with evolution strategy [C/OL] // Proc of the Information Sciences. Amsterdam: Elsevier, 2021[2023-09-13].https://doi.org/10.1016/j.ins.2020.11.009
[50]	Cai Linhang, An Zhulin, Yang Chuanguang, et al. Prior gradient mask guided pruning-aware fine-tuning [C/OL] // Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022[2023-09-13]. http://dx. doi.org/10.1609/aaai.v36i1.19888

施引文献(4)

期刊类型引用(2)

1.	张朋飞，程俊，张治坤，方贤进，孙笠，王杰，姜茸. 满足本地差分隐私的混合噪音感知的模糊C均值聚类算法. 电子与信息学报. 2025(03): 739-757 . 百度学术
2.	朱友文，唐聪，吴启晖，张焱. 个性化本地差分隐私机制的研究现状与展望. 南京航空航天大学学报. 2024(05): 784-800 . 百度学术