工业物联网零信任安全研究综述

王航宇; 吕飞; 程裕亮; 吕世超; 孙德刚; 孙利民

doi:10.7544/issn1000-1239.202440840

工业物联网零信任安全研究综述

王航宇^{1, 2,},
吕飞^{1, 2, ,},
程裕亮³,
吕世超^{1, 2},
孙德刚^{2, 4},
孙利民^{1, 2}

1.
中国科学院信息工程研究所　北京　100085
2.
中国科学院大学网络空间安全学院　北京　100049
3.
沈阳航空航天大学　沈阳　110136
4.
中国科学院计算机网络信息中心　北京　100083

基金项目: 北京市自然科学基金项目（L234033）

详细信息

作者简介:
王航宇: 1997年生. 博士研究生. 主要研究方向为IIoT中的访问控制和零信任安全

吕飞: 1987年生. 博士，工程师. 主要研究方向为工业物联网防护

程裕亮: 2002年生. 硕士研究生. 主要研究方向为访问控制、零信任、信息安全

吕世超: 1985年生. 博士，高级工程师. 主要研究方向为工控系统主动防御、主动监测与安全增强

孙德刚: 1970年生. 博士，教授，博士生导师. 主要研究方向为电磁泄漏防护、无线通信技术和高安全级别信息系统防护技术

孙利民: 1966年生. 博士，教授，博士生导师，CCF高级会员. 主要研究方向为工控安全、物联网安全

通讯作者:
吕飞（lvfei@iie.ac.cn）

中图分类号: TP393.08
计量
- 文章访问数: 44
- HTML全文浏览量: 6
- PDF下载量: 15
出版历程
- 收稿日期: 2024-10-30
- 修回日期: 2025-03-26
- 录用日期: 2025-04-02
- 网络出版日期: 2025-04-02

A Review of Zero Trust Security Research in Industrial Internet of Things

Wang Hangyu^{1, 2,},
Lü Fei^{1, 2, ,},
Cheng Yuliang³,
Lü Shichao^{1, 2},
Sun Degang^{2, 4},
Sun Limin^{1, 2}

1.
Institute of Information Engineering, Chinese Academy of Science, Beijing 100085
2.
School of Cyber Security, University of Chinese Academy of Sciences, Beijing 100049
3.
Shenyang Aerospace University, Shenyang 110136
4.
Computer Network Information Center, Chinese Academy of Sciences, Beijing 100083

Funds: This work was supported by Beijing Natural Science Foundation (L234033).

More Information

Author Bio:
Wang Hangyu: born in 1997. PhD candidate. His main research interests include access control and zero-trust security in IIoT

Lü Fei: born in 1987. PhD, engineer. His mian research interests include the protection of the IIoT

Cheng Yuliang: born in 2002. Master candidate. His main research interests include access control and zero-trust security and information security

Lü Shichao: born in 1985. PhD, senior engineer. His research interests include active defense, proactive monitoring, and security enhancement for ICS

Sun Degang: born in 1970. PhD, professor, PhD supervisor. His main research interests include electromagnetic leakage protection, wireless communication technology and high security level information system protection technology

Sun Limin: born in 1966. PhD, professor, PhD supervisor, senior member of CCF. His main research interests include ICS security and IoT security

摘要

摘要:
工业物联网（industrial Internet of things，IIoT）正面临着日益严峻的安全威胁，传统边界型安全模型已无法应对复杂多变的需求. 零信任作为一种新兴的安全模型，以“绝不信任，始终认证”为核心原则，逐渐受到关注. 然而，零信任在IIoT中的研究与应用仍处于起步阶段，亟需更加全面且系统的探索. 系统综述了近年来工业领域零信任的发展与应用，重点分析其核心技术与实践场景，并明确当前研究趋势和未来方向. 首先介绍了工业零信任的基本概念和原则，为后续讨论奠定理论基础. 随后，系统梳理了工业零信任架构的迁移与评估方法，并总结了身份认证、软件定义边界、微隔离、信道安全及信任评估等关键技术，这些技术构成了工业零信任的核心支撑体系. 此外，深入探讨了访问控制在零信任中的关键作用及其在权限管理中的价值. 结合IIoT的典型应用场景，进一步分析零信任在复杂环境中的实践优势，最后总结了工业零信任的现存挑战和未来发展.
- 零信任 /
- 工业物联网 /
- 身份认证 /
- 软件定义边界 /
- 微隔离 /
- 访问控制
Abstract:
The Industrial Internet of Things (IIoT) faces increasingly severe security threats, and traditional perimeter-based security models are no longer adequate to address evolving and complex demands. Zero trust, an emerging security model centered on the core principle of “never trust, always verify,” has gradually gained attention. However, the research and application of zero trust in the IIoT domain are still in their early stages, necessitating more comprehensive and systematic exploration. This paper provides a systematic review of the development and applications of zero trust in the industrial sector, with a focus on analyzing its core technologies and practical scenarios while identifying current research trends and future directions. The paper introduces the basic concepts and principles of industrial zero trust, establishing a theoretical foundation for subsequent discussions. It then systematically outlines the migration strategies and evaluation methods for industrial zero trust architectures and summarizes key technologies, including authentication, software-defined perimeters, micro-segmentation, secure communication channels, and trust evaluation, collectively forming the core supporting framework of industrial zero trust. Furthermore, this paper delves into the critical role of access control within the zero trust model and its value in fine-grained permission management. By examining typical IIoT application scenarios, the paper further explores the practical advantages of zero trust in complex environments. Finally, it identifies existing challenges in industrial zero trust and discusses potential future development directions.
- zero trust /
- IIoT /
- authentication /
- software-defined perimeter /
- micro-segmentation /
- access control

HTML全文

近年来，大规模预训练的Transformer模型已经彻底改变了人工智能领域. 受益于“预训练-微调”范式，诸如Bert^[1]、GPT系列^[2-4]、Roberta^[5]、XLNet^[6]、T5^[7]、OPT^[8] 等基于Transformer的模型架构在各种自然语言处理（NLP）任务上取得了领先的性能，包括问答、情感分类、文本分类和机器翻译等. 除了NLP任务，一些研究还将Transformer应用于计算机视觉任务^[9-10]，与传统卷积神经网络相比，表现出同等甚至更优的性能. 研究表明，基于Transformer的大模型应用正在成为数据中心中的主流应用^[11].

为了将Transformer模型应用于实际的场景，业界通常采用如图1所示的工作流程. 预训练模型的提供公司如Google等首先使用大规模数据集对Transformer模型（如Bert^[1]和GPT^[2-4]）进行预训练（步骤①）. 无监督的预训练通常需要数天到数月的时间. 具备丰富的通用知识的预训练模型被提供给应用程序开发人员，他们会以有监督的方式在私有数据集上对预训练模型进行微调（步骤②），以适应特定下游任务的需求. 微调过程通常只需要几分钟到几小时即可完成. 经过微调的特定任务模型最终部署到云端或边缘服务器（步骤④）以处理输入查询.

图 1 传统工作流和PetS 工作流对比

Figure 1. The comparison of conventional workflow and PetS workflow

下载: 全尺寸图片幻灯片

然而，这样的工作流程在多任务服务场景中面临着可扩展性差的问题. 如果GPU显存无法容纳所有被调用的任务模型，传统的服务框架必须频繁地换入换出模型，导致服务吞吐量大大降低. 此外，由于输入查询需要调用不同的模型，我们无法对其进行批处理以提高服务吞吐量^[12-14].

参数高效Transformer算法（PET）部分地解决了这些问题.PET算法在多个不同任务间共享预训练模型权重，并且仅对每个下游任务微调一小部分特定于该任务的参数^[15-19]. 这种方式可以大大减少存储开销，而模型的准确性仍然可与完整模型微调方法相媲美甚至更优.

然而，我们发现这些PET算法不能在现有的Transformer服务框架^[20-21]上高效地运行. 一方面，由于缺乏PET任务管理机制和面向PET的推理引擎，框架不得不将PET参数合并到共享模型中，按照传统的推理方式进行全模型推理. 因此，GPU内存占用没有减少. 另一方面，由于不同任务之间的权重差异和算法表示差异，无法对不同任务的查询进行批量处理，从而降低了系统的吞吐. 再者，当不同的下游任务被部署到多GPU节点时，由于不同任务被调用的频率不同，如何做多任务的负载均衡也是一个未被解决的问题.

为了充分发挥参数高效Transformer（PET）在多任务Transformer推理场景下的优势，本文提出了PetS，这是一个具有出色可扩展性和性能的多任务PET服务统一框架. 本文进行了如下几个方面的创新：

1）为了解决PET算法的碎片化问题，本文提出了针对PET算法的统一表征，将任意PET模型推理过程分解为任务无关的共享操作和任务特定的PET操作.

2）基于PET算法的统一表征，本文提出了一个高效的PET任务管理机制，使用户能够灵活注册和加载调用不同的PET任务.

3）针对PET算法的计算特性，本文提出了一个高性能的PET推理引擎（PIE），能够将不同任务的查询进行批处理，并使用共享操作和轻量级PET操作分别推理执行，大大提高了服务吞吐量. PIE支持单卡和多卡等多种推理场景.

4）为了进一步提高单实例的吞吐量，本文提出了一种协同批处理策略来调度任意输入查询（即具有不同序列长度和PET类型的查询）.

5）为了提升多实例下的负载均衡性，本文提出了一种基于PET权重热迁移的动态负载均衡机制.

为了验证PetS系统的性能，本文在边缘/台式机/服务器GPU平台上全面评估了PetS，并且涵盖了单卡和多卡的服务场景. 与传统的Transformer推理服务框架相比，PetS支持多达26倍并发Transformer任务，并分别在台式机和服务器GPU上将服务吞吐量提高了1.53倍和1.63倍. 在多卡场景下，PetS的负载均衡机制可以提升多达29%的吞吐. 因此，在多任务Transformer服务场景中，PetS展现了降低服务部署成本和提高服务质量的巨大潜力.

1. 背景介绍与研究动机

本节中主要介绍Transformer模型的背景知识以及多任务场景下Transformer模型推理服务的难点，并且讨论参数高效Transformer算法的原理和其在多任务Transformer推理场景下的挑战.

1.1 Transformer 网络架构

如所示，Transformer模型通常由多个相同的Transformer块堆叠而成. 一个标准的 Transformer 块包括3个关键组件：多头注意力层、前馈神经网络和归一化层. 对于每个块，输入是一个由 n 个向量（词元）组成的序列，表示为 ${\boldsymbol{X}} \in {\mathbb{R}}{^{n\times din}}$ ，其中n和din分别是序列长度和输入特征维度. 3个线性投影矩阵 $\{{\boldsymbol{W}}_{\boldsymbol{Q}}, {\boldsymbol{W}}_{\boldsymbol{K}}, {\boldsymbol{W}}_{\boldsymbol{V}}\| \in {\mathbb{R}}^{din\times d}$ 将输入张量 ${\boldsymbol{X}}$ 投影到查询、键和值张量，表示为 $\{{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}\}\in {\mathbb{R}}^{n\times d}$ （图2中的步骤 ①），其中 d 表示特征向量维度. 将 Q, K, V 张量分割为多个“注意力头”（步骤 ②），分别进行基于 Softmax 的自注意力计算（步骤 ③）. 自注意力结果然后进行拼接（步骤 ④）并线性变换（步骤 ⑤）以生成多头注意力层结果. 经过跳层连接和层归一化之后，隐藏特征X被输入到前馈神经网络层，该层由2个全连接层计算（步骤 ⑥⑦）. 第1层的输出应用了 GELU 激活函数.

图 2 Transformer模型架构

Figure 2. The architecture of Transformer models

下载: 全尺寸图片幻灯片

Transformer模型中，一个块的输出作为下一个块的输入. 在最后一个块之上，通常会有一个分类层（Bert模型）或者语言模型头（GPT模型），为特定的下游任务生成最终结果.

1.2 多任务Transformer 处理

在本文关注的基于Transformer模型的智能应用场景下，“任务”被定义为依赖特定的领域知识或者输出形式的输入请求的集合. 不同的下游任务往往要求模型具有不同的领域知识或者输出形式. 由于Transformer预训练模型权重是由通用语料进行训练得到，其往往不具备应用开发者需要的特定领域知识. 如果将一个通用的模型应用于特定的场景，如智慧医疗^[22]、智慧农业^[23]、智慧金融^[24]等，开发者通常需要使用任务相关的数据集对模型进行微调以提升其回答的准确性. 此外，即使Transformer模型具有一定的“少样本学习”能力，即通过在上下文中给出一些输入-输出示例来帮助模型理解任务的输出需求，但由于模型自身能力的和上下文长度的限制，无法保证在各种复杂任务上提供较好的输出效果. 这时，通过对模型进行微调将会显著提升输出效果并且降低对上下文长度资源的消耗.

根据图1中步骤 ①②④所示的标准工作流程，每个下游任务都有自己的微调模型权重. 也就是说，存储/内存开销与部署的任务数量成正比. 在该图中，有3个任务部署到服务器上，占用了 3倍的存储空间. 更重要的是，所有模型都应该缓存在 GPU显存中，以快速响应不同的查询. 随着任务数量的增加，这种方法很容易超出 GPU 显存容量. 一个保守的方法是在调用某些任务时切换不同的模型，即从主机内存中通过PCIe加载新的模型权重. 然而，这种方法会降低系统的性能，因为模型切换开销相当大^[25-26]. 此外，如果每个任务只有有限的输入查询，则由于批处理大小（batch size）不够大，无法高效利用计算资源.

尽管之前的模型服务系统/框架（如INFaaS^[25]，Nexus^[26]，Rafiqi^[27]，Triton^[28]，Tensorflow Serving^[29]等）都强调了多任务DNN服务的能力，但实现多任务Transformer服务仍然具有挑战性. 原因主要有2个方面. 首先，Transformer通常包含大量的参数以保证其充足的知识容量. 因此，存储和内存开销比传统的DNN要大得多，由此限制了可以服务的任务数量. 其次，现有的多任务推断框架/加速器假设并发DNN之间的计算/带宽需求不同. 因此，它们将计算密集型和内存密集型模型（或层）一起执行，以充分利用硬件资源. 然而，由于不同任务之间的Transformer块是同质的，通过共享不同模型的方式几乎无法提高系统吞吐量.

1.3 参数高效Transformer网络

为了解决多任务Transformer推理时微调和存储效率问题，参数高效的Transformer，即PET（parameter-efficient Transformer）被提出. PET仅针对特定的下游任务微调一小部分参数而不是整个模型. 如图1所示，在参数高效的微调（步骤③）中，每个下游任务只需要存储少量PET的参数即可.

例如，4种具有代表性的PET，即Adapters^[16]，MaskBert^[18]，Diff-Pruning^[15]，Bitfit^[17]，每个任务只使用了额外的0.5%～7.3%的参数. 然而，它们仍然实现了与全模型微调相媲美甚至更高的准确性. 这些PET算法的介绍如下：

Adapters. Adapters提出在预训练模型的某些层之间插入轻量级的可训练的模块，而预训练权重在任务之间共享. 形式上，假设预训练模型中的线性层使用输入特征 ${\boldsymbol{X}}_{\mathrm{t}}$ 和预训练参数 $\boldsymbol{W}$ （权重）和 $\boldsymbol{b}$ （偏置）计算隐藏特征 ${\boldsymbol{Y}}_{\mathrm{t}}$ 即 ${\boldsymbol{Y}}_{\mathrm{t}}={\boldsymbol{X}}_{\mathrm{t}}\boldsymbol{W}+\boldsymbol{b}$ 那么一个典型的Adapter模块使用2个可学习的权重 ${\boldsymbol{W}}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}\in {\mathbb{R}}^{d\times {d}_{\mathrm{m}}}$ 和 ${\boldsymbol{W}}_{\mathrm{u}\mathrm{p}}\in {\mathbb{R}}^{{d}_{\mathrm{m}}\times d}$ 操作隐藏特征，即 ${\boldsymbol{Y}}_{\mathrm{t}}={\boldsymbol{Y}}_{\mathrm{t}}+\sigma \left({\boldsymbol{Y}}_{\mathrm{t}}{\boldsymbol{W}}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}\right){\boldsymbol{W}}_{\mathrm{u}\mathrm{p}}$ ，其中 $\sigma$ 是激活函数. 由于瓶颈维度 ${d}_{\mathrm{m}}\ll d$ ，Adapter模块相对于原模型的来说非常小. 每个任务仅需要约7.3%的新参数.

MaskBert. 基于Bert的彩票票证假设^[30]，MaskBert通过为每个权重矩阵学习二进制掩码来将预训练模型适应到下游任务中. 对于每个任务，预训练模型（包括分类层）被冻结，仅为每个权重矩阵学习包含约5%零元素的二进制掩码. 由于掩码是二进制的，MaskBert仅增加了约3%的任务存储开销. 对于每个线性层，计算表示为 ${\boldsymbol{Y}}_{\mathrm{t}}={\boldsymbol{X}}_{\mathrm{t}}({\boldsymbol{M}}_{\mathrm{t}}\odot \boldsymbol{W})+\boldsymbol{b}$ ，其中 ${\boldsymbol{M}}_{\mathrm{t}}$ 表示任务特定的掩码.

Diff-Pruning. Diff-Pruning也将预训练模型在任务之间共享，并且仅微调每个下游任务的一个小部分"差异". 每个任务仅增加约0.5%的新参数. 在推断过程中，这些差异参数（表示为 ${\boldsymbol{\delta }}_{\mathrm{t}}$ 和 ${\boldsymbol{b}}_{\mathrm{t}}$ ）与预训练模型合并以构建一个任务特定的模型. 因此，主要计算变为 ${\boldsymbol{Y}}_{\mathrm{t}}={\boldsymbol{X}}_{\mathrm{t}}(\boldsymbol{W}+{\boldsymbol{\delta }}_{\mathrm{t}})+(\boldsymbol{b}+{\boldsymbol{b}}_{\mathrm{t}})$ .

Bitfit. 除了任务特定的分类层外，Bitfit仅微调线性层和归一化层的偏置项. Bitfit中的线性层计算为 ${\boldsymbol{Y}}_{\mathrm{t}}={\boldsymbol{X}}_{\mathrm{t}}\boldsymbol{W}+{\boldsymbol{b}}_{\mathrm{t}}$ ，其中 ${\boldsymbol{b}}_{\mathrm{t}}$ 是唯一的针对下游任务进行微调的参数.

除了上文提到的4种PET算法，还有许多其他的PET算法变种如LoRA^[19]等，其工作流程至少与上述4种PET当中的一种类似. 文献[31]给出了目前所有PET算法的3种形式化的分类：

1）增量参数的方式. 通过引入了额外的可训练神经模块或参数，这些模块或参数在原始模型或过程中并不存在. 即原始模型参数集合为 $\theta =\{{w}_{1}, {w}_{2},… ,{w}_{N}\}$ , 通过引入新的参数即 $\mathrm{\Delta }\theta =\{{w}_{N+1},{w}_{N+2},… , {w}_{M}\}$ 来微调模型,其中 $M\ll N$ . Adapters 是这一类算法的代表之一.

2）基于指定参数更新的方式. 指定原始模型或过程中的某些参数为可训练，而其他参数则被冻结. 即将可训练的参数集合定义为 ${W}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}$ , $\mathrm{\Delta }\theta =\{{\mathrm{\Delta }w}_{1},\mathrm{\Delta }{w}_{2},… , {\mathrm{\Delta }w}_{N}\}$ , 当 ${w}_{i}$ 属于 ${W}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}}$ 时， $\mathrm{\Delta }{w}_{i}$ 表示参数 ${w}_{i}$ 微调更新后的差异值，否则 $\mathrm{\Delta }{w}_{i}=0$ .Diff-Pruning 和Bitfit 为采用这种方式的PET算法.

3）重参数化的方式. 通过变换将现有参数重新参数化为参数高效的形式. 将重参数化的参数集合定义为 ${W}_{\mathrm{r}\mathrm{e}\mathrm{p}}$ ，则将 ${W}_{\mathrm{r}\mathrm{e}\mathrm{p}}$ 集合内的参数 ${w}_{i}$ 替换为新的参数 $R\left({w}_{i}\right)=\{{u}_{1},{u}_{2},… ,{u}_{{N}_{i}}\}$ 来得到新的模型参数. 即参数差异 $\mathrm{\Delta }\theta =\left(\theta \backslash {W}_{\mathrm{r}\mathrm{e}\mathrm{p}}\right)\cup U$ , 其中集合 $U=\left\{{u}_{j}\right|\exists {w}_{i}\in W, \; {u}_{j}\in R\left({w}_{i}\right)\}$ 表示所有重参数化后的参数集. MaskBert 可以认为是 $R\left({w}_{i}\right)=\left\{0\right\}$ 的一种重参数化PET算法.

不失一般性，本文中以4种具体的PETS算法，即Adapters, MaskBert, Diff-Pruning和Bitfit为例进行讨论. 这4种算法涵盖了上述全部3类PET算法形式. 因此，其他的具体PET算法可以视作是本文讨论的4种算法的变种.

1.4 参数高效Transformer网络的推理挑战

在为T个不同任务提供服务时，PETs 将存储开销从原来的T $\times$ γ 降低到T $\times$ η + γ，其中 γ 和 η 分别表示完整模型参数和 PET 参数的数量. 由于 η $\ll$ γ，使用 PETs 可以显著减少存储开销. 然而，我们注意到 PETs 的算法优势在传统 Transformer 服务框架中很难转化为实际的加速，主要是由于以下挑战：

挑战1. 的框架无法灵活支持各种 PET 算法. 根据这些PET算法论文中展示的结果，不同的PET算法都有各自的优势任务. 4种PET 都不能作为通用选择. 也就是说，应用开发人员倾向于为其下游任务选择最佳的PET^[31-32]. 因此，服务框架必须支持多种类型的 PET. 然而，当前的框架并没有针对不同的 PET 进行优化. 它们缺乏注册和灵活管理不同 PET 的机制.

挑战2. GPU 内存占用并没有被减少. 为了使用传统推理框架来为 MaskBert 和Diff-Pruning 等 PET 提供服务，现有框架必须将特定任务的 PET 参数合并到共享模型中，然后将新构建的模型加载到推理框架中进行服务. 因此，并发任务仍然占用O(T×γ)的 GPU 内存，限制了系统的可扩展性. 虽然可以在任务之间交换模型以解决 GPU 容量问题，但由于模型交换开销，这将导致吞吐量较低^[25-26]. 因此，理想的服务框架应该更灵活、高效地管理和计算 PET.

挑战3. 众所周知，批量推理是提高 DNN 服务系统吞吐量的关键. 然而，由于 PET 参数和 PET 算法的差异，传统的框架很难对不同任务的查询进行批处理（即使这些任务可能属于同一种 PET 算法），以实现更高的吞吐量. 当每个并发任务只有少量查询需要处理时，这个问题将更加突出.

挑战4. 多任务场景下，不同任务对应着不同的模型. 那么当模型被部署到不同GPU实例的时候，不同GPU推理实例可能会因为模型被用户调用的频率不同出现负载不均衡的问题. 如何高效地实现负载均衡是一个必须被解决的难题.

2. PetS框架

为了应对上述挑战，我们提出了 PetS，一个用于高效多任务 PET 服务的统一框架. 我们首先提出了一个统一的表示方法，将所有常用的 PET算法纳入一个框架中. 基于该统一表征，我们开发了一个灵活的 PET 任务管理机制和一个专门的 PET 推理引擎 (PIE)，使得任务间和算法间的查询都可以进行批处理. 具体细节如下介绍.

2.1 PET 算法的统一表示

由于PET算法具有不同的算法表示，导致出现了“碎片化”问题. 为了解决这个问题，我们提出了一个统一的表示方法，使用任务无关操作和任务相关操作来表达PET算法，以帮助将它们纳入一个框架并实现批量推理.

如图3所示，对于每个 PET，我们将主要计算（线性层）分解为3个操作：

图 3 PET算法的统一表征

Figure 3. Unified representations of PET algorithm

下载: 全尺寸图片幻灯片

1）使用共享的预训练权重进行的稠密矩阵向量乘法操作.

2）使用共享的或任务相关的偏置向量进行的偏置向量加法操作.

3）使用任务相关的 PET 参数进行的稀疏/稠密矩阵向量乘法操作.

由于所有的 PET 共享相同的预训练权重矩阵 W ，第一个操作 ${\boldsymbol{X}}_{\mathrm{t}}$ W 可以进行批处理. 尽管涉及PET 参数的计算无法在 PET 之间进行批处理，但它只需要轻量级的计算，开销比较小.

该算法的统一表示基于这样一个前提，即根据1.3节对PET算法的3种分类定义得出，所有PET微调后的模型参数为 ${\theta }'=g(\theta ,\mathrm{\Delta }\theta )$ ，其中 $\mathrm{\Delta }\theta$ 为PET算法引入的模型参数，函数 $g$ 将修改融入原始参数 $\theta$ 的变换操作. 因此，对于多任务PET推理，即 $Y=f({\{\theta }_{1}', {\theta }_{2}',{… ,\theta }_{n}'\}，X),$ 其中函数 $f$ 为Transformer 的推理函数， ${\{\theta }_{1}',{\theta }_{2}',{… ,\theta }_{n}'\}$ 表示 $n$ 个不同的模型， $X$ 为输入请求集合， $Y$ 为输出集合. 我们希望其可以转换为 $Y=A\times f\left(\theta ,X\right)+ B\times f\left({\{\mathrm{\Delta }\theta }_{1}',{\mathrm{\Delta }\theta }_{2}',{… ,\mathrm{\Delta }\theta }_{n}'\}，X\right)$ , 其中 $A,B$ 为线性组合参数. 该转换的成立需要满足2个数学性质，即：

性质1. PET参数变换操作 $g\left(\theta ,\mathrm{\Delta }\theta \right)$ 为线性组合函数，即 $g\left(\theta ,\mathrm{\Delta }\theta \right)=A\times \theta +B\times \mathrm{\Delta }\theta$ .

性质2. 推理函数 $f$ 对参数 $\theta$ 满足线性，即 $f(A\times \theta + B\times \mathrm{\Delta }\theta ,X)=A\times f\left(\theta ,X\right)+B\times f(\mathrm{\Delta }\theta ,X)$ .

其中性质2在整个模型的视角下较难以达到. 但是由于PET算法仅仅改变模型的线性层（全连接层），如果我们以逐层推理的视角来看，性质2在全连接层的计算过程中是可以满足的. 对于性质1，采用增量参数式算法（如Adapters, Bitfit）和指定参数更新的PET算法（如Diff-Pruning）是可以直接满足的. 并且线性参数 $A,B=1$ ，对于重参数式算法如MaskBert，可以通过引入额外的参数预处理，将重参数化变换转换为指定参数更新变换.

如所示，对于 MaskBert，我们使用等效的转换： ${\boldsymbol{M}}_{\mathrm{t}}\odot \boldsymbol{W}=(1-{\bar{\boldsymbol{M}}}_{\mathrm{t}}) \odot \boldsymbol{W}$ ，其中 ${\bar{\boldsymbol{M}}}_{\mathrm{t}}$ 表示二进制掩码 ${\boldsymbol{M}}_{t}$ 的按位反转. 因此，原始的矩阵向量乘法操作转换为 ${\boldsymbol{X}}_{\mathrm{t}}\boldsymbol{W}-{\boldsymbol{X}}_{\mathrm{t}}(\boldsymbol{W}\odot {\bar{\boldsymbol{M}}}_{\mathrm{t}})$ .W ⊙ ${\bar{\boldsymbol{M}}}_{\mathrm{t}}$ 可以被视为类似于 Diff-Pruning 的稀疏权重差异. 由于 ${\boldsymbol{\delta }}_{\mathrm{t}}$ 和 $\boldsymbol{W}\odot {\bar{\boldsymbol{M}}}_{\mathrm{t}}$ 都是高稀疏度的稀疏矩阵（通常为 95% ~99.5% 的稀疏度），这些 PET 操作可以使用稀疏算子高效地计算. 考虑到关于偏置项的向量加法操作只有很小的开销，我们主要关注操作1）和操作3），即稠密和稀疏的矩阵向量乘法操作.

统一的表示带来了2个主要的优势：首先，不论 PET 类型如何，不同任务的查询可以在操作1）中一起进行批处理；其次，这种统一的表示简化了 PET 任务的管理. 每个任务可以通过识别其共享模型标签、PET 类型和 PET 参数进行注册. 推理引擎可以以统一的方式加载这些 PET.

2.2 PET 推理框架设计

基于统一表示，我们提出了 PetS 服务框架来支持 PET 任务的管理和服务. 图4展示了 PetS 框架的概览. PetS 具有3个主要组件：任务管理器、参数仓库和 PET 推理流水线.PetS 的工作流程如下：框架首先注册由开发者提交的 PET 任务（❶）. 对于每个 PET 任务，开发者需要提供预训练模型标签（如 bert-base-cased）、PET 参数（以压缩格式）和 PET 类型（例如 MaskBert）. 任务管理器注册 PET 任务，为每个提交的任务分配一个唯一的任务ID（❷）. PET 参数和预加载的共享模型参数都存储在参数仓库中（❸）. 注册后，PET 推理引擎（PIE）负责通过优化的 PET 推理流水线（❺）处理输入查询（❹）.

图 4 PetS 框架概览

Figure 4. Overview of PetS framework

下载: 全尺寸图片幻灯片

2.2.1 PET任务管理

PetS 的一个关键特性是灵活高效的 PET 任务管理机制. 这个机制主要由任务注册和任务加载模块提供.

任务注册：任务注册模块根据用户提供的信息注册 PET 任务，其中包括共享模型、任务特定参数和 PET 类型. 每个任务与其对应的预训练模型和支持的 PET 类型绑定，形成一个三元组〈任务ID，共享模型标签，PET类型〉，其中任务ID是用于唯一标识每个 PET 任务的标识符. 三元组以任务ID作为键，〈共享模型标签，PET类型〉对作为值. 因此，可以通过查询的任务ID索引每个任务的元数据.PET 任务一旦完成注册，其 PET 参数将存储在参数仓库中.

任务加载：在推理引擎调用 PET 任务之前，任务加载模块首先加载共享模型参数. 否则，任务加载器根据每个调用任务的任务ID在参数仓库中索引并获取 PET 参数. 考虑到 PET 参数的大小较小且共享模型只有一套，所有的模型参数可以缓存到 GPU 显存中以便快速调用.

2.2.2 PET推理流水线

PetS 框架的核心是 PET 推理流水线，它通过包括预处理、批处理调度和 PET 推理3个流水线步骤来处理查询.

预处理：预处理模块分析输入的查询数据并对其进行格式化，以便进行下一个查询批处理步骤. 首先，预处理根据共享模型标签，对输入数据进行分类. 接着提取每个查询的元数据，如调用任务的 ID、序列长度、PET 类型等. 然后根据提取的元数据执行一些初步的数据预处理操作，例如对相同 PET 任务的查询进行分组. 最后，将预处理后的输入查询与提取的元数据一起根据目标共享模型分派到不同的队列中，以进行进一步的调度.

批处理调度：如前所述，批处理是提高系统吞吐量的有效方法. 尽管 PetS 基于算法的统一表示来支持跨任务和跨算法的批处理，但是由于 PET 类型和序列长度上存在异构性，仍然会影响批处理的效果. 批处理调度器模块用于克服输入的异构性带来的挑战.

2.2.3 PET推理引擎

PIE 工作流程：批处理查询最终被传入 PET 推理引擎（PIE）. 图5展示了 PIE 的基本工作流程. 在图中，我们使用不同的颜色表示批次中查询的 PET 类型. 例如，任务 0 属于 MaskBert，而任务 2，4 属于 Diff-Pruning. PIE 按以下方式开始每个 Transformer层的计算： PIE 使用所有输入张量和共享权重W执行 GEMM 批处理计算（❶）. PIE通过在查找表中搜索其 Task_id，获取每个查询的 PET_type 属性. 批处理后的输入也根据任务 ID 切割为几个小批次（任务内组批）（❷）. 然后，PIE 根据获取的 PET 类型获取 PET 算子（❸）和 PET 参数（❹）. PIE 按顺序在每个切片的小批次上执行 PET运算. 这些 PET 算子还负责将 PET 结果合并到共享输出中（❺）. 需要注意的是，PIE 还需要执行其他操作（如自注意力算子等），但为了陈述方便，这些操作在图中未显示.

图 5 PET推理引擎概览

Figure 5. Overview of PET inference engine

下载: 全尺寸图片幻灯片

PET 运算符库：根据图3中的统一表示，PET 任务依赖于不同的 PET 操作. MaskBert和 Diff-Pruning 涉及稀疏矩阵乘法，因为它们的 PET 参数具有高度稀疏性. Adapter 执行轻量级的密集矩阵乘法算子. Bitfit只需要一个向量加法操作. 因此，PIE 提供了一个算子库，其中包含高性能的稠密和稀疏算子的实现. 如果其他新兴的 PET 算法可以适用于统一表示，开发者也可以为其实现新的 PET 操作.

PET 任务调度器：PET任务调度涉及2个方面，一个是针对每个GPU实例的：在每个层的推理过程中，不同任务的 PET 操作之间没有数据依赖关系，因此可以并行运行. 给定系统允许的并行性（例如 GPU 上的 CUDA 流的数量），PET任务调度器尽可能地利用并行性来调度 PET 操作. 另一个方面是针对多GPU实例场景的：PET任务调度器通过PET参数动态热迁移的方式在多个GPU实例之间实现负载均衡. 这些调度策略将在后文中进行详细介绍.

2.3 系统优化策略

2.3.1 协同批处理调度

在实际场景中，针对文本输入进行处理的Transformer模型（对于采用图像^[10]等作为输入的Transformer模型，本文不作探讨），其输入查询通常具有可变的序列长度（如5~500^[12]）. 如果我们将短的查询输入和长查询输入进行批处理，那么短的查询就必须进行零填充（zero padding），导致了无用的计算. 现有框架如 TurboTransformers^[12]已经在Bert任务上提出这个问题的优化解决方案. 然而，对于 PetS，我们不仅需要考虑共享操作，还要考虑 PET 操作. 因此，我们提出了一种协同批处理（coordinated batching）策略，在批处理过程中协调这2个部分.

问题定义. 假设有R个查询，即 $Q= \{{x}_{0},{x}_{1}, …, {x}_{R-1}\}$ ，涉及T个不同的任务. 我们将查询分成M个批次. 对于每个批次，我们用 α[N][L] 表示批处理 N 个查询的共享模型延迟，其中最大长度为 L. 同时，一个 PET 操作符需要 $\beta [pt][n][l]$ （单位为s）来处理 n 个查询的 PET 项，其中 $pt$ 用来索引不同的PET_type，l是这 n 个查询的最大长度. 执行延迟可以估计为

$Batc{h}_{Latency\left({B}_{i}\right)}= \alpha \left[{N}_{i}\right]\left[{L}_{i}\right]+\displaystyle\sum\limits_{j=0}^{{t}_{i}-1}\beta [p{t}_{ij}][{n}_{ij}][{l}_{ij}] ,$

(1)

以上公式中，我们用 ${B}_{i}$ 表示第 i 个批次，并假设批次 i 中有 ${t}_{i}$ 个不同的任务. 对于批次 i中的第j个任务，有 $n{\text{}}_{ij}$ 个查询形成一个小批次，由索引为 $p{t}_{ij}$ 的 PET 操作符处理. 这 ${n}_{ij}$ 个查询的最长序列长度为 ${l}_{ij}$ . 由于所有的M个批次，即 $\mathcal{B}=\{{B}_{0},{B}_{1}, . ..,{B}_{M-1}\}$ 是连续执行的，我们可以进一步估计总延迟

$\begin{split} Tota{l}_{Latency\left(\mathcal{B}\right)}=\;& \displaystyle\sum\limits_{i=0}^{M-1}Batch\_Latency\left({B}_{i}\right) =\\ &\displaystyle\sum\limits_{i=0}^{M-1}\alpha \left[{N}_{i}\right]\left[{L}_{i}\right]+\displaystyle\sum\limits_{i=0}^{M-1}\displaystyle\sum\limits_{j=0}^{{t}_{i}-1}\beta [p{t}_{ij}][{n}_{ij}][{l}_{ij}] , \end{split}$

(2)

总延迟由共享操作和 PET 操作共同决定. 为了协调这2个部分，我们提出了一个2步的协同批处理策略. 如图6所示，在第1步中，我们使用PET算子的性能模型，即β模型为每个任务生成“任务内批量”（mini-batches）. 在第2步中，通过将这些任务内批量在任务之间进行组合，生成“任务间批量”（macro-batches），这一步主要用到共享算子的性能模型，即α 模型. 在2个步骤中，我们对输入查询按长度进行排序，并使用动态规划来找到最佳切分位置.

图 6 协同批处理策略

Figure 6. Coordinated batching strategy

下载: 全尺寸图片幻灯片

首先，如算法1所示，调度算法将具有相同任务 ID 的查询进行聚类并按序列长度进行排序. 在算法1中，我们使用 state[i] 来记录在批处理第i 个查询时 PET 操作的最小延迟. 我们使用 split_idx_list 来记录切分位置. 以下公式展示了 Bellman 方程：

$state\left[i\right]=\underset{0 < j\le i}{\mathrm{min}}\left(state\right[j-1] +\beta [p{t}_{ij}\left]\right[i-j+1\left]\right[{l}_{ij}\left]\right) ,$

(3)

根据这个Bellman方程使用动态规划算法，将每个任务的查询分成mini-batches.

算法1. 组内批处理策略.

输入：任务数量T，队列 $Q=\{{X}_{0},{X}_{1},… ,{X}_{T}\}$ PET算子延迟模型 $\beta$ ;

输出：组合后的mini-batches.

① for i ← 0 untilT

② 　建立动态规划状态向量 state[ ${n}_{i}+1$ ], state[0]=0;

③ 　根据 ${X}_{i}$ 中请求的长度进行升序排序;

④ 　建立split_idx_list[ ${n}_{i}$ +1],pt=get_pet_type(i);

⑤ 　forj← 1 to ${n}_{i}$ ; min_cost = INF:

⑥ 　　for $k$ ← 1 to $j$

⑦ 　　　 $tmp=state[k-1] +\beta [pt][j-$ $k+1][{X}_{i}[j].len])$ ;

⑧ 　　　if $tmp$ < min_cost

⑨ 　　　　min_cost = tmp.split_idx = $k-1$ ;

⑩ 　　　end if

⑪ 　　end for

⑫ 　end for

⑬ 　state[j]=min_cost, split_idx_list[j]=split_idx;

⑭ end for

⑮ 根据 $split\_idx\_list$ 将所有输入请求切分到 mini-batches;

⑯ 返回mini-batches.

再如算法2所示，Bellman方程只考虑共享算子，其延迟由 $\alpha$ 模型估计. 算法2不是调度单个查询，而是调度mini-batches

$state\left[i\right]=\underset{0 < j\le i}{\mathrm{min}}(state[j-1] +\alpha [batch\_size][[{L}_{j}]) .$

其中state[i]记录批处理第1个 i 个 mini-batch 的最小延迟. ${L}_{j}$ 表示第j个mini-batch的最大序列长度. batch_size 表示从 mini-batch i 到j的总查询数. 通过动态规划的作用，将mini-batches分配给多个macro-batches.

算法2. 组间批处理策略.

输入：mini-batches, 共享算子性能模型 $\alpha$ ;

输出：组合后的macro-batches.

① 根据batch内最长的序列长度对mini-batches 排序；

② 建立状态向量 $state\left[\left|MiB\right|+1\right]$ , $state\left[0\right]=0$ ；

③ 建立 $sum\left[\left|MiB\right|+1\right],sum\left[i\right]$ 记录了前 $i$ 个 mini-batches的总query数量；

④ for i ← $1$ to $\left|mini-batches\right|;min\_cost=INF$

⑤ 　for j ←1 to i

⑥ 　　 $bs=sum\left[i\right]-sum[j-1];$

⑦ 　　 $tmp=state[j-1]+$ $\alpha ([bs][MiB[i].max\_seq\_len])$ ；

⑧ 　　if ( $tmp < min\_cost$ ):

⑨ 　　　 $min\_cost=tmp,split\_idx=j-1$ ;

⑩ 　　end if

⑪ 　end for

⑫ 　 $state\left[i\right]=min\_cost,split\_idx\_list=split\_idx;$

⑬ end for

⑭ 根据 $split\_idx\_list$ 将输入mini-batches切分到 macro-batches;

⑮ 返回macro-batches.

2.3.2 多实例负载均衡调度

在多GPU场景下，不同GPU实例会加载共享的模型权重以及不同的PET任务. 然而，由于不同下游任务在一段时间内可能会存在被调用频次不同的问题，可能会引起不同GPU实例间的负载不均衡的问题. 对于一些实例可能会过载，影响服务质量，而另一些实例可能会面临空转的问题，造成资源的浪费. 为了缓解这个问题，本文结合PET算法的特性，提出了基于PET热迁移的负载均衡策略.

如图7所示，对于不同的GPU实例，都有一个输入队列来记录不同任务的负载情况. 注意输入队列是一个虚拟的概念，只是用于记录的是一段时间窗口内的所有Query输入，而不是说在某个时间节点下该GPU实例的输入情况. 高负载GPU实例中将一些任务迁移到低负载实例中来提升均衡性. 由于PET参数量非常少，这样的迁移是高效的.

图 7 基于PET热迁移的负载均衡

Figure 7. Load-balancing based on PET heat migration

下载: 全尺寸图片幻灯片

如算法3所示，本文提出一个贪心的算法来求解如何调度PET的分布使系统达到一个尽可能的负载均衡的状态. 算法分多轮迭代，在每轮迭代中，算法统计每个GPU实例中任务被调用的总次数（第③行），然后进行排序（第④行）. 接着尝试将最高负载的GPU实例中的任务迁移到最低负载的GPU实例中（第⑥行），并且检查这个操作是否使得调度后的最大调用次数差距减少（第⑧行）. 重复这个过程直到无法继续减少这个差值为止，并且输出最终的任务映射关系. 根据这个映射关系，PetS会启动PET迁移程序，进行最终的PET权重的迁移. 这个负载均衡的过程可以设定固定的频率（比如每分钟执行一次）来定期执行，以减少迁移对总体性能的负面影响.

算法3. 基于PET动态迁移的负载均衡策略.

输入：GPU实例数 $N$ ，所有GPU实例中的PET任务映射集合 $M=\{{T}_{0},{T}_{1},… ,{T}_{N-1}\}$ , 其中 ${T}_{i}= \{{t}_{0}^{i},{t}_{1}^{i},… {t}_{{n}_{i}-1}^{i}\}$ 表示第 $i$ 个GPU实例中 ${n}_{i}$ 个任务在一定时间窗口内被调用的次数;

输出：负载均衡后的任务映射集合.

① $\mathrm{\delta }=INF;$ /*实例中任务调用次数最大差值*/

② while $\mathrm{T}\mathrm{r}\mathrm{u}\mathrm{e}$

③ 　统计每个GPU实例中总的任务调用次数 $X=\left\{{X}_{0},{X}_{1},… {X}_{N-1}\right\}$ , ${X}_{i}=\displaystyle\sum\limits_{j=0}^{{n}_{i}-1}{t}_{j}^{i}$ ;

④ 　对 $X$ 进行升序排序得到 $\{{X}_{0}',{X}_{1}',… {,X}_{N-1}'\}$ ;

⑤ 　 ${\delta }'={X}_{N-1}'-{X}_{0}'$ ;

⑥ 　取出 ${X}_{N-1}'$ 对应的任务队列中调用次数最低的任务，放到 ${X}_{0}'$ 对应的任务队列中;

⑦ 　重新统计每个GPU实例中的总任务调用次数，排序得到 $\{{X}_{0}'',{X}_{1}'',… ,{X}_{N-1}''\}$ ;

⑧ 　 $\mathrm{\delta }''={X}_{N-1}''-{X}_{0}''$ ; /*计算调度后的最大任务调用次数差别*/

⑨ 　if ${\delta }''\ge \delta '$ /*无法调度到更优，调度终止*/

⑩ 　　返回上一次调度结果;

⑪ 　else

⑫ 　　continue; /*继续调度*/

⑬ 　end if

⑭ end while

另一个值得注意的问题是，算法3是根据一定的间隔来进行多轮的负载均衡调度. 对于固定输入分布的场景，通过设置固定间隔的方式就可以达到比较理想的效果. 但是对输入请求的分布存在较大变化的场景，固定的迁移间隔可能并不能达到最优的效果. 为了应对这个问题，可以考虑引入一个简单的策略实现动态迁移频率调整.

对于不同的GPU实例，我们首先定义其平均负载 $L$ ，即一段时间内每个GPU实例的任务队列的平均长度. 我们将系统的负载不均衡程度 $\phi$ 定义为最低平均负载和最高平均负载的比值即 $\phi =\dfrac{{L}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{L}_{\mathrm{m}\mathrm{a}\mathrm{x}}}$ . 当 $\phi$ 值越接近1时说明负载均衡较好. 越接近0时说明负载均衡越差. 在每次迁移前对比 $\phi$ 值与允许的最差不均衡阈值 $\theta$ ，若 $\phi < \theta$ 则需要增加迁移频率来提升负载均衡，即减少迁移间隔. 新的迁移间隔 ${\phi }'=\mathrm{max}\left({\phi }_{\mathrm{m}\mathrm{i}\mathrm{n}},\frac{\phi }{2}\right)$ ，其中 ${\phi }_{\mathrm{m}\mathrm{i}\mathrm{n}}$ 为迁移间隔的最小值. 若 $\phi \ge \theta$ 则说明目前的负载均衡情况较好，可以适当增加迁移间隔来降低迁移开销. 即 ${\phi }'=\mathrm{m}\mathrm{a}\mathrm{x}(\phi +\mathrm{\Delta }\phi ,{\phi }_{\mathrm{m}\mathrm{a}\mathrm{x}})$ ，其中 $\mathrm{\Delta }\phi$ 为每次调整间隔的增量， ${\phi }_{\mathrm{m}\mathrm{a}\mathrm{x}}$ 为最大允许的迁移间隔.

2.4 PetS框架实现

PetS框架分为前端和后端，我们使用 Python 实现 PetS的前端，用于描述共享模型任务管理，并使用 C++实现后端进行Query调度和推理服务.

推理引擎：理论上PetS可以将与 HuggingFace Transformers 库兼容的推理框架作为后端引擎进行集成，例如 TurboTransformers^[12]，LightSeq^[21]等. 这些框架需要进行修改以支持 PET 算子和 PET 任务调度器. 本文中，PetS 使用基于 TurboTransformers实现的后端推理引擎 .

稀疏 PET 算子：PetS利用高性能的稀疏矩阵乘法实现稀疏 PET 算子^[32].

3. 实验验证

3.1 实验设置

共享模型：为了验证PetS的性能，我们选择 Bert-base，Bert-large， DistilBert这3种Transformer模型来进行测试. 其配置如表1所示：

表 1 共享模型的配置参数

Table 1. Configuration Parameters of Shared Model

网络类型	层数	Head数	隐层长度	中间层长度	参数总量/M
DistillBert	6	12	768	3072	66
Bert-base	12	12	768	3072	110
Bert-large	24	16	1024	4096	340

下载: 导出CSV

| 显示表格

PET 任务： PetS 目前支持的4种不同的PET算法. 用于测试的PET算法的配置如表2所示. Adapter算法的Bottleneck层维度设置为64，MaskBert和Diff-Pruning 的稀疏度分别设置为95%和99.5%. 这些参数设置符合原论文中的默认配置.

表 2 PET 配置

Table 2. PET Configuration

PET 类型	配置	主要PET参数
Adapter	Bottleneck = 64	${\boldsymbol{W}}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}，{\boldsymbol{W}}_{\mathrm{u}\mathrm{p}}$
MaskBert	95%稀疏	二值化mask
Diff-Pruning	99.5%稀疏	稀疏的PET权重矩阵
Bitfit	N/A	线性层/归一化层和分类层的偏置项

下载: 导出CSV

| 显示表格

硬件平台：我们在边缘/桌面/服务器平台上评估 PetS，即 Jetson TX2（8GB 内存，由 CPU 和GPU 共享）、GTX-1080Ti-11GB（Intel Xeon E5-2690 CPU）和 Tesla-V100-32GB （Intel Xeon Golden 5220 CPU, 双CPU）. V100 平台安装了CUDA-10.1， 1080Ti 平台安装了CUDA-11.3.TX2 平台刷写了Jetpack 4.4.1，其中包含CUDA-10.2.

3.2 主要结果

3.2.1 最大支持的任务数

首先，我们通过比较能够支持的最大任务数来展示 PetS 的出色可扩展性，并且与传统的顺序服务系统（sequential serving，SeqS）进行对比. 在 SeqS 中，每个任务都加载完整模型的副本，而 PetS则通过处理轻量级的 PET 任务来高效支持多任务.

对于每个平台，我们通过如下方式测试其最大支持的任务数：首先系统会加载T个任务（对于 PetS，每个任务属于一个随机的 PET 类型），然后测试系统是否能够处理 32 个随机生成的Query（每个查询长度为 128）. 如果没有内存溢出（out-of-memory，OOM）问题，我们认为系统至少可以支持T个任务. 我们不断增加T以测试极限.

表3中展示了不同模型在不同平台上使用SeqS和PetS这2种不同框架进行推理支持的最大任务数. 与传统系统（这里我们以 Turbo-Transformers 作为代表性基线）相比，PetS 支持的并发任务数量增加了 4倍（TX2 上的 Bert-large）到 26倍（V100 上的 DistillBert）. 这主要是因为采用的共享权重的推理方式可以极大节省推理的显存开销. 因此，在将多个基于 Transformer 的应用部署到从边缘计算到云计算的各种场景时，PetS 可以大大节省硬件成本. 此外，即使调用了数百到数千个任务，它也避免了模型换入换出的低效率问题.

表 3 支持的任务数

Table 3. Supported Task Numbers

平台	模型	DistillBert	Bert-base	Bert-large
平台	模型	SeqS/PetS	SeqS/PetS	SeqS/PetS
Jetson TX2	任务数	34/504	17/180	3/12
GTX1080Ti		56/1336	28/588	7/126
Tesla-V100		170/4344	85/2164	25/560

下载: 导出CSV

| 显示表格

3.2.2 吞吐量提升

PetS 通过统一的表示和专门的 PET 推理引擎（PIE）实现了不同任务的统一批处理. 因此，我们评估了 PetS 在不同场景下的吞吐量（以每秒查询数（queries-per-second, QPS）表示）. 我们在 TX2，1080 Ti ， V100 平台上加载了4~32，16~64，32~128 个随机任务. 对于每个任务，我们生成具有3种固定形状的查询. 具有相同形状的所有查询一起执行为一个批次. 我们采用 TurboTransformers 运行单个任务作为基准. 如图8所示，在 1080 Ti 和 V100 平台上，与单任务服务基线相比，PetS 的吞吐量提高了最高 1.87倍和 1.86倍，平均提高了 1.53倍和 1.63倍 . 我们注意到，在 TX2 上，PetS未能比单任务服务获得明显的加速. 这是因为 TX2 的计算资源有限（256 个 CUDA核心），因此很难从批处理推理中获益. 类似地，在 1080 Ti 和 V100 上，我们观察到Bert-large 模型的加速比要低于 Bert-base/DistillBert.这是因为 Bert-large 具有更大的尺寸（参见表1），容易用满GPU 的计算资源，降低批量推理的好处.

图 8 多平台吞吐量提升实验

Figure 8. Throughput improvement experiments on various platforms

下载: 全尺寸图片幻灯片

3.2.3 执行时间分析

为了进一步分析PetS 在吞吐量上胜过基线系统的原因，我们对 PetS 和 SeqS 在 GTX-1080 Ti 上的执行时间进行了细分. 我们设置了2个工作负载，并评估了包含 Bert-base和 Bert-large 模型的8个随机任务. 如图9所示，通过共享算子的批处理执行，PetS 将非 PET 算子(包括注意力操作和共享线性层的计算)的速度提高了 2.17~3.28倍. 由于采用了稀疏矩阵乘法库，PET 算子仅占总执行时间的 27.4%~41.3%. 因此，总体执行时间仍远远小于 SeqS.

图 9 执行耗时分解

Figure 9. Execution time-consuming breakdown

下载: 全尺寸图片幻灯片

3.2.4 内存占用分析

我们还对 PetS 和 SeqS 在 1080 Ti 上的内存占用进行了分析，以揭示 PetS 具有出色可扩展性的原因. 以配置 {BS, SL} = {1, 128} 为例，在图10中绘制了模型权重和数据的 GPU 显存消耗情况. 我们可以看到，单个任务的权重参数约占用0.35GB显存. 对于SeqS，内存消耗随任务数量线性增长. 当任务数量达到 32 时，SeqS 的权重参数超过 11 GB，导致 GTX- 1080 Ti 出现 OOM 错误. 相反，对于 PetS，只有 PET 参数的内存占用随任务数量增加(通常不超过共享权重的 5%). 因此，64 个任务的总内存占用量不超过 GPU 内存的 40%，证明 PetS 可以支持更多的任务. 请注意，16 个和 32 个任务的内存占用相同，但是 64 个任务的数据内存消耗比 32 个任务多3倍. 这是因为我们使用 NVIDIA CUB 设备内存分配器进行动态数据内存管理，所分配的设备内存并不严格与数据大小成比例.

图 10 GPU 显存开销对比

Figure 10. GPU memory overhead comparison

下载: 全尺寸图片幻灯片

3.2.5 与并行推理系统的比较

除了顺序服务系统（SeqS）之外，本实验将 PetS 的吞吐量与传统的并行服务系统（parllel serving system, ParS）系统进行比较，以展示其优越性. 为了实现ParS，本实验将每个任务特定的模型(Adapter, MaskBert, Diff-Pruning ，Bitfit 中的一种)放在唯一的 CUDA 流中，以并行方式运行所有模型. 所有结果均在 GTX-1080 Ti 平台上收集. 如图11所示，本实验评估了多个请求配置，用每个任务的批次大小和序列长度（{BS, SL}）表示，以说明 PetS 的通用性. 本实验在 SeqS，ParS ，PetS 上运行每个请求配置的不同任务数. 所有结果均相对于 SeqS 基线进行归一化. 当任务数量较小时（1~4），PetS 无法胜过 ParS.这是因为PetS 需要额外的 PET 操作. 尽管 PetS 的共享权重部分也可以利用并行硬件，但 PET 操作的开销无法通过有限的并行性来抵消. 随着任务数量的增加，PetS 的优势开始显现. 当任务数量达到 16 时，PetS 相对于 ParS 平均加速了 17.7%. 当任务数量继续增多时，基线方法产生了显存溢出的错误，而PetS 则可以支持更多的任务并行执行.

图 11 与ParS 的对比

Figure 11. Compared with ParS

下载: 全尺寸图片幻灯片

3.3 单卡调度策略性能评估

在实际的多任务服务场景中，输入查询通常具有可变的序列长度和 PET 类型. 简单地对这些查询进行批处理可能无法达到理想的吞吐量. 我们提出的协同批处理(coordinated batching，CB)策略，旨在通过协调共享操作和 PET 操作来改善 PetS 在任意输入上的性能. 为了评估 CB 的效果，我们对具有可变序列长度和 PET 类型的工作负载进行了测试，并将 CB 与3种基线批处理策略进行了比较:

固定大小批处理：将查询放入池中以形成固定大小的批次，不考虑它们的 PET 类型和序列长度.

α-only 批处理：仅使用 α 模型动态地对查询进行批处理. 这种策略类似于 Turbo- Transformers 的智能批处理.

β-only 批处理：仅使用 β模型动态地对查询进行批处理. 也就是说，在图6中，只会执行第1步. 获得的小批次将直接发送到 PIE 进行执行.

为了模拟实际情况，我们假设查询的长度服从高斯分布. 为了不失一般性，我们将均值设置为 32，将标准差设置为 1~8.并发任务数从 32 增加到 128.每个任务被分配给一个随机的 PET 类型. 对于每个测试用例，我们将 1 024 个查询放入查询池中. 对于池中的每个查询，我们随机将其分配给一个已注册的任务.

如图12所示，提出的 CB 策略相比固定大小批处理和 β-only 批处理平均提高了 1.52倍和 1.27倍的速度. 当标准差的值从 1 增加到 4 时，CB 相比 α-only 批处理也实现了高达 1.14倍(平均 1.06倍)的速度提升. 对于具有大方差的输入查询，协同批处理的吞吐量低于 α-only 批处理. 我们推断，由 β模型引导的第1阶段组批策略可能会将某些长度差异较大的查询放入同一个批次中，在第2阶段中，这种差异可能会被放大，因为共享算子通常占据总执行时间的大部分. 相反，如果输入查询具有中等或较小的方差，则2个阶段批处理接近最优. 因此，为了在任意输入上获得最高性能，我们可以测量输入长度的方差来决定批处理策略.

图 12 批处理策略对比

Figure 12. Comparison of batching strategies

下载: 全尺寸图片幻灯片

3.4 基于动态迁移的多卡负载均衡策略评估

在多GPU场景下，不同下游任务在一段时间内可能会存在被调用频次不同的问题，从而引起不同GPU实例间的负载不均衡的问题. 在2.3.2节中本文结合PET算法的特性，提出了基于PET热迁移的负载均衡策略. 为了评估该策略的效果，我们在1台具有8卡V100的DGX服务器上部署了多个PetS 实例并且通过NVIDIA NCCL库来在多卡间经过NVLINK链路传输需要调度的PET权重. 对于多机器间的负载均衡，我们可以使用RDMA或者TCP来传输PET权重，但是由于实验硬件限制本文主要探讨单机内多卡的负载均衡问题.

3.4.1 固定迁移频率下的动态负载均衡性能

为了测量不同场景下PET热迁移带来的性能提升，本文设置了2种配置，即4GPU实例和8GPU实例，并且加载了128~4 096个不同的PET任务. 在实际测试中，我们将1M个请求按照泊松分布分配到不同任务的任务队列中，并且在运行过程中按照每10 s迁移1次的频率执行动态PET迁移，并且测量整个系统在处理过程中的总吞吐量.

如图13所示，通过PET任务热迁移，系统的吞吐量在4卡和8卡的情况下提升了最多13%和29%个百分点. 我们发现8卡情况下提升的比4卡提升的多，这是因为当任务分配到更多卡上时，其负载的不均衡性更加严重. 同理，我们发现当任务变多时，如4096个任务，通过PET迁移带来的性能提升显著变小，这是因为当每个GPU中的任务变多之后，GPU实例之间的数据分布差距会变小，负载的不均衡性降低. 即便如此，PET迁移仍然带来了3%~4%的性能提升.

图 13 通过PET迁移带来的吞吐提升

Figure 13. Throughout improvement via PET migration

下载: 全尺寸图片幻灯片

同时，我们也测量了PET热迁移带来的额外开销. 如图14所示，我们测量了首轮PET迁移（首轮PET迁移的数据量最大，稳定后的每轮迁移量较小）带来的开销. 随着任务数量的增长，PET的耗时增加，但是由于PET本身参数量较少，总的迁移时长低于120 ms，考虑迁移的频率间隔为10 s，其最大的开销占比为1.2%. 并且当首轮迁移完毕后，整个系统处于一个较均衡状态，后面若干轮的迁移数据量约为首轮的1/10，其对性能的开销基本可以忽略.

图 14 PET迁移的时间开销

Figure 14. Time overhead of PET migration

下载: 全尺寸图片幻灯片

3.4.2 迁移频率动态调整算法性能测试

对于输入请求分布存在较大变化的场景，2.3.2节提出了一个算法来进行迁移频率的动态调整. 为了测试该策略的效果，本实验设置了一个参数 $\lambda$ 来控制请求分布的变化. 每当经过 $\lambda$ 秒的时间，重新生成不同任务的负载分布，以模拟分布产生较大变化的场景. 本实验的 $\lambda$ 设置为4~128 s.

对于2.3.2节中提出的算法，本实验将迁移间隔 ${\phi }_{\mathrm{m}\mathrm{i}\mathrm{n}},{\phi }_{\mathrm{m}\mathrm{a}\mathrm{x}}$ 设置为0.2 s和20 s.最差不均衡阈值 $\theta$ 设置为0.9， $\mathrm{\Delta }\phi$ 设置为0.5 s. 对于固定迁移间隔的方法，设置迁移间隔为10 s. 系统的总任务数量设置为128，GPU数设置为8.

如所示，对于不同的 $\lambda$ 值，2种策略的性能表现有显著的不同. 对于固定迁移间隔的方法，当输入分布的变化频率 $\lambda$ 快于其迁移频率时，迁移非但没有性能提升，反而会略微降低系统的性能. 这是因为由于迁移间隔设置太大，其通过策略估计的负载均衡信息时效性过差. 对于动态迁移算法，由于可以根据迁移的效果动态调整迁移的间隔，其可以快速适应不同的 $\lambda$ 值的场景. 对于 $\lambda$ 值较大的情况，如 $\lambda$ =128, 2种策略表现相当. 但是由于动态策略可以通过适当降低迁移频率来进一步降低迁移开销，其相对固定间隔方法，总吞吐量有着一定的优势.

图 15 固定迁移间隔与动态迁移间隔对比

Figure 15. Comparison of fixed migration threshold and dynamic migration threshold

下载: 全尺寸图片幻灯片

4. 结　　论

本文提出了 PetS，一个用于多任务 PET 推理服务的可扩展框架. PetS 提供了PET任务的灵活管理和高吞吐服务. 为了达到这个目的，我们首先提出了一个统一的算法表征，从而把不同的PET任务放到同一个框架中. 然后我们设计了一个PET推理引擎，通过批处理的方式计算不同的任务. 为了进一步提高系统吞吐量，我们提出了一种协调的批处理策略，同时考虑了输入的长度、PET 任务类型以及系统负载平衡. 为了提升多卡部署的负载均衡，我们创新性地提出了基于PET实时迁移的负载均衡机制. 我们在多个平台上评估了 PetS，包括边缘端、桌面端和服务器端 GPU. 全面的实验证明，PetS 支持多达 26 倍的并发任务，并在桌面和服务器 GPU 节点上分别提高了 1.53 倍和 1.63 倍的服务吞吐量. 在多 GPU 场景下，我们的负载均衡策略可以提升多达29%的吞吐量.

作者贡献声明：魏学超负责提出论文的思路和主要代码实现，部分论文撰写；周哲负责提出论文的思路和主要代码实现，部分论文撰写；徐盈辉、张洁靖、谢源负责参与论文的讨论和论文修改；孙广宇负责参与论文的讨论和论文修改.

图 1 工业零信任逻辑框架图

Figure 1. Logical framework diagram of industrial zero trust

下载: 全尺寸图片幻灯片

图 2 工业零信任架构图

Figure 2. Industrial zero trust architecture diagram

下载: 全尺寸图片幻灯片

图 3 4种SDP框架模型

Figure 3. Four SDP framework models

下载: 全尺寸图片幻灯片

表 1 相关零信任综述的优缺点

Table 1 Advantages and Disadvantages of Related Zero Trust Reviews

相关综述	主要贡献	局限性
文献[7,16]	描述和总结零信任的基本架构及技术组成	未能涵盖近年出现的新兴技术
文献[17-18]	总结了网络环境下零信任的发展与应用	未深入探讨物联网领域的零信任研究
文献[19-21]	探讨了零信任技术的发展路线和未来方向	缺乏具体技术应用和实际案例的分析
文献[22]	围绕信息安全中的信任概念概述了ZTA	缺乏零信任具体场景和技术实现研究
文献[5]	简要概述当前工业领域零信任的发展趋势	未对零信任技术和应用展开深入研究
文献[23]	概述IIoT中零信任面对的挑战与应用特征	缺少对零信任技术的细节和实际应用的探讨

下载: 导出CSV

表 2 持续认证方案对比

Table 2 Comparison of Continuous Authentication Solutions

特点	初始阶段	持续认证阶段	优点	缺点
固定时间间隔认证^[49-50]	静态密码体制认证	利用XOR，Hash等轻量级操作，每隔固定时间间隔认证	管理简单、可用性高	安全性低、漏报率高
异常行为认证^[51-52]	Oauth2.0等认证协议	持续监控，检测到异常行为时启用协议认证	及时性强、准确度高	追溯性差
动态方案实时认证^[53-54]	设备指纹相互认证	利用密钥刷新机制或基于评价值等动态方案实时认证	及时性强、追溯性强、准确度高	成本高、兼容性差

下载: 导出CSV

表 3 AI技术在信任评估的应用

Table 3 Application of AI Technologies in TE

信任评估的AI技术	应用方式
联邦学习^[77,81]	零信任中央协调器从各组织独立的联邦学习模型中收集信任属性并统一进行信任评估
强化学习^[48,82]	将历史的决策结果和主体行为作为关键因素参与；信任参数的计算与评估方法的更新
深度学习^[64,83]	结合神经网络等技术，以行为分析与模式识别为基础；对信任参数进行自适应更新
监督学习^[78,84]	利用标记数据训练模型，学习输入与输出间的关系，逐步提高信任参数的预测精度，并优化信任评估机制
无监督学习^[85-86]	完全依赖未标记的数据，通过分析数据中的内在结构和模式进行信任参数的更新

下载: 导出CSV

表 4 ZTA在组织部署阶段的难点与问题

Table 4 Challenges and Issues of ZTA in Organizational Deployment Stage

问题/难点	详细叙述
应用程序开发^[66,132]	零信任相较于其他安全模式的差异性致使企业需要开发新的零信任内部应用程序
网络技术的阻碍^[8,69]	部分点对点通信技术几乎默认特权行为的横向移动（windows的P2P技术等），这会对网络环境下的零信任实现有极大的阻碍
转型成本^[21,133]	零信任对数据处理及存储的要求较高，某些企业可能无法支付高昂的技术升级成本
团队协调^[127,134]	组织内的管理问题相当重要，零信任的覆盖范围广，这要求需要协调好组织间的关系
遗留设施冲突^[8,127]	ZTA在搭建过程中可能会同不同协议、型号、数字化程度的遗留设施具有技术冲突，如何平衡新旧设施十分困难
孤岛问题^[128]	ZTA增量部署可能在出现“ZTA孤岛”
时间开销^{[28,75,118,125]}	ZTA保护系统时产生大量时间开销

下载: 导出CSV

参考文献(134)

[1]	Cui Jie, Zhu Yihu, Hong Zhong, et al. Efficient blockchain-based mutual authentication and session key agreement for cross-domain IIoT[J]. IEEE Internet of Things Journal, 2024, 11(9): 16325−16338
[2]	May M C, Glatter D, Arnold D, et al. IIoT system canvas - from architecture patterns towards an IIoT development framework[J]. Journal of Manufacturing Systems, 2024, 72: 437−459
[3]	Hu Yujiao, Jia Qingmin, Yao Yuan, et al. Industrial internet of things intelligence empowering smart manufacturing: A literature review[J]. IEEE Internet of Things Journal, 2024, 11(11): 19143−19167
[4]	Hai Tao, Sarkar A, Aksoy M, et al. Complex-valued hyperchaos-assisted vector-valued artificial neural key coordination for improving security in the industrial internet of things[J/OL]. Engineering Applications of Artificial Intelligence, 2024[2024-09-30]. https://doi.org/10.1016/j.engappai.2023.107561
[5]	Li Shan, Iqbal M, Saxena N. Future industry internet of things with zero-trust security[J]. Information Systems Frontiers, 2024, 26: 1653−1666 doi: 10.1007/s10796-021-10199-5
[6]	Stafford V A. Zero trust architecture[EB/OL]. NIST Special Publication, 2020[2024-09-30]. https://nvlpubs.nist.gov/nistpubs/specialpublications/NIST.SP.800-207.pdf
[7]	Buck C, Olenberger C, Schweizer A, et al. Never trust, always verify: A multivocal literature review on current knowledge and research gaps of zero-trust[J/OL]. Computers & Security, 2021[2024-09-30]. https://doi.org/10.1016/j.cose.2021.102436
[8]	Haber M J, Haber M J. Privileged Attack Vectors[M]. Berkeley, CA: Apress, 2020: 295−304
[9]	Enterprise D D. Department of defense global information grid architectural vision[EB/OL]. 2007[2024-09-30]. https://acqnotes.com/Attachments/DoD%20GIG%20Architectural%20Vision,%20June%2007.pdf
[10]	Kindervag J, Balaouras S. No more chewy centers: Introducing the zero trust model of information security[EB/OL]. 2010[2024-09-30]. https://media.paloaltonetworks.com/documents/Forrester-No-More-Chewy-Centers.pdf
[11]	Bilger B, Boehme A, Flores B, et al. Software defined perimeter working group SDP specification 1.0[EB/OL]. Cloud security alliance, (2014-04-30)[2024-09-30]. https://cloudsecurityalliance.org/download/artifacts/sdp-specification-v1-0
[12]	Ward R, Beyer B. Beyondcorp: A new approach to enterprise security[J]. The Magazine of USENIX & SAGE, 2014, 39(6): 6−11
[13]	Weinberg A I, Cohen K. Zero trust implementation in the emerging technologies era: Survey[J]. arXiv preprint, arXiv: 2401.09575, 2024
[14]	Cunningham C, Blankenship J, Balaouras S, et al. The zero trust eXtended (ZTX) ecosystem[EB/OL]. 2018[2024-09-30]. https://www.cisco.com/c/dam/m/en_sg/solutions/security/pdfs/forrester-ztx.pdf
[15]	MacDonald N, Orans L, Skorupa J. The future of network security is in the cloud[EB/OL]. (2019-8-30)[2024-09-30]. https://vertassets.blob.core.windows.net/download/4b40e73f/4b40e73f-a2f0-4e01-93ce-351e5512590a/gartner_wp___sase___the_future_of_network_security_is_in_the_cloud_08_30_19.pdf
[16]	Syed N F, Shah S W, Shaghaghi A, et al. Zero trust architecture (ZTA): A comprehensive survey[J]. IEEE Access, 2022, 10: 57143−57179
[17]	Dhiman P, Saini N, Gulzar Y, et al. A review and comparative analysis of relevant approaches of zero trust network model[J/OL]. Sensors, 2024[2024-09-30]. https://doi.org/10.3390/s24041328
[18]	Sarkar S, Choudhary G, Shandilya S K, et al. Security of zero trust networks in cloud computing: A comparative review[J/OL]. Sustainability, 2022[2024-09-30]. https://doi.org/10.3390/su141811213
[19]	Tsai M, Lee S, Shieh S W. Strategy for implementing of zero trust architecture[J]. IEEE Transactions on Reliability, 2024, 73(1): 93−100 doi: 10.1109/TR.2023.3345665
[20]	Bertino E, Brancik K. Services for zero trust architectures: A research roadmap[C]//Proc of the IEEE Int Conf on Web Services (ICWS). Piscataway, NJ: IEEE, 2021: 14−20
[21]	Fernandez E B, Brazhuk A. A critical analysis of zero trust architecture (ZTA)[J/OL]. Computer Standards & Interfaces, 2024[2024-09-30]. https://papers.ssrn.com/sol3/Delivery.cfm?abstractid=4210104
[22]	Kang Hongzhaoning, Liu Gang, Wang Quan, et al. Theory and application of zero trust security: A brief survey[J/OL]. Entropy, 2023[2024-09-30]. https://www.mdpi.com/1099-4300/25/12/1595/pdf
[23]	Federici F, Martintoni D, Senni V. A zero-trust architecture for remote access in industrial IoT infrastructures[J/OL]. Electronics, 2023[2024-09-30]. https://www.mdpi.com/2079-9292/12/3/566/pdf
[24]	Phiayura P, Teerakanok S. A comprehensive framework for migrating to zero trust architecture[J]. IEEE Access, 2023, 11: 19487−19511 doi: 10.1109/ACCESS.2023.3248622
[25]	Collier Z A, Sarkis J. The zero trust supply chain: Managing supply chain risk in the absence of trust[J]. International Journal of Production Research, 2021, 59(11): 3430−3445
[26]	Loftus M, Vezina A, Doten R, et al. The arrival of zero trust: What does it mean?[J]. Communications of the ACM, 2023, 66(2): 56−62
[27]	National Security Agency. Embracing a zero trust security model[EB/OL]. (2021-02-25)[2024-09-30]. https://media.defense.gov/2021/Feb/25/2002588479/-1/-1/0/CSI_EMBRACING_ZT_SECURITY_MODEL_UOO115131-21.PDF
[28]	Wang Tao, Kang Li, Duan Jiang. Dynamic fine-grained access control scheme for vehicular ad hoc networks[J/OL]. Computer Networks, 2021[2024-09-30]. https://doi.org/10.1016/j.comnet.2021.107872
[29]	Yeoh W, Liu M, Shore M, et al. Zero trust cybersecurity: Critical success factors and A maturity assessment framework[J/OL]. Computers & Security, 2023[2024-09-30]. https://www.sciencedirect.com/science/article/pii/S016740482300322Xs
[30]	Xu Mingyang, Guo Junli, Yuan Haoyu, et al. Zero-trust security authentication based on SPA and endogenous security architecture[J/OL]. Electronics, 2023[2024-09-30]. https://www.mdpi.com/2079-9292/12/4/782/pdf
[31]	Bello Y, Hussein A R, Ulema M, et al. On sustained zero trust conceptualization security for mobile core networks in 5G and beyond[J]. IEEE Transactions on Network and Service Management, 2022, 19(2): 1876−1889 doi: 10.1109/TNSM.2022.3157248
[32]	Alagappan A, Venkatachary S K, Andrews L J B. Augmenting zero trust network architecture to enhance security in virtual power plants[J]. Energy Reports, 2022, 8(1): 1309−1320
[33]	Sultana M, Hossain A, Laila F, et al. Towards developing a secure medical image sharing system based on zero trust principles and blockchain technology[J]. BMC Medical Informatics and Decision Making, 2020, 20: 1−10 doi: 10.1186/s12911-019-1002-x
[34]	Zanasi C, Russo S. Flexible zero trust architecture for the cybersecurity of industrial IoT infrastructures[J/OL]. Ad Hoc Networks, 2024[2024-09-30]. https://doi.org/10.1016/j.adhoc.2024.103414
[35]	Chen Xu, Feng Wei, Ge Ning, et al. Zero trust architecture for 6G security[J]. IEEE Network, 2023, 38(4): 224−232
[36]	Zaid B, Sayeed A, Bala P, et al. Toward secure and resilient networks: A zero-trust security framework with quantum fingerprinting for devices accessing network[J/OL]. Mathematics, 2023[2024-09-30]. https://doi.org/10.3390/math11122653
[37]	Szymanski T H. The “cyber security via determinism” paradigm for a quantum safe zero trust deterministic internet of things (IoT)[J]. IEEE Access, 2022, 10: 45893−45930 doi: 10.1109/ACCESS.2022.3169137
[38]	Li Peirong, Ou Wei, Liang Haozhe, et al. A zero trust and blockchain-based defense model for smart electric vehicle chargers[J/OL]. Journal of Network and Computer Applications, 2023[2024-09-30]. https://doi.org/10.1016/j.jnca.2023.103599
[39]	Gai Keke, She Yufeng, Zhu Liehuang, et al. A blockchain-based access control scheme for zero trust cross-organizational data sharing[J]. ACM Transactions on Internet Technology, 2023, 23(3): 1−25
[40]	Daah C, Qureshi A, Awan I, et al. Enhancing zero trust models in the financial industry through blockchain integration: A proposed framework[J/OL]. Electronics, 2024[2024-09-30]. https://doi.org/10.3390/electronics13050865
[41]	Ali B, Gregory M A, Li Shuo, et al. Implementing zero trust security with dual fuzzy methodology for trust-aware authentication and task offloading in multi-access edge computing[J/OL]. Computer Networks, 2024[2024-09-30]. https://doi.org/10.1016/j.comnet.2024.110197
[42]	McIntosh T, Kayes A S M, Chen Y P P, et al. Dynamic user-centric access control for detection of ransomware attacks[J/OL]. Computers & Security, 2021[2024-09-30]. https://doi.org/10.1016/j.cose.2021.102461
[43]	Filip I D, Ionite C, González-Cebrián A, et al. SMARDY: Zero-trust FAIR marketplace for research data[C]//Proc of IEEE Int Conf on Big Data. Piscataway, NJ: IEEE, 2022: 1535−1541
[44]	Liu Haiqing, Ai Ming, Huang Rong, et al. Identity authentication for edge devices based on zero-trust architecture[J/OL]. Concurrency and Computation: Practice and Experience, 2022[2024-09-30]. https://doi.org/10.1002/cpe.7198
[45]	Rivera J J D, Khan T A, Akbar W, et al. Secure enrollment token delivery for zero trust networks using blockchain[C/OL]//Proc of the 23rd Asia-Pacific Network Operations and Management Symp (APNOMS). Piscataway, NJ: IEEE, 2022[2024-09-30]. https://doi.org/10.23919/APNOMS56106.2022.9919940
[46]	Fang He, Zhu Yongxu, Zhang Yan, et al. Decentralized edge collaboration for seamless handover authentication in zero-trust IoV[J]. IEEE Transactions on Wireless Communications, 2024, 23(8): 8760−8772 doi: 10.1109/TWC.2024.3354064
[47]	Ge Yunfei, Zhu Quanyuan. GAZETA: GAme-theoretic zEro-trust authentication for defense against lateral movement in 5G IoT networks[J]. IEEE Transactions on Information Forensics and Security, 2023, 19: 540−554
[48]	Cheng Ruizhi, Chen Songqing, Han Bo. Towards zero-trust security for the metaverse[J]. IEEE Communications Magazine, 2023, 62(2): 156−162
[49]	Anderson J, Huang Qiqing, Cheng Long, et al. A zero trust architecture for connected and autonomous vehicles[J]. IEEE Internet Computing, 2023, 27(5): 7−14 doi: 10.1109/MIC.2023.3304893
[50]	Meng Lei, Huang Daochao, An Jiahang, et al. A continuous authentication protocol without trust authority for zero trust architecture[J]. China Communications, 2022, 19(8): 198−213 doi: 10.23919/JCC.2022.08.015
[51]	Shen Quan, Endpoint security reinforcement via integrated zero-trust systems: A collaborative approach[J/OL]. Computers & Security, 2024[2024-09-30]. https://doi.org/10.1016/j.cose.2023.103537
[52]	Liu Yizhong, Xing Xinxin, Tong Ziheng, et al. Secure and scalable cross-domain data sharing in zero-trust cloud-edge-end environment based on sharding blockchain[J]. IEEE Transactions on Dependable and Secure Computing, 2023, 21(4): 2603−2618
[53]	Shah S W, Syed N F, Shaghaghi A, et al. LCDA: Lightweight continuous device-to-device authentication for a zero trust architecture (ZTA)[J/OL]. Computers & Security, 2021[2024-09-30]. https://doi.org/10.1016/j.cose.2021.102351
[54]	Chen Lu, Sun Yuwei, Sun Zhixin. A mobile internet multi-level two-way identity authentication scheme based on zero trust[C]//Proc of IEEE 23rd Int Conf on High Performance Computing & Communications; 7th Int Conf on Data Science & Systems; 19th Int Conf on Smart City; 7th Int Conf on Dependability in Sensor, Cloud & Big Data Systems & Application (HPCC/DSS/SmartCity/DependSys). Piscataway, NJ: IEEE, 2021: 1650−1656
[55]	Singh J, Refaey A, Shami A. Multilevel security framework for NFV based on software defined perimeter[J]. IEEE Network, 2020, 34(5): 114−119 doi: 10.1109/MNET.011.1900563
[56]	Chen Baozhan, Qiao Siyuan, Zhao Jie, et al. A security awareness and protection system for 5G smart healthcare based on zero-trust architecture[J]. IEEE Internet of Things Journal, 2020, 8(13): 10248−10263
[57]	Moubayed A, Refaey A, Shami A. Software-defined perimeter (sdp): State of the art secure solution for modern networks[J]. IEEE Network, 2019, 33(5): 226−233 doi: 10.1109/MNET.2019.1800324
[58]	Sedjelmaci H, Tourki K, Ansari N. Enabling 6G security: The synergy of zero trust architecture and artificial intelligence[J]. IEEE Network, 2023, 38(3): 171−177
[59]	Bradatsch L, Miroshkin O, Kargl F. ZTSFC: A service function chaining-enabled zero trust architecture[J]. IEEE Access, 2023, 11: 125307−125327 doi: 10.1109/ACCESS.2023.3330706
[60]	Huang Wenhua, Xie Xuemin, Wang Ziying, et al. ZT-Access: A combining zero trust access control with attribute-based encryption scheme against compromised devices in power IoT environments[J/OL]. Ad Hoc Networks, 2023[2024-09-30]. https://doi.org/10.1016/j.adhoc.2023.103161
[61]	Wang Liang, Ma Hailong, Li Ziyong, et al. A data plane security model of SR-BE/TE based on zero-trust architecture[J/OL]. Scientific Reports, 2022[2024-09-30]. https://www.nature.com/articles/s41598-022-24342-y
[62]	Zanasi C, Magnanini F, Russo S, et al. A zero trust approach for the cybersecurity of industrial control systems[C/OL]//Proc of the IEEE 21st Int Symp on Network Computing and Applications (NCA). Piscataway, NJ: IEEE, 2022[2024-09-30]. https://doi.org/10.1109/NCA57778.2022.10013559
[63]	Lei Wenxin, Pang Zhibo, Wen Hong, et al. Physical layer enhanced zero-trust security for wireless industrial internet of things[J]. IEEE Transactions on Industrial Informatics, 2023, 20(3): 4327−4336
[64]	Wu Anbin, Feng Zhiyong, Li Xiaohong, et al. ZTWeb: Cross site scripting detection based on zero trust[J/OL]. Computers & Security, 2023[2024-09-30]. https://doi.org/10.1016/j.cose.2023.103434
[65]	Konduru P, Nethravathi N P. Secure and energy-efficient routing protocol based on micro-segmentation and batch authentication[J/OL]. Computer Networks, 2024[2024-09-30]. https://doi.org/10.1016/j.comnet.2024.110293
[66]	Hong Sungmin, Xu Lei, Huang Jianwei, et al. SysFlow: Toward a programmable zero trust framework for system security[J]. IEEE Transactions on Information Forensics and Security, 2023, 18: 2794−2809 doi: 10.1109/TIFS.2023.3264152
[67]	Zhang Jingci, Zheng Jun, Zhang Zhang, et al. Hybrid isolation model for device application sandboxing deployment in zero trust architecture[J]. Int Journal of Intelligent Systems, 2022, 37(12): 11167−11187 doi: 10.1002/int.23037
[68]	Bradatsch L, Haeberle M, Steinert B, et al. Secure service function chaining in the context of zero trust security[C]//Proc of the IEEE 47th Conf on Local Computer Networks (LCN). Piscataway, NJ: IEEE, 2022: 123−131
[69]	Csikor L, Ramachandran S, Lakshminarayanan A. ZeroDNS: Towards better zero trust security using DNS[C]//Proc of the 38th Annual Computer Security Applications Conf. New York: ACM, 2022: 699−713
[70]	Ahmed A, Shoufan A. Formal verification of light-weight security protocol and data model for chip-to-chip zero trust[J]. IEEE Access, 2023, 11: 60335−60348 doi: 10.1109/ACCESS.2023.3285630
[71]	Tsai W C. Field-programmable gate array-based implementation of zero-trust stream data encryption for enabling 6G-narrowband internet of things massive device access[J/OL]. Sensors, 2024[2024-09-30]. https://doi.org/10.3390/s24030853
[72]	Wang Jin, Chen Jiahao, Xiong N, et al. S-BDS: An effective blockchain-based data storage scheme in zero-trust IoT[J]. ACM Transactions on Internet Technology, 2023, 23(3): 1−23
[73]	Ameer S, Gupta M, Bhatt S, et al. Bluesky: Towards convergence of zero trust principles and score-based authorization for IoT enabled smart systems[C]//Proc of the 27th ACM on Symp on Access Control Models and Technologies. New York: ACM, 2022: 235−244
[74]	Park U H, Hong J, Kim A, et al. Endpoint device risk-scoring algorithm proposal for zero trust[J/OL]. Electronics, 2023[2024-09-30]. https://doi.org/10.3390/electronics12081906
[75]	Wang Jiuru, Wang Zhiyuan, Song Jingcheng, et al. Attribute and user trust score-based zero trust access control model in IoV[J/OL]. Electronics, 2023[2024-09-30]. https://doi.org/10.3390/electronics12234825
[76]	Wang Zhiqiang, Yu Xinyue, Xue Peiyang, et al. Research on medical security system based on zero trust[J/OL]. Sensors, 2023[2024-09-30]. https://doi.org/10.3390/s23073774
[77]	Al S A M, Rizwan A, Sánchez-Chero M, et al. Blockchain-enabled federated learning for prevention of power terminals threats in IoT environment using edge zero-trust model[J]. The Journal of Supercomputing, 2024, 80(6): 7849−7875 doi: 10.1007/s11227-023-05763-6
[78]	Fu Peiyu, Wu Jun, Lin Xi, et al. ZTEI: Zero-trust and edge intelligence empowered continuous authentication for satellite networks[C]//Proc of IEEE Conf on Global Communications (GLOBECOM). Piscataway, NJ: IEEE, 2022: 2376−2381
[79]	Wang Peng, Xu Ning, Zhang Haibin, et al. Dynamic access control and trust management for blockchain-empowered IoT[J]. IEEE Internet of Things Journal, 2021, 9(15): 12997−13009
[80]	N’goran R, Tetchueng J L, Pandry G, et al. Trust assessment model based on a zero trust strategy in a community cloud environment[J]. Engineering, 2022, 14(11): 479−496 doi: 10.4236/eng.2022.1411036
[81]	Ramezanpour K, Jagannath J. Intelligent zero trust architecture for 5G/6G networks: Principles, challenges, and the role of machine learning in the context of O-RAN[J/OL]. Computer Networks, 2022[2024-09-30]. 10.1109/LCN53696.2022. 9843821
[82]	García-Teodoro P, Camacho J, Maciá-Fernández G, et al. A novel zero-trust network access control scheme based on the security profile of devices and users[J/OL]. Computer Networks, 2022[2024-09-30]. https://doi.org/10.1016/j.comnet.2022.109068
[83]	Nkoro E C, Njoku J N, Nwakanma C I, et al. Zero-trust marine cyberdefense for IoT-based communications: An explainable approach[J/OL]. Electronics, 2024[2024-09-30]. https://doi.org/10.3390/electronics13020276
[84]	Akbar W, Rivera J J D, Ahmed K T, et al. Software defined perimeter monitoring and blockchain-based verification of policy mapping[C/OL]//Proc of the 23rd Asia-Pacific Network Operations and Management Symp(APNOMS). Piscataway, NJ: IEEE, 2022[2024-09-30]. https://doi.org/10.23919/APNOMS56106.2022.9919959
[85]	Gudala L, Shaik M, Venkataramanan S. Leveraging machine learning for enhanced threat detection and response in zero trust security frameworks: An exploration of real-time anomaly identification and adaptive mitigation strategies[J]. Journal of Artificial Intelligence Research, 2021, 1(2): 19−45
[86]	He Yuanhang, Huang Daochao, Chen Lei, et al. A survey on zero trust architecture: Challenges and future trends[J/OL]. Wireless Communications and Mobile Computing, 2022[2024-09-30]. https://doi.org/10.1155/2022/6476274
[87]	Ouaddah A, Mousannif H, Abou Elkalam A, et al. Access control in the Internet of things: Big challenges and new opportunities[J/OL]. Computer Networks, 2017[2024-09-30]. https://doi.org/10.1016/j.comnet.2016.11.007
[88]	Sandhu R, Samarati P. Authentication, access control, and audit[J]. ACM Computing Surveys (CSUR), 1996, 28(1): 241−243
[89]	Lampson B W. Dynamic protection structures[C]//Proc of the Fall Joint Computer Conf. New York: ACM, 1969: 27−38
[90]	Hao Xiaohan, Ren Wei, Fei Yangyang, et al. A blockchain-based cross-domain and autonomous access control scheme for internet of things[J]. IEEE Transactions on Services Computing, 2022, 16(2): 773−786
[91]	Lindqvist H. Mandatory access control [D]. Sweden: Department of Computing Science, Umea University, 2006
[92]	Wang Baoyi, Zhang Shaomi. An organization and task based access control model for workflow system[C]//Proc of the Asia-Pacific Web Conf. Berlin: Springer, 2007: 485−490
[93]	Hu Donghui, Hu Chunya, Fan Yuqi, et al. oGBAC — A group based access control framework for information sharing in online social networks[J]. IEEE Transactions on Dependable and Secure Computing, 2018, 18(1): 100−116
[94]	Ray I, Kumar M. Towards a location-based mandatory access control model[J]. Computers & Security, 2006, 25(1): 36−44
[95]	Anutariya C, Chatvichienchai S, Iwiahara M, et al. A rule-based xml access control model[C]//Proc of the 2nd Int Workshop on Rules and Rule Markup Languages for the Semantic Web(RuleML). Berlin: Springer, 2003: 35−48
[96]	Andriotis P, Stringhini G, Sasse M A. Studying users’ adaptation to Android’s run-time fine-grained access control system[J]. Journal of Information Security and Applications, 2018, 40(1): 31−43
[97]	Bertino E. RBAC models — Concepts and trends[J]. Computers & Security, 2003, 22(6): 511−514
[98]	Bakar A A, Ismail R, Jais J. A review on extended role based access control (E-RBAC) model in pervasive computing environment[C]//Proc of the 1st Int Conf on Networked Digital Technologies. Piscataway, NJ: IEEE, 2009: 533−535
[99]	Pal S, Jadidi Z. Protocol-based and hybrid access control for the IoT: Approaches and research opportunities[J/OL]. Sensors, 2021[2024-09-30]. https://doi.org/10.3390/s21206832
[100]	Shin S H, Park M J, Kim IT W, et al. Architecture for enhancing communication security with RBAC IoT protocol-based microgrids[J/OL]. Sensors, 2024[2024-09-30]. https://doi.org/10.3390/s24186000
[101]	Zaidi T, Usman M, Aftab M U, et al. Fabrication of flexible role-based access control based on blockchain for Internet of things use cases[J]. IEEE Access, 2023, 11: 106315−106333
[102]	Xu Zhengnan, Dong Guofang, Yang Ruicheng. RBAC-based one-to-many authentication and key negotiation scheme in smart factory[J]. IEEE Access, 2024, 12: 189202−189218
[103]	Yuan E, Tong J. Attributed based access control (ABAC) for web services[C]// Proc of the IEEE Int Conf on Web Services (ICWS'05). Piscataway, NJ: IEEE, 2005: 569−578
[104]	Shang Siyuan, Wang Xiaohan, Liu Aodi. ABAC policy mining method based on hierarchical clustering and relationship extraction[J/OL]. Computers & Security, 2024[2024-09-30]. https://doi.org/10.1016/j.cose.2024.103717
[105]	Chen Zhonghua, Goyal S B, Rajawat A S. Smart contracts attribute-based access control model for security & privacy of IoT system using blockchain and edge computing[J]. The Journal of Supercomputing, 2024, 80(2): 1396−1425
[106]	Cremonezi B, Vieira A B, Nacif J, et al. Identity management for Internet of Things: Concepts, challenges and opportunities[J]. Computer Communications, 2024, 224: 72−94
[107]	Alshehri S, Bamasag O. Aac-IoT: Attribute access control scheme for IoT using lightweight cryptography and hyperledger fabric blockchain[J/OL]. Applied Sciences, 2022[2024-09-30]. https://doi.org/10.3390/app12168111
[108]	Pathak A, Al-Anbagi I, Hamilton H J. TABI: Trust-based ABAC mechanism for edge-IoT using blockchain technology[J]. IEEE Access, 2023, 11: 36379−36398
[109]	Ragothaman K, Wang Y, Rimal B, et al. Access control for IoT: A survey of existing research, dynamic policies and future directions[J/OL]. Sensors, 2023[2024-09-30]. https://doi.org/10.3390/s23041805
[110]	Patil P, Sangeetha M, Bhaskar V. Blockchain for IoT access control, security and privacy: A review[J]. Wireless Personal Communications, 2021, 117(3): 1815−1834
[111]	Salehi A, Han Runchao, Rudolph C, et al. DACP: Enforcing a dynamic access control policy in cross-domain environments[J/OL]. Computer Networks, 2023[2024-09-30]. https://doi.org/10.1016/j.comnet.2023.110049
[112]	Zhang Qingyang, Zhong Hong, Cui Jie, et al. AC4AV: A flexible and dynamic access control framework for connected and autonomous vehicles[J]. IEEE Internet of Things Journal, 2020, 8(3): 1946−1958
[113]	Singh A, Dhanaraj R K, Ali M A, et al. Transfer fuzzy learning enabled Streebog cryptographic substitution permutation based zero trust security in IIoT[J]. Alexandria Engineering Journal, 2023, 81: 449−459
[114]	Kobayashi N. Zero trust security framework for IoT actuators[C]//Proc of the 47th IEEE Annual Computers, Software, and Applications Conf (COMPSAC). Piscataway, NJ: IEEE, 2023: 1285−1292
[115]	冯景瑜,于婷婷,王梓莹,等. 电力物联场景下抗失陷终端威胁的边缘零信任模型[J]. 计算机研究与发展,2022,59(5):1120−1132 doi: 10.7544/issn1000-1239.20211129 Feng Jingyu, Yu Tingting, Wang Ziying, et al. An edge zero-trust model against compromised terminals threats in power IoT environments[J]. Journal of Computer Research and Development, 2022, 59(5): 1120−1132(in Chinese) doi: 10.7544/issn1000-1239.20211129
[116]	Hao Min, Tan Beihai, Wang Siming, et al. Exploiting blockchain for dependable services in zero-trust vehicular networks[J/OL]. Frontiers of Computer Science, 2024[2024-09-30]. https://link.springer.com/10.1007/s11704-023-2495-0
[117]	Cui Qimei, Zhu Zengbao, Ni Wei, et al. Edge-intelligence-empowered, unified authentication and trust evaluation for heterogeneous beyond 5G systems[J]. IEEE Wireless Communications, 2021, 28(2): 78−85
[118]	Tian Minqiu, Li Zifu, Li Fenghua, et al. A terminal security authentication protocol for zero-trust satellite IoT[C]//Proc of the IEEE Int Conf on Trust, Security and Privacy in Computing and Communications (TrustCom). Piscataway, NJ: IEEE, 2022: 299−306
[119]	Pokhrel S R. Poster: Orbital ZTA! Secure satellite communication networks with zero trust architecture[C]//Proc of the ACM SIGCOMM Conf: Posters and Demos. New York: ACM, 2024: 33−35
[120]	Falco G, Gordon N G. A zero-trust satellite services marketplace enabling space infrastructure as a service[J]. IEEE Access, 2024, 12: 71066−71075 doi: 10.1109/ACCESS.2024.3403483
[121]	Kulkarni A, Hazari N A, Niamat M. A zero trust-based framework employed by blockchain technology and ring oscillator physical unclonable functions for security of field programmable gate array supply chain[J]. IEEE Access, 2024, 12: 89322−89338 doi: 10.1109/ACCESS.2024.3418572
[122]	Stern A, Wang H, Rahman F, et al. Aced-it: Assuring confidential electronic design against insider threats in a zero-trust environment[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2021, 41(10): 3202−3215
[123]	Buras B, Xanthopoulos C, Butler K, et al. Zero trust approach to IC manufacturing and testing[C]//Proc of the IEEE Int Test Conf (ITC). Piscataway, NJ : IEEE, 2022: 583−586
[124]	Belwafi K, Alshamsi H, Ahmed A, et al. Enhancing circuit authentication through secure isolation[C/OL]//Proc of the IEEE Int Symp on Circuits and Systems (ISCAS). Piscataway, NJ: IEEE, 2024[2024-09-30]. https://doi.org/10.1109/ISCAS58744.2024.10558551
[125]	Deric A, Holcomb D. Know time to die–integrity checking for zero trust chiplet-based systems using between-die delay PUFs[J/OL]. IACR Transactions on Cryptographic Hardware and Embedded Systems, 2022[2024-09-30]. https://doi.org/10.46586/tches.v2022.i3.391-412
[126]	Michael J B, Dinolt G C, Cohen F B, et al. Can you trust zero trust?[J]. Computer, 2022, 55(8): 103−105
[127]	Loftus M, Vezina A, Doten R, et al. The arrival of zero trust: What does it mean?[J]. Communications of the ACM, 2023, 66(2): 56−62 doi: 10.1145/3573129
[128]	Bertino E. Zero trust architecture: Does it help?[J]. IEEE Security & Privacy, 2021, 19(5): 95−96
[129]	Swearingen M T, Michael J B, Weiss J, et al. Resilient without zero trust[J]. Computer, 2024, 57(1): 120−122
[130]	Sengupta B, Lakshminarayanan A. Distritrust: Distributed and low-latency access validation in zero-trust architecture[J/OL]. Journal of Information Security and Applications, 2021[2024-09-30]. https://doi.org/10.1016/j.jisa.2021.103023
[131]	Ferretti L, Magnanini F, Andreolini M, et al. Survivable zero trust for cloud computing environments[J/OL]. Computers & Security, 2021[2024-09-30]. https://doi.org/10.1016/j.cose.2021.102419
[132]	Dubin R. Content disarm and reconstruction of RTF files: A zero file trust methodology[J]. IEEE Transactions on Information Forensics and Security, 2023, 18: 1461−1472 doi: 10.1109/TIFS.2023.3241480
[133]	Adahman Z, Malik A W, Anwar Z. An analysis of zero-trust architecture and its cost-effectiveness for organizational security[J/OL]. Computers & Security, 2022[2024-02-20]. https://doi.org/10.1016/j.cose.2022.102911
[134]	Spencer M, Pizio D. The de-perimeterisation of information security: The jericho forum, zero trust, and narrativity[J/OL]. Social Studies of Science, 2023[2024-09-30]. https://doi.org/10.1177/03063127231221107

施引文献

资源附件(0)

图(3) / 表(4)

计量

文章访问数: 44
HTML全文浏览量: 6
PDF下载量: 15
被引次数: 0

1. 背景介绍与研究动机
1.1 Transformer 网络架构
1.2 多任务Transformer 处理
1.3 参数高效Transformer网络
1.4 参数高效Transformer网络的推理挑战
2. PetS框架
2.1 PET 算法的统一表示
2.2 PET 推理框架设计
2.2.1 PET任务管理
2.2.2 PET推理流水线
2.2.3 PET推理引擎
2.3 系统优化策略
2.3.1 协同批处理调度
2.3.2 多实例负载均衡调度
2.4 PetS框架实现
3. 实验验证
3.1 实验设置
3.2 主要结果
3.2.1 最大支持的任务数
3.2.2 吞吐量提升
3.2.3 执行时间分析
3.2.4 内存占用分析
3.2.5 与并行推理系统的比较
3.3 单卡调度策略性能评估
3.4 基于动态迁移的多卡负载均衡策略评估
3.4.1 固定迁移频率下的动态负载均衡性能
3.4.2 迁移频率动态调整算法性能测试
4. 结　　论

1. 背景介绍与研究动机
1.1 Transformer 网络架构
1.2 多任务Transformer 处理
1.3 参数高效Transformer网络
1.4 参数高效Transformer网络的推理挑战
2. PetS框架
2.1 PET 算法的统一表示
2.2 PET 推理框架设计
2.2.1 PET任务管理
2.2.2 PET推理流水线
2.2.3 PET推理引擎
2.3 系统优化策略
2.3.1 协同批处理调度
2.3.2 多实例负载均衡调度
2.4 PetS框架实现
3. 实验验证
3.1 实验设置
3.2 主要结果
3.2.1 最大支持的任务数
3.2.2 吞吐量提升
3.2.3 执行时间分析
3.2.4 内存占用分析
3.2.5 与并行推理系统的比较
3.3 单卡调度策略性能评估
3.4 基于动态迁移的多卡负载均衡策略评估
3.4.1 固定迁移频率下的动态负载均衡性能
3.4.2 迁移频率动态调整算法性能测试
4. 结　　论

参考文献(134)

施引文献

资源附件(0)

工业物联网零信任安全研究综述

通讯作者: 吕飞（lvfei@iie.ac.cn）

计量

出版历程

A Review of Zero Trust Security Research in Industrial Internet of Things

1. 背景介绍与研究动机

1.1 Transformer 网络架构

1.2 多任务Transformer 处理

1.3 参数高效Transformer网络

1.4 参数高效Transformer网络的推理挑战

2. PetS框架

2.1 PET 算法的统一表示

2.2 PET 推理框架设计

2.2.1 PET任务管理

2.2.2 PET推理流水线

2.2.3 PET推理引擎

2.3 系统优化策略

2.3.1 协同批处理调度

2.3.2 多实例负载均衡调度

2.4 PetS框架实现

3. 实验验证

3.1 实验设置

3.2 主要结果

3.2.1 最大支持的任务数

3.2.2 吞吐量提升

3.2.3 执行时间分析

3.2.4 内存占用分析

3.2.5 与并行推理系统的比较

3.3 单卡调度策略性能评估

3.4 基于动态迁移的多卡负载均衡策略评估

3.4.1 固定迁移频率下的动态负载均衡性能

3.4.2 迁移频率动态调整算法性能测试

4. 结 论

计量

出版历程

目录

1. 背景介绍与研究动机

1.1 Transformer 网络架构

1.2 多任务Transformer 处理

1.3 参数高效Transformer网络

1.4 参数高效Transformer网络的推理挑战

2. PetS框架

2.1 PET 算法的统一表示

2.2 PET 推理框架设计

2.2.1 PET任务管理

2.2.2 PET推理流水线

2.2.3 PET推理引擎

2.3 系统优化策略

2.3.1 协同批处理调度

2.3.2 多实例负载均衡调度

2.4 PetS框架实现

3. 实验验证

3.1 实验设置

3.2 主要结果

3.2.1 最大支持的任务数

3.2.2 吞吐量提升

3.2.3 执行时间分析

3.2.4 内存占用分析

3.2.5 与并行推理系统的比较

3.3 单卡调度策略性能评估

3.4 基于动态迁移的多卡负载均衡策略评估

3.4.1 固定迁移频率下的动态负载均衡性能

3.4.2 迁移频率动态调整算法性能测试

4. 结 论

通讯作者:
吕飞（lvfei@iie.ac.cn）

4. 结　　论

4. 结　　论