基于时间卷积神经架构搜索的复杂动作识别

任鹏真; 梁小丹; 常晓军; 赵子莹; 肖云

doi:10.7544/issn1000-1239.202440048

基于时间卷积神经架构搜索的复杂动作识别

任鹏真^{1, 2,},
梁小丹^{1, 3},
常晓军⁴,
赵子莹¹,
肖云^5, ,

1.
鹏城实验室　广东深圳　518000
2.
暗物智能科技（广州）有限公司　广州　511466
3.
中山大学智能工程学院　广东深圳　518107
4.
中国科学技术大学信息科学技术学院　合肥　230026
5.
西北大学信息科学与技术学院　西安　710127

基金项目: 国家科技重大专项基金项目（2020AAA0109704）；中国博士后科学基金项目（2023M734009）；国家自然科学基金面上项目(62372371)；陕西省国际科技合作计划重点项目（2022KWZ-14）；广东省杰出青年科学基金项目（2021B1515020061）；深圳市科技计划项目（GJHZ20220913142600001）；南沙重点研发计划项目（2022ZD014）；鹏城实验室重大攻关项目（PCL2024AS101）；CAAI-华为MindSpore开放基金项目.

详细信息

作者简介:
任鹏真: 1993年生. 博士. 主要研究方向为多模态表示学习、视觉语言预训练和模型自动化设计

梁小丹: 1991年生. 博士，副教授，博士生导师. CCF会员. 主要研究方向为计算机视觉、自然语言理解、智能驾驶

常晓军: 1986年生. 博士，教授，博士生导师. 主要研究方向为多模态学习、计算机视觉、绿色人工智能

赵子莹: 1985年. 博士，高级工程师，博士生导师. 主要研究方向为人工智能与空间分析、大模型技术应用

肖云: 1978年生. 博士，教授，博士生导师. CCF高级会员. 主要研究方向为数据挖据、机器学习、人工智能算法研究及应用

通讯作者:
肖云（yxiao@nwu.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 48
- HTML全文浏览量: 12
- PDF下载量: 20
出版历程
- 收稿日期: 2024-01-28
- 修回日期: 2025-02-24
- 录用日期: 2025-03-02
- 网络出版日期: 2025-03-02

Neural Architecture Search on Temporal Convolutions for Complex Action Recognition

1.
Pengcheng Laboratory, Shenzhen, Guangdong 518000
2.
DarkMatter AI Research, Guangzhou 511466
3.
School of Intelligent Engineering, Sun Yat-sen University, Shenzhen, Guangdong 518107
4.
School of Information Science and Technology, University of Science and Technology of China, Hefei 230026
5.
School of Information Science and Technology, Northwest University, Xi'an 710127

Funds: This work was supported by the Major National Science and Technology Program (2020AAA0109704), the China Postdoctoral Science Foundation (2023M734009), the General Program of the National Natural Science Foundation of China (62372371)，the Key Projects of Shaanxi Province Int Science and Technology Cooperation Plan (2022KWZ-14), the Guangdong Outstanding Youth Fund (2021B1515020061), the Shenzhen Science and Technology Program (GJHZ20220913142600001), the Nansha Key RD Program (2022ZD014), the Pengcheng Laboratory Major Research Project (PCL2024AS101), and the CAAI-Huawei MindSpore Open Fund.

More Information

Author Bio:
Ren Pengzhen，born in 1993. PhD, engineer. His main research interests include multi-modal representation learning, visual language pre-training and model automation design

Liang Xiaodan，born in 1991. PhD, associate professor，PhD supervisor. Member of CCF. Her main research interests include computer vision, natural language understanding, and smart driving

Chang Xiaojun，born in 1986. PhD, professor，PhD supervisor. His main research interests include multi-modal learning, computer vision and green artificial intelligence

Zhao Ziying，born in 1985. PhD, senior engineer，PhD supervisor. Her main research interests include artificial intelligence and spatial analysis, and the application of large model technology

Xiao Yun，born in 1978. PhD, professor，PhD supervisor. Senior member of CCF. Her main research interests include data mining, machine learning, and artificial intelligence algorithm research and applications

摘要

摘要:
在视频的复杂动作识别领域中，模型的结构设计对其最终的性能起着至关重要的作用. 然而，人工设计的网络结构往往严重依赖于研究人员的知识和经验. 因此，神经架构搜索(neural architecture search，NAS)因其自动化的网络结构设计在图像处理领域受到研究人员的广泛关注. 当前，神经架构搜索已经在图像领域获得了巨大的发展，一些 NAS方法甚至将模型自动化设计所需的 GPU天数减少到了个位数，并且其搜索的模型结构表现出了强大的竞争潜力. 这鼓励我们将自动化模型结构设计拓展到视频领域. 但它面临2个严峻的挑战：1)如何尽可能捕获视频中的长程上下文时间关联；2)如何尽可能降低 3D卷积所带来的计算激增的问题. 为了应对上述挑战，提出了1个新颖的基于时间卷积的神经架构搜索复杂动作识别(neural architecture search on temporal convolutions for complex action recognition，NAS-TC)模型. 具体地，NAS-TC具有2个阶段：在第1阶段，采用经典的CNN 网络作为骨干网络，来完成计算密集型的特征提取任务. 在第2阶段，提出了一个神经架构搜索时间卷积层来完成相对轻量级的长程时间模型设计和信息提取. 这确保了提出的方法具有更合理的参数分配并且可以处理分钟级的视频. 最后，提出的方法在3个复杂动作识别基准数据集上和同类型方法相比平均获得了2.3% mAP的性能增益，并且参数量下降了28.5%.
- 复杂动作识别 /
- 神经架构搜索 /
- 卷积分解 /
- 视频理解 /
- 深度学习
Abstract:
In the field of complex action recognition in videos, the structural design of the model plays a crucial role in its final performance. However, manually designed network structures often rely heavily on the knowledge and experience of researchers. Therefore, neural architecture search (NAS) has received widespread attention from researchers in the field of image processing because of its automated network structure design. Currently, neural architecture search has achieved tremendous development in the image field. Some NAS methods even reduce the number of graphics processing unit (GPU) days required for automated model design to single digits, and the model structures they search show strong competitive potential. This encourages us to extend automated model structure design to the video domain. But it faces two serious challenges: 1) How to capture the long-range contextual temporal association in video as much as possible; 2) How to reduce the computational surge caused by 3D convolution as much as possible. To address the above challenges, we propose a novel Neural Architecture Search on Temporal Convolutions for Complex Action Recognition (NAS-TC). NAS- TC is a two-stage framework. In the first stage, we use the classic convolutional neural network (CNN) network as the backbone network to complete the computationally intensive feature extraction task. In the second stage, we propose a neural architecture search layer temporal convolutional layer (NAS-TC) to accomplish relatively lightweight long-range temporal model design and information extraction. This ensures that our method will have a more reasonable parameter allocation and can handle minute-level videos. Finally, the method we proposed achieved an average performance gain of 2.3% mAP on three complex action recognition benchmark data sets compared with similar methods, and the number of parameters was reduced by 28.5%.
- complex action recognition /
- neural architecture search /
- convolution decomposition /
- video understanding /
- deep learning

HTML全文

自2022年底OpenAI发布ChatGPT以来^[1]，众多高性能的开源大模型接连发布，掀起了全球范围内前所未有的大模型浪潮. 例如大语言模型GPT-4^[2]、LLaMA^[3]、多模态大模型LLaVA^[4]、视觉大模型SAM^[5]，这些大模型相较传统模型具有强大泛化能力，并呈现出了许多传统模型不具备的涌现能力，在自然语言处理和计算机视觉等领域的表现出卓越的性能. 这种卓越表现主要体现在的通用性与灵活性上，使得大模型成为解决复杂问题的重要工具，并在教育、医疗、文本生成等各个领域中均展现出非凡潜力，引起了科研界和产业界的广泛关注.

大模型优秀的性能体现在其巨大的参数规模上，但是其参数量具有逐渐提高的趋势，如图1所示，为模型的训练和推理带来巨大的挑战. 庞大的参数规模使得大模型需要在云端才能完成训练与推理部署，而当前基于云平台的大模型训练和推理方案面临诸多挑战，包括高昂的成本、有限的可扩展性和信息安全风险等. 例如LLaMa2-70B的预训练在具有760个A100 GPU节点的超级集群上完成，总计消耗172万个GPU时^[6]，半精度下推理则至少需要140 GB的显存容量. 随着模型参数规模的不断扩大，对于低成本、高效训练和推理的需求显得愈发迫切.

图 1 大模型参数量增加趋势

Figure 1. Trend of parameter growth in large models

下载: 全尺寸图片幻灯片

边缘智能在近年来随着物联网、云计算和大数据技术的融合与发展逐渐受到关注^[7]，在降低大模型成本上潜力巨大，成为推动大模型实现技术普惠的重要手段. 边缘智能指的是在网络的边缘侧，即数据源附近，进行数据处理和分析的能力. 与传统的云计算模式相比，边缘智能强调在设备或终端上直接进行计算和决策，从而实现对数据的实时、高效处理. 然而，大模型通常需要在云端或高性能计算环境中运行，这可能导致数据传输延迟和带宽限制等问题. 而边缘智能则可以在设备端或网络边缘进行数据处理和分析，减少了数据传输的延迟和带宽需求. 大模型和边缘智能可以相互协同，实现更高效的数据处理和分析. 例如，大模型可以在云端进行全局优化和决策，而边缘智能则可以在设备端进行局部优化和实时响应. 这种协同优化可以进一步提高系统的性能和效率. 目前国内部分头部手机厂商已经初步实现移动端嵌入大模型，Apple公司研发部门也提出了有限内存下大模型部署方法^[8]，有望将大模型融入其产品中. 可以预见大模型逐步进入移动端，甚至IoT生态中是未来不可避免的趋势.

有关大模型边缘智能化研究方向可以被分为训练与推理2部分. 边缘侧的大模型训练，通常指的是大模型的微调训练，该过程主要包含参数高效微调和全微调2种策略. 参数高效微调旨在通过调整大模型中的一小部分参数，以适应新的任务或数据需求. 这一方法通过深入研究不同的训练参数配置或在大模型中嵌入特定模块，以实现高效的大模型微调. 而全微调训练则涉及到大模型中所有参数的调整，以全面更新模型. 鉴于数据隐私性的重要性和边缘设备的异构性特征，参数高效微调往往与联邦学习相结合，探究在联邦学习框架下如何有效提升不同参数高效微调方法的性能. 大模型推理优化技术利用大模型自身特点加速模型推理速度，包括服务优化、通用优化以及设备优化. 边缘侧大模型推理方法包括适用于边缘侧通用优化和设备优化，可以被概括为先于部署的模型压缩方法、部署后的模型层面推理优化、以及部署后的系统层面推理优化. 此外部分工作致力于提供大模型的边缘侧部署方案，这些工作通常结合上述一种或多种大模型的推理加速方法，为大模型在边缘侧部署提供便利.

本文从边缘智能视角，全面调研了面向边缘智能的大模型相关研究，聚焦于大模型边缘训练和推理2个角度，对当前相关研究进行了深入分析和讨论. 最后，给出了面向边缘智能的大模型技术发展所面临的挑战和未来展望.

1. 大模型边缘训练的研究进展

目前在边缘侧进行大模型训练的研究主要为大模型微调，在传统微调策略中，对大型预训练模型的全部参数进行优化以适应新任务，通常在大模型场景下显得耗时且资源密集. 而参数高效微调方法通过仅修改或添加少量额外参数来实现模型的微调，同时保持模型主体的参数固定不变，从而节省资源、加速训练过程并促进模型在边缘场景下的有效应用. 然而，传统的中心化微调方法要求所有数据汇聚至中心节点，这不仅增加了数据泄露的风险，还可能导致隐私侵犯. 而联邦学习^[9]作为一种新兴范式，允许数据保留在边缘设备上，仅模型的更新在加密或经过处理后被发送到中央服务器，从而显著降低了隐私泄露的风险，并满足了GDPR^[10]等严格隐私保护法规的要求. 然而边缘设备往往受限于有限的计算资源、通信资源和存储资源，大型模型的庞大参数对边缘设备构成了沉重的计算与存储负担，同时也导致了高昂的通信成本. 因此在联邦学习中引入参数高效微调方法，成为解决上述问题的有效途径. 本章节将聚焦联邦参数高效微调方法，从边缘智能的视角出发，对大型模型的微调技术进行深入探讨和细致分析.

1.1 大模型边缘微调的整体流程

大模型参数量规模的迅速增加使得模型在有限算力资源条件下的训练和微调更具有挑战性，为实现高效大模型预训练，现有研究从内存高效和数据高效2方面加速模型训练或降低训练成本. 然而模型规模的增大使得训练在费用、时长、能耗、数据量、硬件资源等方面的需求愈发强烈，例如175B的GPT3模型单次训练费用高达460万美元^[11]，使用4 990亿个token^[12]，预计到2027年大模型训练成本最大花费可达10亿美元^[13]，使得有限资源下的大模型预训练愈发困难. 微调作为一种可以将模型适配到特定领域的技术，因其无需重新训练模型参数而受到学术界和工业界广泛关注. 现有大模型微调技术研究可被分类为全参数微调和参数高效微调2方面，全参数微调通过微调大模型所有参数以取得更好的微调表现^[14]，因此通常导致微调开销偏大，部分研究通过优化微调过程中的参数更新步骤来降低内存需求^[15-16]. 参数高效微调旨在减少模型参数更新量，仅需更新模型中的部分参数，同时保持良好的性能，以达到适应下游任务的目的^[17]. 参数高效微调方法的关键在于选择哪些参数进行微调，以及如何设计有效的微调策略来优化这些参数. 与全参数微调方法相比，参数高效微调技术具有以下优点：

1）减少计算资源消耗. 由于只需要更新模型的一小部分参数，因此可以大大减少计算资源的消耗，加快训练速度.

2）降低过拟合风险. 通过仅调整模型的一部分参数，可以降低过拟合的风险，提高模型的泛化能力.

3）更好的可扩展性. 参数高效微调技术可以更容易地应用于不同的预训练模型和任务，具有较好的可扩展性.

在大多数现实世界场景中，目前的微调主要以集中式的方法将数据集中在一起进行集中微调. 在边缘智能场景下进行大模型微调通常存在以下几个挑战：

1）边缘智能环境下的数据通常包含敏感信息，集中式微调会造成敏感数据外泄风险. 如何保证数据的安全和隐私，同时进行有效的模型训练，是一个需要解决的问题.

2）边缘设备的带宽和存储资源往往有限难以满足微调的计算和通信需求，大模型的微调需要大量的计算资源和存储空间，这使得在边缘设备上直接进行微调变得困难.

3）边缘设备可能需要处理多种不同的任务，这些任务可能有不同的数据分布和需求. 同时边缘设备可能只有有限的数据可用，这可能导致模型微调时的过拟合或不足.

因此目前针对边缘侧设备进行微调主要采取将联邦学习与参数高效微调技术相结合的方法^[18]，通过联邦学习，可以在不同数据源上协同训练模型，这有助于提高模型对不同数据集的适应性和泛化能力，并且使得数据处理过程主要在本地完成，避免了敏感数据的外泄风险，强化了隐私保护，同时使用参数高效微调技术减少了大量数据的传输，从而降低了通信成本，特别是在移动设备或边缘计算场景下尤为重要. 联邦高效参数微调技术不仅能够提高模型的性能和泛化能力，还能在保护隐私、降低计算和通信成本、提高响应速度和能源效率方面发挥重要作用. 这种结合方法为大模型的微调训练和应用提供了一种更加高效、安全和可持续的途径，特别适合于分布式和资源受限的边缘计算环境，联邦参数高效微调的流程如所示. 首先，服务端冻结预训练大模型的参数W_p，依据特定的参数高效微调策略确定可训练全局参数 $W_c^t$ ，并进行相应的初始化. 随后，服务端将可训练全局参数 $W_c^t$ 分发给各边缘设备. 在边缘设备上，基于本地数据集对可训练全局参数 $W_c^t$ 进行更新，得到本地参数 $W_c^{k,t}$ ，并将这些参数上传至服务端. 服务端接收各边缘设备的本地参数后，进行聚合更新，进而优化大模型，得到新的全局参数 $W_c^{t+1}$ . 此过程循环往复，直至模型收敛或达到预定的训练轮次. 整个流程的关键阶段涵盖预训练大模型的初始化和参数冻结、边缘设备基于本地数据集的参数微调、以及服务端对参数的聚合与全局模型的优化. 这一流程在确保数据隐私和边缘设备资源有效利用的同时，有效提升了模型的性能.

图 2 大模型联邦参数高效微调框架

Figure 2. Federated efficient fine-tuning framework for large model

下载: 全尺寸图片幻灯片

1.2 大模型边缘微调方法

参数高效微调技术旨在仅通过调整模型的一小部分参数来适应新的任务或数据，从而提高模型的性能和泛化能力，同时减少计算和存储资源的消耗. 该技术现有研究主要包括适配器微调^[19-21]、前缀微调^[22-23]、提示词微调^[24-26]、低秩适配^[27-28]等方向，表1展示了上述几种方法的更新的参数和近期工作.

表 1 不同微调方法的比较

Table 1. Comparison of Different Fine-Tuning Methods

大模型微调技术	相关工作	更新的参数
适配器微调	文献[19−21]	适配器模块
前缀微调	文献[22−23]	“前缀”向量序列
提示微调	文献[24−26]	提示词向量
低秩适配	文献[27−28]	低秩矩阵
全微调技术	文献[14-16]	大模型所有参数

下载: 导出CSV

| 显示表格

1）适配器微调

适配器微调技术通过向LLM插入瓶颈架构的可训练神经网络模块（即适配器Adapter），达到有效减少可训练参数量的目的. 这些适配器通常只占据原始模型大小的一小部分，但能有效地进行任务适配. 它们被插入到预训练模型的每一层或者特定的一些层中，以学习特定下游任务的知识. 适配器由2个前馈子层构成，第1个子层负责将输入维度从原始的d投影到一个较小的维度m，以此来限制适配器模块的参数量. 第2个子层则将维度m重新投影回d，输出作为适配器模块的结果.

2）前缀微调

前缀微调技术是一种轻量级的微调方法，它通过在输入序列前添加1个连续的、特定于任务的向量序列来实现模型的快速适应. 前缀微调技术的关键在于向模型的输入中引入一个称为“前缀”的向量序列. 这个前缀是由自由参数组成的，不与任何实际的词汇单元对应，它能够为模型提供关于当前处理任务的信息. 这种方法的核心优势在于，它只需要训练非常少的额外参数，有时甚至只需0.1%的参数，就能实现与传统微调相当甚至更优的性能.

3）提示微调

提示微调相关研究在模型的嵌入层加入可训练的提示词向量，将适应下游任务的提示嵌入与文本输入嵌入整合以实现模型适应下游任务并减少参数训练量的目的. 该技术主要依赖预训练语言模型的强大表达能力和泛化能力. 通过精心设计的提示词，可以激活模型中与任务相关的知识，使模型能够更好地理解和处理特定任务的数据.

4）低秩适配

低秩适配微调技术是一种高效微调预训练大型语言模型的方法，它主要通过在模型的权重矩阵上添加1个低秩矩阵来实现对新任务的快速适应. 低秩适配微调技术的核心思想是在预训练模型的权重矩阵中引入1个低秩矩阵，这个矩阵可以在微调过程中更新以学习特定任务的信息. 这种方法的总体思想和概念与主成分分析（principal component analysis，PCA）和奇异值分解（singular value decomposition，SVD）有关，它们都是利用低维表示来近似高维矩阵或数据集.

大模型联邦参数高效微调方法主要基于上述不同的参数高效微调方法对其联邦化，在联邦过程中会面临着隐私和异构等联邦学习中存在的挑战，现有工作对上述挑战做了初步的探讨和研究. 另外部分工作对大模型联邦微调框架的实现进行了研究和开发，旨在构建1套完整的大模型联邦微调流程和基准. 表2展示了现有大模型联邦微调工作，并根据其支持的高效参数微调方法、隐私保护和异构问题等方面进行了对比.

表 2 大模型联邦高效微调框架总结

Table 2. Summary of Federated Efficient Fine-tuning Framework for Large Models

大模型联邦微调框架	支持的参数高效微调方法	隐私保护	异构问题
FedPEAT^[29]	适配器调优	√	√
FedPepTAO^[30]	提示调优	×	√
SLoRA^[31]	低秩适配	×	√
FedPETuning^[32]	适配器调优、提示调优	√	×
FederatedScope-LLM^[33]	前缀调优、提示调优、低秩适配	√	×
FATE-LLM^[34]	适配器调优、提示调优	√	√

下载: 导出CSV

| 显示表格

在适配器调优方面，通过联邦学习方法对不同客户端的大模型层中适配器进行协同训练，通过传递适配器层进行聚合和分发来降低计算和通信带宽的成本. 文献[29]提出了一种将离线调优方法推广到仿真器辅助调优（emulator - assisted tuning，EAT），并将其与参数高效微调相结合，创建参数高效仿真器辅助调优，将其应用扩展到联邦学习中，适配器具有可训练的神经网络参数，为特定任务定制预训练模型，而模拟器提供原始模型的压缩固定参数表示. 这种组合不仅通过避免将完整模型传输到移动边缘设备来解决模型隐私问题，而且还显着提高了内存和计算效率. 此外，最近也有研究将联邦微调应用在视觉大模型和跨模态大模型的训练阶段，例如FedDAT^[35]提出针对异构多模态联邦学习的微调框架，利用双适配器结构和教师模型组成的双适配器教师模块（dual-adapter teacher，DAT）来处理数据异构性，并通过规范客户端本地更新和应用相互知识蒸馏以实现高效的知识转移，是首个能够高效分布式微调基础模型以适应多种异构视觉-语言任务的方法.

在提示调优方面，文献[30]提出了一种参数高效的自适应优化提示调优方法，利用联邦学习（federated learning，FL）调优大型语言模型. 由于在所有提示层中传递整个参数集对应于沉重的通信成本，提出了一种根据每一层的重要性选择适当的提示层的高效方法. 同时设计了一种评分方法，根据各层对最终收敛精度的调优影响来识别各层的重要性. PromptFL^[36]提出基于提示的训练框架来替换传统模型训练中训练整个共享模型的方法，只更新和传输提示，保留了CLIP模型的强大适应性和泛化能力，大幅减少了联邦学习的通信需求并提升了模型性能，保护用户隐私.

在低秩适配调优方面，由于FL中最大的挑战之一是在异构客户端分布场景下训练时性能下降，因此文献[31]提出了一种新颖的数据驱动初始化技术克服了LoRA在高异构数据场景中的关键限制，它包括2个阶段，首先客户使用完全微调技术协作更新模型找到一个成熟的起点（初始化器）来启动LoRA块，然后使用上一阶段学习到的初始化器运行LoRA算法. SLoRA实现了与完全微调相当的性能，具有大约1%密度的显著稀疏更新，同时将训练时间减少了90%.

在框架实现方面，由于大模型联邦微调的发展仍处于不成熟阶段，现有研究工作对大模型联邦微调算法的全面实现和基准研究不足，因此文献[32]提出了联邦参数高效微调框架，并为适配器调优、前缀调优和低秩调优方法开发了相应的联邦基准，同时测量了隐私保护能力、性能和资源成本，证明了将预训练大模型与FL相结合的潜力，为大模型时代的隐私保护学习提供了1个有前途的训练范式；文献[33]提出了1个基于FederatedScope的大模型联邦微调框架FederatedScope-LLM，该框架封装了来自不同领域的各种联邦微调数据集的集合，具有可调的数据异构级别和1套相应的评估任务，以形成1个完整的管道，以基准测试FL场景中的联邦微调大模型算法，提供了全面的联邦微调算法，具有较低的通信和计算成本以及通用的编程接口，支持客户端可以或不能访问完整模型的2种场景；文献[34]提出了一个工业级大模型联邦微调框架FATE，该框架支持同构和异构大语言模型的联邦微调训练，通过适配器调优、前缀调优等多种参数高效的微调方法促进FedLLM的高效训练，同时采用联邦知识产权保护方式保护大模型的知识产权以及通过隐私保护机制保护训练和推理过程中的数据隐私.

2. 大模型边缘推理方法与架构

大模型推理与部署是完成大模型边缘化的重要步骤，在模型的推理过程中，大模型庞大的参数规模产生了巨大的算力、内存、带宽等资源的消耗，令大模型的边缘化过程困难重重.

现有文献综述^[37-39]对大模型推理优化的调研并未有效区分边端侧推理与云端推理相关技术，并且更关注大模型的云端推理框架. 相比之下，本章节提供了边缘推理视角下的大模型优化加速与部署框架的调研，通过挑选具有代表性且适用于边缘设备推理的最新研究进展，系统性总结近年来大模型推理流程优化的创新工作，并提出相关见解. 需要指出的是，我们仅对软件层面的优化工作进行了调研，硬件加速方面的工作已有详细总结^[40-42]，虽然本节不包括硬件相关工作，但是这些研究在大模型迈向边缘的道路上同样起到了不可或缺的作用.

2.1 大模型边缘推理的整体流程

在边缘智能的一般范式中，在应用到推理场景之前需要结合多种优化方法对模型进行进一步处理^[7]，并利用计算卸载、资源分配、协同等关键技术实现边缘侧优化目标^[43]. 然而模型参数规模的膨胀使得这些技术在边缘侧设备的应用效果越来越不明显，为此需求对大模型进行针对性的优化，以弥补巨大的算力等资源需求与边缘侧低资源设备的间隙. 图3展示了主流大模型边缘推理的一般流程，在预训练模型正式部署服务之前，大模型边缘化关键技术从多种角度对大模型的资源消耗作出优化，大模型部署框架整合上述技术，并结合目标部署环境提供系统级资源优化能力和友好用户接口.

图 3 大模型边缘推理流程

Figure 3. Process of large model inference for edge

下载: 全尺寸图片幻灯片

现有主流大模型边缘化关键技术可概括为大模型压缩技术与大模型推理加速技术，我们将在后续与大模型边缘部署框架一同详细分析.

2.2 大模型压缩

一般神经网络的压缩技术可以分为参数剪枝、知识蒸馏、模型量化、低秩分解4个方向，目的是减少模型计算与存储等资源的消耗. 然而与一般神经网络不同的是，大模型具有架构庞大，算力需求高、访存量多、泛化能力强等特点，使得一般性的模型压缩方法在大模型上效率或效果不佳^[44]. 为了应对这些挑战，许多大模型专用的模型压缩方法被提出，我们在图4展示了这些工作不同方向的技术概况，在表3详细展示了上述几种方向的分类、优化目标以及近期相关工作.

图 4 大模型压缩技术概况

Figure 4. Overview of large model compression techniques

下载: 全尺寸图片幻灯片

表 3 大模型压缩关键技术相关工作分类

Table 3. Classification of Related Work for Large Model Compression

参数剪枝	结构化剪枝	剪除冗余结构，降低模型大小和计算复杂度	文献[45−48]
参数剪枝	非结构化剪枝	实现权重稀疏化，减小模型内存使用量和计算量，依赖特定软硬件加速模型张量运算	文献[49−51]
知识蒸馏	白盒蒸馏	产生特定领域下的小模型，减少模型尺寸和计算量，同时保持模型在特定任务下的性能	文献[52−60]
知识蒸馏	黑盒蒸馏	在不访问大模型内部结构的情况下，实现蒸馏过程，产生特定领域的小模型	文献[61−70]
模型量化	训练后量化	降低模型存储大小、节省存储、内存、带宽、计算量，同时保持模型精度	文献[71−81]
模型量化	量化感知训练	降低模型量化误差，在降低模型存储、内存、带宽、计算量的前提下，进一步保持模型精度	文献[82−86]
低秩分解	—	减少模型参数量，实现推理加速	文献[87−91]
“—”表示没有更细致的类别划分.

下载: 导出CSV

| 显示表格

1）参数剪枝

参数剪枝技术通过移除模型的冗余结构或权重压缩模型，按修剪粒度区分，现有大模型剪枝技术可分为结构化剪枝和非结构化剪枝. 结构化剪枝移除大模型参数矩阵多个通道或块结构等结构化组成部分，部分研究工作^[45-48]多于微调、量化、甚至训练相结合以降低精度损失、提高压缩效果. 非结构化剪枝不考虑大模型内部结构，通过神经元级别的删减使模型权重矩阵产生稀疏性，依赖特殊的软硬件实现张量运算加速^[92]. 一般的神经网络剪枝技术在剪枝后利用微调恢复模型的性能，然而由于大模型全参数微调的成本巨大，当前的大模型剪枝通常舍弃微调^[50-51]步骤，或者结合参数高效微调^[45,48]低成本. 由于剪枝无可避免地损失了模型性能，并且大模型参数全量微调对硬件设施算力的要求极高，此类方法应用在大模型上的实用性仍需进一步优化.

2）知识蒸馏

知识蒸馏技术将大模型作为教师模型，利用教师模型的监督信息训练一个小型学生模型，针对大模型的现有研究可分类为白盒蒸馏和黑盒蒸馏2种. 白盒蒸馏方法同时利用大模型的内部信息和输出训练学生模型，黑盒蒸馏方法假设大模型的内部结构不可见，仅利用教师模型的输出训练学生模. 与一般神经网络的知识蒸馏不同，大模型蒸馏更关注知识的转移，而不是架构上的压缩^[93]. 当大模型参数量达到一定程度后会表现出“涌现能力”，即处理复杂任务的表现惊人，利用该特点可以帮助小模型学习应对复杂任务，进而催生了基于思维链（chain-of-thought，CoT）、上下文学习（in-context learning，ICL）、指令遵循（instruction-following，IF）的黑盒蒸馏方法. 大模型的知识蒸馏通常用于将某一领域知识提炼到边缘设备可承载的小模型，用于特定的下游任务^[55]. 小型模型的知识储量和表达能力相较大型模型具有较大差距，使用者需要在模型能力与模型尺寸之间做出进一步权衡.

3）模型量化

模型量化方法将权重或激活值的浮点数表示形式转换为更低精度的数值表示形式，在尽量缩减误差的同时充分利用数值表示空间，主流的量化方案包括训练后量化（post-training quantization，PTQ）和量化感知训练（quantization-aware training，QAT）2种. PTQ直接转换训练后的模型权重为低精度格式，无需修改模型架构或重新训练，相比QAT具有简单高效的优势^[94]，而QAT将量化过程融入模型的训练过程，使模型适应低精度的存储格式，做到更低的精度损失. QAT的重训练方法对一般神经网络的精度恢复的通常具有明显效果，但执行大模型的训练成本非常昂贵，因此PTQ成为了大模型量化技术的主流^[71]，该部分将会在后文展开论述.

4）低秩分解

低秩分解利用模型权重矩阵的低秩特性，将矩阵近似分解为2个或多个更小的矩阵，以节省参数量. 该技术已被广泛用于大模型高效参数微调^[95]，但是最近的工作表明这种技术也可以用于模型压缩^[87-89]，且具有出色的压缩效果. 例如TensorGPT^[89]使用低秩张量压缩嵌入层，降低了LLM的空间复杂度并使其可在边缘设备上使用. LoSparse^[88]通过低秩矩阵和稀疏矩阵的和来近似权重矩阵，结合了低秩近似和结构化剪枝的有点，实现了大量内存的节省.

上述4种大模型压缩技术为大模型边缘部署提供了极大的便利，其中模型量化中的PTQ量化技术因为成本低、精度损失小、效率高而被广泛采用，已经成为大模型边缘部署和应用的重要优化技术. PTQ量化技术在大模型上的应用包含仅权重量化和权重激活值量化2个主流方向，图4（c）展示了两者的区别.

1）仅权重量化

为了弥补量化带来的误差，当前的大模型量化方案可分为3种，分别为离群值分离^[77]、2阶近似补偿^[78]、分布平滑^[79]. 这几种方法并不互斥，例如：SpQR^[80]对GPTQ^[78]的量化方案提出了进一步的优化策略，分离离群值并采用稀疏矩阵存储，对非离群值权重采用混合精度的双层量化策略，进一步降低了大模型量化后模型性能损失；AWQ^[71]基于LLM权重重要性不平衡的观点，按照激活值筛选重要权重，并引入平滑因子以减小重要权重的量化误差，最终实现了适用于多种大模型出色量化方案；OWQ^[81]理论分析了激活值的离群值对权重量化误差的放大效应，在AWQ基础上引入了权重矩阵的混合精度量化方案.

2）权重激活值量化

权重激活值量化同时量化权重和激活值，仅权重量化的优化技术同样也可以用于激活值. 例如：ZeroQuant^[76]提出了一种细粒度的硬件友好量化方案，对权重和激活值分别采用不同的量化粒度，并采用逐层知识蒸馏的方法缓解量化后精度损失；SmoothQuant^[79]通过平滑激活值分布，将激活值量化的难度转移到模型权重量化上，在此基础上实现了大模型的W8A8量化方案；Outlier Suppression+^[74]在Outlier Suppression^[73]的基础上，结合离群值非对称分布且主要集中在特定通道的特征，通过通道级转换和缩放以缓解非对称离群值引起的误差；OliVe^[75]采用离群值-受害者对量化，考虑到离群值相比正常值重要性更高，过低硬件开销的方法处理局部离群值；QLLM^[96]提出了一种自适应通道重组方法，以有效处理激活值中的离群值，并利用校准数据来抵消量化误差；FPTQ^[72]设计了一种新颖的W4A8后训练量化方法，将W8A8和W4A16的优势结合起来，并将细粒度的权重量化与逐层激活量化策略相结合，进一步保持模型的原始性能.

2.3 大模型推理加速

大模型推理加速是一系列不修改模型权重情况下优化模型推理效率的算法和技术，其中一些研究由于效果显著已经被广泛应用在模型部署流程中，如KV（key-value）缓存、推测解码等. 根据优化层级的不同，我们将这些研究工作分类为模型层面的优化与系统层面的优化2部分，并在表4中展示了与大模型推理加速相关的研究分类及相关工作.

表 4 大模型推理加速技术相关工作分类

Table 4. Classification of Related Work for Large Model Inference Acceleration Technology

优化层次	类别	目的	相关工作
推理算法优化	KV缓存	利用缓存避免注意力的重复计算，牺牲内存提高推理速度	文献[97−102]
	早期退出	提前终止或跳过不必要的计算，降低平均推理时延	文献[103−110]
	高效提示词	压缩或裁剪提示词，在长上下文场景下减少大模型推理计算量和成本	文献[111−115]
	推测解码	避免自回归算法带来的顺序依赖性，提高模型并行能力和推理速度.	文献[116−122]
系统效率优化	算子优化	充分利用硬件加速能力，减少冗余计算	文献[123−129]
系统效率优化	稀疏性加速	减少冗余计算、冗余内存加载	文献[8, 130−133]

下载: 导出CSV

| 显示表格

2.3.1 推理算法优化

该部分包含KV缓存、早期退出、高效提示词、推测解码4个方向. 图5展示了4种方法的示意图.

图 5 大模型推理算法优化概况

Figure 5. Overview of algorithm optimization for large model inference

下载: 全尺寸图片幻灯片

1）KV缓存

尽可能减少键值对的重复计算能够有效提高大模型推理效率，KV缓存通过在生成过程中缓存这些张量，从而避免每个生成步骤中重新计算过去的Token的键值. 然而KV缓存随着序列和批次大小而线性增长，使得内存或显存资源面临短缺，为此部分研究^[97-100]通过约束缓存数量、丢弃不必要的缓存项，以摆脱缓存长度的不可预测性. KV缓存与量化结合也是一种节省内存的方法，例如：KVQuant^[101]将KV缓存视为激活值，并应用量化技术进行低精度压缩，实现了超长上下文长度的LLM推理. 此外高效的内存管理策略对KV缓存的效率同样也有很大影响；PagedAttention^[102]受虚拟内存和分页机制启发，提出了一种高效的注意力算法. 这种方法对KV缓存进行分页内存管理，使得非连续存储变得高效，并减少了内部和外部存储的碎片化.

2）早期退出

早期推理是一种条件计算方法，允许不同样本在不同层中提前结束计算，在推理速度和准确性之间取得良好的平衡. 在逐Token生成的自回归大模型上，现有研究多从Token级别提出早退策略^[103]，并研究了多种退出条件^[105-110]. 此外部分研究^[103-104]更进一步，不同Token可以动态地跳过中间特定层，而不仅仅局限于早期层的提前退出. 然而早退改变了模型内部结构，因此需要重新训练或微调，这对于边缘侧设备来说可能是难以接受的.

3）高效提示词

将提示词进行压缩或裁剪可以有效减少大模型推理的计算量和成本，尤其是长上下文场景. 近期研究工作中，LLMZip^[111]使用7B参数量的Llama模型作为预测器，并与无损压缩方案结合，取得了较高的文本压缩率. AutoCompressors^[112]将预训练的大模型作为压缩器，能够生成长文本的摘要向量，在提高准确性的同时降低推理成本. Selective Context^[113]从信息论的角度出发，通过识别和修剪输入上下文中的冗余内容，使输入更加紧凑，从而提高LLM的推理效率. LLMLingua^[114]基于小型LLM模型，利用压缩与重排实现了在几乎无损的情况下高达20倍的压缩率. LongLLMLingua^[115]更进一步，提出了基于问题的文档压缩策略，面向长上下文场景下实现提示词高效压缩与推理加速.

4）推测解码

自回归模型的顺序依赖性^[116]使得现有大模型无法充分利用现代加速器能力，导致效率低下，为了摆脱这种依赖性，文献[117]首先提出了推测解码方法，通过使用较小的辅助模型自回归地生成候选序列，较大的主模型通过一次前馈传播判断候选序列中Token的正确性并予以纠正. SpecInfer^[118]利用多个小型辅助模型，以及一种基于树的推测与Token验证机制，大大降低了推理的端到端延迟. Medusa^[119] 在LLM的最后隐藏状态之上引入了多个头，无需引入辅助模型，能够并行预测多个后续Token. Lookahead^[116]将自回归解码视为求解非线性方程并采用经典雅可比迭代方法进行并行解码，同样也无需辅助模型. EAGLE^[120]根据原始模型中间层特征序列预测，使用小型自回归头在特征级别推断下一个特征，通过标记树实现更高的效率. LLMCad^[121]将推测解码技术推向边缘侧设备，在物联网设备和智能手机上大幅度提高了LLM生成速度.

另外，在大模型推理加速领域，从处理大语言模型的策略转向视觉大模型面对的是一个共通的挑战——如何在保证模型性能的同时减少计算资源消耗^[134]. 尽管语言模型和视觉模型在数据处理和模型结构上存在差异，但加速技术的目标一致，即提高实际应用中的推理速度和效率. MuE^[135]通过将图像和文本模态在编码器中分解，根据模态灵活跳过不同的层，实现多次早期退出，推动推理效率的同时最小化性能下降. SAMConvex^[136]提出一个粗到细的离散优化方法来提高CT图像配准的效率，通过计算SAM嵌入特征的内积来构建多尺度6D成本体积，以此提高模型在特定任务上的执行速度和准确性. MaskCLIP^[137]通过优化推理框架，将预训练的CLIP模型直接应用于像素级别的预测，而无需专门的注释或复杂的微调过程，实现对未见类别和概念的高效分割. CLIP-Forge^[138]采用2阶段训练过程，使用未标记的形状数据集和CLIP模型，从文本描述中以零样本的方式直接生成3维形状，无需在形状-文本配对标签上进行训练，同时采用完全前馈方法，避免了昂贵的推理时间，显著提高了推理阶段的效率.

2.3.2 系统效率优化

1）算子优化

基于Transformer^[139]架构的大模型核心算子包括注意力算子，算子效率优化通过利用软硬件资源，减少计算量和内存访问，或者利用内核融合等方法减小启动开销等，对于大模型在特定设备上推理具有显著优化效果. 对于GPU平台的大模型推理，FlashAttention^[123]提出了一种利用GPU上的高速SRAM（static random-access memory）的分块注意力算法，使用内核融合避免多次拷贝内存带来的通信开销. FlashAttention-2^[124]在原有基础上通过优化GPU线程之间的工作分配减少共享内存的读写操作. 它进一步通过在线程块和线程束之间分配注意力计算任务，增加了并行度以提高了占用率和效率. FlashDecoding^[125]引入了一个沿着键/值序列长度的并行化维度进行规约，即使在小批量大小和长上下文的情况下也能充分利用GPU. FlashDecoding++^[126]引入了一个基于统一最大值的异步softmax来消除同步开销以提高了注意力计算效率. 它通过双缓冲优化了平面GEMM（general matrix multiplication）操作，提高了计算利用率并减少了内存延迟. 此外FlashDecoding++实现了一种启发式数据流，能够动态适应硬件资源. 对于CPU平台的大模型推理，现有研究^[122]多设计高度优化的GEMM内核，利用低精度运算和SIMD（single instruction multiple data）指令集的优势加速大模型算子的计算. 此外，机器学习编译技术通常将算子融合和优化作为优化目标之一，深度学习编译器^[127-129]已被广泛应用在许多大模型部署框架中，对于减少冗余计算，利用边缘硬件环境进行加速具有重要意义.

2）稀疏性加速

近期研究表明，大模型在推理时的激活值具有显著的稀疏性，这为大模型推理效率的优化带来了诸多启发. 基于上述观点，文献[130]提出了“上下文稀疏性假设”，使用预测器根据上一层激活值动态预测下一层需要激活的神经元或注意力头，通过舍弃不必要计算达到模型加速效果. 除了利用稀疏性减少计算量之外，另一部分研究通过该观点实现高效的内存卸载策略. 内存卸载是一种将权重“卸载”到外部存储，在需要时加载部分权重到内存中，使得边缘设备可以运行超过其内存大小的模型. 但是频繁的内存交换会导致显著的通信开销，为此高效的内存卸载策略是一个重要的研究方向. FlexGen^[131]开发了一种基于线性规划的搜索算法优化吞吐量，以达到最优的卸载策略，并一步将权重和注意力缓存压缩至4 b，从而显着提高LLM推理时最大吞吐量. PowerInfer^[132]发现大模型推理表现出高度的局部性，一些被称为“热激活神经元”的神经元被频繁激活. 基于这一观察，PowerInfer设计了神经元感知卸载策略和推理引擎，利用显存和内存存储权重，为显存预加载频繁激活的神经元的权重，而不活跃的神经元的权重则保留在内存中. 针对如何在有限内存设备上设计内存卸载策略的问题，LLM in a flash^[8]提出了一种基于DRAM（dynamic random-access memory）和闪存的内存卸载策略，将LLM的权重存储在闪存中，而将注意力缓存存储在DRAM中，利用滑动窗口缓存过去激活的标记，静态内存预分配以最大限度减少加载延迟，从而在有限的内存设备上实现LLM推理. EdgeMoE^[133]则开发了是专门为混合专家模型（mixture of experts，MoE）设计的内存卸载策略，利用MoE架构的稀疏性，非专家权重存于内存，专家权重仅在激活时从外部存储加载以实现边缘设备的内存节省.

2.4 大模型边缘部署框架

大模型的部署框架通常集合多种模型优化技术，并提供了模型的系统级调度或其他功能. 目前主流大模型部署框架^[140-143]虽然提供了设备端部署的能力，但倾向于关注大模型的服务端推理和服务能力. 边缘侧的设备通常不具备或具有有限的高性能的神经网络加速芯片，算力和存储相比云端具有显著差异，众多适用于边缘侧的大模型推理引擎和框架因此诞生，并为大模型在边缘侧的开发与应用提供便利.

表5展示了现有适用于边缘侧的开源大模型推理框架和引擎，分为通用与专用2部分. 通用框架指的是通用的边缘侧深度学习推理框架，如TFLite^[146]，TorchExec^[147]，MNN^[148]，NCNN^[149]，这些引擎通常不涉及对大模型架构的专门优化，但是其通用性和灵活性使得它们可以适用于多种模型. 另一类推理引擎是专门为大模型推理设计的专用框架，不同于通用的机器学习边缘部署框架^[144]，它们通常根据大模型的特点提供专用的加速方案. 其中部分框架具有跨架构平台的部署能力，如支持在Intel，ARM等芯片架构上运行，而另一些框架则为专门的边缘计算平台设计. 此外表格显示模型量化作为一种低成本高成效的优化方案，受到大多数边缘部署框架支持，或提供了量化后模型的推理能力. 部分框架，如MLC-LLM，利用了机器学习编译等技术，进一步减少端侧大模型推理的计算冗余.

表 5 大模型边缘部署框架总结

Table 5. Summary of Edge Deployment Frameworks for Large Models

适用性	框架	特点	量化	多模型支持	跨平台支持
通用	TFLite^[146]	在移动设备、嵌入式设备和loT设备上运行模型，支持多种开发语言和硬件加速	√	√	√
	TorchExec^[147]	PyTorch平台下边缘部署工具，兼容多种计算平台并具有轻量级运行时	√	√	√
	MNN^[148]	轻量级的深度神经网络引擎，对模型格式、算子、设备、操作系统具有广泛的兼容性	√	√	√
	NCNN^[149]	适用于移动端的神经网络推理框架，无第三方依赖	√	√	√
专用	MLC-LLM^[150]	使用机器学习编译技术加速推理	√	√	√
	llama.cpp^[151]	C/C++中LLM推理	√	√	√
	llama2.c^[152]	纯C语言环境执行Llama推理			√
	Mllm^[153]	适用于移动和边缘设备的多模态推理引擎	√	√	√
	Intel Extension for Transformers^[154]	在英特尔平台上提供LLM高效推理	√	√
	InferLLM^[155]	轻量级LLM推理框架，可部署至移动设备		√	√
	TinyChatEngine^[156]	支持多种设备上的多种量化方法	√	√	√
	NanoLLM^[157]	为NVIDIA Jetson设计的轻量级LLM推理引擎		√

下载: 导出CSV

| 显示表格

边缘侧的大模型部署框架仍然处于发展阶段，许多框架提供的能力十分有限，适用于边缘侧的大模型的部署框架作为关系大模型能否在边缘侧落地的重要因素，其可用性和多样性仍然有待提高. 除上述框架之外，部分工作如PoweInfer^[132]，FlexGen^[131]，DeepSparse^[145]支持消费级PC计算设备上的大语言模型推理，但是这些推理引擎要求设备具备一定的算力水平，其有效性未在边缘侧设备上进行进一步实验. 但是由于其对LLM推理的提出了多种优化技术与思想，这些工作对推动边缘侧大模型部署仍有较大的参考价值.

3. 未来挑战和展望

本文从边缘智能出发，描述了边缘智能下大模型的背景和发展. 着重从大模型推理和训练2个阶段涉及到的关键技术进行了归纳总结. 截至目前，边缘智能下的大模型发展还处于初期阶段，结合边缘智能的特点，目前还存在着以下几个值得关注和讨论的方向：

1）新型大模型架构. 目前Transformer架构在预训练大模型中已经占据主导地位，但是其使用的自注意力机制具有平方级别的计算复杂度，使得大模型训练和推理仍然面临成本高、效率低的问题，这一挑战在长文本情景下尤为凸显. 为了缓解Transfromer架构带来的训练和推理时的资源需求，此前部分研究工作提出了诸多Transformer变体，针对注意力机制^[158-160]或前馈网络^[161-163]进行了大量研究并展现出巨大潜力. 另一研究方向则提出了新的模型架构以取代Transformer，如Mamba^[164]，RWKV^[165]，RetNet^[166]等. 尽管这些架构在性能和效率方面具有不凡的竞争力，但是以这些架构为基础的大模型数量有限，新架构在实践中相比Transformer架构是否具有显著优势，以及模型架构是否存在进一步优化空间仍然有待探索. 新型高效架构的探索有望成为大模型领域的重要突破，因此具有较大的研究价值，特别是具有硬件或系统级优化的体系结构，有望让边缘侧大模型的应用成本进一步降低.

2）边缘侧设备资源受限. 大模型的训练与推理需要消耗大量计算、内存资源，这种消耗对于边缘设备来说可能是无法承担的. 传统的边缘侧深度学习模型部署通常结合轻量化模型结构、模型压缩等技术，但是此类方法仍难以满足大模型在部署到边缘侧时对各种资源的需求. 针对此问题，研究更先进的大模型的压缩与加速技术、针对边缘设备的硬件加速器和专门的推理引擎均可以改善大模型在资源受限环境中的微调或推理效率，有望进一步降低大模型在边缘侧部署的成本与压力. 同时，现有大模型边缘部署方案通常是将模型完整部署到边缘环境，云边协同作为一种能够平衡利用云端与边端资源的协作模式，如何与现有大模型结合，以实现更高效、更稳定的边缘侧推理方案，同样也是一个前景广阔的研究方向.

3）边缘资源与需求动态性. 相比于云计算同质化的计算资源，边缘节点通常具有设备异构性、网络状况多变、存储计算资源差异等特点，使得现有大模型边缘侧微调与推理面临可移植性和效率问题. 同时边缘侧场景下用户对模型推理时延、精度等指标的需求也各不相同，使得大模型难以在边缘环境提供稳定一致的服务. 通过对边缘侧动态场景进行建模，确立适应动态资源及需求变化的调度机制、协同化策略、自适应算法等方案，是值得进一步关注的问题.

4）大模型联邦微调的异构性问题. 复杂动态环境下智能感知中存在“昆虫纲”悖论难题^[167-168]，包含感、算、存、传等资源差异性，环境的复杂性与动态性等挑战. 带来感知计算不实时、效果差、难统一等问题. 具体来讲在边缘侧联合众多边缘设备资源来进行大模型联邦微调训练是一种普遍认可的应对大模型定制化需求的可行手段，但在多个边缘设备间对大模型进行联邦微调训练过程中，面对大模型以GB为单位的庞大参数，资源受限的边缘设备难以支持其性能需求^[83]，同时在客户端间大量的参数传递也给通信带来了巨大压力^[169]，导致微调训练效率低下；另一方面，在大模型联邦微调训练中普遍存在的设备异构与数据异构问题更加凸显，严重影响了训练效果和收敛速度^[170-171]. 因此如何在边缘侧资源受限，通信压力大，设备异构、数据异构普遍存在的条件下进行大模型联邦微调训练，还需进行针对性的深入研究.

5）隐私问题. 随着模型规模的不断扩大，所需的训练数据量也急剧增加，这导致用户隐私泄露的风险加大. 在模型训练过程中，如果不采取适当的保护措施，用户的敏感信息可能会被泄露给攻击者，从而引发严重的隐私安全问题. 同时大模型本身也可能成为攻击的目标. 攻击者可能会利用模型的漏洞或弱点，对模型进行攻击，从而获取到模型的训练数据、模型结构或推理结果等敏感信息. 这种攻击方式不仅会对用户的隐私造成威胁，还会对模型的可用性和可靠性产生严重影响.

6）大模型伦理的规范化. 随着大模型逐渐深入边缘侧并应用于各种下游任务，大模型本身的价值观和伦理道德倾向对人类社会的潜在风险愈发显著，同时模型本身的随机性和不可解释性也加剧了大模型伦理问题的不可控性. 现有大模型伦理道德规范化手段主要有训练前数据过滤、输出矫正、基于人类反馈的强化学习等，均可以在一定程度上将大模型价值观与人类对齐，但是对齐效果与真实人类社会伦理标准仍然存在巨大差距，未真正实现AI与人类普适道德价值的深度对齐^[172].大模型的伦理规范问题是全人类社会应当共同应对的挑战，研究更加有效人工智能伦理规范方法和框架，是大模型未来重要的研究方向.

4. 总　　结

边缘智能下的大模型训练和推理具有极大的潜在应用价值，目前的研究还都尚处于初期阶段，许多问题都没有明确的统一和规范，值得我们重点研究. 本文首先对边缘智能和大模型的发展以及背景进行了简要回顾，对训练和推理过程中涉及到的关键技术进行了归纳总结，重点从边缘智能角度分析了大模型边缘推理和训练存在的挑战和发展方向. 总的来看，在边缘侧进行大模型推理和训练具有极大的应用价值和发展空间，我们未来的研究工作重点将放在动态场景下的大模型推理和训练方面.

作者贡献声明：王睿提出了论文框架、文献调研路线、指导论文写作并修改论文;张留洋和高志涌负责文献调研、撰写及修改部分论文；姜彤雲补充完善论文.

图 1 一个包含4个单元动作的复杂动作的长视频示例

Figure 1. A long video example of a complex action with 4 unit actions

下载: 全尺寸图片幻灯片

图 2 基于单元网络堆叠的神经架构搜索网络结构图

Figure 2. Neural architecture search network structure diagram based on cell network stacking

下载: 全尺寸图片幻灯片

图 3 搜索空间和单元操作示意图

Figure 3. Schematic diagram of search space and unit operations

下载: 全尺寸图片幻灯片

图 4 NAS-TC 的网络架构

Figure 4. network architecture of NAS-TC

下载: 全尺寸图片幻灯片

图 5 模型参数量随着 TC 层数增加的变化曲线

Figure 5. The variation curve of model parameter quantity with increasing TC layers

下载: 全尺寸图片幻灯片

图 6 NAS-Temp 和时间卷积模块的结构对比

Figure 6. Structure comparison of NAS-Temp and temporal conv module

下载: 全尺寸图片幻灯片

表 1 候选操作集的参数

Table 1 Parameters of Candidate Operation Set

O	核大小( $k$ )	膨胀率( $d$ )	组数( $g$ )	填充数( $p$ )
Identity	-	-	-	-
Zero	-	-	-	-
Avg pool 2	(2,1,1)	-	-	(1,0,0)
Max pool 2	(2,1,1)	-(2,1,1)	-	(1,0,0)
DilConv $k3$	(3,1,1)	2	$C$	(2,0,0)
DilConv_ $k$ 5	(5,1,1)	2	$C$	(4,0,0)
SepConv $k$ 3	(3,1,1)	1	-	(1,0,0)
SepConv $k$ 5	(5,1,1)	1	-	(2,0,0)
SepConv $k$ 7	(7,1,1)	1	-	(3,0,0)
注：- 表示不适用.

下载: 导出CSV

表 2 数据集的统计信息

Table 2 Statistics of the Dataset

数据集	视频数	总时长/h	平均时长/min	动作数/视频	种类数
Charades	9848	82	0.5	6	157
MultiTHUMOS	400	30	4.5	11	65
BreakfastActions	1712	66	2.3	7	48

下载: 导出CSV

表 3 不同时间步长输入下模型的性能对比

Table 3 Performance Comparison of Models with Different Timesteps Inputs

I3D	CNN_Steps ⇒ TC_Steps	Timeception^[26]		NAS-TC（本文）
I3D	CNN_Steps ⇒ TC_Steps	参数量/M	mAP/%	参数量/M	mAP/%
+ 3 TC	256 ⇒ 32	2.0	33.9	1.5	34.5 (0.6 ↑)
+ 3 TC	512 ⇒ 64	2.0	35.5	1.5	37.2 (1.7 ↑)
+ 4 TC	1 024 ⇒ 128	2.8	37.2	2.0	39.3 (2.1 ↑)

下载: 导出CSV

表 4 在Charades数据集上不同方法的性能比较

Table 4 Performance Comparison of Different Methods on Charades Dataset

方法	数据模态	mAP/%
R-C3D^[72]	RGB + Flow	12.7
Two-stream^[63]	RGB + Flow	18.6
Two-stream+LSTM^[63]	RGB + Flow	17.8
ActionVLA^D[69]	RGB + iDT	21.0
TemporalFields^[63]	RGB + Flow	22.4
TemporalRelations^[59]	RGB	25.2
ResNet-152^[63]	RGB	22.8
ResNet-152+Timeception^[27]	RGB	31.6
3D ResNet-101^[62]	RGB	35.5
I3D+TAN^[73]	RGB + Flow	17.6
I3D+Super-events^[74]	RGB + Flow	19.4
I3D+TGM^[75]	RGB + Flow	21.5
I3D+MLAD^[76]	RGB + Flow	23.7
I3D+PDAN^[77]	RGB + Flow	26.5
I3D+CTRN^[78]	RGB + Flow	27.8
I3D+GCAN^[79]	RGB + Flow	27.7
I3D^[58]	RGB	32.9
I3D+ActionVLAD^[69]	RGB	35.4
I3D+Timeception^[27]	RGB	37.2
I3D-NL^[62]	RGB	37.5
I3D+VideoGraph^[70]	RGB	37.8
I3D+EvaNet^[71]	RGB	38.1
I3D+GHRM^[80]	RGB	38.3
I3D+UGPT^[81]	RGB	38.8
I3D+NAS-TC（本文）	RGB	39.3 (2.1↑)

下载: 导出CSV

表 5 在 MultiTHUMOS 数据集上不同方法的性能比较

Table 5 Performance Comparison of Different Methods on MultiTHUMOS Dataset

方法	核大小 $k$	膨胀率 $d$	mAP/%
Two-stream^[63]	-	-	27.60
Two-stream+LSTM^[63]	-	-	28.10
Muti-LSTM^[63]	-	-	29.60
I3D+super-events^[74]	-	-	36.40
I3D+super-events+TGMs^[75]	-	-	46.40
I3D^[58]	-	-	72.43
I3D+Timeception^[27]	3	1	72.83
I3D+Timeception^[27]	3	1,2,3	74.52
I3D+Timeception^[27]	1,3,5,7	1	74.79
I3D+NAS-TC（本文）	3,5,7	1,2	76.83 (2.04 ↑)
注：“-”表示不适用.

下载: 导出CSV

表 6 不同方法在 BreakfastAction 数据集上的性能比较

Table 6 Performance Comparison of Different Methods on BreakfastAction Dataset

方法	Activities Acc/%	Actions mAP/%
ResNet-152^[63]	41.13	32.65
ResNet-152+ActionVLAD^[69]	55.49	47.12
ResNet-152+Timeception^[27]	57.75	48.47
ResNet-152+VideoGraph^[70]	59.12	49.38
I3D^[58]	58.61	47.05
I3D+ActionVLAD^[69]	65.48	60.20
I3D+Timeception^[27]	67.07	61.82
I3D+VideoGraph^[70]	69.45	63.14
I3D+NAS-TC（本文）	71.89 (4.82 ↑)	64.64 (2.82 ↑)

下载: 导出CSV

参考文献(81)

[1]	Chang Xiaojun, Yu Yao-Liang, Yang Yi, et al. They are not equally reliable: Semantic event search using differentiated concept classifiers [C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1884−1893
[2]	Ji Yuzhu, Zhang Haijun, Zhang Zhao, et al. CNN-based encoder-decoder networks for salient object detection: A comprehensive review and recent advances[J]. Information Sciences, 2021, 546: 835−857
[3]	Ren Jiahuan, Zhang Zhao, Hong Richang, et al. Robust low-rank convolution network for image denoising [C] //Proc of the 30th ACM Int Conf on Multimedia. Lisbon, New York: ACM, 2022: 6211−6219
[4]	Wu Zhihao, Zhao Zhang, and Fan Jicong. Graph convolutional kernel machine versus graph convolutional networks [C/OL] //Proc of the 37th Advances in Neural Information Processing Systems, 2023[2024-08-01]. https://proceedings.neurips.cc/paper_files/paper/2023/hash/3ec6c6fc9065aa57785eb05dffe7c3db-Abstract-Conference.html
[5]	Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image recognition [C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8697−8710
[6]	Real E, Aggarwal A, Huang Y, et al. Regularized evolution for image classifier architecture search [C] //Proc of the 23rd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 4780−4789
[7]	Ren Pengzhen, Xiao Yun, Chang Xiaojun, et al. A comprehensive survey of neural architecture search: Challenges and solutions[J]. ACM Computing Surveys (CSUR), 2021, 54(4): 1−34
[8]	Zhang Xingwu, Ma Rui, Zhao Yu, et al. Differentiable sampling based efficient architecture search for automatic fault diagnosis[J]. Engineering Applications of Artificial Intelligence, 2024, 127(1): 107−214
[9]	孟子尧,谷雪,梁艳春,许东,吴春国. 深度神经架构搜索综述[J]. 计算机研究与发展,2021,58(1):22−33 doi: 10.7544/issn1000-1239.2021.20190851 Meng Ziyao, Gu Xue, Liang Yanchun, et al. Deep neural architecture search: A survey[J]. Journal of Computer Research and Development, 2021, 58(1): 22−33(in Chinese) doi: 10.7544/issn1000-1239.2021.20190851
[10]	Sigurdsson G A, Varol G, Wang Xiaolong, et al. Hollywood in homes: Crowdsourcing data collection for activity understanding [C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 510−526
[11]	Cai Han and Chen Tianyao, Zhang Weinan, et al. Efficient architecture search by network transformation [C] // Proc of the 22nd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 2787−2794
[12]	Negrinho R, Geoff G. Deeparchitect: Automatically designing and training deep architectures [J]. arXiv preprint, arXiv: 1704.08792, 2017
[13]	Liu Chenxi, Zoph B, Neumann M, et al. Progressive neural architecture search [C] // Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 19−34
[14]	Kandasamy K, Neiswanger W, Schneider J, et al. Neural architecture search with bayesian optimisation and optimal transport [C/OL] // Proc of the 32nd Advances in Neural Information Processing Systems, 2018[2023-10-01]. https://proceedings.neurips.cc/paper_files/paper/2018/hash/f33ba15effa5c10e873bf3842afb46a6-Abstract.html
[15]	Liu Hanxiao, Simonyan K, Yang Yiming. Darts: Differentiable architecture search[J]. arXiv preprint, arXiv: 1806.09055, 2018
[16]	Poliakov E, Hung Weijie, Huang Chingchun. Efficient constraint-aware neural architecture search for object detection [C] // Proc of the 15th Asia Pacific Signal and Information Processing Association Annual Summit and Conf. Piscataway, NJ: IEEE, 2023: 733−740
[17]	Ozaeta M A A, Fajardo A C, Brazas F P, et al. Seagrass classification using differentiable architecture search [C] // Proc of the 26th Int Joint Conf on Computer Science and Software Engineering (JCSSE). Piscataway, NJ: IEEE, 2023: 123−128
[18]	Howard Andrew G, Zhu Menglong, Chen Bo, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint, arXiv: 1704.04861, 2017
[19]	Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices [C] // Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6848−6856
[20]	Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image recognition[C]// Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8697−8710
[21]	Tong Zhan, Song Yibing, Wang Jue, et al. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training [C/OL] //Proc of the 36th Advances in Neural Information Processing Systems, 2022[2023-08-17]. https://proceedings.neurips.cc/paper_files/paper/2022/hash/416f9cb3276121c42eebb86352a4354a-Abstract-Conference.html
[22]	Zisserman A, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint, arXiv: 1705.06950, 2017
[23]	Goyal R, Ebrahimi Kahou S, Michalski V, et al. The "something something" video database for learning and evaluating visual common sense [C] // Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE. 2017: 5842−5850
[24]	Soomro K, Zamair A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint, arXiv: 1212.0402, 2012
[25]	Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition [C] // Proc of the 24th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 2556−2563
[26]	Schindler K, Van Gool L. Action snippets: How many frames does human action recognition require? [C/OL] //Proc of the 21st IEEE/CVF Conf on Computer Vision and Pattern Recognition, 2008[2023-10-15]. https://ieeexplore.ieee.org/document/4587730
[27]	Hussein N, Gavves E, Smeulders A W. Timeception for complex action recognition [C] // Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 254−263
[28]	Hilde K, Ali A, Thomas S. The language of actions: Recovering the syntax and semantics of goal-directed human activities [C] // Proc of the 27th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 780−787
[29]	Yeung S, Russakovsky O, Jin N, et al. Every moment counts: Dense detailed labeling of actions in complex videos[J]. International Journal of Computer Vision, 2018, 126: 375−389
[30]	Zhou Jiaming, Li Hanjun, Lin Kunyu, et al. Adafocus: Towards end-to-end weakly supervised learning for long-video action understanding[J]. arXiv preprint, arXiv: 2311.17118, 2023
[31]	Vaswani A, Shazeer N, Parmar N. Attention is all you need [C/OL] //Proc of the 31st Advances in Neural Information Processing Systems, 2017[2023-10-15]. https://www.semanticscholar.org/reader/204e3073870fae3d05bcbc2f6a8e263d9b72e776
[32]	Bertasius G, Wang H, Torresani L. Is space-time attention all you need for video understanding? [C/OL] //Proc of the 38th Int Conf on Machine Learning, 2021[2024-01-01]. https://proceedings.mlr.press/v139/bertasius21a/bertasius21a-supp.pdf
[33]	Tong Zhan, Song Yibing, Wang Jue, et al. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training [C] // Proc of the 36th Advances in Neural Information Processing Systems, 2022[2023-12-10]. https://proceedings.neurips.cc/paper_files/paper/2022/hash/416f9cb3276121c42eebb86352a4354a-Abstract-Conference.html
[34]	He Kaiming, Chen Xinlei, Xie Saining, et al. Masked autoencoders are scalable vision learners [C] // Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 16000−16009
[35]	Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221−231
[36]	Li Chao, Zhong Qiaoyong, Xie Di, et al. Collaborative spatiotemporal feature learning for video action recognition [C]//Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 7872−7881
[37]	Xie Saining, Sun Chen, Huang Jonathan, et al. Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification [C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 305−321
[38]	Wu Chaoyuan, Feichtenhofer C, Fan Haoqi, et al. Long-term feature banks for detailed video understanding [C]// Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 284−293
[39]	Wu Chaoyuan, Li Yanghao, Mangalam K, et al. Memvit: Memory-augmented multiscale vision transformer for efficient long-term video Recognition [C] // Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 13587−13597
[40]	Zoph B. Neural architecture search with reinforcement learning[J]. arXiv preprint, arXiv: 1611.01578, 2016
[41]	Cai Han, Yang Jiacheng, Zhang Weinan, et al. Path-level network transformation for efficient architecture search [C/OL] //Proc of the 35th Int Conf on Machine Learning, 2018[2023-11-14]. https://proceedings.mlr.press/v80/cai18a.html
[42]	Real E, Moore S, Selle A, et al. Large-scale evolution of image classifiers [C/OL] //Proc of the 34th Int Conf on Machine Learning, 2017[2023-10-08]. https://proceedings.mlr.press/v70/real17a.html
[43]	Hussein N, Gavves E, Smeulders A W. Unified embedding and metric learning for zero-exemplar event detection [C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1096−1105
[44]	Habibian A, Mensink T, Snoek C GM. Video2vec embeddings recognize events when examples are scarce[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(10): 2089−2103
[45]	Girdhar R, Ramanan D. Attentional pooling for action recognition [C/OL] // Proc of the 31st Advances in Neural Information Processing Systems, 2017[2023-10-13]. https://proceedings.neurips.cc/paper/2017/hash/67c6a1e7ce56d3d6fa748ab6d9af3fd7-Abstract.html
[46]	Fernando B, Gavves E, Oramas J, et al. Rank pooling for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(4): 773−787
[47]	Oneata D, Verbeek J, Schmid C. Action and event recognition with fisher vectors on a compact feature set [C] //Proc of the 26th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 1817−1824
[48]	Cosmin DI, Ionescu B, Aizawa K, et al. Spatio-temporal vector of locally max pooled features for action recognition in videos [C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3097−3106
[49]	Donahue J, Anne HL, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description [C] //Proc of the 28th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2625−2634
[50]	Ghodrati A, Gavves E, Snoek C G M. Video time: Properties, encoders and evaluation[J]. arXiv preprint, arXiv: 1807.06980, 2018
[51]	Huang Gao, Liu Zhuang, Van DML, et al. Densely connected convolutional networks [C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 4700−4708
[52]	Shi Wuzhen, Liu Shaohui, Jiang Feng, et al. Video compressed sensing using a convolutional neural network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31(2): 425−438
[53]	Song Xue, Xu Baohan, Jiang Yugang, et al. Predicting content similarity via multimodal modeling for video-in-video advertising[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31(2): 569−581
[54]	Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos [C/OL] //Proc of the 28th Advances in Neural Information Processing Systems. 2014[2024-01-19]. https:// proceedings.neurips.cc/paper_files/paper/2014/hash/00ec53c4682d36f5c4359f4ae7bd7ba1-Abstract.html
[55]	Bilen H, Fernando B, Gavves E, et al. Action recognition with dynamic image networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 2799−2813
[56]	Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221−231
[57]	Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks [C] //Proc of the 28th IEEE/CVF Conf on Computer Vision and Pattern Recognition, Piscataway, NJ: IEEE. 2015: 4489−4497
[58]	Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset [C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6299−6308
[59]	Zhou Bolei, Andonian A, Oliva A, et al. Temporal relational reasoning in videos [C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 803−818
[60]	Wang Limin, Xiong Yuanjun, Wang, Zhe, et al. Temporal segment networks: Towards good practices for deep action recognition [C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 20−36
[61]	Wang Limin, Xiong Yuanjun, Wang Zhe, et al. Temporal segment networks for action recognition in videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(11): 2740−2755
[62]	Wang Xiaolong, Girshick R, Gupta A, et al. Non-local neural networks [C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 7794−7803
[63]	Sigurdsson G A, Divvala S, Farhadi A, et al. Asynchronous temporal fields for action recognition[C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 585−594
[64]	Varol G, Ivan L, Cordelia S, et al. Long-term temporal convolutions for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1510−1517
[65]	Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image recognition [C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8697−8710
[66]	Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices [C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6848−6856
[67]	Li Guihong, Duc H, Kartikeya B, et al. Zero-Shot neural architecture search: Challenges, solutions, and opportunities[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12): 7618−7635
[68]	Haroon I, Amir R Z, Jiang Yugang, et al. The thumos challenge on action recognition for videos “in the wild”[J]. Computer Vision and Image Understanding, 2017, 155(1): 1−23
[69]	Girdhar R, Ramanan D, Gupta A, et al. Actionvlad: Learning spatio-temporal aggregation for action classification [C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 971−980
[70]	Hussein N, Gavves E, Smeulders A W M. Videograph: Recognizing minutes-long human activities in videos[J]. arXiv preprint, arXiv: 1905.05143, 2019
[71]	Piergiovanni A, Angelova A, Toshev A, et al. Evolving space-time neural architectures for videos [C] //Proc of the 17th IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 1793−1802
[72]	Xu Huijuan, Das A, Saenko K. R-c3d: Region convolutional 3d network for temporal activity detection [C] //Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5783−5792
[73]	Dai Xiyang, Singh B, Ng J Y H, et al. Tan: temporal aggregation network for dense multi-label action recognition [C] //Proc of the 6th IEEE Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2019: 151−160
[74]	Piergiovanni A, Ryoo M S. Learning latent super-events to detect multiple activities in videos [C] //Proc of the 31st IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5304−5313
[75]	Piergiovanni A, Ryoo M. Temporal gaussian mixture layer for videos [C/OL] //Proc of the 36th Int Conf on Machine Learning, 2019[2023-12-16]. https://proceedings.mlr.press/v97/piergiovanni19a.html
[76]	Tirupattur P, Duarte K, Rawat Y S, et al. Modeling multi-label action dependencies for temporal action localization [C] //Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 1460−1470
[77]	Dai R, Das S, Minciullo L, et al. Pdan: pyramid dilated attention network for action detection [C] //Proc of the 8th IEEE/CVF Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2021: 2970−2979
[78]	Dai Rui, Das S, Bremond F. Ctrn: Class-temporal relational network for action detection[J]. arXiv preprint, arXiv: 2110.13473, 2021
[79]	Wu Yuankai, Su Xin, Salihu D, et al. Modeling action spatiotemporal relationships using graph-based class-level attention network for long-term action detection [C] //Proc of the 36th IEEE/RSJ Int Conf on Intelligent Robots and Systems (IROS). Piscataway, NJ: IEEE, 2023: 6719−6726
[80]	Zhou Jiaming, Lin Kunyu, Li Haoxin, et al. Graph-based high-order relation modeling for long-term action recognition [C] //Proc of the 34th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 8984−8993
[81]	Guo Hongji, Wang Hanjing, Ji Qiang. Uncertainty-guided probabilistic transformer for complex action recognition[C]// Proc of the 35th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 20052−20061