基于变分量子电路的量子机器学习算法综述

于瑞祺; 张鑫云; 任爽

doi:10.7544/issn1000-1239.202330979

基于变分量子电路的量子机器学习算法综述

北京交通大学计算机科学与技术学院　北京　100044

基金项目: 国家自然科学基金项目（62072025）

详细信息

作者简介:
于瑞祺: 2002年生. 硕士研究生. 主要研究方向为量子计算、机器学习

张鑫云: 1997 年生. 博士. CCF 会员. 主要研究方向为机器学习、3维计算机视觉、量子计算

任爽: 1981 年生. 博士，副教授，博士生导师. CCF会员. 主要研究方向为机器学习、量子计算、3D计算机视觉

通讯作者:
任爽（sren@bjtu.edu.cn）

中图分类号: TP18
计量
- 文章访问数: 313
- HTML全文浏览量: 71
- PDF下载量: 129
出版历程
- 收稿日期: 2023-12-04
- 修回日期: 2024-11-18
- 录用日期: 2025-01-08
- 网络出版日期: 2025-01-08
- 刊出日期: 2025-03-31

A Review of Quantum Machine Learning Algorithms Based on Variational Quantum Circuit

School of Computer Science & Technology, Beijing Jiaotong University, Beijing 100044

Funds: This work was supported by the National Natural Science Foundation of China (62072025).

More Information

Author Bio:
Yu Ruiqi: born in 2002. Master candidate. His main research interests include quantum computing and machine learning

Zhang Xinyun: born in 1997. PhD. Member of CCF. His main research interests include machine learning, 3D computer vision, and quantum computing

Ren Shuang: born in 1981. PhD, associate professor, PhD supervisor. Member of CCF. His main research interests include machine learning, quantum computing, and 3D computer vision

摘要

摘要:
随着数据规模的增加，机器学习的重要性与影响力随之增大. 借助量子力学的原理能够实现量子计算，结合量子计算和机器学习形成的量子机器学习算法对经典机器学习算法理论上能够产生指数级的加速优势. 部分经典算法的量子版本已经被提出，有望解决使用经典计算机难以解决的问题. 当前受量子计算硬件所限，可操控的量子比特数目和噪声等因素制约着量子计算机的发展. 短期内量子计算硬件难以达到通用量子计算机需要的程度，当前研究重点是获得能够在中等规模含噪声量子（noisy intermediate-scale quantum，NISQ）计算设备上运行的算法. 变分量子算法是一种混合量子-经典算法，适合应用于当前量子计算设备，是量子机器学习领域的研究热点之一. 变分量子电路是一种参数化量子电路，变分量子算法利用其完成量子机器学习任务. 变分量子电路也被称为拟设或量子神经网络. 变分量子算法框架主要由5个步骤组成：1）根据任务设计损失函数和量子电路结构；2）将经典数据预处理后编码到量子态上，量子数据可以省略编码；3）计算损失函数；4）测量和后处理；5）优化器优化参数. 在此背景下，综述了量子计算基础理论与变分量子算法的基础框架，详细介绍了变分量子算法在量子机器学习领域的应用及进展，分别对量子有监督学习、量子无监督学习、量子半监督学习、量子强化学习以及量子电路结构搜索相关模型进行了介绍与对比，对相关数据集及相关模拟平台进行了简要介绍和汇总，最后提出了基于变分量子电路量子机器学习算法所面临的挑战及今后的研究趋势.
- 量子计算 /
- 量子机器学习 /
- 变分量子算法 /
- 量子神经网络 /
- 量子深度学习 /
- 量子强化学习
Abstract:
As the scale of available data increases, the importance and impact of machine learning grows. It has been found that quantum computing can be realized with the help of the principles of quantum mechanics, and the quantum machine learning algorithm formed by combining quantum computing and machine learning can theoretically produce exponential acceleration advantages over classical machine learning algorithms. Quantum versions of many classical algorithms have been proposed and they may solve problems that are difficult to classical computers. At present, limited by the quantum computing hardware, the number of controllable qubits, noise, and other factors restrict the development of quantum computers. Quantum computing hardware is unlikely to reach the level needed for universal quantum computers in the short term, and current research focuses on the algorithms that can run on noisy intermediate-scale quantum (NISQ) computers. Variational quantum algorithms (VQAs) are hybrid quantum classical algorithms which are suitable for current quantum computing devices. Related research is one of the research hotspots in the field of quantum machine learning. Variational quantum circuits (VQCs) are parameterized quantum circuits (PQCs) used in variational quantum algorithms to solve quantum machine learning tasks. It is also be called Ansatz and quantum neural networks (QNNs). The framework of variational quantum algorithm mainly contains five steps: 1) Designing the loss function according to the task. Designing parameterized quantum circuits as model and initializing parameters. 2) Embedding classical data. The classical data is pre-processed and encoded to the quantum state. If quantum data is used as input, it only needs to be pre-processed without encoding. 3) Calculating the loss function through parameterized quantum circuit. This step is where quantum advantage comes in. 4) Measuring and post-processing. Through quantum measurement operation, the quantum superposition state wave packet collapses into classical state. The classical data can be obtained after post-processing. 5) Optimizing the parameters. Updating parameters and optimizing the model with classical optimization algorithms and then returning to step 3 until the loss function converges after several iterations. We can obtain a set of optimal parameters. The final result is the output of the optimal model. This paper reviews the basic theory of quantum computing and the basic framework of variational quantum algorithm, and further introduces the application and progress of variational quantum algorithm in the field of quantum machine learning, then reviews supervised quantum machine learning including quantum classifiers, unsupervised quantum machine learning including quantum circuit born machine, variational quantum Boltzmann machine and quantum autoencoder, semi-supervised quantum learning including quantum generative adversarial network, quantum reinforcement learning, and quantum circuit architecture search in detail. Next, this paper compares the models and analyses their advantages and disadvantages, and briefly discusses and summarizes the related datasets and simulation platforms that can reproduce the introduced models. Finally, this paper puts forward the challenges and future research trends of quantum machine learning algorithms based on variational quantum circuit.
- quantum computing /
- quantum machine learning /
- variational quantum algorithm /
- quantum neural network /
- quantum deep learning /
- quantum reinforcement learning

HTML全文

近年来，深度学习模型在自然语言处理、计算机视觉和推荐系统等领域取得了显著进展，以Transformer结构^[1]为基础的模型参数量已达到数百亿甚至上千亿，训练这些模型需要数千个GPU并行工作数周甚至数月. 在这种大规模分布式训练环境中，硬件故障和系统中断的概率显著增加，而网络基础设施的带宽限制和容错能力不足进一步加剧了训练的不稳定性^[2]. Meta 使用千卡A100训练175B OPT模型耗费了2个月，共发生了105次重启，最长健康持续训练时间为2.8天^[3]. 使用万卡集群训练Llama3-70B过程中共发生419次任务中断，其中GPU故障占比58.7%^[4].

在训练过程中一般周期性的保存模型训练的状态，简称检查点（checkpoint，CKPT），CKPT除了包含模型参数（权重和偏置），还涵括优化器状态（动量和学习率等）、训练的迭代次数和数据迭代标签等信息，在大规模分布式训练中，CKPT的写入和读取操作往往成为训练过程的瓶颈. 对于175B GPT-3大模型^[5]，CKPT容量达到了惊人的2.4 TB，此外，高频的CKPT操作会加剧训练任务的阻塞时间和带宽占用，低频CKPT会导致重训耗时较高. 当集群资源弹性变化时，即出现资源不足或者资源扩增时，如何维持现有的训练状态，容错训练系统需要具备动态调整资源分配、并行策略的能力.

软硬件故障的多样性、随机性以及硬件资源的弹性变化，对如何构建一套高效准确的自动化故障恢复系统带来了的巨大的挑战，主要包括3个方面：

1）准确的故障感知和有效的作业恢复成为巨大挑战. 故障涉及海量硬件器件和软件栈，故障暴露出来的日志和指标数据庞杂，如何从中检测到故障的发生，需要在开销与准确性取得良好的平衡. 作业恢复机制需要有效地规避故障源，避免无效的恢复行为加剧作业中断时长，同时尽可能缩短恢复阶段的耗时；

2）尽管CKPT技术对容错至关重要，但面临2大挑战：首先，I/O性能瓶颈导致大规模CKPT写入速度远低于硬件上限，延长了保存时间. 其次，固定频率的CKPT保存策略在故障发生时会导致大量训练进度丢失，尤其在大规模分布式训练中，这可能浪费数小时到数天的训练时间，显著降低资源利用率. 这些挑战凸显了优化CKPT机制的重要性；

3）现有的弹性训练系统通常仅支持固定资源配置，缺乏复杂场景下的自动恢复机制. 在采用多种并行策略的大型模型中，初始资源配置确定后，难以灵活调整资源数量与分布. 尤其在节点失效或需临时缩减资源时，现有弹性系统通常无法自动处理任务和资源重分配. 这导致动态环境中资源管理效率低下和故障恢复能力不足，影响系统的容错能力和资源利用效率.

现有的深度学习框架PyTorch^[6]、TensorFlow^[7]、DeepSpeed^[8]和Megatron-LM^[9]等提供了基本的CKPT功能，当训练任务发生故障后，找准根因并手动恢复训练一般耗时小时级甚至天级. 在使用传统存储设备（如HDD或未优化的SSD）时，I/O性能的不足会严重影响CKPT读写操作，进行降低训练效率.

已有的大模型容错训练系统，如TRANSOM^[10]、DLRover^[11-12]等方案提供了GPU、网络、内存等硬件故障检测与自动恢复机制，但在资源弹性伸缩时，并行策略无法调整或者只支持有限的数据并行（data parallel，DP）维度，此外，基于集群多级存储层次架构的异步保存与恢复机制^[13-16]，虽然能最小化CKPT操作的延迟，但仍面临诸多挑战，特别是在存储瓶颈、恢复速度以及动态资源分配的复杂性上，难以实现真正的高效和无缝弹性扩展.

本文设计了一种面向大规模训练作业的弹性容错系统，如图1所示，从功能上可以划分为容错框架（异常作业高效管理）、检查点高效存储和自适应并行策略调整3部分，能够将千亿参数模型端到端恢复时间从小时级缩短至10 min以内.

图 1 109B参数模型故障恢复时间性能优化分解

Figure 1. Performance optimization decomposition for 109B parameter model fault recovery time performance

下载: 全尺寸图片幻灯片

容错框架是整个容错系统的枢纽，负责感知故障的发生以及协调整个恢复流程. 恢复流程包括故障资源的检测及驱离、训练作业的重新部署、作业部署后的初始化环节. 在作业重新部署阶段，容错框架首先通过自动化并行策略模块生成匹配当前资源最优的并行策略，保证作业恢复之后拥有较好的训练性能，然后显式触发CKPT，持久化当前作业的训练状态. 在作业初始化阶段，进程通过调用优化后的CKPT库提升CKPT加载速度，并通过即时检查点机制（just-in-time checkpoint，JIT CKPT）^[15]，缩短作业恢复后的重新训练时间. 本文的主要贡献有3点：

1）提出一种准确高效的异常作业高效恢复管理机制，简称为容错框架. 该框架能够在典型故障发生的第一时间，准确定位故障原因，并且根据故障类型对作业进行层次化恢复，缩短故障导致的作业中断时长. 同时框架具有良好的可扩展性，能够兼容主流的大模型训练框架，如Megatron-LM、DeepSpeed等；

2）提出一种多层次异步CKPT优化方案，通过共享内存和本地磁盘缓存显著降低了故障恢复和加载开销. 此外，引入即时检查点机制，在故障发生时即时保存完整CKPT，减少了重训时间，并通过自适应超时设置优化了通信操作的故障识别与恢复，提升了大模型训练的效率与稳定性；

3）提出一种低开销的自动并行搜索系统，旨在为指定硬件资源下的大规模深度学习模型训练提供较优并行策略. 该系统能够在资源类型或数量发生变更时，迅速调整并搜索到最适合新资源配置的并行度，从而确保训练任务的高效性和稳定性.

1. 相关工作

1.1 大模型容错训练

针对大模型训练的容错框架是指一套独立于训练作业的一套软件，通常需要具备作业异常感知、软硬件故障定位以及训练作业自动化恢复等核心功能组件，当感知到作业出现异常后，迅速定位到造成该异常的软硬件故障原因，并针对性恢复作业. 在故障定位方面，通常的做法是采集多维度指标检测，这些指标既包括GPU、网络、内存等硬件设备的工作状态指标，还包含训练脚本、NCCL、CUDA库等软件运行状态指标^[17-19]，然后运用一些数据分析方法发现指标数据中所包含的故障模式，比如Wu等人^[10]重点关注于故障分析的可解释性和效率，采用离群检测、聚类等传统算法分析指标数据，这种方法能检测到异常情况的发生，但是却无法准确的定位导致故障的根因. Hu等人^[20]则引入专门的LLM，利用LLM的强大文本理解和分析能力，准确定位故障根因，但受限于LLM的输入长度限制，无法处理海量指标数据. 在作业恢复方面，通常的做法是重启整个作业，然后基于CKPT机制保存的作业快照数据恢复作业内各进程的状态，这种全局性的重启往往带来较长的作业中断时间，因此业界有一些优化工作，蚂蚁集团提出的DLRover框架，支持GPU掉卡、NCCL超时等有限的故障类型. Wu等人^[21]针对训练变慢类故障，提出了一种自适应多级缓解机制，通过调整微批次分布和并行化拓扑结构实现对训练作业的部分结构进行调整，避免作业整体重启，但这种方法在应对超大规模以及复杂通信拓扑时，方法的恢复效率以及有效性将大打折扣. Lao等人^[22]在发生异常后，通过冻结机器、初始化备用机器、恢复状态、替换通信组成员，实现快速局部恢复，无需重启训练任务，显著减少恢复时间和开销，但方法更适合处理运维场景下的作业迁移，对于突发的软硬件故障，往往无法完整的保留作业的状态，在一些极端情况下，这种局部重启的方法会退化成全局重启.

在大模型训练过程中，CKPT机制被广泛用于保存和快速恢复训练状态. 然而，超大容量CKPT的读写操作往往带来显著开销，甚至可能严重阻塞整个训练进程，导致GPU资源利用率低下. 为解决这一问题，现有研究提出了多种优化方案. Mohan等人^[13]通过调整CKPT的频率来平衡开销与恢复效率，但这种方式本质上是一种折中解决方案，无法同时兼顾保存频率和运行时开销；Wang等人^[14]利用NVMe和数据并行写入技术提升CKPT性能，尽管有效，但这种方法对高性能NVMe存储设备的高度依赖增加了系统成本和复杂性；Jiang等人^[23]通过在数据并行组之间共享GPU工作者的数据缓解了存储瓶颈，减少了恢复期间的检索时间，虽然有助于减轻分布式文件系统的负载，但在实践中仍存在较大的训练暂停时间. 此外，Eisenman等人^[24]通过量化推荐模型中的嵌入表减少CKPT大小，然而量化过程本身可能引入误差，影响模型的最终表现，尤其在需要高度精确的应用场景下，这种权衡显得尤为关键. Wang等人^[16]引入内存CKPT机制，即利用高带宽CPU内存进行CKPT创建，并将CKPT分片分布到对等节点上以最大化故障恢复的可能性，从而避免训练过程中的停滞，尽管提高了容错能力，但该方法也面临着网络通信潜在瓶颈的问题，并且需要复杂的调度算法确保节点间负载均衡和高效协作. Gupta等人^[15]则利用大规模工作负载数据并行副本中的状态冗余实现高效的运行时CKPT，但该方法未充分考虑CKPT一致性及保存过程中出现的故障处理问题. DLRover框架提供了检查点优化组件Flash Checkpoint，通过异步持久化内存热加载大幅提升了CKPT的保存和加载速度，然而在节点故障的情况下，由于内存缓存容易出现不命中现象，该方法的有效性会受到影响.

综上所述，尽管上述研究各自提供了一定程度上的解决方案，但它们在实际应用中也面临着从软硬件依赖、故障种类，到算法的复杂性与效率等方面的挑战. 因此需要全面考虑这些限制因素，以开发出更加高效和可靠的大模型容错训练系统.

1.2 大模型弹性训练

大模型弹性训练指的是在深度学习中，特别是针对Transformer架构的大模型，通过动态调整计算资源来优化训练过程的技术. DLRover通过预扩展、扩展和后扩展三阶段实现弹性训练. 三阶段的功能分别为：根据历史任务获取初始资源分配，在线拟合生成多个候选计划，并采用加权贪心算法确定最终执行计划，同时结合实时负载实现动态负载分片. DLRover支持采用数据并行策略的训练作业的弹性伸缩，当作业中某些数据并行实例出现故障后作业仍能在小规模下继续运行，当有新的健康资源可用后，能重新扩展至原有规模运行，但不支持复杂并行训练策略下的弹性恢复. 字节的MegaScale针对云场景进行了优化，默认集群节点资源充足. 如果某个节点因故障被移除，它能够迅速将受影响的任务 pod（Kubernetes资源编排系统中能够创建和部署的最小单元）重新部署到健康的节点上，保证训练任务的持续进行，该方案无法对单个任务的资源配置进行弹性伸缩. Li等人^[25]提出的EasyScale主要为了解决在资源弹性下保持模型一致性准确度的问题. 它引入了EasyScaleThread （EST）抽象，将分布式模型训练过程与硬件资源分配解耦. 多个EST可以动态的在GPU之间进行上下文切换，从而在资源弹性下保持训练行为的一致性. 但是EasyScale目前主要聚焦在数据并行，对大模型训练场景下其他并行策略暂不支持. Subramanya等人^[26]提出的Sia旨在为异构深度学习集群资源分配高效的调度方案. 该系统采用一种新的在线学习方法为每个作业在每种GPU类型上建立吞吐模型. 引入了一个新的整数线性规划算法来处理作业规模和异构性. 该系统在每个调度轮次都会考虑所有的GPU分配（数量和类型），估计其吞吐量并选择最佳的资源分配方案. Wagenländer等人^[27]提出了一种用于深度学习框架的状态管理库tenplex，能够在训练过程中动态改变GPU分配和作业并行性. 通过将作业表示为可并行化的张量集合，可以快速生成的新配置. 但tenplex主要聚焦在数据并行，而目前典型的大模型训练采用多种并行策略. 总之，为了应对大模型训练任务中更复杂的集群配置和工作负载，亟需一种能弹性适应集群资源变化、动态选择最优模型训练配置的优化技术.

2. 大模型训练容错系统

本文提出的大模型弹性训练容错系统Resilio如图2所示，涵盖容错框架、多层次高效检查点以及自动并行3个部分，相关内容在后续的章节中逐一展开.

图 2 弹性容错系统整体架构图

Figure 2. Elastic fault-tolerant LLM training system

下载: 全尺寸图片幻灯片

2.1 容错框架

容错框架主要提供自动化故障恢复系统，它是一套独立于训练作业的运行时系统，主要负责感知系统内故障的发生，并且根据不同故障类型触发相应的自动化运维操作. 该框架主要包含故障感知模块、生命周期管理模块、CKPT控制模块、日志及指标上报模块，各模块的功能如下：

1）故障感知模块. 主要负责分析指标采集模块获取的设备及任务指标数据，判断故障是否发生. 该模块包含一个控制节点和若干分散在不同计算节点内的守护进程组成，每个守护进程与训练进程绑定，通过拦截进程执行的核心代码，来判断训练进程的健康状态. 遵循CUDA和NCCL库中核心计算和通信函数接口，本文设计了一套轻量级拦截库，通过LD_PRELOAD机制预先加载. 拦截到函数调用之后，在函数的执行前后设置CUDA Event用于统计核心计算和通信函数的耗时. 拦截库将函数耗时指标持续写入共享内存中，故障检测守护进程持续读取共享内存中的指标数据. 由于健康的训练作业呈现周期性特征，当故障检测守护进程发现指标频率和指标数值出现大幅度的变化时，判定当前训练进程存在异常. 健康状态的判定主要分为两个层次：Error和Slowdown.

当守护进程发现训练进程抛出致命异常时，会将该进程的状态设置为Error状态，并上报给控制节点，控制节点会通过生命周期管理器停止所有训练进程，并触发故障排查流程，该流程会检测各个pod内软件栈的适配性、硬件设备可用性、数据存储路径的访问权限等内容，然后结合捕获的异常日志，据此判断故障的根因. 由于分布式应用发生的异常存在传播性，即单个节点的异常会导致依赖它的节点出现异常. 因此工作节点在捕获到异常日志后，会上报到控制节点，控制节点首先比对异常日志的时间戳来判断最先出现异常的节点，然后向该节点发送诊断指令，节点响应指令开始检测GPU、网卡、存储设备的状态，最终将检测结果连同异常日志时间戳前后分钟内的系统日志、kubelet日志、pod日志返回给控制节点.

守护进程通过拦截训练进程触发的计算和通信函数调用，统计这些调用的频次和耗时数据，通过分析这些时序指标的变化，挖掘训练变慢时的模式，当守护进程感知到训练进程变慢后，会将该进程的状态置为Slowdown状态，并上报给控制节点，控制节点会通过生命周期管理器暂停所有训练进程，同样触发故障排查流程，与Error状态下检测流程不同的是，Slowdown类型故障的检测流程可以并行地在不同节点上运行小规模分布式矩阵相乘作业，通过比对不同节点集内作业的完成时间、集合通信带宽等信息，确定导致作业Slowdown的节点集.

2）生命周期管理器. 主要负责响应作业提交命令，完成作业所需资源的调度、环境可用性校验、分布式进程创建、故障发生后的层次化恢复等.

3）CKPT控制器. 主要负责显式触发JIT CKPT操作以及预加载CKPT数据. 故障感知模块在获知集群内故障的信息之后，会根据故障的严重程度进行不同级别的运维处理，而对于一些仅影响作业运行性能或者判断存活任务可以完成一次完成的CKPT时，会暂停作业的执行并显式触发CKPT，这种方式保证了通过CKPT机制持久化的作业快照版本与故障发生时的作业版本具有较小的差异. 同时在作业重启恢复过程中，各个训练进程在加载CKPT快照数据之前会执行一些其他的初始化，比如集合通信组构建，本模块会根据各训练进程信息，提前从持久化存储中将必要的CKPT数据加载到本地磁盘之中，隐藏部分数据传输的耗时.

4）指标上报模块. 主要负责采集训练进程执行过程中的指标和日志数据. 这些数据既包括集群内计算节点上CPU、内存、磁盘、GPU、NPU等硬件设备的工作状态数据，也包括训练任务执行CUDA Kernel、NCCL通信等操作的运行状态数据. 通过定义一套统一的指标采集规范，确保对于不同厂商设备按照规范采集相应类型的指标后，能够准确判断具体设备的健康状态.

2.2 检查点高效存储

2.2.1 多层次异步访存优化

如图3所示，训练过程中的一次迭代分为前向（forward，F）、反向（backward，B）、权重更新（optimizer.step，O）3个部分，AI训练框架中默认的CKPT保存操作发生在模型权重更新之后，一次CKPT保存（checkpoint.save，C）包括从GPU显存拷贝数据到CPU内存，然后从CPU内存拷贝数据到本地磁盘以及远程共享存储，最后进行全局同步保证分布式CKPT版本一致. 这种CKPT保存过程主要面临3个挑战：1）CKPT由数据庞大的张量组成，传统的序列化方法开销大；2）GPU显存到CPU内存的数据传输过程未充分利用带宽；3）CKPT保存过程及最后的同步过程均会阻塞训练，造成大量的GPU计算资源闲置.

图 3 多层次异步CKPT保存和加载

Figure 3. Multi-layer asynchronous CKPT save and load

下载: 全尺寸图片幻灯片

本文提出的多层次异步CKPT方案针对性的做了如下优化：

1）解析CKPT元信息（张量形状、大小以及所在网络层等数据），只对元信息进行序列化，大幅减少全量序列化带来的开销；

2）使用锁页内存及CUDA多流机制充分利用GPU显存到CPU内存的传输带宽；

3）由于前向和反向计算不会修改CKPT内容，所以可以重叠上一轮迭代CKPT保持操作与本轮迭代的前反向计算，同时将CKPT数据切分成多个小块异步传输到本地NVME和远程持久化存储，全局同步过程在传输线程中完成，避免阻塞训练进程.

在分层存储架构中，分块大小与存储介质的物理特性及访问模式强相关，在异步传输至本地NVME的过程中，以4 KB作为块大小精准匹配NVME页大小，最大化写入效率. 远程持久化存储时，数据的切片大小设置为4 MB，因为节点间网络传输通常基于RDMA或TCP/IP协议，较大的分块可以减少网络协议头占比. 远程持久化存储作为多级存储的最后一级，包含本地存储所有的CKPT历史数据，由于本地存储空间有限，通过文件覆盖方式，可配置仅在本地保存最近一段时间的CKPT数据.

CKPT恢复是发生在训练开始前，原生的PyTorch会在初始化结束后，从远程持久化存储中读取最新的CKPT版本，AI框架自带的CKPT加载过程主要面临的挑战是CKPT全部从远程存储拉取，对存储服务的负载压力非常大，很容易达到存储带宽瓶颈，造成加载时间过长以及大量GPU资源闲置. 本文提出的多层次异步CKPT 在这方面做了3点优化：

1）使用共享内存作为一级缓存，针对无需重启节点的故障，可以直接从CPU内存读取CKPT，从而大幅缩短CKPT加载时间；

2）使用本地磁盘作为二级缓存，针对需要替换节点的故障时，除了新节点需要从远程持久化存储拉取CKPT，其他进程能够直接从本地磁盘读取CKPT，大幅减少对远程存储的带宽依赖和竞争；

3）此外，使用预加载的方式重叠从本地NVMe或者远程持久化存储的加载开销.

2.2.2 即时检查点

典型的大模型训练通常采用3D并行策略，包括数据并行（data parallel，DP）、张量并行（tensor parallel，TP）和流水线并行（pipeline parallel，PP）. 数据并行通过将训练数据集分割成多个小批次（batch size，BS），每个批次分配到不同的计算设备，每个设备都持有一份完整的模型副本，独立进行前向和反向传播计算，然后通过AllReduce集合通信操作同步梯度并更新模型参数；张量并行则将模型的张量（如权重和梯度）分散到多个设备上进行计算，通信量要求高并且频繁，一般适用于节点内单机多卡；流水线并行将模型的不同层分配到不同的设备上，每个设备负责一部分计算任务，数据在设备之间按顺序传递通过点对点通信，通信带宽要求相对较低. 大模型训练整个过程存在3个特征：1）大模型训练3D并行策略中数据并行维度进程的模型副本一致，模型参数更新前需要全局同步；2）训练故障基本为单点故障，很少有大规模的节点故障；3）某个进程发生故障后会导致其他健康进程在某一次集合通信操作中超时.

结合大模型训练并行策略的特点以及故障发生的规模，我们设计了JIT CKPT，能够在故障发生时立即保存最近完整的CKPT，从而大幅度降低了常规周期性保存CKPT带来重训时间，提升模型有效训练时间. 图4展示了JIT CKPT的工作流程，具体如下：

图 4 即时检查点机制工作流程图

Figure 4. The workflow of JIT CKPT

下载: 全尺寸图片幻灯片

1）容错工作节点（fault-tolerance worker，FT Worker）内部通过拦截NCCL集合通信函数库，获取训练进程所需要的通信算子，并统计通信算子所消耗的时间，实时发送给Redis数据库进行保存.

2）容错主节点（fault-tolerance master，FT Master）周期性地从Redis处取出通信算子的耗时信息，自适应修改超时配置并及时同步更新到FT Worker.

3）当某个进程或节点故障导致当前进程触发超时后，该FT Worker发送超时事件给FT Master.

4）FT Master收集到所有超时事件后，推演故障进程并判断当前健康进程是否具备保存完整CKPT的条件. 具体而言，FT Master能够判断出发送超时事件的进程为健康进程，未发送超时事件的进程为卡死故障进程，根据故障进程所在数据并行组（组中CKPT互为副本）中是否有可用的健康进程进而判断是否具备保存完整CKPT的条件. 若是则通知FT Worker进行CKPT保存，否则结束所有FT Worker.

2.3 自适应并行策略调整

在容错系统中，自动并行技术对提升系统的可靠性和训练效率不可或缺，当节点出现故障时，集群可能出现无法提供空闲健康节点作为替代的情况，从而导致任务所需资源数量或类型的变更. 为了应对这种风险，在容错系统中引入自动并行机制能快速地将任务重新部署到可用的集群资源上，确保计算任务的连续性不受影响. 这种灵活性不仅增强了系统的容错能力，还能有效地提升资源利用率. 其次，自动并行技术能通过优化负载均衡策略，进一步提高训练效率并缩短模型的训练周期，这对于大规模深度学习任务尤为重要. 此外，在大规模分布式深度学习场景中系统的自动并行化还能大大降低手动配置复杂分布式环境的需求，从而简化运维流程、减少人为错误的引入.

因此，本节设计了低开销高精度的层级式自动并行子系统（hierarchical parallel partitioning sub system，HPPS）. 如图5所示，该子系统由以下2个关键组件组成.

图 5 自动并行子模块工作流程图

Figure 5. Workflow diagram of auto-parallel submodule

下载: 全尺寸图片幻灯片

1）自动并行主体系统. 由模拟器管理组件、模拟器、离线通信组件和评估器组成. 模拟器管理组件负责对并行搜索空间剪枝，模拟器是HPPS最核心的组件，可在指定硬件资源和并行度下得到训练任务的单次迭代时间. 模拟器通过编译模型计算图，得到模型的计算成本、模型流水线并行相邻层之间需要传输的字节数，并利用端到端建模算法（综合考虑计算和通信），全面评估单次迭代的时间开销和资源占用. 离线通信组件利用NCCL-tests^[28]采集集群不同数据量下的通信开销，量化数据传输的时间和资源消耗. 评估器根据集群空闲资源和模拟器输出的结果自动进行性能优先级排序、资源匹配过滤、多目标优化等流程，评估得到当前最优的硬件配置和并行策略.

2）基础架构层. 由容错调度器和弹性扩缩容组件组成. 容错调度器提供具有容错调度功能的调度策略，具体而言，调度器需要对容错系统标记的故障节点进行反亲和性调度. 除具有容错调度功能外，容错调度器还具有多租户隔离、资源超发、任务抢占等特性；弹性扩缩容组件负责在深度学习数据并行训练过程中根据集群负载自动调整数据并行度. 通过与自动并行的模拟器管理组件紧密协作，该模块可在保证训练过程连续性的同时，高效地利用可用资源，从而降低空闲浪费并提升整体吞吐率. 相较于传统手动配置方式，弹性扩缩容管理器不仅简化了集群管理流程，也显著提升了大规模分布式训练的可伸缩性与灵活性.

HPPS的工作流程和各组件间的数据传输关系如所示. 模拟器管理组件接受用户提交的训练作业，为每种组合方式启动一个模拟器实例. 模拟器管理组件首先根据用户申请的资源量 $N$ 生成 $device\_ mesh = \{ (n,m)\}$ . 其中， $n$ 为节点数， $m$ 为每节点的GPU卡数，且 $N = = n \times m$ . 随后，对 $device\_mesh$ 进行优先级排序并根据集群资源进行资源过滤. 然后，按照“节点内优先数据并行和张量并行，节点间优先流水线并行”的策略，枚举模型训练的并行度.

模拟器实例接收由模拟器管理组件传入的GPU资源类型、资源个数和流水线并行度，自动搜寻当前配置下的最优自动并行策略并评估模型的端到端时延. 具体而言，可以划分为以下3个步骤：

1）模型计算图编译和流水线阶段聚合. 基于CPU编译模型生成静态计算图，对计算中间表示（intermediate representation，IR）进行分析，得到算子的浮点运算次数（floating point operations per second，FLOPs）和算子间通信字节数. 其中，使用动态规划算法对计算图按照指定流水线并行度进行切分. 流水线切分原则为：尽量保证每流水线阶段FLOPs相同的情况下最小化流水线阶段之间的通信量.

定义1. 流水线切分算法.

$\min \mathop {\max }\limits_{s = 1, … ,S} {c_s}(1 - \partial )v \leqslant {f_s} \leqslant (1 + \partial )v \text{，}$

(1)

其中 $S$ 代表流水线并行度； ${c_s}$ 代表第 $s$ 个流水线阶段的通信量，即它从前面的流水线阶段获取的总字节数； $\partial$ 为超参，表示流水线阶段FLOPs的上下界； ${f_s}$ 代表第 $s$ 个流水线阶段的FLOPs，即属于当前阶段的算子的FLOPs之和.

定义2. 各流水线阶段的平均FLOPs.

$v=\frac{m}{S} \text{，}$

(2)

其中， $v$ 代表每个流水线阶段的平均FLOPs， $m$ 是通过jax.make_jaxpr函数获得. 若多个切分的最大通信量相同，则算法更倾向于返回各个流水线阶段FLOPs极差更小的解.

2）计算资源评估和并行策略搜索. 完成对模型的指定并行切分后，模拟器会生成每个流水线阶段的计算图. 对切分后的每个流水线阶段进行独立编译，得到流水线阶段的计算时间、算子间通信字节数以及峰值显存. 当出现计算时间为无限大或者峰值显存大于GPU物理显存的情况时，表示该种并行方式无法在当前的资源配置下正确执行，此时模拟器会对不满足情况的并行方式进行剪枝. 对于满足资源的自动并行策略则通过调用离线通信组件接口，获得通信时间. 本文采用算法1完成并行策略的搜索.

算法1. 并行策略搜索算法.

输入：用户提交任务申请的GPU卡数 $M$ ，集群GPU信息 $T$ ，模型参数大小 $S$ ；

输出：候选的并行度矩阵 $\boldsymbol{L}$ .

① 初始化 $L \leftarrow \varnothing$ ， $i=0$ ， $j=0$ ；

② 获取作业的资源维度： $\boldsymbol R\leftarrow (M,T)$ ，其中 $\boldsymbol R= \{r_1,r_2,…,r_n\}$ ，R为有序矩阵， $r_i=(m,n)$ ， $m \times n= =M$ ，m为节点数，n为节点内GPU卡数，n越大越优先；

③ 根据集群资源进行过滤，去除资源维度无法满足的情况， $\boldsymbol R'\leftarrow {\rm{filter\_one}}(\boldsymbol R,T)$ ；

④ if ${\rm{\rm len}}(\boldsymbol R')> 1$ then

⑤　 $\boldsymbol R''={\rm filter\_two}(\boldsymbol R')$ ；

⑥ else

⑦　 $\boldsymbol R''=\boldsymbol R'$ ；

⑧ end if

⑨ for $r_i$ in $\boldsymbol R''$

⑩　 $pp_j=m_i$ ；

⑪　 $(dp_j,tp_j)={\rm fun}(pp_j,S)$ ；

⑫　　 $\boldsymbol L.append(pp_j,dp_j,tp_j)$ ；

⑬ end

⑭ return L

算法1中，L为算法返回的并行度矩阵，R为表示硬件维度的有序矩阵，其中第一维度表示节点个数，第二维度表示节点内GPU个数，按照第二维度的大小进行排序； $\boldsymbol R''$ 为经过两次剪枝后的矩阵；函数fun根据模型大小和流水线并行度，选择合适的数据并行度和流水线并行度.

3）综合计算和通信开销，计算端到端时延. 在调用离线通信组件接口获得通信时间后，按照如式（3）所示的公式计算得到当前训练任务单次迭代的时间.

定义3. 训练任务单次迭代时间.

$t = \sum {{p_i} + \sum {{c_{(i,i + 1)}}} } + (B - 1) \times \max ({p_i}) \text{，}$

(3)

其中 ${P_i}$ 为第i个流水线阶段的计算时间， ${C_{(i,i + 1)}}$ 为第i和第i+1个流水线阶段之间的通信时间，B为微批次大小.

随后，模拟器将评估得到的端到端时延和自动并行策略输入至评估器组件. 评估器组件会在接收到指定训练的所有模拟器输出结果后，根据训练迭代时间进行排序. 评估器将选择性能较优的几个候选项进行调度，并按照最优配置进行调度. 如果集群空闲资源不足，则顺延尝试调度次优选项，直到调度成功或者所有候选项都调度失败为止. 此时，调度工作由容错调度器实现. 在容错系统中检测到故障节点后，容错调度器将故障节点标记为坏节点并进行计数. 坏节点累积达到一定次数后，在系统调度中会降低坏节点的打分或者设置为不可调度，以维持系统稳定.

此外，HPPS子系统还能为分布式作业提供支持. 当评估结果为分布式数据并行的训练任务时将开启自动扩缩容功能，设置扩缩容触发器（GPU利用率和租户资源配额）. 它首先通过资源监控模块捕获实时算力使用状况，并根据触发器设置触发相应的扩缩容操作. 弹性扩缩容管理器据此触发相应的扩缩容操作，包括启动或销毁训练实例，并完成网络拓扑与通信组网的动态调整.

3. 实验与结果

本节对弹性训练系统在大模型训练过程应用的效果进行实验和分析.

3.1 实验设置

本文实验环境包含由12节点NVIDIA A100 GPU组成的集群Cluster-A、6节点NVIDIA L20 GPU组成的集群Cluster-B以及单节点NVIDIA A800GPU组成的Cluster-C. 测试的模型结构主要为GPT-2和OPT，模型大小1.3~109 B. 各个服务器的具体配置分别如下表1所示.

表 1 Cluster-A服务器配置参数

Table 1. Configuration Parameters of Server Cluster-A

名称	配置环境
CPU	Intel Xeon Platinum 8378A@3.0 GHz
CPU核数	128
操作系统	Ubuntu 22.04 LTS
GPU	8 × NVIDIA A100
内存/TB	1
网络带宽/Gbps	25

下载: 导出CSV

| 显示表格

3.2 故障类型与恢复时间

本节测试了大模型训练过程中遇到的6种典型故障后容错系统端到端自动恢复耗时，故障的释义参见表4.

表 4 故障类型释义

Table 4. Explanation of Fault Types

故障类型	释义
致命异常	训练进程抛出的不可自修复异常，比如GPU OOM、NCCL异常等
pod崩溃	Kubernetes控制层不合理的迁移操作、节点故障、OOM等情况导致pod直接中断退出
pod误杀	研发或运维人员误操作导致pod被删除
网络断开	计算节点网络断开
节点宕机	计算节点由于断电、故障导致的宕机
组件故障	容错机制核心组件自身遭遇的故障

下载: 导出CSV

| 显示表格

本文首先验证了采用Megatron-LM在Cluster-A集群预训练GPT-109B模型时容错框架的工作效果. 从实验结果看，当作业遭遇典型软硬件故障时，容错框架能够稳定地快速恢复训练作业，各类故障发生时的端到端恢复耗时见图6，端到端恢复过程涵盖故障感知及定位、故障节点驱逐、失败任务重调度、进程组初始化、基于CKPT数据恢复训练状态.

图 6 GPT-109B模型端到端恢复耗时

Figure 6. End-to-end recovery time-consuming for GPT-109B model

下载: 全尺寸图片幻灯片

在测试所选择的6类故障下，当发生网络断开和节点宕机时，故障节点上的pod会持续处于终止状态而不退出，DLRover框架无法处理这种情况，因此整个训练作业会长时间悬挂. Resilio框架在管理训练作业时，每个训练进程会周期性向控制节点上报心跳信息，对于上述情况发生时，控制节点能够准确感知故障节点，然后强制删除掉故障节点之上的训练进程以及pod，同时将该故障节点从资源列表驱逐，并重新拉起pod. 在本文的测试中，对于一些GPU故障，DLRover虽然能够拉起作业，但是由于对应的GPU资源未被驱逐，因此下次重启，作业可能仍然被调度到这些故障GPU，导致作业无法重启恢复，而Resilio提供了一种轻量级的GPU Device Plugin实现，当发生此类异常后，Resilio会将故障GPU设备从节点上维护的可用GPU设备清单中剔除，并通过Kubelet上报给Kubernetes，不仅避免了pod重调度失败的问题，并且提供了卡粒度的故障资源驱逐. 此外由于故障具有随机性的特征，当故障导致DLRover控制组件异常退出时，异常作业无法稳定恢复，而Resilio的控制组件提供高可用机制，能够很大程度保证作业的稳定恢复.

为了进一步验证Resilio框架效果，本文又在Cluster-B集群上进行了对比实验. 图7和图8分别对比了GPT-13B和GPT-70B模型训练作业出现异常时端到端恢复耗时.

图 7 GPT-13B模型端到端恢复耗时

Figure 7. End-to-end recovery time-consuming for GPT-13B model

下载: 全尺寸图片幻灯片

图 8 GPT-70B模型端到端恢复耗时

Figure 8. End-to-end recovery time-consuming for GPT-70B model

下载: 全尺寸图片幻灯片

相比于DLRover， Resilio能够更快的恢复作业，70B和13B模型耗时分别缩短86%和67%. 性能收益主要来源于如下2部分：

2）Resilio在作业重启后的训练进程协调（rendezvous）阶段更加高效. Resilio在每次重启作业后重新进行通信组初始化过程，而DLRover则采用的是将故障pod重新调度后，在下次协调窗口重新加入到通信组，实测发现等待协调窗口的时间和协调本身的总耗时会比重新构建通信组的耗时更长.

2）Resilio的CKPT加载耗时相对更低，在框架层面，Resilio在重新调度待恢复的pod时，会有亲和性机制，以pod崩溃这类故障为例，当判断造成pod崩溃的原因并非节点故障时，在下次调度pod时会优先将pod调度至原节点，而由于该节点保存有作业的CKPT数据，因此提升了CKPT加载阶段的缓存命中率，大大缩短此阶段耗时.

此外，DLRover采用了一种扩展PyTorch核心接口的方法，相当于自实现了一套torchrun，这种方式一定程度限制了用户创建训练作业的方式，技术演进路径也将和主流的PyTorch逐渐分离. 而Resilio框架并不侵入训练框架层，仅关注分布式进程的生命周期管理，能够支持各类训练作业的容错恢复，对上层训练作业透明. 在稳定性方面，Resilio表现更佳，在软硬件故障测试过程中，DLRover并不能稳定恢复作业，即使对于一些能够最终恢复的情况，也需要多次尝试才可完成恢复的情况，其中造成这个原因主要包括network-check误报、内存不足（out of memory，OOM）、异常传播等.

3.3 检查点读写性能

CKPT的测试环境如表1所示，表5展示了不同大小的GPT模型在不同存储和加载方式下的时间消耗情况.

表 5 CKPT加载时间对比

Table 5. Comparison of CKPT Loading Time

		加载时间/s
模型	CKPT 大小/GB	原生NFS	DLRover Memory	Resilio NVME	Resilio Memor
GPT-109B	1536	546.6	3.8	44.3	1.5
GPT-70B	904	322.0	2.3	25.1	1.1
GPT-13B	176	60.5	2.2	17.8	0.9

下载: 导出CSV

| 显示表格

具体来看，表中列出了3个不同大小的GPT模型：GPT-109B、GPT-70B和GPT-13B，它们对应的CKPT大小分别为1.5 TB、904 GB和176 GB. 原生NFS列表示使用网络文件系统（network file system，NFS）进行模型加载的时间. 可以看出，随着模型大小的增加，加载时间显著增长，例如GPT-109B模型需要546.62 s，这种基于NFS的加载方式在处理大容量数据时表现较差. 在考虑网络带宽和延迟的限制下，研究中的内存缓存方案与DLRover均采用内存作为缓存介质. 相较于传统的加载方式，从内存中加载数据能够实现67~364倍的速度提升，且随着模型规模的增大，这一加速效果更加显著，当模型规模达到109 B时，最大可实现364倍的速度提升. 此外，通过应用多流传输、锁页内存及异步加载等技术手段，本研究提出的内存缓存加载方法相比DLRover实现了2到2.5倍的性能提升. 本研究进一步引入了NVMe作为二级缓存机制，在内存缓存未命中的情况下，利用本地NVME缓存加速数据加载，同时在模型初始化阶段进行CKPT预加载，从而重叠部分CKPT加载时间，缩短CKPT恢复耗时. 实验结果表明，相对于传统完全依赖NFS进行加载的方式，该优化措施能够直接从重启后的节点NVME中恢复CKPT，可以显著降低访问NFS带来的延迟，将CKPT加载速度提高12倍. 这一系列改进为高效加载更大规模模型提供了新的解决方案.

表6展示了不同规模的GPT模型在各种存储介质下的保存时间消耗情况.

表 6 CKPT保存时间对比

Table 6. Comparison of CKPT Saving Time s

模型	原生NFS	DLRover Memory	Resilio NVME	Resilio Memory	Resilio Block
GPT-109B	579.0	2.2	69.4	1.63	0.2
GPT-70B	335.0	1.3	53.8	1.18	0.2
GPT-13B	66.2	1.2	27.1	0.90	0.2

下载: 导出CSV

| 显示表格

类似于表5所呈现的数据，采用原生NFS进行模型保存时，由于NFS的带宽限制，导致保存过程耗时巨大. DLRover首先采用同步方式将数据保存到内存中，然后异步完成持久化存储，显著缩短了训练暂停的时间，该时间大致等同于数据保存至内存所需的时间，相较于传统的保存方法实现了约275倍的效率提升. 在此基础上，本文新增了一项优化策略，即对保存到内存的操作也实施异步处理，使得保存耗时能够与下一轮迭代的耗时部分重叠. 这一改进主要依据是以单次训练迭代的前反向计算不会修改模型参数，通过重叠CKPT数据传输过程与计算过程实现对传输开销的隐藏，因此整个CKPT保存过程只会产生0.2 s固定的阻塞训练时间（对应表6中Resilio Block列）. 随着模型规模的增大，加速效果更加明显，在109 B规模的模型中，相比DLRover，本文方案实现了高达10.5倍的速度提升. 这表明，对于大规模模型的保存操作，所提出的优化方法具有显著的性能优势.

JIT CKPT的测试环境如表2所示，表7展示了启用JIT CKPT功能后引入的性能开销.

表 2 Cluster-B服务器配置参数

Table 2. Configuration Parameters of Server Cluster-B

名称	配置环境
CPU	Intel Xeon Gold 6526Y@3.9 GHz
CPU核数	32
操作系统	Ubuntu 22.04 LTS
GPU	8 × NVIDIA L20
内存/GB	540
网络带宽/Gbps	200

下载: 导出CSV

| 显示表格

表 7 JIT CKPT性能开销

Table 7. Performance Overhead of JIT CKPT

模型	CKPT大小/GB	迭代耗时/s	迭代耗时/s（开启JIT）	开销/%
GPT-70B	904	2.91	2.96	1.65
GPT-13B	176	2.71	2.75	1.30

下载: 导出CSV

| 显示表格

由于JIT CKPT的应用涉及使用NCCL拦截库，本文通过一系列实验测试了不同模型下的性能影响，结果表明整体性能开销低于2%，这为实际生产环境中的应用提供了可行性. 表8进一步阐述了在发生单点故障时，JIT CKPT机制所带来的恢复优势. 具体而言，当故障发生时，诊断过程耗时大约为5~6 s，约为一轮迭代时间的2倍. 这是因为在NCCL拦截库检测到超时事件后，经过一轮迭代时间，FT Master能够收集所有相关的超时事件，并据此反推出故障源. 与传统的脚本检测方法相比，这种主动发现故障的方法显著缩短了故障检测时间. 此外，结合本文提出的容错系统和多层级CKPT，在所有健康进程将CKPT保存到内存之后即可立即重启任务，使得被重启的健康进程可以直接从内存中读取CKPT. 对于需要重启的故障进程，由于缺乏本地CKPT，其将从相同数据并行组的其他成员的内存中读取CKPT，该过程借助RDMA技术实现，并且利用巨页注册机制来减少RDMA内存锁定带来的开销. 同时，将RDMA读取操作异步化，使其与模型初始化过程重叠，从而隐藏这部分开销. 最终结果显示，JIT CKPT的恢复耗时与直接从内存加载CKPT相当，例如GPT-70B模型的恢复仅需1.22 s. 这些优化措施共同提升了大规模模型训练系统的容错能力和效率.

表 8 JIT CKPT故障恢复耗时

Table 8. Failure Recovery Time-Consuming of JIT CKPT

模型	CKPT 大小/GB	故障诊断耗时/s	CKPT内存恢复耗时/s	CKPT RDMA 恢复耗时/s
GPT-70B	904	6.0	1.22	7.5
GPT-13B	176	5.4	1.02	4.4

下载: 导出CSV

| 显示表格

上述分析讨论了JIT CKPT在常规场景下的性能影响，然而在极端情况下（如高频故障发生时），该系统可能面临显著的额外同步开销.

为全面评估JIT CKPT的鲁棒性，本文将进一步针对极端场景展开深入分析. 具体而言，JIT CKPT的开销主要由2部分组成：

1）训练过程中固定开销. 主要由拦截库引入，如表7所示，该部分开销控制在训练总时间的2%以内.

2）故障恢复时的动态开销. 包括故障检测和即时检查点保存耗时，GPT-70B模型在表2的测试环境下这部分开销为7.22 s. 如表9数据所示，即使在极端故障场景（日均100次故障）下，该开销占比仍能保持在1%以下.

表 9 故障频率对检查点开销的影响

Table 9. Effect of Fault Frequency on Checkpoint Overhead

故障频率（次/天）	故障检测耗时/s	JITCKPT保存耗时/s	开销占比/%
10	6.0	1.22	0.08
100	6.0	1.22	0.84

下载: 导出CSV

| 显示表格

3.4 自动并行模块性能对比分析

自动并行组件的测试环境如表3所示，模型配置信息如表10所示.

表 3 Cluster-C服务器配置参数

Table 3. Configuration Parameters of Server Cluster-C

名称	配置环境
CPU	Intel Xeon Gold 5317 CPU@3.00 GHz
CPU核数	48
操作系统	Ubuntu 22.04 LTS
GPU	4 × NVIDIA A100
内存/TB	2

下载: 导出CSV

| 显示表格

表 10 HPPS模型测试列表

Table 10. Testing List of HPPS Model

模型	模型参数（B）	批次大小	流水线并行度
OPT	[1.3, 2.7, 6.7]	256	{4,2}
GPT-2	1.5	256	{4,2}

下载: 导出CSV

| 显示表格

针对HPPS子系统测试了指定流水线并行度下模拟器的总耗时和精度. HPPS采用两级并行切分方式，首先完成流水线切分，在指定流水线切分的情况下再进行DP和TP的搜索. 从图9可以看出，和Alpa^[29]相比，HPPS通过解耦算子内并行（intra-operator parallelism）和算子间并行（inter-operator parallelism）能显著降低搜索空间和时间开销. 实验结果表明，在表10所示的模型配置下，HPPS模拟器耗时为61.99~135.48 s之间，相比Alpa的310.67~591.23 s耗时，HPPS的模拟效率为Alpa的2.72~5.63倍，平均提升为4.36倍，显著提升了自动并行的执行效率.

图 9 HPPS模拟器耗时时间对比

Figure 9. Comparison of time consumption for HPPS simulator

下载: 全尺寸图片幻灯片

在指定流水线并行度下，HPPS完成了TP和DP策略的搜索，对比Alpa的仅指定流水线切分方法，在完成流水线切分后，可通过XLA^[30]编译出流水线阶段的可执行文件，解析流水线阶段的计算时间和通信量字节数总和. 根据不同的GPU数量和并行方式，调用离线通信接口获取通信时间. 最后根据式（3）计算得到单次迭代的训练时间. 表11所示为本系统的模拟器精度数据，整体精度误差在5.18% ~12.81%之间，平均误差为7.77 %. 可见，在精度损失较小的情况下，HPPS自动并行系统可以极大的提升自动并行最优切分策略的搜寻速度.

表 11 HPPS模拟器精度对比

Table 11. Comparison of HPPS Simulator Accuracy

模型	参数（B）	HPPS/s	Alpa/s	误差/%
OPT	1.3	5.23	4.95	5.59
OPT	2.7	8.17	8.62	5.18
OPT	6.7	16.61	19.05	12.81
GPT-2	1.5	8.26	7.68	7.51

下载: 导出CSV

| 显示表格

HPPS子系统依赖容错框架的资源监测，动态分配GPU资源使得资源利用率得到提升. 为了阐述Resilio框架在资源利用率方面的优势，本节采用模型算力利用率（model FLOPS utilization，MFU）^[31]来评估不同参数大小模型的算力利用表现.

基于表3集群和表9模型，本节对比了在HPPS和Alpa分别搜寻最优并行配置下模型训练输出的MFU大小，如表12所示. 结果表明，采用HPPS搜索得到的并行配置进行训练时，MFU值可提升2.05%~16.2%，平均提升8.37%.

表 12 基于HPPS测试模型的MFU提升

Table 12. Improvement of MFU Based on HPPS Test Model %

模型	HPPS	Alpa	MFU提升
OPT-1.3B	35.93	33.88	2.05
OPT-2.7B	50.72	38.60	12.12
OPT-6.7B	64.64	48.48	16.16
GPT-2-1.5B	31.40	28.27	3.13

下载: 导出CSV

| 显示表格

4. 总　　结

大模型训练因其对计算资源的长期高强度占用，常引发软硬件的频繁且多样故障，进而导致训练过程中断或效率大幅降低，这种故障不仅会影响训练任务的顺利完成，还可能造成长时间的资源浪费，因此，如何探寻故障源头、快速恢复训练进程并缩减训练停滞时间成为大规模分布式训练中的一项重要挑战. 为了应对这一问题，本文提出了一种大模型弹性容错系统，旨在提高大模型训练过程中遇到的各类故障恢复能力，并提高整体训练的可靠性与效率. 该系统能够针对训练中出现的网络与节点故障、训练进程崩溃等典型问题，提供自动化的恢复方案，确保千亿参数的大模型训练中，端到端的故障恢复时间不超过10分钟，同时将模型中断后的重训时间缩短至单次训练迭代时间. 此外，该系统还结合了模型分布式训练的特性与硬件存储的层次结构，通过多层次的CKPT读写优化，以及设计CKPT即时保存机制，大幅度的减少了模型训练中断后的训练恢复耗时. 同时，为了在集群资源动态变化时提高训练效率和GPU资源的使用率，本文还研发了一种模型训练自动配置子系统，该系统借助性能模拟器对模型训练的并行策略进行精准评估，自动确定最佳的资源分配方案，并通过与容错调度组件协同工作，确保大模型训练在资源有限的场景下能够高效运行，实现大模型的弹性训练.

综上所述，本文提出的弹性容错系统在解决大规模模型训练中的软硬件故障问题、提升容错恢复速度、优化CKPT机制以及自动化配置并行策略等方面，展示了显著的优势. 其在百卡规模、百亿参数大模型训练任务中的应用，不仅能够确保训练任务的高效与稳定完成，还能够显著提升系统对故障的容错能力和对集群资源的利用率，为大规模分布式深度学习训练提供了一种有效的解决方案.

作者贡献声明：李焱负责论文选题以及框架、实验设计并撰写论文；杨偲乐负责检查点功能设计与相关章节撰写；刘成春负责撰写容错框架设计、故障检测等内容；王林梅和田瑶琳负责自动并行设计以及相关章节撰写；张信航参与检查点优化工作和协助论文修改；朱昱参与容错框架的整体设计工作；李莼蒲和孙磊参与模型测试工作；颜深根、肖利民和张伟丰提出指导意见并修改论文；

图 1 变分量子算法示意图

Figure 1. Illustration of variational quantum algorithms

下载: 全尺寸图片幻灯片

图 2 参数化量子电路框架

Figure 2. Parameterized quantum circuits frame

下载: 全尺寸图片幻灯片

图 3 多层参数化量子电路

Figure 3. Multilayer parameterized quantum circuits

下载: 全尺寸图片幻灯片

图 4 基于变分量子电路的量子机器学习算法时间线

Figure 4. Timelines of quantum machine learning algorithms based on variational quantum circuit

下载: 全尺寸图片幻灯片

图 5 经典前后处理的量子分类器

Figure 5. Quantum classifiers with classical pre-processing and post-processing

下载: 全尺寸图片幻灯片

图 6 TTN 和 MERA 结构

Figure 6. Structures of TTN and MERA

下载: 全尺寸图片幻灯片

图 7 量子卷积神经网络

Figure 7. Quantum convolutional neural network

下载: 全尺寸图片幻灯片

图 8 变分影子量子学习示意图

Figure 8. Illustration of VSQL

下载: 全尺寸图片幻灯片

图 9 单隐藏层 HNN 架构示意图

Figure 9. Illustration of HNN frame with single hidden layer

下载: 全尺寸图片幻灯片

图 10 量子自编码器示意图

Figure 10. Illustration of quantum autoencoder

下载: 全尺寸图片幻灯片

图 11 SQ-VAE示意图

Figure 11. Illustration of SQ-VAE

下载: 全尺寸图片幻灯片

图 12 量子生成式对抗网络

Figure 12. Quantum generative adversarial networks

下载: 全尺寸图片幻灯片

图 13 量子强化学习示意图

Figure 13. Illustration of quantum reinforcement learning

下载: 全尺寸图片幻灯片

图 14 policy-PQC 示意图

Figure 14. Illustration of policy-PQC

下载: 全尺寸图片幻灯片

图 15 量子actor结合经典critic

Figure 15. Quantum actor combines with classical critic

下载: 全尺寸图片幻灯片

表 1 用于量子机器学习模型的设备

Table 1 Device Used for Quantum Machine Learning Model

模型	门电路	量子退火机	脉冲电路
分类器	√	×	√
量子卷积神经网络	√	×	×
影子电路	√	×	×
量子玻恩机	√	×	×
量子玻尔兹曼机	√	√	×
量子自编码器	√	√	×
量子生成对抗网络	√	×	×
量子强化学习	√	×	×
量子电路结构搜索	√	×	√
注：“√”表示可以实现的设备，“×”表示不能实现的设备.

下载: 导出CSV

表 2 常用基本量子逻辑门

Table 2 Frequently Used Basic Quantum Gates

量子逻辑门	符号表示	酉矩阵表示
单位门	I	$\left( {\begin{array}{*{20}{c}} 1&0 \\ 0&1 \end{array}} \right)$
Pauli-X门	X	$\left( {\begin{array}{*{20}{c}} 0&1 \\ 1&0 \end{array}} \right)$
Pauli-Y门	Y	$\left( {\begin{array}{*{20}{c}} 0&{ - {\text{i}}} \\ {\text{i}}&0 \end{array}} \right)$
Pauli-Z门	Z	$\left( {\begin{array}{*{20}{c}} 1&0 \\ 0&{ - 1} \end{array}} \right)$
Hadmard门	H	$\dfrac{{\sqrt 2 }}{2}\left( {\begin{array}{*{20}{c}} 1&1 \\ 1&{ - 1} \end{array}} \right)$
Phase门	S	$\left( {\begin{array}{*{20}{c}} 1&0 \\ 0&{\text{i}} \end{array}} \right)$
交换门	SWAP	$\left( {\begin{array}{*{20}{c}} 1&0&0&0 \\ 0&0&1&0 \\ 0&1&0&0 \\ 0&0&0&1 \end{array}} \right)$
受控非门	CNOT，CX	$\left( {\begin{array}{*{20}{c}} 1&0&0&0 \\ 0&1&0&0 \\ 0&0&0&1 \\ 0&0&1&0 \end{array}} \right)$
受控Y门	CY	$\left( {\begin{array}{*{20}{c}} 1&0&0&0 \\ 0&1&0&0 \\ 0&0&0&{ - {\text{i}}} \\ 0&0&{\text{i}}&0 \end{array}} \right)$
受控Z门	CZ	$\left( {\begin{array}{*{20}{c}} 1&0&0&0 \\ 0&1&0&0 \\ 0&0&1&0 \\ 0&0&0&{ - 1} \end{array}} \right)$
Toffoli门	Toffoli，CCNOT	$\left( {\begin{array}{*{20}{c}} 1&0&0&0&0&0&0&0 \\ 0&1&0&0&0&0&0&0 \\ 0&0&1&0&0&0&0&0 \\ 0&0&0&1&0&0&0&0 \\ 0&0&0&0&1&0&0&0 \\ 0&0&0&0&0&1&0&0 \\ 0&0&0&0&0&0&0&1 \\ 0&0&0&1&0&0&1&0 \end{array}} \right)$
Fredkin门	Fredkin，CSWAP	$\left( {\begin{array}{*{20}{c}} 1&0&0&0&0&0&0&0 \\ 0&1&0&0&0&0&0&0 \\ 0&0&1&0&0&0&0&0 \\ 0&0&0&1&0&0&0&0 \\ 0&0&0&0&1&0&0&0 \\ 0&0&0&0&0&0&1&0 \\ 0&0&0&0&0&1&0&0 \\ 0&0&0&1&0&0&0&1 \end{array}} \right)$

下载: 导出CSV

表 3 经典优化算法及模型使用偏好

Table 3 Classical Optimization Algorithms and Usage Preference of Models

经典优化器	基于梯度	有监督模型	无监督模型	半监督模型	强化学习模型	电路结构搜索
Adam^[37]	是	TTNs^[10,32-33] QCCNN^[38-39] VSQL^[34]	QCBM^[31,40-42], QBM^[14] QAE^[15,43]	QGAN^[19,44-50]	QDQN^[16,51] QActor-critic^[52] QMARL^[53-54]	QuantumNAS^[12] QAS^[55] MQNE^[56]
(mini-batch)SGD^[57]	是	HNN^[58]		QGAN^[59]	QDDQN^[60]
AMSGRAD^[61]	是			QGAN^[50,62]
BFGS/L-BFGS-B^[63-64]	是		QCBM^[40] QAE^[65-66]
Nesterov moment^[67]	是	QCNN^[39]
RMSProp^[68]	是	MPS-VQC^[30]			VQ-DQN^[69]
基于梯度优化的其他模型	是	QCNN^[11,70-71]	QCBM^[41] QBM^[72]	QGAN^[73-74]
PSO^[75]	否		QCBM^[13,76]
SPSA^[77]	否			QGAN^[62]		CRLQAS^[78]
CMA-ES^[79]	否		QCBM^[40,80]
GA^[81]	否		QCBM^[82] QAE^[83]

下载: 导出CSV

表 4 量子机器学习任务常用数据集

Table 4 Frequently Used Datasets of Quantum Machine Learning Tasks

任务	数据集/交互环境
有监督学习	MNIST^{[10,30,32-33,38,70-71,98]}、Iris ^[10,32,58]、BAS^[58]、量子数据^[32]
无监督学习	MNIST^[103]、BAS^{[13,15,31,40,42,72,76]}、金融数据^[41,80]、药物数据QM9^[43]、生成概率分布^{[15,40,82,101]}、量子数据^[101]
半监督学习	MNIST^[19,49-59]、BAS^[19,44-45]、QM9^[47,104]、生成概率分布数据^[46,62]、量子数据^[73]
电路结构搜索	MNIST^[12,55-56]、量子数据^[56]
强化学习	frozen-lake^[69,105]，cart pole^{[16,51-52,105-106]}

下载: 导出CSV

表 5 常用模拟平台及模型

Table 5 Frequently Used Simulation Platforms and Models

模拟平台	机构	模型	语言
Qiskit	IBM	HNN^[58]，QGAN^[50]，QBM^[72]	Python
TFQ	Google	TTNs^[32]，MERAs^[32]，VQTN^[10]，QCNN^[70]，QGAN^[107]，QRL^[51]	Python
Pennylane	Xanadu	QTN^[33]，QCNN^[39]，QCBM^[31]，QGAN^[47]，QVAE^[43]， VQ−DQN^[69]，QRL^[52]，QAS^[108]	Python
Torchquantum	MIT	QuantumNAS^[12]，QAE^[15]，QMARL^[53]	Python
Yao	QuantumBFS	MQNE^[56]，QCBM^[40]，QGAN^[44]	Julia
Paddle Quantum	百度	QCL^[84]，VSQL^[34]，QAE^[65]，QGAN^[74]	Python
VQNet	本源量子	VQM^[109]，QCNN^[11,110]，VSQL^[34]，QAE^[65]，QGAN^[50]，VQ-DQN^[69]	C++

下载: 导出CSV

表 6 分类任务上基于变分量子电路的机器学习算法

Table 6 Machine Learning Algorithms Based on Variational Quantum Circuits for Classification Tasks

模型	数据集	任务	环境	量子位	参数量	准确率/%
模型	数据集	任务	环境	量子位	参数量	训练集	测试集
VQM^[98]	MNIST	二分类	模拟	17	136		90
TTN^[32]	Iris	二分类	模拟	4	7		98.92
TTN^[32]	MNIST	二分类	模拟	8	7		97.63
MERA^[32]	MNIST	二分类	模拟	8	11		98.86
Hybrid^[32]（TTN 预训练过的 MERA）	MNIST	二分类	模拟	8	11		98.46
TTN^[32]	合成量子数据集	二分类	模拟	8	7		60.45
PCA-VQC^[30]	MNIST	二分类	模拟	4	12	87.29	87.34
MPS-VQC^[30]	MNIST	二分类	模拟	4	12	99.91	99.44
QTN-VQC^[33]	MNIST	二分类	模拟	8	328		91.43
QTN-VQC^[33]	MNIST	二分类	模拟	12	4464		92.36
QTN-VQC^[33]	MNIST	二分类	模拟	16	600		92.28
VQTN^[10]	Iris	三分类	模拟	2	3		100
VQTN(TTN)^[10]	MNIST	二分类	模拟	8	12		97.80
VQTN(TTN)^[10]	MNIST	二分类	模拟	16	28		97.45
VQTN(MERA)^[10]	MNIST	二分类	模拟	8	18		97.92
VQTN^[10]	MNIST-4	四分类	模拟				82.19
QCNN^[70]	MNIST	十分类	模拟	4	6		95
Noisy QCNN^[71]	MNIST	二分类	模拟	14	46	94.8	96.0
Noisy QCNN^[71]	MNIST	十分类	模拟	14	379	74.2	74.0
Noisy-free QCNN^[71]	MNIST	二分类	模拟	14	46	95.4	96.3
Noisy-free QCNN^[71]	MNIST	十分类	模拟	14	379	75.6	74.3
QCCNN^[38]	Tetri	二分类	模拟	4	16		≈100
QCCNN^[38]	Tetri	四分类	模拟	4	16		≈100
QMLP^[111]	MNIST	十分类	模拟	16	128		75
QMLP^[111](比特翻转)	MNIST	十分类	模拟	16	128		63
QMLP^[111](相位翻转)	MNIST	十分类	模拟	16	128		67
VSQL^[34]	MNIST	二分类	模拟	2	35		99.52
VSQL^[34]	MNIST（1000个样本）	十分类	模拟	9	928		87.39
VSQL^[34]	含噪量子态	二分类	模拟	2			100
VSQL^[34]	不含噪量子态	三分类	模拟	2			100
HNN^[58]	BAS	二分类	模拟	10	20		100
HNN^[58]	BAS	二分类	量子	10	20		33.33
HNN^[58]	Iris	三分类	模拟	10	20	89.88	91.5
HNN^[58]	Iris	三分类	量子	10	20	28.12	37.5
注：数据取相应论文给出的最优模型数据，使用相同数据集的相同任务之间仍存在差异，例如 MNIST 数据集二分类任务可以为2个数字的分类、是否为偶数的分类、是否大于4 的分类等，并非完全一致. 模拟环境是指使用经典计算机模拟的环境，量子环境是指使用量子计算机上运行相应算法.

下载: 导出CSV

表 7 QGAN 分类及相关研究

Table 7 Classification of QGANs and Related Researches

任务	生成器	判别器	名称	相关研究
经典	经典	经典	CT-CGCD	文献[126]
经典	经典	量子	CT-CGQD	文献[46, 104, 107]
经典	量子	经典	CT-QGCD	文献[19, 44−49, 59]
经典	量子	量子	CT-QGQD	文献[46, 59]
量子	经典	经典	QT-CGCD	文献[127]
量子	经典	量子	QT-CGQD
量子	量子	经典	QT-QGCD	文献[50, 62]
量子	量子	量子	QT-QGQD	文献[73−74, 124, 128−129]
注：采用文献[125]给出的命名方式，名称中的字母 T，G，D分别表示任务、生成器、判别器. C，Q 分别表示是通过经典还是量子方法完成的. 经典生成器与量子判别器构成的QGAN对于量子数据无法收敛到纳什均衡，无法完成量子任务.

下载: 导出CSV

表 8 量子强化学习算法

Table 8 Quantum Reinforcement Learning Algorithms

模型	测试环境	环境	量子位	参数量	回合数	回报
VQ-DQN^[69]	frozen-lake	模拟	4	28	198	0.9
VQ-DQN(pretrianed)^[69]	frozen-lake	量子	4	28	1	0.95
VQ-DQN^[69]	cognitive-radio	模拟	4	28	10*	100
VQ-DQN(pretrianed)^[69]	cognitive-radio	量子	4	28	1	100
Quantum-DQN^[105]	frozen-lake v0	模拟	4	5层	3100	1.0
Quantum-DQN^[105]	frozen-lake v0	模拟	4	10层	2200	1.0
Quantum-DQN^[105]	frozen-lake v0	模拟	4	15层	1700	1.0
Quantum-DQN^[105]	Cart Pole v0（optimal）	模拟	4	62	186	195
Quantum-DQN^[105]	Cart Pole v0（sub-optimal）	模拟	4	62	3000	176
Quantum Actor-critic^[52]	Cart Pole	模拟	4	36	6000	105
QLSTM-DRQN-1^[16]	Cart Pole（Full Observable）	模拟	8	150	350*	100*
QLSTM-DRQN-1^[16]	Cart Pole（Partially Observable）	模拟	8	146	675*	150*
QLSTM-DRQN-2^[16]	Cart Pole（Full Observable）	模拟	8	270	420*	125*
QLSTM-DRQN-2^[16]	Cart Pole（Partially Observable）	模拟	8	266	750*	100*
QMARL^[53]	Single-Hop Offloading	模拟	4	50	500	−3.0
改进CTDE QMARL^[54]	Smart Factory	模拟	16	54	980	−37.0
注：带*的数值表示原论文中未给出精确数值，本文进行估算后得到的数值. 结果为各论文中给出的最优参数的模型. Quantum-DQN模型中未给出具体参数量，层数与参数量正相关.

下载: 导出CSV

表 9 量子架构搜索算法

Table 9 Quantum Architecture Searching Algorithms

模型	数据集	任务	环境	量子位	最优结构参数量	准确率/%
QuantumNAS^[12]	MNIST	二分类	量子	5	22	95
QuantumNAS^[12]	MNIST	四分类	量子	5	22	75
QuantumNAS^[12]	MNIST	十分类	量子	15		32.5
QuantumNAS^[12]	Fashion-2	二分类	量子	5	22	92
QuantumNAS^[12]	Fashion-4	四分类	量子	5	36	85
MQNE^[56]	MNIST	二分类	模拟	9	106	97
MQNE^[56]	Cancer	二分类	模拟	7	68	94.6
MQNE^[56]	SPT	量子态分类	模拟	8	46	100
QAS^[55]	Fashion-MNIST	二分类	模拟	10		92.4
QAS^[108]	合成数据集（无噪声）^[144]	二分类	模拟	3		>90
QAS^[108]	合成数据集（有噪声）^[144]	二分类	模拟	3		100
CRLQAS^[78]		VQE	模拟
NAPA^[142]		VQE最大割	量子

下载: 导出CSV

参考文献(167)

[1]	Hilbert M, López P. The world’s technological capacity to store, communicate, and compute information[J]. Science, 2011, 332(6025): 60−65 doi: 10.1126/science.1200970
[2]	Arute F, Arya K, Babbush R, et al. Quantum supremacy using a programmable superconducting processor[J]. Nature, 2019, 574(7779): 505−510 doi: 10.1038/s41586-019-1666-5
[3]	Huang Cupjin, Zhang Fang, Newman M, et al. Classical simulation of quantum supremacy circuits[J]. arXiv preprint, arXiv: 2005.06787, 2020
[4]	Pan Feng, Zhang Pan. Simulating the Sycamore quantum supremacy circuits[J]. arXiv preprint, arXiv: 2103.03074, 2021
[5]	Zhu Qingling, Cao Sirui, Chen Fusheng, et al. Quantum computational advantage via 60-qubit 24-cycle random circuit sampling[J]. Science Bulletin, 2022, 67(3): 240−245 doi: 10.1016/j.scib.2021.10.017
[6]	Feng Congcong, Zhao Bo, Zhou Xin, et al. An enhanced quantum k-nearest neighbor classification algorithm based on polar distance[J]. Entropy, 2023, 25(1): 127 doi: 10.3390/e25010127
[7]	Li Jing, Gao Fei, Lin Song, et al. Quantum k-fold cross-validation for nearest neighbor classification algorithm[J]. Physica A: Statistical Mechanics and Its Applications, 2023, 611: 128435 doi: 10.1016/j.physa.2022.128435
[8]	Cerezo M, Sharma K, Arrasmith A, et al. Variational quantum state eigensolver[J]. NPJ Quantum Information, 2022, 8(1): 113 doi: 10.1038/s41534-022-00611-6
[9]	Zhou Zeqiao, Du Yuxuan, Tian Xinmei, et al. Qaoa-in-qaoa: Solving large-scale maxcut problems on small quantum machines[J]. Physical Review Applied, 2023, 19(2): 024027 doi: 10.1103/PhysRevApplied.19.024027
[10]	Huang Rui, Tan Xiaoqing, Xu Qingshan. Variational quantum tensor networks classifiers[J]. Neurocomputing, 2021, 452: 89−98 doi: 10.1016/j.neucom.2021.04.074
[11]	Cong I, Choi S, Lukin M D. Quantum convolutional neural networks[J]. Nature Physics, 2019, 15(12): 1273−1278 doi: 10.1038/s41567-019-0648-8
[12]	Wang Hanrui, Ding Yongshan, Gu Jiaqi, et al. QuantumNAS: Noise-adaptive search for robust quantum circuits[C]//Proc of the 28th Annual Int Symp on High-Performance Computer Architecture. Piscataway, NJ: IEEE, 2022: 692−708
[13]	Benedetti M, Garcia-Pintos D, Perdomo O, et al. A generative modeling approach for benchmarking and training shallow quantum circuits[J]. NPJ Quantum Information, 2019, 5(1): 45 doi: 10.1038/s41534-019-0157-8
[14]	Zoufal C, Lucchi A, Woerner S. Variational quantum Boltzmann machines[J]. Quantum Machine Intelligence, 2021, 3(1): 7 doi: 10.1007/s42484-020-00033-7
[15]	Wu S R, Li C T, Cheng H C. Efficient data loading with quantum autoencoder[C/OL]//Proc of the 48th Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2023[2023-09-14]. https://ieeexplore.ieee.org /abstract/document/10096496
[16]	Chen Guoming, Chen Qiang, Long Shun, et al. Quantum convolutional neural network for image classification[J]. Pattern Analysis and Applications, 2023, 26(2): 655−667 doi: 10.1007/s10044-022-01113-z
[17]	Akshay V, Philathong H, Morales M E, et al. Reachability deficits in quantum approximate optimization[J]. Physical Review Letters, 2020, 124(9): 090504 doi: 10.1103/PhysRevLett.124.090504
[18]	Anand A, Alperin-Lea S, Choquette A, et al. Exploring the role of parameters in variational quantum algorithms[J]. arXiv preprint, arXiv: 2209.14405, 2022
[19]	Zhou Nanrun, Zhang Tianfeng, Xie Xinwen, et al. Hybrid quantum classical generative adversarial networks for image generation via learning discrete distribution[J]. Signal Processing: Image Communication, 2023, 110: 116891 doi: 10.1016/j.image.2022.116891
[20]	Romero J, Babbush R, Mcclean J R, et al. Strategies for quantum computing molecular energies using the unitary coupled cluster ansatz[J]. Quantum Science and Technology, 2018, 4(1): 014008 doi: 10.1088/2058-9565/aad3e4
[21]	Bang J, Lim J, Kim M S, et al. Quantum learning machine[J]. arXiv preprint, arXiv: 0803.2976, 2008
[22]	Cerezo M, Arrasmith A, Babbush R, et al. Variational quantum algorithms[J]. Nature Reviews Physics, 2021, 3(9): 625−644 doi: 10.1038/s42254-021-00348-9
[23]	Schuld M, Killoran N. Quantum machine learning in feature Hilbert spaces[J]. Physical Review Letters, 2019, 122(4): 040504 doi: 10.1103/PhysRevLett.122.040504
[24]	Lloyd S, Schuld M, Ijaz A, et al. Quantum embeddings for machine learning[J]. arXiv preprint, arXiv: 2001.03622, 2020
[25]	Schuld M. Supervised quantum machine learning models are kernel methods[J]. arXiv preprint, arXiv: 2101.11020, 2021
[26]	Grover L, Rudolph T. Creating superpositions that correspond to efficiently integrable probability distributions[J]. arXiv preprint, quant-ph/0208112, 2002
[27]	Kitaev A, Webb W A. Wavefunction preparation and resampling using a quantum computer[J]. arXiv preprint, arXiv: 0801.0342, 2008
[28]	Lloyd S. Universal quantum simulators[J]. Science, 1996, 273(5278): 1073−1078 doi: 10.1126/science.273.5278.1073
[29]	Kandala A, Mezzacapo A, Temme K, et al. Hardware-efficient variational quantum eigensolver for small molecules and quantum magnets[J]. Nature, 2017, 549(7671): 242−246 doi: 10.1038/nature23879
[30]	Chen S Y C, Huang C M, Hsing C W, et al. Hybrid quantum-classical classifier based on tensor network and variational quantum circuit[J]. arXiv preprint, arXiv: 2011.14651, 2020
[31]	Gong Lihua, Xing Lingzhi, Liu Sihang, et al. Born machine model based on matrix product state quantum circuit[J]. Physica A: Statistical Mechanics and its Applications, 2022, 593: 126907 doi: 10.1016/j.physa.2022.126907
[32]	Grant E, Benedetti M, Cao Shuxiang, et al. Hierarchical quantum classifiers[J]. NPJ Quantum Information, 2018, 4(1): 65 doi: 10.1038/s41534-018-0116-9
[33]	Qi Jun, Yang Chaohan, Chen Pinyu. QTN-VQC: An end-to-end learning framework for quantum neural networks[J]. Physica Scripta, 2023, 99(1): 015111
[34]	Li Guangxi, Song Zhixin, Wang Xin. VSQL: Variational shadow quantum learning for classification[C]//Proc of the 35th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2021: 8357−8365
[35]	Grimsley H R, Economou S E, Barnes E, et al. An adaptive variational algorithm for exact molecular simulations on a quantum computer[J]. Nature Communications, 2019, 10(1): 3007 doi: 10.1038/s41467-019-10988-2
[36]	Bittel L, Kliesch M. Training variational quantum algorithms is NP-hard[J]. Physical Review Letters, 2021, 127(12): 120502 doi: 10.1103/PhysRevLett.127.120502
[37]	Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint, arXiv: 1412.6980, 2014
[38]	Liu Junhua, Lim K H, Wood K L, et al. Hybrid quantum-classical convolutional neural networks[J]. Science China Physics, Mechanics & Astronomy, 2021, 64(9): 290311
[39]	Hur T, Kim L, Park D K. Quantum convolutional neural network for classical data classification[J]. Quantum Machine Intelligence, 2022, 4(1): 3 doi: 10.1007/s42484-021-00061-x
[40]	Liu Jinguo, Wang Lei. Differentiable learning of quantum circuit born machines[J]. Physical Review A, 2018, 98(6): 062324 doi: 10.1103/PhysRevA.98.062324
[41]	Coyle B, Henderson M, Le J C J, et al. Quantum versus classical generative modelling in finance[J]. Quantum Science and Technology, 2021, 6(2): 024013 doi: 10.1088/2058-9565/abd3db
[42]	Leyton-Ortega V, Perdomo-Ortiz A, Perdomo O. Robust implementation of generative modeling with parametrized quantum circuits[J]. Quantum Machine Intelligence, 2021, 3(1): 17 doi: 10.1007/s42484-021-00040-2
[43]	Li Junde, Ghosh S. Scalable variational quantum circuits for autoencoder-based drug discovery[C]//Proc of the 25th Design, Automation and Test in Europe Conf and Exhibition. Piscataway, NJ: IEEE, 2022: 340−345
[44]	Zeng Jinfeng, Wu Yufeng, Liu Jinguo, et al. Learning and inference on generative adversarial quantum circuits[J]. Physical Review A, 2019, 99(5): 052306 doi: 10.1103/PhysRevA.99.052306
[45]	Situ Haozhen, He Zhimin, Wang Yuyi et al. Quantum generative adversarial network for generating discrete distribution[J]. Information Sciences, 2020, 538: 193−208 doi: 10.1016/j.ins.2020.05.127
[46]	Romero J, Aspuru-Guzik A. Variational quantum generators: Generative adversarial quantum machine learning for continuous distributions[J]. Advanced Quantum Technologies, 2021, 4(1): 2000003 doi: 10.1002/qute.202000003
[47]	Li Junde, Topaloglu R O, Ghosh S. Quantum generative models for small molecule drug discovery[J]. IEEE Transactions on Quantum Engineering, 2021, 2: 3103308
[48]	Herr D, Obert B, Rosenkranz M. Anomaly detection with variational quantum generative adversarial networks[J]. Quantum Science and Technology, 2021, 6(4): 045004 doi: 10.1088/2058-9565/ac0d4d
[49]	Tsang S L, West M T, Erfani S M, et al. Hybrid quantum-classical generative adversarial network for high resolution image generation[J]. IEEE Transactions on Quantum Engineering, 2023, 4: 3102419
[50]	Zoufal C, Lucchi A, Woerner S. Quantum generative adversarial networks for learning and loading random distributions[J]. NPJ Quantum Information, 2019, 5(1): 103 doi: 10.1038/s41534-019-0223-2
[51]	Lockwood O, Si Mei. Reinforcement learning with quantum variational circuit[C]//Proc of the 16th AAAI Conf on Artificial Intelligence and Interactive Digital Entertainment. Menlo Park, CA: AAAI, 2020: 245−251
[52]	Kwak Y, Yun W J, Jung S, et al. Introduction to quantum reinforcement learning: Theory and pennylane-based implementation[C]//Proc of the 12th Int Conf on Information and Communication Technology Convergence. Piscataway, NJ: IEEE, 2021: 416−420
[53]	Yun W J, Kwak Y, Kim J P, et al. Quantum multiagent reinforcement learning via variational quantum circuit design[C]//Proc of the 42nd Int Conf on Distributed Computing Systems. Piscataway, NJ: IEEE, 2022: 1332−1335
[54]	Yun W J, Kim J P, Jung S, et al. Quantum multi-agent actor-critic neural networks for internet-connected multirobot coordination in smart factory management[J]. IEEE Internet of Things Journal, 2023, 10(11): 9942−9952 doi: 10.1109/JIOT.2023.3234911
[55]	Zhang Shixin, Hsieh Changyu, Zhang Shengyu, et al. Neural predictor based quantum architecture search[J]. Machine Learning: Science and Technology, 2021, 2(4): 045027 doi: 10.1088/2632-2153/ac28dd
[56]	Lu Zhide, Shen Peixin, Deng Dongling. Markovian quantum neuroevolution for machine learning[J]. Physical Review Applied, 2021, 16(4): 044039 doi: 10.1103/PhysRevApplied.16.044039
[57]	Robbins H, Monro S. A stochastic approximation method[J]. The Annals of Mathematical Statistics, 1951, 22(3): 400−407 doi: 10.1214/aoms/1177729586
[58]	Arthur D. A hybrid quantum-classical neural network architecture for binary classification[J]. arXiv preprint, arXiv: 2201.01820, 2022
[59]	Huang Heliang, Du Yuxuan, Gong Ming, et al. Experimental quantum generative adversarial networks for image generation[J]. Physical Review Applied, 2021, 16(2): 024051 doi: 10.1103/PhysRevApplied.16.024051
[60]	Heimann D, Hohenfeld H, Wiebe F, et al. Quantum deep reinforcement learning for robot navigation tasks[J]. arXiv preprint, arXiv: 2202.12180, 2022
[61]	Reddi S J, Kale S, Kumar S. On the convergence of adam and beyond[J]. arXiv preprint, arXiv: 1904.09237, 2019
[62]	Agliardi G, Prati E. Optimal tuning of quantum generative adversarial networks for multivariate distribution loading[J]. Quantum Reports, 2022, 4(1): 75−105 doi: 10.3390/quantum4010006
[63]	Nocedal J, Wright S J. Numerical Optimization[M]. New York: Springer, 2006
[64]	Zhu Ciyou, Byrd R H, Lu Peihuang, et al. Algorithm 778: LBFGS-B: Fortran subroutines for large-scale bound-constrained optimization[J]. ACM Transactions on mathematical software, 1997, 23(4): 550−560 doi: 10.1145/279232.279236
[65]	Romero J, Olson J P, Aspuru-Guzik A. Quantum autoencoders for efficient compression of quantum data[J]. Quantum Science and Technology, 2017, 2(4): 045001 doi: 10.1088/2058-9565/aa8072
[66]	Bravo-Prieto C. Quantum autoencoders with enhanced data encoding[J]. Machine Learning: Science and Technology, 2021, 2(3): 035028 doi: 10.1088/2632-2153/ac0616
[67]	Sutskever I, Martens J, Dahl G, et al. On the importance of initialization and momentum in deep learning[C]//Proc of the 30th Int Conf on Machine Learning. New York: PMLR, 2013: 1139−1147
[68]	Tieleman T. Lecture 6.5-RMSProp: Divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural Networks for Machine Learning, 2012, 4(2): 26−31
[69]	Chen S Y C, Yang C H H, Qi Jun, et al. Variational quantum circuits for deep reinforcement learning[J]. IEEE Access, 2020, 8: 141007−141024 doi: 10.1109/ACCESS.2020.3010470
[70]	Oh S, Choi J, Kim J. A tutorial on quantum convolutional neural networks (QCNN)[C]//Proc of the 11th Int Conf on Information and Communication Technology Convergence (ICTC). Piscataway, NJ: IEEE, 2020: 236−239
[71]	Wei Shijie, Chen Yanhu, Zhou Zengrong, et al. A quantum convolutional neural network on NISQ devices[J]. AAPPS Bulletin, 2022, 32(1): 2 doi: 10.1007/s43673-021-00030-3
[72]	Shingu Y, Seki Y, Watabe S, et al. Boltzmann machine learning with a variational quantum algorithm[J]. Physical Review A, 2021, 104(3): 032413 doi: 10.1103/PhysRevA.104.032413
[73]	Chakrabarti S, Huang Yiming, Li Tongyang, et al. Quantum wasserstein generative adversarial networks[C]//Proc of the 33rd Conf on Neural Information Processing Systems (NeurIPS). La Jolla, CA: NIPS, 2019: 6781−6792
[74]	Lloyd S, Weedbrook C. Quantum generative adversarial learning[J]. Physical Review Letters, 2018, 121(4): 040502 doi: 10.1103/PhysRevLett.121.040502
[75]	Kennedy J, Eberhart R. Particle swarm optimization[C]//Proc of ICNN’95. Piscataway, NJ: IEEE, 1995: 1942−1948
[76]	Zhu Daiwei, Linke N M, Benedetti M, et al. Training of quantum circuits on a hybrid quantum computer[J]. Science Advances, 2019, 5(10): eaaw9918 doi: 10.1126/sciadv.aaw9918
[77]	Spall J C. A one-measurement form of simultaneous perturbation stochastic approximation[J]. Automatica, 1997, 33(1): 109−112 doi: 10.1016/S0005-1098(96)00149-5
[78]	Patel Y J, Kundu A, Ostaszewski M, et al. Curriculum reinforcement learning for quantum architecture search under hardware errors[J]. arXiv preprint, arXiv: 2402.03500, 2024.
[79]	Hansen N, Müller S D, Koumoutsakos P. Reducing the time complexity of the derandomized evolution strategy with covariance matrix adaptation (CMA-ES)[J]. Evolutionary Computation, 2003, 11(1): 1−18 doi: 10.1162/106365603321828970
[80]	Alcazar J, Leyton-Ortega V, Perdomo-Ortiz A. Classical versus quantum models in machine learning: Insights from a finance application[J]. Machine Learning: Science and Technology, 2020, 1(3): 035003 doi: 10.1088/2632-2153/ab9009
[81]	Las Heras U, Alvarez-Rodriguez U, Solano E, et al. Genetic algorithms for digital quantum simulations[J]. Physical Review Letters, 2016, 116(23): 230504 doi: 10.1103/PhysRevLett.116.230504
[82]	Kondratyev A. Non-differentiable leaning of quantum circuit Born machine with genetic algorithm[J]. Wilmott, 2021, 2021(114): 50−61
[83]	Ding Yongcheng, Lamata L, Sanz M, et al. Experimental implementation of a quantum autoencoder via quantum adders[J]. Advanced Quantum Technologies, 2019, 2(7/8): 1800065
[84]	Mitarai K, Negoro M, Kitagawa M, et al. Quantum circuit learning[J]. Physical Review A, 2018, 98(3): 032309 doi: 10.1103/PhysRevA.98.032309
[85]	He Guangping. Computing the gradients with respect to all parameters of a quantum neural network using a single circuit[J]. arXiv preprint, arXiv: 2307.08167, 2023
[86]	Li Jun, Yang Xiaodong, Peng Xinhua, et al. Hybrid quantum-classical approach to quantum optimal control[J]. Physical Review Letters, 2017, 118(15): 150503 doi: 10.1103/PhysRevLett.118.150503
[87]	Nakanishi K M, Fujii K, Todo S. Sequential minimal optimization for quantum-classical hybrid algorithms[J]. Physical Review Research, 2020, 2(4): 043158 doi: 10.1103/PhysRevResearch.2.043158
[88]	Parrish R M, Iosue J T, Ozaeta A, et al. A Jacobi diagonalization and Anderson acceleration algorithm for variational quantum algorithm parameter optimization[J]. arXiv preprint, arXiv: 1904.03206, 2019
[89]	Ostaszewski M, Grant E, Benedetti M. Structure optimization for parameterized quantum circuits[J]. Quantum, 2021, 5: 391 doi: 10.22331/q-2021-01-28-391
[90]	Shor P W. Polynomial-time algorithms for prime factorization and discrete logarithms on a quantum computer[J]. SIAM Review, 1999, 41(2): 303−332 doi: 10.1137/S0036144598347011
[91]	Huang H Y, Broughton M, Mohseni M, et al. Power of data in quantum machine learning[J]. Nature Communications, 2021, 12(1): 2631 doi: 10.1038/s41467-021-22539-9
[92]	Caro M C, Huang H Y, Cerezo M, et al. Generalization in quantum machine learning from few training data[J]. Nature Communications, 2022, 13(1): 4919 doi: 10.1038/s41467-022-32550-3
[93]	Chia N H, Gilyén A P, Li T, et al. Samplingbased sublinear low-rank matrix arithmetic framework for dequantizing quantum machine learning[J]. Journal of the ACM, 2022, 69(5): 33
[94]	Huang H Y, Kueng R, Torlai G, et al. Provably efficient machine learning for quantum many-body problems[J]. Science, 2022, 377(6613): eabk3333 doi: 10.1126/science.abk3333
[95]	Huang H Y, Broughton M, Cotler J, et al. Quantum advantage in learning from experiments[J]. Science, 2022, 376(6598): 1182−1186 doi: 10.1126/science.abn7293
[96]	Aharonov D, Cotler J, Qi X L. Quantum algorithmic measurement[J]. Nature Communications, 2022, 13(1): 887 doi: 10.1038/s41467-021-27922-0
[97]	Bravyi S, Gosset D, König R. Quantum advantage with shallow circuits[J]. Science, 2018, 362(6412): 308−311 doi: 10.1126/science.aar3106
[98]	Farhi E, Neven H. Classification with quantum neural networks on near term processors[J]. arXiv preprint, arXiv: 1802.06002, 2018
[99]	Chefles A. Quantum state discrimination[J]. Contemporary Physics, 2000, 41(6): 401−424 doi: 10.1080/00107510010002599
[100]	Barnett S M, Croke S. Quantum state discrimination[J]. Advances in Optics and Photonics, 2009, 1(2): 238−278 doi: 10.1364/AOP.1.000238
[101]	Čepaitė I, Coyle B, Kashefi E. A continuous variable Born machine[J]. Quantum Machine Intelligence, 2022, 4(1): 6 doi: 10.1007/s42484-022-00063-3
[102]	Coyle B, Mills D, Danos V, et al. The Born supremacy: Quantum advantage and training of an ising Born machine[J]. NPJ Quantum Information, 2020, 6(1): 60 doi: 10.1038/s41534-020-00288-9
[103]	Rudolph M S, Toussaint N B, Katabarwa A, et al. Generation of high-resolution handwritten digits with an iontrap quantum computer[J]. Physical Review X, 2022, 12(3): 031010 doi: 10.1103/PhysRevX.12.031010
[104]	Kao P Y, Yang Y C, Chiang W Y, et al. Exploring the advantages of quantum generative adversarial networks in generative chemistry[J]. Journal of Chemical Information and Modeling, 2023, 63(11): 3307−3318 doi: 10.1021/acs.jcim.3c00562
[105]	Skolik A, Jerbi S, Dunjko V. Quantum agents in the gym: A variational quantum algorithm for deep Q-learning[J]. Quantum, 2022, 6: 720 doi: 10.22331/q-2022-05-24-720
[106]	Skolik A, Mangini S, Bäck T, et al. Robustness of quantum reinforcement learning under hardware errors[J]. EPJ Quantum Technology, 2023, 10(1): 8 doi: 10.1140/epjqt/s40507-023-00166-1
[107]	Niu M Y, Zlokapa A, Broughton M, et al. Entangling quantum generative adversarial networks[J]. Physical Review Letters, 2022, 128(22): 220505 doi: 10.1103/PhysRevLett.128.220505
[108]	Du Yuxuan, Huang Tao, You Shan, et al. Quantum circuit architecture search for variational quantum algorithms[J]. NPJ Quantum Information, 2022, 8(1): 62 doi: 10.1038/s41534-022-00570-y
[109]	Schuld M, Bocharov A, Svore K M, et al. Circuit-centric quantum classifiers[J]. Physical Review A, 2020, 101(3): 032308 doi: 10.1103/PhysRevA.101.032308
[110]	Henderson M, Shakya S, Pradhan S, et al. Quanvolutional neural networks: Powering image recognition with quantum circuits[J]. Quantum Machine Intelligence, 2020, 2(1): 2 doi: 10.1007/s42484-020-00012-y
[111]	Chu Cheng, Chia N H, Jiang Lei, et al. QMLP: An error-tolerant nonlinear quantum mlp architecture using parameterized two-qubit gates[C/OL]//Proc of the 29th Int Symp on Low Power Electronics and Design. New York: ACM, 2022[2023-11-16]. https://dl.acm.org/doi/abs/10.1145/35 31437.3539719
[112]	Chen S Y C, Huang C M, Hsing C W, et al. An end-to-end trainable hybrid classical-quantum classifier[J]. Machine Learning: Science and Technology, 2021, 2(4): 045021 doi: 10.1088/2632-2153/ac104d
[113]	Pesah A, Cerezo M, Wang S, et al. Absence of barren plateaus in quantum convolutional neural networks[J]. Physical Review X, 2021, 11(4): 041011 doi: 10.1103/PhysRevX.11.041011
[114]	Mcclean J R, Boixo S, Smelyanskiy V N, et al. Barren plateaus in quantum neural network training landscapes[J]. Nature Communications, 2018, 9(1): 4812 doi: 10.1038/s41467-018-07090-4
[115]	Monteiro C A, Gustavo Filho I, Costa M H J, et al. Quantum neuron with real weights[J]. Neural Networks, 2021, 143: 698−708 doi: 10.1016/j.neunet.2021.07.034
[116]	Hu Zhirui, Li Jinyang, Pan Zhenyu, et al. On the design of quantum graph convolutional neural network in the NISQ-era and beyond[C]//Proc of the 40th Int Conf on Computer Design (ICCD). Piscataway, NJ: IEEE, 2022: 290−297
[117]	Shepherd D, Bremner M J. Temporally unstructured quantum computation[J]. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2009, 465(2105): 1413−1439 doi: 10.1098/rspa.2008.0443
[118]	Amin M H, Andriyash E, Rolfe J, et al. Quantum Boltzmann machine[J]. Physical Review X, 2018, 8(2): 021050 doi: 10.1103/PhysRevX.8.021050
[119]	Kieferová M, Wiebe N. Tomography and generative training with quantum Boltzmann machines[J]. Physical Review A, 2017, 96(6): 062327 doi: 10.1103/PhysRevA.96.062327
[120]	Huijgen O,Coopmans L,Najafi P,et al. Training quantum Boltzmann machines with the β-variational quantum eigensolver[J]. Machine Learning:Science and Technology,2024,5(2):025017
[121]	Khoshaman A, Vinci W, Denis B, et al. Quantum variational autoencoder[J]. Quantum Science and Technology, 2018, 4(1): 014001 doi: 10.1088/2058-9565/aada1f
[122]	Huang Changjiang, Ma Hailan, Yin Qi, et al. Realization of a quantum autoencoder for lossless compression of quantum data[J]. Physical Review A, 2020, 102(3): 032412 doi: 10.1103/PhysRevA.102.032412
[123]	Cerezo M, Sone A, Volkoff T, et al. Cost function dependent barren plateaus in shallow parametrized quantum circuits[J]. Nature Communications, 2021, 12(1): 1791 doi: 10.1038/s41467-021-21728-w
[124]	Dallaire-Demers P L, Killoran N. Quantum generative adversarial networks[J]. Physical Review A, 2018, 98(1): 012324 doi: 10.1103/PhysRevA.98.012324
[125]	Tian Jinkai, Sun Xiaoyu, Du Yuxuan, et al. Recent advances for quantum neural networks in generative learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(10): 12321−12340 doi: 10.1109/TPAMI.2023.3272029
[126]	Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proc of the 28th Conf on Neural Information Processing Systems (NeurIPS). La Jolla, CA: NIPS, 2014, 2672−2680
[127]	Carleo G, Cirac I, Cranmer K, et al. Machine learning and the physical sciences[J]. Reviews of Modern Physics, 2019, 91(4): 045002 doi: 10.1103/RevModPhys.91.045002
[128]	Hu Ling, Wu Shuhao, Cai Weizhou, et al. Quantum generative adversarial learning in a superconducting quantum circuit[J]. Science Advances, 2019, 5(1): eaav2761 doi: 10.1126/sciadv.aav2761
[129]	Kim L, Lloyd S, Marvian M. Hamiltonian quantum generative adversarial networks[J]. Physical Review Research, 2024, 6(3): 033019 doi: 10.1103/PhysRevResearch.6.033019
[130]	Du Yuxuan, Hsieh M H, Tao Dacheng. Efficient online quantum generative adversarial learning algorithms with applications[J]. arXiv preprint arXiv: 1904.09602, 2019
[131]	Pan Minghua, Wang Bin, Tao Xiaoling, et al. Application of quantum generative adversarial network to the abnormal user behavior detection and evaluation[J]. arXiv preprint, arXiv: 2208.09834, 2022
[132]	Watkins C J, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279−292 doi: 10.1023/A:1022676722315
[133]	Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint, arXiv: 1312.5602, 2013
[134]	Van Hasselt H, Guez A, Silver D. Deep reinforcement learning with double Q-learning[C]//Proc of the 30th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 2094−2100
[135]	Jerbi S, Gyurik C, Marshall S, et al. Parametrized quantum policies for reinforcement learning[C]//Proc of the 35th Annual Conf on Neural Information Processing Systems (NeurIPS). La Jolla, CA: NIPS, 2021: 28362−28375
[136]	Jerbi S, Cornelissen A, Ozols M, et al. Quantum policy gradient algorithms[J]. arXiv preprint, arXiv: 2212.09328, 2022
[137]	Wu Shaojun, Jin Shan, Wen Dingding, et al. Quantum reinforcement learning in continuous action space[J]. arXiv preprint, arXiv: 2012.10711, 2020
[138]	Ostaszewski M, Trenkwalder L M, Masarczyk W, et al. Reinforcement learning for optimization of variational quantum circuit architectures[C]//Proc of the 35th Conf on Neural Information Processing Systems (NeurIPS). La Jolla, CA: NIPS, 2021: 18182−18194
[139]	Wang S, Fontana E, Cerezo M, et al. Noise-induced barren plateaus in variational quantum algorithms[J]. Nature Communications, 2021, 12(1): 6961 doi: 10.1038/s41467-021-27045-6
[140]	Liang Zhiding, Wang Hanrui, Cheng Jinglei, et al. Variational quantum pulse learning[C]//Proc of the 3rd IEEE Int Conf on Quantum Computing and Engineering (QCE). Los Alamitos, CA: IEEE Computer Society, 2022: 556−565
[141]	Meitei O R, Gard B T, Barron G S, et al. Gatefree state preparation for fast variational quantum eigensolver simulations[J]. NPJ Quantum Information, 2021, 7(1): 155 doi: 10.1038/s41534-021-00493-0
[142]	Liang Zhiding, Cheng Jinglei, Ren Hang, et al. NAPA: Intermediate-level variational native-pulse Ansatz for variational quantum algorithms[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2024, 43(6): 1834−1847 doi: 10.1109/TCAD.2024.3355277
[143]	Rattew A G, Hu S, Pistoia M, et al. A domain-agnostic, noise-resistant, hardware-efficient evolutionary variational quantum eigensolver[J]. arXiv preprint, arXiv: 1910.09694, 2019
[144]	Havlíček V, Córcoles A D, Temme K, et al. Supervised learning with quantum-enhanced feature spaces[J]. Nature, 2019, 567(7747): 209−212 doi: 10.1038/s41586-019-0980-2
[145]	Stilck França D, Garcia-Patron R. Limitations of optimization algorithms on noisy quantum devices[J]. Nature Physics, 2021, 17(11): 1221−1227 doi: 10.1038/s41567-021-01356-3
[146]	Chen Yiting, Farquhar C, Parrish R M. Low-rank density-matrix evolution for noisy quantum circuits[J]. NPJ Quantum Information, 2021, 7(1): 61 doi: 10.1038/s41534-021-00392-4
[147]	Sharma K, Khatri S, Cerezo M, et al. Noise resilience of variational quantum compiling[J]. New Journal of Physics, 2020, 22(4): 043006 doi: 10.1088/1367-2630/ab784c
[148]	Skolik A, Mcclean J R, Mohseni M, et al. Layerwise learning for quantum neural networks[J]. Quantum Machine Intelligence, 2021, 3(1): 5 doi: 10.1007/s42484-020-00036-4
[149]	Volkoff T,Coles P J. Large gradients via correlation in random parameterized quantum circuits[J]. Quantum Science and Technology,2021,6(2):025008
[150]	Endo S, Cai Z, Benjamin S C, et al. Hybrid quantumclassical algorithms and quantum error mitigation[J]. Journal of the Physical Society of Japan, 2021, 90(3): 032001 doi: 10.7566/JPSJ.90.032001
[151]	Bilkis M, Cerezo M, Verdon G, et al. A semi-agnostic Ansatz with variable structure for quantum machine learning[J]. arXiv preprint, arXiv: 2103.06712, 2021
[152]	Weber M, Liu Nana, Li Bo, et al. Optimal provable robustness of quantum classification via quantum hypothesis testing[J]. NPJ Quantum Information, 2021, 7(1): 76 doi: 10.1038/s41534-021-00410-5
[153]	Du Yuxuan, Hsieh M H, Liu Tongliang, et al. Quantum noise protects quantum classifiers against adversaries[J]. Physical Review Research, 2021, 3(2): 023153 doi: 10.1103/PhysRevResearch.3.023153
[154]	Liu Junyu, Wilde F, Mele A A, et al. Stochastic noise can be helpful for variational quantum algorithms[J]. arXiv preprint, arXiv: 2210.06723, 2022
[155]	Gentini L, Cuccoli A, Pirandola S, et al. Noise-resilient variational hybrid quantum-classical optimization[J]. Physical Review A, 2020, 102(5): 052414 doi: 10.1103/PhysRevA.102.052414
[156]	Zhang Kaining, Liu Liu, Hsieh M H, et al. Escaping from the barren plateau via Gaussian initializations in deep variational quantum circuits[C]//Proc of the 36th Conf on Neural Information Processing Systems (NeurIPS). La Jolla, CA: NIPS, 2022: 18612−18627
[157]	Cervera-Lierta A, Kottmann J S, Aspuruguzik A. Meta-variational quantum eigensolver: Learning energy profiles of parameterized hamiltonians for quantum simulation[J]. PRX Quantum, 2021, 2(2): 020329 doi: 10.1103/PRXQuantum.2.020329
[158]	Harrow A W, Low R A. Random quantum circuits are approximate 2-designs[J]. Communications in Mathematical Physics, 2009, 291(1): 257−302 doi: 10.1007/s00220-009-0873-6
[159]	Holmes Z, Sharma K, Cerezo M, et al. Connecting Ansatz expressibility to gradient magnitudes and barren plateaus[J]. PRX Quantum, 2022, 3(1): 010313 doi: 10.1103/PRXQuantum.3.010313
[160]	Sharma K, Cerezo M, Cincio L, et al. Trainability of dissipative perceptron-based quantum neural networks[J]. Physical Review Letters, 2022, 128(18): 180505 doi: 10.1103/PhysRevLett.128.180505
[161]	Kashif M, Al-Kuwari S. The impact of cost function globality and locality in hybrid quantum neural networks on NISQ devices[J]. Machine Learning: Science and Technology, 2023, 4(1): 015004 doi: 10.1088/2632-2153/acb12f
[162]	Sim S, Johnson P D, Aspuru-Guzik A. Expressibility and entangling capability of parameterized quantum circuits for hybrid quantum-classical algorithms[J]. Advanced Quantum Technologies, 2019, 2(12): 1900070 doi: 10.1002/qute.201900070
[163]	Nielsen M A, Dawson C M, Dodd J L, et al. Quantum dynamics as a physical resource[J]. Physical Review A, 2003, 67(5): 052301
[164]	Jaques S, Rattew A G. Qram: A survey and critique[J]. arXiv preprint, arXiv: 2305.10310, 2023
[165]	Phalak K, Li Junde, Ghosh S. Trainable PQC-based QRAM for quantum storage[J]. IEEE Access, 2023, 11: 51892−51899 doi: 10.1109/ACCESS.2023.3278600
[166]	付祥,郑宇真,苏醒,等. 一种面向含噪中尺度量子技术的量子-经典异构计算系统[J]. 计算机研究与发展,2021,58(9):1875−1896 doi: 10.7544/issn1000-1239.2021.20210368 Fu Xiang, Zheng Yuzhen, Su Xing, et al. A heterogeneous quantum-classical computing system targeting noisy intermediate-scale quantum technology[J]. Journal of Computer Research and Development, 2021, 58(9): 1875−1896 (in Chinese) doi: 10.7544/issn1000-1239.2021.20210368
[167]	Verdon G, Pye J, Broughton M. A universal training algorithm for quantum deep learning[J]. arXiv preprint, arXiv: 1806.09729, 2018