基于数据流架构的NTT蝶式计算加速

石泓博; 范志华; 李文明; 张志远; 穆宇栋; 叶笑春; 安学军

doi:10.7544/issn1000-1239.202550160

基于数据流架构的NTT蝶式计算加速

石泓博^{1, 2,},
范志华^1, ,,
李文明^{1, 2},
张志远^{1, 2},
穆宇栋^{1, 2},
叶笑春^{1, 2},
安学军^{1, 2}

1.
处理器芯片全国重点实验室（中国科学院计算技术研究所）　北京　100190
2.
中国科学院大学计算机科学与技术学院　北京　100049

基金项目:

undefined

国家重点科技发展计划（2023YFB4503500）；北京市新星计划（20220484054，20230484420）；北京市自然科学基金项目（L234078）；中国科学院青年创新促进会资助项目

详细信息

作者简介:
石泓博: 2002年生. 学士. 主要研究方向为数据流架构、高性能计算

范志华: 1996年生. 博士. 助理研究员. 主要研究方向为数据流体系结构、编程模型、可重构体系结构

李文明: 1988年生. 博士. 副研究员. 主要研究方向为高吞吐量处理器体系结构、数据流体系结构、软件仿真

张志远: 2000年生. 博士研究生. 主要研究方向为高性能计算、数据流、可重构架构

穆宇栋: 2001年生. 博士研究生. 主要研究方向为数据流架构、数据流图映射、可重构架构

叶笑春: 1983年生. 博士，研究员. 主要研究方向为高性能计算机体系结构、软件仿真

安学军: 1966年生. 博士. 研究员. 主要研究方向为编程模型、处理器体系结构

通讯作者:
范志华（fanzhihua@ict.ac.cn）

中图分类号: TP183
计量
- 文章访问数: 47
- HTML全文浏览量: 28
- PDF下载量: 20
出版历程
- 收稿日期: 2025-02-28
- 修回日期: 2025-04-07
- 网络出版日期: 2025-04-16

NTT Butterfly Arithmetic Acceleration Based on Dataflow Architecture

Shi Hongbo^{1, 2,},
Fan Zhihua^1, ,,
Li Wenming^{1, 2},
Zhang Zhiyuan^{1, 2},
Mu Yudong^{1, 2},
Ye Xiaochun^{1, 2},
An Xuejun^{1, 2}

1.
State Key Lab of Processors (Institute of Computing, Chinese Academy of Sciences), Beijing 100190
2.
School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049

Funds:

This work was supported by the National Key Research and Development Program of China (2023YFB4503500), the Beijing Nova Program (20220484054, 20230484420), the Beijing Natural Science Foundation (L234078), and the CAS Project for Youth Innovation Promotion Association.

undefined

More Information

Author Bio:
Shi Hongbo: born in 2002. Bachelor. His main research interests include dataflow architecture and high-performance computing

Fan Zhihua: born in 1996. PhD, assistant professor. His main research interests include dataflow architecture, programming model, and reconfigurable architecture

Li Wenming: born in 1988. PhD, associate professor. His main research interests include high-throughput processor architecture, dataflow architecture, and software simulation

Zhang Zhiyuan: born in 2000. PhD candidate. His main research interests include high-performance computing, dataflow, and reconfigurable architecture

Mu Yudong: born in 2001. PhD candidate. His main research interests include dataflow architecture, dataflow graph mapping, and reconfigurable architecture

Ye Xiaochun: born in 1983. PhD，professor. His main research interests include high-performance computer architecture and software simulation

An Xuejun: born in 1966. PhD，professor. His main research interests include programming model and processor architecture

摘要

摘要:
全同态加密（fully homomorphic encryption，FHE）因其在计算全过程中保持数据加密的能力，为云计算等分布式环境中的隐私保护提供了重要支撑，具有广泛的应用前景. 然而，FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题，导致其在实际应用中的性能严重受限. 其中，快速数论变换（number theoretic transform，NTT）作为FHE中关键的基础算子，其性能对整个系统的效率具有决定性影响. 针对NTT中的核心计算模式——蝶式（butterfly）计算，提出一种基于数据流计算模型的NTT加速架构. 首先，设计面向NTT蝶式计算的RVFHE扩展指令集，定制高效的模乘与模加/模减运算单元，以提升模运算处理效率. 其次，提出一种NTT数据重排方法，并结合结构化的蝶式地址生成策略，以降低跨行列数据交换的控制复杂度与访问冲突. 最后，设计融合数据流驱动机制的NTT加速架构，通过数据依赖触发方式实现高效的片上调度与数据复用，从而充分挖掘操作级并行性. 实验结果表明，与NVIDIA GPU相比，提出的架构获得了8.96倍的性能提升和8.53倍的能效提升；与现有的NTT加速器相比，所提架构获得了1.37倍的性能提升.
- 数据流 /
- 全同态加密 /
- NTT算法 /
- 蝶式计算 /
- RISC-V指令集
Abstract:
Fully homomorphic encryption (FHE), which enables computation on encrypted data without decryption throughout the entire processing flow, offers a promising solution for privacy preservation in cloud computing and other distributed environments. However, the practical deployment of FHE remains significantly constrained by its high computational complexity, poor data locality, and limited parallelism. Among the core operations in FHE, the number theoretic transform (NTT) plays a pivotal role in determining overall system performance. We target the butterfly computation pattern, which is central to the NTT algorithm, and propose a high-efficiency NTT accelerator architecture based on a dataflow computing model. First, we design an RVFHE extension instruction set tailored for NTT butterfly operations, incorporating custom modular multiplication and modular addition/subtraction units to enhance the efficiency of modular arithmetic. Second, we introduce a novel NTT data reordering scheme, combined with a structured butterfly address generation strategy, to reduce the control complexity and access conflicts associated with cross-row and cross-column data exchanges. Finally, we develop a dataflow-driven NTT accelerator architecture that leverages data dependency-triggered execution to enable efficient on-chip scheduling and data reuse, thereby exploiting instruction-level parallelism to the fullest extent. Experimental results demonstrate that, compared with NVIDIA GPU, the proposed architecture achieves up to 8.96 times speedup and 8.53 times improvement in energy efficiency. Furthermore, compared with state-of-the-art dedicated NTT accelerators, our design delivers a 1.37 times performance gain.
- dataflow /
- full homomorphic encryption (FHE) /
- NTT algorithm /
- butterfly computation /
- RISC-V instruction set

HTML全文

随着人工智能（AI）技术的快速发展，大语言模型（large language model，LLM）^[1]、多模态大模型^[2]等先进AI模型不断涌现，工业界和学术界对AI计算的算力需求也在持续攀升. 具体而言，一方面，当前AI的训练与推理不仅对算力设备的数量提出了更高要求^[3]，同时对算力性能的特性也有不同需求^[4]. 因此，基于异构计算的计算系统已成为当今业界构建智算集群的主要方式. 另一方面，内存限制成为了制约AI计算的重要问题^[5]. 对于训练过程，现有计算架构已无法支撑该过程中产生的激活、优化器状态等内存数据，因此才产生了如Zero^[6]、重计算^[7]、数据并行训练^[8]等折中的内存瓶颈缓解技术. 对于推理过程，KVcache^[9]、MoE^[10]等技术也对现有内存容量带来了巨大挑战. 缓存一致性技术被认为有望解决计算卡内存受限的问题^[11]，诸如英伟达等厂商均提出了高效的缓存一致性互连技术^[12-13]，形成紧耦合的融合计算系统^[14]，以提升算力资源在并行AI计算中的协同执行效率. CXL协议^[15]的提出也论证了一致性互连技术对内存池化、管理、调度等方面的优势. 因此，在未来，结合异构计算与缓存一致性互连技术的异构一致性融合计算系统，将成为AI算力基础设施的重要发展方向.

异构一致性融合计算系统结合类型多样的异构算力，如CPU、GPU、FPGA等，不仅能够充分发挥不同计算架构的优势，还能够通过高效的内存管理和缓存一致性协议协调不同异构算力之间的数据访问与处理. 然而，由于异构计算和一致性互连等关键技术尚未完全成熟，异构一致性融合计算系统的性能预测与评估仍然是当前亟待解决的问题. 例如，如何在建设异构一致性融合计算系统之前以低成本快速地估算其性能，如何评测LLM训练任务在该系统中的执行效率，以及如何发现并优化计算系统中的性能瓶颈，都是异构一致性融合计算系统研究中待解决的核心挑战.

但是，在实际应用中，该计算系统的性能涉及算力的分布、算力与内存的互连架构、任务负载的部署方式、互连拓扑的时延带宽参数等多个复杂变量和指标，因此在实际硬件系统中进行测评的难度和成本往往较高，难以实现. 为此，使用建模与仿真方法对异构一致性融合计算系统进行性能评估，成为一种较为理想的解决方案.

然而，现有的建模与仿真研究大多集中于同构计算系统和非一致性计算系统，难以有效地对异构计算、一致性互连等关键技术进行建模. 目前，建模异构一致性融合计算系统时，主要面临2个挑战：

1）异构一致性融合计算系统的拓扑架构建模具有较大难度. 模型中不仅需要构建异构算力、内存设备等各类器部件之间的互连拓扑，还需考虑异构算力之间的计算性能差异. 以往的建模与仿真工作往往难以同时满足这些需求.

2）引入缓存一致性协议后，计算负载的执行方式会与传统的非一致性系统有所不同. 尽管一致性系统解决了算力主存空间的限制，但算力对远程内存的直接访问开销成为需要特别考虑的因素^[16]，这也使得以往的工作难以进行合理建模.

为了解决以上问题，本文研究提出了一种面向异构一致性融合计算系统的性能建模工具HCSim （heterogeneous coherent simulator）. HCSim集成了成熟的分布式系统仿真器SimGrid^[17-18]，充分利用其互连拓扑描述能力以及SimGrid-S4U^[19]的高效网络仿真能力，从而有效解决了异构一致性融合计算系统的拓扑架构建模难题. 此外，HCSim针对一致性系统的工作特性，设计了结合内存访问特性的负载建模与负载运行模拟方法，使用户能够模拟一致性系统下的工作负载执行方式，并生成可观测的执行轨迹. 进一步地，基于所设计的HCSim，本文研究对异构一致性融合计算系统与LLM训练任务进行了建模，探究了多种变量参数对该系统性能的影响，并提出优化方案以缓解该系统中的通信瓶颈，提高计算系统的整体性能. 本文的贡献有3点：

1）提出了面向异构一致性融合计算系统的性能建模工具HCSim，解决了拓扑架构建模困难以及一致性计算系统负载执行方式存在差异的问题，为异构一致性融合计算系统的性能建模、评估和优化提供了高效的仿真分析工具.

2）基于HCSim构建了在异构一致性融合计算系统下执行LLM训练负载的仿真，并探究了异构算力分布、并行计算规模、时延、带宽等参数对计算系统性能的影响.

3）面向异构一致性融合计算系统中的通信性能优化问题，提出了一致性下的ring-allreduce参数同步方法，并使用HCSim验证了该优化方式对计算系统性能的提升.

本文研究旨在面向新型异构一致性融合计算系统，提出高效、可用的建模仿真分析工具，为工业界和学术界提供低成本的新型计算系统性能与优化方案的评估手段，从而助力新一代AI基础设施与AI应用的创新与发展.

1. 相关工作

1.1 高精度的计算、内存、网络仿真器

计算系统通常涉及处理器计算、内存访存和网络通信等过程^[20]，以往已有许多成熟的研究能够对上述3种过程进行高精度的建模与仿真. 对于计算过程的建模与仿真，经典的体系结构仿真器包括高度可配置的开源微架构仿真器Gem5^[21]，兼具指令级和全系统仿真的操作系统开发与嵌入式系统仿真器QEMU^[22]，以及专门用于GPGPU计算和并行程序性能分析与优化的GPGPU-Sim^[23]等；对于内存访存过程的建模与仿真，较为成熟的仿真器包括专注于DRAM访问时序和性能分析的DRAMSim3^[24]，以及支持较新内存标准（如DDR4、HBM）的仿真器Ramulator^[25]等；在网络仿真器方面，较为广泛使用的是离散事件网络仿真器NS-3^[26]，还有支持无线网络、物联网、车联网和数据中心网络的模块化仿真器OMNeT++^[27]等.

然而，以上仿真器通常面临计算复杂度高和仿真耗时较大的问题. 例如，使用GPGPU-Sim仿真单个GPU计算任务可能需要长达几天的时间^[28]，而NS-3仿真64个节点执行1MB的all-reduce操作可能需要20 min以上^[29]. 因此，直接使用这些成熟的高精度仿真器，往往难以在有效时间内对规模较大的计算系统进行仿真与分析，无法满足建模异构一致性融合计算系统的需求.

1.2 面向分布式AI计算系统的性能建模

随着分布式AI计算技术的飞速发展，业界和学界涌现了一系列面向分布式AI计算系统与AI计算任务的性能建模仿真研究，表1中展示了近几年提出的相关工作.

表 1 面向分布式AI计算系统的性能建模工作

Table 1. Performance Modeling Work for Distributed AI Computing Systems

工作名称	工作简介
AMPeD^[30]	针对Transformer神经网络架构的分布式训练任务进行数学建模的研究.
Calculon^[31]	针对LLM的分布式训练过程进行数学建模的工作.
Paleo^[32]	早期使用数学模型与有向无环图（DAG）模型建模数据并行、模型并行等AI分布式训练任务的研究.
FlexFlow^[33]	一个开源的深度学习编译器和运行时系统，其中提供了一个基于图模型的模块，用于建模与优化分布式AI计算任务.
Daydream^[34]	使用细粒度的基于图的模型描述分布式训练，主要针对基于all-reduce的分布式并行任务进行建模与仿真.
Dpro replayer^[35]	基于图模型预测和优化数据并行分布式训练的性能.
DistSim^[36]	用于预测每个参与分布式训练的算力节点的详细工作时间线.
DistIR^[37]	一种基于MLIR^[38]的中间表示，用于以伪代码的形式模拟分布式训练的执行过程.
Proteus^[39]	使用策略树描述并行策略，并依赖执行图来建模分布式训练. 该研究考虑了分布式训练的运行时特征.
TAG^[40]	使用图模型建模并预测分布式训练任务的耗时，同时基于图神经网络搜索并优化分布式训练的执行策略.
SMSG^[41]	一种无需进行实际性能采集分析（profiling）的分布式训练数学建模方法，仅需输入AI加速器的实际计算性能和系统通信能力，即可对分布式系统中的AI训练任务进行建模.
Astra-sim^[29,42]	一个帮助研究人员理解并探索分布式训练中多种软硬件协同设计空间的模拟器.

下载: 导出CSV

| 显示表格

然而，这些已有的研究对于异构计算与一致性互连技术的支持能力较为有限. 具体而言，现有工作面临的主要问题包括以下4点：

1）通常假设所有算力的计算能力一致，难以模拟异构算力差异对计算系统性能的影响.

2）依赖于在特定硬件上运行AI模型训练的前几个训练步骤，并通过性能分析工具获取执行轨迹，导致应用成本较高，无法适用于尚未实际部署的计算系统.

3）对于计算系统中互连拓扑建模的灵活性较弱，无法描述异构一致性融合计算系统中复杂的互连架构.

4）缺乏对一致性建模仿真的支持，无法建模一致性条件下AI计算任务的工作负载与执行方式.

由此可见，现有的建模仿真研究难以解决上述拓扑架构建模困难和引入一致性后计算负载建模困难的两大挑战，难以实现对异构一致性融合计算系统的性能建模，也无法在缺乏实际软硬件的情况下评估系统优化方案的效果. 这些正是本文研究所提出的HCSim所要解决的问题.

1.3 相对精度的系统性能建模

随着计算系统的变量、规模和复杂性逐渐增加，保证性能建模与仿真工作高精度的技术难度不断提升，搭建实际计算系统软硬件平台对仿真器进行校准的成本也在逐步增加，这使得建模与仿真工具的设计与实现变得愈加困难. 因此，近年来，许多建模与仿真工作不再专注于提升仿真的绝对精度，而是更多地关注模拟计算系统的功能与原理，并输出用于参考的相对指标.

例如，SMSG^[41]在其研究中指出，重要的不是估计分布式训练的实际执行时间，而是对比不同策略的相对执行耗时. 在Scale-sim^[43]仿真器中，研究人员仿真了脉冲阵列微架构^[44]的工作流程，但其仿真器仅输出了仿真中定义的周期（cycle），并没有将仿真输出结果与真实系统进行对比. 同样地，在近期提出的Astra-sim^[29,42]中，研究者也仅使用仿真中定义的时间对比了不同计算系统软硬件协同设计方式的差异，未探究仿真器建模的具体精度.

对于异构一致性融合计算系统的性能建模与仿真，由于异构软硬件之间通常存在兼容性问题，实际部署计算系统并对仿真进行校准需要付出巨大的工程量与成本，这与建模仿真的初衷相悖. 因此，与诸多近期的研究工作一致，本文研究提出的HCSim采用相对精度，旨在对比不同算力与内存的互连架构、任务负载的部署方式、互连拓扑时延带宽等多种变量对系统性能的相对影响，从而为异构一致性融合计算系统的设计与优化提供指导建议.

2. HCSim的设计实现与工作原理

HCSim的建设目标是对异构一致性融合计算系统的性能进行建模，解决以往建模仿真工作对该系统进行建模的挑战. 根据输入的计算系统互连架构和AI计算负载，HCSim用于模拟仿真AI计算负载的执行流程，最终输出AI计算负载在计算系统中的执行耗时和运行轨迹，为研究者在异构一致性融合计算系统的设计与优化过程中提供相对指标的参考.

2.1 HCSim的架构

为了实现上述目标，本文研究提出HCSim的系统架构如图1所示，主要包括3个核心层的设计：

图 1 HCSim的系统架构

Figure 1. System architecture of HCSim

下载: 全尺寸图片幻灯片

1）平台层. 用于接收和解析用户输入的异构一致性融合计算系统的互连拓扑配置，并支持用户对互连拓扑以及拓扑中的算力、内存节点进行自定义，进而对算力节点、内存节点、拓扑结构以及节点之间的互连进行建模与仿真.

2）负载层. 接收用户定义的AI计算任务描述，并将计算任务转化为HCSim所定义的负载图，用于描述计算系统中的分布式AI计算任务. 随后，负载层根据转化后的负载图，驱动执行层对计算任务的执行过程进行仿真模拟，并在执行过程中不断输出细粒度的执行轨迹.

3）执行层. 在负载层的驱动下，执行层用于仿真AI计算负载在平台层所定义的计算系统中的执行过程. 该层基于SimGrid^[17]实现，包括通信建模和计算建模2个部分，能够模拟算子级别的执行流程，输出AI计算任务的细粒度执行耗时.

HCSim依赖于这3层的相互协作，实现对异构一致性融合计算系统的性能建模.

2.2 异构一致性融合计算系统的拓扑架构建模

为了满足对异构一致性融合计算系统拓扑架构进行建模的需求，HCSim的平台层支持灵活自定义算力节点、内存节点和互连拓扑，并支持定义相关的核心参数. 平台层所定义的互连拓扑会被传递至执行层所集成的SimGrid仿真器^[17]，从而实现计算系统互连拓扑的模型构建.

与绝大多数建模工作类似，HCSim仿真平台采用图的方式对互连拓扑进行建模. 表2展示了HCSim在平台层支持构建的图节点与边等元素，以及它们相应的属性参数. 在HCSim中，所构建的图上的节点分为交换节点、异构算力节点和内存节点. 其中，交换节点主要用于描述计算系统中的数据交换节点，如PCIE Switch，NVSwtich，L1 Switch，ToR Switch等，其节点上没有必要的属性. 异构算力节点用于描述计算系统中的异构算力，这些节点需要定义与计算能力相关的属性信息. 对于内存节点，HCSim支持定义内存的容量，也可以将内存设置为无穷大. 对于所构建图中用于连接节点的边，在HCSim中设计用边来表示节点之间的物理链路连接，因此需要定义带宽、时延等与数据传输相关的属性信息.

表 2 拓扑图的元素定义

Table 2. Element Definitions of Topology Graph

元素名称	属性名	属性含义
交换节点		无需定义属性
异构算力节点	fp16算力/ FLOPS	fp16计算精度下的计算性能
异构算力节点	fp32算力/ FLOPS	fp32计算精度下的计算性能
内存节点	内存容量	包含可用的内存空间有多少
边	时延	所连接节点之间的通信时延
边	带宽	所连接节点之间的通信带宽

下载: 导出CSV

| 显示表格

基于平台层的设计，图2展示了HCSim可以构建的异构一致性融合计算系统拓扑的抽象表示. 在一致性互连技术的帮助下，对于任意异构算力（图2中的XPU），不仅可以直接以高带宽低时延访问本地主存，还可以通过一致性互连网络直接访问远端其他XPU的内存或扩展内存，实现缓存一致性. 在图2中，HCSim可以自由修改计算系统和一致性互连网络的互连拓扑，也可以自由定义每个异构算力节点的计算能力、每个内存节点的存储容量，从而实现对异构一致性融合计算系统拓扑架构的灵活建模. 另外，值得注意的是，HCSim对异构算力的定义要求较低，这使HCSim不仅可以建模常用的异构算力，而且可以对诸如FPGA，ASIC等定制化算力进行性能建模. 研究者只需通过测试的方式获得异构算力的计算能力、内存容量等信息，便可以利用HCSim对不同的异构算力开展建模仿真.

图 2 工作负载图对比

Figure 2. Workload graph comparison

下载: 全尺寸图片幻灯片

2.3 一致性系统中的AI计算负载建模

在异构一致性融合计算系统中，由于XPU可以直接对非本地内存进行访存操作，因此AI计算负载的工作方式与传统非一致性计算系统存在差异，这也导致以往的建模仿真工作难以直接应用.

以往绝大多数建模仿真工作并未考虑内存对计算负载的影响. 即便较新的Astra-sim 2.0^[29]提出了面向分离式内存的负载模型，它仍然难以有效描述异构一致性融合计算系统下的负载计算流程. 图3（a）展示了基于Astra-sim 2.0的负载模型构建的计算任务负载图，其中描述了2个异构算力采用数据并行训练带有3个神经层的神经网络. 在图3（a）中，每个顶点代表一个执行过程，边代表执行过程之间的依赖关系，即对于图中的任一个顶点，只有所有指向该顶点的顶点完成后，该顶点才能启动执行. 图3（a）中灰色顶点代表访存的通信过程，黄色顶点代表计算过程，蓝色顶点代表集合通信过程，FP代表前向传播，BP代表反向传播，FP1代表第一个神经层的前向传播过程，以此类推. 可以看出，尽管Astra-sim 2.0考虑了访存过程对AI计算任务的影响，但其建模中仍然仅模拟了将远端内存搬运到本地显存，再进行计算的过程，这与一致性系统的实际情况不符.

图 3 HCSim中异构一致性融合计算系统拓扑的抽象表示

Figure 3. Abstract representation of the heterogeneous consistency integrated computing systems topology in HCSim

下载: 全尺寸图片幻灯片

图3（b）和图3（c）分别展示了HCSim的负载层为上述相同AI计算任务在非一致性系统和一致性系统中构建的负载图，其中黄色顶点代表计算过程，蓝色顶点代表通信过程. 在一致性系统中，由于XPU可以直接访问远端内存，因此远端访存过程可以与计算过程形成流水线执行. 在这种情况下，神经层的计算耗时可能会受到异构算力计算能力的限制，也可能会受到访存速度的限制. 因此，如图3（c）所示，HCSim构建的负载图将计算过程与访存过程描述为并行执行，可以近似表达访存与计算的流水执行过程，进而挖掘每个神经层在一致性系统中的性能瓶颈，以实现更准确地表达AI计算负载在一致性系统中的执行流程. 相比之下，3（b）则展示了HCSim所建模的非一致性系统中异构算力先进行内存搬运，再进行主存访存与计算的过程.

表3展示了HCSim的负载图中所有顶点以及可定义的属性. 可以看出，除了需要在负载图中绑定计算顶点和通信顶点的执行位置之外，HCSim的任务负载图与互连拓扑图几乎解耦，这使得HCSim的使用者能够更快捷地定义不同的计算任务负载. 此外，区别于以往建模工作中常用的有向无环图（DAG），HCSim采用有向有环图对AI计算负载进行建模，从而帮助HCSim更准确地模拟AI训练任务反复迭代循环的过程. 对于AI推理计算、分布式数据分析等其他计算负载，使用者也可以在HCSim中用同样的方式进行定义与仿真模拟.

表 3 负载图的元素定义

Table 3. Element Definitions in the Workload Graph

元素名称	属性名	属性含义
计算顶点	计算量/ FLOPs	该计算顶点所代表的计算任务的计算量
	访存量	该计算顶点所执行的任务需要的访存数据量
	执行位置	该计算顶点所执行的异构算力位置
	是否为起始顶点	该计算顶点是不是计算任务的起始顶点
通信顶点	通信量	该通信顶点的总通信量
	通信方式	该通信顶点的通信方式（例如集合通信、点对点通信）
	通信范围	根据通信顶点的通信方式，定义源节点、目的节点，或通信节点范围等
	是否为起始顶点	该通信顶点是不是计算任务的起始顶点
连接顶点的边	是否需要在第1次执行考虑	在计算任务第1次执行迭代时，不需要考虑有些边到顶点执行的依赖关系中

下载: 导出CSV

| 显示表格

2.4 HCSim的工作流程与实现方式

基于构建的互连拓扑和负载图，HCSim可以对分布式AI计算进行建模与仿真. 整体的工作流程如图4所示，图中展示的每个具体步骤以及实现方式将在本节中逐一进行介绍.

图 4 HCSim的工作流程与实现方式

Figure 4. Workflow and implementation method of HCSim

下载: 全尺寸图片幻灯片

1）互连拓扑图与负载图生成

如图4中的①所示，为了构建2.2节和2.3节中描述的互连拓扑图和负载图，HCSim在负载层和平台层分别构建了负载图描述与生成模块、互连拓扑描述与生成模块，并集成了NetworkX^[45]的接口. NetworkX是一个非常实用的Python库，专门用于创建、操作和研究图与网络. 该库提供了丰富的功能，使得用户能够方便地构建有向图或无向图，添加或删除节点和边，或为这些节点和边赋予属性. 此外，NetworkX还支持多种图的遍历算法，如深度优先搜索和广度优先搜索，这使得在复杂的网络结构中查找路径、修改路由等方面变得更加简便. 另一个优势是，NetworkX提供了与Matplotlib集成的绘图工具，使得使用者能够将构建的网络拓扑可视化，从而直观地验证所构建的拓扑是否符合需求. 借助NetworkX，HCSim的使用者只需按照表2和表3的要求定义图与属性，即可将所生成的互连拓扑图、负载图作为HCSim建模与仿真的输入.

2）NetworkX-SimGrid拓扑编译

NetworkX本身只能进行图的构建与分析，并不具备仿真能力. 因此，如图4中的②所示，HCSim在平台层进一步构建了NetworkX-SimGrid编译器，使得NetworkX构建的图模型能够被SimGrid加载，并通过SimGrid-S4U^[18]模型进行仿真执行.

具体来说，NetworkX-SimGrid编译器的功能是遍历NetworkX所生成的图模型中的节点和边，并将它们逐一转换为SimGrid支持的XML文件格式. 同时，编译器还会使用NetworkX中的Dijkstra算法计算所有节点之间的最短路径，并将这些最短路径作为路由信息，与图模型一同存储为SimGrid可读的XML文件. 此外，路由信息也可以由用户自行定义，从而进一步提升仿真的灵活性.

3）负载执行引擎

如图4中的③所示，在HCSim的负载层中，负载执行引擎的作用是结合所构建的负载图，驱动执行层进行仿真，从而完成对AI分布式计算任务的模拟执行.

具体而言，负载执行引擎采用事件驱动的方式进行仿真. 如图5所示，负载执行引擎首先将负载图中的所有起始顶点（表3中定义为起始顶点的所有顶点）放入一个执行容器中，并启动这些顶点的执行，将其送入执行层进行仿真. 如果执行顶点是计算顶点，该顶点的计算任务信息将被发送到执行层的计算模型进行仿真；如果执行顶点是通信顶点，该顶点则会被发送至执行层的网络模型进行仿真. 随后，负载层还包含一个事件触发器. 一旦执行容器中的某个顶点完成计算或通信，事件触发器会被激活，从执行容器中移除该完成的顶点，并检查该完成顶点在负载图中所指向的所有顶点是否满足所有依赖. 如果有满足所有依赖条件的顶点，这些顶点将被加入到执行容器中. 这样，负载图便可以在执行容器中不断循环执行，并根据仿真平台使用者定义的执行迭代次数生成相应的执行轨迹，直到所有初始顶点被重新加入容器的次数达到定义的迭代次数. 最后，负载执行引擎将收集并汇总整个模拟执行过程，并将分布式AI计算的执行时间与执行轨迹返回给仿真平台的使用者.

图 5 负载执行引擎的示意图

Figure 5. Schematic diagram of load execution engine

下载: 全尺寸图片幻灯片

4）执行层的计算与网络顶点仿真

如图4中的④所示，当接收到计算顶点或通信顶点的信息时，执行层需要结合平台层的信息对这些顶点进行模拟. 对于计算顶点，HCSim直接使用SimGrid中的计算模型进行耗时计算，即：

${{t}}_{\mathrm{c}\mathrm{o}\mathrm{m}\mathrm{p}}=\frac{\mathrm{F}\mathrm{L}\mathrm{O}\mathrm{P}\mathrm{s}}{\mathrm{F}\mathrm{L}\mathrm{O}\mathrm{P}\mathrm{S}} ,$

(1)

其中，FLOPs（floating point operations）是计算顶点的浮点运算次数，FLOPS（floating point operations per second）是计算顶点所分配的异构算力的计算能力. 对于通信节点，HCSim采用SimGrid的CM02模型^[46]，并设置TCP-gamma为0，从而获得经典的通信耗时模型：

${{t}}_{\mathrm{c}\mathrm{o}\mathrm{m}\mathrm{m}}=t_{\mathrm{l}\mathrm{a}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{c}\mathrm{y}\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }}+\frac{L_{\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{a}\mathrm{ }\;\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}}}{H_{\mathrm{b}\mathrm{a}\mathrm{n}\mathrm{d}\mathrm{w}\mathrm{i}\mathrm{d}\mathrm{t}\mathrm{h}}} .$

(2)

值得注意的是，以上所有SimGrid模型均采用线性最大-最小求解器进行模拟，即不断根据输入到仿真器中的执行任务的执行速度和剩余工作量计算最早完成的操作，并更新求解器与其他未完成的执行任务. 基于这种仿真方式，SimGrid可以更好地权衡仿真精度与仿真速度，从而高效地仿真分布式计算系统的执行流程.

一旦有顶点执行完毕，执行层会转发SimGrid输出的完成信息，并将其反馈给负载执行引擎的事件触发器. 最终，负载执行引擎根据收到的反馈信息，输出AI计算任务的执行时间与执行轨迹，完成对异构一致性融合计算系统的性能建模.

3. 仿真与分析

借助HCSim的仿真能力，本节从计算系统互连架构、异构算力分布、任务规模，以及计算系统互连拓扑的时延、带宽等参数出发，研究与分析了异构一致性融合计算系统的构建方式与性能瓶颈. 随后，针对异构一致性融合计算系统的通信瓶颈问题提出了优化方法，并使用HCSim仿真验证了该优化方法的效果.

3.1 仿真配置

1）互连拓扑配置

为了更好地对比与分析引入一致性数据访问之前计算系统的局限性，以及引入一致性数据访问后计算系统的优势，仿真首先构建了传统未引入一致性数据访问的互连拓扑. 如图6（a）所示，在构建的传统互连拓扑中，服务器内的互连架构借鉴了IEIT 5468服务器的架构^[47]. 该架构采用Balance拓扑，每颗CPU下连接1个PCIe switch，每个PCIe switch连接4块异构算力（XPU）. 此外，考虑到诸如英伟达等厂商提供了NVSwitch^[48]等高效的异构算力互连能力，本文研究在该拓扑中引入了XPU switch，以表达算力间的高效互连能力. 基于XPU switch，服务器内的异构算力之间可以实现比PCIe switch更强大的互连互访能力. 对于服务器之间的互连架构，整体计算系统的拓扑采用leaf-spine架构. 具体来说，所有服务器对外的互连采用以太网互连，且同一个机架上的所有服务器会被连接到机顶交换机（ToR switch）上. 所有机顶交换机最终连接到一个核心交换机（Core switch）上，从而实现所有服务器和异构算力之间的互连互访. 由于缺乏一致性互连技术，扩展内存只能与服务器中的CPU互连. 本文研究构建了包含4096个XPU的计算系统，其中共有32个ToR，每个ToR包含16个服务器，每个服务器中挂载8个XPU，并设定每个ToR内的128个XPU类型相同.

图 6 未引入一致性互连技术与引入了一致性互连技术CXL的互连拓扑架构图对比

Figure 6. Comparison of interconnect topology without and with the introduction of the consistent interconnect technology CXL

下载: 全尺寸图片幻灯片

在图6（a）的拓扑基础之上，进一步构建了图6（b）所示的引入一致性数据访问技术CXL^[49-51]后的互连拓扑. 该拓扑与图6（a）中拓扑的主要区别在于，该拓扑中额外引入了基于CXL 3.0^[15]特性的CXL switch，构建了一致性互连网络（CXL Fabric），用于建模一致性数据访问. 在该系统架构中，一致性互连网络不仅为异构算力之间（CXL Type 2设备）的内存互访提供了快速通路，而且为异构算力提供了额外的内存扩展（CXL Type 3设备）. 如图6所示，所有通过蓝色箭头连接的内存设备之间都可以使用高速的CXL链路进行一致性访问. 此外，由于CXL switch具备级联能力，因此每个机架中的CXL switch 还可以进行级联扩展. 本文研究基于CXL 3.0的能力，将4096个XPU通过CXL switch互连. 外置的扩展内存也可以直接连接到一致性互连网络中，供XPU使用.

为了公平对比图6（a）与图6（b）的拓扑，仿真中设计为2个拓扑中的每个XPU都配置了可以无阻塞访问的扩展内存. 对于未引入一致性数据访问的互连拓扑，如图6（a）所示，仿真配置了CPU与PCIe之间的4条PCIe连接，保证每个XPU有充足的带宽访问CPU下的外置内存. 对于引入一致性数据访问的互连拓扑，如图6（b）所示，仿真为每个XPU都配置了唯一可访问且不冲突的CXL Type 3内存设备. 通过以上配置，在XPU主存不足时，仿真中每个XPU都可以无阻塞地访问扩展内存，并按照负载图的定义执行相应的数据读取等过程.

2）AI计算负载配置

本文研究通过建模与分析异构一致性融合计算系统在处理LLM训练任务时的性能表现评估该计算系统的性能，因此建立了如图7所示的LLAMA2-13B^[52]的负载图. 由于训练LLAMA2-13B的主要耗时集中在计算其模型架构中的40个LLaMA decoder，因此该负载图描述了这些LLaMA decoder的并行训练过程. 其中，在XPU本地内存有剩余时，橙色顶点代表在本地内存的计算过程；在XPU本地内存不足时，对于非一致性系统，橙色顶点代表如图3（b）所示的先内存搬运再计算过程，而对于一致性系统，橙色顶点代表如图3（c）所示的直接访问远端内存进行计算过程. 为了构建HCSim的负载图，本文研究根据矩阵乘法、self-attention、layer normalization、concat、dropout、GeLU等神经层的计算特征，估计了如表4所示的每个神经层的计算量和访存量，并将其记录到负载图中相应的计算与通信顶点中，其中本文研究使用FP32训练精度. 然后，结合每个神经层在反向传播过程中所需同步的梯度数据量，将其记录到表示参数同步过程的相应通信顶点中，从而完成了LLAMA2-13B负载图的所有参数配置，使其能够被HCSim读取并用于模拟执行.

图 7 LLAMA2-13B的分布式训练负载图

Figure 7. Workload graph for distributed training of LLAMA2-13B

下载: 全尺寸图片幻灯片

表 4 LLaMA Decoder中每个神经层的计算量与访存量

Table 4. Computational Load and Memory Access of Each Neural Layer in LLaMA Decoder

神经层	前传计算量/ GFLOPs	前传访存量/ GB	反传计算量/ GFLOPs	反传访存量/ GB
layer norm	可忽略	0.00002+0.039×b	可忽略	0.00015 + 0.156b
linear (K)	b×195	0.0488+0.039×b	b×390	0.39 + 0.156b
linear (Q)	b×195	0.0488+0.039×b	b×390	0.39 + 0.156b
linear (V)	b×195	0.0488+0.039×b	b×390	0.39 + 0.156b
self-attention	b×312.5	3.242×b	b×625	0.234b
concat	可忽略	可忽略	可忽略	可忽略
linear	b×195	0.0488+0.039×b	b×390	0.39 + 0.156b
dropout	可忽略	0.0195×b	可忽略	0.0195
add	可忽略	0.078×b	可忽略	0.039
layer norm	可忽略	0.00002+0.039×b	可忽略	0.00015 + 0.156b
linear	b×780	0.195 + 0.039×b	b×1560	1.562GB + 0.39b
GeLU	可忽略	0.156×b	可忽略	0.078
linear	b×780	0.195 + 0.156×b	b×1560	1.562GB + 0.39b
dropout	可忽略	0.0195×b	可忽略	0.0195
add	可忽略	0.078×b	可忽略	0.156

下载: 导出CSV

| 显示表格

3）仿真参数

由于现有仿真工作缺乏对异构一致性融合计算系统中互连拓扑、计算负载的合理建模，因此，本文研究的仿真聚焦于探究HCSim本身的仿真能力.

对于拓扑架构和AI计算负载的其他参数，仿真中的设定如表5所示，其中参考了当前构建计算集群的主流性能参数. 对于表5里未标记为变量的参数，在仿真中配置为定值，不会发生变化. 对于标记为变量的参数，如CXL_link的时延、带宽等，仿真中将对其进行调整，用于对比不同参数对系统性能和任务执行效率的影响. 仿真使用的服务器配置了Intel Xeon Platinum 8168 @ 2.70 GHz处理器，内存为DDR4 2666 MHz.

表 5 仿真参数设定

Table 5. Simulation Parameter Settings

异构一致性融合计算系统			LLaMA2-13B任务配置
算力节点	带宽	时延变量	LLaMA2-13B任务配置
ToR_to_L1	12.5 GB/s	5 μs	训练时每个XPU 输入的batch_size	1
NIC_to_ToR	12.5 GB/s	5 μs	seq_len	4096
UPI	62.4 GB/s	100 ns	隐藏层维度	5120
PCIE_link	128 GB/s	250 ns	使用算力节点数量（scale）	变量
XPU_link	900 GB/s	100 ns
CXL_link

下载: 导出CSV

| 显示表格

3.2 仿真结果分析

1）对比引入/不引入一致性的计算系统性能

首先，给定CXL_link的带宽与时延分别为128 GB/s和200 ns，本文研究对比了在使用不同数量的算力节点时，引入或不引入一致性的计算系统性能. 本文研究通过整个计算系统每秒处理的batch数量来对比不同参数配置下的系统性能，并针典型的英伟达H100、A100、V100算力，仿真了H100同构计算系统和H100+A100，H100+V100两种异构计算系统. 对于FPGA，ASIC等异构算力的仿真，也可以通过在HCSim中自定义算力节点实现建模仿真. 图8展示了仿真结果. 仿真记录HCSim仅用756.6 s便完成了包含1024个算力节点的一个训练迭代的仿真，这也充分说明了HCSim在对异构一致性融合计算系统性能进行仿真时具有优秀的执行效率.

图 8 对比引入/不引入一致性的计算系统性能的仿真结果

Figure 8. Simulation result on the computing system performance with and without introducing consistency

下载: 全尺寸图片幻灯片

从图8看出，无论是在同构还是异构的情况下，引入一致性后的计算系统性能明显优于不引入一致性的计算系统性能. 为了分析性能差异的原因，本文研究提取了如图9所示的仿真输出执行轨迹，其中包含了HCSim中每个计算过程和通信过程在完成时的仿真时间. 经过对执行轨迹的分析，以上性能差异的原因主要包括2点：

图 9 HCSim对同一个算子输出的执行轨迹

Figure 9. Execution trace of HCSim for the same operator output

下载: 全尺寸图片幻灯片

①在不引入一致性的计算系统中，一旦XPU本地内存不足，就需要引入额外的内存搬运过程，导致训练耗时增加. 相比之下，从图9（b）的反向传播过程轨迹可以明显看出，由于一致性互连技术CXL的引入，反传过程可以省略如图3所示的额外本地内存搬运步骤，从而节约训练耗时.

②对比图9（a）中的参数同步过程轨迹可以发现，在不引入一致性的计算系统中，参数同步过程明显耗时更长，这是由于在该系统中异构算力节点之间的梯度同步仍需要通过以太网进行，效率较低. 相比之下，如图6所示，引入一致性后算力之间可以通过一致性互连网络进行通信，从而显著提升参数同步过程的执行效率.

另外，值得注意的是，对于H100+A100、H100+V100两种异构计算系统，在节点数量从128增加至256时，计算系统的性能出现了明显跳变. 这应该是由于在每个ToR内的XPU类型相同的仿真条件下，在128个节点以下时，计算系统仍然保持着同构. 而当节点数量从128提升至256时，系统引入了低性能的异构计算卡，降低了系统的整体计算性能. 这个仿真结果充分说明了对于异构计算系统，一味地增加XPU的数量并不一定会带来计算系统性能的提升，还需考虑XPU之间是否存在计算性能的差异.

2）探究带宽对计算系统性能的影响

进一步地，本节探究带宽对异构一致性融合计算系统性能的影响. 仿真采用图6（b）中的互连架构，并固定CXL_link的时延为200 ns，通过修改CXL_link的带宽与算力节点规模，对LLAMA2-13B的并行训练进行仿真，并观察不同计算系统性能的变化. 图10展示了这部分的仿真结果，经过分析可以得到以下结论：

图 10 带宽对异构一致性融合计算系统性能的影响

Figure 10. Impact of bandwidth on the performance of heterogeneous consistency-integrated computing systems

下载: 全尺寸图片幻灯片

①在算力节点规模不变时，随着CXL_link一致性互连带宽的提升，计算系统的性能会逐渐提升，但提升的效果逐渐减缓. 这是因为带宽的提升缓解了带宽瓶颈，直接加速了内存访问与参数同步过程，从而提升了计算系统的整体性能. 而随着带宽的增加，系统的瓶颈逐渐从带宽转移到了算力，最终导致提升效果不再显著.

②在带宽不变的情况下，参与计算任务的XPU数量的增加显著提升了计算系统的性能. 这应该是由于一致性互连为XPU之间带来了高效的通信能力，提升了计算系统的可扩展性.

③引入异构算力同样会带来计算系统性能的波动，导致提升系统带宽的性能收益减弱.

3）探究时延对计算系统性能的影响

固定CXL_link带宽为128 GB/s，本文研究通过修改CXL_link时延与算力节点规模，从而观察不同计算系统性能的变化. 仿真结果如图11所示，经过分析，可以得到以下结论：

图 11 时延对异构一致性融合计算系统性能的影响

Figure 11. Impact of latency on the performance of heterogeneous consistency-integrated computing systems

下载: 全尺寸图片幻灯片

①在时延较小时，时延略微增加并不会影响计算系统的性能. 这应该是由于在时延较小时，时延对通信影响的比重较低，不会明显影响系统性能.

②随着一致性互连时延的增大，特别是在时延大于10 μs后，时延逐渐成为影响系统性能的关键因素. 这是因为参数同步过程中有大量的通信过程，这些过程受时延影响较大，而时延增加时该影响也会更加显著.

③在时延变化时，计算节点数量更多的计算任务会受到更大的影响. 这是由于计算节点较多时，参数同步过程中通信的次数也会随之增加，造成时延的影响更加显著.

3.3 面向异构一致性融合计算系统的通信优化与仿真分析

进一步地，针对异构一致性融合计算系统的通信优化问题，本文研究提出了基于一致性ring-allreduce的通信优化方法，并利用HCSim的仿真能力，验证了所提方法的有效性.

具体而言，在参与分布式训练任务的节点规模较大或模型参数量较多时，由于节点之间需要通过通信同步模型参数，节点之间的通信将影响任务执行效率. 本文研究提出了一致性ring-allreduce，借助一致性系统的特性，降低了参数同步的通信次数，缓解了通信对AI计算任务的影响. 图12展示了传统ring-allreduce和本文研究所提出的一致性ring-allreduce之间参数同步运作流程的区别. 如（a）所示，在传统的ring-allreduce中，受制于异构算力节点内存之间访问的隔离（即（a）的虚线），每个异构算力节点都需要将同步后的梯度放置到本地内存，才能实现参数同步更新. 对于N个需要同步参数的异构算力节点，总共需要 $2\times ({N}-1)$ 次通信. 相比之下，如（b）所示，一致性ring-allreduce只需要进行 $({N}-1)$ 次通信便可完成梯度同步，减少了一半的梯度同步的通信步骤. 这是因为在一致性系统中，由于XPU之间的内存可以互相访问，因此只需要在一致性系统中保证平均后的梯度存在（即图12（b）的a0+a1+a2、b0+b1+b2、c0+c1+c2），而不再需要使用额外的all-gather集合通信将同步后的梯度发送到所有的XPU内存上.

图 12 传统ring-allreduce和一致性ring-allreduce的对比

Figure 12. Comparison between traditional ring-allreduce and consistent ring-allreduce

下载: 全尺寸图片幻灯片

基于这一思路，本文研究在HCSim中调整了负载图中对ring-allreduce的执行定义，在给定CXL_link的带宽时延分别为128 GB/s和200 μs的情况下，获得的仿真结果如表6所示. 仿真结果表明，虽然一致性ring-allreduce可以提升系统性能，但提升并不显著. 对于整体算力性能较强，或系统规模较大的计算系统，应用一致性ring-allreduce可以带来相对更大的收益. 总结来看，虽然提升的幅度较小，一致性ring-allreduce可以在没有额外性能损失的情况下合理利用一致性互连的特性，实现在异构一致性融合计算系统中提升AI训练任务的执行效率.

表 6 优化前后对比结果

Table 6. Comparison Results Before and After Optimization

计算系统架构	传统ring-allreduce	一致性ring-allreduce
64个H100 同构	7.98 batch/s	8.12 batch/s
256个H100 同构	31.97 batch/s	32.53 batch/s
128个H100+128个 A100异构	10.65 batch/s	10.71 batch/s
128个H100+128个 V100异构	12.86 batch/s	12.93 batch/s

下载: 导出CSV

| 显示表格

3.4 仿真小节

针对异构一致性融合计算系统，本文研究利用HCSim的仿真能力，不仅建模分析了引入一致性技术的效果，而且建模探究了一致性互连网络中带宽、时延对系统性能的影响，最终进一步模拟仿真了所提出的一致性ring-allreduce对该系统性能的提升. 这充分说明了HCSim不仅可以用于异构一致性融合计算系统的性能建模，而且可以通过少量修改完成对异构一致性融合计算系统的优化方案验证.

4. 结论与展望

针对新型异构一致性融合计算系统的性能建模和优化困难等问题，本文研究提出了一种全新的建模仿真工具HCSim. 该工具解决了以往研究中异构一致性融合计算系统拓扑架构建模困难和计算负载建模偏差的问题，并集成了SimGrid仿真器，实现了可以对异构一致性融合计算系统进行灵活高效的性能建模与仿真. 本文研究利用HCSim模拟构建了一致性互连拓扑架构，并建模了LLAMA2-13B的训练负载. 基于HCSim，仿真分析了异构算力分布、带宽、时延和计算规模等变量对异构一致性融合计算系统性能和AI计算任务执行效率的影响. 此外，还针对该系统的通信问题，提出了基于一致性ring-allreduce的通信优化方法，并使用HCSim进行了仿真验证. 通过仿真可以看出，HCSim不仅可以低成本、高效地实现对异构一致性融合计算系统的性能建模，而且能够对异构一致性融合计算系统的优化方案进行仿真验证. 在未来，我们将继续扩展HCSim的仿真能力，包括加入对时间局部性、空间局部性等算子的建模以及加入对一致性维护开销的建模以及加入对更多典型互连拓扑建模的支持，并在仿真能力更加完整后进行开源. 希望本文研究提出的HCSim能为工业界和学术界提供低成本的异构一致性融合计算系统性能评估手段，并为未来新型计算系统的仿真建模提供一些新的思路.

作者贡献声明：李仁刚提出了性能建模的核心思路，撰写仿真器核心代码和论文的主要章节；唐轶男修改与校对论文；郭振华提出了一致性ring-allreduce的思路；王丽实现了一致性ring-allreduce的仿真代码；宗瓒进行了实验部分数据的汇总与论文相关部分的撰写；杨广文负责论文的整体指导.

图 1 FHE应用场景

Figure 1. Application scenario of FHE

下载: 全尺寸图片幻灯片

图 2 蝶式计算过程

Figure 2. Butterfly computation process

下载: 全尺寸图片幻灯片

图 3 模运算时间占比分析图

Figure 3. Time proportion analysis diagram for modular operation

下载: 全尺寸图片幻灯片

图 4 组合模运算器数据通路示意图

Figure 4. Schematic diagram of the data path of the combined modulo operator

下载: 全尺寸图片幻灯片

图 5 数据重洗流程

Figure 5. Data reordering process

下载: 全尺寸图片幻灯片

图 6 计算单元的取数映射关系

注：A是行的个数，B是列的个数.

Figure 6. Data access mapping relationship of the computing unit

下载: 全尺寸图片幻灯片

图 7 RVFHE数据流架构

Figure 7. Dataflow architecture of RVFHE

下载: 全尺寸图片幻灯片

图 8 地址匹配器映射关系图

Figure 8. Mapping relationship diagram of address matcher

下载: 全尺寸图片幻灯片

图 9 消融实验

Figure 9. Aablation experiments

下载: 全尺寸图片幻灯片

图 10 计算时间对比图

Figure 10. Comparison chart of the time for calculating

下载: 全尺寸图片幻灯片

图 11 FFT性能收益

Figure 11. Performance gain of FFT

下载: 全尺寸图片幻灯片

图 12 能效优化分析图

Figure 12. Analysis diagram of energy efficiency optimization

下载: 全尺寸图片幻灯片

表 1 硬件加速架构的特点

Table 1 Features of Hardware Accelerated Architecture

硬件加速架构	计算平台	特点
TensorFHE^[14]	GPU	最大化数据复用并减少片外数据移动
cuHE^[17]	GPU	多GPU配置
HEAX^[18]	FPGA	层次化内存设计
F1^[21]	ASIC	可编程FHE、无界计算
CraterLake^[22]	ASIC	硬件架构、功能单元、算法和编译器技术
本文架构		针对NTT蝶式计算进行优化

下载: 导出CSV

表 2 RVFHE扩展指令集

Table 2 RVFHE Extended Instruction Set

指令	Funct7[31:25]	Rs2[24:20]	Rs1[19:15]	Funct3[14:12]	Rd[11:7]	Opcode[6:0]
数据预取（LDP）	0		数据地址	输入数据大小	目的寄存器	0x2a
模加（MADD）	0	操作数1	操作数0	0	操作数2	0x2b
模减（MSUB）	1	操作数1	操作数0	0	操作数2	0x2b
模乘（MMUL）	2	操作数1	操作数0	0	操作数2	0x2b
数据传输（COPY）	0	源计算核	待传输数据	输入数据大小	目的计算核	0x2c

下载: 导出CSV

表 3 数据流加速架构参数设置

Table 3 Parameter Configuration of Dataflow Acceleration Architecture

模块	配置信息
计算核	16 KB指令缓存、144 KB数据缓存、1 GHz、SIMD32、 1 TOPS（INT32）
片上网络	2D Mesh、1套核间通信网络、1套控制网络、1套访存网络
片上存储	SPM、Ping-Pong、3 MB
访存带宽	32.00 GB/s

下载: 导出CSV

表 4 模加/减器和模乘器面积

Table 4 Areas of Modulo Adder/Subtracter and Modulo Multiplier

单元名称	组合逻辑面积/nm²	缓冲器和反相器面积/nm²	非组合逻辑面积/nm²	总面积/ nm²
模加/减	4 646.52	356.66	1 270.70	5 917.23
模乘	117 720.76	13 063.68	5 353.21	123 160.23

下载: 导出CSV

表 5 模加/减器和模乘器能耗

Table 5 Energy Consumption of Modulo Adder/Subtracter and Modulo Multiplier

单元名称	部件名称	短路功耗/ mW	翻转功耗/ mW	漏电功耗/ mW	总功耗/ mW	占比/ %
模加/减	寄存器	0.032	0.120	0.001	0.154	42.7
	组合逻辑	0.080	0.0929	0.034	0.206	57.3
	总功耗	0.113	0.213	0.035	0.360	100
模乘	时钟网络	0.002	0.001	0.001	0.003	0.05
	寄存器	0.148	0.147	0.022	0.317	4.27
	组合逻辑	2.859	2.826	1.424	7.109	95.68
	总功耗	3.009	2.974	1.447	7.430	100

下载: 导出CSV

表 6 RVFHE扩展部分的面积与功耗

Table 6 Area and Power Overhead of RVFHE Extended Part

组成部分		面积/mm²（占比）	功耗/mW（占比）
RVFHE扩展	计算单元	0.125(54.97%)	21.92(45.73%)
	控制单元	0.033(14.60%)	2.69(5.62%)
	指令存储	0.015(6.62%)	1.73(3.60%)
	数据存储	0.054(23.84%)	21.59(45.05%)
	总和	0.227	47.93
阵列扩展总和		3.63(57.71%)	766(51.56%)
片上网络		1.13(17.92%)	194(13.07%)
数据缓存		1.10(17.56%)	400(26.94%)
配置缓存		0.16(2.51%)	82(5.50%)
DMA		0.27(4.30%)	44(2.93%)
总和		6.29	1486

下载: 导出CSV

参考文献(35)

[1]	Gentry C. A fully homomorphic encryption scheme[D]. Palo Alto, CA: Stanford University, 2009
[2]	Feldmann A, Samardzic N, Krastev A, et al. An architecture to accelerate computation on encrypted data[J]. IEEE Micro, 2022, 42(4): 59−68 doi: 10.1109/MM.2022.3170792
[3]	Gentry C. Fully homomorphic encryption using ideal lattices[C]//Proc of Symp on the Theory of Computing. New York: ACM, 2009: 169−178
[4]	Smart N, Vercauteren F. Fully homomorphic encryption with relatively small key and ciphertext sizes[C]//Proc of Public Key Cryptography–PKC 2010. Berlin: Springer, 2010: 420−443
[5]	Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) Fully homomorphic encryption without bootstrapping[J]. ACM Transactions on Computation Theory-Special Issue on Innovations in Theoretical Computer Science 2012- Part II, 2014, 6(3): 1−36
[6]	Bos J, Lauter K, Loftus J, et al. Improved security for a ring-based fully homomorphic encryption scheme[C]//Proc of Cryptography and Coding. IMACC 2013. Berlin: Springer, 2013: 45−64
[7]	Brakerski Z. Fully homomorphic encryption without modulus switching from classical GapSVP[C]//Advances in Cryptology–CRYPTO 2012. Berlin: Springer, 2012: 868−886
[8]	Gentry C, Halevi S. Implementing Gentry’s fully-homomorphic encryption scheme[C]//Advances in Cryptology–EUROCRYPT 2011. EUROCRYPT 2011. Berlin: Springer, 2011: 129−148
[9]	Erlingsson L, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response[C]//Proc of ACM Conf on Computer and Communications Security (CCS). New York: ACM, 2014: 1054-1067
[10]	Gentry C. Computing arbitrary functions of encrypted data[J]. Communications of ACM, 2010, 53(3): 97−105 doi: 10.1145/1666420.1666444
[11]	Gentry C, Halevi S, Smart N. Fully homomorphic encryption with polylog overhead[C]//Proc of Annual Int Conf on the Theory and Applications of Cryptographic Techniques. Berlin: Springer, 2012: 465–482
[12]	Gentry C, Sahai A, Waters B. Homomorphic encryption from learning with errors: Conceptually-simpler, asymptotically-faster, attribute-based[C]//Advances in Cryptology–CRYPTO 2013. Berlin: Springer, 2013: 75−92
[13]	Cheon J, Kim A, Kim M, et al. Homomorphic encryption for arithmetic of approximate numbers[C]//Advances in Cryptology–ASIACRYPT 2017. Berlin: Springer, 2017: 409−437
[14]	Fan Shengyu, Wang Zhiwei, Xu Weizhi, et al. TensorFHE: Achieving practical computation on encrypted data using GPGPU[C]//Proc of 2023 IEEE Int Symp on High-Performance Computer Architecture (HPCA). Piscataway, NJ: IEEE, 2023: 922−934
[15]	Akleylek S, Özgur D, Zaliha Y. On the efficiency of polynomial multiplication for lattice-based cryptography on GPUs using CUDA[C]//Proc of Int Conf on Cryptography and Information Security in the Balkans. Berlin: Springer, 2015: 155−168
[16]	Badawi A, Veeravalli B, Mun C, et al. High performance FV somewhat homomorphic encryption on GPUs: An implementation using CUDA[J]. Transactions on Cryptographic Hardware and Embedded Systems, 2018(2): 70−95
[17]	Dai W, Sunar B. cuHE: A homomorphic encryption accelerator library[C]//Proc of Cryptography and Information Security in the Balkans (BalkanCryptSec 2015). Berlin: Springer, 2015: 169−186
[18]	Riazi M, Laine K, Pelton B, et al. HEAX: An architecture for computing on encrypted data[C]//Proc of the 25th Int Conf on Architectural Support for Programming Languages and Operating Systems. New York: ACM, 2020: 1295−1309
[19]	Roy S, Turan F, Jarvinen K, et al. FPGA-based high-performance parallel architecture for homomorphic computing on encrypted data[C]//Proc of 2019 IEEE Int Symp on High Performance Computer Architecture (HPCA), Piscataway, NJ: IEEE, 2019: 387−398
[20]	Pöppelmann T, Naehrig M, Putnam A, et al. Accelerating homomorphic evaluation on reconfigurable hardware[C]//Proc of Cryptographic Hardware and Embedded Systems (CHES 2015). Berlin: Springer, 2015: 143−163
[21]	Feldmann A, Samardzic N, Krastev A. F1: A fast and programmable accelerator for fully homomorphic encryption[C]//Proc of the 54th Annual IEEE/ACM Int Symp on Microarchitecture (MICRO 2021). New York: ACM, 2021: 238−252
[22]	Samardzic N, Feldmann A, Krastev A. CraterLake: A hardware accelerator for efficient unbounded computation on encrypted data[C]//Proc of Int Symp on Computer Architecture. New York : ACM, 2022: 173−187
[23]	Karabulut E, Aysu A. RANTT: A RISC-V architecture extension for the number theoretic transform[C]//Proc of the 30th Int Conf on Field-Programmable Logic and Applications (FPL). New York : ACM, 2020: 26−32
[24]	Paludo R, Sousa L. NTT architecture for a Linux-ready RISC-V fully-homomorphic encryption accelerator[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2022, 69(7): 2669−2682 doi: 10.1109/TCSI.2022.3166550
[25]	Lu Zhaojun, Yu Weizong, Xu Peng, et al. An NTT/INTT accelerator with ultra-high throughput and area efficiency for FHE[C]//Proc of the 61st ACM/IEEE Design Automation Conf (DAC’24). Association for Computing Machinery. New York: ACM, 2024: 1−6
[26]	Dennis J B. First version of a dataflow procedure language[C]//Proc of Programming Symp. Berlin: Springer, 1974, 19: 362−376
[27]	Dijk M, Gentry C, Halevi S, et al. Fully homomorphic encryption over the integers[C]//Proc of Int Conf on Theory & Applications of Cryptographic Techniques. Berlin: Springer, 2010: 24−43
[28]	Gentry C, Halevi S. Implementing Gentry’s fully-homomorphic encryption scheme[C]//Advances in Cryptology–EUROCRYPT 2011. Berlin: Springer, 2011: 129−148
[29]	Krendelev S, Tormasov A. Method for protecting data used in cloud computing with homomorphic encryption: US10116437B1 [P]. 2018-10-30
[30]	Zhang Y, Dai W, Jiang X, et al. FORESEE: Fully outsourced secure genome study based on homomorphic encryption[J/OL]. BMC Medical Informatics & Decision Making, 2015[2025-03-01]. http://doi.org/10.1186/1472-6947-15-s5-s5
[31]	Lagendijk R, Erkin Z, Barni M, Encrypted signal processing for privacy protection: Conveying the utility of homomorphic encryption and multiparty computation[J]. IEEE Signal Processing Magazine, 2013, 30(1): 82−105
[32]	Gentry C, Halevi S, Smart N P. Homomorphic evaluation of the AES circuit[C]//Advances in Cryptology–CRYPTO 2012. Berlin: Springer, 2012: 850−867
[33]	Asanović K, Avižienis R, Bachrach J, et al. The rocket chip generator[R]. Berkeley: University of California, 2016: 1−11
[34]	Ye Xiaochun, Fan Dongrui, Sun Ninghui, et al. SimICT: A fast and flexible framework for performance and power evaluation of large-scale architecture[C]//Proc of the Int Symp on Low Power Electronics and Design (ISLPED). New York: ACM, 2013: 273−278
[35]	Fan Zhihua, Li Wenming, Tang Shengzhong, et al. Improving utilization of dataflow architectures through software and hardware co-design[C]//Proc of Parallel Processing (Euro-Par 2023). Berlin: Springer, 2023: 245−259