Direct xPU：一种新型节点间通信优化的分布式异构计算架构

李仁刚; 王彦伟; 郝锐; 肖麟阁; 杨乐; 杨广文; 阚宏伟

doi:10.7544/issn1000-1239.202440055

Direct xPU：一种新型节点间通信优化的分布式异构计算架构

李仁刚^{1, 2,},
王彦伟²,
郝锐²,
肖麟阁²,
杨乐^3, ,,
杨广文¹,
阚宏伟³

1.
清华大学计算机科学与技术系　北京　100084
2.
浪潮（北京）电子信息产业有限公司　北京　100085
3.
广东浪潮智慧计算技术有限公司　广州　510623

基金项目: 广东省重点领域研发计划项目 (2021B0101400001)

详细信息

作者简介:
李仁刚: 1980年生. 博士，正高级工程师. CCF会员. 主要研究方向为异构计算

王彦伟: 1985年生. 博士，副研究员. CCF会员. 主要研究方向为异构计算

郝锐: 1983年生. 硕士，高级工程师. CCF会员. 主要研究方向为异构计算

肖麟阁: 1994年生. 博士. 主要研究方向为异构计算

杨乐: 1990年生. 硕士. 主要研究方向为异构计算

杨广文: 1963年生. 博士，教授，博士生导师. CCF会员. 主要研究方向为高性能计算

阚宏伟: 1975年生. 硕士，教授-正高级工程师. CCF高级会员. 主要研究方向为异构计算

通讯作者:
杨乐: 肖麟阁 (xiaolinge@ieisystem.com)

中图分类号: TP393
计量
- 文章访问数: 529
- HTML全文浏览量: 82
- PDF下载量: 157
出版历程
- 收稿日期: 2024-01-28
- 修回日期: 2024-03-26
- 网络出版日期: 2024-04-14
- 刊出日期: 2024-05-31

Direct xPU: A Novel Distributed Heterogeneous Computing Architecture Optimized for Inter-node Communication Optimization

1.
Department of Computer Science and Technology, Tsinghua University, Beijing 100084
2.
Inspur (Beijing) Electronic Information Industry Co., Ltd, Beijing 100085
3.
Guangdong Inspur Intelligent Computing Technology Co., Ltd, Guangzhou 510623

Funds: This work was supported by the Key-Area Research and Development Program of Guangdong Province (2021B0101400001).

More Information

Author Bio:
Li Rengang: born in 1980. PhD, Senior engineer. Member of CCF. His main research interest includes heterogeneous computing

Wang Yanwei: born in 1985. PhD, associate researcher. Member of CCF. His main research interest includes heterogeneous computing

Hao Rui: born in 1983. Master, Senior engineer. Member of CCF. His main research interest includes heterogeneous computing

Xiao Linge: born in 1994. PhD. His main research interest includes heterogeneous computing

Yang Le: born in 1990. Master. Her main research interest includes heterogeneous computing

Yang Guangwen: born in 1963. PhD, professor, PhD supervisor. Member of CCF. His main research interest includes high performance computing

Kan Hongwei: born in 1975. Master, professor-Senior engineer. Senior member of CCF. His main research interest includes heterogeneous computing

摘要

摘要:
人工智能大模型应用的爆发式增长，使得难以依靠单一节点、单一类型的算力实现应用的规模部署，分布式异构计算成为主流选择，而节点间通信成为大模型训练或推理过程中的主要瓶颈之一. 目前，主要由GPU，FPGA等头部芯片厂商所主导的各种计算架构的节点间通信方案还存在一些问题. 一方面，为了追求极致的节点间通信性能，一部分架构选择使用协议简单而可扩展性差的点对点传输方案. 另一方面，传统的异构计算引擎（例如GPU）虽然在内存、计算管线等算力要素方面独立于CPU，但在通信要素方面却缺少专属的网络通信设备，需要完全或部分借助于CPU通过PCIe等物理链路来处理异构计算引擎与共享网络通信设备之间的通信. 所实现的Direct xPU分布式异构计算架构，使得异构计算引擎在算力要素和通信要素两方面均具有独立的、专属的设备，实现了数据的零拷贝，并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟. 测试结果表明，Direct xPU取得了与追求极致的节点间通信性能的计算架构相当的通信延迟，带宽接近物理通信带宽的上限.
- 节点间通信 /
- FPGA /
- GPU /
- RDMA /
- 零拷贝
Abstract:
The explosive growth of the application of large-scale artificial intelligence models has made it difficult to achieve the scale deployment of applications relying on a single node or a single type of computing architecture. Distributed heterogeneous computing has become the mainstream choice, and inter-node communication has become one of the main bottlenecks in the training or inference process of large models. Currently, there are still some deficiencies in the inter-node communicating solutions dominated by leading chip manufacturers. On the one hand, some architectures choose to use a simple but less scalable point-to-point transmission scheme in order to pursue the ultimate inter-node communication performance. On the other hand, traditional heterogeneous computing engines (such as GPUs) are independent of CPUs in terms of computing resources such as memory and computing cores, but they lack dedicated communicating network devices in terms of communication resources and need to rely entirely or partially on CPUs to handle transmission between heterogeneous computing engines and the shared communicating network device through physical links such as PCIe. The proposed Direct xPU distributed heterogeneous computing architecture in this article enables heterogeneous computing engines to have independent and dedicated devices in both computing and communication resources, achieving zero-copy data and further eliminating the energy consumption and latency associated with cross-chip data transfer during inter-node communication. Evaluations show that Direct xPU achieves communication latency comparable to computing architectures pursuing ultimate inter-node communication performance, with bandwidth close to the physical limit.
- inter-node communication /
- FPGA /
- GPU /
- RDMA /
- zero copy

HTML全文

国密SM4算法^[1]是一种常用的分组密码算法，广泛应用于数据保护、加密通信等领域. SM4算法常见工作模式有ECB（electronic codebook），CBC（cipher block chaining）等，对于相同的明文块，ECB模式下会产生完全相同的密文，而在CBC模式下，当前的明文块会与前一块的密文异或后进行运算. 因此，即使是完全相同的明文输入也可能会有完全不同的密文输出. 相比于ECB模式，CBC模式提供了更高的安全性和抵抗攻击的能力，有着更高的应用需求. 提高SM4算法在CBC模式下的性能，对于在边缘设备中使用SM4算法是至关重要的. 但是，在CBC模式下存在着难以提高吞吐率的问题：每组的输入必须等待前一组运算结束后才能获得，因而难以使用流水线方法提升吞吐率.

文献[2]中提到了一种改进方法，将电路中的S盒以外的其他逻辑结构进行预计算，并把预计算的结果与S盒进行融合构成新的查找表，从而提高SM4算法在CBC模式下吞吐率. 本文基于此工作进一步优化了S盒的表示，并针对轮函数的迭代过程进行了优化，最终减少了轮函数关键路径上的2次异或运算，有效提高了算法的性能.

本文的设计针对CBC模式下的SM4算法，在TSMC 40 nm，SMIC 55 nm工艺下，使用Synopsys Design Compiler分别进行了ASIC综合. 综合结果显示，本文所提出的设计在CBC模式下的吞吐率达到了4.2 Gb/s，同时单位面积吞吐量达到了129.4 Gb·s⁻¹·mm⁻²，明显优于已发表的类似设计. 这些结果表明本文所提出的化简方法在改进SM4算法性能方面具有很大的潜力.

本文的结构为：首先介绍了SM4算法及其在CBC模式下存在的性能瓶颈问题. 然后，详细描述了本文提出的2个化简方法，并解释了它们在轮函数迭代和S盒置换过程中的作用. 接下来，介绍了实验设计并给出了实验结果分析和对比. 最后，对进一步改进和应用的方向进行了展望.

1. SM4算法介绍

SM4算法是一种对称密钥密码算法，被广泛应用于数据加密和保护领域，它是中国密码算法的标准之一，具有较高的安全性和良好的性能.

SM4采用了分组密码的设计思想，将明文数据划分为128 b的数据块，并通过密钥对每个数据块进行加密和解密操作. 对单组数据进行加解密的流程如所示，分为密钥扩展算法和加解密算法2部分. 中的 $FK$ 是系统预设的参数，与用户密钥进行异或运算后作为密钥扩展算法的输入. 加解密算法接受密钥扩展算法产生的32轮轮密钥 $r{k_i}$ 对明文进行加解密，最后经反序变换输出. 加解密使用的是同一套计算流程，唯一的区别是解密时使用轮密钥的顺序与加密过程相反.

图 1 SM4算法工作流程

Figure 1. Workflow of SM4 algorithm

下载: 全尺寸图片幻灯片

密钥扩展算法和加解密算法2部分均由32次轮函数迭代构成，整体结构均采用4路并行的Feistel结构，在计算过程中，以128 b数据为输入、128 b数据为输出，其内部的运算逻辑如图2所示. 输出中的前96 b数据等于输入中的后96 b数据，输出后的32 b数据通过轮函数运算产生.

图 2 4路并行的Feistel结构

Figure 2. Four parallel Feistel structure

下载: 全尺寸图片幻灯片

在密钥扩展算法中使用的密钥是算法给定的固定密钥，记作 $c{k_i}$ . 在加解密算法中使用的密钥是由密钥扩展算法通过用户给的密钥扩展出来的轮密钥，记作 $r{k_i}$ .

1.1 SM4密钥扩展算法

SM4密钥扩展算法结构如所示，密钥扩展的主要过程包括32轮密钥扩展的轮函数，其中，密钥为128 b， $FK$ 为SM4标准中规定的一个128 b常数. 二者异或后的值将会作为密钥扩展轮函数的首轮输入，并通过一个选择器进行循环迭代，总计迭代32轮产生32个轮密钥.

图 3 SM4的密钥扩展算法结构

Figure 3. Key expansion algorithm structure of SM4

下载: 全尺寸图片幻灯片

设用户输入的密钥为 $MK$ ，则该密钥对应的32轮轮密钥可以按照式（1）求出：

$\left\{ {\begin{aligned} & {({k_0},{k_1},{k_2},{k_3}) = MK \oplus FK}, \\ & {{k_{i + 4}} = {k_i} \oplus F({k_{i + 1}} \oplus {k_{i + 2}} \oplus {k_{i + 3}} \oplus c{k_i})}, \\ &{r{k_i} = {k_{i + 4}}} , \end{aligned}} \right.$

(1)

其中， $c{k_i}$ 是系统预设的32 b参数， $r{k_i}$ 代表第 $i$ 轮的轮密钥， $F$ 代表密钥扩展轮函数，其由S盒置换算法 $\tau :Z_2^{32} \to Z_2^{32}$ 和线性变换算法 $L(x) = x \oplus (x \lt \lt \lt 13) \oplus (x \lt \lt \lt 23)$ 组成，其中 $\lt \lt \lt$ 表示循环左移运算.

1.2 SM4加解密算法

SM4算法的加解密算法的整体结构与密钥扩展算法类似，均包含32轮的轮函数迭代，区别在于加解密算法中额外包含1次反序变换.

SM4算法的轮函数迭代流程如所示， ${X_1}$ ~ ${X_4}$ 为第1轮的输入， ${X_2}$ ~ ${X_5}$ 为第1轮的输出，同时也是第2轮的输入. $r{k_1}$ 为第1轮的轮密钥， $T$ 函数代表加解密模块的轮函数. 与密钥扩展部分的轮函数 $F$ 类似，由S盒置换算法 $\tau$ 和一个线性变换算法 $L'(x)=x\oplus (x \lt \lt \lt 2) \oplus (x \lt \lt \lt 10)$ $\oplus\, (x \lt \lt \lt 18) \oplus (x \lt \lt \lt 24)$ 组成.

图 4 SM4加解密模块轮函数结构

Figure 4. Round function structure of SM4 encryption and decryption modules

下载: 全尺寸图片幻灯片

2. 对SM4加解密算法关键路径的化简

通过多轮的迭代过程，SM4算法能够实现高强度的数据加密和解密. 然而，在CBC模式下，由于相邻数据之间的依赖关系，传统的流水线技术难以提高算法的吞吐率. 因此，针对这一问题，本文提出了2种化简方法，以减少关键路径上的运算，从而提高SM4算法在CBC模式下的性能.

2.1 轮函数优化

加解密模块的轮函数的结构如所示，若不考虑 $T$ 函数带来的时序延迟，单次轮函数迭代的关键路径上共包含3次异或运算. 以公式的形式描述SM4算法加解密轮函数的迭代关系可得到式（2）：

${X_{i + 4}} = {X_i} \oplus ({X_{i + 1}} \oplus {X_{i + 2}} \oplus {X_{i + 3}} \oplus r{k_i}) .$

(2)

若考虑相邻的2次轮函数迭代，则有：

$\left\{ {\begin{aligned} & {{X_{i + 4}} = {X_i} \oplus T({X_{i + 1}} \oplus {X_{i + 2}} \oplus {X_{i + 3}} \oplus r{k_i})}, \\ & {{X_{i + 5}} = {X_i} \oplus T({X_{i + 2}} \oplus {X_{i + 3}} \oplus {X_{i + 4}} \oplus r{k_{i + 1}})}. \end{aligned}} \right.$

(3)

观察式（1）~（3）不难发现，由于SM4采用了4条数据线路的Feistel结构进行设计，在相邻的2次轮函数迭代过程中，均有96 b的输入是完全一致的，在式（3）的计算过程中，相邻2轮的轮函数将 ${X_{i + 2}} \oplus {X_{i + 3}}$ 计算了2次.

因此，一个简单的优化思路便是，我们在轮函数之间传递数据时，额外传递 ${X_{i + 2}} \oplus {X_{i + 3}} \oplus r{k_{i + 1}}$ 的运算结果，并作用于下一次计算，得到的流程图如图5所示.

图 5 优化的轮函数结构

Figure 5. Optimized round function structure

下载: 全尺寸图片幻灯片

相比于图4的运算流程，在计算当前轮次的输出时，二次优化过后的轮函数通过提前获取下一轮次使用的密钥，并利用2轮之间相同的数据提前计算，可以使得在加解密的流程中总计节省32次异或运算的时间.

2.2 S盒性能优化

S盒是密码学领域的一个基本组件，其功能是实现数据的非线性变换，在DES，AES，SM1，SM4等算法中均有应用. 在SM4算法中，其提供了一个8 b到8 b的非线性变换.

在SM4算法中，S盒模块通常与另一个线性变换函数 $L'$ 组合使用，即和中的T函数，其位于加解密算法轮函数的关键路径上，因此，如果能找到优化 $T$ 函数关键路径的方法延时，也可以使得整个加解密模块的延时变小，进而提高运算效率. $T$ 函数的内部结构如所示，图中的 $\lt \lt \lt$ 表示对32 b数据进行循环左移，关键路径包括1个S盒和3次异或运算. 在硬件实现中，循环移位可以通过硬件连线来实现，不会带来额外的路径延时.

图 6 SM4加解密模块T函数结构

Figure 6. T function structure of SM4 encryption and decryption modules

下载: 全尺寸图片幻灯片

$T$ 函数中包含4次异或运算，反映到电路设计中，其关键路径上至少存在3次异或运算. 因此，一个优化思路便是，将算法中的S盒的输入输出修改为8 b输入、32 b输出^[2-3] ，并提前将 $L'$ 函数作用于图中的4个S盒，如所示. 中，通过编码的形式保存其运行结果，将中的SBox与后续的线性变换 $L'$ 组合形成exSBox，之后仅需要将4个exSBox的输出异或即可，从而减少了1次异或运算.

图 7 优化的T函数结构

Figure 7. Optimized T-function structure

下载: 全尺寸图片幻灯片

虽然修改后的S盒比原先的S盒输出了更多的数据，但在硬件实现中，仍然是通过相同数量的多路选择器查表输出. 因此修改前后的S盒的路径延时及其安全性并未改变.

2.3 S盒面积优化

以中的exSBox1为例，使用 $\rm 0xff$ 作为输入展示exSBox1的构造方式，首先获得 $\rm 0xff$ 作用于S盒后的运行结果 $\rm 0x48$ . 由于exSBox1的输入对应最高四位，因此，将其拓展为32 b数据为 $\rm 0x48000000$ . 在经过 $L'$ 函数后，得到的值是 $\rm 0x68492121$ . 如表1所示，表中前5行加粗部分表示传入的数据及其循环移位后所处位置，其余位置在任意输入下都恒等于0.

表 1 搜索空间降低比率和命中率

Table 1. Search Space Reduction Rate and Hit Rate

原数据	01001000	00000000	00000000	00000000
<<<2	00100000	00000000	00000000	00000001
<<<10	00000000	00000000	00000001	00100000
<<<18	00000000	00000001	00100000	00000000
<<<24	00000000	01001000	00000000	00000000
异或和	01101000	01001001	00100001	00100001
注：加粗部分表示传入的数据及其循环移位后所处位置.

下载: 导出CSV

| 显示表格

观察表1的运算结果不难发现，除最后一行加粗数字表示的第0~5位，第14，15位由异或运算产生，其余的24位均是输入的8位数据的排列组合，因此在硬件设计时，可以仅使用8 b输入、16 b输出的S盒实现. 对于图7中剩余的3个exSBox，在相同的输入下，可以通过对表1中的数据进行循环移位，得到对应的输出. 上述结论对4个位于不同部位的S盒均成立.

具体而言，令 $p$ 为输入的8 b数据， $\tau (p)$ 为标准SM4算法中S盒的输出. $X = ({x_0},{x_1}, \cdots ,{x_{15}})$ 为exSBox1中存储的16 b数据， $Y = ({y_0},{y_1}, \cdots, {y_{31}})$ 为优化后的 $T$ 函数中需要的32 b输出. $\tau$ 为SM4算法标准中使用的S盒置换函数，其对于8 b输入，产生对应的8 b输出，则 $X$ 可以由式（4）产生：

$\left\{ {\begin{aligned} & {({x_0},{x_1}, \cdots, {x_7}) = \tau (p)} ,\\ & {({x_8},{x_9}, \cdots ,{x_{15}}) = \tau (p) \oplus (\tau (p) \lt \lt \lt 2)} . \end{aligned}} \right.$

(4)

由可知， $Y$ 的取值实际上可以由 $X$ 经过排列组合得到，对于exSBox2，exSBox3，exSBox4的取值，可以通过 $Y$ 循环移位得到，且由于该过程中仅包含赋值运算，在电路设计中可以通过物理连线完成. 相比于文献[2]中的设计，节约了1/3的面积消耗. 具体的计算方式如式（5）所示.

$\left\{\begin{split} & (y_0,y_1,\cdots,y_5)=(x_8,x_9,\cdots,x_{13})， \\ &(y_6,y_7）=(x_6,x_7)， \\ &(y_8,y_9,\cdots,y_{13})=(x_0,x_1,\cdots,x_5)， \\ &(y_{14},y_{15}）=(x_{14},x_{15})， \\ &(y_{16},y_{17},\cdots,y_{21})=(x_2,x_3,\cdots,x_7)， \\ &(y_{22},y_{23}）=(x_0,x_1)， \\ &(y_{24},y_{25},\cdots,y_{29})=(x_2,x_3,\cdots,x_7)， \\ &(y_{30},y_{31}）=(x_0,x_1). \end{split} \right.$

(5)

3. 硬件实现与实验对比

现场可编程逻辑门阵列（FPGA）和专用集成电路（ASIC）是目前主流使用硬件电路实现密码算法的2个方式. FPGA虽然具有可编程性、灵活性和快速设计等优势，但ASIC相较于FPGA拥有更高的性能，与本文设计追求的高效率目标相符，所以选择在ASIC下实现.

3.1 硬件整体设计

SM4硬件系统的整体结构设计如所示，包括密钥扩展模块、加解密模块和适配CBC工作模式的组合逻辑. 对于单个加解密任务，若明文被分为 $n$ 组，会执行1次密钥扩展和 $n$ 次加解密. 因此，优化加解密算法的执行效率是优化SM4硬件设计的重点. 本文所提出的2种化简方法，对于每一组明文输入，可以减少64级异或门的延时，极大地提升了运算效率.

图 8 SM4硬件整体架构

Figure 8. Overall architecture of SM4 hardware

下载: 全尺寸图片幻灯片

3.2 加解密模块设计

SM4算法的硬件实现主要有2种方案：一种方案是流水线结构，即通过寄存器连接多个加解密模块同时工作以提高加解密的效率，如（a）所示；另一种方案是使用循环迭代的方式. 即一次性提取32个轮函数中的 $n$ 轮组合成一个组合电路，称为 $n$ 合1电路，如（b）所示. 流水线结构的优势是可以充分利用 $n$ 个加密核心的性能，在不影响整体工作频率的情况下加速运算. 对于SM4算法而言，在合理范围内堆叠流水线可以实现极高的吞吐量.

图 9 流水线结构与循环迭代结构

Figure 9. Pipeline architecture and loop iteration architecture

下载: 全尺寸图片幻灯片

然而，流水线结构仅适用于ECB等数据无前后依赖的工作模式. 在CBC工作模式下，由于需要将前一轮的输出与本轮的输入进行异或运算，相邻的数据存在依赖，故而无法使用流水线加速运算. 因此，在本设计中没有选用流水线结构.

虽然循环迭代结构会降低整体模块的工作频率，对吞吐量的提升较为有限，但可以同时兼容 ECB，CBC这 2种工作模式. 本设计最终选择了循环迭代的设计方式.

3.3 密钥扩展模块设计

在SM4算法中，密钥扩展与加解密算法类似，均包含32轮迭代. 密钥扩展模块采用图2所示的单轮组合逻辑电路循环32次来实现32轮迭代.

在密钥扩展模块的输出端，使用寄存器存放每一轮电路的轮密钥，标号为0~31，如所示. 标号从0开始的好处是：在解密时，使用到的密钥顺序相反的，加密的第 $k$ 轮使用的是第 $k - 1$ 号密钥，解密的第 $k$ 轮使用的是第 $32 - k$ 号密钥. 在二进制下，二者的标号可以通过取反操作相互转化.

图 10 轮密钥的存储与使用

Figure 10. Storage and usage of round keys

下载: 全尺寸图片幻灯片

为了保证运算结果的准确性，密钥扩展模块还会向加解密模块发出控制信号表明自己的工作状态，以避免在轮密钥尚未完全更新时使用错误的轮密钥进行加解密.

3.4 综合验证方案

在国家标准文档^[1]中，并没有针对CBC工作模式给出具体的测试用例. 因此，本文设计方案通过完整的Verilog HDL语言实现，通过在FPGA平台进行综合、仿真和上板验证，以确保功能正确并进行相关性能分析，如图11所示. 具体而言，通过PCIE上位机下发随机的明文数据到FPGA开发板，开发板完成加密后传回上位机，通过与软件对比实现功能验证. 若在循环验证多次后二者的输出均完全相同，则认为设计的SM4电路的功能正确.

图 11 测试流程

Figure 11. Testing procedures

下载: 全尺寸图片幻灯片

最终，本文的设计在Zynq 7020 FPGA开发板上完成了上板验证，确保了功能的正确性，工作频率最高可达95 MHz，吞吐量约为1.5 Gb/s.

3.5 ASIC综合结果

ASIC上主要针对2种工艺SMIC 55 nm与 TSMC 40 nm进行了测试、通过Synopsys公司的EDA工具DesignCompiler进行时序等综合约束，我们选择了芯片面积和芯片使用的逻辑门数量（gates）作为评估指标，其结果如表2和表3所示，在CBC模式下，本文的设计在3.97 mW的功耗下，单位面积吞吐率达129.4 Gb·s⁻¹·mm⁻²，明显优于同类设计. 此外，以使用逻辑门的数量为评估标准，本文提出的设计在该指标上也明显优于同类设计，单位面积吞吐率为0.205×10⁻³ Gb·s⁻¹·gates⁻¹.

表 2 SM4综合结果与面积效率对比

Table 2. Comparison of SM4 Synthesis Results and Area Efficiency

工艺节点	芯片面积/mm²	吞吐率/（Gb·s⁻¹）	单位面积吞吐率/ （Gb·s⁻¹·mm⁻²）	功耗/mW
40 nm^*	0.0335	4.34	129.40	3.97
55 nm^*	0.0877	4.41	50.30	10.88
65 nm^[2]	0.1260	5.24	41.59
180 nm^[4]	0.0790	0.10	1.27	5.31
55 nm^[5]	0.0870	0.40	4.59	4.35
350 nm^[6]	0.0270	0.412	15.26
注：*标注的表示本文的结果.

下载: 导出CSV

| 显示表格

表 3 SM4综合结果与门效率对比

Table 3. Comparison of SM4 Synthesis Results and Gates Efficiency

工艺节点	gates	吞吐率/（Gb·s⁻¹）	单位面积吞吐率/ （Gb·s⁻¹·gates⁻¹）
40 nm^*	21.2×10³	4.34	0.205×10⁻³
55 nm^*	21.1×10³	4.41	0.209×10⁻³
180 nm^[6]	32.0×10³	0.80	0.025×10⁻³
65 nm^[7]	31.0×10³	1.23	0.040×10⁻³
55 nm^[8]	22.0×10³	0.27	0.012×10⁻³
130 nm^[9]	22.0×10³	0.80	0.036×10⁻³
注：*标注的表示本文的结果.

下载: 导出CSV

| 显示表格

在不同工艺、电压下对该设计进行综合，可以得到本文设计在不同使用场景下的吞吐率. 在TSMC 40 nm、SMIC 55 nm、SMIC 130 nm下使用不同的工艺角分别对本文的设计进行综合，结果如表4所示.

表 4 不同工艺角下的SM4综合结果与效率对比

Table 4. Comparison of SM4 Synthesis Results and Efficiency with Different Process Corners

工艺节点	工艺角	面积/gates	吞吐率/（Gb·s⁻¹）	功耗/mW
40 nm	0.99V/125°C/SS	21.0×10³	2.40	2.55
	1.1V/25°C/TT	21.2×10³	4.34	3.97
	1.21V/0°C/FF	20.9×10³	6.96	8.35
55 nm	1V/25°C/TT	20.0×10³	2.78	4.10
	1.2V/25°C/TT	21.1×10³	4.41	10.88
	1.32V/0°C/FF	17.8×10³	6.84	33.59
130 nm	1.08V/125°C/SS	20.8×10³	1.11	6.86
	1.2V/25°C/TT	21.0×10³	1.75	15.70
	1.32V/0°C/FF	21.8×10³	2.45	23.03

下载: 导出CSV

| 显示表格

4. 结　　论

根据本文提出的2种对SM4加解密模块关键路径进行化简以及降低面积的方法，实现了4合1的SM4电路，并基于Zynq7020开发板进行了功能验证. 此外，ASIC综合结果表明本文的SM4电路相比于其他方案有更高的单位面积吞吐率和更低的功耗. 因此，这种对SM4算法进行的优化是有效的，并且对其他分组算法提高CBC模式下的单位面积吞吐率具有参考价值.

作者贡献声明：郝泽钰提出研究方案并完成了论文的撰写；代天傲、黄亦成、段岑林协助完成了ASIC平台上的验证实验；董进、吴世勇、张博、王雪岩、贾小涛提出指导意见并修改论文；杨建磊提出指导意见并讨论定稿.

图 1 NVIDIA GPUDirect的发展

Figure 1. Development of NVIDIA GPUDirect

下载: 全尺寸图片幻灯片

图 2 Intel IKL示意图

Figure 2. Illustration of Intel IKL

下载: 全尺寸图片幻灯片

图 3 基于传统GPU和Direct xPU的系统组织架构示意图

Figure 3. Illustrations of systematic organization architecture based on the traditional GPU and Direct xPU

下载: 全尺寸图片幻灯片

图 4 Direct xPU的硬件架构示意图

Figure 4. Illustrations of architecture of Direct xPU hardware

下载: 全尺寸图片幻灯片

图 5 RLTP协议的示意图

Figure 5. Illustration of RLTP protocol

下载: 全尺寸图片幻灯片

图 6 Go-back-N策略和选择性重传策略

Figure 6. Go-back-N strategy and the selective repeat transmission strategy

下载: 全尺寸图片幻灯片

图 7 Direct xPU的软件架构

Figure 7. The software architecture of Direct xPU

下载: 全尺寸图片幻灯片

图 8 GPU MMD库的详细信息

Figure 8. Details of GPU MMD library

下载: 全尺寸图片幻灯片

图 9 GPU二进制程序的生成过程

Figure 9. Generation process of GPU binary program

下载: 全尺寸图片幻灯片

图 10 配备了16个PCIe插槽的xPU Box

Figure 10. xPU Box equipped with 16 PCIe slots

下载: 全尺寸图片幻灯片

图 11 不同网卡在3种丢包率下的带宽测试

Figure 11. Bandwidth tests with different network cards at three packet loss rate

下载: 全尺寸图片幻灯片

图 12 发送方视角下GPU节点间通信的完整过程

Figure 12. The complete process of communication between GPU nodes from the perspective of sender

下载: 全尺寸图片幻灯片

GPU节点之间的 $t_3-t'_2$ 延迟测试设置

Latency testing setup between GPU nodes on $t_3-t'_2$

下载: 全尺寸图片幻灯片

GPU节点间通信在 $t_3-t'_2$ 的延迟测试结果

Latency testing results between GPU nodes communication on $t_3-t'_2$

下载: 全尺寸图片幻灯片

图 15 主机节点写入GPU节点的不同数量寄存器的延迟

Figure 15. Latency of different number of registers when the host node writes to the GPU node

下载: 全尺寸图片幻灯片

图 16 数据量大小分别为1Mb和1Gb时GPU节点间的带宽性能测试结果

Figure 16. Bandwidth performance testing result between GPU nodes when the amount of data is 1 Mb and 1 Gb respectively

下载: 全尺寸图片幻灯片

图 17 基于Direct xPU分布式计算平台的原型系统的应用

Figure 17. Application of a prototype system based on Direct xPU distributed computing platform

下载: 全尺寸图片幻灯片

表 1 3种RDMA实现的特性对比

Table 1 Features Comparison of Three Types of RDMA Implementations

特性	InfiniBand	iWARP	RoCE
性能	最好	稍差	与InfiniBand相当
成本	高	中	低
稳定性	好	差	较好
交换机需求	IB交换机	以太网交换机	以太网交换机

下载: 导出CSV

表 2 3种RDMA实现在重传方面的特性

Table 2 Features of Three Types of RDMA Implementations in Terms of Retransmission

网络类型	传输层	重传协议	复杂度	可靠性
iWARP	TCP	SR	高	高
RoCEv2	UDP	Go-back-N	低	低
iRDMA	UDP	SR	中等	与iWARP相当

下载: 导出CSV

表 3 主要系统组件的规格

Table 3 Specification of Main Systematic Components

组件	规格
CPU	Intel Xeon E5-2640 V4
CPU内存	DDR4，2133 MHz，256 GB
主机网卡	Intel x520-sr2，10 Gbps
主机操作系统	CentOS 7.8
FPGA板卡	Inspur F10A（Intel Arria 10）
FPGA内存	DDR4，2133 MHz，16 GB
交换机	锐捷S6220
FPGA编译工具	Quartus 19.1
Vortex GPU版本	0.2.3，32 Core

下载: 导出CSV

表 4 4种基于FPGA的分布式计算架构的节点间通信延迟对比

Table 4 Comparison of Inter-Node Communicating Latency of Four FPGA-Based Distributed Computing Architectures

架构	FPGA时钟频率/MHz	延迟/µs
CoE	200~250	0.95（4 B包大小）
CIRCUS	295.8	0.5~1.87（根据包大小和设备的间隔距离变化）
AiS	222.5	5.04（4 B包大小）
Direct xPU	200	2.69（4 B包大小）

下载: 导出CSV

参考文献(24)

[1]	Fröning H, Nüssle M, Litz H, et al. A case for FPGA based accelerated communication[C]//Proc of the 9th Int Conf on Networks. Piscataway, NJ: IEEE, 2010: 28−33
[2]	Shainer G, Ayoub A, Lui P, et al. The development of Mellanox/NVIDIA GPUDirect over InfiniBand—a new model for GPU to GPU communications[J]. Computer Science Research and Development, 2011, 26: 267−273 doi: 10.1007/s00450-011-0157-1
[3]	Ammendola R, Bernaschi M, Biagioni A, et al. GPU peer-to-peer techniques applied to a cluster interconnect[C]//Proc of 2013 IEEE Int Symp on Parallel & Distributed Processing, Workshops and PhD Forum. Piscataway, NJ: IEEE, 2013: 806−815
[4]	Agostini E, Rossetti D, Potluri S. Offloading communication control logic in GPU accelerated applications[C]//Proc of 17th IEEE/ACM Int Symp on Cluster, Cloud and Grid Computing (CCGRID). Piscataway, NJ: IEEE, 2017: 248−257
[5]	Agostini E, Rossetti D, Potluri S. GPUDirect Async: Exploring GPU synchronous communication techniques for InfiniBand clusters[J]. Journal of Parallel and Distributed Computing, 2018, 114: 28−45 doi: 10.1016/j.jpdc.2017.12.007
[6]	Oden L, Fröning H. GGAS: Global GPU address spaces for efficient communication in heterogeneous clusters[C]//Proc of 2013 IEEE Int Conf on Cluster Computing (CLUSTER). Piscataway, NJ: IEEE, 2013: 1−8
[7]	Oden L, Fröning H. InfiniBand Verbs on GPU: A case study of controlling an InfiniBand network device from the GPU[J]. The International Journal of High Performance Computing Applications, 2017, 31(4): 274−284 doi: 10.1177/1094342015588142
[8]	Daoud F, Watad A, Silberstein M. GPUrdma: GPU-side library for high performance networking from GPU kernels[C]//Procof the 6th Int Workshop on Runtime and Operating Systems for Supercomputers. New York: ACM, 2016: 1−8
[9]	Silberstein M, Kim S, Huh S, et al. GPUnet: Networking abstractions for GPU programs[J]. ACM Transactions on Computer Systems, 2016, 34(3): 1−31
[10]	Balle S M, Tetreault M, Dicecco R. Inter-kernel links for direct inter-FPGA communication[DB/OL]. [2022-10-19]. https://cdrdv2-public.intel.com/650535/wp-01305-inter-kernel-links-for-direct-inter-fpga-communication.pdf.
[11]	Fujita N, Kobayashi R, Yamaguchi Y, et al. Parallel processing on FPGA combining computation and communication in OpenCL programming[C]/Proc of 2019 IEEE Int Parallel and Distributed Processing Symp Workshops (IPDPSW). Piscataway, NJ: IEEE, 2019: 479−488
[12]	Fujita N, Kobayashi R, Yamaguchi Y, et al. Performance evaluation of pipelined communication combined with computation in OpenCL programming on FPGA[C]//Proc of 2020 IEEE Int Parallel and Distributed Processing Symp Workshops (IPDPSW). Piscataway, NJ: IEEE, 2020: 450−459
[13]	Kobayashi R, Fujita N, Yamaguchi Y, et al. GPU-FPGA heterogeneous computing with OpenCL-enabled direct memory access[C]//Proc of 2019 IEEE Int Parallel and Distributed Processing Symp Workshops (IPDPSW). Piscataway, NJ: IEEE, 2019: 489−498
[14]	Kobayashi R, Fujita N, Yamaguchi Y, et al. OpenCL-enabled GPU-FPGA accelerated computing with inter-FPGA communication[C]//Proc of the Int Conf on High Performance Computing in Asia-Pacific Region Workshops. New York: ACM 2020: 17−20
[15]	Burstein I. Nvidia data center processing unit (DPU) architecture[C]//Proc of 2021 IEEE Hot Chips 33 Symp (HCS). Piscataway, NJ: IEEE, 2021: 1−20
[16]	Sundar N, Burres B, Li Y, et al. An in-depth look at the Intel IPU E2000[C]//Proc of 2023 IEEE Int Solid-State Circuits Conf (ISSCC). Piscataway, NJ: IEEE, 2023: 162−164
[17]	Lant J, Navaridas J, Luján M, et al. Toward FPGA-based HPC: Advancing interconnect technologies[J]. IEEE Micro, 2019, 40(1): 25−34
[18]	Mittal R, Shpiner A, Panda A, et al. Revisiting network support for RDMA[C]//Proc of the 2018 Conf of the ACM Special Interest Group on Data Communication. New York: ACM, 2018: 313−326
[19]	Wadekar M. Handbook of Fiber Optic Data Communication[M]//Cambridge, MA: Academic Press, 2013: 267−287
[20]	Jääskeläinen P, de La Lama C S, Schnetter E, et al. PoCL: A performance-portable OpenCL implementation[J]. International Journal of Parallel Programming, 2015, 43: 752−785 doi: 10.1007/s10766-014-0320-y
[21]	Tine B, Yalamarthy K P, Elsabbagh F, et al. Vortex: Extending the RISC-V ISA for GPGPU and 3D-graphics[C]//Proc of the 54th Annual IEEE/ACM Int Symp on Microarchitecture (MICRO-54). New York: ACM, 2021: 754−766
[22]	Elsabbagh F, Tine B, Roshan P, et al. Vortex: OpenCL Compatible RISC-V GPGPU[J]. arXiv preprint, arXiv: 2002.12151, 2020
[23]	Intel OPAE. Open programmable acceleration engine (OPAE) C API programming guide [DB/OL]. [2021-11-08] https://cdrdv2.intel.com/v1/dl/getContent/686262?explicitVersion=true&wapkw=opae.
[24]	曾高雄,胡水海,张骏雪,等. 数据中心网络传输协议综述[J]. 计算机研究与发展, 2020, 57(1): 74−84 Zeng Gaoxiong, Hu Shuihai, Zhang Junxue, et al. Transport protocols for data center networks: A survey[J]. Journal of Computer Research and Development, 2020, 57(1): 74−84 (in Chinese)

施引文献(13)

期刊类型引用(2)

1.	祁磊，任子豪，刘俊汐，耿新. 虚实结合的行人重识别方法. 计算机研究与发展. 2025(02): 418-431 . 本站查看
2.	程思雨，陈莹. 伪标签细化引导的相机感知无监督行人重识别方法. 光电工程. 2023(12): 62-76 . 百度学术