基于数据流架构的NTT蝶式计算加速

石泓博; 范志华; 李文明; 张志远; 穆宇栋; 叶笑春; 安学军

doi:10.7544/issn1000-1239.202550160

基于数据流架构的NTT蝶式计算加速

石泓博^{1, 2,},
范志华^1, ,,
李文明^{1, 2},
张志远^{1, 2},
穆宇栋^{1, 2},
叶笑春^{1, 2},
安学军^{1, 2}

1.
处理器芯片全国重点实验室（中国科学院计算技术研究所）　北京　100190
2.
中国科学院大学计算机科学与技术学院　北京　100049

基金项目:

国家重点科技发展计划（2023YFB4503500）；北京市新星计划（20220484054，20230484420）；北京市自然科学基金项目（L234078）；中国科学院青年创新促进会资助项目

undefined

详细信息

作者简介:
石泓博: 2002年生. 学士. 主要研究方向为数据流架构、高性能计算

范志华: 1996年生. 博士. 助理研究员. 主要研究方向为数据流体系结构、编程模型、可重构体系结构

李文明: 1988年生. 博士. 副研究员. 主要研究方向为高吞吐量处理器体系结构、数据流体系结构、软件仿真

张志远: 2000年生. 博士研究生. 主要研究方向为高性能计算、数据流、可重构架构

穆宇栋: 2001年生. 博士研究生. 主要研究方向为数据流架构、数据流图映射、可重构架构

叶笑春: 1983年生. 博士，研究员. 主要研究方向为高性能计算机体系结构、软件仿真

安学军: 1966年生. 博士. 研究员. 主要研究方向为编程模型、处理器体系结构

通讯作者:
范志华（fanzhihua@ict.ac.cn）

中图分类号: TP183
计量
- 文章访问数: 50
- HTML全文浏览量: 28
- PDF下载量: 22
出版历程
- 收稿日期: 2025-02-28
- 修回日期: 2025-04-07
- 网络出版日期: 2025-04-16
- 刊出日期: 2025-06-01

NTT Butterfly Arithmetic Acceleration Based on Dataflow Architecture

Shi Hongbo^{1, 2,},
Fan Zhihua^1, ,,
Li Wenming^{1, 2},
Zhang Zhiyuan^{1, 2},
Mu Yudong^{1, 2},
Ye Xiaochun^{1, 2},
An Xuejun^{1, 2}

1.
State Key Lab of Processors (Institute of Computing, Chinese Academy of Sciences), Beijing 100190
2.
School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049

Funds:

undefined

This work was supported by the National Key Research and Development Program of China (2023YFB4503500), the Beijing Nova Program (20220484054, 20230484420), the Beijing Natural Science Foundation (L234078), and the CAS Project for Youth Innovation Promotion Association.

More Information

Author Bio:
Shi Hongbo: born in 2002. Bachelor. His main research interests include dataflow architecture and high-performance computing

Fan Zhihua: born in 1996. PhD, assistant professor. His main research interests include dataflow architecture, programming model, and reconfigurable architecture

Li Wenming: born in 1988. PhD, associate professor. His main research interests include high-throughput processor architecture, dataflow architecture, and software simulation

Zhang Zhiyuan: born in 2000. PhD candidate. His main research interests include high-performance computing, dataflow, and reconfigurable architecture

Mu Yudong: born in 2001. PhD candidate. His main research interests include dataflow architecture, dataflow graph mapping, and reconfigurable architecture

Ye Xiaochun: born in 1983. PhD，professor. His main research interests include high-performance computer architecture and software simulation

An Xuejun: born in 1966. PhD，professor. His main research interests include programming model and processor architecture

摘要

摘要:
全同态加密（fully homomorphic encryption，FHE）因其在计算全过程中保持数据加密的能力，为云计算等分布式环境中的隐私保护提供了重要支撑，具有广泛的应用前景. 然而，FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题，导致其在实际应用中的性能严重受限. 其中，快速数论变换（number theoretic transform，NTT）作为FHE中关键的基础算子，其性能对整个系统的效率具有决定性影响. 针对NTT中的核心计算模式——蝶式（butterfly）计算，提出一种基于数据流计算模型的NTT加速架构. 首先，设计面向NTT蝶式计算的RVFHE扩展指令集，定制高效的模乘与模加/模减运算单元，以提升模运算处理效率. 其次，提出一种NTT数据重排方法，并结合结构化的蝶式地址生成策略，以降低跨行列数据交换的控制复杂度与访问冲突. 最后，设计融合数据流驱动机制的NTT加速架构，通过数据依赖触发方式实现高效的片上调度与数据复用，从而充分挖掘操作级并行性. 实验结果表明，与NVIDIA GPU相比，提出的架构获得了8.96倍的性能提升和8.53倍的能效提升；与现有的NTT加速器相比，所提架构获得了1.37倍的性能提升.
- 数据流 /
- 全同态加密 /
- NTT算法 /
- 蝶式计算 /
- RISC-V指令集
Abstract:
Fully homomorphic encryption (FHE), which enables computation on encrypted data without decryption throughout the entire processing flow, offers a promising solution for privacy preservation in cloud computing and other distributed environments. However, the practical deployment of FHE remains significantly constrained by its high computational complexity, poor data locality, and limited parallelism. Among the core operations in FHE, the number theoretic transform (NTT) plays a pivotal role in determining overall system performance. We target the butterfly computation pattern, which is central to the NTT algorithm, and propose a high-efficiency NTT accelerator architecture based on a dataflow computing model. First, we design an RVFHE extension instruction set tailored for NTT butterfly operations, incorporating custom modular multiplication and modular addition/subtraction units to enhance the efficiency of modular arithmetic. Second, we introduce a novel NTT data reordering scheme, combined with a structured butterfly address generation strategy, to reduce the control complexity and access conflicts associated with cross-row and cross-column data exchanges. Finally, we develop a dataflow-driven NTT accelerator architecture that leverages data dependency-triggered execution to enable efficient on-chip scheduling and data reuse, thereby exploiting instruction-level parallelism to the fullest extent. Experimental results demonstrate that, compared with NVIDIA GPU, the proposed architecture achieves up to 8.96 times speedup and 8.53 times improvement in energy efficiency. Furthermore, compared with state-of-the-art dedicated NTT accelerators, our design delivers a 1.37 times performance gain.
- dataflow /
- full homomorphic encryption (FHE) /
- NTT algorithm /
- butterfly computation /
- RISC-V instruction set

HTML全文

作为开源指令集架构的典型代表，RISC-V（reduced instruction set computer-V）自2010年诞生以来，凭借其模块化设计、可扩展性及免授权费等特性^[1]，迅速获得了学术界和产业界的广泛关注. 在2022年，RISC-V处理器累计出货量就已经突破了100亿颗^[2]，预计2025年将达到624亿颗^[3]. RISC-V早期主要应用于嵌入式领域，但近年来其在高性能计算（HPC）领域的潜力逐渐显现，研究人员开始探索和推动它在该领域上的应用^[4-5]. 已有多项研究表明RISC-V在HPC上已具备一定的成熟度：西班牙巴塞罗纳超算中心尝试基于RISC-V指令集设计软硬协同设计的超级计算机^[6]，Monte Cimone^[7]项目建成了第一个完全可运行且支持基础HPC软件栈的RISC-V集群. 产业界也尝试在HPC场景中使用RISC-V处理器. 2019年在阿里云数据中心部署的玄铁910处理器验证了RISC-V在加速特定应用和云计算场景上的可行性^[8]. 2023年发布的Sophon SG2042 64核处理器在计算密集型任务中已展现出与x86/ARM竞品相当的性能水平^[9]. 基于RISC-V的高性能处理器正在高速发展^[9-13].

然而，RISC-V在HPC领域的推广面临显著的软件生态瓶颈^[2]. 尽管主流Linux发行版（Ubuntu，Fedora等）和国产操作系统（麒麟、欧拉、龙蜥等）已提供了基础支持，但在关键应用层（如Docker，Kubernetes）和基础软件（如MongoDB，TiDB）的适配上仍存在明显的滞后^[14-16]，对编译器和常用办公软件的支持也经历了漫长的时间，亟需快速改善软件生态的解决方案^[7-8,17].

上述生态困境源于新架构普遍面临的市场壁垒. ARM架构在移动端和嵌入式市场占据重要地位，x86架构则是个人计算和服务器环境的默认标准，这些成熟架构的市场惯性为RISC-V的进入设置了显著的障碍^[18]，导致开发者不愿意冒着巨大的风险为RISC-V开发应用软件. 而软件生态的缺失又抑制了用户采购和使用的意愿，这2个因素互相制约，甚至产生恶性循环，导致市场份额和软件生态共演化衰退，严重阻碍了RISC-V在HPC领域的发展.

动态二进制翻译（DBT）技术为破解这一困境提供了新思路，可快速实现x86/ARM丰富软件生态向RISC-V平台的移植^[19-25]. 为此，我们开发了进程级的二进制翻译器RVBT，它能将x86应用程序翻译到RISC-V平台执行. RVBT在翻译SPEC CPU 2006的整点测试集时，平均运行效率能达到本地执行的39.04%，显著优于QEMU^[26]的18.84%. 但在浮点测试集上仅能达到本地执行的4.82%，与QEMU处于相当水平，但与其自身在整点测试集上的性能表现相差了8.10倍. 经分析后发现，浮点测试集大量使用SIMD（single instruction multiple data）指令，而RVBT翻译SIMD指令生成的代码运行效率很低，是主要的性能瓶颈. RVBT使用RISC-V的RVV扩展翻译SIMD指令. RVV和SIMD都具备数据级并行的能力，在预期中能实现高效的翻译. 对这一反直觉的现象进行深入分析后，我们观察到3个现象：

1）SIMD扩展和RVV扩展在编程模型上具有显著差异，前者将数据位宽和操作的数据个数编码于操作码中，而后者通过向量类型寄存器（vector type register）vtype寄存器以及掩码寄存器（mask register）动态配置. 频繁设置数据类型的开销非常大，是翻译执行的性能不及预期的一个关键原因.

2）x86使用SIMD的指令和寄存器执行标量浮点运算，而RISC-V则使用独立的浮点扩展实现，这比使用RVV实现更加高效. RVBT将SIMD指令都翻译成了RVV指令，使得x86上的标量浮点运算在RISC-V平台上是使用RVV指令来实现翻译的. 这是翻译执行的性能不及预期的另一个关键原因.

3）代码操作的数据类型具有局部性这一特性未被有效利用. 相临近的SIMD指令处理的数据类型往往是相同的，在翻译这些SIMD指令时使用的vtype和掩码设置是一样的. 利用这一特性可以为RVBT设计优化方案，提高翻译代码质量和运行效率.

基于上述3点观察，本文聚焦于将x86平台上的SIMD指令翻译到RISC-V平台执行的性能瓶颈问题，提出了SetVType，SetMask和SD2Float三项创新的优化方案. SetVType和SetMask通过静态分析代码，找到冗余的vtype和掩码设置操作，并将其删除，以减少指令膨胀，提高翻译的本地码的质量. 以SPEC CPU 2006作为测试集，SetVType对csrr，vsetvl和vsetvli指令的动态消除率分别达到了100%，100%和56.31%，在整点和浮点测试集上，对vsetvli指令的平均动态消除率分别达到了48.88%和62.62%. SetMask主要用于优化浮点运算，在浮点测试集上对掩码设置的平均动态消除率达到了74.66%. SD2Float使用混合翻译策略，将用于双精度标量浮点计算和打包浮点计算的SIMD指令分别翻译成RISC-V标量浮点计算指令和RVV指令，并通过分析x86汇编代码中SIMD寄存器的定值-引用关系，仅按需在浮点寄存器和向量寄存器之间同步数据，减少数据同步操作发生的频率. 在浮点测试集上，将平均静态和动态同步率分别削减到了55.61%和67.35%.

实验表明，上述优化方案能显著提升RVBT的性能. SetVType和SetMask减少了大量冗余的vtype和掩码设置. SD2Float在使用更高效的指令进行翻译的同时，优化了大量数据同步操作. 同时实施上述优化后，以SPEC CPU 2006作为测试集，在全测试集、整点测试集和浮点测试集上，RVBT翻译执行的平均效率可分别达到本地执行的43.05%、47.39%和40.06%，相对优化前的平均加速比分别为3.64、1.21和8.31. 本文的优化方案将浮点操作的翻译运行效率提升到了接近翻译整点操作的水平. 作为对比，QEMU在SPEC CPU 2006全测试集、整点测试集和浮点测试集上的平均运行效率分别为本地的8.64%、18.84%和4.81%. 优化后的RVBT在翻译整点和浮点操作上的性能表现均显著优于QEMU.

综上，本文为RISC-V软件生态建设提供了高效的二进制兼容解决方案，对推动RISC-V开源架构在HPC领域的应用和发展具有重要的实用价值，具体贡献有4点：

1）提出了SetVType和SetMask优化方案，用于消除SIMD指令翻译成RVV指令时冗余的vtype和掩码设置操作，以减小因SIMD和RVV在编程模型上的巨大差异带来的性能开销，显著提升了本地码的质量和翻译执行的效率.

2）提出了SD2Float优化方案，使用RISC-V平台上效率更高的浮点指令来翻译SIMD指令中的标量双精度浮点操作，使用RVV翻译其他浮点操作，并通过静态分析实现了浮点寄存器和向量寄存器之间的按需数据同步. 这种混合的翻译方案提升了翻译浮点操作的效率.

3）以x86-64为源平台，以RISC-V-64为目标平台，实现了3项优化，解决了多个技术挑战，并通过实验验证了这些优化能显著提升SIMD指令的翻译运行效率，特别是浮点操作的翻译运行效率.

4）提出的3项优化在将SIMD指令翻译成RISC-V的RVV指令这一场景中是通用的. 不仅适用于x86到RISC-V平台的翻译，也适用于ARM等平台到RISC-V平台的翻译.

1. 相关背景与动机

1.1 RVBT系统简介

RVBT系统是我们设计实现的一款面向RISC-V平台的动态二进制翻译系统，可将x86-64 Linux平台上的应用程序翻译到RISC-V-64 Linux平台上执行. 所有的动态二进制翻译系统在运行时都是在执行反汇编—翻译—优化—执行这一循环^[27]，RVBT也是如此，其系统架构如图1所示. RVBT首先对x86二进制代码进行反汇编得到IR1，随后对IR1进行分析，为后续的代码翻译和优化生成辅助信息. IR1是x86汇编代码的结构化表示，对IR1中的代码进行逐条翻译后便得到IR2. 开发动态二进制翻译系统的工作量非常大，为了增加软件的可维护性和鲁棒性，系统设计和实现通常遵循软件工程上的模块化设计理念，动态二进制翻译器对每条源平台的指令进行独立翻译，不考虑指令的上下文. 这是二进制翻译器普遍的设计选择，RVBT也遵循这样的设计. IR2是接近RISC-V汇编代码的中间表示，其中也包含我们自定义的指令以及还未进行寄存器分配时的临时寄存器占位符（图1代码中的temp0）. 对IR2进行优化和汇编后即得到可执行的RISC-V本地码.

图 1 RVBT架构

Figure 1. Architecture of RVBT

下载: 全尺寸图片幻灯片

通过上下文切换可实现动态二进制翻译系统的控制器和x86程序的目标平台二进制代码（也称本地码）之间的交替执行，如图1所示. 当控制器获得执行权时，x86程序本地码的执行处于被挂起状态. 此时，二进制翻译系统能对执行过程中新发现的x86代码块进行翻译，也能重新调整此前已经翻译好的本地码. 在这一过程中，翻译器可以对IR1和IR2代码进行分析并实施代码优化. 分析可分为动态分析和静态分析. 其中，静态分析不依赖于x86程序执行，而动态分析则依赖动态收集的x86程序运行状态信息. 比如，在IR1或者IR2上判断前一条指令定值的寄存器是否被后一条指令使用，仅需要进行静态分析即可完成. 判断哪条执行路径是热代码，则需要进行动态分析.

代码分析和优化是在动态二进制翻译系统翻译执行x86程序的过程中进行的. 因此，系统翻译执行x86程序的时间包括动态二进制翻译系统初始化的时间、翻译和优化代码的时间，以及x86程序本地码的运行时间. 代码分析和优化能提升翻译出来的本地码的质量，进而提升性能. 假设完成代码分析和优化本身所需要的时长为t1，Δt为执行优化后的x86程序本地码节省的时间. 当t1<Δt时，意味着代码分析和优化能带来性能提升. 反之，则说明代码分析和优化本身的开销过大，会拖累翻译执行的性能.

为了提升翻译执行的效率，RVBT做了寄存器分配优化，将x86的通用寄存器固定映射到RISC-V的通用寄存器，将SIMD寄存器固定映射到RVV的向量寄存器. 比如，将rax和rcx寄存器分别映射到a7和a3寄存器上，将xmm0和xmm1寄存器分别映射到v8和v10. x86属于CISC（complex instruction set computer）指令集，指令的语义相对复杂，往往需要使用多条RISC-V指令来翻译一条x86指令. 用于保存中间计算结果的RISC-V寄存器被称为临时寄存器. RVBT对临时寄存器进行动态分配，必要时需要将其溢出到内存中暂存. 通用寄存器t3~t6，向量寄存器v0~v6被用作临时寄存器. 同时，在RVV编程模型中，向量寄存器v0还有一个特殊用途，它被用作向量指令的掩码寄存器. 此外，RVBT还实现了标志位运算优化、基本块链接优化等动态二进制翻译器常用的优化技术以提升性能.

1.2 SIMD翻译成RVV的方法

x86的SIMD扩展和RISC-V的RVV扩展具有近似的功能，都具备使用1条指令处理多个数据元素的能力，可实现数据级并行，以加速程序的运行. 但二者的编程模型具有显著差异. SIMD和RVV扩展的寄存器都可以同时容纳多个数据，比如4个32位整数或者2个64位整数，并通过一条指令操作寄存器中的数据. 不同的是，SIMD指令将其操作的数据元素类型（即位宽）编码到了指令操作码中，而RVV指令如何操作寄存器中的数据则通过vtype来控制. 在RVV 0.7.1版本中，vtype的第2到第4个位用于表示向量寄存器中单个数据元素的位宽，也被称为元素位宽sew（standard element width）. 在本文中，设置vtype和设置sew表达相同的含义，为表述方便会交替使用. 当sew被设置为e64时，表示向量寄存器中每个数据元素的位宽是64位；当被设置为e32时，则表示位宽为32位. RVV提供了vsetvli，vsetvl和csrr这3条指令用于操作vtype寄存器. 其中vsetvli指令使用立即数指定sew，而vsetvl则使用寄存器指定sew. csrr指令的作用是将当前的sew状态读取到寄存器中，它与vsetvl配对使用可以实现sew的保存和恢复功能.

如图2所示，对于一次性计算2个64位整数相加和4个32位整数相加这2个加法功能，x86分别使用paddq和paddd指令完成，而RVV都使用vadd. vv指令. RVV通过使用vsetvli设置分别将sew设置为e64和e32，让vadd. vv实现了上述2种向量加法. 体现SIMD和RVV上述不同设计理念的一个现象是，SIMD指令扩展包含的指令数量远多于RVV扩展.

图 2 SIMD和RVV编程模型的差异

Figure 2. Difference between programming models of SIMD and RVV

下载: 全尺寸图片幻灯片

根据SIMD指令操作的数据类型的不同，我们将其分成5类，如表1所示. 其中，SS和SD指令用于标量浮点操作，SS指令只操作xmm寄存器的低32位，而SD指令则只操作xmm寄存器的低64位. RVV通过为指令设置掩码来达到只操作向量寄存器中某一个分量元素的目的. 向量寄存器v0被RVV用作掩码寄存器，它的位宽和其它向量寄存器是一样的. 以图1中IR2的代码为例，其中第3行和第4行将v0的低64位设置为1，高64位设置为0，在sew为e64时，这样的设置让第5行的vfadd. vv仅操作v10和v8的第一个分量元素，即保存于低64位的数据元素. 如果将v0的低64位设置为0，高64位设置为1，则vfadd. vv就只操作v10和v8的第2个分量元素，即高64位. 除了作为掩码寄存器，v0也能像其它向量寄存器一样用于各种算术运算中.

表 1 SIMD指令的分类

Table 1. Classification of SIMD Instructions

指令类型	操作数类型	操作的元素个数	指令示例
SS	标量单精度浮点	1	addss
SD	标量双精度浮点	1	addsd
PS	打包单精度浮点	4	addps
PD	打包双精度浮点	2	addpd
PI	打包整点指令	多个	paddd

下载: 导出CSV

| 显示表格

考虑到RVV指令的功能与SIMD指令有相似之处，RVBT将SIMD指令翻译成RVV指令. 翻译过程可概括为3步：1）设置sew；2）若是翻译SD或SS指令，则设置掩码；3）选择对应语义的RVV指令翻译SIMD指令的语义. 如图1所示，翻译器独立地将每条IR1指令生成对应的IR2指令序列，IR2中的第2~5条指令翻译IR1的第2条指令，IR2中的第6~7条指令翻译IR1的第3条指令.

翻译表1中的5类SIMD指令都需要设置sew，翻译SS，SD指令和部分PD及PS指令时还需要设置掩码. 显然，当SIMD指令操作的元素位宽相同时，sew的设置就是相同的，比如翻译SD，PD类型和操作64位整型的PI指令时，使用的sew都是e64. 当指令只操作向量寄存器的同一个分量元素时，比如都只操作低32位，那么翻译时设置的掩码是相同的. 如图1所示，IR2指令序列中第2条和第6条指令都将sew设置为e64，结合指令上下文分析可知，第6条指令是对sew的冗余设置，可以删去. 设置掩码的操作也存在类似的情况. 设置sew和掩码开销都很大. 执行csrr，vsetvl和vsetvli指令分别需要16，12和2个时钟周期. RISC-V的I型指令和U型指令能分别编码最多12位和20位的立即数. 受此影响，设置不同的掩码值，可能需要不同的指令序列，时间开销也不同，为30~40个时钟周期. 远远大于单独执行1条向量加法指令vfadd. vv所需的0.58个周期.

为了提升翻译执行的效率，本文提出了SetVType和SetMask优化，充分利用数据类型具有局部性这一程序特征，分别消除冗余的sew和掩码设置操作，精简代码，提升本地码的质量.

1.3 标量浮点操作的翻译方法

x86平台可使用浮点栈和SSE指令实现标量浮点操作. 编译器在生成面向现代CPU的代码时，普遍选择使用SSE指令（即表1中的SS和SD指令）以获得更好的性能. 比如使用addsd指令实现2个双精度浮点数相加. 这样一来，x86平台上标量浮点和打包浮点操作就都使用SIMD扩展的指令和寄存器.

在RISC-V平台上，标量浮点操作的实现与x86平台有明显区别. RISC-V有专门的浮点扩展，并专门设计了32个独立的浮点寄存器. 经测试后发现，在RISC-V平台上使用浮点扩展指令实现标量浮点计算比使用RVV指令更加高效. 因此，RISC-V平台上的GCC使用浮点扩展指令来完成标量浮点计算.

RVBT将SIMD指令都翻译成了RVV指令，使得x86上通过SSE指令实现的标量浮点运算被翻译成了RISC-V的RVV指令. 通过实测发现，如果将x86上的标量浮点操作翻译成RISC-V的浮点指令，能获得更高的翻译运行效率，如表2所示. 但如果将SIMD中的打包浮点操作也翻译成RISC-V的浮点指令，则翻译运行效率会下降.

表 2 标量浮点的不同翻译方案所需的时钟周期数

Table 2. Number of Clock Cycles Required for Different Translation Schemes of Scalar Floating-Point

指令	翻向量	翻浮点	翻浮点&同步
mulsd xmm1, xmm2	44.17	0.58	47.74
sqrtsd xmm1, xmm2	61.29	19.08	64.73
subsd xmm1, xmm2	44.15	0.58	46.82
addsd xmm1, xmm2	44.2	0.58	46.78
divsd xmm1, xmm2	62.15	19.09	64.75
maxsd xmm1, xmm2	45.15	0.57	46.73
minsd xmm1, xmm2	45.15	0.59	46.71

下载: 导出CSV

| 显示表格

本文提出SD2Float优化，将SD类型的标量浮点操作翻译成RISC-V的浮点指令，与此同时，其他SIMD指令依然翻译成RVV指令. 这种混合的翻译方式能充分利用RVV数据级并行的特性和浮点扩展高效的标量浮点计算能力. RISC-V的浮点寄存器和向量寄存器是2组独立的寄存器，而在x86平台上，标量浮点和打包浮点运算都使用xmm寄存器. 这就意味着需要在RVV的向量寄存器和浮点扩展的浮点寄存器之间同步数据. 如表2所示，加上数据同步操作之后，就失去了把SD类型的指令翻译成RISC-V的浮点指令的性能优势. 我们观察到，数据类型具有局部性，在一个代码块中，程序往往操作相同的数据类型. 充分利用这一特性就不需要为每一条指令都发射同步指令.

为了实现按需同步，SD2Float优化在IR1上通过静态分析确定SIMD指令之间的定值-引用关系，在翻译过程中仅在需要进行数据同步时才发射数据同步指令.

1.4 研究动机

在x86平台上，SIMD指令被真实世界中的程序广泛使用，特别是在面向HPC场景的应用软件中，比如深度学习算法^[28-29]、大模型推理算法^[30-33]、多媒体应用等. OpenCV^[34]和FFmpeg^[35]等库使用SIMD指令来优化其核心算法，以获得更好的性能表现. 据统计，多媒体应用中25%的指令是SIMD指令^[36]. Gedit，GoogleV8，VisualStudio等9款x86典型应用中，SIMD指令的平均占比为3.1%^[22]. Ubuntu Linux 16.04 APT仓库中，含有二进制程序的包里，99%的包都使用了SIMD扩展指令. SSE是使用最广泛的SIMD扩展指令，在HPC等场景中大量存在. 大部分较为常用的SSE指令操作的都是浮点类型的数据^[37]. 在动态二进制翻译中，浮点操作的翻译普遍性能较低，这限制了该技术的应用场景，是一个核心痛点问题^[38]. 提升SIMD指令的翻译运行效率，能大幅提升翻译浮点操作的性能，扩展翻译器的适用场景，对提升二进制翻译器的实用性非常有价值.

动态二进制翻译技术的演进可追溯至20世纪80年代. 经过几十年的发展，已经有很多翻译器被研发出来，但以RISC-V为目标架构的并不多见. 以QEMU、Box86/64^[39]和DBT-FEMU^[40]为代表的几款翻译器能将x86应用翻译到RISC-V上运行，但没有针对SIMD指令进行优化. DBT-FEMU聚焦在优化整点指令的翻译上，QEMU和Box86/64使用标量指令模拟向量语义，来完成对SIMD指令的翻译. 过往对SIMD指令的翻译优化研究主要聚焦在x86和ARM这2个平台上. 研究方向主要是如何高效利用目标平台上位宽更长的SIMD寄存器资源、如何更好地进行向量化等.

x86上的SIMD和RISC-V平台上的RVV因编程模型的巨大差异导致翻译效率不高这一问题还没有被关注和研究. SIMD是在HPC场景中被广泛使用的性能加速基础设施. RISC-V作为高性能计算领域的新入局者面临软件生态不完善的困境. 研发一款能够高效翻译SIMD指令至RISC-V平台的动态二进制翻译器，对加速RISC-V软件生态的建设与发展具有显著实用价值.

2. 设计优化方案面临的挑战与解决思路

静态消除冗余的sew设置操作的挑战在于消除vsetvl指令对静态数据流分析的阻碍，持续跟踪程序对sew的设置. RVV的vsetvli和vsetvl指令都能修改sew的状态. 区别在于vsetvli对sew的设置编码在立即数中，能直接从代码上读出它会将sew设置为何值. 而vsetvl指令的操作数是寄存器，完整的汇编指令格式是vsetvl rd, rs1, rs2. 该指令执行后，其第2个源操作数rs2中保存的值将被设置为新的sew. 显然，通过静态分析该指令无法直接读出寄存器rs2的值. 因此，vsetvl指令会阻碍静态分析追踪代码对sew的设置过程.

一个直接的方案是进行逆向的数据流分析，回溯该寄存器的定值过程，但这样做开销较大. 本文通过分析vsetvl指令的使用场景，以先验知识确定其寄存器操作数rs2的数值来源于执行路径上前一条vsevli指令，进而高效地将其删除或替换.

静态消除冗余的掩码设置操作的挑战在于定位掩码操作和捕获掩码状态的变化. 静态确定每次掩码设置将掩码寄存器v0修改为何值，是通过静态分析消除冗余的掩码设置的前提. 设置掩码是将立即数传送到向量寄存器v0的过程. 向量寄存器的位宽远超单条RISC-V指令能编码的最大立即数的位宽. 因此设置掩码通常需要使用多条RISC-V指令来完成. 设置不同的掩码值，用到的指令序列是不一样的. 同样的掩码值，也可以通过不同的指令序列来设置. 另外，掩码寄存器v0和其他向量寄存器一样，还被用于各类算术运算. 这意味着要通过静态分析来确定对掩码的设置，需要在众多对v0寄存器进行定值的代码片段中识别出哪些是掩码设置、哪些是普通的算术运算. 这种方案既难以保证精确识别，容易导致正确性问题，还需要进行大量的定值引用分析，开销很大. 如果进行非常保守的分析，则仅能消除少量的掩码设置，对性能提升的帮助很小.

SetMask优化将掩码设置分为伪指令占位、冗余设置删除和掩码设置指令序列发射3个步骤来解决上述问题. 我们在IR2上设计了一条伪指令set_mask，该指令包含2个立即数操作数，分别表示掩码的高64位和低64位. 翻译IR1时，首先使用该伪指令在IR2的指令序列中标记何处需要进行掩码设置，省去了在优化阶段识别掩码设置指令序列的步骤，同时确定掩码值也不再需要对v0进行定值引用分析. 然后将冗余的set_mask伪指令删除. 最后则是将剩余的set_mask伪指令发射成对应的RISC-V指令序列.

SIMD指令的混合翻译方案面临的挑战在于降低浮点寄存器和向量寄存器之间的数据同步开销. x86上标量浮点和打包浮点运算都使用xmm寄存器，而RISC-V的浮点寄存器和向量寄存器是2套独立的寄存器. 为了提升性能，RVBT将x86源平台的寄存器和RISC-V目标平台上的寄存器进行了映射. 在混合翻译方案中，整个xmm将被映射到RVV的向量寄存器，同时，它的低64位将被映射到浮点寄存器. 也就是说，xmm寄存器的低64位被同时映射到了2个RISC-V寄存器上. 当翻译成浮点和翻译成向量的SIMD指令交替出现时，就可能要在浮点和向量寄存器之间进行数据同步才能保证正确性.

以图1中IR1的代码为例，第2条指令执行后，xmm1的低64位被定值了，第3条指令同时使用了xmm1寄存器的高64位和低64位. 在混合翻译方案中，第2条指令被翻译成RISC-V的浮点指令. 假设xmm1的低64位映射到RISC-V的浮点寄存器fa1. 当翻译的本地码执行后，计算结果就保存在了浮点寄存器fa1中. 但xmm1的低64位还被映射到了向量寄存器v10的低64位中，而浮点指令不会更新v10. 此时，浮点寄存器fa1和向量寄存器v10的高64位组合起来表达的才是x86程序的正确执行状态. 后续第3条指令被翻译成RVV向量指令，指令执行时将使用向量寄存器v10的高64位和低64位. 这将引发错误，因为上一条指令的执行结果没有被更新到v10的低64位中. 需要在执行第3条指令的翻译前，先把fa1的值同步到v10的低64位，才能维护x86指令的定值-引用关系. 如果混合翻译里每条指令执行后都进行浮点和向量寄存器之间的数据同步，就无法获得性能上的提升.

SD2Float优化利用程序中数据类型的局部性特征，通过定值引用分析，只进行必要的数据同步，在充分发挥出RISC-V浮点扩展和RVV向量扩展各自性能优势的同时，降低数据同步带来的性能开销，提升翻译执行x86浮点操作的效率.

以较低的性能开销实现静态代码分析和优化是本文3项优化方案面临的共同挑战. 影响动态二进制翻译系统运行效率的一大因素是代码翻译和优化上的开销^[40-41]. 因此，设计优化机制时必须非常谨慎，实施优化操作本身带来的开销必须得到控制，否则优化就难以带来性能提升. 一方面，本文通过控制分析范围减小静态分析的开销，以翻译块（translation block，TB）为SetVType和SetMask优化的分析单元和以函数内的执行路径为SD2Float优化的分析单元. 这3项优化都利用了程序数据类型具有局部性这一特征，持续扩大分析范围带来的性能增益是递减的，同时会增大静态分析的开销. 另一方面，本文通过翻译器运行机制上的先验知识来减少对静态数据流分析的依赖，比如根据vsetvl指令的使用场景，设计低开销的指令消除和转换算法，以及用自定义的伪指令标记掩码设置操作，从而避免进行代码模式分析和匹配.

3. 优化方案的设计与实现

3.1 SetVType优化方案的设计与实现

SetVType优化在IR2上以TB为单元实施优化. 通过对IR2进行静态代码分析，完成3个关键操作：1）消除csrr和vsetvl指令；2）如果一条vsetvli指令直接支配的所有指令都是不受sew影响的指令，则删除该vsetvli指令；3）删除冗余设置sew的vsetvli指令. 指令A直接支配（immediately dominant）指令B，是指指令A支配指令B，且A与B之间的控制流上不存在其他的A指令. 将静态代码分析控制在单个TB中，能降低分析的复杂度，尽可能减小静态分析带来的性能开销. IR1上TB的控制流结构简单，具有单入单出的特点. 将IR1的一个TB翻译成IR2后，控制流中可能存在分支跳转，比如IR2使用分支跳转指令来翻译IR1中的条件设置（conditional set）指令. 但在IR2中，TB的控制流依然是相对简单的，相当比例的TB依然是没有分支的.

为了尽可能多地消除vsetvli指令，SetVType优化首先对阻碍分析的csrr和vsetvl指令进行删除或替换. RVBT使用csrr和vsetvl指令对的目的只有1个，先用csrr指令保存sew的状态，然后使用vsetvli指令修改sew，最后使用vsetvl指令恢复先前保存的sew. 出于模块化设计，RVBT将设置掩码以及从内存中加载数据等公共操作封装成API函数，供所有编写翻译函数的开发人员使用. 在软件工程和软件设计角度，这些API函数不应该感知调用点的上下文. 当它要进行向量操作时，需要完成如下操作序列：使用csrr指令保存调用者的sew → 使用vsetvli指令设置新sew → 完成向量操作 → 恢复调用者的sew. 这样就能让API的使用者不必关心调用API后向量执行环境是否发生了改变. 在RVBT发射的本地码中，csrr和vsetvl指令总是成对出现的.

RVBT在翻译每一条SIMD指令时，都使用vsetvli指令为其设置对应的sew. 这就意味着每一对csrr-vsetvl都必然和一条vsetvli指令关联. 这条vsetvli指令可能出现在csrr-vsetvl指令对之前，也可能在它之后，这取决于翻译函数的开发人员是如何排布指令顺序的. 我们设计了算法1用于消除csrr和vsetvl指令. 当一个TB中存在不被vsetvli指令支配的csrr-vsetvl指令对时，我们直接将其删除. 对于该TB来说，这是一次无效的sew保存和恢复操作. 如果一条vsetvli直接支配了一个csrr-vsetvl指令对，则删除csrr指令，并使用该vsetvli指令替换vsetvl指令. vsetvli直接支配一个csrr-vsetvl指令对，意味着该vsetvli指令和该csrr-vsetvl指令对之间不存在其他vsetvli指令. 替换vsetvl的目的有2个. 一是为后续消除vsetvli指令做准备. 二是执行vsetvli的开销要远小于vsetvl. 执行vsetvli指令需要2个时钟周期，而vsetvl则需要12个时钟周期，相差5倍. 即使后续优化无法删除用于替换vsetvl的vsetvli指令，也能获得性能上的提升.

算法1. csrr-vsetvl指令对消除算法.

输入：待优化的TB；

输出：无.

① procedure convert_vsetvl (TB&tb)；

②　foreach csrr-vsetvl pair in tb do

③　　vli←get the immediate dominant vsetvli of 　　 the pair；

④　　delete csrr；

⑤　　if vli is not null then

⑥　　　replace vsetvl with vli；

⑦　　else

⑧　　　delete vsetvl；

⑨　　end if

⑩　end for

⑪ end procedure

RVV中每条指令的执行都依赖于sew. 但有的指令在不同的sew下执行结果是一样的，表3列出了3类执行结果不受sew影响的指令. 这意味着如果被一条vsetvli直接支配的所有指令都是不受sew影响的，该vsetvli指令可以被删除. 我们使用算法2来实现这一操作.

表 3 不受sew影响的指令类

Table 3. Instruction Categories Not Unaffected by sew

类型	指令功能	指令示例
Ⅰ	仅操作标量	add a0, a1, a2
Ⅱ	向量寄存器间数据移动	vmv.vv v2, v3, v4
Ⅲ	向量位操作	vxor.vv v2, v3, v4

下载: 导出CSV

| 显示表格

算法2. 无效的sew设置删除算法.

输入：待优化的TB；

输出：无.

① procedure del_useless_vli (TB&tb)；

②　foreach vsetvli instruction vli in tb do

③　　L←get inst list L immediately dominanted by 　　vli；

④　　if all inst in L are sew unaffected isntrctions 　　then

⑤　　　delete vli；

⑥　　end if

⑦　end for

⑧ end procedure

通过上述2项操作后，IR2上与sew设置相关的指令就只剩下vsetvli了. 此时，通过分析该指令的操作数就能获得每一处对sew的设置将其调整到的状态. SetVType使用前向数据流分析来确定哪些vsetvli指令可以被删除，数据流方程见式（1）~（4），在SetMask优化中，也将使用这套数据流方程进行静态分析. 在SetVType优化中，使用这组数据流方程分析TB内的所有vsetvli指令，在SetMask优化中则分析set_mask伪指令. 处理每条vsetvli指令前，要判断在该指令之前，对sew的既往设置是否依然可用. 若既往的sew设置是不可用的，则说明该vsetvli指令必须被保留. 若既往的设置依然可用，则需要比较该vsetvli指令设置的sew与既往设置的sew是否一致. 如果是一致的，则说明该vsetvli指令的设置是冗余的，可以被删除，否则应该被保留.

${ S tate }_{\rm in }({ entry } )=\phi \text{，}$

(1)

${ S tate }_{\rm in }(S)=\bigcap_{S'\in {pred}(S)} { S tate }_{\rm out }(S')\text{，}$

(2)

${ S tate }_{\rm out }(S)={Gen}(S)\cup({ S tate }_{\rm in }(S)-{ Kill}(S))\text{，}$

(3)

${S tate}_{\mathrm{in}}(S) \stackrel{?}= {S tate}_{\rm {out}}(S).$

(4)

删除冗余vsetvli指令的实现如算法3所示. RVBT的翻译器在生成IR2时，如果代码中的控制流含有分支，则一定会生成label来标记分支跳转指令的目标. 若在遍历TB的指令时遇到了label，说明下一条指令是跳转指令的跳转目标. 此时，根据式（2）获取各个前驱中直接支配当前label的vsetvli指令对sew的设置情况. 当label处没有可用的sew设置时，通过算法3的行⑮标记无可用的sew状态. 每当分析到vsetvli指令时，都根据式（4）判断该指令能否被消除，对应算法3的行⑤~⑦伪代码.

算法3. 冗余sew设置消除算法.

输入：待优化的TB；

输出：无.

① procedure del_repetitive_vli (TB&tb)；

②　pre_sew ← −1；

③　foreach inst in tb do

④　　if inst is vsetvli (sew) then

⑤　　　if sew == pre_sew then

⑥　　　　delete inst；

⑦　　　else

⑧　　　　pre_sew ← sew；

⑨　　　end if

⑩　　end if

⑪　　if inst is label then

⑫　　　if inst’s immediate pred sews are the same 　　　then

⑬　　　　pre_sew ← pred sew；

⑭　　　else

⑮　　　　pre_sew ← −1；

⑯　　　end if

⑰　　end if

⑱　end for

⑲ end procedure

经过SetVType的3步优化操作，IR2上不再含有开销很大的csrr和vsetvl指令，同时大量的vsetvli指令也被消除.

3.2 SetMask优化方案的设计与实现

SetMask优化将翻译过程中的掩码设置分成伪指令占位、冗余设置删除和掩码设置指令序列发射3个阶段实现. 在基线版RVBT的设计中，翻译函数在将IR1翻译成IR2的过程中，设置掩码的操作会被立即发射成IR2的指令序列. 优化的第1阶段是SetMask优化提供了用于占位的伪指令set_mask. 在翻译IR1时，如果进行掩码值已知的掩码设置，则通过发射一条set_mask (hi, lo)伪指令进行占位，其中hi和lo是2个立即数，分别表示掩码的高64位和低64位. 如果一个TB中发射了set_mask伪指令，那么该TB在动态分配临时寄存器时就不会考虑v0，避免给后续的静态分析带来干扰，同时也保证删除冗余的掩码设置后，程序不会因为v0寄存器被其他操作再次定值而运行出错.

在翻译IR1的过程中有2类掩码设置. 一类是静态可确定掩码值的设置，比如翻译addsd指令时需要将掩码高64位设置为0，低64位设置为1. 另一类是静态不确定掩码值的设置，比如在翻译x86指令vblendvpd时就会遇到这类情况. 该指令的语义是根据第1个操作数各个数据元素的最高位是否为1，来决定是从第2个还是从第3个操作数中选择对应的数据元素存入目的操作数中. 指令vblendvpd的翻译如图3所示，第4行代码是设置掩码寄存器v0，但掩码的值是通过将v8中的元素右移63位得到，静态是未知的. 这种情况不能发射set_mask伪指令进行占位，必须即刻发射设置对应掩码的RISC-V指令. 在第2阶段的静态分析中，我们将对这种情况进行保守处理，认为掩码设置的数据流无法被继续跟踪下去.

图 3 掩码值静态未知的掩码设置

Figure 3. Mask setting with unknown mask value in static

下载: 全尺寸图片幻灯片

优化的第2阶段是借助静态数据流分析来删除IR2上冗余的掩码设置. 为实现轻量级的静态分析，降低分析开销，我们以TB为单元进行分析并删除冗余的掩码设置. 数据流分析过程中使用的数据流方程与SetVType优化类似，见式（1）~（4）. 不同之处在于分析的指令由vsetvli变为set_mask伪指令. 算法4实现了第2阶段的数据流分析和冗余设置删除过程，其中行④~⑦伪代码用于处理掩码值未知的掩码设置.

算法4. 冗余掩码设置消除算法.

输入：待优化的TB；

输出：无.

① procedure del_repetitive_mask (TB&tb)；

②　pre_mask ← (−1, −1)；

③　foreach inst in tb do

④　　if register v0 is defined by inst then

⑤　　　pre_mask ← (−1, −1)；

⑥　　　continue；

⑦　　end if

⑧　　if inst is a set_mask (mask) pseudo-inst then

⑨　　　if mask == pre_mask then

⑩　　　　delete inst；

⑪　　　else

⑫　　　　pre_mask ← mask；

⑬　　　　emit (mask)；

⑭　　　end if

⑮　　end if

⑯　　if inst is a label then

⑰　　　if inst’s immediate pred masks are the same 　　　then

⑱　　　　pre_mask ← inst’s pred mask；

⑲　　　else

⑳　　　　pre_mask ← (−1, −1)；

㉑　　　end if

㉒　　end if

㉓　end for

㉔ end procedure

优化的第3阶段实现在emit (mask)函数中，该函数在算法4的行⑬被调用，用于为无法删除的掩码设置伪指令set_mask发射RISC-V指令序列. 受RISC-V指令能直接编码的立即数的最大位宽限制，设置掩码通常需要使用一组指令来完成. 这个设置可以概括为一个通用的指令序列模版，即加载立即数设置掩码值的一部分比特位，进行位移操作，继续加载立即数，并与此前设置好的比特位结合，反复上述操作数次，直到掩码值的所有比特位都被设置好. 我们对5个常用的掩码值的设置进行了定制优化，以能获得更好的性能，如图4所示.

图 4 掩码设置的定制指令序列和通用模版指令序列性能对比

Figure 4. Performance comparison between custom instruction sequence and general template instruction sequence for mask settings

下载: 全尺寸图片幻灯片

SetMask优化能删除大量冗余的掩码设置，提升本地码质量，从而提升翻译执行的效率.

3.3 SD2Float优化方案的设计与实现

面向现代CPU的x86代码中，标量浮点和打包浮点计算都是使用SIMD指令实现的. SD2Float优化旨在将x86的双精度标量浮点操作（即表1中SD类型的指令）翻译为RISC-V的浮点操作，将其他浮点操作翻译成RVV向量操作. 这种混合的翻译方法能充分利用RISC-V浮点扩展和RVV扩展各自的性能优势. 在消除不必要的数据同步后能提升翻译执行的效率.

SD2Float优化提供的混合翻译机制由分析阶段和翻译阶段组成. 在分析阶段，通过在IR1上分析浮点操作相关的SIMD指令对所有xmm寄存器的定值-引用关系，为这些指令生成数据同步的信息. 在随后的翻译阶段，翻译器的翻译函数根据分析阶段提供的信息按需发射数据同步的指令，在浮点寄存器和向量寄存器之间进行数据同步.

我们将浮点操作相关的SIMD指令分为2类：一类会被翻译为RISC-V浮点指令，称为sfp指令；另一类会被翻译为RVV向量指令，称为svec指令. 在图5所示的IR1代码中，addsd指令是sfp指令，addpd则是svec指令. 触发RISC-V浮点和向量寄存器之间发生数据同步的条件是，一类指令对xmm寄存器低64位的定值被另一类指令引用了. 数据同步的方向取决于定值操作是由哪一类指令完成的. 若sfp指令的定值被svec指令引用，则数据从浮点寄存器同步到向量寄存器的低64位，即sync_fp_to_vec操作. 反之，则从向量寄存器的低64位同步到浮点寄存器，即sync_vec_to_fp操作.

图 5 sfp、svec混合序列翻译示例

Figure 5. Example for sfp, svec mixed sequence translation

下载: 全尺寸图片幻灯片

根据指令类型和语义，把对xmm的定值行为分为3类：高64位向量定值（vec_def_hi）、低64位向量定值（vec_def_lo）和低64位浮点定值（fp_def_lo）. 对xmm的引用行为也可以分为3类：高64位向量引用（vec_use_hi）、低64位向量引用（vec_use_lo）和低64位浮点引用（fp_use_lo）. 执行sfp指令可能发生fp_def_lo和fp_use_lo操作，而执行svec指令则可能发生vec_def_hi、vec_def_lo、vec_use_hi和vec_use_lo操作. 当vec_def_lo操作产生的定值被fp_use_lo操作引用时，将触发sync_vec_to_fp数据同步，当fp_def_lo操作产生的定值被vec_use_lo操作引用时，将触发sync_fp_to_vec数据同步.

以图5所示的IR1代码为例，第2行代码中sfp指令（addsd）定值了xmm3低64位，即发生了fp_def_lo. 第4行代码中的svec指令（addpd）引用了xmm3，即发生了vec_use_lo和vec_use_hi. 但是翻译第2行代码时不需要发射数据同步指令，因为第2行sfp指令的定值被其后的第3行代码注销了. 而第3行代码对xmm3的fp_def_lo操作定值了xmm3的低64位，且在第4行被svec指令的vec_use_lo操作引用了. 所以，翻译第3行代码时需要发射RISC-V浮点寄存器向向量寄存器同步数据的指令，即IR2上的第4行伪代码sync_fp_to_vec(fa3, v14). 同理，在翻译IR1的第5行代码时，则需要进行另一个方向的数据同步.

为了实现上述按需同步数据的方案，我们设计了算法5，在IR1上对16个xmm寄存器发起后向数据流分析，该分析和活跃变量分析的过程类似. 分析过程中，算法5为IR1每一条SIMD指令记录下将来翻译它时是否需要发射数据同步指令以及数据同步的方向，对应行⑱~㉓. 算法将动态维护一张名为xmm_recent_use的表，该表被现实为TB类的成员变量，包含16行，每一行对应一个xmm寄存器. 它记录了算法分析到当前的程序点上时，在其后续控制流上各个xmm寄存器是否存在vec_use_hi、vec_use_lo和fp_use_lo操作. 算法每分析一条指令都对xmm_recent_use进行更新，更新时遵循式（5）所示的数据流转换方程，对应行㉔和行㉖.

算法5. 按需同步数据的分析算法.

说明：TB. xmm_recent_use的所有域在创建时全被初始化为1，TB的is_analyzing和is_analyzed域被初始化为false，inst. sync_to_fp和inst. sync_to_vec都被初始化为0.

输入：待分析的TB；

输出：tb. xmm_recent_use.

① procedure sync_analysis (TB&tb)；

②　if tb. is_analyzing then

③　　return tb. xmm_recent_use

④　end if

⑤　if tb. is_analyzed then

⑥　　return tb. xmm_recent_use；

⑦　end if

⑧　tb. is_analyzing ← true；

⑨　all succ_use fileds ← 0；

⑩　foreach succ in tb’s succ tbs do

⑪　　succ_use ∪= sync_analysis(succ)；/*recursive 　　call*/

⑫　end for

⑬　tb. xmm_recent_use ← succ_use；

⑭　inst ← tb. tail；

⑮　while inst in tb do

⑯　　foreach opnd in inst’s all xmm oprands do

⑰　　　if opnd is dest oprand then

⑱　　　　if need sync to fp then

⑲　　　　　inst. sync_to_fp ← 1；

⑳　　　　end if

㉑　　　　if need sync to vec then

㉒　　　　　inst. sync_to_vec ← 1；

㉓　　　　end if

㉔　　　　kill tb. xmm_recent_use[opnd]；

㉕　　　end if

㉖　　　update tb. xmm_recent_use[opnd]；

㉗　　end for

㉘　　inst ← inst. pre；

㉙　end while

㉚　tb. is_analyzing ← false, tb. is_analyzed ← true；

㉛　return tb. xmm_recent_use；

㉜ end procedure

SD2Float按需同步数据的分析将单次分析限定在函数内的可达路径范围内，跨TB的数据流分析遵循式（6）和式（7）所描述的数据流方程，实现如算法5行⑩~⑬伪代码所示. 这样的设计选择是为了让分析更加轻量化，同时，尽可能避免为了维护正确性进行保守处理而引入不必要的数据同步操作. 按需的数据同步策略需要考虑性能和正确性2个因素. 在正确性方面，缺少了必要的数据同步会导致程序运行出错. 性能方面，数据同步次数越少，静态分析复杂度越低，则越有利于提升性能. 在到达分析范围的边界时，如果无法确定一个定值是否在后续的控制流中被引用，就需要保守处理，默认它会被引用. 以图5为例，如果以TB为分析单位，那么翻译IR1的第7行代码时，需要将数据从xmm4映射的RVV向量寄存器v16同步到其映射的浮点寄存器fa4上. 因为仅分析TB内的代码，无法确定第7行发生的vec_def_lo的定值是否会在后续的控制流中被fp_use_lo操作引用，只能保守地认为需要数据同步. 这样会导致过多不必要的数据同步而拖累性能.

${IN}[i]=u s e[i] \cup({OUT}[i]-{def}[i])\text{，}$

(5)

${ OUT}[B]=\bigcup_{s\in {succ}(B)}{ IN}[s]\text{，}$

(6)

${ IN}[B]=u s e_{B} \cup\left({ OUT}[B]-{def}_{B}\right).$

(7)

如果从起始TB出发，将能发现的代码都纳入一次分析中，则分析的开销过大，特别是程序的启动会变得更加缓慢. 数据同步能够被避免，是因为数据类型具有局部性. 代码中出现连续的sfp指令或svec指令时，数据同步将显著减少. 从这点上来看，分析范围的持续扩大，并不能稳步提升数据同步操作的消除数量，进而难以持续带来性能上的增益.

将单次分析限定在函数内的一条可达路径范围内，意味着我们需要处理成环的路径、函数调用和函数返回3种情况. 相当于处理3种代码边界. 当发现成环的路径时，说明对代码的探索来到了这一次逆向数据流分析的起点，此时我们保守地认为，在该程序点上，所有xmm寄存器都同时被vec_use_hi、vec_use_lo和fp_use_lo三个操作引用. 处理方式如算法5的行③所示，因为TB类在初始化时将其xmm_recent_use的所有域都初始化为1，所以直接将xmm_recent_use返回即可. 在处理函数调用和函数返回方面，我们借助System-V的调用约定进行保守处理，即认为call指令对xmm0-xmm7有vec_use_hi，vec_use_lo的引用以及ret指令对xmm0-xmm1有vec_use_hi，vec_use_lo的引用.

4. 实验评估

本文提出和实现的3项性能优化方案旨在提升动态二进制翻译器RVBT在翻译执行包含大量SIMD指令的x86应用时的运行效率，让其成为一个面向RISC-V平台的高性能动态二进制翻译器.

我们将在RISC-V平台上运行开启所有优化后的RVBT，并翻译执行测试集的x86-64版本可执行文件来统计运行时间. 通过与RISC-V原生版测试集的运行时间对比，获得RVBT相对本地执行的运行效率. 这能一定程度上反映优化后的RVBT是否有潜力成为一个高性能的动态二进制翻译器. 同时，我们还将之与QEMU、未加优化的基线版本RVBT进行横向性能对比，以评估本文提出的优化方法带来的性能提升.

我们还将评估各项优化独立开启对RVBT性能提升带来的贡献. 对于SetVType优化，我们统计了csrr、vsetvl以及vsetvli指令的静态和动态消除率，以评估其消除冗余sew设置的能力. 对于SetMask优化，我们统计了掩码设置操作的静态和动态消除率. 式（8）（9）定义了某个操作的静态和动态消除率是如何计算的. 对于SD2Float优化，我们统计了静态和动态同步率，计算式见式（10）（11），以反映混合翻译中数据同步发生的频率，评估分析算法的能力. 其中，op是掩码设置和sew设置等操作的简写.

$\begin{split} & op的静态消除率=\\ &\quad\quad\frac{优化前发射op的次数-优化后发射op的次数}{优化前发射op的次数}\text{，} \end{split}$

(8)

$\begin{split} &op的动态消除率=\\ &\quad\quad \frac{优化前执行op的次数-优化后执行op的次数}{优化前执行op的次数} \text{，} \end{split}$

(9)

$静态同步率=\frac{翻译时发射同步操作的次数}{翻译{\rm sfp}类型指令的次数}\text{，}$

(10)

$动态同步率=\frac{动态执行同步操作的次数}{动态执行{\rm sfp}类型指令本地码的次数}.$

(11)

4.1 实验设置与测试集介绍

我们使用SPEC CPU 2006基准测试集评估RVBT的正确性和性能. 先在x86-64服务器上使用GCC 7.5.5编译测试集以得到测试集在x86-64源平台上动态链接的可执行文件. 为了让编译器在指令选择过程中进行自动向量化，尽可能多地使用SIMD指令，编译时使用-O3编译优化选项. 在64位的RISC-V实验平台上，使用系统自带的GCC 13.1.1编译器，同样采用-O3编译优化选项编译测试集，得到动态链接的目标平台原生可执行文件. 通过分别运行基线版本的RVBT、优化后的RVBT和QEMU来翻译执行源平台测试用例，以及直接运行目标平台原生测试用例，对比它们的执行时间，以评估RVBT的性能表现，以及各项优化方案对RVBT性能提升的贡献.

正确性是二进制翻译器的基础验证指标. SPEC CPU 2006测试集使用了C、C++和Fortran三种编程语言，代码量非常大，包含了丰富的语言特性和语法现象. 其测试用例是真实世界的大型复杂应用程序，比如编译器（gcc）、语音识别程序（sphinx3）等，涵盖了多种典型应用场景，非常具有代表性. SPEC CPU 2006测试集提供了运行测试用例的脚本，以及各个测试用例正确运行后的标准输出结果. 用户使用脚本运行测试用例后，脚本会自动地将测试用例该次的运行结果与标准输出进行对比，以验证测试用例的运行是否正确. 若测试用例运行正确，脚本将给出其运行时间. 因此，SPEC CPU 2006测试集可用于评估RVBT系统的正确性和性能. 若RVBT能正确翻译执行SPEC CPU 2006测试集，则很大程度上说明本文的翻译方法和优化方法是正确的.

QEMU是最具代表性的开源二进制翻译器之一. 在翻译SIMD指令上，它选择了和RVBT不同的技术路线，即使用目标平台的标量指令模拟源平台的SIMD指令. 而RVBT则使用RISC-V平台上同样具有单指令多数据流功能的向量扩展来翻译SIMD指令. QEMU的一大设计目标是支持多平台，但更高的翻译运行效率也同样是其核心追求，它在TCG-IR上进行了各种优化以生成更高质量的本地码，进而提升性能. 本文所提翻译器与QEMU进行横向对比的目的在于评估RVBT的基线性能水平，并以RVBT的基线性能作为基准，评估本文提出的优化方案. 这样能更加客观地评估优化方案带来的性能提升效果. 同时，优化后的RVBT与QEMU的性能对比也在一定程度上展示了2种翻译SIMD指令的技术路线在性能上的差异，体现了RISC-V向量扩展在提升SIMD指令翻译效率上的潜力.

在测试时，我们使用QEMU最新的稳定版本9.0.0，并基于Capstone 5.0.3库对测试集进行反汇编和分析. 在运行SPEC CPU 2006的所有测试用例时均采用ref输入集. 该输入集是被SPEC认证的用于发布正式测试结果的输入集. 相比于test和train输入集，ref输入集的数据规模最大，能覆盖测试用例中的极端分支，适合压力测试，在获得更稳定且客观的性能数据的同时，也能充分地测试RVBT的正确性.

本文的RISC-V实验平台为Milk-V Pioneer主机. 该主机搭载的Sophon SG2042 CPU是一款基于平头哥C920的高性能RISC-V处理器，它支持RISC-V v0.7.1版本的向量扩展（即RVV 0.7.1），拥有128 GB内存，其详细硬件配置如表4所示. 主机上运行了RISC-V 64位版本的Fedora 38 发行版操作系统，使用Linux 6.1.31内核. 实验的系统软硬件栈如图6所示.

表 4 实验平台硬件配置

Table 4. Hardware Configurations of Experiment Platform

硬件	配置
CPU	Sophon SG2042 核心数：64核主频：2 GHz L1d Cache：64 KB L1i Cache：64 KB L2 Cache：1MB/Cluster L3 Cache：64 MB System Cache 向量扩展：RVV 0.7.1
内存	128 GB DDR4 RAM

下载: 导出CSV

| 显示表格

图 6 实验平台软硬件栈

Figure 6. Software and hardware stack of experiment platform

下载: 全尺寸图片幻灯片

4.2 正确性与性能评估

经实验验证，RVBT在本文的实验平台上正确翻译执行了x86-64平台上SPEC CPU 2006测试集. 考虑到该测试集包含了真实世界的大型复杂应用程序，对它的支持验证了RVBT系统的正确性.

RVBT在开启本文提出的所有优化后，性能得到了显著提升，在SPEC CPU 2006测试集上，运行效率平均可达到本地性能的43.05%，如图7所示. 未开启优化的RVBT基线版本运行效率平均只达到本地性能的11.81%，而QEMU的运行效率更低，平均仅有本地性能的8.64%. 优化后的RVBT相对其基线版本的平均加速比为3.64，相对QEMU的平均加速比为4.98.

图 7 全优化的RVBT与基线RVBT及QEMU的性能表现

Figure 7. Performance of full optimized RVBT, baseline RVBT and QEMU

下载: 全尺寸图片幻灯片

本文的优化方案在SPEC CPU 2006浮点测试集上获得了更为显著的性能提升. 如图7所示，在浮点测试集上，RVBT的运行效率平均可达到本地性能的40.06%，翻译执行433.milc，437.leslie3d，450.soplex，459.GemsFDTD和470.lbm等5个测试用例的运行效率都超过了本地性能的50%. 而未施加本文优化的RVBT基线版本的平均运行效率只有本地性能的4.82%. QEMU的平均运行效率和RVBT基线版本相当，仅为本地性能的4.81%. 在SPEC CPU 2006浮点测试集上，开启所有优化后的RVBT相对其基线性能的最大加速比、最小加速比和平均加速比分别为24.17，2.61，8.31，相对QEMU的最大加速比、最小加速比和平均加速比分别为17.74，4.69，8.33.

在整点测试集上，本文提出的优化方案也能获得可观的性能提升. 如图7所示，在整点测试集上，RVBT的运行效率平均可达到本地性能的47.39%. RVBT基线版本的平均运行效率为本地性能的39.04%，而QEMU的平均运行效率仅为本地性能的18.84%. 在整点测试集上，开启所有优化后的RVBT相对RVBT基线性能的平均加速比为1.21，相对QEMU的平均加速比为2.52. 开启优化的RVBT和QEMU翻译运行429.mcf都获得了最高的运行的效率，RVBT可以达到本地性能的97.90%，而QEMU只能达到本地性能的40.14%. RVBT仅在翻译400.perlbench、445.gobmk和458.sjeng这3个测试用例时效率低于本地性能30%，翻译其他的9个测试用例的效率均高于本地性能30%. 而QEMU仅翻译429.mcf、456.hmmer、462.libquantum和473.astar这4个测试用例的效率高于本地性能的30%.

翻译浮点操作的运行效率低下是跨指令集的动态二进制翻译器普遍面临的挑战之一，这严重阻碍了该技术用于翻译运行人工智能、科学计算、图形系统和多媒体等含有密集浮点操作的应用程序^[38]. 基线版本的RVBT翻译浮点测试集的效率比其翻译整点测试集慢了8.10倍，而在开启本文提出的3项优化方案后，只慢1.18倍. 作为对比，QEMU翻译浮点测试集的效率比其翻译整点测试集慢了3.91倍. 本文提出的优化方案有效提升了翻译浮点操作的运行效率，有助于拓宽动态二进制翻译器的应用场景. 经过优化后，RVBT在性能上全面超越了QEMU，相比其优化前的基线版本，性能也有大幅提升，充分说明了本文提出的3项优化方案的有效性.

各项优化单独开启的RVBT以及QEMU相对RVBT基线的加速比如图8所示. 可观察到2个现象：1）在整点测试集上，3项优化带来的性能提升都相对有限，在浮点测试集上，3项优化都能带来显著的性能提升；2）SetVType优化带来的性能提升最为明显. 这和测试集上的指令构成以及各项优化本身的特点有关.

图 8 各项优化单独开启的RVBT及QEMU相对于RVBT基线的性能表现

Figure 8. Performance of RVBT with each optimized individual turn-on and QEMU are compared with RVBT baseline

下载: 全尺寸图片幻灯片

我们对测试集的x86-64源平台测试用例进行反汇编，并统计了各个测试用例中SIMD指令的占比，如图9所示. 在SPEC CPU 2006整个测试集中，SIMD指令的平均占比为9.68%. 但SIMD指令在整点测试集和浮点测试集中的占比差异非常大. 其中，在整点测试集中的平均占比仅为3.31%，而在浮点测试集中的占比高达21.62%，二者相差了6.53倍. 这解释了为什么本文提出的优化方案在浮点测试集上获得了更显著的性能提升. 另外，3项优化方案中，只有SetVType优化对所有的SIMD指令都具有优化效果，所以单独开启时对性能提升最为显著.

图 9 SPEC CPU 2006测试程序中SIMD指令的静态占比

Figure 9. Static proportion of SIMD instructions in SPEC CPU 2006 test program

下载: 全尺寸图片幻灯片

4.3 各优化方案的效果分析

4.3.1 SetVType优化效果分析

单独开启SetVType优化后，RVBT在SPEC CPU 2006测试集上的运行效率可达到本地性能的36.29%，相对于RVBT基线和QEMU基线的平均加速比分别为3.07和4.2，对csrr、vsetvl和vsetvli指令的动态消除率分别达到了100%，100%和56.31%.

翻译函数将SS、SD、PS、PD和PI类型的SIMD指令翻译成RISC-V向量指令时，均需要设置vtype寄存器. 因此，SetVType优化对所有类型的SIMD指令的翻译均具有优化效果.

在整点测试集上，虽然SIMD指令占比较低，但开启优化后依然能获得一定的性能提升，让RVBT的运行效率达到本地性能的47.21%，相对RVBT基线和QEMU基线的平均加速比分别为1.21和2.51.

在浮点测试集上，SetVType优化可以大幅提升RVBT的性能，让其运行效率达到本地性能的29.79%，相对RVBT基线的最小加速比、最大加速比和平均加速比分别为2.38，10.42和6.18. 翻译执行437.leslie3d的运行效率相比RVBT基线提高了8.48倍，达到了本地性能的91.16%. 与QEMU相比，获得的最小加速比、最大加速比和平均加速比分别为4.01、12.98、6.19.

我们统计了优化开启后vsetvli、vsetvl和csrr指令的静态消除率和动态消除率. 经过SetVType优化后，vsetvl和csrr指令在测试集的所有测试用例中均被完全消除，静态消除率和动态消除率都是100%. 经实验测定，执行vsetvl和csrr指令需要28个时钟周期，而执行一条向量加法指令只需要0.58个时钟周期. 所以，消除冗余的vsetvl和csrr指令非常有必要.

在整点测试集上，vsetvli的平均静态消除率和平均动态消除率分别为44.20%和48.88%，在浮点测试集上分别为51.72%和62.62%，如图10所示. 动态指令消除率与性能提升的幅度是正相关的. 这一定程度上解释了为什么SetVType优化在浮点测试集上能获得比整点测试集更大的性能提升.

图 10 SetVType优化的动静态指令消除率

Figure 10. Dynamic and static instruction eliminate rates of SetVType optimization

下载: 全尺寸图片幻灯片

4.3.2 SetMask优化效果分析

单独开启SetMask优化后，RVBT在SPEC CPU 2006浮点测试集上获得了性能提升，相对RVBT基线平均加速比为1.76. 该优化能消除冗余的掩码寄存器设置指令序列. 对掩码寄存器的设置主要是在翻译SS和SD类型指令时引入的. 浮点基准测试集中包含大量的这2种指令，平均占比达到了15.33%，在470.lbm上甚至达到了46.73%. 实施SetMask优化后，掩码设置操作的静态和动态的平均消除率分别为85.73%和74.66%，如图11所示. 翻译执行浮点测试集时，在掩码设置操作被大量消除后，性能获得了明显的提升.

图 11 SetMask优化的动静态指令消除率

Figure 11. Dynamic and static instruction eliminate rates of SetMask optimization

下载: 全尺寸图片幻灯片

在整点测试集上，SetMask是否开启对性能几乎没有影响. 在整点基准测试集的指令中，SS和SD类型的指令占比非常小，平均占比仅为1.07%. 尽管SetMask优化在整点测试集上对掩码设置的静态和动态的平均消除率达到了55.87%和18.33%，但受限于可优化的指令总体量太小，没有带来性能提升. 得益于该优化很小的分析开销，RVBT开启该优化后，在整点测试集上也几乎没有观察到性能下降的现象.

4.3.3 SD2Float优化效果分析

单独开启SD2Float优化后，RVBT可以在SPEC CPU 2006浮点测试集上获得较大的性能提升，相对RVBT基线的平均加速比为2.27. SD2Float优化针对的是SD类型的SIMD指令. 该类型的指令在整点测试集上的平均占比仅为0.57%，体量太小，使得SD2Float优化在整点测试集上平均仅能获得2%的性能提升. 在整个测试集上对RVBT基线的平均加速比为1.61.

SD2Float优化能提升RVBT运行效率的关键在于降低了寄存器之间的数据同步频率. 我们使用静态和动态同步率来反映SD2Float优化中的数据同步频率，它们的定义如式（10）和式（11）所示. 在浮点测试集中，SD2Float优化平均的静态同步率和动态同步率分别为55.61%和67.35%，如图12所示. 动态同步率最低的基准测试用例是454.calculix，仅为13.66%，说明本文的按需数据同步算法有效降低了数据同步频率. 在整点测试集，静态和动态的同步率都要高出许多. 但整点测试集中浮点操作相关的指令占比非常少，高同步率下引入的同步指令执行次数相比于总的指令执行次数而言，绝对数量也就非常小，所以对性能的影响很小.

图 12 SD2Float优化的动静态同步率

Figure 12. Dynamic and static synchronization rates of SD2Float optimization

下载: 全尺寸图片幻灯片

在整点测试集中，有个别测试用例的动态同步率非常高. 产生高动态同步率的原因是同步指令被发射在一个循环内，而引发同步的SD指令在循环外. 如图13所示，图13（a）是一段C语言代码，图13（b）是其对应的x86-64汇编代码，其中图13（a）的第8和第9行代码对应图13（b）的第9行汇编代码，图13（a）中的第11行代码对应图13（b）的第12行汇编代码. 图13（b）被RVBT翻译成了图13（c）所示的RISC-V汇编代码. 在分析图13（b）的第9行代码时，SD2Float优化的数据同步算法发现addpd指令定义了xmm1寄存器的低64位，同时第14行的addsd指令使用了该寄存器的低64位，即第9行代码对xmm1的定义被第14行代码引用了. 由于addpd和addsd指令分别被翻译成了RISC-V的向量指令和浮点指令. 所以，在将addpd指令翻译成vfaddd指令后，还必须将映射xmm1的向量寄存器v8中的值同步到浮点寄存器fa1中，如图13（c）的第9和第10两行代码所示. 当图13（c）的代码执行时，同步指令位于循环中，将执行100次，而引起同步的指令addsd在循环外，只执行1次，动态同步率为10000%. 在上述例子中，若将同步指令放到循环结构之外，就能大幅降低数据同步的开销. 这有赖于循环结构的分析识别和优化，不在本文的探讨范围之内.

图 13 高同步率代码片段示例

Figure 13. Example for high synchronization rate code segment

下载: 全尺寸图片幻灯片

5. 讨　　论

本文针对SIMD指令跨架构翻译为向量指令面临的编程模型适配问题，基于程序局部性特征提出了3项优化方案，并将它们实现在x86到RISC-V平台的动态二进制翻译器中. 这3项优化方案是架构无关的，具备跨架构的适应性. 不同架构处理器的SIMD扩展具有较大的差异. 在跨架构的二进制翻译中，若源平台的SIMD扩展是将其指令操作的数据元素类型和个数硬编码到指令操作码中，且目标平台的向量扩展是动态配置其指令操作的数据元素类型和个数，则适用本文的SetVType和SetMask优化. 若标量浮点操作和SIMD操作在源平台共用一套寄存器，而在目标平台使用2套独立的寄存器，则适用本文的SD2Float优化. 将ARM平台的NEON指令翻译为RISC-V的向量指令是适用本文3项优化方案的一个典型例子.

QEMU使用目标平台的标量指令模拟源平台的SIMD指令. 已经有相关研究通过在QEMU中添加向量TCG-IR，以实现对目标平台上单指令多数据流硬件资源的利用，进而提升翻译性能^[42-44]. 本文提出的3项优化方案和这些研究的方案是正交的. 若翻译的源平台和目标平台符合本文优化方案的适用条件，则可将本文的优化方案应用到QEMU中. 其他选择将源平台SIMD指令翻译为目标平台向量指令的二进制翻译器，也可使用本文提出的优化方案.

6. 相关工作

二进制翻译技术能将一种体系结构的二进制代码转换成另一种体系结构的二进制代码，实现在二进制层面进行跨平台软件迁移^[19-20]，可以用于遗产代码迁移和实现不同架构之间的软件通用^[21,23-24]. 早在上世纪90年代，微软公司就已经推出了商业用的二进制翻译器FX!32^[45]. 随着新硬件架构的不断推出，二进制翻译技术被广泛用于将成熟架构上的软件移植到新架构上运行，以迅速弥补新架构上的软件生态空缺.

经过多年的发展，已经有大量的二进制翻译器被开发出来^[22]. 但支持以RISC-V作为目标平台的动态二进制翻译器还比较少见，以QEMU，Box86/64^[39]和DBT-FEMU^[40]为代表的翻译器能将x86代码翻译到RISC-V平台，其中QEMU和Box86/64是开源的. 这3款翻译器的侧重点不同，QEMU追求多平台，首先将源平台的二进制程序翻译成其中间表示TCG-IR，在对中间表示进行优化后再将其转换成目标平台的代码. 通过增加一层平台无关的TCG-IR，QEMU在多源平台和多目标平台支持上具有优势，但因为使用内存模拟目标平台的寄存器以及使用标量指令模拟SIMD指令的语义等原因，QEMU翻译质量较低^[40]且性能较差^[46]. Box86/64支持以ARM和RISC-V作为目标平台，对x86程序进行动态二进制翻译. 它主要依赖函数库本地化技术来提升性能，通过直接使用RISC-V原生的glibc等动态库，减少翻译执行的代码量^[22]，同时通过JIT引擎提升性能^[2]. DBT-FEMU主要利用了RISC-V的B扩展和P扩展对整点操作的翻译进行优化，在SPEC CPU 2006测试集的整点测试集上，平均翻译效率能达到本地性能的33.54%. 和上述支持RISC-V平台的翻译器相比，RVBT在性能上表现得非常有竞争力.

动态二进制翻译系统普遍面临性能瓶颈，特别是在跨指令集架构进行翻译时容易发生性能衰减，且源架构和目标架构的差异越大，性能下降越明显^[27,47]. 而性能是跨指令集的动态二进制翻译系统取得成功的关键因素^[48]，因此有大量关于提升翻译性能的研究. 源架构与目标架构之间的差异会导致翻译出来的本地码出现严重的指令膨胀^[2,27]. 因此，一个重要的优化方向是消除冗余操作，比如标志位优化^[2,25,49-51]遵循的就是这一思想，通过程序分析等技术消除冗余的标志位设置，缓解代码膨胀问题. RVBT在将SIMD指令翻译成RVV指令时，也观察到了指令膨胀的现象. 本文的一个重点优化方向是利用程序中数据类型的局部性特征消除冗余的sew和掩码设置，缓解因SIMD与RVV在编程模型上的显著差异导致的指令膨胀问题. 优化方案的指导思想都是消除冗余操作，但解决的问题不一样. 同时，RVBT中也集成了上述部分标志位优化技术.

不同平台上的SIMD扩展在设计和实现上呈现持续分化的趋势^[52]，普遍存在差异，这为跨平台的SIMD指令翻译带来了挑战^[53]. 过往对SIMD指令的翻译优化研究主要聚焦在x86和ARM这2个平台上，集中在x86-x86^[54-55]、ARM-x86^[52,56-57]以及ARM-ARM^{[42,48,58-61]}的翻译中，早期也有研究探索x86到Itanium（IA64）上的SIMD翻译优化^[62]. 主要研究如何充分利用目标平台上的SIMD计算资源来提升性能，比如动态向量化等. 而x86上的SIMD和RISC-V平台上的RVV因编程模型的巨大差异导致翻译效率不高这一问题还没有被关注和研究.

SIMD技术在不断发展，新推出的SIMD硬件具有更强大的计算能力. 但面向旧SIMD硬件的遗产代码往往无法利用新硬件来提升性能. 同架构上SIMD指令的翻译优化主要是为了让遗产代码能充分利用新平台上更加强大的SIMD硬件资源，比如利用新平台上位宽更长的寄存器，优化技术包括循环信息重建、动态向量化等^[54-55,58].

跨架构SIMD翻译优化的核心思想是充分利用目标平台上的SIMD资源，弥合跨平台SIMD的语义鸿沟，比如在目标平台上寻找语义与源平台接近的指令进行翻译^[59-60,63]，探索更好的寄存器映射^[62]和分配方案，以及动态向量化^[64-66]等优化思路. Li 等人^[62]在将x86程序翻译到Itanium平台时研究了在目标平台寄存器支持的数据类型比源平台寄存器支持的更少时，如何将1个源平台寄存器映射到多个目标平台寄存器. 文献[48, 52, 54−55, 61] 研究了在目标平台寄存器位宽比源平台的更长时，如何通过更好的寄存器分配和指令合并等方法获得更好的性能. Wu等人^[56]还研究了将ARM的通用寄存器映射到x86的xmm寄存器上，以提升翻译性能. 还有一类研究先将源平台代码转成LLVM IR，通过LLVM的编译优化来选择目标平台的SIMD指令，达到使用目标平台SIMD进行加速的目的^{[46,57,59,67]}. 针对QEMU使用标量指令模拟SIMD指令语义，文献 [42−44]设计了向量 TCG-IR 来表示 SIMD 指令，并改进翻译SIMD的helper函数，文献[68]则将TCG-IR转成LLVM IR.

本文充分利用目标平台上同样具备数据级并行功能的RISC-V RVV扩展来翻译x86的SIMD指令，强调对目标平台上硬件资源的充分利用. 同时，通过冗余操作消除和混合翻译，弥合2个平台在编程模型上的语义鸿沟，实现性能提升.

二进制翻译在处理浮点操作时普遍性能较低，提升性能的方法一般是使用目标平台的浮点计算单元替代软件模拟的翻译^[38]. 文献[47]通过动态的浮点寄存器分配来提升性能，文献[69]则针对x86的浮点栈提出了扩展虚拟栈（extending virtual stack）处理方案，让源平台的浮点寄存器可以直接映射到目标平台的浮点寄存器中. 本文使用了混合的翻译方法，同时使用RISC-V的RVV扩展和浮点扩展来翻译SIMD中的浮点运算操作，即使用RISC-V的浮点扩展翻译双精度标量浮点运算，使用RVV扩展翻译打包浮点运算等其他浮点操作，并通过静态分析实现按需的数据同步以提升翻译运行的效率.

7. 结　　论

RISC-V在HPC领域的崛起面临软件生态滞后的关键挑战，而动态二进制翻译技术为跨架构移植x86/ARM成熟的软件生态提供了高效路径. 本文揭示了SIMD指令翻译至RVV时遭遇性能瓶颈的根源在于两者在编程模型上存在显著差异. 针对这一问题，本文提出了3项创新的优化方案，充分利用代码操作的数据类型具有局部性这一特点，通过消除翻译过程中的冗余操作，降低混合翻译浮点操作所需的数据同步频率，系统性地提升了SIMD到RVV的翻译效率. 特别是将翻译浮点操作的效率提升到了接近翻译整点操作的水平. 这为RISC-V在HPC场景的软件生态突破提供了一种可能的解决方案. 实验显示，经过本文优化后，翻译器获得了显著的性能提升，翻译运行SPEC CPU 2006的整点测试集和浮点测试集时，平均运行效率分别达到了本地性能的47.39%和40.06%，远超QEMU的18.84%和4.81%. 相对优化前的加速比分别达到了1.21和8.31，相对QEMU的加速比则分别达到了2.52和8.33.

作者贡献声明：赖远明是论文工作的主要完成人，提出、设计和实现了本文的3项优化方案，并分析实验结果，撰写和修改论文；李亚龙和胡瀚之参与了优化方案的编码实现，运行了部分实验；谢梦瑶对优化方案的实现细节提出了改进建议；王喆对优化方案的设计提出了建议，并修改论文；武成岗为论文的撰写提供了建议和指导.

图 1 FHE应用场景

Figure 1. Application scenario of FHE

下载: 全尺寸图片幻灯片

图 2 蝶式计算过程

Figure 2. Butterfly computation process

下载: 全尺寸图片幻灯片

图 3 模运算时间占比分析图

Figure 3. Time proportion analysis diagram for modular operation

下载: 全尺寸图片幻灯片

图 4 组合模运算器数据通路示意图

Figure 4. Schematic diagram of the data path of the combined modulo operator

下载: 全尺寸图片幻灯片

图 5 数据重洗流程

Figure 5. Data reordering process

下载: 全尺寸图片幻灯片

图 6 计算单元的取数映射关系

注：A是行的个数，B是列的个数.

Figure 6. Data access mapping relationship of the computing unit

下载: 全尺寸图片幻灯片

图 7 RVFHE数据流架构

Figure 7. Dataflow architecture of RVFHE

下载: 全尺寸图片幻灯片

图 8 地址匹配器映射关系图

Figure 8. Mapping relationship diagram of address matcher

下载: 全尺寸图片幻灯片

图 9 消融实验

Figure 9. Aablation experiments

下载: 全尺寸图片幻灯片

图 10 计算时间对比图

Figure 10. Comparison chart of the time for calculating

下载: 全尺寸图片幻灯片

图 11 FFT性能收益

Figure 11. Performance gain of FFT

下载: 全尺寸图片幻灯片

图 12 能效优化分析图

Figure 12. Analysis diagram of energy efficiency optimization

下载: 全尺寸图片幻灯片

表 1 硬件加速架构的特点

Table 1 Features of Hardware Accelerated Architecture

硬件加速架构	计算平台	特点
TensorFHE^[14]	GPU	最大化数据复用并减少片外数据移动
cuHE^[17]	GPU	多GPU配置
HEAX^[18]	FPGA	层次化内存设计
F1^[21]	ASIC	可编程FHE、无界计算
CraterLake^[22]	ASIC	硬件架构、功能单元、算法和编译器技术
本文架构		针对NTT蝶式计算进行优化

下载: 导出CSV

表 2 RVFHE扩展指令集

Table 2 RVFHE Extended Instruction Set

指令	Funct7[31:25]	Rs2[24:20]	Rs1[19:15]	Funct3[14:12]	Rd[11:7]	Opcode[6:0]
数据预取（LDP）	0		数据地址	输入数据大小	目的寄存器	0x2a
模加（MADD）	0	操作数1	操作数0	0	操作数2	0x2b
模减（MSUB）	1	操作数1	操作数0	0	操作数2	0x2b
模乘（MMUL）	2	操作数1	操作数0	0	操作数2	0x2b
数据传输（COPY）	0	源计算核	待传输数据	输入数据大小	目的计算核	0x2c

下载: 导出CSV

表 3 数据流加速架构参数设置

Table 3 Parameter Configuration of Dataflow Acceleration Architecture

模块	配置信息
计算核	16 KB指令缓存、144 KB数据缓存、1 GHz、SIMD32、 1 TOPS（INT32）
片上网络	2D Mesh、1套核间通信网络、1套控制网络、1套访存网络
片上存储	SPM、Ping-Pong、3 MB
访存带宽	32.00 GB/s

下载: 导出CSV

表 4 模加/减器和模乘器面积

Table 4 Areas of Modulo Adder/Subtracter and Modulo Multiplier

单元名称	组合逻辑面积/nm²	缓冲器和反相器面积/nm²	非组合逻辑面积/nm²	总面积/ nm²
模加/减	4 646.52	356.66	1 270.70	5 917.23
模乘	117 720.76	13 063.68	5 353.21	123 160.23

下载: 导出CSV

表 5 模加/减器和模乘器能耗

Table 5 Energy Consumption of Modulo Adder/Subtracter and Modulo Multiplier

单元名称	部件名称	短路功耗/ mW	翻转功耗/ mW	漏电功耗/ mW	总功耗/ mW	占比/ %
模加/减	寄存器	0.032	0.120	0.001	0.154	42.7
	组合逻辑	0.080	0.0929	0.034	0.206	57.3
	总功耗	0.113	0.213	0.035	0.360	100
模乘	时钟网络	0.002	0.001	0.001	0.003	0.05
	寄存器	0.148	0.147	0.022	0.317	4.27
	组合逻辑	2.859	2.826	1.424	7.109	95.68
	总功耗	3.009	2.974	1.447	7.430	100

下载: 导出CSV

表 6 RVFHE扩展部分的面积与功耗

Table 6 Area and Power Overhead of RVFHE Extended Part

组成部分		面积/mm²（占比）	功耗/mW（占比）
RVFHE扩展	计算单元	0.125(54.97%)	21.92(45.73%)
	控制单元	0.033(14.60%)	2.69(5.62%)
	指令存储	0.015(6.62%)	1.73(3.60%)
	数据存储	0.054(23.84%)	21.59(45.05%)
	总和	0.227	47.93
阵列扩展总和		3.63(57.71%)	766(51.56%)
片上网络		1.13(17.92%)	194(13.07%)
数据缓存		1.10(17.56%)	400(26.94%)
配置缓存		0.16(2.51%)	82(5.50%)
DMA		0.27(4.30%)	44(2.93%)
总和		6.29	1486

下载: 导出CSV

参考文献(35)

[1]	Gentry C. A fully homomorphic encryption scheme[D]. Palo Alto, CA: Stanford University, 2009
[2]	Feldmann A, Samardzic N, Krastev A, et al. An architecture to accelerate computation on encrypted data[J]. IEEE Micro, 2022, 42(4): 59−68 doi: 10.1109/MM.2022.3170792
[3]	Gentry C. Fully homomorphic encryption using ideal lattices[C]//Proc of Symp on the Theory of Computing. New York: ACM, 2009: 169−178
[4]	Smart N, Vercauteren F. Fully homomorphic encryption with relatively small key and ciphertext sizes[C]//Proc of Public Key Cryptography–PKC 2010. Berlin: Springer, 2010: 420−443
[5]	Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) Fully homomorphic encryption without bootstrapping[J]. ACM Transactions on Computation Theory-Special Issue on Innovations in Theoretical Computer Science 2012- Part II, 2014, 6(3): 1−36
[6]	Bos J, Lauter K, Loftus J, et al. Improved security for a ring-based fully homomorphic encryption scheme[C]//Proc of Cryptography and Coding. IMACC 2013. Berlin: Springer, 2013: 45−64
[7]	Brakerski Z. Fully homomorphic encryption without modulus switching from classical GapSVP[C]//Advances in Cryptology–CRYPTO 2012. Berlin: Springer, 2012: 868−886
[8]	Gentry C, Halevi S. Implementing Gentry’s fully-homomorphic encryption scheme[C]//Advances in Cryptology–EUROCRYPT 2011. EUROCRYPT 2011. Berlin: Springer, 2011: 129−148
[9]	Erlingsson L, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response[C]//Proc of ACM Conf on Computer and Communications Security (CCS). New York: ACM, 2014: 1054-1067
[10]	Gentry C. Computing arbitrary functions of encrypted data[J]. Communications of ACM, 2010, 53(3): 97−105 doi: 10.1145/1666420.1666444
[11]	Gentry C, Halevi S, Smart N. Fully homomorphic encryption with polylog overhead[C]//Proc of Annual Int Conf on the Theory and Applications of Cryptographic Techniques. Berlin: Springer, 2012: 465–482
[12]	Gentry C, Sahai A, Waters B. Homomorphic encryption from learning with errors: Conceptually-simpler, asymptotically-faster, attribute-based[C]//Advances in Cryptology–CRYPTO 2013. Berlin: Springer, 2013: 75−92
[13]	Cheon J, Kim A, Kim M, et al. Homomorphic encryption for arithmetic of approximate numbers[C]//Advances in Cryptology–ASIACRYPT 2017. Berlin: Springer, 2017: 409−437
[14]	Fan Shengyu, Wang Zhiwei, Xu Weizhi, et al. TensorFHE: Achieving practical computation on encrypted data using GPGPU[C]//Proc of 2023 IEEE Int Symp on High-Performance Computer Architecture (HPCA). Piscataway, NJ: IEEE, 2023: 922−934
[15]	Akleylek S, Özgur D, Zaliha Y. On the efficiency of polynomial multiplication for lattice-based cryptography on GPUs using CUDA[C]//Proc of Int Conf on Cryptography and Information Security in the Balkans. Berlin: Springer, 2015: 155−168
[16]	Badawi A, Veeravalli B, Mun C, et al. High performance FV somewhat homomorphic encryption on GPUs: An implementation using CUDA[J]. Transactions on Cryptographic Hardware and Embedded Systems, 2018(2): 70−95
[17]	Dai W, Sunar B. cuHE: A homomorphic encryption accelerator library[C]//Proc of Cryptography and Information Security in the Balkans (BalkanCryptSec 2015). Berlin: Springer, 2015: 169−186
[18]	Riazi M, Laine K, Pelton B, et al. HEAX: An architecture for computing on encrypted data[C]//Proc of the 25th Int Conf on Architectural Support for Programming Languages and Operating Systems. New York: ACM, 2020: 1295−1309
[19]	Roy S, Turan F, Jarvinen K, et al. FPGA-based high-performance parallel architecture for homomorphic computing on encrypted data[C]//Proc of 2019 IEEE Int Symp on High Performance Computer Architecture (HPCA), Piscataway, NJ: IEEE, 2019: 387−398
[20]	Pöppelmann T, Naehrig M, Putnam A, et al. Accelerating homomorphic evaluation on reconfigurable hardware[C]//Proc of Cryptographic Hardware and Embedded Systems (CHES 2015). Berlin: Springer, 2015: 143−163
[21]	Feldmann A, Samardzic N, Krastev A. F1: A fast and programmable accelerator for fully homomorphic encryption[C]//Proc of the 54th Annual IEEE/ACM Int Symp on Microarchitecture (MICRO 2021). New York: ACM, 2021: 238−252
[22]	Samardzic N, Feldmann A, Krastev A. CraterLake: A hardware accelerator for efficient unbounded computation on encrypted data[C]//Proc of Int Symp on Computer Architecture. New York : ACM, 2022: 173−187
[23]	Karabulut E, Aysu A. RANTT: A RISC-V architecture extension for the number theoretic transform[C]//Proc of the 30th Int Conf on Field-Programmable Logic and Applications (FPL). New York : ACM, 2020: 26−32
[24]	Paludo R, Sousa L. NTT architecture for a Linux-ready RISC-V fully-homomorphic encryption accelerator[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2022, 69(7): 2669−2682 doi: 10.1109/TCSI.2022.3166550
[25]	Lu Zhaojun, Yu Weizong, Xu Peng, et al. An NTT/INTT accelerator with ultra-high throughput and area efficiency for FHE[C]//Proc of the 61st ACM/IEEE Design Automation Conf (DAC’24). Association for Computing Machinery. New York: ACM, 2024: 1−6
[26]	Dennis J B. First version of a dataflow procedure language[C]//Proc of Programming Symp. Berlin: Springer, 1974, 19: 362−376
[27]	Dijk M, Gentry C, Halevi S, et al. Fully homomorphic encryption over the integers[C]//Proc of Int Conf on Theory & Applications of Cryptographic Techniques. Berlin: Springer, 2010: 24−43
[28]	Gentry C, Halevi S. Implementing Gentry’s fully-homomorphic encryption scheme[C]//Advances in Cryptology–EUROCRYPT 2011. Berlin: Springer, 2011: 129−148
[29]	Krendelev S, Tormasov A. Method for protecting data used in cloud computing with homomorphic encryption: US10116437B1 [P]. 2018-10-30
[30]	Zhang Y, Dai W, Jiang X, et al. FORESEE: Fully outsourced secure genome study based on homomorphic encryption[J/OL]. BMC Medical Informatics & Decision Making, 2015[2025-03-01]. http://doi.org/10.1186/1472-6947-15-s5-s5
[31]	Lagendijk R, Erkin Z, Barni M, Encrypted signal processing for privacy protection: Conveying the utility of homomorphic encryption and multiparty computation[J]. IEEE Signal Processing Magazine, 2013, 30(1): 82−105
[32]	Gentry C, Halevi S, Smart N P. Homomorphic evaluation of the AES circuit[C]//Advances in Cryptology–CRYPTO 2012. Berlin: Springer, 2012: 850−867
[33]	Asanović K, Avižienis R, Bachrach J, et al. The rocket chip generator[R]. Berkeley: University of California, 2016: 1−11
[34]	Ye Xiaochun, Fan Dongrui, Sun Ninghui, et al. SimICT: A fast and flexible framework for performance and power evaluation of large-scale architecture[C]//Proc of the Int Symp on Low Power Electronics and Design (ISLPED). New York: ACM, 2013: 273−278
[35]	Fan Zhihua, Li Wenming, Tang Shengzhong, et al. Improving utilization of dataflow architectures through software and hardware co-design[C]//Proc of Parallel Processing (Euro-Par 2023). Berlin: Springer, 2023: 245−259