• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

2025年  第62卷  第6期

栏目
高性能计算与智能计算专题
高性能计算系统
摘要:

大规模语言模型参数量呈指数级增长趋势,对加速卡算力密度与通信效率提出更高要求,推动单卡多芯粒、多芯片及多通信实体等新型架构的快速发展. 申威智能加速卡采用4个核组片上环网架构,但在大模型训练中,数据通信量大和卡内传统Ring集合通信方式面临单核组显存容量与传输带宽双重限制、卡内集合通信效率低、通信计算无法重叠等核心瓶颈. 采用软硬协同设计理念提出SW-IntraCC(Sunway-intra collective communication)的优化框架,通过三级存储架构突破上述限制. 首先,基于片上高速环网构建三级存储架构,单核组显存容量最高扩大至4倍,主机-加速卡传输带宽提升2.5倍;其次,设计采用交叉共享访存的片内高效CSC(cross shared communication)通信算法,实现面向大模型训练的典型通信算子CSC-AG(CSC-AllGather)和CSC-RS(CSC-ReduceScatter),通信效率是传统方式的2.15倍;最后,提出双向算子融合的通信计算重叠方法,实现通信与计算重叠,优化后通信性能提升59%.

摘要:

精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法. 仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化. 提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上.

摘要:

随着大规模人工智能应用的普及与发展,工业界和学术界对于人工智能算力的需求逐渐提升,结合了异构计算技术与缓存一致性技术的异构一致性融合计算系统逐渐成为未来构建智算中心的重要解决方案. 然而,由于异构计算和一致性互连技术尚不成熟,现有工作难以实现对该系统进行性能建模,导致研究者无法以低成本完成异构一致性融合计算系统的建设方案评估、计算性能预测以及系统优化方法评测等工作. 提出了一种面向异构一致性融合计算系统的性能建模工具HCSim,解决了现有建模仿真研究中对该系统拓扑架构建模困难、对一致性系统中工作负载建模不准确等问题,为研究者提供了一个可灵活建模、评估互连拓扑与AI计算任务的低成本、高效建模仿真工具. 利用HCSim,建模了千卡互连的异构一致性融合计算系统,并在该系统上模拟了LLAMA2-13B大语言模型(large language model,LLM)的数据并行分布式训练任务,探究了异构算力分布、带宽、时延和任务规模等变量对系统性能与任务执行效率的影响. 进一步地,针对异构一致性融合计算系统的通信问题,设计了相应的优化方案,并利用HCSim进行了效果验证. 仿真结果说明HCSim不仅能够满足异构一致性融合计算系统的性能建模需求,同时也可以被应用于评估、验证异构一致性融合计算系统的优化方案.

摘要:

具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变. 然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长. 针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障, 提出一种大模型弹性容错系统Resilio来提供高效自动的恢复机制. 基于模型训练的并行策略与硬件的存储层次特点,Resilio通过多层次优化检查点读写操作和即时检查点保存机制,对于千亿规模参数模型,可以将端到端故障恢复时间缩短至10 min以内,模型中断后的重新训练时间缩短至单次训练迭代时间. 当集群资源弹性变化时,Resilio能够快速准确地获取大模型训练最优并行策略配置,与容错调度组件共同确保系统的自适应能力,弹性调度训练资源用以提升作业的训练效率和集群GPU资源利用率.

智能计算
摘要:

在边缘智能计算系统中使用边缘工作节点训练深度学习推荐模型(deep learning recommendation model,DLRM)具有诸多优势,尤其是在数据隐私保护、低延迟和个性化推荐等方面. 然而,由于嵌入表的规模庞大,在训练DLRM时通常采用1个或多个参数服务器来维护全局嵌入表,同时利用多个边缘节点缓存嵌入表的一部分. 在此架构下,需要在边缘节点和参数服务器间传输嵌入以保证嵌入数据一致性,嵌入传输代价通常主导了训练周期. 目标旨在研究边缘智能计算系统中,当面对异构网络和资源受限等挑战时,如何将嵌入样本调度到合适的边缘节点上进行训练,以最小化总嵌入传输代价. 为此,提出了一个基于预期嵌入传输代价的嵌入样本调度机制ESD. 在ESD中,设计了一个结合资源密集型最优解法和启发式解法的调度决策方法HybridDis,以实现决策质量和资源消耗之间的平衡. 使用C++和Python实现了ESD的原型系统,并在真实工作负载下将其与现有最先进的机制进行比较. 大量实验结果表明,ESD可将嵌入传输代价至多降低36.76%,并且在端到端DLRM训练速度上实现了最高1.74倍的加速.

摘要:

传统联邦学习在应用中面临设备异构、数据异构、通信资源约束等挑战. 终端设备异构导致训练过程中过低的协作效率,而数据异构所包括的数据量和数据特征分布异构则导致全局模型精度损失以及模型缺少泛化性. 为了有效利用终端的计算、通信以及数据资源,提出了一种自适应优化的分层联邦学习方法. 该方法在考虑设备硬件资源约束、通信资源约束以及数据非独立同分布(Non-IID)特性下,结合模型分割和客户端选择技术加速联邦学习训练,提高模型准确率以及其在不同异构环境下的适应性. 为了反映各客户端数据对全局模型的一致性影响,引入数据贡献度以度量本地模型对全局模型的影响. 通过深度强化学习方法,在每一轮训练前智能体根据系统的资源分布以及本地数据贡献度来学习如何选择合理的训练客户端集合及相应边端协同模型划分方案,以加速本地训练及全局模型收敛. 仿真结果表明,与基线方法相比,所提算法在模型准确率与训练效率2个方面均表现出显著优势,且在不同异构环境配置下显示出良好的鲁棒性及适应性.

编译与调度优化
摘要:

稀疏线性方程组求解等高性能计算应用常常涉及稀疏矩阵向量乘(SpMV)序列AxA2x, …, Asx的计算. 上述SpMV序列操作又称为稀疏矩阵幂函数(matrix power kernel,MPK). 由于MPK执行多次SpMV且稀疏矩阵保持不变,在缓存(cache)中重用稀疏矩阵,可避免每次执行SpMV均从主存加载A,从而缓解SpMV访存受限问题,提升MPK性能. 但缓存数据重用会导致相邻SpMV操作之间的数据依赖,现有MPK优化多针对单次SpMV调用,或在实现数据重用时引入过多额外开销. 提出了缓存感知的MPK(cache-aware MPK,Ca-MPK),基于稀疏矩阵的依赖图,设计了体系结构感知的递归划分方法,将依赖图划分为适合缓存大小的子图/子矩阵,通过构建分割子图解耦数据依赖,根据特定顺序在子矩阵上调度执行SpMV,实现缓存数据重用. 测试结果表明,Ca-MPK相对于Intel OneMKL库和最新MPK实现,平均性能提升分别多达约1.57倍和1.40倍.

摘要:

稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是数值计算中的核心操作,广泛应用于科学计算、工程模拟以及机器学习中. SpMV的性能优化主要受限于不规则的稀疏模式,传统的优化通常依赖手动设计存储格式、计算策略和内存访问模式. 现有张量编译器如TACO和TVM通过领域特定语言(domain specific language,DSL)可实现高性能算子生成,减轻开发人员繁琐的手动优化工作,但对稀疏计算的优化支持尚显不足,难以根据不同的稀疏模式自适应优化性能. 为了解决这些问题,提出了名为SparseMode的稀疏编译框架,能够依据矩阵的稀疏模式为SpMV计算生成高效的向量化代码,并根据硬件平台的特性自适应地调整优化策略. 该编译框架首先设计了领域专属语言SpMV-DSL,能够简洁高效地表达SpMV的稀疏矩阵和计算操作. 然后提出了基于稀疏模式感知的方法,根据SpMV-DSL定义的矩阵存储格式和非零元素分布动态选择计算策略. 最后通过稀疏模式分析和调度优化生成高效并行的SpMV算子代码,以充分利用SIMD指令提升性能. 在不同硬件平台上的SpMV实验结果表明,SparseMode生成的SpMV算子代码相较于现有的TACO和TVM张量编译器实现了最高2.44倍的加速比.

摘要:

顺序任务流(sequential task flow,STF)将对共享数据的访问表示为任务之间的依赖关系,STF运行时系统通过任务构造、依赖分析和任务依赖图(task dependence graph,TDG)生成、任务调度实现异步并行,这3个环节的开销直接影响并行程序的性能. 目前以STF为核心的AceMesh运行时系统,在SW39000处理器上仅使用单主核构图、多从核执行的方式. 然而,SW39000处理器离散访存性能较弱,细粒度任务构图离散访存增多,构图更容易成为瓶颈. 对此,提出了一种利用多从核辅助主核进行构图的算法. 首先,分析在依赖分析和TDG生成过程中的并行性,在SW39000处理器上实现了一种基于胖任务依赖图(fatTDG)的多核辅助并行构图算法PFBH(parallelized fatTDG building algorithm with helpers)并进行优化. 其次,针对线程间的主存资源竞争问题,提出构图与执行并行中从核资源调节方法及参数选择. 最终,在5类典型应用下进行实验测试. 与单核串行构图系统相比,在细粒度任务场景下最高加速为1.75倍;与SW39000处理器上的OpenACC模型相比,AceMesh最高可达2倍加速.

摘要:

RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展. 面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一. 开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程. 针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案. x86 SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率. 通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率. 3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译. 实验表明,以SPEC CPU 2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%. 优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU 18.84%和4.81%,展现出了应用于部分HPC场景的潜力.

芯片架构设计
摘要:

晶圆级计算机通过先进封装技术集成多芯粒,突破传统芯片面积限制实现算力扩展,但现存方案因领域专用化设计难以满足通用计算需求. 面向高性能计算与智能计算场景的负载特征,提出一种新型通用化晶圆级系统架构——映天湖. 首先通过解耦式计算模组-互连基板架构设计,结合标准化I/O接口支持多种计算模组;其次构建可重构晶上网络,采用动态拓扑重构技术适配不同业务流量模式;继而开发拓扑无关的容错控制,保障计算单元失效时的服务持续性. 实验结果表明,所设计的可重构晶上网络可实现秒级拓扑切换时延. 基于TSMC 28 nm工艺成功流片验证的16个计算模组的原型系统,在高性能线性代数计算任务中展现了约1.45倍的吞吐量提升,在深度学习推理任务中则展现约1.78倍的时延性能提升,单晶圆可实现千万亿次性能,证实该架构在实现晶圆级系统通用化方面的技术突破,为下一代异构计算平台提供了可扩展的硬件基础架构.

摘要:

基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题. PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性. 然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性. 针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性. 具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索. 通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性.

摘要:

视觉Transformer(Vision Transformer,ViT)模型在计算机视觉领域的多项任务中取得显著效果. 但ViT的复杂结构和计算开销限制了其在边缘计算设备中的部署. 训练后量化(post-training quantization,PTQ)技术被广泛应用于ViT模型轻量化中以解决实际部署难题,但现有PTQ方法在低位宽量化中的性能损失较大. 针对低比特量化场景,ViT的量化敏感层(如Softmax)与计算密集层(如线性变换)存在显著空间错位,且非高斯分布的激活值中隐含97%的类高斯聚集特性. 由此,基于标准分数z-score方法提出分治自适应量化(divide-and-conquer and adaptive quantization,DAQ)方法,通过量化敏感度-计算-存储开销联合分析与硬件协同设计,实现精度与效率的联合优化. DAQ构建动态分治量化机制,通过动态感知的z-score方法实现正常值/离群值双域分割,均匀关联量化2个值域. 在4-bit量化下,DAQ方法在分类任务上的 Top-1精度最大提升4.37个百分点,目标检测任务最大精度提升达8.2个百分点,与基线模型相比误差平均低于0.4个百分点,超过最佳全精度模型0.1个百分点,接近实现无损的低位宽量化. 另一方面,DAQ在硬件兼容设上适配Tensor Core的INT4/INT8内核,以量化定点计算来减轻线性计算压力. 实验表明,DAQ硬件适配后对线性计算部分有43%~86%的加速效果,为资源受限场景提供了算法-硬件协同优化的量化部署范式.

摘要:

全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景. 然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题,导致其在实际应用中的性能严重受限. 其中,快速数论变换(number theoretic transform,NTT)作为FHE中关键的基础算子,其性能对整个系统的效率具有决定性影响. 针对NTT中的核心计算模式——蝶式(butterfly)计算,提出一种基于数据流计算模型的NTT加速架构. 首先,设计面向NTT蝶式计算的RVFHE扩展指令集,定制高效的模乘与模加/模减运算单元,以提升模运算处理效率. 其次,提出一种NTT数据重排方法,并结合结构化的蝶式地址生成策略,以降低跨行列数据交换的控制复杂度与访问冲突. 最后,设计融合数据流驱动机制的NTT加速架构,通过数据依赖触发方式实现高效的片上调度与数据复用,从而充分挖掘操作级并行性. 实验结果表明,与NVIDIA GPU相比,提出的架构获得了8.96倍的性能提升和8.53倍的能效提升;与现有的NTT加速器相比,所提架构获得了1.37倍的性能提升.

摘要:

领域专用加速器设计有望进一步提升数据压缩算法的性能,以适应更大规模的数据处理. 新兴的Zstandard压缩软件基于LZ77压缩算法,具有性能优势,但其“控制流数据依赖”与“滑动窗口扩大”的特征限制了加速器的性能发挥. 新型数据压缩加速器BeeZip2实践“算法-架构”跨层优化方法,首先,将“元历史匹配”与并行哈希表设计融合,应对控制流数据依赖问题. 然后,BeeZip2采用“共享匹配处理单元”架构及组织方式,减少大滑动窗口的开销. 此外,BeeZip2还包含“简易惰性匹配”策略及架构设计,提高“元历史匹配”和“共享处理单元”的利用效率. 实验结果表明,BeeZip2在达到软件相同压缩比的同时,可实现最高13.13 GB/s的吞吐率,相较于单核和36核CPU软件吞吐率分别提升了29.2倍和3.35倍. 与基线加速器BeeZip相比,BeeZip2在压缩比高于软件的约束下,吞吐率提升1.26倍,单位面积吞吐率提升2.02倍.

摘要:

人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战. 为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究. 在数字信号处理和图像处理等应用场景中,存在大量的浮点运算. 这些应用消耗了大量的硬件资源,但它们具有一定的容错性,没有必要进行完全精确的计算. 据此,提出了一种基于移位近似算法MTA(multiplication to shift addition)和非对称截断的单精度可重构近似浮点乘法器设计方法. 首先,采用了一种低功耗的近似算法MTA,将部分操作数的乘法运算转换为移位加法. 其次,为了在精度和成本之间取得平衡,设计了针对操作数高有效位的非对称截断处理,并对截断后保留的部分进行精确计算. 通过采用不同位宽的MTA近似计算和改变截断后部分积阵列的行数,生成了广阔的设计空间,从而可以在精度和成本之间进行多种权衡调整. 与精确浮点乘法器相比,所提出设计MTA5T5的精度损失(MRED)仅约为0.32%,功耗降低了85.80%,面积减少了79.53%. 对于精度较低的MTA3T3,其精度损失约为1.92%,而功耗和面积分别降低了90.55%和85.80%. 最后,进行了FIR滤波和图像处理的应用测试,结果表明所提出的设计在精度和开销方面具有显著优势.