Research on Optimal Performance of Sparse Matrix-Vector Multiplication and Convoulution Using the Probability-Process-Ram Model
-
摘要: 稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心, 是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作, 但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器, 仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈, 同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法, 建模程序在真实机器上的运行细节, 可以得出更加精确的性能预测, 并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型, 并在一个通用处理器上建模程序内指令执行和数据传输开销, 其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈, 并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心, 同时也比较了与常用的Roofline和ECM模型的区别.Abstract: Performance models provide insightful perspectives to allow us to predict performance and propose optimization guidance. Although there has been much research, pinpointing bottlenecks of various memory access patterns and reaching high performance of both regular and irregular programs on various hardware configurations are still not trivial. In this work, we propose a novel model called probability-process-ram (PPR) to quantify the amount of compute and data transfer time on general-purpose multicore processors. The PPR model predicts the number of instruction for single-core and probability of memory access between each memory hierarchy through a newly designed cache simulator. By using the automatically extracted best optimization method and expectation, we use PPR model for analyzing and optimizing sparse matrix-vector multiplication and 1D convolution as case study for typical irregular and regular computational kernels. Then we obtain best block sizes for sparse matrices with various sparsity structures, as well as optimal optimization guidance for 1D convolution with different instruction sets support and data sizes. Comparison with Roofline model and ECM model, the proposed PPR model greatly improves prediction accuracy by the newly designed cache simulator and achieves comprehensive feedback ability.
-
-
期刊类型引用(20)
1. 沈传年. 区块链安全问题研究综述. 计算机工程与科学. 2024(01): 46-62 . 百度学术
2. 张烁晨. 量子纠缠及其应用研究. 电子技术. 2024(03): 4-7 . 百度学术
3. 徐小桐,石润华,柯唯阳,于辉. 无中心的量子匿名一票否决方案. 量子电子学报. 2024(06): 901-913 . 百度学术
4. 许龙,沈晶晶. 中美量子计算领域专利对比分析及发展预测. 中国发明与专利. 2024(12): 54-62 . 百度学术
5. 张舒琪,李延斌,王蓬勃,葛春鹏,徐秋亮. 抗侧信道攻击的后量子密码掩码转换方案. 网络空间安全科学学报. 2024(05): 44-56 . 百度学术
6. 蓝兰鸿,潘明华,王一涵,周家毓. 基于B92量子密钥分发的图像加密系统设计. 信息技术与信息化. 2023(01): 17-20 . 百度学术
7. 李延斌,朱嘉杰,唐明,张焕国. 面向格密码的能耗分析攻击技术. 计算机学报. 2023(02): 331-352 . 百度学术
8. 董慧康,裴东芳. 考虑无线网络安全的量子密码更新算法仿真. 计算机仿真. 2023(02): 399-402+491 . 百度学术
9. 万华,周虎,朱德新,孙羽. 一种基于量子密钥的区块链身份认证方法. 软件工程. 2023(04): 38-41 . 百度学术
10. 杨占杰. 核电DCS系统信息安全防护的探讨. 核科学与工程. 2023(04): 854-860 . 百度学术
11. 王鹏,武俊鹏,高迪. 基于FPGA的Streamlined NTRU Prime抗量子加密技术研究. 无线电工程. 2022(03): 393-398 . 百度学术
12. 李非凡. 后量子密码技术研究热点可视化分析. 河南理工大学学报(自然科学版). 2022(05): 137-145 . 百度学术
13. 牛佳宁,赵子岩,李国春,赵永利. 新型电力系统配网运行场景下的量子密码技术应用体系架构. 电力信息与通信技术. 2022(11): 65-73 . 百度学术
14. 刘峰,杨杰,李志斌,齐佳音. 一种基于区块链的泛用型数据隐私保护的安全多方计算协议. 计算机研究与发展. 2021(02): 281-290 . 本站查看
15. 李萌,尚云. 两硬币量子游走模型中的相干动力学. 计算机研究与发展. 2021(09): 1897-1905 . 本站查看
16. 潘世杰,高飞,万林春,秦素娟,温巧燕. 量子谱回归算法. 计算机研究与发展. 2021(09): 1835-1842 . 本站查看
17. 孙玉明. 外加谐振电压时电容器的电容和电感. 烟台大学学报(自然科学与工程版). 2021(04): 386-391 . 百度学术
18. 张中亚,吴文玲,邹剑. 多轮EM结构的量子差分碰撞密钥恢复攻击. 计算机研究与发展. 2021(12): 2811-2818 . 本站查看
19. 冷新丽,韩跃军,李辉. 大学文科生物理科学素养现状调查及分析——以江西南昌市为例. 科教导刊. 2021(32): 155-158 . 百度学术
20. WANG Yahui,ZHANG Huanguo. Quantum Algorithm for Attacking RSA Based on Fourier Transform and Fixed-Point. Wuhan University Journal of Natural Sciences. 2021(06): 489-494 . 必应学术
其他类型引用(20)
计量
- 文章访问数: 1205
- HTML全文浏览量: 0
- PDF下载量: 596
- 被引次数: 40