HyWarm：针对处理器 RTL仿真的自适应混合预热方法

周耀阳; 韩博阳; 蔺嘉炜; 王凯帆; 张林隽; 余子濠; 唐丹; 王卅; 孙凝晖; 包云岗

doi:10.7544/issn1000-1239.202330061

HyWarm：针对处理器 RTL仿真的自适应混合预热方法

周耀阳^{1, 2, 3,},
韩博阳⁴,
蔺嘉炜^{1, 2, 3},
王凯帆^{1, 2, 3},
张林隽^{1, 2, 3},
余子濠¹,
唐丹^{1, 3},
王卅^{1, 2},
孙凝晖^{1, 2, 3},
包云岗^{1, 2, ,}

1.
处理器芯片全国重点实验室（中国科学院计算技术研究所）　北京　100190
2.
中国科学院大学计算机科学与技术学院　北京　100049
3.
北京开源芯片研究院　北京　100080
4.
香港大学电机电子工程系　香港　999077

基金项目: 中国科学院战略性先导科技专项（XDC05030200）, 国家自然科学基金重大项目（62090020）

详细信息

作者简介:
周耀阳: 1995年生. 博士. 主要研究方向为处理器ILP提升、可扩展处理器设计、负载采样和性能评测方法

韩博阳: 1999年生. 工程硕士研究生. 主要研究方向为计算机体系结构、数字系统设计和高速串行通讯协议

蔺嘉炜: 1998年生. 硕士研究生. 主要研究方向为高性能计算机体系结构

王凯帆: 1997年生. 博士研究生. 主要研究方向为处理器敏捷开发与计算机体系结构

张林隽: 1998年生. 硕士研究生. 主要研究方向为高性能计算机体系结构

余子濠: 1991年生. 博士. 主要研究方向为计算机系统结构和操作系统

唐丹: 1976年生. 博士，高级工程师. 主要研究方向为计算机体系结构和低功耗SoC设计

王卅: 1986年生. 博士，副研究员. 主要研究方向为云计算、操作系统以及系统建模与性能分析

孙凝晖: 1968年生. 博士，中国工程院院士，CCF会士. 主要研究方向为计算机系统结构、高性能计算

包云岗: 1980年生. 博士，研究员. 主要研究方向为数据中心体系结构、处理器芯片敏捷设计方法论、开源处理器芯片生态

通讯作者:
包云岗（baoyg@ict.ac.cn）

中图分类号: TP391
计量
- 文章访问数: 325
- HTML全文浏览量: 64
- PDF下载量: 143
出版历程
- 收稿日期: 2023-01-09
- 修回日期: 2023-04-14
- 网络出版日期: 2023-05-03
- 刊出日期: 2023-05-31

HyWarm: Adaptive Hybrid Warmup Method for RTL Emulation of Processors

Zhou Yaoyang^{1, 2, 3,},
Han Boyang⁴,
Lin Jiawei^{1, 2, 3},
Wang Kaifan^{1, 2, 3},
Zhang Linjuan^{1, 2, 3},
Yu Zihao¹,
Tang Dan^{1, 3},
Wang Sa^{1, 2},
Sun Ninghui^{1, 2, 3},
Bao Yungang^{1, 2, ,}

1.
State Key Lab of Processors (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190
2.
School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049
3.
Beijing Institute of Open Source Chip, Beijing 100080
4.
Department of Electrical and Electronic Engineering, The University of Hong Kong, Hong Kong 999077

Funds: This work was supported by the Strategic Priority Research Program of Chinese Academy of Sciences (XDC05030200), and the Major Program of the National Natural Science Foundation of China (62090020).

More Information

Author Bio:
Zhou Yaoyang: born in 1995. PhD. His main research interests include CPU ILP enhancement, scalable CPU design, workload sampling, and performance evaluation methods

Han Boyang: born in 1999. Master candidate of Science in Engineering. His main research interests include computer architecture, digital system design, and high-speed serial communication protocols

Lin Jiawei: born in 1998. Master candidate. His research interest includes high-performance computer architecture

Wang Kaifan: born in 1997. PhD candidate. His main research interests include agile development of processors and computer architecture

Zhang Linjuan: born in 1998. Master candidate. Her main research interest includes high-performance computer architecture

Yu Zihao: born in 1991. PhD. His main research interests include computer architecture and operating system

Tang Dan: born in 1976, PhD, senior engineer. His main research interests include computer architecture and low power SoC design

Wang Sa: born in 1986. PhD, associate professor. His main research interests include cloud computing, operating systems, and system modeling and performance analysis

Sun Ninghui: born in 1968. PhD, academician of Chinese Academy of Engineering, fellow of CCF. His main research interests include computer architecture and high performance computing

Bao Yungang: born in 1980. PhD, professor. His main research interests include data-center architecture, agile design methodology of processor chips and ecosystem of open-source processor chips

摘要

摘要:
在高性能处理器开发中，准确而快速的性能估算是设计决策和参数选择的基础. 现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真，使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能. 但是数天的迭代周期仍然过长，性能测算周期仍然有进一步缩短的空间. 在处理器RTL仿真过程中，预热过程的时间占比很大. HyWarm框架的提出是为了加速性能测算过程中的预热过程. HyWarm通过微结构模拟器分析负载预热需求，为每个负载定制预热方案. 对于缓存预热需求较大的负载，HyWarm通过总线协议进行RTL缓存的功能预热；对于RTL全细节仿真，HyWarm利用CPU分簇和LJF调度缩短最大完成时间. HyWarm相较于现有最好的RTL采样仿真方法，在与基准方法准确率相似的前提下，将仿真完成时间缩短了53%.
- 高性能处理器 /
- 芯片设计 /
- 敏捷开发 /
- 负载采样 /
- 功能预热
Abstract:
When developing high-performance processors, accurate and fast performance estimation is the basis for design decisions and parameter exploration. Prior work accelerates processor RTL emulation through workload sampling and architectural checkpoints for RTL, which makes it possible to estimate the performance of benchmarks such as SPECCPU running on complex high-performance processors within a few days. However, waiting a few days for performance results is still too long for architecture iteration, and there is still room for further shortening the performance measurement cycle. During RTL emulation of processors, the warm up phase consumes a significant amount of time. As a solution to expedite the warm up phase during performance evaluation, the HyWarm framework is developed. HyWarm analyzes the warm up demand of workloads with the micro-architectural simulator, and adaptively customizes the warm up scheme for each workload. For workloads with high warm up demand on caches, HyWarm performs functional warm up through the caches’ bus protocol on RTL. For detailed emulation part, HyWarm utilizes CPU clustering and LJF scheduling to reduce the maximum completion time. Compared with the best existing sampling-based RTL emulation method, HyWarm reduces the emulation completion time by 53% under the premise of similar accuracy to the baseline method.
- high performance processor /
- chip design /
- agile development /
- workload sampling /
- functional warm up

HTML全文

车联网^[1-3]作为一种多领域交叉的新兴网络，涉及信息通信、交通、汽车等领域，引起了国内外工业界与学术界的广泛关注. 蜂窝车联网（cellular vehicle-to-everything，C-V2X）技术是实现车联网中车与车（vehicle-to-vehicle，V2V）、车与基础设施（vehicle-to-roadside infrastructure，V2I）、车与网络（vehicle-to-network，V2N）以及车与人（vehicle-to-pedestrian，V2P）等全方位连接和通信的新一代信息通信技术，如图1所示，其中V2N是指车辆通过接入网或核心网与云平台连接，云平台与车辆之间进行数据交互，提供车辆所需要的各类应用服务^[4]，如车辆导航、车辆远程监控、紧急救援、信息娱乐服务等，而V2V通信侧重于车辆之间提供低延迟、高可靠、严时效的实时信息传输服务^[5-6].

图 1 蜂窝车联网架构

Figure 1. Architecture of C-V2X

下载: 全尺寸图片幻灯片

与传统的无线蜂窝网络相比，车联网具有高动态、时空关联、不确定特性以及严格的服务质量（quality of service，QoS）要求，这使得C-V2X通信面临着诸多特有的挑战. 从空间维度来看，多个用户同时存在于同一网络中，并相互竞争有限的无线通信资源，适当协调用户的传输行为，处理随机噪声、衰落和干扰的联合影响是必要的；从时间维度来看，由于车联网的动态不确定特性，难以获得准确的信道状态信息（channel state information，CSI），需要自适应、快速准确地作出传输决策；从业务类型来看，不同类型链路需要支持不同QoS要求的应用. 因此，针对车联网动态不确定特性、业务类型的多元化以及无线通信资源稀缺的特点，研究V2N和V2V链路资源协同共享以保证C-V2X车联网业务的多指标需求和无线资源的有效利用，是当前车联网资源分配亟需解决的问题^[7-8].

鉴于上述问题，从多目标优化（multi-objective optimization，MO）的角度研究了典型多用户C-V2X通信网络的高效传输设计. 特别地，信息年龄（age of information，AoI）是一种有效的度量信息新鲜度的方法，AoI 描述了自最新状态更新被生成以来所经过的时间^[9]，与传统网络性能指标（如延迟、可靠性或传输速率）不同，AoI被视为一种时效性性能指标. 与现有的大多数研究工作通常仅优化单一目标不同，进一步提出了以V2V链路的AoI为目标之一的MO问题^[10]. 在动态复杂环境下，确定跨多个时隙的V2V信道和功率，以保证V2N与V2V通信的QoS要求. 主要贡献有3个方面：

1）考虑到车联网中V2N与V2V通信的 QoS需求差异，提出了一个新的多目标优化无线资源分配（multi-objective optimization for wireless resource allocation，MO-WRA）问题，在V2N和V2V链路共存且共享频谱的复杂蜂窝车联网情况下确定信道选择和功率控制，以实现不同链路优化目标之间的权衡，同时保证V2V通信链路的AoI.

2）由于MO-WRA问题涉及动态不确定环境下信道状态信息不准确、时间相关的非凸目标和约束以及相互影响的目标，这导致了极大的决策空间. 结合进化学习，进一步设计了基于多目标深度强化学习的V2V资源分配算法，通过训练好的神经网络模型可以得到MO-WRA问题的帕累托前沿.

3）为了应对大规模V2V通信，加速决策网络提取关键环境状态信息，引入注意力机制以优化深度神经网络，提升神经网络训练速度，增强其实时决策能力.

1. 相关工作

近年来，蜂窝车联网资源分配问题得到了广泛研究. 文献[11]设计了资源分配算法，该算法在传输可靠性和排队时延的约束下，使V2V链路的总吞吐量最大化. 文献[12]提出了用于V2I和V2V链路共存的网络调度和功率控制算法，以提高系统吞吐量. 文献[13]提出了一种双时间尺度资源分配算法，该算法基于大时间尺度道路交通信息减小V2V链路传输的最大时延. 文献[14]也提出了一种基于V2V和V2I通信的随机模型，该模型结合车辆移动性、信道争用和衰落的影响，提高了通信和计算的可靠性. 尽管上述资源分配策略通过有效的资源分配来提升网络性能，但它们主要关注传统性能指标，如吞吐量、可靠性和时延等，而无法准确衡量接收端的信息新鲜度.

目前学术界提出了“信息年龄AoI”的概念^[9]. AoI是一种有效度量信息新鲜度的性能指标，被定义为接收端获取的最新数据包自产生时刻到当前接收时刻所经过的时间. 通过资源分配以优化车联网中的AoI性能已成为当前的研究热点. 现有研究主要通过控制信息发送频率避免网络拥塞和降低网络传输时延以最小化系统平均AoI. 文献[15]采用李雅普诺夫（Lyapunov）优化方法设计了一种分布式年龄感知数据收集算法，该算法包括基于阈值的源车辆采样策略，可以更加及时地收集状态更新. 文献[16]结合平均场理论来分析虚拟传感器网络的网络AoI，充分考虑了车辆网络的社会特征和潜在的无线通信过程，进一步联合优化源节点处信息更新速率和传感器处的传输概率以最小化平均AoI. 文献[17]利用极值理论和Lyapunov优化方法，考虑到AoI极端事件发生概率极低的情况，提出了一种感知AoI的资源分配算法，以保证超可靠的低时延通信. 但是该算法假设每个车辆用户对中发射机和接收机之间的关联是固定的，这种假设可能会简化模型，但同时也可能忽略了车联网环境中的动态变化，从而限定了对车联网动态性的真实反映. 现有的AoI相关的研究大多采用传统的排队论建立理论模型，这种方法在处理大规模动态复杂场景存在局限. 而利用机器学习进行数据驱动建模以更准确地捕捉和模拟车联网中的动态行为，尚有很大的探索空间.

当前研究大多基于一个理想化的假设，即能够获得全局信道状态信息，然而，在车辆高速移动的场景下，信道条件的快速变化使得获取精确的信道状态信息变得极为困难^[18]；此外，尽管通过传统信息论方法获得较为准确的信道状态信息^[19-20]，但由于计算成本高，仍然难以满足动态车联网环境对于实时应用的迫切需求. 深度强化学习（deep reinforcement learning，DRL）融合了深度学习的感知和强化学习的决策2种特性, 既可从高维原始数据中直接获取动态环境特征, 又具有传统动态规划和马尔可夫决策过程的理论保障以使得网络能够通过智能体与环境的交互来学习动态资源分配策略.

文献[21]提出了一种基于信赖域策略优化的车联网联合频谱和功率分配算法，重点研究了系统平均AoI的最小化问题. 在参考文献[22]中，设计了基于多智能体强化学习的分布式资源分配算法，以最小化系统平均AoI. 文献[23]研究了一种考虑车辆数据包传输模式选择的资源分配问题，并将双时间尺度深度强化学习与谱聚类相结合以提高模型的鲁棒性. 文献[24]针对V2V复用V2I链路的频谱问题提出了基于深度Q网络（deep Q-network，DQN）的算法. 虽然该算法考虑了多个优化目标，但是仅考虑各目标权重参数给定的情况，实质上仍是单目标优化. 实际情况下，不同通信链路可能具有不同的传输能力和传输需求，存在多个不一致甚至冲突的优化目标. 在没有预先设定目标权重参数的情况下，对任何目标的优化往往不可避免地会以至少1个其他目标的性能下降为代价. 这种现象是多目标优化领域的典型特征，其中需要在多个通常相互冲突的目标之间寻找平衡点^[10]. MO理论已应用于无线通信网络^[25]、移动边缘计算系统^[26]、车联网^[27]. 同样是车联网场景，文献[27]提出了一种基于多目标优化理论的顺序传输决策算法，该算法采用了Lyapunov优化理论与加权切比雪夫（Chebyshev）方法，在保证不同消息的QoS的同时最大化链路的能量有效性. 针对现有文献的分析表明，MO理论与深度强化学习结合的研究工作尚未得到充分的探索.

与已有工作不同，本文针对蜂窝车联网复杂、动态且不确定场景，进行了深入的探讨. 除了涵盖传统网络性能指标，本文还创新性地将AoI纳入优化目标，提出了多目标优化的资源分配问题，并结合多目标进化学习设计了多目标深度强化学习算法，该算法能够实时进行决策，优化V2V无线资源的分配，以满足多样化的QoS要求.

2. 系统模型与问题描述

本节所涉及的主要符号如表1所示.

表 1 主要符号汇总

Table 1. Main Notations Summary

符号	解释
$M$	V2N链路集合
$K$	V2V链路集合
$V$	车辆集合
$\gamma _m^{\text{c}}$	第 $m$ 条V2N链路的信干噪比
$g_m^{\text{c}}$	第 $m$ 条V2N链路的信道功率增益
$\tilde g_{k,m}^{\text{v}}$	第 $k$ 条V2V链路对 $m$ 条V2N链路的干扰功率增益
$P_m^{\text{c}}$	第 $m$ 条V2N链路的传输功率
$P_k^{\text{v}}$	第 $k$ 条V2V链路的传输功率
${\rho _{m,k}}$	第 $m$ 条V2N链路和第 $k$ 条V2V链路是否共用信道
$C_m^{\text{c}}$	第 $m$ 条V2N链路的传输速率
$C_k^{\text{v}}$	第 $k$ 条V2V链路的传输速率
$\gamma _k^{\text{v}}$	第 $k$ 条V2V链路的信干噪比
$I_k^{\text{c}}$	第 $k$ 条V2V链路受到V2N链路的干扰
$I_k^{\text{v}}$	第 $k$ 条V2V链路受到其他V2V链路的干扰
$g_k^{\text{v}}$	第 $k$ 条V2V链路的信道功率增益
$B_k^t$	在时隙 $t$ 第 $k$ 条V2V链路的剩余负载量
$U_k^t$	在时隙 $t$ 第 $k$ 条链路的传输延迟容限
$L_k^t$	在时隙 $t$ 第 $k$ 条V2V链路的数据包延迟
$A_{i,j}^t$	在时隙 $t$ 车辆 $i$ 发送的数据在车辆 $j$ 接收处的AoI

下载: 导出CSV

| 显示表格

2.1 网络模型

本文研究的网络场景如所示，由1个基站（base station，BS）和位于基站通信覆盖范围内的车辆组成，车辆与基站、车辆与车辆之间可以相互通信. 假设基站具有计算和缓存能力. 具体而言，车辆网络包括 ${m_{\max }}$ 条V2N链路，以集合 $M = \{ 1,2, … ,m, … ,{m_{\max }}\}$ 表示V2N链路序号，以及 ${k_{\max }}$ 条V2V链路，以集合 $K = \{ 1,2, … ,k, … ,{k_{\max }}\}$ 表示V2V链路序号.

图 2 网络场景示例

Figure 2. An example of network scenario

下载: 全尺寸图片幻灯片

在设计的系统中，可以将BS通信范围建模为2维欧氏空间 $\psi$ ，在该范围内包含 $n$ 个车辆，以集合 $V = \{ 1,2, … ,n\}$ 表示车辆序号. 每个车辆 $i \in V$ 由 $\{ {x_i},{y_i},{o_i}, {v_i},{V_i{\rm ^N}},{V_i{\rm ^T}},{A_i}\}$ 表示. 其中 ${x_i}$ 和 ${y_i}$ 为欧氏空间坐标， ${o_i}$ 为车辆行驶的方向， ${v_i}$ 为车辆速度，车辆邻居集合表示为 ${V_i{\rm ^N}}$ ，车辆 $i$ 的目标通信车辆集合表示为 ${V_i{\rm ^T}}$ ，车辆 $i$ 发送的数据在其他车辆接收处的AoI表示为 ${A_i} = \{ {A_{i,1}},{A_{i,2}}, … ,{A_{i,n}}\}$ ，用以表征车辆之间所传输信息的新鲜程度.

2.2 通信模型

假设每条V2N链路已被预先分配不同的正交子信道以消除网络中V2N链路之间的干扰，即第 $m$ 条V2N链路占用第 $m$ 个子信道，保证了链路之间的无干扰. 为提高频谱利用率，假设V2N子信道可以被V2V链路共享，车辆的收发机采用单天线，当第 $k$ 条V2V链路共享第 $m$ 条V2N链路的子信道时，这条V2V链路的接收端可能会受到来自相同子信道的其他V2V链路以及V2N链路的发射端的干扰. 因此系统中可能出现3种干扰，分别为：V2N占用的子信道对共享该子信道的V2V的干扰，简称C2V（cellular user-to-vehicle）干扰；V2V占用的子信道对使用该子信道的V2N的干扰，简称V2C（vehicle-to-cellular user）干扰；V2V占用的子信道对占用相同子信道的其他V2V用户对的干扰，简称V2V干扰.

为了便于建模，将连续时间离散化，用 $t$ 来表示离散化后的时隙，其中每个时隙的持续时间为 ${t_0}$ . 在每个时隙 $t$ ，基站需要为车辆用户对分配传输信道和发射功率，传输信道集合 $O$ 和发射功率集合P分别表示为 $O = \left\{ {{O_1},{O_2}, … ,{O_{\max }}} \right\}$ 和 $P = \left\{ {{P_1},{P_2}, … ,{P_{\max }}} \right\}$ .

进一步地，定义 $g_k^{\text{v}}$ 为第 $k$ 条V2V链路的信道功率增益， $g_m^{\text{c}}$ 为第 $m$ 条V2N链路的信道功率增益， $\tilde g_{m,k}^{\text{c}}$ 表示第 $m$ 条V2N链路对复用该链路的第 $k$ 条V2V链路的干扰功率增益； $\tilde g_{k,k'}^{\text{v}}$ 表示复用相同V2N链路的第 $k$ 条V2V链路对第 $k'$ 条V2V链路的干扰功率增益. 上述信道功率增益和干扰功率增益均由快衰落和慢衰落组成. 快衰落部分的主要成因是多径效应，慢衰落部分的主要成因包括路径损耗和阴影衰落.

以第 $m$ 条V2N链路的信道功率增益 $g_m^{\text{c}}$ 为例，其计算公式可表示为

$g_m^{\text{c}} = h_m^{\text{c}}\alpha _m^{\text{c}}{\text{ = }}h_m^{\text{c}}{\beta _m}d_{m,{\text{B}}}^{ - \chi },$

(1)

其中 $h_m^{\text{c}}$ 是快衰落部分，其服从瑞利（Rayleigh）分布，不同的信道下的快衰落是独立同分布的， $\alpha _m^{\text{c}}$ 是慢衰落部分， ${\beta _m}$ 是具有标准差 $\xi$ 的对数正态阴影衰落， ${d_{m,{\text{B}}}}$ 是信号发射机和接收机之间的欧氏距离， $\chi$ 是路径损耗分量的衰减指数.

以V2N链路占用的子信道对共享该子信道的V2V链路的干扰为例，其干扰功率的计算公式可表示为

$I_k^{\text{c}} = \displaystyle\sum\limits_{m = 1}^{{m_{\max }}} {{\rho _{m,k}}P_m^{\text{c}}\tilde g_{m,k}^{\text{c}}} ,$

(2)

其中 $P_m^{\text{c}}$ 是第 $m$ 条V2N链路的发射功率， ${\rho _{m,k}}$ 表示第 $m$ 条V2N链路和第 $k$ 条V2V链路是否共用信道，满足式（3）：

${\rho }_{m,k}=\left\{\begin{aligned} &1,\;\; 第k条\text{V}2\text{V}链路重用第m条\text{V}2\text{N}链路的子信道, \\ &0,\;\; 其他. \end{aligned}\right.$

(3)

对于第 $m$ 条V2N链路而言，信干噪比 $\gamma _m^{\text{c}}$ （signal-to-interference-plus-noise ratio，SINR）可表示为

$\gamma _m^{\text{c}} = \dfrac{{P_m^{\text{c}}g_m^{\text{c}}}}{{{\sigma ^2} + \displaystyle\sum\limits_{k = 1}^{{k_{\max }}} {{\rho _{m,k}}P_k^{\text{v}}\tilde g_{k,m}^{\text{v}}} }},$

(4)

其中 ${\sigma ^2}$ 表示加性高斯白噪声功率， $P_m^{\text{c}}$ 和 $P_k^{\text{v}}$ 分别表示第 $m$ 条V2N链路和第 $k$ 条V2V链路的发射功率.

对于第 $k$ 条V2V链路，其SINR可表示为

$\gamma _k^{\text{v}} = \dfrac{{P_k^{\text{v}}{g_k}}}{{{\sigma ^2} + I_k^{\text{c}} + I_k^{\text{v}}}}.$

(5)

根据上述V2N链路和V2V链路的SINR，可以得出V2V链路复用V2N链路时，第 $m$ 条V2N链路的传输速率 $C_m^{\text{c}}$ 和第 $k$ 条V2V链路的传输速率 $C_k^{\text{v}}$ 的表达式分别为

$C_m^{\text{c}} = W \times {\text {lb}}\left( {1 + \gamma _m^{\text{c}}} \right),$

(6)

$C_k^{\text{v}} = W \times {\text {lb}}\left( {1 + \gamma _k^{\text{v}}} \right),$

(7)

其中 $W$ 表示信道带宽.

因此，第 $k$ 条V2V链路的有效传输概率 ${p_k}$ 为

${p_k} = Pr\left\{ {R_k^{\text{v}} \geqslant {R_{\text{T}}}} \right\} = Pr\left\{ {\dfrac{1}{{{T_{\text{d}}}}}\displaystyle\sum\limits_{t = 1}^{{T_{\text{d}}}} {C_k^{{\text{v}},t} \geqslant \dfrac{{{B_0}}}{{{U_0}}}} } \right\},$

(8)

其中 $R_k^{\text{v}}$ 表示第 $k$ 条V2V链路的有效传输速率， ${R_{\text{T}}}$ 表示有效传输速率阈值， $C_k^{{\text{v}},t}$ 表示在时隙 $t$ 第 $k$ 条V2V链路传输速率， ${B_0}$ 表示数据包的大小， ${U_0}$ 表示传输时延约束，时长为 ${T_{\rm d}}$ 个时隙.

对于V2V链路而言，还需要关注其延迟性能. 假设只考虑数据包的传输延迟. 定义 ${U_0}$ 为数据包生成时的延迟容限， $U_k^t$ 表示在时隙 $t$ 第 $k$ 条V2V链路的延迟容限，更新公式为

$U_k^{t + 1} = U_k^t - {t_0},$

(9)

其中 ${t_0}$ 为1个时隙的长度. 如果在时隙 $t$ 的前一个时隙内，第 $k$ 条V2V链路完成了数据包传输，那么该数据包的延迟 $L_k^t$ 可表示为

$L_k^t{\text{ = }}{U_0} - U_k^t.$

(10)

如果在时隙 $t$ 有 $U_k^t \leqslant 0$ ，则说明该数据包的传输时间超过了延迟容限，视为传输失败，不再继续传输该数据包.

2.3 AoI演进模型

本节介绍AoI以及V2V链路平均AoI的定义及其计算方式.

定义 $B_k^t$ 为时隙 $t$ 第 $k$ 条V2V链路传输数据包的剩余负载量， $B_k^t$ 的更新公式为

${B}_{k}^{t+1}=\left\{\begin{aligned} &{B}_{0},\;\;\;\;\quad\quad\quad {B}_{k}^{t} < {C}_{k}^{\text{v},t}{t}_{0},\\ &{B}_{k}^{t+1}-{C}_{k}^{\text{v},t}{t}_{0},\;\; 其他,\end{aligned} \right.$

(11)

其中 ${B_0}$ 为初始负载量. 若在当前时隙 $t$ 内完成了数据包的传输，则在下一个时隙 $t + 1$ 将该用户的负载重置为初始负载量 ${B_0}$ ；否则，在 $B_k^{t + 1}$ 的基础上减去时隙 $t$ 内传输的数据量 $C_k^{{\text{v}},t}{t_0}$ .

集合 ${A_i}$ 表示车辆 $i$ 发送的数据在其他车辆接收处的AoI，所以集合 ${A_i}$ 中元素的个数即为车辆数量 $n$ ，其中 ${A_{i,j}}$ 表示V2V链路中车辆 $i$ 发送的数据在车辆 $j$ 接收处的AoI. $A_{i,j}^t$ 表示在时隙 $t$ 车辆 $i$ 发送的数据在在车辆 $j$ 接收处的AoI， $A_{i,j}^{t + 1}$ 的计算如式（12）所示：

$A_{i,j}^{t + 1} = \left\{ {\begin{aligned} & L_{i,j}^{t + 1}, \;\;\;\quad B_{i,j}^t \leqslant C_{i,j}^{{\text{v}},t}{t_0},\;\;d_{i,j}^{t + 1} \leqslant {d_{\text{c}}}, \\ & A_{i,j}^t + {t_0}, \;\; B_{i,j}^t > C_{i,j}^{{\text{v}},t}{t_0},\;\;d_{i,j}^{t + 1} \leqslant {d_{\text{c}}}, \\ & 0, \;\;\;\quad\quad d_{i,j}^{t + 1} > {d_{\text{c}}}, \end{aligned}} \right.$

(12)

其中 $L_{i,j}^{t + 1}$ 表示数据包的延迟， $d_{i,j}^{t+1}$ 表示车辆 $i$ 和车辆 $j$ 之间的欧氏距离， ${d_{\text{c}}}$ 表示车辆的通信距离. 当车辆 $i$ 和车辆 $j$ 位于通信距离内，如果前一个时隙内有数据包传输成功， $A_{i,j}^{t + 1}$ 为该数据包的延迟，否则 $A_{i,j}^{t + 1}$ 随时隙数不断累加；当车辆 $i$ 和车辆 $j$ 位于通信距离外， $t$ = 0.

V2V链路平均AoI可表示为

${{\bar A}^t} = \dfrac{1}{{cnt}}\displaystyle\sum\limits_{i = 1}^n {\displaystyle\sum\limits_{\begin{subarray}{l} j = 1 \\ j \ne i \end{subarray}} ^n {\left( {A_{i,j}^t + A_{j,i}^t} \right)} } ,$

(13)

其中 $cnt$ 表示AoI非0值的个数，可由式（14）计算得到：

$cnt = \displaystyle\sum\limits_{i = 1}^n {\displaystyle\sum\limits_{j = 1}^n {\alpha _{i,j}^t} } ，$

(14)

其中 $\alpha _{i,j}^t \in \left\{ {0,1} \right\}$ 表示车辆 $i$ 和车辆 $j$ 是否位于通信距离内，若 $d_{i,j}^{t + 1} \leqslant {d_{\text{c}}}$ ，则 $\alpha _{i,j}^t = 1$ ，否则 $\alpha _{i,j}^t = 0$ .

2.4 MO-WRA问题描述

本节提出多目标优化的无线资源分配MO-WRA问题，基站根据车辆传输的状态信息，给该车辆分配信道和发射功率，以实现优化目标，如式（15）所示：

$\left\{\begin{aligned} & \mathop {{\text{maximize }}}\limits_{\left\{ {P_k^{\rm v},\;{\rho _{m,k}}} \right\}} \left( {\displaystyle\sum\limits_{t = 1}^\infty {{V^t}} ,\displaystyle\sum\limits_{t = 1}^\infty {{Y^t}} ,\displaystyle\sum\limits_{t = 1}^\infty {Z_k^t} ,\displaystyle\sum\limits_{t = 1}^\infty {{S^t}} } \right) \\ & {\text{s.t.}} \left\{\begin{aligned} &{{\text{C}}_{\text{1}}}:L_k^t \leqslant {U_0},\forall k \in K,\forall t \in {\mathbb{N}_ + }; \\ & {{\text{C}}_{\text{2}}}:{p_0} \leqslant {p_k},\forall k \in K; \\ & {{\text{C}}_3}:P_k^{\rm v} \in P,\forall k \in K; \\ & {{\text{C}}_4}:{\rho _{m,k}} \in \left\{ {0,1} \right\},\forall m \in M,\forall k \in K. \end{aligned}\right. \end{aligned} \right.$

(15)

约束 ${{\rm C}_1}$ 表示V2V链路延迟约束；约束 ${\rm C_2}$ 表示V2V链路的有效传输概率约束；约束 ${\rm C_3}$ 表示V2V链路发射功率约束；约束 ${\rm C_4}$ 表示V2V链路是否复用V2N链路子信道.

式（15）中 $P_k^{\rm v},{\rho _{m,k}}$ 分别表示第 $k$ 条V2V链路的发射功率和频谱分配. 针对优化目标中的V2N链路传输速率、V2V链路传输速率、V2V链路延迟以及V2V链路平均AoI这4个指标，分别定义 ${V^t}$ 为时隙 $t$ 的V2N链路传输速率效用函数， ${Y^t}$ 为时隙 $t$ 的V2V链路传输速率效用函数， $Z_k^t$ 为时隙 $t$ 的第 $k$ 条V2V链路的延迟效用函数， $S_k^t$ 为时隙 $t$ 的第 $k$ 条V2V链路的平均AoI效用函数. ${V^t}, {Y^t},Z_k^t,{S^t_k}$ 分别表示为

${V^t} {\buildrel \Delta \over = } \displaystyle\sum\limits_{m = 1}^{{m_{\max }}} {\dfrac{{C_m^{{\text{c}},t} - C_{\min }^{\text{c}}}}{{C_{\max }^{\text{c}} - C_{\min }^{\text{c}}}}} ,$

(16)

${Y^t} {\buildrel \Delta \over = } \displaystyle\sum\limits_{k = 1}^{{k_{\max }}} {\dfrac{{C_k^{{\text{v}},t} - C_{\min }^{\text{v}}}}{{C_{\max }^{\text{v}} - C_{\min }^{\text{v}}}}} ,$

(17)

$Z_k^t {\buildrel \Delta \over = } \exp \left( { - L_k^t} \right),$

(18)

$S_k^t {\buildrel \Delta \over = } \exp \left( { - \left( {{{\bar A}^t} - {{\bar A}^{t - 1}}} \right)} \right).$

(19)

3. 多目标深度强化学习算法

针对多目标优化的无线资源分配MO-WRA问题，本节进一步设计了基于注意力机制的多目标近端策略优化算法（multi-objective proximal policy optimization algorithm based on attention mechanism，MOPPO-AM），如3.1节所述，该算法包含2个阶段. 在第1阶段，将MO-WRA问题划分为 $N$ 个单目标优化的子问题，并将该子问题表述为马尔可夫决策过程，如3.2节所述. 通过基于注意力机制的近端策略优化算法（proximal policy optimization algorithm based on attention mechanism，PPO-AM）进行训练，使用的神经网络模型如3.3节所述. 将所有训练好的子问题神经网络模型集作为第2阶段的初始种群，如3.4节所述. 在第2阶段，使用进化学习找到多目标主问题的帕累托前沿，如3.5节所述.

3.1 MOPPO-AM 算法

MOPPO-AM算法训练过程如算法1所示，该算法通过近端策略优化（proximal policy optimization，PPO）^[28]算法来训练基于卷积块注意力模块（convolutional block attention module，CBAM）^[29-30]的模型. 然后，将训练好的子问题模型集作为进化学习的初始种群. 进化学习使用近端变异^[31]产生后代，基于非支配排序遗传算法Ⅱ（nondominated sorting genetic algorithm Ⅱ，NSGA-Ⅱ）^[32]的非支配水平和拥挤距离排序选择模型，最终得到多目标优化问题的一组非支配解，也称为帕累托前沿.

算法1. MOPPO-AM算法.

输入：子问题模型集 $\varPi = \left\{ {{\pi _1},{\pi _2}, … ,{\pi _N}} \right\}$ ，权重向量集合 $\varLambda = \left\{ {{{\boldsymbol \lambda} _1},{{\boldsymbol \lambda} _2}, … ,{{\boldsymbol \lambda} _N}} \right\}$ ，进化学习中的最大迭代次数 ${I_{\max }}$ ，权重向量个数为 $N$ ；

输出：优化后的模型集 ${\varPi ^ * } = \left\{ {\pi _1^ * ,\pi _2^ * , … ,\pi _N^ * } \right\}$ .

① 随机初始化 $\varPi$ 中的模型参数；

② for $i = 1,2, … ,N$ do

③　使用PPO-AM算法训练策略 ${\pi _i}$ （3.4节）；

④ end for

⑤ 使用PPO-AM算法输出的策略作为进化学习的初始种群；

⑥ for $i = 1,2, … ,{I_{\max }}$ do

⑦　使用进化学习进化子问题模型（3.5节）；

⑧ end for

⑨ return ${\varPi ^ * } = \left\{ {\pi _1^ * ,\pi _2^ * , … ,\pi _N^ * } \right\}$ .

3.2 马尔可夫决策过程建模

单目标优化子问题表述为马尔可夫决策过程，通常由如下所示的五元组来表征：

$(S,A,R,\gamma ,p) ,$

(20)

其中 $S$ 是状态空间， $A$ 是动作空间， $R$ 是奖励函数， $\gamma \in \left( {0,1} \right)$ 为折扣因子，其体现了智能体对即时奖励和未来奖励的权衡，转移概率 $p$ 是智能体执行某个动作后从一个状态转移到下一个状态的概率.

状态 $s_k^t \in S$ 表示在时隙 $t$ 的第 $k$ 条链路的状态，状态总共包含3类信息. 其中：第1类信息为整体的信道和干扰信息，包含V2V链路的信道信息 ${G^t}$ 、V2N链路的信道信息 ${H^t}$ 、前一个时隙的干扰功率信息 ${I^{t - 1}}$ ，以及前一个时隙邻居车辆选择的信道信息 $N_k^{t - 1}$ ；第2类信息为与资源分配相关的数据包状态信息，包含待发送的信息的剩余负载 $B_k^t$ 以及延迟容限 $U_k^t$ ；第3类信息是V2V链路关联的AoI $A_k^t$ . 综上所述， $s_k^t$ 表达式为

$s_k^t{\text{ = }}\left\{ {{G^t},{H^t},{I^{t - 1}},N_k^{t - 1},O_k^t,U_k^t,A_k^t} \right\}.$

(21)

动作 $a_k^t \in A$ 包含信道选择 $O_k^c$ 和发射功率选择 $P_k^c$ 2个维度.

$a_k^t \in \left\{ {1,2, … ,3 \times \left| O \right|} \right\}.$

(22)

第1个维度信道数量 $\left| O \right|$ 是有限的，第2个维度发射功率包含3个等级，因此动作空间大小为 $3 \times \left| O \right|$ . 在具体的实现过程中，使用 $\left[ {1,3 \times \left| O \right|} \right]$ 范围内的整数对信道进行编号. 对于具体的动作 $a_k^t$ ，使用 $a_k^t\% \left| O \right|$ 表示选择的信道编号，使用 $\left\lfloor {{{a_k^t} / {\left| O \right|}}} \right\rfloor$ 表示选择的发射功率在发射功率列表中的序号.

奖励函数 $R\left( {s_k^t,a_k^t} \right)$ 表示在状态 $s_k^t$ 且采取动作 $a_k^t$ 的情况下，即时奖励的期望值. 在时隙 $t$ 的第 $k$ 条链路的即时奖励 $r_k^t$ 的设计为

$r_k^t = {\lambda _V}{V^t} + {\lambda _Y}{Y^t} + {\lambda _Z}Z_k^t + {\lambda _S}{S^t}.$

(23)

在奖励函数中，使用链路传输速率作为正向奖励，以此衡量当前决策对其余链路的干扰影响程度. V2V链路延迟计算由式（10）给出. 对于V2V链路平均AoI，将其进行差分处理，即将相邻时隙V2V链路平均AoI的变化量 ${\bar A^t} - {\bar A^{t - 1}}$ 作为惩罚项参与奖励函数，由式（19）给出. 通过差分处理，可以减少即时奖励的方差，从而提高训练的稳定性. 与此同时，差分处理实际上将本工作的优化目标从直接最小化V2V链路平均AoI转换为最小化平均AoI的增长，这种转换可以更好地引导智能体的训练过程.

3.3 神经网络模型

为了提升算法实时决策能力，算法所采用的神经网络模型引入注意力机制，这有利于网络提取重要的状态信息. CBAM具有空间和通道注意力，可以关注关键特征，忽略无用特征，使网络更加灵活地适应不同任务和场景，以实现更迅速、更灵活的决策. 卷积神经网络生成特征图之后，CBAM通过2个独立的注意力机制，分别从通道和空间维度对特征图进行加权，以实现自适应特征强化. 这个轻量级的通用模块可以集成到各种卷积神经网络中进行端到端训练，如图3所示.

图 3 PPO-AM框架

Figure 3. Framework of PPO-AM

下载: 全尺寸图片幻灯片

给定输入特征图 ${\boldsymbol{F}}$ ，通道注意力模块推断通道注意力向量，衡量每个通道的重要性. 空间注意力模块推导出3维空间注意力地图，帮助模型更好地理解和利用输入中的空间信息，从而提高了网络的性能和效率. 加权后的特征图为

${\boldsymbol{F'}} = {M_{\text{c}}}\left( {\boldsymbol{F}} \right) \otimes {\boldsymbol{F}},$

(24)

${\boldsymbol{F''}} = {M_{\text{s}}}\left( {{\boldsymbol{F'}}} \right) \otimes {\boldsymbol{F'}},$

(25)

其中 ${M_{\text{c}}}$ 和 ${M_{\text{s}}}$ 分别表示基于通道的和基于空间的注意力， $\otimes$ 表示逐元素乘法， ${\boldsymbol{F'}}$ 和 ${\boldsymbol{F''}}$ 分别表示进行了通道注意力和空间注意力后的输出特征图. 通道注意力模块关注输入数据中有意义的内容，表示为

${M_{\text{c}}}\left( {\boldsymbol{F}} \right) = \sigma \left( {MLP\left( {avgpool\left( {\boldsymbol{F}} \right)} \right) + MLP\left( {maxpool\left( {\boldsymbol{F}} \right)} \right)} \right),$

(26)

其中 $\sigma (\cdot )$ 表示Sigmoid函数， $maxpool(\cdot )$ 表示最大池化， $avgpool(\cdot )$ 表示平均池化， $MLP(\cdot )$ 表示多层感知器.

空间注意力模块关注输入数据中更有意义的位置，是对通道注意力的补充，表示为

${M_{\text{s}}}\left( {\boldsymbol{F}} \right) = \sigma \left( {conv\left( {\left[ {avgpool\left( {\boldsymbol{F}} \right);maxpool\left( {\boldsymbol{F}} \right)} \right]} \right)} \right),$

(27)

其中 $conv(\cdot )$ 表示3维卷积层.

3.4 基于PPO-AM的单目标子问题训练算法

在第1阶段，利用PPO-AM算法训练单目标子问题模型. PPO-AM是一种在线深度强化学习算法. 在线学习意味着智能体通过与环境的交互更新策略，而不是像批量学习那样积累一些经验，然后进行一次性的更新. 更新策略的过程是连续进行的，智能体通过不断地与环境交互和从经验池中获得轨迹信息以逐步地改进其策略. 在PPO-AM算法的每次迭代中，基站作为智能体，具有计算和缓存能力，能够使用当前的策略与环境交互，收集经验数据. 然后，利用这些数据，不断逼近状态价值函数和动作价值函数以寻找最优的资源分配策略，如图3所示.

PPO-AM算法是基于策略优化的PPO算法实现的. 其中PPO算法是一种基于策略优化的深度强化学习算法，是在Actor-Critic框架的基础上发展起来的，主要用于训练智能体在环境中采取最优动作策略. 2个策略网络和1个价值网络组成了PPO算法，2个策略网络即新策略和旧策略，比较新策略和旧策略之间的差异，并根据这种差异来确定策略参数的更新方向，这有助于限制策略更新的大小，维持训练的稳定性. PPO算法旨在最大化策略的累积奖励，如式（28）所示，该算法引入状态价值函数、动作价值函数和优势函数更新Actor网络和Critic网络，以找到最优任务选择策略.

$\begin{split} & J({\boldsymbol \theta} ) = \\ & {E_t}\left[ {\min \left( {\dfrac{{{\pi _{\boldsymbol \theta} }({a_t}|{s_t})}}{{{\pi _{{\boldsymbol \theta} _{\text{old}}}}({a_t}|{s_t})}}{{\hat A}_t},clip\left( {\dfrac{{{\pi _{\boldsymbol \theta} }({a_t}|{s_t})}}{{{\pi _{{\boldsymbol \theta} _{\text{old}}}}({a_t}|{s_t})}},1 - {\boldsymbol \varepsilon} ,1 + {\boldsymbol \varepsilon} } \right){{\hat A}_t}} \right)} \right],\\ \end{split}$

(28)

其中 $J({\boldsymbol \theta} )$ 是目标函数，表示期望累计奖励. ${\pi _{\boldsymbol \theta} }({a_t}|{s_t})$ 是在状态 ${s_t}$ 下采取动作 ${a_t}$ 的策略函数. ${\pi _{{\boldsymbol \theta} _{\text{old}}}}({a_t}|{s_t})$ 是旧策略函数，即在更新前的策略. ${\hat A_t}$ 是优势函数，表示在状态 ${s_t}$ 下采取动作 ${a_t}$ 的优势. clip函数确保新策略和旧策略之间的比值在预定义的范围 $\left[ {1 - { \varepsilon} ,1 + { \varepsilon} } \right]$ 内. 这有助于防止策略更新过大，从而提高训练的稳定性， ${ \varepsilon}$ 是用于限制策略更新幅度的超参数.

状态价值函数是指在状态 ${s_t}$ 下，遵循策略 ${\pi _{\boldsymbol \theta} }$ 能够获得的期望奖励，如式（29）所示：

$V_{{\pi _{\boldsymbol \theta} }}^{\boldsymbol \phi} \left( {{s_t}} \right) = {E_{{\pi _{\boldsymbol \theta} }}}\left[ {\displaystyle\sum\limits_{i = 0}^\infty {{\gamma ^i}{r_{t + i + 1}}|s = {s_t}} } \right],$

(29)

其中 ${r_{t + i + 1}} = \displaystyle\sum\limits_{k = 1}^{{k_{\max }}} {r_k^{t + i + 1}}$ . $\gamma$ 是折扣因子，用于计算累计奖励，将未来的奖励进行折现. 折扣因子决定了未来奖励的重要性，较小的折扣因子会降低对未来奖励的重视，使智能体更倾向于采取即时奖励更高的动作.

动作价值函数是指在状态 ${s_t}$ 下，执行动作 ${a_t}$ 之后，遵循策略 ${\pi _{\boldsymbol \theta} }$ 能够获得的期望奖励，如式（30）所示：

${Q_{{\pi _{\boldsymbol \theta} }}}\left( {{s_t},{a_t}} \right) = {E_{{\pi _{\boldsymbol \theta} }}}\left[ {\displaystyle\sum\limits_{i = 0}^\infty {{\gamma ^i}} {r_{t + i + 1}}|s = {s_t},a = {a_t}} \right].$

(30)

优势函数是指当前状态下采取某个动作相对于采取平均策略的优势，计算方式如式（31）所示：

${\hat A_t} = {Q_{{\pi _{\boldsymbol \theta} }}}\left( {{s_t},{a_t}} \right) - V_{{\pi _{\boldsymbol \theta} }}^{\boldsymbol \phi} \left( {{s_t}} \right).$

(31)

优势函数 ${\hat A_t}$ 越大，意味着当前动作相对于平均水平更好. 在训练过程中，智能体倾向于更频繁地选择具有更大优势的动作. 这可能表明在当前状态下采取该动作更有可能获得更高的奖励或更好的长期奖励.

网络参数 ${\boldsymbol \theta}$ 通过式（32）进行更新.

${\boldsymbol \theta} = {{\boldsymbol \theta} _{{\text{old}}}} + \delta {{\hat {\boldsymbol g}}_{\text{actor}}},$

(32)

其中 ${\boldsymbol \theta}$ 和 ${{\boldsymbol \theta} _{{\text{old}}}}$ 分别代表新旧策略的参数. $\delta$ 代表参数学习率，表示参数更新的快慢. ${\hat {\boldsymbol g}_{\text{actor}}}$ 是策略梯度，用以更新参数的依据，如式（33）所示：

$\begin{split} {{\hat {\boldsymbol g}}_{\text{actor}}} = & {\nabla _{\boldsymbol \theta} }{L^{clip}}({\boldsymbol \theta} ) = \\ & {E_t}\Bigg[ {\nabla _{\boldsymbol \theta} }\Bigg( \min \Bigg( \dfrac{{{\pi _{\boldsymbol \theta} }({a_t}|{s_t})}}{{{\pi _{{\boldsymbol \theta} _{\text{old}}}}({a_t}|{s_t})}}{{\hat A}_t},clip\Bigg( \dfrac{{{\pi _{\boldsymbol \theta} }({a_t}|{s_t})}}{{{\pi _{{\boldsymbol \theta} _{\text{old}}}}({a_t}|{s_t})}},1 -\\ &{\varepsilon} ,1 + {\varepsilon} \Bigg){{\hat A}_t} \Bigg) \Bigg) \Bigg]. \\[-1pt] \end{split}$

(33)

函数clip的作用是将新旧策略的比值限制在区间 $\left[ {1 - { \varepsilon} ,1 + { \varepsilon} } \right]$ 内，避免了更新步长过大引起的不稳定性，增强了算法的收敛性. 具体地，当优势函数 ${\hat A_t}$ 为正值时，需要增大新旧策略的比值，而比值大于 $1 + { \varepsilon}$ 时，将不提供额外的激励；当优势函数 ${\hat A_t}$ 为负值时，需要减少新旧策略的比值，而比值小于 $1 - { \varepsilon}$ 时，将不再提供额外的激励.

对于Critic网络，网络参数 ${\boldsymbol \phi}$ 通过式（34）更新：

${\boldsymbol \phi} ' = {\boldsymbol \phi} - \eta {\hat g_{\text{critic}}},$

(34)

其中 ${\boldsymbol \phi}$ 和 ${\boldsymbol \phi} '$ 分别代表Critic网络更新前后的网络参数， $\eta$ 代表参数学习率. 关于策略梯度 ${\hat {\boldsymbol g}_{\text{critic}}}$ ，利用均方误差进行计算，如式（35）所示：

$\begin{split} {{\hat {\boldsymbol g}}_{\text{critic}}} =& {\nabla _{\boldsymbol \phi} }{L^{\rm BL}}\left( {\boldsymbol \phi} \right) = \\ & {E_t}{\nabla _{\boldsymbol \phi} }\left( {{{\left( {\displaystyle\sum\limits_{i = 0}^\infty {{\gamma ^i}} {r_{t + i + 1}} - {V_{\boldsymbol \phi} }\left( {{s_t}} \right)} \right)}^2}} \right) = \\ & {E_t}\left[ {2\left( {\displaystyle\sum\limits_{i = 0}^\infty {{\gamma ^i}} {r_{t + i + 1}} - {V_{\boldsymbol \phi} }\left( {{s_t}} \right)} \right){\nabla _{\boldsymbol \phi} }{V_{\boldsymbol \phi} }\left( {{s_t}} \right)} \right]. \end{split}$

(35)

PPO-AM算法伪代码如下所示：

算法2. PPO-AM算法.

输入：车辆状态和信道状态的集合 $S$ ，Actor网络参数 ${\boldsymbol \theta}$ ，Critic网络参数 ${\boldsymbol \phi}$ ，最大训练次数 $J$ ，每局的时隙数 $T$ ，V2V链路数 ${k_{\max }}$ ，奖励折扣因子 $\gamma$ ，学习率 $\alpha$ ，经验回放缓冲区 $D$ ，经验回放缓冲区大小 ${D_{\max }}$ ，网络参数更新次数 ${L_{{\text{epoch}}}}$ ；

输出：训练完成的策略 ${\pi _{\boldsymbol \theta} }$ .

① 随机初始化Actor网络及其参数、Critic网络及其参数；

② for $j = 1$ to $J$ do

③　初始化环境；

④　 ${\pi _{{\boldsymbol \theta} _{\text{old}}}} \leftarrow {\pi _{\boldsymbol \theta} }$ ；

⑤　for $t = 1$ to $T$ do

⑥　　for $k = 1$ to ${k_{\max }}$ do

⑦　　　 $s_k^t \leftarrow getState(k)$ ；

⑧　　　通过Actor网络得到策略 ${\pi _{\boldsymbol \theta} }$ ，进而得到动作 $a_k^t$ ；

⑨　　　当前V2V链路执行动作 $a_k^t$ ，计算奖励 $r_k^t$ ；

⑩　　　将数据 $\left\{ {s_k^t,a_k^t,r_k^t,s_k^{t{\text{ + 1}}}} \right\}$ 存入 $D$ ；

⑪　　end for

⑫　end for

⑬　if $\left| D \right| = {D_{\max }}$

⑭　　for $l$ to ${L_{{\text{epoch}}}}$

⑮　　　计算 ${Q_{{\pi _{\boldsymbol \theta} }}}$ ；/*式（30）*/

⑯　　　计算 $V_{{\pi _{\boldsymbol \theta} }}^{\boldsymbol \phi} ({s_t})$ ， ${\hat A_t}$ ；/*式（29）（31）*/

⑰　　　更新Actor网络参数 ${\boldsymbol \theta}$ 和Critic网络参数 ${\boldsymbol \phi}$ ；/*式（32）~（35）*/

⑱　　end for

⑲　end if

⑳ end for

3.5 基于进化学习的多目标主问题训练算法

在第2阶段，首先将第1阶段训练的子问题模型集作为初始种群. 在每一代，每个单独的模型通过近端变异生成1个后代，称为子模型，该后代采用SM-G-SUM（safe mutation through gradients-summed gradient variant）变异算子^[33]将缩放的高斯扰动添加到模型参数 ${\boldsymbol \theta}$ 中，如式（36）所示：

${\boldsymbol \theta} ' = {\boldsymbol \theta} + \dfrac{x}{{\boldsymbol \tau } },x \sim {{\mathcal{N}}}\left( {0,\mu } \right) ,$

(36)

其中 $\mu$ 是变异幅度超参数， ${\boldsymbol \tau }$ 是子模型网络参数的敏感度向量^[33].

具体来说，子问题模型集 $\varPi$ 作为初始种群输入到算法3中， $\varPi$ 中每个模型作为进化学习中的“个体”. 然后，计算种群中个体的适应度向量（目标向量），并用适应度向量标记个体. 最后，执行基于多目标的选择. 具体地，采用NSGA-Ⅱ根据适应度向量的非支配水平和拥挤距离对所有个体进行排序，并保留 $N$ 个个体. 算法3是进化学习的伪代码. 基于进化学习的训练算法过程如图4所示.

图 4 基于进化学习的训练算法概述

Figure 4. Overview of training algorithm based on evolutionary learning

下载: 全尺寸图片幻灯片

算法3. 进化学习.

输入：子问题模型集 $\varPi = \left\{ {{\pi _1},{\pi _2}, … ,{\pi _N}} \right\}$ ，其中模型 ${\pi _i}$ 有参数 ${{\boldsymbol \theta} _i}$ ，训练批大小为 ${B_{\rm e}}$ ，最大迭代次数为 ${I_{\max }}$ ，权重向量个数为 $N$ ，非支配策略集合 $EP$ ；

输出：优化后的模型集 ${\varPi ^ * } = \left\{ {\pi _1^ * ,\pi _2^ * , … ,\pi _N^ * } \right\}$ 和非支配策略集合 $EP$ .

① 初始化非支配策略集合 $EP = \varnothing$ ；

② for $i = 1,2, … ,N$ do

③　 ${{\boldsymbol{f}}_{{\pi _i}}} = Evaluate\left( {{\pi _i}} \right)$ ；

④ end for

⑤ for $g = 1,2, … ,{I_{\max }}$ do

⑥　for $i = 1,2, … ,N$ do

⑦　　对训练数据随机采样 ${G_j} = RandomInstance(\; ) ,\forall j \in \left\{ {1,2, … ,{B_{\rm e}}} \right\}$ ；

⑧　　计算敏感度向量 ${\boldsymbol \tau}$ ；

⑨　　 ${{\boldsymbol \theta} '_i} = {{\boldsymbol \theta} _i} + \dfrac{x}{{\boldsymbol \tau} }$ ；

⑩　　产生带有参数 ${{\boldsymbol \theta} '_i}$ 的后代 ${\pi'_i}$ ，并且 ${{\boldsymbol f}_{{\pi_i'}}} = Evaluate\left( {{\pi_i'}} \right)$ ；

⑪　end for

⑫　根据适应度向量的非支配水平和拥挤距离对个体进行排序，并选择 $N$ 个个体作为下一代；

⑬　根据 ${\pi '_i}$ 更新非支配策略集合 $EP$ ；

⑭ end for

⑮ return ${\varPi ^ * } = \left\{ {\pi _1^ * ,\pi _2^ * , … ,\pi _N^ * } \right\}$ .

4. 实验设置与结果分析

本节包括实验环境设置、实验对比算法、实验评估指标和实验结果分析.

4.1 实验环境设置

实验基于TensorFlow 2.7框架和Python 3.9环境，采用NVIDIA GeForce GTX 1650 GPU和Intel Core i5-10400 CPU. 仿真实验中的系统道路模型参考3GPP TR 36.885^[34]的城市案例设计，如表2所示. 环境中相关参数的设定参考3GPP TR36.885中曼哈顿参数，如表3所示. 参考该模型，设计得到的道路模型如图5所示.

表 2 道路模型参数

Table 2. Road Model Parameters

参数	城市案例
车道数	每个方向2个车道，每条街道共计4个车道
车辆数量	60
车道宽度/m	3.5
道路网格大小	$433\; {\text{m}} \times 250 \;{\text{m}}$
仿真区域大小	$1\;299\;{\text{m}} \times 750\;{\text{m}}$
平均车速/（m·s⁻¹）	15
车辆直行概率	0.5
车辆左转概率	0.25
车辆右转概率	0.25

下载: 导出CSV

| 显示表格

表 3 仿真系统参数

Table 3. Simulation System Parameters

参数	取值
载波频率/GHz	2
信道带宽/MHz	1.5
V2V链路负载/Kb	30
快衰落模型	Rayleigh衰落
阴影衰落标准差/dB	3
阴影衰落分布	对数正态分布
基站天线高度/m	25
基站天线增益/dBi	8
基站接收噪声/dB	5
车辆天线高度/m	1.5
车辆天线增益/dBi	3
车辆接收噪声/dB	9
V2N传输功率/dBm	23，10，5

下载: 导出CSV

| 显示表格

图 5 系统道路模型示意图

Figure 5. Schematic diagram of system road model

下载: 全尺寸图片幻灯片

4.2 对比算法

本文设置如下的对比算法以验证所提出算法的性能：

1）随机化资源分配算法RP（random policy）. 在每个时隙，智能体为车辆用户对随机分配传输信道和发射功率.

2）低延时高可靠性优化的深度强化学习资源分配算法LHP（low-latency high-reliability policy）^[24]. 该算法利用深度强化学习DQN算法，在V2V与V2N共享资源的前提下，通过资源分配实现 V2V链路的延迟、可靠性以及V2N链路传输速率的优化.

3）基于AoI的低延时高可靠性优化的深度强化学习资源分配算法LHP-A（low-latency high-reliability policy based on AoI）. 该算法是在文献[24]原有目标基础上添加了AoI的优化目标，使得智能体在决策时额外考虑了链路传输信息的时效性.

4）动态邻近感知资源分配算法DPP（dynamic proximity-aware policy）^[35]. 该算法利用多对1匹配博弈算法实现V2V链路资源分配以最小化V2V链路的延迟.

4.3 评估指标

仿真实验所采用的性能指标如下所示：

1）V2N传输速率 ${C^{\rm c}}$ . V2N传输速率描述了V2N链路在单位时间内传输的数据量. V2N传输速率越高，表示系统在单位时间内能够传输信息就越多. 这一指标可由式（6）计算得到.

2）V2V链路平均AoI ${\bar A^t}$ . V2V链路平均AoI表征车辆获取数据的时效性. V2V链路平均AoI值越低，表示链路传输的信息的时效性越强，即传输的信息越新鲜. 这一指标可由式（13）计算得到.

3）V2V链路传输成功率 ${p_{{\text{success}}}}$ . V2V链路传输成功率是指V2V链路传输过程中，满足延迟约束的数据包所占的比例. V2V链路数据包传输的成功率越高，表示传输越可靠、满足延迟约束的效果越好. 计算方式如式（37）所示：

${p_{{\text{success}}}} = \dfrac{1}{{{k_{\max }}}}\displaystyle\sum\limits_{k = 1}^{{k_{\max }}} {{p_k}} .$

(37)

4）决策延迟时间 ${t_{\text{d}}}$ ^[36]. 决策延迟时间是衡量智能体响应速度的性能指标，是指从发起请求到决策所经历的平均等待时间，计算方式如式（38）所示：

${t_{\text{d}}} = \dfrac{1}{{{n_{\text{d}}}}}\displaystyle\sum\limits_{i = 1}^{{n_{\text{d}}}} {\left( {t_i^{\text{s}} - t_i^{\text{e}}} \right)} ,$

(38)

其中 $t_i^{\text{s}}$ 和 $t_i^{\text{e}}$ 分表代表第 $i$ 次决策的发起时刻和决策时刻， ${n_{\text{d}}}$ 表示决策的总次数.

4.4 算法性能对比

1）收敛性

图6展示了子问题各算法训练过程. 随着训练轮数的增加，各算法的累计奖励均逐渐增大. 其中LHP-A算法在400轮左右达到收敛，PPO算法在350轮左右达到收敛，PPO-AM算法在200轮左右就已收敛，较前二者分别提速约50.0%和42.9%，收敛后的平均累计奖励分别优化约5.82%和19.41%. 这主要归功于PPO-AM算法引入了注意力机制，该机制使得模型在训练过程中能够更加精准地聚焦重要的状态信息，从而加速了对环境关键特征的识别与学习. 注意力机制有效地促进了模型快速捕捉到对累积奖励优化有正面影响的特征，进而加快了整个算法的收敛性.

图 6 子问题训练过程

Figure 6. Training process for the subproblem

下载: 全尺寸图片幻灯片

2）不同车辆数量下各算法性能对比

车辆数量设置为20，40，60，80，100，120，基于表2和表3中的参数，以探究在不同交通密度条件下各算法的性能表现，如图7~9所示.

图 7 不同车辆数量下V2V 链路平均 AoI 对比

Figure 7.

${\bar A^t}$ comparison of V2V links with different number of vehicles

下载: 全尺寸图片幻灯片

图 8 不同车辆数量下V2V 链路传输成功率对比

Figure 8.

${p_{{\text{success}}}}$ comparison of V2V links with different number of vehicles

下载: 全尺寸图片幻灯片

图7展示了不同车辆数量下各算法的V2V链路平均AoI. 就整体而言，AoI会随着车辆数量的增多呈上升趋势，原因是车辆数量增大会不可避免地导致资源块的竞争变得更加激烈，数据包的传输时间变长，导致链路的AoI会变大. 就不同车辆数量而言，当车辆数量为20辆时，3种算法的AoI性能差别不大，这是因为车辆数量较少时，资源竞争并不明显. 当车辆数为40辆时，资源竞争开始显现，导致RP算法的性能显著下降，其AoI开始急剧上升. 相比之下，LHP-A算法虽然也表现出AoI的增长，但其增长速度相对较慢，而MOPPO-AM算法显示出在资源受限环境下更为稳健的性能. 当车辆数量继续增加时，MOPPO-AM算法仍处于较优水平，AoI增长速度最小. 就平均性能而言，MOPPO-AM算法的AoI较RP算法减少54.4%，较LHP-A算法减少12%，说明MOPPO-AM算法在满足V2V链路传输信息时效性方面存在优势.

图8展示了不同车辆数量下各算法的V2V链路传输成功率. 随着车辆数量的增加，各算法的V2V链路传输成功率均出现了不同程度的下降趋势，MOPPO-AM算法下降趋势与其他算法相比较为平稳，但在车辆数为80时，成功率出现了较大幅度的下降，原因是车辆数量过多导致不能满足时间约束的数据传输增多. 车辆数量从40直到更多，MOPPO-AM算法相较对比算法的优势更为明显，与LHP-A算法相比，V2V链路传输成功率平均高出2.1个百分点，最多可达5.1个百分点. 此外，与LHP算法和DPP算法相比，MOPPO-AM的V2V链路传输成功率分别高出3.1个百分点和4.6个百分点. 这表明在对比算法中，MOPPO-AM算法在V2V链路传输成功率方面处于较优水平，在保证V2V链路传输稳定性方面存在优势.

图9展示了不同车辆数量下各算法的V2N链路传输速率. 在不同车辆数量的环境模拟中，MOPPO-AM算法均处于较优水平：较RP算法平均提高约103%，较DPP算法提高约16.7%，较LHP算法和LHP-A算法分别提高了12.1%和16.4%.

图 9 不同车辆数量下V2N 链路传输速率对比

Figure 9.

${C^{\rm c}}$ comparison of V2N links with different number of vehicles

下载: 全尺寸图片幻灯片

综合图7~9可知，在环境车辆数量不断增加的情况下，MOPPO-AM算法可以将车辆数量对性能数据的影响降到最低，由此说明MOPPO-AM算法能够更好地适应不同车辆数量的交通场景.

图10展示了不同车辆数量下各算法决策延迟时间. 由图10（a）可知，在决策延迟时间方面，传统算法DPP，RP和深度强化学习算法之间存在明显差异. 随着车辆数量的不断增加，DPP算法的决策延迟时间呈现出显著增长的趋势，而深度强化学习算法的决策延迟时间则表现出较好的稳定性. 这表明深度强化学习算法在处理大规模动态场景，尤其是车辆密集的交通环境时，相较于DPP算法具有明显的优势. 深度强化学习算法能够更加迅速且准确地做出决策，这不仅提升了决策的响应速度，也有助于实现高效、智能的交通管理. 图10（b）展示的是除DPP算法以外的其他算法决策延迟时间在不同车辆数量下的变化曲线. RP算法所做出的决策都是随机的，无需与环境交互，故决策时间最短. 其他3种算法的决策延迟时间均呈现稳定态势. LHP算法和LHP-A算法的决策延迟时间稳定在8.53 ms和9.57 ms左右；MOPPO-AM算法的决策延迟时间稳定在7.63 ms左右，在对比算法中处于最优水平，较LHP算法和LHP-A算法决策时间分别缩短10.6%和20.3%左右.

图 10 不同车辆数量下决策延迟时间对比

Figure 10.

${t_{\text{d}}}$ comparison with different number of vehicles

下载: 全尺寸图片幻灯片

3）不同链路负载下各算法性能对比

V2V链路负载设置为26 Kb，28 Kb，30 Kb，32 Kb，34 Kb，基于表2和表3中的参数评估在不同链路负载下各算法的性能表现，如图11~13所示.

图 11 不同链路负载下V2V 链路平均 AoI 对比

Figure 11.

${\bar A^t}$ comparison of V2V links with different link loads

下载: 全尺寸图片幻灯片

图 12 不同链路负载下V2V 链路传输成功率对比

Figure 12.

${p_{{\text{success}}}}$ comparison of V2V links with different link loads

下载: 全尺寸图片幻灯片

随着V2V链路负载持续增加，各算法的性能指标均呈现出变差的趋势，这是因为V2V链路负载的增大意味着链路传输任务消耗的资源也随之增多，在相同传输速度情况下，完成V2V链路传输任务所耗费的时间更多. 此外，V2V链路负载的增加还加剧了链路间对有限资源的竞争，导致性能指标的进一步恶化.

图11展示了不同链路负载下各算法的V2V链路平均AoI.2种深度强化学习算法在不同的V2V链路负载的情况下均优于RP算法. 在链路负载为26 Kb和28 Kb时，MOPPO-AM算法和LHP-A算法的AoI性能接近. 但是，随着V2V链路负载不断增加，LHP-A算法的AoI有缓慢增大的趋势，而MOPPO-AM算法的AoI始终维持在0.12左右. 在AoI方面，MOPPO-AM算法较LHP-A算法平均提高15%，较RP算法平均提高58%.

图12展示了不同链路负载下各算法V2V链路传输成功率. 随着V2V链路负载的不断增加，5种算法的V2V链路传输成功率均呈现下降趋势. 其中RP算法的表现最差，平均V2V链路传输成功率只有0.83；LHP-A算法、LHP算法和DPP算法次优，分别为0.94，0.93，0.91； MOPPO-AM算法的表现最好，V2V链路传输成功率的下降速度最慢，平均水平可以达到0.96.

图13展示了不同链路负载下各算法V2N链路传输速率. 随着V2V链路负载的不断增加，V2V链路所分配的资源逐渐增多，这加剧了对V2N链路的干扰，使得V2N链路传输速率也随之降低. 但MOPPO-AM算法具有更高的V2N链路传输速率，平均值为140.16 Mbps，较次优的LHP算法平均提高12.79%.

图 13 不同链路负载下V2N 链路传输速率对比

Figure 13.

${C^{\rm c}}$ comparison of V2N links with different link loads

下载: 全尺寸图片幻灯片

综合图11~13可知，在V2V链路负载逐渐增加的情况下，MOPPO-AM算法仍具有较低的AoI、较高的V2V链路传输成功率和V2N链路传输速率，说明MOPPO-AM算法可以更好地完成多种负载大小的传输任务，且在完成传输任务的同时最小化对V2N链路的干扰.

4）不同信道带宽下各算法性能对比

信道带宽设置为1.00 MHz，1.25 MHz，1.50 MHz，1.75 MHz，2.00 MHz，基于表2和表3中的参数，以评估在不同信道带宽下各算法的性能表现，如图14~16所示.

图 14 不同信道带宽下V2V 链路平均 AoI 对比

Figure 14.

${\bar A^t}$ comparison of V2V links with different channel bandwidths

下载: 全尺寸图片幻灯片

图 15 不同信道带宽下V2V 链路传输成功率对比

Figure 15.

${p_{{\text{success}}}}$ comparison of V2V links with different channel bandwidths

下载: 全尺寸图片幻灯片

随着信道带宽的不断增加，各算法的性能指标呈现出稳步提升的趋势，这是因为信道带宽的增加意味着可分配的传输资源变多，在V2V链路负载和延迟约束保持不变的情况下，V2V链路可分配到的传输资源变多，链路传输速率会有所提升，完成传输任务所需要的时间相应变短，所以性能数据呈现好转趋势.

图14展示了不同信道带宽下各算法的V2V链路平均AoI. 虽然MOPPO-AM算法的AoI下降趋势不比RP算法的明显，但MOPPO-AM算法的AoI在各种信道带宽的情况下都处于最优水平，平均值为0.122，MOPPO-AM算法较RP算法平均减少58.83%，较LHP-A算法平均减少17.72%.

图15展示了不同信道带宽下各算法的V2V链路传输成功率. 随着信道带宽的不断增加，各算法的V2V链路传输成功率均出现了不同程度的上升，其中LHP算法的涨幅最大，上涨了13.91个百分点，MOPPO-AM算法涨幅最小，上涨5.44个百分点. 但MOPPO-AM算法平均表现仍处于较优水平，平均V2V链路传输成功率为96.16%，较涨幅最大的LHP平均提高7.5个百分点.

图16展示了不同信道带宽下各算法的V2N链路传输速率. 在信道带宽较低的情况下，其他对比算法的V2N链路传输速率普遍偏低，但MOPPO-AM算法仍具有较高且稳定的V2N链路传输速率. MOPPO-AM算法在所有信道带宽下V2N链路传输速率的平均值为139.01 Mbps，在所有对比算法中处于最优水平，较RP算法平均提高118.89%，较DPP算法平均提高21.57%，较LHP算法和LHP-A算法分别平均提高13.2%和11.4%.

图 16 不同信道带宽下V2N 链路传输速率对比

Figure 16.

${C^{\rm c}}$ comparison of V2N links with different channel bandwidths

下载: 全尺寸图片幻灯片

综合图14~16可知，在信道带宽较高、可分配的传输资源较充足的情况下，各算法的性能指标之间的差距不大. 在传输资源相对匮乏的情况下，MOPPO-AM算法的性能也出现了下降的趋势，与其他算法相比，MOPPO-AM算法性能下降幅度较小且比较稳定，在信道带宽为1.00 MHz和1.25 MHz时尤为明显. 由此可见，MOPPO-AM算法对信道带宽的变化具有更强的鲁棒性和适应性.

综上所述，实验结果充分证明了MOPPO-AM算法在学习能力和环境感知能力方面的出色表现. 该算法不仅能够有效地处理多目标优化问题，还能通过注意力机制处理与任务最相关的状态信息，从而在资源受限或竞争激烈的环境中展现显著优势，并得出3个结论：

1）注意力机制加速收敛. 基于注意力机制的PPO-AM算法能够更精准地聚焦关键状态特征，减少模型处理不相关信息的复杂度，提高数据利用效率，从而显著加快了收敛速度，有效缩短了训练周期. 同时，PPO通过截断函数clip限制策略更新的幅度，保证了训练过程的稳定性.

2）多目标优化均衡模型训练效果. 相较于传统的单目标优化算法，基于进化学习的多目标优化MOPPO-AM算法在多个关键性能指标上展现出显著优势，包括V2N链路传输速率、V2V链路传输速率、V2V链路延迟、V2V链路平均AoI以及决策延迟时间. 这是因为MOPPO-AM算法可以均衡V2V链路和V2N链路不同的优化目标，能够更好地满足车联网场景中业务类型的多样化需求.

3）大规模动态复杂场景的高效决策能力. MOPPO-AM算法结合了多目标优化和深度强化学习的优势，显著提升了智能体的探索能力和快速响应能力. 特别是在通信资源竞争加剧的情况下，MOPPO-AM算法依然展现出良好的鲁棒性和适应性，确保了决策过程的高效性和稳定性.

5. 结束语

针对蜂窝车联网环境中V2V 链路和 V2N 链路共享无线资源以满足不同性能指标的问题，建立了多目标优化无线资源分配数学规划模型，设计了一种基于进化学习的多目标深度强化学习决策框架求解该问题. 仿真结果表明，该算法保证了智能体在与环境不断交互的过程中快速学习V2V无线资源分配策略，有效解决了动态不确定蜂窝车联网环境下的资源分配问题，旨在实现优化目标V2V链路的性能（即信息年龄、延迟以及传输速率）和V2N链路传输速率之间的权衡. 研究成果不仅提高了蜂窝车联网管控的自动化与自主化效率，而且简化了管控流程与降低人员管理成本，也适用于其他大规模动态复杂网络部署与管理. 后续将研究基于多目标联邦强化学习算法，以解决车联网数据隐私保护场景下的无线资源分配问题.

作者贡献声明：李可负责指导选题、问题建模、算法设计、撰写与修改论文；马赛负责搜集文献资料、实现论文算法、整理实验数据、撰写论文；戴朋林负责指导实验实施、修改论文；任婧和范平志负责网络架构设计和修改论文.

图 1 现有的基于采样的仿真方法

Figure 1. Existing sampling-based simulation methods

下载: 全尺寸图片幻灯片

图 2 来自SPECCPU^® 2006的492个检查点的仿真时间分布

Figure 2. Emulation time distribution of 492 checkpoints from SPECCPU^® 2006

下载: 全尺寸图片幻灯片

图 3 HyWarm的优化概览：将现存固定预热长度分为3段

Figure 3. Optimization overview of HyWarm: Existing fixed warm up duration is divided into three segments

下载: 全尺寸图片幻灯片

图 4 主流的基于采样的仿真方法

Figure 4. Mainstream sampling-based simulation methods

下载: 全尺寸图片幻灯片

图 5 sjeng的预热需求曲线

Figure 5. Warm up demand curve of sjeng

下载: 全尺寸图片幻灯片

图 6 预热长度搜索过程

Figure 6. Warm up length search process

下载: 全尺寸图片幻灯片

图 7 GEM5模拟器与香山处理器的分支预测器预热需求

Figure 7. Warm up demand of branch predictors in GEM5 simulator and Xiangshan processor

下载: 全尺寸图片幻灯片

图 8 开启Verilator多线程对调度策略的影响

Figure 8. Impact of enabling multi-threading in Verilator on scheduling policy

下载: 全尺寸图片幻灯片

图 9 不同的调度策略下最大完成时间对比

Figure 9. Comparison of maximum completion time under different scheduling policies.

下载: 全尺寸图片幻灯片

图 10 HyWarm工作流程

Figure 10. Workflow of HyWarm

下载: 全尺寸图片幻灯片

图 11 Filter模式的工作流程

Figure 11. Workflow of Filter mode

下载: 全尺寸图片幻灯片

图 12 接收TileLink请求的缓存子系统

Figure 12. Cache subsystem that receives TileLink requests

下载: 全尺寸图片幻灯片

图 13 检查点的预热需求（指令数）分布

Figure 13. Distribution of warm up demand (the number of instructions) or checkpoints.

下载: 全尺寸图片幻灯片

图 14 GEM5模拟器与香山处理器的预热需求曲线

Figure 14. Warm up demand curve of GEM5 simulator and Xiangshan processor

下载: 全尺寸图片幻灯片

图 15 不同预热方案对L1MP的影响

Figure 15. Impact of different warm up schemes on L1MP

下载: 全尺寸图片幻灯片

图 16 不同预热方案对分支MPKI的影响

Figure 16. Impact of different warm up schemes on branch MPKI

下载: 全尺寸图片幻灯片

图 17 不同预热方案对CPI的影响

Figure 17. Impact of different warm up schemes on CPI

下载: 全尺寸图片幻灯片

图 18 使用自适应预热时53个负载的全细节仿真周期数分布

Figure 18. Distribution of total detailed simulation cycle counts for 53 workloads using adaptive warm up

下载: 全尺寸图片幻灯片

表 1 在AMD EPYC 7H12 64核服务器上运行不同并行任务数的Verilator的仿真速度

Table 1 Emulation Speed of Verilator with Different Parallelism on AMD EPYC 7H12 Server with 64 Cores

仿真速度/IPS	4线程单任务	4线程16任务	满载性能损失
单任务	2153.13	1189.31
每核	538.28	297.33	45%

下载: 导出CSV

表 2 常用的RTL性能评估方法对比

Table 2 Comparison of Commonly Used RTL Performance Evaluation Methods

RTL性能评估方法	仿真频率	典型价格/CNY	是否可租用	典型可容纳设计
RTL软件仿真器	$\leqslant$ 1kHz	5−10万	是	可容纳商业级SoC
公有云FPGA	$\leqslant$ 100MHz	每天240−3600	是	Boom处理器
私有FPGA	$\leqslant$ 100MHz	$\leqslant$ 40万	否	香山处理器
硬件仿真加速器	$\leqslant$ 1MHz	>1000万	否	可容纳商业级SoC

下载: 导出CSV

表 3 服务器低负载时Verilator仿真的多线程扩展效率对比

Table 3 Comparison of Multi-threading Scaling Efficiency of Verilator Emulation When Server Load is Low

线程数量	1	4	8	16
每核 IPS	190.82	538.28	450.94	321.27

下载: 导出CSV

表 4 服务器满载时Verilator仿真的多线程扩展效率对比

Table 4 Comparison of Multi-threading Scaling Efficiency of Verilator Emulation When Server is Fully Loaded

线程数量	4	8	16
每核IPS	297.33	389.27	335.50

下载: 导出CSV

表 5 微结构配置

Table 5 Microarchitectural Configuration

部件	配置
分支预测器	16KB TAGE-SC + ITTAGE + RAS + 4KB BTB
一级数据缓存	128KB, 8路数据缓存
一级指令缓存	128KB, 8路指令缓存
二级缓存	1MB 8路非包含
三级缓存	6MB 6路非包含
一级指令TLB	40项
一级数据TLB	136（128 × 4k页 + 8 × 2M页）
二级TLB	2K项
取指宽度	每周期8×4B指令
译码重命名宽度	每周期6条指令
ROB/LQ/SQ	256/80/64
物理寄存器堆	192整数；192浮点
执行单元	Int: 4×ALU, 2×MDU, 1×Misc Mem: 2×Ld AGU, 2×St AGU Float: 4×FMA, 2×Misc

下载: 导出CSV

表 6 预热配置

Table 6 Warm up Configurations

方案	功能预热的 M条指令数	全细节预热的 M条指令数	性能测量的 M条指令数
0+100		100	5
0+50		50	5
0+25		20	5
0+10		10	5
0+5		5	5
Ada	100−DW	自适应（DW）	5
FixedFW （95+5）	95	5	5

下载: 导出CSV

表 7 不同功能预热方案的总仿真时长对比 h

Table 7 Comparison of Total Simulation Time for Different Functional Warm up Schemes

子项	0+5	0+10	0+25	FixedFW （95+5）	Ada
GemsFDTD	0.37	0.55	1.04	0.42	0.29
astar.bi	0.57	0.91	1.65	0.58	0.64
astar.ri	0.69	0.95	1.97	0.66	0.79
bwaves	0.57	0.92	1.68	0.60	0.43
bzip2.chi	0.30	0.43	0.81	0.30	0.22
bzip2.com	1.00	1.52	2.71	1.01	0.72
bzip2.htm	0.30	0.43	0.92	0.34	0.31
bzip2.lib	0.30	0.42	0.89	0.30	0.21
bzip2.pro	1.01	1.60	3.19	0.98	0.68
bzip2.sou	0.95	1.49	2.92	1.08	0.96
cactusADM	0.41	0.60	1.35	0.47	0.32
calculix	0.35	0.60	1.12	0.36	0.26
dealII	0.33	0.51	1.10	0.40	1.20
gamess.cy	0.33	0.49	1.00	0.36	3.46
gamess.gra	0.35	0.51	1.06	0.38	1.09
gamess.tri	0.33	0.50	0.92	0.34	1.10
gcc.166	0.42	0.61	1.33	0.48	1.34
gcc.200	0.90	1.17	2.72	0.89	0.71
gcc.cpde	0.54	0.86	1.63	0.62	1.75
gcc.expr2	0.58	0.86	1.76	0.63	1.03
gcc.expr	0.63	0.89	1.75	0.61	0.70
gcc.g23	0.55	0.76	1.54	0.66	0.43
gcc.s04	0.57	0.93	1.66	0.67	0.69
gcc.scil	0.90	1.10	2.34	0.94	2.48
gcc.type	0.92	1.44	2.62	0.91	1.57
gobmk.13x	0.94	1.51	3.08	0.99	1.66
gobmk.nn	0.85	1.28	2.61	0.92	0.61
gobmk.sco	0.97	1.34	2.70	0.98	0.66
gobmk.tr	0.95	1.30	2.63	0.87	0.98
gobmk.tr	0.71	1.07	2.26	0.73	1.17
gromacs	0.72	1.00	2.25	0.72	0.48
h264ref.f	0.44	0.58	1.21	0.47	0.45
h264ref.s	0.38	0.50	1.04	0.38	2.23
hmmer.nph	0.77	1.25	2.52	0.85	1.45
hmmer.re	0.80	1.21	2.43	0.92	0.79
lbm	0.67	1.02	2.08	0.74	0.57
leslie3d	0.51	0.78	1.43	0.51	0.35
libquantum	0.56	0.78	1.55	0.98	0.39
mcf	3.14	4.18	9.35	3.34	2.32
milc	0.42	0.59	1.26	0.46	0.34
namd	0.52	0.77	1.38	0.48	0.31
omnetpp	1.08	1.66	3.19	1.27	1.06
perl.che	0.46	0.68	1.29	0.47	0.83
perl.di	0.55	0.83	1.37	0.52	1.56
perl.spli	0.43	0.66	1.31	0.43	0.32
povray	0.55	0.88	1.65	0.54	5.39
sjeng	0.72	1.05	2.00	0.67	2.14
soplex.p	1.15	1.59	3.57	1.36	0.87
soplex.r	1.11	1.70	3.05	1.14	0.71
sphinx3	0.46	0.72	1.33	0.59	1.49
tonto	0.37	0.55	1.19	0.41	0.48
xalancbmk	0.89	1.42	2.56	1.17	1.03
zeusmp	0.51	0.75	1.53	0.58	0.39
总计	35.8	52.7	105.5	38.5	54.4
注：黑体数字表示mcf是25M全细节预热下的时间最长的子项，而povray是Ada配置下的时间最长子项.

下载: 导出CSV

表 8 不同方案准确率对比

Table 8 Accuracy Comparison of Different Schemes %

方案	CPI	分支MPKI	L1MP
Ada	99.6	91.6	95.1
0+50	99.8	98.9	97.5
0+25	99.7	94.1	91.3
0+10	99.1	85.2	82.8

下载: 导出CSV

表 9 WarmProfiler的分支MPKI预测误差（增高）

Table 9 Branch MPKI Prediction Error Caused by WarmProfiler （increase）

子项	完美预测 MPKI	MPKI 增高	MPKI 增高百分比/%
gcc_expr2	0.443	0.177	39.9
gcc_g23	0.973	0.172	17.7
tonto	0.506	0.117	23.1
gamess_g	0.430	0.112	26.1
gcc_scilab	7.687	0.090	1.2
xalancbmk	2.003	0.079	3.9
gcc_s04	0.163	0.070	42.8
perl_di	0.669	0.066	9.8
h264ref_f	0.042	0.064	151.9
astar_rivers	3.422	0.053	1.6
注：计算MPKI误差的方法是用WarmProfiler指导预热所得的MPKI减去用RTL的真实预热需求进行预热所得到的MPKI. 黑体数字标识出了MPKI误差超过0.1的子项.

下载: 导出CSV

表 10 簇的数量对调度均衡度的影响

Table 10 Impact of Cluster Count on Scheduling Balance

调度均衡度	随机调度	LJF调度
4 簇 × 16核	0.93	0.99
8 簇 × 8核	0.76	0.98
16 簇 × 4核	0.54	0.63

下载: 导出CSV

表 11 LJF调度与随机调度的仿真时间对比

Table 11 Comparison of Simulation Time Between LJF Scheduling and Random Scheduling

仿真	随机调度/h	LJF调度/h	提升率/%
Ada，8核×8簇	8.71	6.91	20.61
Ada，8核×16簇	6.25	5.38	13.89
25+5，8核×8簇	15.98	13.54	15.26
25+5，8核×16簇	11.29	9.35	17.23
注：Ada结合LJF调度是HyWarm提出的方案；25+5结合随机调度是基线方案.

下载: 导出CSV

表 12 采用模拟器IPC和RTL的真实IPC指导LJF调度的最大完成时间

Table 12 Maximum Completion Time of LJF Scheduling Guided by Simulator IPC and Real IPC of RTL h

Ada仿真	模拟器预测IPC	真实IPC
8核 × 4 簇	13.77	13.67
8核 × 8 簇	6.91	6.92
8核 × 16 簇	5.38	5.38
注：黑体数字标识出8簇下模拟器预测IPC获得了更短的完成时间，这是因为LJF是贪心算法，完成时间的预测误差可能导致更好的调度结果.

下载: 导出CSV

参考文献(60)

[1]	Bachrach J, Vo H, Richards B, et al. Chisel: Constructing hardware in a scala embedded language[C] //Proc of the 49th Annual Design Automation Conf. New York: ACM, 2012: 1212–1221
[2]	Nikhil R. Bluespec systemVerilog: Efficient, correct RTL from high-level specifications[C] //Proc of the 2nd Int Conf on Formal Methods and Models for Co-Design. Piscataway, NJ: IEEE, 2004: 69–70
[3]	Asanovic K, Avizienis R, Bachrach J, et al. The Rocket Chip Generator[R]. Berkeley, CA: UC Berkeley, 2016
[4]	Xu Yinan, Yu Zihao, Tang Dan, et al. Towards developing high performance RISC-V processors using agile methodology[C] //Proc of the 55th Annual Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2022: 1178–1199
[5]	Lockhart D, Zibrat G, Batten C. PyMTL: A unified framework for vertically integrated computer architecture research[C] //Proc of the 47th Annual Int Symp on Microarchitecture (MICRO). Los Alamitos, CA: IEEE Computer Society, 2014: 280–292
[6]	Celio C, Chiu P F, Asanović K, et al. Broom: An open-source out-of-order processor with resilient low-voltage operation in 28-nm CMOS[J]. IEEE Micro, 2019, 39(2): 52−60 doi: 10.1109/MM.2019.2897782
[7]	Celio C, Patterson D, Asanovi K. The Berkeley Out-of-Order Machine ( BOOM ) Design Specification[R]. Berkeley, CA: UC Berkeley, 2016
[8]	王凯帆,徐易难,余子濠等. 香山开源高性能 RISC-V 处理器设计与实现[J]. 计算机研究与发展,2023,60(3):476−493 Wang Kaifan, Xu Yinan, Yu Zihao, et al. XiangShan open-source high performance RISC-V processor design and implementation[J]. Journal of Computer Research and Development, 2023, 60(3): 476−493 (in Chinese)
[9]	Veripool. Verilator, the fastest Verilog/SystemVerilog simulator. [EB/OL]. [2022-10-20]. https://www.veripool.org/verilator/
[10]	Sherwood T, Perelman E, Calder B. Basic block distribution analysis to find periodic behavior and simulation points in applications[C] //Proc of the 2001 Int Conf on Parallel Architectures and Compilation Techniques. Los Alamitos, CA: IEEE Computer Society, 2001: 3–14
[11]	Wunderlich R E, Wenisch T F, Falsafi B, et al. SMARTS: Accelerating microarchitecture simulation via rigorous statistical sampling[C] //Proc of the 30th Annual Int Symp on Computer Architecture, ISCA. Los Alamitos, CA: IEEE Computer Society, 2003: 84–95
[12]	Binkert N, Beckmann B, Black G, et al. The gem5 simulator[C] //Proc of the 16th Int Conf on Architectural Support for Programming Languages and Operating Systems.New York: ACM, 2011, 39(2): 1–7
[13]	Kabylkas N, Thorn T, Srinath S, et al. Effective processor verification with logic fuzzer enhanced co-simulation[C] //Proc of the 54th Annual Int Symp on Microarchitecture. New York: ACM, 2021: 667–678
[14]	Eeckhout L, Luo Y, De Bosschere K, et al. BLRL: Accurate and efficient warmup for sampled processor simulation[J]. Computer Journal, 2005, 48(4): 451−459 doi: 10.1093/comjnl/bxh103
[15]	Wenisch T F, Wunderlich R E, Falsafi B, et al. TurboSMARTS: Accurate microarchitecture simulation sampling in minutes[C] //Proc of the Int Conf on Measurements and Modeling of Computer Systems.New York: ACM, 2005: 408–409
[16]	Nikoleris N, Sandberg A, Hagersten E, et al. CoolSim: Statistical techniques to replace cache warming with efficient, virtualized profiling[C] //Proc of the Int Conf on Embedded Computer Systems: Architectures, Modeling and Simulation. Piscataway, NJ: IEEE, 2017: 106–115
[17]	Nikoleris N, Eeckhout L, Hagersten E, et al. Directed statistical warming through time traveling[C] //Proc of the 52nd Annual Int Symp on Microarchitecture. New York: ACM, 2019: 1037–1049
[18]	Patil H, Isaev A, Heirman W, et al. ELFies: executable region checkpoints for performance analysis and simulation[C] // Proc of the Int Symp on Code Generation and Optimization. Piscataway, NJ: IEEE, 2021: 126–136
[19]	Haskins J W, Skadron K. Memory reference reuse latency: accelerated warmup for sampled microarchitecture simulation[C] //Proc of the Int Symp on Performance Analysis of Systems and Software. Los Alamitos, CA: IEEE Computer Society, 2003: 195–203
[20]	Yue Luo, John L K, Eeckhout L. Self-monitored adaptive cache warm-up for microprocessor simulation[C] //Proc of the 16th Symp on Computer Architecture and High Performance Computing. Los Alamitos, CA: IEEE Computer Society, 2004: 10–17
[21]	ARM. Learn the architecture-introducing AMBA CHI[EB/OL]. [2022-11-24]. https://developer.arm.com/documentation/102407/0100
[22]	Cook H, Terpstra W, Lee Y. Diplomatic design patterns: A TileLink case study[C] //Proc of the First Workshop on Computer Architecture Research with RISC-V. Berkeley, CA: UC Berkeley, 2017: 23
[23]	Coffman E G, Sethi R. A generalized bound on LPT sequencing[C] //Proc of the Int Symp on Computer Modeling, Measurement and Evaluation. New York: ACM, 1976: 306–310
[24]	Xiao Xin. A direct proof of the 4/3 bound of LPT scheduling rule[C] //Proc of Int Conf on Frontiers of Manufacturing Science and Measuring Technology. Amsterdam, The Netherlands: Atlantis, 2017: 486–489
[25]	Tan Zhangxi, Waterman A, Cook H, et al. A case for FAME: FPGA architecture model execution[C] //Proc of the 37th Int Symp on Computer Architecture. New York: ACM, 2010: 290–301
[26]	Karandikar S, Mao H, Kim D, et al. FireSim : FPGA-accelerated cycle-exact scale-out system simulation in the public cloud[C] //Proc of the 45th Annual Int Symp on Computer Architecture. Los Alamitos, CA: IEEE Computer Society, 2018: 29-42
[27]	Kim D, Izraelevitz A, Celio C, et al. Strober: Fast and accurate sample-based energy simulation for arbitrary RTL[C] //Proc of the 43rd Int Symp on Computer Architecture. Los Alamitos, CA: IEEE Computer Society, 2016: 128–139
[28]	Hung W N N, Sun R. Challenges in large FPGA-based logic emulation systems[C] //Proc of the Int Symp on Physical Design. New York: ACM, 2018: 26–33
[29]	Agnesina A, Lim S K, Lepercq E, et al. Improving FPGA-based logic emulation systems through machine learning[J].ACM Trans on Design Automation of Electronic Systems, 2020, 25(5): 46:1-46:20
[30]	Cadence. Palladium Emulation [EB/OL]. [2022-12-22]. https://www.cadence.com/en_US/home/tools/system-design-and-verification/emulation-and-prototyping/palladium.html
[31]	Siemens Software. Veloce Hardware-assisted Verification System[EB/OL]. [2023-01-08]. https://eda.sw.siemens.com/en-US/ic/veloce/
[32]	Synopsys. Synopsys Emulation Systems[EB/OL]. [2023-01-08]https://www.synopsys.com/verification/emulation.html
[33]	Beamer S, Donofrio D. Efficiently exploiting low activity factors to accelerate RTL simulation[C] //Proc of the Design Automation Conf. Piscataway, NJ: IEEE, 2020: 1-6
[34]	Sandberg A, Nikoleris N, Carlson T E, et al. Full speed ahead: Detailed architectural simulation at near-native speed[C] //Proc of the Int Symp on Workload Characterization. Los Alamitos, CA: IEEE Computer Society, 2015: 183–192
[35]	Hassani S, Southern G, Renau J. LiveSim: Going live with microarchitecture simulation[C] //Proc of the Int Symp on High-Performance Computer Architecture. Los Alamitos, CA: IEEE Computer Society, 2016: 606–617
[36]	Vengalam U K R, Sharma A, Huang M C. LoopIn: A Loop-Based Simulation Sampling Mechanism[C] //Proc of the Int IEEE Symp on Performance Analysis of Systems and Software. Piscataway, NJ: IEEE, 2022: 224–226
[37]	Carlson T E, Heirman W, Van Craeynest K, et al. BarrierPoint: Sampled simulation of multi-threaded applications[C] //Proc of the Int Symp on Performance Analysis of Systems and Software. Los Alamitos, CA: IEEE Computer Society, 2014: 2–12
[38]	Grass T, Carlson T E, Rico A, et al. Sampled simulation of task-based programs[J]. IEEE Trans on Computers, 2019, 68(2): 255−269 doi: 10.1109/TC.2018.2860012
[39]	Ardestani E K, Renau J. ESESC: A fast multicore simulator using time-based sampling[C] //Proc of the Int Symp on High-Performance Computer Architecture. Los Alamitos, CA: IEEE Computer Society, 2013: 448–459
[40]	Pestel S De, Eyerman S, Eeckhout L. Micro-architecture independent branch behavior characterization[C] //Proc of the Int Symp on Performance Analysis of Systems and Software. Los Alamitos, CA: IEEE Computer Society, 2015: 135–144
[41]	RISC-V International. RISC-V Debug Support Version 1.0.0-STABLE[EB/OL]. [2023-01-26]. https://github.com/riscv/riscv-debug-spec
[42]	Standard Performance Evaluation Corporation. SPEC CPU® 2006[EB/OL]. [2023-01-26]. https://www.spec.org/cpu2006/
[43]	Barr K C, Pan H, Zhang M, et al. Accelerating multiprocessor simulation with a memory timestamp record[C] //Proc of the Int Symp on Performance Analysis of Systems and Software. Los Alamitos, CA: IEEE Computer Society, 2005: 66–77
[44]	Black B, Shen J P. Calibration of microprocessor performance models[J]. Computer, 1998, 31(5): 59−65 doi: 10.1109/2.675637
[45]	Barr K C, Pan H, Zhang M, et al. Accelerating multiprocessor simulation with a memory timestamp record[C] //Proc of the Int Symp on Performance Analysis of Systems and Software. Austin, Texas, USA: IEEE Computer Society, 2005: 66–77.
[46]	Seznec A. A 256 Kbits L-TAGE branch predictor[J]. Journal of Instruction-Level Parallelism Special Issue: The Second Championship Branch Prediction Competition, 2007, 9: 1−6
[47]	Predictors T B, Irisa I. TAGE-SC-L Branch Predictors [J]. 5th JILP Workshop on Computer Architecture Competitions: Championship Branch Prediction, 2016:267175
[48]	Järvelin K, Kekäläinen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transaction on Information Systems, 2002, 20(4): 422−446 doi: 10.1145/582415.582418
[49]	Khan T A, Brown N, Sriraman A, et al. Twig: Profile-guided BTB prefetching for data center applications[C] //Proc of the 54th Annual Int Symp on Microarchitecture. New York: ACM, 2021: 816–829
[50]	Qureshi M K, Patt Y N. Utility-based cache partitioning: A low-overhead, high-performance, runtime mechanism to partition shared caches[C] //Proc of the 43rd Annual Int Symp on Microarchitecture. Los Alamitos, CA: IEEE Computer Society, 2006: 423–432
[51]	Delimitrou C, Kozyrakis C. IBench: Quantifying interference for datacenter applications[C] //Proc of the Int Symp on Workload Characterization. Los Alamitos, CA: IEEE Computer Society, 2013: 23–33
[52]	Leverich J, Kozyrakis C. Reconciling high server utilization and sub-millisecond quality-of-service[C] //Proc of the European Conf on Computer Systems. New York: ACM, 2014: 1-14
[53]	Muralidhara S P, Subramanian L, Mutlu O, et al. Reducing memory interference in multicore systems via application-aware memory channel partitioning[C] //Proc of the 44th Annual Int Symp on Microarchitecture. New York: ACM, 2011: 374–385
[54]	Kasture H, Sanchez D. Ubik: Efficient cache sharing with strict QoS for latency-critical workloads[C] //Proc of the Int Conf on Architectural Support for Programming Languages and Operating Systems. New York: ACM, 2014: 729–742
[55]	Ma Jiayue, Sui Xiufeng, Sun Ninghui, et al. Supporting differentiated services in computers via programmable architecture for resourcing-on-demand (PARD)[C] //Proc of the Int Conf on Architectural Support for Programming Languages and Operating Systems. New York: ACM, 2015, 50(4): 131–143
[56]	Krause K L, Shen V Y, Schwetman H D. Analysis of several task-scheduling algorithms for a model of multiprogramming computer systems[J]. Journal of the ACM, 1975, 22(4): 522−550 doi: 10.1145/321906.321917
[57]	Hochbaum D S, Shmoys D B. Polynomial approximation scheme for scheduling on uniform processors: Using the dual approximation approach[J]. SIAM Journal on Computing, 1988, 17(3): 539−551 doi: 10.1137/0217033
[58]	Horowitz E, Sahni S. Exact and approximate algorithms for scheduling nonidentical processors[J]. Journal of the ACM, 1976, 23(2): 317−327 doi: 10.1145/321941.321951
[59]	Graham, Ronald L. Bounds for certain multiprocessing anomalies[J]. Bell System Technical Journal, 1966, 45(9): 1563−1581 doi: 10.1002/j.1538-7305.1966.tb01709.x
[60]	Sifive. Block-Inclusivecache-Sifive[EB/OL]. [2023-01-25]. https://github.com/sifive/block-inclusivecache-sifive

施引文献(23)

期刊类型引用(16)

1.	戎珂，施新伟，吕若明. “i7算”赋能AI产业生态可持续发展. 科学学研究. 2025(01): 197-204 . 百度学术
2.	张浩严，吕文涛，余润泽，邓志江. 大语言模型研究现状. 无线电工程. 2025(01): 163-174 . 百度学术
3.	李东闻，钟震宇，孙羽菲，申峻宇，马子智，于川越，张玉志. 玲珑：一个小规模的高质量中文预训练语言模型. 计算机研究与发展. 2025(03): 682-693 . 本站查看
4.	陶江垚，奚雪峰，盛胜利，崔志明，左严. 结构化思维提示增强大语言模型推理能力综述. 计算机工程与应用. 2025(06): 64-83 . 百度学术
5.	魏楚元，王昕，周小平，赵光哲，黄明. 大型语言模型及其在建筑行业应用研究综述. 北京建筑大学学报. 2024(02): 1-14+121 . 百度学术
6.	庞进喜. 大模型在汽车国际化多语言处理中的应用. 中国汽车. 2024(05): 14-20 . 百度学术
7.	王晓璐，杨云轩，谢阳斌. 创造人机对话式学习新形态——大语言模型的教育应用现状与展望. 中小学信息技术教育. 2024(05): 15-17 . 百度学术
8.	马伟民. 自然语言大模型技术在政务服务智能客服系统建设中的应用. 信息与电脑(理论版). 2024(08): 86-88 . 百度学术
9.	曾白凌. “被中介的真理”：Sora对媒介相合性的追问. 现代传播(中国传媒大学学报). 2024(05): 1-10 . 百度学术
10.	童俊杰，申佳，赫罡，张奎. 运营商智算中心建设思路及方案. 邮电设计技术. 2024(09): 68-73 . 百度学术
11.	刘同军. 生成式人工智能革新数学教学:场景与案例. 中学数学杂志. 2024(10): 1-4 . 百度学术
12.	尹为民. 一种基于预训练模型的类增量学习近似重放方法分析. 电子技术. 2024(10): 144-145 . 百度学术
13.	崔金满，李冬梅，田萱，孟湘皓，杨宇，崔晓晖. 提示学习研究综述. 计算机工程与应用. 2024(23): 1-27 . 百度学术
14.	王珍珍，向巴卓玛，赵岩松，马星光. 以ChatGPT为代表的大型语言模型在医学教学中的应用. 医学教育管理. 2024(06): 692-697 . 百度学术
15.	王琳. 大语言模型技术背景下重塑研究生论文评价与指导. 学位与研究生教育. 2024(12): 30-37 . 百度学术
16.	朱俊仪，朱尚明. 利用检索增强生成技术开发本地知识库应用. 通信学报. 2024(S2): 242-247 . 百度学术