2025年 第62卷 第4期
随着数据规模的增加,机器学习的重要性与影响力随之增大. 借助量子力学的原理能够实现量子计算,结合量子计算和机器学习形成的量子机器学习算法对经典机器学习算法理论上能够产生指数级的加速优势. 部分经典算法的量子版本已经被提出,有望解决使用经典计算机难以解决的问题. 当前受量子计算硬件所限,可操控的量子比特数目和噪声等因素制约着量子计算机的发展. 短期内量子计算硬件难以达到通用量子计算机需要的程度,当前研究重点是获得能够在中等规模含噪声量子(noisy intermediate-scale quantum,NISQ)计算设备上运行的算法. 变分量子算法是一种混合量子-经典算法,适合应用于当前量子计算设备,是量子机器学习领域的研究热点之一. 变分量子电路是一种参数化量子电路,变分量子算法利用其完成量子机器学习任务. 变分量子电路也被称为拟设或量子神经网络. 变分量子算法框架主要由5个步骤组成:1)根据任务设计损失函数和量子电路结构;2)将经典数据预处理后编码到量子态上,量子数据可以省略编码;3)计算损失函数;4)测量和后处理;5)优化器优化参数. 在此背景下,综述了量子计算基础理论与变分量子算法的基础框架,详细介绍了变分量子算法在量子机器学习领域的应用及进展,分别对量子有监督学习、量子无监督学习、量子半监督学习、量子强化学习以及量子电路结构搜索相关模型进行了介绍与对比,对相关数据集及相关模拟平台进行了简要介绍和汇总,最后提出了基于变分量子电路量子机器学习算法所面临的挑战及今后的研究趋势.
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战. 主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息. 在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性. 在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果. 基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络. 该模型采用U-NET架构,通过双分支结构对音频的幅值和相位信息同时建模;在2个分支之间引入复值计算模块以实现信息交互;在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度. 该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET 16和DCUNET20相比,在客观语音质量评估指标PESQ(perceptual evaluation of speech quality)分别提高了0.51和0.47. 除了PESQ指标外,其他指标也都有显著的提升. 相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著.
图拓扑不平衡问题是由于节点在拓扑空间中的不均匀和不对称分布,对图神经网络性能产生了严重的负面影响. 当前的研究主要侧重于标记节点,而对无标记节点的关注较少. 为应对这一挑战,提出了一种基于随机游走路径的自监督学习方法,旨在解决拓扑不平衡问题带来的同质性假设限制、拓扑距离衰减以及注释衰减等难题. 所提方法引入了多跳路径的子图邻域概念,以更全面地捕捉节点之间的关系和局部特征. 首先,通过路径间聚合策略学习多跳路径中的同质和异质特征,不仅保留了节点的原始属性,而且维护了它们在随机游走序列中的初始结构连接. 此外,结合了基于多条路径的子图采样和子图生成策略以及结构化的对比损失,最大化了同一节点局部子图的内在特征,从而增强了图表示的表达能力. 经过实验验证,所提方法在多种不平衡场景下都表现出了出色的有效性和泛化性能. 这一研究为解决图拓扑不平衡问题提供了新的方法和视角.
由于低照度配对图像的制作成本昂贵且难于制作,而非配对低照度图像增强方法不依赖配对图像数据因而更有实用价值,但其缺乏详细的监督信号导致输出图像存在全局曝光不一致、色彩失真和大量噪声等视觉退化问题,在实际应用中存在挑战. 为了更好地满足实用需求,提出一种基于全局一致的非配对低照度增强方法(unpaired low-light enhancement method based on global consistency,GCLLE). 首先,该方法通过全局一致性保持模块(global consistency preserving module,GCPM)将编码器和解码器中相同尺度的特征重新建模并融合以矫正不同尺度的上下文信息,保证输出图像全局曝光调整一致性和全局结构一致性,使得图像亮度分布均匀并避免扭曲和失真;利用局部平滑和调制模块(local smoothing and modulation module,LSMM)学习一组局部的低阶曲线映射,为图像提供更宽的动态范围并进一步提高质量,实现真实和自然的增强效果;提出使用双路池化融合深层特征的深度特征强化模块(deep feature enhancement module,DFEM)压缩无关信息并突出更有区分度的编码特征,减少了不准确信息并使得解码器更容易捕获图像中的低强度信号,保留图像更多细节. 不同于关注配对图像像素间一对一映射关系的配对增强方法,GCLLE通过缩小低照度图像与非配对正常照度图像之间的风格差异实现增强. 在MIT和LSRW数据集上进行大量的实验,结果表明所提方法在多个客观指标上超过了现有典型低照度增强方法,具有更好的增强效果.
动态功能连接(dynamic functional connections,dFCs)已广泛应用于静息态功能磁共振成像(rs-fMRI)分析,其可以将大脑功能连接视为在多个时间窗上动态变化的过程,探索大脑在不同时间段内的功能连接变化,为脑疾病诊断提供了新的视角和策略. 然而常见的动态脑网络分析方法无法有效利用动态数据之间的潜在关联和时序性,且忽视了各个窗口因为数据质量不一致而导致的不确定性因素. 为此,提出一种基于动态证据神经网络(dynamic evidence neural networks,DE-NNs)的脑网络分析算法. 该算法设计了一种动态脑网络多视图证据获取模块,将动态脑网络的每个时间窗视为一个视图,利用3个不同的卷积滤波器提取动态脑网络每个时间窗的特征图,充分获取动态层面的证据. 为了充分利用动态证据,设计了一种动态证据融合机制,结合证据理论合成规则,针对dFC数据的时序性构造动态信任函数,在分类的决策层对多个窗口产生的证据进行融合,充分考虑不确定性信息,显著提高分类性能. 为验证所提DE-NNs的有效性,在3个精神分裂症数据集上与现有的先进算法进行比较实验,结果表明DE-NNs在3个脑疾病诊断任务上的准确率和
在传统的问答任务中,模型一般需要大量的数据进行训练,而标注这些数据需要较多的时间和人力成本. 无监督问题生成是解决问答任务训练数据匮乏的一种有效方法,但是目前使用该方法生成的问题存在难以回答、种类单一、语义不明等问题. 针对这些问题,提出了一个自适应的多模块流水线式模型ADVICE,多个模块分别从问题可回答性、问题多样性和语法规范性对现有方法进行改进. 在问题可回答性模块中,使用了共指消解和命名实体识别技术来提升问题的可回答性. 在问题多样性模块中,针对不同提问方式的问题设计了不同的规则来提升问题类型多样性与答案类型多样性. 在语法规范性模块中,基于T5训练了一个针对问句的语法错误纠正模型,并设计了一个筛选模块对纠正后的问答数据进行过滤. 最后,训练了一个分类器自动选择所需要的模块. 实验表明,使用改进后的问题生成方法,下游的问答模型在SQuAD数据集上的
方面情感三元组抽取(aspect sentiment triplet extraction,ASTE)是方面级情感分析(aspect based sentiment analysis,ABSA)中具有挑战性的子任务之一,旨在从文本中抽取方面术语、观点术语和情感极性三元组. 近期基于生成式的抽取方法取得了出色的表现,这些方法通过顺序串联目标三元组来实现自回归式三元组生成. 然而,这种串联方法可能导致无序三元组之间存在顺序依赖,从而在解码过程中引入错误累积. 为解决这个问题,提出了基于术语提示双路文本生成(term-prompted and dual-path text generation,TePDuP)的方法. 该方法首先利用机器阅读理解(machine reading comprehension,MRC)实现方面术语和观点术语的并行化抽取,然后将它们作为提示前缀来引导条件式三元组的生成,形成双路文本生成框架. 同时,在训练阶段引入计划采样的方法来修正MRC抽取错误所带来的偏差. 为进一步提高性能,引入生成概率将方面术语和观点术语引导的结果合并,以增强模型的鲁棒性. 基于ASTE-DATA-V2数据集的实验结果表明,提出的方法是有效的且明显优于其他基线模型,并给出具体案例分析,证明该方法一定程度上解决了前述问题.
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性. 现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性. 另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性. 利用基三众核架构(triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟. 在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制HamSPR(Hamiltonian shortest path routing). GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78% ~ 65.40% 和6.94% ~ 34.15%,吞吐量提高了8.00% ~ 59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低. 与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1% ~ 10%的提升.
随着电子设计自动化技术的迅速发展,连续微流控生物芯片成为了目前最具前景的生化实验平台之一. 该芯片通过采用内部的微阀门以及微通道来操纵体积仅为毫升或纳升的流体样品,从而自动执行混合和检测等基本的生化实验操作. 为了实现正确的生化测定功能,部署于芯片内部的微阀门通常需要由基于多路复用器的控制逻辑进行管控,其通过控制通道获得来自核心输入的控制信号以实现精确切换. 由于生化反应通常需要非常高的灵敏度,因此为了保证信号的即时传输,需要尽可能地减少连接每个阀门的控制路径长度,以降低信号传输的时延. 此外,为了降低芯片的制造成本,如何有效减少控制逻辑中通道的总长度也是逻辑架构设计需要解决的关键问题之一. 针对上述问题,提出了一种基于深度强化学习的控制逻辑布线算法以最小化信号传输时延以及控制通道总长度,从而自动构建高效的控制通道网络. 该算法采用竞争深度Q网络架构作为深度强化学习框架的智能体,从而对信号传输时延和通道总长度进行权衡评估. 此外,针对控制逻辑首次实现了对角型的通道布线,从根本上提高了阀门切换操作的效率并降低了芯片的制造成本. 实验结果表明,所提出的算法能够有效构建高性能、低成本的控制逻辑架构.
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素. 为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证. 针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制. 此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口. 最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求.
连续微流控生物芯片(continuous-flow microfluidic biochips,CFMBs)由于其能够自动高效地执行生化应用,成为近年来的研究热点. PathDriver+将实际的流体运输需求考虑进CFMBs设计流程中,并实现了实际的流体运输和去除,并为每个运输任务规划独立的流路径,而这些问题在之前的工作中被忽略了. 但是,由于PathDriver+仅考虑了网格模型下总体布线的线长优化,而未考虑详细布线,没有充分利用CFMBs布线的灵活性. 此外,PathDriver+仅考虑X型布线方式,而任意角度布线能够更有效地利用布线资源,从而缩短流通道长度. 针对上述问题,提出了流路径驱动的任意角度布线算法,在考虑实际的流体运输需求的同时,提高布线资源的利用率,减少流通道的长度. 首先基于Delaunay三角剖分构建搜索图,从而在保证布线质量的同时,提高布线解的搜索效率. 然后,在构建的搜索图上,使用基于Dijkstra的流路径布线方法,以快速生成具有较短线长的布线结果. 在布线过程中针对流通道复用和流通道交叉点数量优化问题,分别提出了通道复用策略和交叉优化策略,以进一步提高布线结果的质量. 实验结果表明,与最新工作PathDriver+相比,所提算法在布线总线长、流层端口使用数量、通道交叉点数量方面分别降低了33.21%,11.04%,44.79%,通道复用率平均提高了26.88个百分点,交叉点处引入阀门的总数量平均减少了42.01%,这表明所提算法的有效性和优越性.
随着现代计算机技术的进步,内存墙问题越发严重. 在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源. 近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存. 路划分技术是缓存资源管理的主要方法,通过将缓存按路为单位划分后分配给各个应用使用,实现系统性能优化. 然而路划分粒度较粗,要求缓存的所有组(set)都遵循同样的路划分方案. 实际上,应用在不同组可能会有不同的空间需求,路划分技术限制了缓存的空间利用,造成资源浪费. GroupUCP是一种按需调节的细粒度缓存资源管理技术,其设计思路是根据每个应用对各缓存组的不同需求,采用动态分组和实时评估的方式,将各个缓存组聚合成组,分组进行按需分配. 这一设计允许各个组进行独立的路划分分配,从而提高缓存使用率和整体系统性能. 实验证明,相较于传统的UCP方法,GroupUCP利用更少的硬件资源实现了更细粒度资源按需分配,在对缓存资源敏感且需求不均衡的应用组合下获得了更高的系统性能提升.
由于兼具高灵活性和高能效的特征,粗粒度可重构阵列(coarse-grained reconfigurable array,CGRA)是一种具有潜力的领域定制加速器架构. 为了利用多bank存储器的访问并行性,通常会在CGRA中引入存储器划分. 然而,在CGRA上进行存储划分工作要么以昂贵的寻址开销为代价实现最佳分区解决方案,要么以更多的存储bank消耗为代价来减少面积和功耗开销. 为此,提出了一种通过访存图案变形来实现面向CGRA的存储划分方法. 通过对包含多维数组的应用进行存储划分和算子调度协同优化,形成了存储划分友好的访存图案,从而可以用全“1”超平面对其进行存储划分,进而优化了划分结果并减少了访存地址计算开销. 基于全“1”超平面的划分策略,还提出了一种可精简地址生成单元的高能效CGRA架构. 实验结果表明,与最先进的方法相比,该方法可以实现1.25倍的能效提升.
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展. 来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计. 加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势. 多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题. 为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台. 尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型. 因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中. 基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法. 评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况. 结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95% CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平. 这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路.
时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全性,这使得WCET分析变得非常困难. 相反地,如果能够确保要分析的程序与平台不存在时序异常,将大大减少WCET分析需要考虑的状态以及所花费的时间. 因此,时序异常问题是WCET分析中的关键挑战. 然而,尽管历经20多年的研究,学术界对时序异常问题仍未形成统一的定义和共识. 自时序异常概念提出以来,学术界涌现出了各种文献描述时序异常,对于这些定义,可以根据定义方式和描述内容对它们进行分类,并分析它们各自的优劣. 进一步地,如果对导致时序异常的原因进行研究,可以将其归结为调度策略、高速缓存以及组件影响这3个方面. 此外,目前也有一些验证与消除时序异常的相关研究工作,这些工作也存在一些问题和不足. WCET分析的未来应当以分析方式为基础进行时序异常相关的研究,以更好地解决时序异常问题.
随着云计算领域数据安全和用户隐私的需求发展,密文图像可逆信息隐藏(reversible data hiding in encrypted images,RDHEI)技术已经越来越受到人们的关注,但目前大多数的密文图像可逆信息隐藏都是基于灰度图像,它们与彩色图像相比在应用场景上有很大局限性. 此外,由于目前关于密文域的可逆信息隐藏方法主要集中于灰度图像,同时针对彩色图像的特性优化较少,往往无法对彩色载体图像实现更好的性能,所以进一步加强对基于彩色密文图像的可逆信息隐藏算法的研究具有很高的价值. 首次提出了一种可以用于云计算环境的基于颜色通道相关性和熵编码的高性能彩色密文图像可逆信息隐藏算法(RDHEI-CE). 首先,原始彩色图像的RGB通道被分离并分别得出预测误差. 接下来,通过自适应熵编码和预测误差直方图生成嵌入空间. 之后通过颜色通道相关性进一步扩展嵌入空间,并将秘密信息嵌入加密图像中. 最后,对载密图像进行可逆置乱以抵御唯密文攻击. 与大多数最先进的可逆信息隐藏方法相比,实验表明RDHEI-CE算法提供了更高的嵌入率和更好的安全性,并且拓宽了可逆信息隐藏在云端的应用场景.
可追踪的基于属性的签名(traceable attribute-based signature,TABS)继承了属性签名的优点,能通过可信第三方追踪签名者的真实身份,避免了属性签名匿名性的滥用. 目前,针对1对多认证场景下支持可追踪的签名策略属性签名(signature-policy attribute-based signature,SP-ABS)方案甚少,现有方案大多存在以下不足:验证阶段的计算复杂度与属性个数呈线性关系,运算效率不高,同时策略由验证者直接提供给签名者容易造成策略隐私泄露. 为此,提出一种基于SM9的支持策略隐藏的可追踪属性签名方案,该方案采用属性名和属性值拆分的线性秘密共享方案(linear secret sharing scheme,LSSS)构造访问结构,支持策略的部分隐藏,能在保障签名者身份隐私和属性隐私的情况下,保障验证者的策略隐私,在验证阶段只需要常数量级的配对运算和指数运算,能实现高效的细粒度访问控制. 最后通过
基于WiFi感知的呼吸监测具有非接触、低成本和隐私保护性高等优点,已成为当前物联网感知层研究的热点. 然而,现有基于WiFi感知的呼吸监测依赖敏感的信道状态信息,在应用时要求处于静止状态的监测目标不能距离WiFi收发设备过远,并要求不能有处于运动状态的非监测目标的干扰,这些要求制约了WiFi感知在呼吸监测方面的应用推广. 为此,提出了一种适应于动态场景的呼吸监测范围扩大方法FDRadio,尝试从分离动态干扰源、消除环境噪声以及增强动态反射信号功率3个方面提高感知精度和监测范围. 具体而言,首先通过合并多个WiFi信道扩展信道带宽,以提高WiFi感知的空间分辨率,并使用有线直连信道作为参考信道去除硬件噪声. 其次分析了监测范围与环境噪声的关系,并基于时间分集提出一种2级消除环境噪声的方法. 此外设计并实现了一种新颖的权值分配算法,通过合理叠加不同天线的比值信号,最大化动态反射信号功率,从而使处理后的信号对呼吸引起的胸腔微弱起伏具有更强的感知能力. 最后将处理后的信号转换到时域上的功率时延谱,利用监测目标和非监测目标之间信号传播路径的距离差,识别目标的呼吸信号. 在商用嵌入式设备上实现了FDRadio,并进行了一系列实验. 实验结果表明,即使监测人员附近有多个连续移动的非监测目标,FDRadio依然能够在7 m监测范围内保持监测误差小于0.5 bpm.