• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

2023年  第60卷  第6期

栏目
观点
摘要:

在人工智能领域,ChatGPT作为一种重要的技术突破,引起了广泛的关注. 本文将探讨ChatGPT在人工智能发展中的地位及其对未来AI的影响. 首先,介绍了ChatGPT所展现出的优秀对话生成能力,使其几乎可以胜任所有自然语言处理任务,并将作为数据生成器、知识挖掘工具、模型调度员、自然交互界面在各种场景得到应用. 接着,分析了其在事实错误、毒害内容生成、安全性、公平性、可解释性、数据隐私等方面的局限,并讨论了作为辅助人类工具的ChatGPT明确能力边界和提高能力范围的重要性. 然后,从概念经典表示对“真”定义进行了分析,并从概念三指不等价的角度阐释性了ChatGPT无法区分真假的原因. 在论述AI未来时,从拓展应用、克服局限、探索理论分析了中短期技术趋势,并从感知、认知、情感、行为智能四个层面的关系讨论了长期发展路径. 最后,探讨了ChatGPT作为认知智能的代表,对包括认知成本、教育要求、图灵测试认识、学术界的机遇与挑战、信息茧房、能源环境问题和生产力提升等方面可能产生的影响.

处理器芯片敏捷设计研究专题
摘要:

构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节. 为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测. 针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制. 通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统. 此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架. 通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率.

摘要:

芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率. 在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用. 然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势. 因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)——Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销. 实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5%的工作负载运行延迟.

摘要:

数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域. 飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘. 不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发. 然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力. 尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出. 针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中. 该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化. 该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性. 此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计. 实验表明,该框架生成的内核基准测试代码的平均性能是目标—数字信号处理器(DSP)——的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍.

摘要:

在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础. 现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能. 但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间. 在处理器RTL仿真过程中,预热过程的时间占比很大. HyWarm框架的提出是为了加速性能测算过程中的预热过程. HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案. 对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间. HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%.

分布式计算
摘要:

随着云计算技术的不断发展,越来越多的企业和组织开始采用跨云的方式进行IT交付.跨云环境可以更有效地应对传统单云环境资源利用率低、资源受限以及供应商锁定等问题,并对云资源进行统一管理.由于跨云环境中资源具有异构性,导致跨云任务调度变得更为复杂.基于此,如何合理地调度用户任务并将其分配到最佳的跨云资源上执行,成为了跨云环境中需要解决的重要问题.拟从跨云环境的角度出发,探讨该环境下任务调度算法研究的进展及挑战.首先,结合跨云环境特征将云计算分为联盟云、多云环境并进行详细介绍,同时回顾已有的任务调度类型并分析其优缺点;其次,根据研究现状选取代表性文献对跨云环境下任务调度算法进行整理、分析;最后探讨了跨云环境下任务调度算法研究中的不足和未来的研究趋势,为跨云环境下任务调度算法的进一步研究提供了参考.

摘要:

随着边缘智能需求的快速增长,联邦学习(federated learning,FL)技术在产业界受到了极大的关注. 与传统基于云计算的集中式机器学习相比,边缘网络环境下联邦学习借助移动边缘设备共同训练机器学习模型,不需要把大量本地数据发送到云端进行处理,缩短了数据处理计算节点与用户之间的距离,在满足用户低时延需求的同时,用户数据可以在本地训练进而实现数据隐私保护. 在边缘网络环境下,由于通信资源和计算资源受限,联邦学习的性能依赖于无线网络状态、终端设备资源以及数据质量的综合限制. 因此,面向边缘智能应用,首先分析了边缘智能环境下高效联邦学习面临的挑战,然后综述联邦学习在客户端选择、模型训练与模型更新等关键技术方面的研究进展,最后对边缘智能联邦学习的发展趋势进行了展望.

摘要:

边缘计算广泛应用于物联网、车联网和在线游戏等新兴领域,通过网络边缘部署计算资源为终端设备提供低延迟计算服务. 针对如何进行任务卸载以权衡任务执行时间与传输时间、如何调度多个不同截止期任务以最小化总延迟时间等挑战性问题,提出1种异构边缘协同的任务卸载和调度框架,包括边缘网络拓扑节点排序、边缘节点内任务排序、任务卸载策略、任务调度和结果调优等算法组件;设计多种任务卸载策略和任务调度策略;借助多因素方差分析(multi-factor analysis of variance,ANOVA)技术在大规模随机实例上校正算法算子和参数,得到统计意义上的最佳调度算法. 基于EdgeCloudSim仿真平台,将所提出调度算法与其3个变种算法从边缘节点数量、任务数量、任务分布、截止期取值区间等角度进行性能比较. 实验结果表明,所提出调度算法在各种情形下性能都优于对比算法.

摘要:

深度神经网络(deep neural network,DNN)已广泛应用于人类社会的许多领域. 大规模的DNN模型可显著提高识别精度,然而在单个GPU设备上训练大规模的DNN模型需要耗费大量的时间. 因此,如何借助分布式深度学习(distributed deep learning,DDL)技术,在GPU集群上并行地训练多DNN模型已受到工业界和学术界的广泛关注. 基于此,提出一种面向GPU集群的动态资源调度(dynamic resource scheduling,DRS)方法,解决异构带宽环境下具有截止时间要求的多DNN任务调度问题. 具体来说,首先基于Ring-AllReduce通信方式构建资源-时间模型,以衡量DDL任务在不同资源方案下的运行时间;然后基于截止时间需求构建了资源-性能模型,以实现高效的资源利用;最后,结合上述资源-时间和资源-性能模型设计了DRS算法,为多DNN任务训练实现资源方案决策.在DRS算法中融入最近截止时间原则进行实际资源分配,并利用资源迁移机制减少调度过程中出现的资源碎片场景的影响. 在4个NVIDIA GeForce RTX 2080 Ti的GPU集群上的异构带宽的实验表明,DRS相较于对比算法提升了39.53%的截止时间保证率,并在调度过程中GPU集群节点的资源利用率达到了91.27%.

计算机系统结构
摘要:

时间敏感网络(time-sensitive networking,TSN)通过时空资源规划保证关键流量传输的实时性和确定性,规划工具在分配时间资源时使用关键帧,在重负载情况下进出芯片的最大交换延时时作为输入参数.为了满足TSN应用的低传输延时要求,TSN芯片设计时需要以最小化最大交换延时为重要目标.当前商用TSN芯片一般采用单流水线交换架构,容易在流水线的入口处发生“完整帧阻塞”问题,导致芯片的最大交换延时难以降低.针对此问题,提出了一种基于时分复用的多流水线交换架构(n-pipeline switching architecture ,nPSA)该架构将“完整帧阻塞”问题优化成“切片阻塞”问题.同时,提出了面向时分复用机制的加权轮询式时隙分配算法(WRRSA)以求解不同端口类型组合下的时隙分配方案.目前nPSA架构和WRRSA算法已经在OpenTSN开源芯片和“枫林一号”ASIC芯片(HX-DS09)中得到应用.实际测试结果显示,长度为64 B的关键帧在OpenTSN芯片和“枫林一号”芯片中经历的最大交换延时分别为1648 ns和698 ns,与基于单流水线架构的TSN交换芯片的理论值相比,延时数值分别降低约88%和95%.

摘要:

分支预测允许处理器并行执行分支之后的指令,由于其高准确率具有性能和功耗方面的双重好处,是一项重要的处理器优化技术. 根据分而治之的策略,返回地址栈(return-address stack,RAS )将过程返回类分支单独分出并予以预测. 其中,RAS利用过程调用和返回的后入先出规则,可通过猜测执行中调用栈的模拟准确预测返回地址. 但是,由于实际处理器猜测执行带来的错误路径污染,该结构需要通过恢复机制来保障所存储数据的准确性. 尤其在对面积资源敏感的嵌入式领域,设计者需要在准确率和恢复机制的开销间进行细致的权衡. 针对RAS存储中的冗余,通过溢出检测结合传统栈、持久化栈和后备预测3种预测方式,提出一种基于持久化栈的返回地址预测器——混合返回地址栈(hybrid return-address stack,HRAS),避免错误路径污染和对返回地址的冗余存储,从而有效降低返回误预测率. 与此同时,设计解耦传统栈和持久化栈,进一步降低其面积需求. 根据SPEC CPU 2000基准测试以及设计编译器的评估结果,HRAS可利用仅1.1×104 μm2的设计面积将过程返回的每千条指令误预测(MPKI)降至2.4×10−3 ,其误预测相比现有RAS可降低96%.

人工智能
摘要:

联邦学习作为一种新兴的分布式机器学习方法,保证了物联网(Internet of things,IoT)设备在数据不出本地的前提下,仅通过传递模型参数来共同维护中央服务器模型,从而达到保护数据隐私安全的目的. 传统的联邦学习方法常常在基于设备数据独立同分布的场景下进行联合学习. 然而,在实际场景中各设备间的数据样本分布存在差异,使得传统联邦学习方法在非独立同分布(non-independent and identically distributed,Non-IID)的场景下效果不佳. 面向Non-IID场景下的混合数据分布问题,提出了新型的联邦自适应交互模型(federated adaptive interaction model,FedAIM)框架,该框架可以同时对不同偏置程度的混合数据进行自适应地交互学习. 具体来说,首先,通过引入陆地移动距离(earth mover's distance,EMD)对各客户端的数据分布进行偏置程度度量(bias measurement),并设计极偏服务器和非极偏服务器2个模块分别处理不同偏置程度的数据分布. 其次,提出了基于信息熵的模型参数交互机制,使得FedAIM可以有效地聚合极偏服务器和非极偏服务器产生的模型参数,从而有效提高模型的准确率和减少服务器之间的交互轮次. 经实验表明,FedAIM在Non-IID混合数据分布场景下的MNIST,Fashion-MNIST,CIFAR-10,SVHN,FEMNIST数据集上准确率均优于已有方法.

摘要:

生成对抗模仿学习(generative adversarial imitation learning, GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning, IRL)方法,旨在从专家样本中模仿专家策略. 在实际任务中,专家样本往往由多模态策略产生. 然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用. 针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL). 该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略. 此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略. 在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性. 为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较. 实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性.

摘要:

异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习. 同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台. 针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取. 该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率. 进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩. 建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果. 模型代码公布在https://github.com/meadewaking/Compact_A3C.

摘要:

线性赌博机模型是在线学习的基本模型之一,其每个摇臂的平均奖赏可以由线性函数进行参数化. 该模型具有坚实的理论保证和良好的实际建模能力,被广泛应用于各个场景. 然而在一些现实场景中,数据通常是从开放动态环境中收集得到,因而会存在数据不规范的问题,已有算法缺乏对此的稳健性. 特别关注2类数据的不规范性:奖励函数的回归参数可能随时间变化,环境噪声可能无界,甚至不服从亚高斯分布. 这2类问题分别被称为分布变化和重尾噪声. 为了应对这2类不利因素, 提出一种基于置信上界的在线算法, 该算法使用均值中位数估计器以处理潜在的重尾噪声,同时采用重启机制来解决分布变化问题. 在理论上,首先建立了问题的遗憾理论下界, 进一步给出了算法的理论保障, 所取得的结果可以回退到已有研究中没有分布变化或没有重尾噪声场景线性赌博机的理论结果. 此外,针对未知环境设计了实用的在线集成适应技术,并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.

网络与信息安全
摘要:

随着各种深度学习生成模型在各领域的应用,生成的多媒体文件的真伪越来越难以辨别,深度伪造技术也因此得以诞生和发展. 深度伪造技术通过深度学习相关技术能够篡改视频或者图片中的人脸身份信息、表情和肢体动作,以及生成特定人物的虚假语音. 自2018年Deepfakes技术在社交网络上掀起换脸热潮开始,大量的深度伪造方法被提出,并展现了其在教育、娱乐等领域的潜在应用. 但同时深度伪造技术在社会舆论、司法刑侦等方面产生的负面影响也不容忽视. 因此有越来越多的对抗手段被提出用于防止深度伪造被不法分子所应用,如深度伪造的检测和水印. 首先,针对不同模态类型的深度伪造技术以及相应的检测技术进行了回顾和总结,并根据研究目的和研究方法对现有的研究进行了分析和归类;其次,总结了近年研究中广泛使用的视频和音频数据集;最后,探讨了该领域未来发展面临的机遇和挑战.

摘要:

单点登录(single sign on,SSO)方案能够避免认证模块冗余带来的资源浪费、信息泄露问题,而具有匿名性的单点登录能够在保护个人隐私的情况下实现匿名认证与授权,但现有的匿名单点登录方案未考虑因用户匿名而出现的欺诈行为追责问题. 针对此问题,首先提出一个格上可追溯的匿名单点登录方案. 所提方案采用格上基于身份的密码体制缓解公钥证书管理问题,通过授权认证标签和假名实现对用户的匿名认证;然后使用强指定验证者技术实现用户服务请求的定向验证;同时引入受信任机构,通过公钥恢复出用户身份并进行追责;最后在安全模型下证明方案具有不可链接性、不可伪造性与可追溯性. 安全性与性能分析结果表明方案在PARMS II和PARMS III这2组参数下,分别运行大约75 ms和108 ms便可为用户生成可供4次服务请求的访问服务票据,并可达到230 b和292 b的量子安全强度.