子图匹配是在大型目标图中找出给定查询子图的全部匹配位置,在社交网络、生物化学和认知科学等多个领域都具有关键意义. 基于回溯搜索的子图匹配算法时间复杂度高,需要有效的剪枝策略减少运行时间. 然而,现有启发式剪枝算法只能依据当前状态的粗略邻域信息做出结构冲突判断,使得大量无效状态难以被筛出,导致子图匹配的性能不佳. 提出了一种高效、准确、自适应的融合图神经网络的子图匹配算法,通过图神经网络捕获细粒度邻域结构信息,并生成全局结构关联,利用模型推理代替传统剪枝策略,估算剪枝概率. 该算法能够在单次查询中有效利用全局信息,显著提升对无效状态的筛选效率. 此外,还设计了一种数据采样机制,以缓解样本分布不均衡导致的网络训练崩溃问题. 实验证明,以基于图神经网络的算法替代回溯式算法的剪枝策略,能够显著提高其搜索效率.
集合空间关键字查询在空间数据库、位置服务、智能推荐和群智感知等领域具有重要的作用. 现有的集合空间关键字查询方法没有考虑要求同时带有时空约束和成本感知的问题,不能满足大部分用户在时空约束条件下的查询需求问题,已有研究成果具有较大的局限性. 为了弥补已有方法的不足,提出一种基于时空约束和成本感知的集合空间关键字查询TDCCA-CoSKQ. 为了解决现有索引中无法同时包含关键字信息和时间信息的问题,提出了一种TDCIR-Tree索引,该索引融合了倒排文件和时间属性标签文件,可以减小查询计算的开销;为了有效地筛选出符合查询条件的集合,提出了一种TDCCA_PP算法,其中包括第1层剪枝算法、组间有序排列和第2层剪枝算法,可以提高关键字的查询效率;进一步提出了一种基于TDC成本函数的排序算法,TDC成本函数是由距离成本和时间成本组成的,其中包含代表用户偏好度的自变量系数
为便于广大科研人员及时了解国家自然科学基金“人工智能”学科方向项目的申请、受理和资助情况,对2024年的本学科项目情况进行了统计分析. 首先介绍了2024年国家自然科学基金委员会的重要改革举措;其次,总结分析了本年“人工智能”学科(F06)研究系列项目与人才系列项目的申请与资助情况. 重点梳理了在新的改革举措下该领域项目申请与资助的变化情况、年龄变化情况与依托单位分布情况;最后对“人工智能”领域优先发展方向进行了展望.
近年来存储行业经历了巨大的变革,以固态硬盘(solid state drive, SSD)为代表的半导体存储设备迅猛发展,在性能上显著超越了通过磁头移动寻址的机械硬盘(hard disk drive, HDD). 目前支持SSD的2种协议主要包括非易失性内存主机控制器接口规范(nonvolatile memory express, NVMe)协议与串行SCSI(serial attached small computer system interface, SAS)协议,即SAS. NVMe是专为SSD设计的高性能存储协议,能够很大限度地发挥SSD的性能;而SAS协议则充分考虑数据中心的需求,在提供高可靠性与高可扩展性的同时,兼顾了系统性能与成本的平衡. 相对于日益增速的存储介质,针对慢速存储设备所设计的软件栈在一次I/O过程中所耗费的时间开销愈发显著. 针对该问题学界及工业界都相继提出了众多解决方案,例如Intel提出的高性能存储开发包SPDK(storage performance development kit)通过将设备驱动实现在用户空间,并采用轮询感知I/O完成等方式大幅度缩短了NVMe SSD对应用程序的响应时间,极大地提升了整个系统的整体性能. 然而之前的研究工作针对SAS SSD存储软件栈的优化非常有限,为此在用户空间实现了针对SAS SSD的软件栈优化. 实验结果表明,该优化能够有效缩短存储设备对应用程序的响应时间,提高应用对存储设备的访存效率. 此外,为了准确评估I/O栈中存储设备的时间开销,硬件性能测试工具HwPerfIO被提出,能够消除大部分软件开销的影响以测得更加准确的存储设备性能.
大量的应用实践证明了模糊测试用于检测程序脆弱性的有效性. 现有的模糊测试方法缺少针对具体测试任务表现的差异性进行分析并适当地调整测试策略,更多的是采取统一流程导致测试结果差强人意. 有必要根据测试过程中的具体信息对策略进行修正以达到更好的测试表现,提出了一种新的基于执行上下文导向的程序缺陷模糊测试方法,并能突破保护机制,通过捕获并分析受检程序对输入测试用例实际处理过程中的具体上下文信息,快速探索程序结构特征,对样本突变策略进行优化. 同时,在相关算法的基础上实现了基于执行上下文导向的程序缺陷模糊检测原型工具CBFuzzer.实验结果表明,CBFuzzer能有效地实现对程序内部结构的快速探索(包括对保护机制的突破)、非常规程序状态转换的模拟以及更高效的脆弱点暴露. 与对照方法相比,CBFuzzer在脆弱点暴露能力方面有6.8%~36.76%不同程度的提升,实际脆弱点的检出数量提升率最高达到66.67%. 在可接受范围内的少量额外测试资源的投入下,CBFuzzer不仅在常规漏洞类型的检出效果上得到提高,并且对于隐匿性强的漏洞类型有更高的检测能力. 截至2023年8月10日,通过CBFuzzer在13个测试任务中共发现了126个新的漏洞(已报告给软件开发者,并提交给CVE®组织).
针对频发的网络安全事件,异常访问检测被广泛应用于恶意行为的识别. 然而,异常访问通常仅在部分属性字段上体现出显著的异常特性,检测结果易被异常特性不显著的字段所干扰. 针对这一问题,提出MNDetector,将多层网络结构引入异常访问检测领域,基于关联紧密的属性字段构建单层网络,并添加层间关联以形成多层网络. 随后利用适应多层网络的跨层游走获得同层及跨层节点序列以计算节点表示. 最终利用分层生成对抗网络(GAN)融合各层重构损失与判别结果,实现异常检测. 实验结果表明,MNDetector在多个公开数据集上的检测效果超过了最优方法,相较于常用方法实现了约8%的
近年来,大规模的、基于自回归的中文预训练语言模型在各种自然语言处理任务上表现出优异性能. 然而,高昂的计算成本以及基于中文词切分数据给中文预训练语言模型实际应用带来了巨大挑战. 此外,大多基于自回归的模型只能使用单向前文信息,可能会导致模型在上下文敏感任务上的性能有所下降. 为了解决以上问题,提出并训练了一个高质量的小型中文预训练语言模型——玲珑. 该模型仅有3.17亿个参数,较小的规模使得玲珑十分容易部署和应用. 使用基于汉字的策略对训练语料进行切分,可以有效减轻未知标记和分词错误带来的负面影响,增强了玲珑在下游任务上的性能. 此外,通过对每条训练数据的输入顺序进行逆序处理,训练了一个反向玲珑模型. 将玲珑与其反向版本相结合,可以实现在下游任务中使用双向信息. 多种自然语言处理下游任务的实验结果表明,玲珑具有不错的处理下游任务的能力. 在6个数据集上玲珑超越了相近规模模型的性能,在5个数据集上超越了大模型的性能.
随着深度学习的飞速发展,基于深度神经网络的信号调制识别任务成为无线通信领域研究热门. 然而研究发现,深度神经网络模型极易受到对抗性扰动的影响,使调制识别任务失效. 目前面向无线通信安全性的研究工作仍存在些许瓶颈问题与理论空白,源于无线通信固有的实验环境、数据结构与信号特征等多维度特性,不能将其他领域较为成熟的攻防方法简单迁移到信号对抗攻击中. 作为第1篇面向信号调制识别领域的对抗攻防中文综述,全面总结目前为止该领域对抗攻击与防御技术研究工作,首次提出信号调制识别领域的通用对抗攻击分类框架与威胁模型,将该领域研究工作分类为物理自我防御式攻击和数字直接访问式攻击,并以2维图形式进行系统化整合与可视化展示,详细阐述对抗攻击方法、对抗样本生成技术与理论公式、对抗检测与防御技术最新的研究工作,系统提炼无线通信对抗攻击研究的3个维度特性并归纳相应的处理方法,最后总结面向信号调制识别的攻防安全领域在末来的研究发展方向.
为了提高信息隐藏算法的隐藏容量,同时保持生成文本的质量,提出一种基于对联载体的生成式信息隐藏方法. 首先通过对对联文本数据进行预训练,在多流预训练和微调框架的基础上建立对联生成模型;其次将主题词作为输入生成上联,且模型可以在同一主题词上生成多个上联;然后将上联作为输入生成下联. 通过对主题词、候选上联以及生成下联的候选词的不同选择,可有效地隐藏秘密信息. 实验结果表明,该方法可获得较高的隐藏容量,7字对联的平均隐藏容量可达10.24 B,生成的对联结果满足对联严格的形式和内容要求,即字数相等、语义相对和语调相协,所提方法整体性能优于当前主流的生成式文本信息隐藏方案.
近年来,以ChatGPT为代表的大语言模型(large language model,LLM)技术发展迅速. 随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战. 首先分析了大模型在数据准备、模型训练和推理阶段的存储访问特征,深入探讨了传统存储系统在大模型场景下面临的主要问题和瓶颈. 针对这些挑战,提出并实现了一种高性能、可扩展的分布式元数据设计ScaleFS. 通过目录树元数据与属性元数据解耦的架构设计,并结合深度与广度均衡的目录树分层分区策略设计,ScaleFS实现了高效的路径解析、负载均衡和系统扩展能力,能够高效管理千亿级文件. 此外,ScaleFS设计了细粒度元数据结构,优化了元数据访问模式,并构建了面向文件语义优化的元数据键值存储底座,显著提升了元数据访问效率并减少了磁盘I/O操作. 实验结果表明,ScaleFS的每秒操作次数(operations per second,OPS)是HDFS的1.04~7.12倍,而延迟仅为HDFS的12.67%~99.55%. 在千亿级文件规模下,ScaleFS的大部分操作性能优于HDFS在十亿级文件规模下的表现,展现出更高的扩展性和访问效率,能够更好地满足大模型场景对千亿级文件存储及高效访问的需求.
随着人们对人数统计需求的不断增长,基于信道状态信息(channel state information,CSI)的人流量监测技术因其易于部署、保护隐私和适用性强等优势而备受关注. 然而,在现有的人流量监测工作中,人数识别的准确率容易受到人群密集程度的影响. 为了保证监测精度,通常只能在人群稀疏的情况下进行监测,这导致了基于CSI的人流量监测技术缺乏实用性. 为了解决这一问题,提出了一种能够识别连续性人流的监测方法. 该方法首先利用解卷绕和线性相位校正算法,对原始数据进行相位补偿并消除随机相位偏移;然后通过标准差和方差提取连续性人流数据中的有效数据包;最后将时域上的相位差信息作为特征信号输入到深度学习的CLDNN(convolutional,long short-term memory,deep neural network)中进行人数识别. 经过实验测试,该方法在前后排行人距离不小于1 m的情况下,分别实现了室外96.7%和室内94.1%的准确率,优于现有的人流量监测方法.
现有多视角聚类算法存在:1)在学习低维表征的过程中无法准确捕获或忽略嵌入在多视角数据中的高阶信息和互补信息;2)未能准确捕获数据局部信息;3)信息捕获方法缺少对噪声点鲁棒性等问题. 为解决上述问题,提出一种自适应张量奇异值收缩的多视角聚类(multi-view clustering based on adaptive tensor singular value shrinkage,ATSVS)算法. ATSVS首先提出一种符合秩特性的张量对数行列式函数对表示张量施加低秩约束,在张量奇异值分解(tensor singular value decomposition, t-SVD)过程中能够根据奇异值自身大小进行自适应收缩,更加准确地进行张量秩估计,进而从全局角度精准捕获多视角数据的高阶信息和互补信息. 然后采用一种结合稀疏表示和流形正则技术优势的l1,2范数捕获数据的局部信息,并结合l2,1范数对噪声施加稀疏约束,提升算法对噪声点的鲁棒性. 与11个对比算法在9个数据集上的实验结果显示,ATSVS的聚类性能均优于其他对比算法. 因此,ATSVS是一个能够有效处理多视角数据聚类任务的优秀算法.
大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度. 在现实场景中,数据通常拥有不同来源且高度相关. 但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用. 鉴于此,本文提出了一种大语言模型和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案. 为确保LLM能够适应多场景中的跨域异质数据,我们首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱. 为提高查询效率,本文引入线性知识图,并提出同源知识图抽取(HKGE)算法来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性. 进而,为保证多域数据查询的高可信度,提出可信候选子图匹配(TrustHKGM)算法,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点. 最后,提出基于线性知识图提示的多域数据查询(MKLGP)算法,实现LLM+KG范式下的高效可信跨域查询. 该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.
随着大模型技术的迅猛发展,大模型在自然语言处理和计算机视觉等领域表现出卓越的性能,成为解决复杂问题的重要工具,并在科研和产业界引发了广泛关注. 然而,当前基于云平台的大模型训练和推理方案面临诸多挑战,包括高昂的成本、有限的可扩展性和信息安全风险等. 随着模型参数规模的不断扩大,对于低成本、高效训练和推理的需求愈发迫切. 在端边侧进行大模型的协同训练和推理,可以显著降低延迟和带宽需求,同时增强数据隐私和操作效率,为大模型在多样化场景中的低成本应用提供关键技术支持,成为当前研究的热点之一. 全面调研了面向边缘智能的大模型相关研究,主要从大模型边缘训练和推理2个角度对当前相关研究进行了深入分析和讨论. 最后,提出了面向边缘智能的大模型技术发展所面临的挑战和未来展望. 希望能促进学术界和产业界对面向边缘智能的大模型技术有更深入了解和关注,并能够启发更多的学者开展深入研究.
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经吸引了自然语言处理社区的极大关注. 作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用. 然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究. 在实际的刑事案件中,往往涉及多个被告者,并在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果. 为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期. 此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析. 此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果. 实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用.
隐式篇章关系识别旨在推导没有连接词的论元(句子或子句)之间的语义关系. 现有研究证实引入短语信息能切实提升识别性能,但依然存在以下不足:1)通常依赖句法分析器且词、短语与论元之间的交互不充分;2)引入短语信息导致的数据稀疏性问题. 为此,分别提出基于多粒度信息交互的隐式篇章关系识别模型MGII(multi-granularity information interaction)和基于链式解码的数据增强方法DAM (data augmentation method). 所提模型通过卷积神经网络自动学习n-gram短语的语义表示,利用Transformer层显式地建模词、短语和论元之间的交互,并通过链式解码进行多级篇章关系预测. 提出的数据增强方法同时预训练编码模块和解码模块,从而能有效地利用大量显式篇章关系数据. 所提方法在PDTB数据集上的性能显著优于近期的基准模型,且不依赖句法分析器,具有较强的适用性.
Stencil计算在科学应用中得到了广泛采用. 许多高性能计算平台利用GPU的高计算能力来加速Stencil计算. 近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂. 为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术. 由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例. 因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索. 然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式. 为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化. 具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组. 之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行. 实验结果表明,与其他先进的自动调优工作相比,GeST能够在短时间内识别出性能更优的参数设置.
格上的公钥可搜索加密在确保外包数据的隐私性、机密性和灵活性方面发挥着重要作用,同时能够抵抗量子攻击. 大多数格上的公钥可搜索加密受限于底层原像采样算法,存在高存储开销或低效率的问题. 为了解决上述问题,首先提出了一种优化的公钥可搜索加密方案. 方案使用一种新的近似陷门采样算法提高计算效率,该算法能够输出1个近似的而不是精确的原像. 然后,结合非球面高斯采样技术和理想可扩展输出函数来降低密钥和陷门的存储开销. 进一步地,引入了具有前向安全和后向安全的扩展方案来解决基础方案中的更新和搜索操作泄露. 为了避免新更新的密文与以前的陷门匹配,即前向安全,通过基于格的委托机制来定期更新密钥. 为了防止后续搜索泄露有关已删除文件的信息,即后向安全性,通过结合位图索引和格同态加密方案实现文件的添加和删除. 理论分析和实验结果表明,相较于高效的可搜索加密方案,所提方案在公钥存储开销和陷门存储开销上分别降低了4.6%和50.1%. 同时,该方案在加密、陷门生成以及搜索上的效率分别实现了11.11%,2.5%,26.15%的提升.
随着全球人口老龄化和生活方式的变化,慢性病(慢病)的管理和治疗变得日益重要. 慢病包括心血管疾病、糖尿病、慢性呼吸系统疾病等,它们通常需要长期甚至终身的健康管理,其核心在于制定和执行长期的健康计划,包括合理饮食、适量运动、定期检查和用药管理等. 近年来,大语言模型在医疗领域取得了一定的进展,但并未关注慢病健康管理领域,因此在个性化健康管理建议方面缺乏对中国特定饮食习惯和文化背景的深入理解,在处理数字信息方面的能力有限. 为解决这些问题,构建了基于大语言模型的重大慢病健康管理信息系统. 其中,通过整合慢病基础知识、健康管理指导原则以及实际的健康管理计划作为领域数据,训练蜻蜓大模型作为系统的核心,用于健康相关问题的有效回答. 此外,系统引入了工具增强策略,通过调用工具增强蜻蜓大模型对健康数据中数字信息的处理能力. 同时,系统采用了基于不确定性知识图谱的检索增强生成技术,进一步提升蜻蜓大模型在答复慢性病管理相关问题时的精确性和可信度. 对基于大语言模型的重大慢病健康管理信息系统的测试实验显示,蜻蜓大模型在健康管理对话中的表现明显优于其他大语言模型,并验证了工具增强与检索增强方法的有效性.
超级计算已从传统CPU 集群向异构平台快速发展,随着硬件平台的类型转换,对于计算软件程序调优及性能测评等都面临着重大挑战. 当前一些国际主流并行程序性能分析工具及软件普遍存在与国产超算异构系统处理器产品兼容性低,往往需要进行插桩及重编译代码的方式,且单节点性能数据采集准确度不高等问题. 为了改进这些不足,提出了一种异构系统计算软件浮点性能数据采集方法. 该方法基于国产超算系统验证平台对浮点性能采集原型进行开发及验证. 目前已实现单节点和多节点性能指标数据的有效采集,且对原程序无侵入性,无需修改需要被监控程序的代码进行插桩方式进行监控,通用性强. 最后,与rocHPL,Cannon,mixbench这3类程序进行对比实验分析,并针对人工智能(artificial intelligence,AI)计算,在残差网络(residual network,ResNet)程序上开展了性能数据采集方面的监测研究. 证明提出的采集方法准确度较高,采集效果达到实验预期,且对程序调优具有较好的参考价值,验证了该方法的有效性.
随着多媒体和互联网技术的快速发展,数字图像内容的安全性问题日益突出. 为此,提出了一种基于窗口自注意力特征融合的深度感知图像认证哈希方案,该方案能有效检测原始图像的感知内容是否发生变化,并可应用于内容认证、复制检测、篡改识别等场合. 该方案以卷积神经网络为基础,利用窗口自注意力构建了一个融合图像全局和局部特征的哈希模型. 模型首先对主干网络获得的浅层特征进行分块并提取相应的窗口特征,然后计算每个局部特征与全局特征之间的相关性来筛选出最终的局部特征,再将这部分特征和全局特征输入到哈希生成模块中进行融合与压缩,得到最终的图像哈希码. 在训练过程中,利用哈希损失和分类损失构造的联合损失函数对模型进行约束,提高感知认证哈希方案的鲁棒性和唯一性. 实验结果表明,与现有典型的感知认证哈希方案相比,该方案可获得更优的图像内容认证性能.
动态二进制翻译器中广泛使用软件代码缓存来管理翻译生成的代码块. 代码块的翻译、刷新和内存占用是软件代码缓存的一个重要指标. 目前仅有少量的针对系统级动态二进制翻译器中代码缓存的研究. 已有的系统级动态二进制翻译器为实现正确且高效的指令语义模拟,均使用了状态标签方案,但该方案会对软件代码缓存管理带来额外的问题. 通过深入分析状态标签方案,总结了其给代码缓存管理带来的2类问题:冲突和冗余. 针对这2类问题,提出了基于细粒度状态标签的代码缓存优化方法,包括多状态代码缓存和弱状态标签. 这2种方案在LATX-SYS中实现并在龙芯LoongArch平台上使用Ubuntu/x86 16.04和Windows XP/x86客户机操作系统进行了测试. 结果表明,代码块刷新次数和翻译次数分别降低了43%和18%,代码块相似率从59.63%降至5.06%,翻译开销和内存占用均得到降低. 总的来说,系统启动时间降低了20%. 最后,针对弱状态标签方案进一步测试了SPEC CPU2000,结果表明代码块数量平均减少了13%,且仅带来2%~3%的性能开销.
多聚焦图像3维形貌重建旨在利用不同聚焦水平的图像序列恢复场景的3维结构信息. 现有的3维形貌重建方法大多从单一尺度对图像序列的聚焦水平进行评价,通过引入正则化或后处理方法引导重建过程,由于深度信息选择空间的局限性往往导致重建结果无法有效收敛. 针对上述问题,提出一种多尺度代价聚合的多聚焦图像3维形貌重建框架MSCAS(multi-scale cost aggregation framework for shape from focus),该框架首先引入非降采样的多尺度变换增加输入图像序列的深度信息选择空间,然后联合尺度内序列关联与尺度间信息约束进行代价聚合,通过这种扩张-聚合模式实现了场景深度表征信息的倍增与跨尺度和跨序列表征信息的有效融合. 作为一种通用框架,MSCAS框架可实现已有模型设计类方法和深度学习类方法的嵌入进而实现性能提升. 实验结果表明:MSCAS框架在嵌入模型设计类SFF方法后4组数据集中的均方根误差
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目. 该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频. 目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景. 然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果. 在此背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性. 首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果. 其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析. 紧接着,针对伪造面部视频鉴别任务,依据鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理. 最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
NTRU格是构建实用后量子格基密钥封装机制的重要选择. 格密码的软件优化工程实现对于后量子密码后续的应用部署具有重要意义. CTRU是中国学者提出的基于NTRU格的格密码密钥封装机制. 目前CTRU方案只有CTRU-768完成了C和AVX2实现,且实现有进一步的优化空间,并且CTRU-768的实现无法直接扩展到CTRU-512和CTRU-1024方案实现上. 完成了CTRU512和CTRU1 024及其变体CNTR-512和CNTR-1024首个的优化参考C实现和对应AVX2并行优化实现,并对已有的CTRU-768方案的参考实现和AVX2实现进行优化. 采用混合基数论变换(NTT)加速多项式环乘法,并使用Karatsuba算法加速分解后的小度数多项式环乘法. 此外,结合中心Barrett约减,提出在逆向NTT中进行基于索引的延迟约减. 对于CTRU-1024下较为耗时的多项式求逆,引入了Bernstein快速求逆算法. 进一步地,提供了更加高效的AVX2优化实现方案,利用Intel提出的单指令多数据(SIMD)指令集AVX2,加速了CTRU中的性能瓶颈. 采用层融合和系数置乱减少实现过程中的存取指令. 此外,对Bernstein快速多项式求逆算法进行了向量化优化实现. 对耗时SHA-3哈希模块进行AVX2汇编实现. 相较于最新的CTRU-768 AVX2实现,AVX2优化实现提升了8%~11%. 对于CTRU方案,与参考实现相比,AVX2优化实现在3个方案上的性能提升均非常显著. 对于CTRU方案,与参考实现相比,提出的AVX2优化实现在CTRU-512,CTRU-768,CTRU-1024这3个方案上的性能提升均十分显著,密钥生成、密钥封装、密钥解封装的提升幅度分别为56%~91%,74%~90%,70%~83%.
近年来,大模型在多个领域展现出卓越的性能,显著改变了人类的生活方式. 然而,随着模型规模的不断增长和用户对长上下文推理需求的增加,大模型推理系统在存储方面面临诸多问题. 首先,庞大的模型参数和键值缓存导致GPU显存资源不足;其次,分布式大模型推理系统难以充分利用GPU集群的存储资源,存在资源过度配置和存储容错的问题. 因此,从显存优化、异构存储和分布式存储3方面入手,归纳总结了现有研究在解决GPU显存容量不足和资源利用率低下方面的努力. 基于显存优化的大模型推理系统通过高效的键值缓存管理、压缩以及注意力算子优化,提高了GPU显存利用率,降低了显存占用. 基于异构存储的大模型推理系统利用多种类别的存储资源扩展存储容量,通过张量放置策略、异步数据传输以及智能显存分配与预取技术,降低了异构存储带来的I/O开销. 基于分布式存储的大模型推理系统通过批处理、多级调度、冗余复制等策略,优化了多机存储和计算资源的利用,提高了大模型推理任务的执行效率和容错能力. 最后,总结了现有研究,并对未来的研究方向进行展望.
语音识别等智能技术在自动驾驶、物联网等场景下得到了广泛的应用. 近年来,针对语音识别的对抗攻击研究逐渐受到关注. 然而,现有的大多数研究主要依赖于粗粒度的音频特征来在实例级别生成对抗噪声,这导致生成时间成本高昂且攻击能力弱. 考虑到所有语音可以被视为基本音素的不同组合,提出了一个基于音素的通用对抗攻击方法(phonemic adversarial noise,PAN),该方法通过攻击在音频数据中普遍存在的、音素级别的细粒度音频特征,以生成音素级对抗噪声,取得了更快的对抗噪声生成速度并具备更强的通用攻击能力. 为了全面地评估所提出的PAN框架,在实验中基于LibriSpeech等多种语音识别任务中被广泛采用的公开数据集,对提出的音素对抗噪声的攻击有效性、跨数据集的泛化能力、跨模型迁移攻击能力和跨任务迁移攻击能力进行了验证,并进一步在物理世界设备中证实了对民用智能音频识别应用的攻击效果. 实验结果表明,所提出的方法比其他对比方法的攻击能力提高了38%,生成速度快了24倍以上,且提出的采样策略和学习方法对降低训练时间和提升攻击能力具有重要作用.
图数据中包含丰富的时间信息,其拓扑结构随时间动态演变,通常建模为时序图数据流. 时序图数据流由一组节点和一系列带时间戳的有向边组成,节点、时序边随时间动态增加. 其中时序子图是由传统子图模式推广而来,不仅考虑拓扑结构,同时将时序边的顺序和持续时间纳入考量. 在时序图数据流中计算时序子图的出现次数是时序图研究中的一个基础问题. 然而,传统流式子图计数方法不支持时序匹配,仅适用于不包含时间信息的简单无向图或有向图;并且,现有时序子图计数算法在不断产生新数据的时序图流场景下效率不高. 因此,对时序图流上时序子图近似计数问题进行了研究,提出了基于蓄水池采样的流式边采样(streaming edge sampling, SES)算法,并从期望、方差、时间复杂度3个方面对SES算法进行了理论分析. 最后,在4个真实数据集上进行了大量实验. 实验结果表明,与基线方法相比,SES虽然返回的计数相对误差略大,但计算效率取得了最高3个数量级的大幅提升.
通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统“冯•诺依曼”计算系统的“存储墙”和“能耗墙”. 近年来,通过构建“条件转变”到数学逻辑关系之间的映射,已经有一系列存内状态逻辑门被提出,功能覆盖IMP,NAND,NOR,NIMP等多个逻辑运算. 然而,复杂计算过程到存内状态逻辑实现的自动化综合映射方法仍处于萌芽阶段,特别是缺少针对器件磨损的探讨,限制了设备维修不便的边缘计算场景应用. 为降低复杂存内状态逻辑计算过程的磨损(翻转率),实现了一种面向低磨损存内计算的多状态逻辑门综合映射过程. 与领域内熟知的SIMPLER MAGIC状态逻辑综合流程相比,该综合映射流程在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均35.55%,47.26%以上的改进;与最新提出的LOSSS状态逻辑综合流程相比,在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均8.48%,6.72%以上的改进.
图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上. 现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实体相似度最高的文本实体. 其训练过程通常采用基于InfoNCE损失的对比学习任务,即提高一个实体某模态与自身另一模态的向量相似度,降低与其他实体另一模态的向量相似度. 然而此模型忽视了图文2个模态内部表示难度的差异:图像模态中的相似实体,通常比文本模态中的相似实体更难以区分,导致外观相似的图像实体很容易链接错误. 因此,提出2个新的对比学习任务来提升向量的判别能力. 首先是自对比学习,用于提升图像向量之间的区分度;另一个是难负例对比学习,让文本向量更容易区分几个相似的图像向量. 在开源数据集WikiPerson上进行实验,在12万规模的实体库上,相比于采用InfoNCE损失的最佳基线模型,模型正确率提升了4.5%.
随着自然语言处理与深度学习技术的快速发展,大语言模型在文本处理、语言理解、图像生成和代码审计等领域中的应用不断深入,成为了当前学术界与工业界共同关注的研究热点. 然而,攻击者可以通过对抗性攻击手段引导大语言模型输出错误的、不合伦理的或虚假的内容,使得大语言模型面临的安全威胁日益严峻. 对近年来针对大语言模型的对抗性攻击方法和防御策略进行总结,详细梳理了相关研究的基本原理、实施方法与研究结论. 在此基础上,对提示注入攻击、间接提示注入攻击、越狱攻击和后门攻击这4类主流的攻击模式进行了深入的技术探讨. 更进一步地,对大语言模型安全的研究现状与未来方向进行了探讨,并展望了大语言模型结合多模态数据分析与集成等技术的应用前景.
随着5G网络的不断发展和相关应用的快速普及,用户设备数量及潜在需求急剧增加. 然而,5G信号的高频特性导致其传播损耗较大,为实现5G网络对用户设备更好的覆盖,需要以低成本、高效率为目标对已建5G基站站址进行优化或指导新建基站选址. 现有选址方法大多采用启发式算法进行站址优化,当候选5G基站站址数量增加时,算法的收敛时间会呈指数级上升,为站址优化带来了诸多挑战. 因此,从用户的通信需求出发,提出了一种用户需求驱动的5G基站选址方法. 利用规划区域网格化方法来降低基站所覆盖用户需求点的计算时间复杂度,提出基站间分离度的概念、并使用基站所覆盖的需求点数对其进行度量,进而给出满足子模性的目标函数,利用贪心算法得到基站最优选址方案. 实验结果表明,用户需求驱动的选址方法在各项评价指标上均优于其他对比算法,在相同的基站规划区域内,能用最少的基站数量达到最大覆盖率.
序列推荐的核心在于从用户的交互序列中挖掘其偏好和行为模式. 现有研究已经认识到单一模态交互数据存在不足,因此借助大量多模态数据(如商品评价、主页图片等)来丰富交互信息,提升推荐系统的性能. 然而,这些多模态数据中常常夹杂着不可避免的噪音,可能会限制用户个性化偏好的探索. 尽管可以通过抑制模态间不一致的信息来减少噪声干扰,但要完全消除用户生成的多模态内容中的噪音几乎是不可能的. 针对上述挑战,提出了一种基于大型语言模型的可信多模态推荐算法,旨在于含噪多模态数据场景下提供可信的推荐结果. 具体而言,该算法依托于大型语言模型卓越的自然语言理解能力,高效过滤多模态数据中的噪音,实现对用户偏好更为精确和细致的建模. 此外,还设计了一种可信决策机制,用于动态评估推荐结果的不确定性,以确保在高风险场景下推荐结果的可用性. 在4个广泛使用的公开数据集上的实验结果显示,相较于其他基线算法,提出的算法有更好的性能表现. 代码可以在https://github.com/hhbray/Large-TR获取.
针对跟踪模型存在被对抗攻击的风险且当前缺少相关的对抗检测方法,利用频域手段解决这一问题. 结合扰动噪声视觉不可见的特点,首先理论证明了扰动噪声主要存在于图像的中高频段. 然后定量地分析出视频序列的低频分量对跟踪性能的贡献最大且受对抗攻击的影响最小. 最后根据上述理论证明和定量分析,提出了基于频段跟踪性能差异的检测框架,其中的频域分解模块用于提取视频序列的低频段分量;目标跟踪器及其同构同参的镜像跟踪器分别以视频序列的全频段和低频段分量为输入;判别模块通过对比2个跟踪器的输出差异,判定当前视频序列是否为对抗输入. 该检测框架以跟踪器为载体,无需对抗训练仅通过对比不同频段跟踪性能的差异性,即可实现对抗检测. 大量的实验结果表明提出的检测框架不仅能够有效地检测当前主流的对抗攻击,如CSA,TTP,Spark,检测精度高达97.55%,而且对跟踪器的原始跟踪性能影响较小. 此外,检测框架具有泛化性,能够灵活地集成到多个跟踪器,如SiamRPNpp,SiamMask,SiamCAR,SiamBAN.
预训练模缓解了训练数据和算力受限的问题,也催生了模型开发和应用的新范式——深度学习模型供应链. 在这一供应链中,预训练模型由原始发布者上传,并经二次开发者进行必要的迁移、压缩与部署,以适应不同的应用需求. 然而,这一过程引入了新的环节和多元要素,随之产生了数据泄露和计算安全等风险. 尽管深度学习模型供应链已被广泛采纳,目前对于其安全性威胁的系统性研究仍然不足. 针对这一研究空白,概括了深度学习模型供应链的概念及其基本框架,调研了相关的研究工作. 依据模型生命周期的不同阶段,详细分析了设计、二次开发、部署和使用各环节的安全脆弱点,对可能遭遇的安全性攻击手段进行了系统的梳理、比较和总结,并探讨了相应的防护策略. 为了帮助读者更好地使用预训练模型,对现有预训练模型仓库进行了比较. 最后,基于目前深度学习模型供应链所面临的挑战,从安全性审查、实时检测和问题溯源等不同角度分析和讨论了未来可能的研究发展方向,为更安全可靠地开发和使用预训练模型提供了思路. 涉及论文方法和相关代码归纳整理在https://github.com/Dipsy0830/DNN-supply-chain-survey,方便研究人员下载使用.
基于模型诊断主要是根据系统的行为进行建模,一旦观察到异常行为就在系统模型上运行一个诊断算法来返回可能的解释. 现有的诊断算法是每求出一个冲突集就计算一次极小碰集,然后再检验该极小碰集是否满足系统观测. 这样虽然能够减少冗余解集的生成,但是计算冲突集的极小碰集难度随冲突集数量的增加呈指数级增长,而计算部分冲突集的极小碰集不一定是诊断,当检验极小碰集是否满足系统观测也是十分耗时的. 针对以上问题,设计了一个筛选函数,在保证所得的碰集尽可能是诊断的情况下,分别从诊断的势和数量上来删除低质量的冲突集. 除此之外,为了能够快速检验碰集是否是诊断,还根据电路的逻辑关系提出了一种高效的判定算法. 在实验部分,详细分析了在设置不同数量的故障条件下运行时间和求解诊断个数的比较,与目前最先进的算法相比,效率最高提升2~40倍,诊断数量多获得5~200倍.
在复杂环境以及突发背景噪音条件下,语音增强任务具有极大的困难和挑战. 主要原因是现有的语音增强方法未能有效捕获语谱图特征,尤其是局部信息. 在过去的研究中,Transformer模型更专注于音频的全局信息,而忽略了局部信息的重要性. 在音频经过短时傅里叶变换(STFT)处理后,多数模型仅使用幅值信息,而忽略了相位信息,导致它们未能有效捕获语谱图特征,从而影响了语音增强的效果. 基于此设计出一个带有卷积增强窗口注意力的双分支语音增强神经网络,该模型采用U-NET架构. 该模型通过双分支结构对音频的幅值和相位信息同时建模. 在2个分支之间引入复值计算模块以实现信息交互,在编码器层和解码器层之间的跳跃连接部分采用卷积增强窗口注意力模块,该模块执行基于非重叠窗口的自注意力操作,在捕获局部上下文信息的同时显著降低了语音增强模型的计算复杂度. 该模型在公开的Voicebank-Demand数据集上进行测试,与基线模型DCUNET16和DCUNET20相比,在客观语音质量评估指标(perceptual evaluation of speech quality, PESQ)分别提高了0.51和0.47.除了PESQ指标外,其他指标也都有显著的提升. 相较于现有的各类语音增强模型,该模型在各项指标上均处于领先水平,尤其是在PESQ得分方面的提升更为显著.
在应对这一挑战时都面临多个问题. 其中,一致性锚点图学习方法难以处理锚点图不对齐问题,并且过度依赖一致性图,限制了其聚类结果的准确性和可靠性;锚点图集成聚类方法则是在基聚类器的生成与融合过程中割裂了不同锚点图之间的联系,影响了其聚类效果的有效性和稳定性. 为解决这些问题,提出了一种基于双端联合学习的新型多视图聚类方法. 该方法充分考虑了多锚点图信息和锚点端聚类对样本端聚类的联合作用,实现了锚点端聚类和样本端聚类同步进行,并通过对多锚点图信息的综合实现了样本端聚类与多个锚点端聚类的集成对齐. 与现有方法不同,该方法无需直接学习一致性锚点图,可以处理任意类型的锚点不对齐问题,并且规避了图学习与图划分分步处理对聚类性能的不利影响. 此外,其在一个完整的优化框架中同时利用多个锚点图进行锚点端聚类和样本端聚类,有效解决了基聚类器生成阶段无法利用除自身外的其他锚点图和集成阶段无法充分利用所有锚点图的问题. 实验结果表明,所提出的方法在聚类性能和时间消耗方面均优于多个对比方法,有效增强了多视图数据的聚类性能. 所提出方法以及所采用对比方法的相关代码附在:http://github.com/lxd1204/DLMC.
在域名系统(domain name system, DNS)中,DNS递归解析服务消除了用户与根域名服务器等上游DNS服务器之间的复杂交互,使得互联网用户可以方便地通过本地DNS服务器完成全球范围的域名解析. 作为直接与用户通信的第一门户,DNS递归解析服务过程已成为互联网基础设施攻击的一个重要目标. 由于DNS递归解析服务规模庞大且部署方式繁多,现有的DNS安全拓展机制在DNS递归解析服务器中存在部署复杂、兼容性差等问题,但是目前还缺少对安全防护机制的部署测量方法的研究与总结工作,缺乏针对DNS递归解析服务安全风险的系统全面的评估工作. 针对上述现状,将DNS递归解析服务存在的安全风险分为5大类,对DNS递归解析服务安全威胁,DNS安全拓展机制和DNS递归解析服务安全风险评估与测量等方面的现状与最新研究成果进行了归纳与总结,并对DNS递归解析服务安全监测与治理的潜在研究方向进行了展望.
算力网络旨在将泛在算力与网络进行深度融合,以期通过网络将计算、存储等多维基础资源在云、边、端之间进行有效调配,让用户可以像使用水电资源一样透明的使用算力资源,按需索取,随取随用. 然而对于云边端异构的计算资源、动态的网络负载和多样化的用户需求,如何有效的进行资源的调度和路由成为了算力网络面临的核心挑战之一. 为解决上述挑战,设计了一套多层次的计算资源系统(computing resource system,CRS). 不同于现有的资源调配,CRS是一套建立在应用层之上并且兼顾考虑算网感知和算力路由的完整的算力网络技术方案. 计算资源系统由算网资源感知策略和算力资源路由协议组成. 算网资源感知策略定义了辖区系统内部的域内感知规则和不同辖区之间的域间感知规则,并基于此提出了一种基于贪心的资源路由算法(greedy-based resource routing algorithm,GBRA),为每个任务动态生成感知搜索树. 算力资源路由协议通过CRS请求报文、授权通告报文、通告确认报文和CRS响应报文来完成资源的申请与调配工作. 通过大量的数据仿真实验证明,与其他算法相比,CRS可以在任务容忍的最大响应时延内,完成对更多任务的资源分配工作. 此外,对于辖区系统内部计算节点之间可以实现较优的负载均衡.
近年来,无丢失网络在高性能计算、数据中心等领域得到了广泛应用. 无丢失网络通过链路层流量控制技术保障网内交换机不会因缓存溢出而丢包,避免了数据丢失与重传,极大提高了应用的时延和吞吐量性能. 然而,链路层流量控制带来的负面效应(拥塞扩展、死锁等)使得无丢失网络的大规模部署面临着诸多挑战. 因此,引入流量管理技术来提升无丢失网络的可扩展性得到了更多关注. 对应用于高性能计算领域和数据中心领域的典型无丢失网络InfiniBand和无丢失以太网的流量管理研究进展进行系统性综述,首先介绍链路层流量控制的负面影响和流量管理的目标,总结无丢失网络传统的流量管理架构. 然后根据流量管理技术路线(拥塞控制、拥塞隔离、多路径负载均衡等)以及驱动的位置(发送端驱动、接收端驱动等),对InfiniBand和无丢失以太网流量管理的最新研究进展进行分类和阐述,分析对应的优势以及局限性. 最后指出无丢失网络流量管理进一步研究中需要着重探索的问题,包括无丢失网络流量管理统一架构、主机内与网络联合流量管理以及面向领域应用的流量管理.
随着数据规模的增加,机器学习的重要性与影响力随之增大. 借助量子力学的原理能够实现量子计算,结合量子计算和机器学习形成的量子机器学习算法对经典机器学习算法理论上能够产生指数级的加速优势. 部分经典算法的量子版本已经被提出,有望解决使用经典计算机难以解决的问题. 当前受量子计算硬件所限,可操控的量子比特数目和噪声等因素制约着量子计算机的发展. 短期内量子计算硬件难以达到通用量子计算机需要的程度,当前研究重点是能够在中等规模含噪声量子(noisy intermediate-scale quantum,NISQ)计算设备上运行的算法. 变分量子算法是一种混合量子-经典算法,适合应用于当前量子计算设备,是量子机器学习领域的研究热点之一. 变分量子电路是一种参数化量子电路,变分量子算法利用其完成量子机器学习任务. 变分量子电路也被称为拟设或量子神经网络. 变分量子算法框架主要由5个步骤组成:1)根据任务设计损失函数和量子电路结构;2)将经典数据预处理后编码到量子态上,量子数据可以省略编码;3)计算损失函数;4)测量和后处理;5)经优化器优化参数. 在此背景下,综述了量子计算基础理论与变分量子算法的基础框架,详细介绍了变分量子算法在量子机器学习领域的应用及进展,分别对量子有监督学习、量子无监督学习、量子半监督学习、量子强化学习以及量子电路结构搜索相关模型进行了介绍与对比,对相关数据集及相关模拟平台进行了简要介绍和汇总,最后提出了基于变分量子电路量子机器学习算法所面临的挑战及今后的研究趋势.
时间敏感网络(time-sensitive networking, TSN)在工业控制、航空电子和车载网络中具有广泛的应用前景.TSN流量规划是在拓扑结构、网络资源、设备能力和业务需求等多维约束下,为TSN交换机计算关键帧的无冲突发送时刻的过程,规划问题是一个NP完全问题. 目前不论是学术界的TSN规划算法研究,还是工业界的TSN部署应用都急需一个开源的规划器软件. 提出一种构件化、松耦合的TSN规划器软件架构(loose-coupled component-based architecture of planner,LOCAP),通过规划参数最小集和规划结果通用表等接口规范设计,实现规划算法与规划工具、规划器软件与交换硬件实现的松耦合.OpenPlanner是基于LOCAP架构、使用python语言编写开源TSN规划器,内嵌自研和第三方贡献的多个可满足性理论规划算法和启发式规划算法. 基于OpenPlanner对不同算法的运行时间开销以及解的质量进行了评估,指出多样化的TSN应用场景需要不同的规划算法. 据调研,OpenPlanner是目前唯一的开源TSN规划器,规划结果已部署到OpenTSN开源网络、银河衡芯TSN芯片以及芯准TTE等多个硬件平台,在卫星、无人车和火炮等多个系统中得到应用.
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别. 相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景. 然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别. 为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法. 该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本类别(base classes)与新类别(novel classes)之间的信息传递,从而提升新类别的识别性能. 在实验中将基本动作类别和新动作类别的比例设置为3꞉1和1꞉1,分别表示为“75% 可见”和“50% 可见”. 在AVA和数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在AVA和MovieNet数据集的新动作类别识别指标mAP上分别提升了1.95%和1.21%;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标mAP上分别提升了2.59%和1.06%.
当前知识图谱通常存在不完整性的挑战,可以通过链接预测任务对缺失信息进行补全来缓解这一问题. 然而,大部分知识图谱补全方法过度关注对嵌入特征的提取,没有充分考虑预测节点邻域信息、全局特征信息和方向特征信息中所包含的复杂语义,难以准确预测出缺失的信息. 提出一种通用的表示学习语义增强框架ASFR,利用注意力机制提取知识图谱局部关联信息、知识图谱结构特征,结合位置信息对现有的知识图谱表示学习模型进行增强. 将3种知识图谱附加信息嵌入到知识图谱的实体向量中,提高知识图谱表示向量的质量. 我们在5种不同类别的经典方法中进行对比实验,结果显示ASFR框架在3个公开数据集上性能的提升幅度为6.89%,能够有效增强模型的预测能力.
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展. 来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计. 加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势. 多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题. 为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台. 尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型. 因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中. 基于软硬件协同设计,提出了paraTRANS:面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法. 评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况. 结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95% CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平. 这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路.
由于兼具高灵活性和高能效的特征,粗粒度可重构阵列(coarse-grained reconfigurable array,CGRA)是一种具有潜力的领域定制加速器架构. 为了利用多bank存储器的访问并行性,通常会在CGRA中引入存储器划分. 然而,在CGRA上进行存储划分工作要么以昂贵的寻址开销为代价实现最佳分区解决方案,要么以更多的存储bank消耗为代价来减少面积和功耗开销. 为此,提出了一种通过访存图案变形来实现面向CGRA的存储划分方法. 通过对包含多维数组的应用进行存储划分和算子调度协同优化,形成了存储划分友好的访存图案,从而可以用全“1”超平面对其进行存储划分,进而优化了划分结果并减少了访存地址计算开销. 基于全“1”超平面的划分策略,还提出了一种可精简地址生成单元的高能效CGRA架构. 实验结果表明,与最先进的方法相比,该方法可以实现1.25倍的能效提升.
连续微流控生物芯片(continuous-flow microfluidic biochips,CFMBs)由于其能够自动高效的执行生化应用,成为近年来的研究热点. PathDriver+首次将实际的流体运输需求考虑进CFMBs设计流程中,并实现了实际的流体运输和去除,并为每个运输任务规划独立的流路径,而这些问题在之前的工作中被忽略了. 但是,由于PathDriver+仅考虑了网格模型下总体布线的线长优化,而未考虑详细布线,没有充分利用CFMBs布线的灵活性. 此外,PathDriver+仅考虑X型布线方式,而任意角度布线能够更有效的利用布线资源,从而缩短流通道长度. 针对上述问题,提出了流路径驱动的任意角度布线算法,在考虑实际的流体运输需求的同时,提高布线资源的利用率,减少流通道的长度. 首先基于Delaunay三角剖分构建搜索图,从而在保证布线质量的同时,提高布线解的搜索效率. 然后,在构建的搜索图上,使用基于Dijkstra的流路径布线方法,以快速生成具有较短线长的布线结果. 在布线过程中针对流通道复用和流通道交叉点数量优化问题,分别提出了通道复用策略和交叉优化策略,以进一步提高布线结果的质量. 实验结果表明,与最新工作PathDriver+相比,算法在布线总线长、流层端口使用数量、通道交叉点数量分别降低了33.21%,11.04%,44.79%,通道复用率平均提高了26.88%,交叉点处引入阀门的总数量平均减少了42.01%,这表明算法的有效性和优越性.
随着电子设计自动化技术的迅速发展,连续微流控生物芯片成为了目前最具前景的生化实验平台之一. 该芯片通过采用内部的微阀门以及微通道以操纵体积仅为毫升或纳升的流体样品,从而自动执行混合和检测等基本的生化实验操作. 为了实现正确的生化测定功能,部署于芯片内部的微阀门通常需要由基于多路复用器的控制逻辑进行管控,其通过控制通道获得来自核心输入的控制信号以实现精确切换. 由于生化反应通常需要非常高的灵敏度,因此为了保证信号的即时传输,需要尽可能地减少连接每个阀门的控制路径长度,以降低信号传输的时延. 此外,为了降低芯片的制造成本,如何有效减少控制逻辑中通道的总长度也是逻辑架构设计需要解决的关键问题之一. 针对上述问题,提出了一种基于深度强化学习的控制逻辑布线算法以最小化信号传输时延以及控制通道总长度,从而自动构建高效的控制通道网络. 该算法采用竞争深度Q网络架构作为深度强化学习框架的智能体,从而对信号传输时延和通道总线长进行权衡评估. 此外,针对控制逻辑首次实现了对角型的通道布线,从根本上提高了阀门切换操作的效率并降低了芯片的制造成本. 实验结果表明,所提出的算法能够有效构建高性能、低成本的控制逻辑架构.
时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全性,这使得WCET分析变得非常困难. 相反地,如果能够确保要分析的程序与平台不存在时序异常,将大大减少WCET分析需要考虑的状态以及所花费的时间. 因此,时序异常问题是WCET分析中的关键挑战. 然而,尽管历经20多年的研究,学术界对时序异常问题仍未形成统一的定义和共识. 自时序异常概念提出以来,学术界涌现出了各种文献描述时序异常,对于这些定义,可以根据定义方式和描述内容对它们进行分类,并分析它们各自的优劣. 进一步地,如果对导致时序异常的原因进行研究,可以将其归结为调度策略、高速缓存以及组件影响这3个方面. 此外,目前也有一些验证与消除时序异常的相关研究工作,这些工作也存在一些问题和不足. WCET分析的未来应当以分析方式为基础进行时序异常相关的研究,以更好地解决时序异常问题.
由于低照度配对图像的制作成本昂贵且难于制作,而非配对低照度图像增强方法不依赖配对图像数据因而更有实用价值,但其缺乏详细的监督信号导致输出图像存在全局曝光不一致、色彩失真和大量噪声等视觉退化问题,在实际应用中存在挑战. 为了更好地满足实用需求,提出一种基于全局一致的非配对低照度增强方法(unpaired low-light enhancement based on global consistency,GCLLE). 首先,该方法通过全局一致性保持模块(global consistency preserving module,GCPM)将编码器和解码器中相同尺度的特征重新建模并融合以矫正不同尺度的上下文信息,保证输出图像全局曝光调整一致性和全局结构一致性,使得图像亮度分布均匀并避免扭曲和失真;利用局部平滑和调制模块(local smoothing and modulation module,LSMM)学习一组局部的低阶曲线映射,为图像提供更宽的动态范围并进一步提高质量,实现真实和自然的增强效果;提出使用双路池化融合深层特征的深度特征强化模块(deep feature enhancement module,DFEM)压缩无关信息并突出更有区分度的编码特征,减少了不准确信息并使得解码器更容易捕获图像中的低强度信号,保留图像更多细节. 不同于关注配对图像像素间1对1映射关系的配对增强方法,GCLLE通过缩小低照度图像与非配对正常照度图像之间的风格差异实现增强. 在MIT和LSRW数据集上进行大量的实验,结果表明所提方法在多个客观指标上超过了现有典型低照度增强方法,具有更好的增强效果.
动态功能连接(dynamic functional connections,dFCs)已广泛应用于静息态功能磁共振成像(rs-fMRI)分析,其可以将大脑功能连接视为在多个时间窗上动态变化的过程,探索大脑在不同时间段内的功能连接变化,为脑疾病诊断提供了新的视角和策略. 然而常见的动态脑网络分析方法无法有效利用动态数据之间的潜在关联和时序性,且忽视了各个窗口因为数据质量不一致而导致的不确定性因素. 为此,提出一种基于动态证据神经网络(dynamic evidence neural networks,DE-NNs)的脑网络分析算法. 该算法设计了一种动态脑网络多视图证据获取模块,将动态脑网络的每个时间窗视为一个视图,利用3个不同的卷积滤波器提取动态脑网络每个时间窗的特征图,充分获取动态层面的证据. 为了充分利用动态证据,设计了一种动态证据融合机制,结合证据理论合成规则,针对dFC数据的时序性构造动态信任函数,在分类的决策层对多个窗口产生的证据进行融合,充分考虑不确定性信息,显著提高分类性能. 为验证所提DE-NNs的有效性,在3个精神分裂症数据集上与现有的先进算法进行比较实验,结果表明DE-NNs在3个脑疾病诊断任务上的准确率和
近年来,大模型推动自然语言处理、机器视觉等众多领域取得前所未有进展. 混合专家(mixture of experts,MoE)凭借在模型参数扩展、计算成本控制和复杂任务处理等方面的独特优势成为大模型的主流架构之一. 然而,随着参数规模的持续增长,系统的执行效率和可扩展能力愈发难以满足需求,亟待解决. 系统优化方法是解决这一挑战的有效途径,日益成为研究热点. 故综述大模型时代MoE系统优化技术的研究现状,首先介绍MoE大模型的发展现状,并分析其在系统端面临的性能瓶颈;然后从内存占用、通信延迟、计算效率和并行扩展4个系统核心维度对最新的研究进展进行全面梳理和深入分析,并对其中涉及的关键技术、适用场景和待优化方向进行详细对比阐述;最后总结MoE系统优化的研究现状,并展望未来研究方向.
基于深度学习的目标检测算法已广泛应用,与此同时最近的一系列研究表明现有的目标检测算法容易受到对抗性攻击的威胁,造成检测器失效. 然而,聚焦于自动驾驶场景下对抗攻击的迁移性研究较少,并且鲜有研究关注该场景下对抗攻击的隐蔽性. 针对现有研究的不足,将对抗样本的优化类比于机器学习模型的训练过程,设计了提升攻击迁移性的算法模块. 并且通过风格迁移的方式和神经渲染技术,提出并实现了迁移隐蔽攻击方法(transferable and stealthy attack,TSA). 具体来说,首先将对抗样本进行重复拼接,结合掩膜生成最终纹理,并将其应用于整个车辆表面. 为了模拟真实的环境条件,使用物理变换函数将渲染的伪装车辆嵌入逼真的场景中. 最后,通过设计的损失函数优化对抗样本. 仿真实验表明,TSA方法在攻击迁移能力上超过了现有方法,并在外观上具有一定的隐蔽性. 此外,通过物理域实验进一步证明了TSA方法在现实世界中能够保持有效的攻击性能.
个性化学习资源推荐以提取学习者兴趣为基础,为学习者推荐感兴趣的学习资源. 然而,学习者的兴趣不仅受知识点、学习资源、课程等因素影响导致其兴趣难表征,而且其会随时间推移动态变化使得学习兴趣模式难捕获. 针对此,提出基于时空多粒度兴趣建模的学习资源推荐方法,其特点在于:首次设计并实现了一种融合学习空间和时间维度的学习兴趣表征学习架构,其中,提出基于异构图的学习空间及其多粒度兴趣表征,即用节点表示知识点、学习资源、课程、教师和学校等实体,边表示实体间关系,用此异构图表示学习空间,再通过图神经网络表征学习节点嵌入来表达节点上的多粒度兴趣;提出时间维度多粒度兴趣模式表征方法,即结合时间、学习空间和课程偏好等多维度,切分学习者历史行为序列,用于挖掘学习者近期课程内、中期跨课程和长期跨课程等不同粒度的兴趣模式,并设计多粒度兴趣自监督任务,破解时空多粒度兴趣缺少监督信号问题;然后,提出多粒度兴趣自适应融合层,将多粒度兴趣表征和兴趣模式融合,获得最终的学习者兴趣,经预测层为学习者推荐感兴趣的学习资源. 实验结果表明,在MOOCCube数据集上,所提算法较最优对比算法HinCRec,在
由于快速单通量量子 (rapid single-flux-quantum, RSFQ)电路的高频特性,对电路的版图设计构成了巨大挑战. 针对RSFQ电路的高频特性带来的电路时延问题,可以在布线阶段通过使用延时元件如无源传输线来解决. 因为无源传输线的时延与它的长度近似成正比,且传输线的功耗不随着线长增加而增大,所以对于快速单通量量子电路而言长度匹配布线是一个非常重要的问题. 为此,提出了一种高效的考虑长度匹配的RSFQ电路布线算法,包括以下关键策略:1) 在生成初始路径时,提出了一种迂回布线的方法,在不改变初始布线空间的情况下,满足无源传输线的部分长度匹配;2) 提出了一种基于区域感知的迭代资源插入策略,减少需要添加的额外资源区域;3) 提出了一种考虑阻塞代价的长度匹配驱动布线策略,提高了对布线空间的资源利用. 实验结果表明所提算法与现有的多端布线算法相比,布线所需的区域面积减少了8%,运行时间减少了36%,从而取得快速且高质量的布线结果.
图拓扑不平衡问题,由于节点在拓扑空间中的不均匀和不对称分布,对图神经网络性能产生了严重的负面影响. 当前的研究主要侧重于标记节点,而对无标记节点的关注较少. 为应对这一挑战,提出了一种基于随机游走路径的自监督学习方法,旨在解决拓扑不平衡问题带来的同质性假设限制、拓扑距离衰减以及注释衰减等难题. 该方法引入了多跳路径的子图邻域概念,以更全面地捕捉节点之间的关系和局部特征. 首先,通过路径间聚合策略,学习多跳路径中的同质和异质特征,从而不仅保留了节点的原始属性,还维护了它们在随机游走序列中的初始结构连接. 此外,结合了基于多条路径的子图采样和子图生成策略以及结构化的对比损失,最大化了同一节点局部子图的内在特征,从而增强了图表示的表达能力. 经过实验验证,该方法在多种不平衡场景下都表现出了出色的有效性和泛化性能. 这一研究为解决图拓扑不平衡问题提供了新的方法和视角.
软件系统在各行各业中发挥着不可忽视的作用,承载着大规模、高密度的数据,但软件系统中存在的种种缺陷一直以来困扰着系统的开发者,时刻威胁着系统数据要素的安全. 自动代码修复(automated program repair, APR)技术旨在帮助开发者在软件系统的开发过程中自动地修复代码中存在的缺陷,节约软件系统开发和维护成本,提高软件系统中数据要素的保密性、可用性和完整性. 随着大语言模型(large language model, LLM)技术的发展,涌现出许多能力强大的代码大语言模型,并且代码大语言模型在APR领域的应用中表现出了强大的修复能力,弥补了传统方案对于代码理解能力、补丁生成能力方面的不足,进一步提高了代码修复工具的水平. 在综述中,全面调研分析了近年APR相关的高水平论文,总结了APR领域的最新发展,系统归纳了完形填空模式和神经机器翻译模式2类基于LLM的APR技术,并从模型类型、模型规模、修复的缺陷类型、修复的编程语言和修复方案优缺点等角度进行全方位的对比与研讨. 同时,对APR数据集和评价APR修复能力的指标进行了梳理和分析,并且对现有的实证研究展开深入探讨. 最后,分析了当前APR领域存在的挑战及未来的研究方向.
基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降. 知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场景等问题,还缺乏深入研究. 针对这些问题,提出了一个新的基于变分注意力知识选择和预训练模型的神经对话方法,使用一个基于条件变分自编码和多层注意力机制的知识选择算法,自动选择出与当前对话最相关文本知识集合. 该算法有效利用了训练数据中的对话回复来提高知识选择的效率. 使用预训练语言模型Bart作为编码器-解码器架构,将选择的文本知识合并到Bart模型中,并在训练过程中对其进行微调. 实验结果表明,与现有的一些代表性研究方法相比,提出的模型能生成多样性和连贯性更好、准确率更高的对话回复.
目前数据中心规模迅速扩大、网络带宽大幅提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求. 远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据. 兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用. 综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了在存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式. 最后,给出总结和展望.
多视图聚类旨在利用来自不同视图的异构信息发现底层数据结构,并划分样本所属类别. 一致性和互补性是影响多视图聚类性能的2个关键要素. 一致性强调不同视图间的语义相似性,互补性则强调每个视图内特有信息的相互补充. 目前对一致性研究已相对深入,但对互补性研究存在争议,其中一些方法认为一致性和互补性能互助,但仅将二者约束至同一特征空间中实际上造成了二者的冲突. 而另一些方法则据此认为应丢弃互补信息,但这又造成信息浪费. 直觉上互补性应该存在,贡献在于发现了现有方法没有足够洞悉并触及到互补性的本质,即一致性和互补性并非独立而是相互耦合,结果导致冲突. 受此启发,通过解耦实现了2种信息的分离,具体使它们位于不同的特征子空间而非现在的同一特征空间,从而发展出了一种兼顾一致性和互补性的多视图聚类算法,在有效提取出互补信息的同时避免二者冲突. 在标准数据集上的对比实验验证了所提算法的有效性.
四元数神经网络将实值神经网络推广到了四元数代数中,其在偏振合成孔径雷达奇异点补偿、口语理解、机器人控制等任务中取得了比实值神经网络更高的精度或更快的收敛速度. 四元数神经网络的性能在实验中已得到广泛验证,但四元数神经网络的理论性质及其相较于实值神经网络的优势还研究较少. 从表示能力的角度出发,研究四元数神经网络的理论性质及其相较于实值神经网络的优势. 首先,证明了四元数神经网络使用一非分开激活的修正线性单元(rectified linear unit,ReLU)型激活函数时的万有逼近定理. 其次,研究了四元数神经网络相较于实值神经网络的逼近优势. 针对分开激活的ReLU型激活函数,证明了单隐层实值神经网络需要约4倍参数量才能生成与单隐层四元数神经网络相同的最大凸线性区域数. 针对非分开激活的ReLU型激活函数,证明了单隐层四元数神经网络与单隐层实值神经网络间的逼近分离:四元数神经网络可以用相同的隐层神经元数量与权重模长表示实值神经网络,而实值神经网络需要指数多隐层神经元或指数大的参数才可能近似四元数神经网络. 最后,模拟实验验证了理论.
可追踪的基于属性的签名(traceable attribute-based signature, TABS)继承了属性签名的优点,能通过可信第三方追踪签名者的真实身份,避免了属性签名匿名性的滥用. 目前,针对1对多认证场景下支持可追踪的签名策略属性基签名(signature-policy attribute-based signature, SP-ABS)方案甚少,现有方案大多存在以下不足,验证阶段的计算复杂度和属性个数呈线性关系,运算效率不高,同时策略由验证者直接提供给签名者容易造成策略隐私泄露. 为此,文中提出一种基于SM9的支持策略隐藏的可追踪属性签名方案,该方案采用属性名和属性值拆分的线性秘密共享方案(linear secret sharing scheme, LSSS)构造访问结构,支持策略的部分隐藏,能在保障签名者身份隐私和属性隐私的情况下,保障验证者的策略隐私,在验证阶段只需要常数量级的配对运算和指数运算,能实现高效的细粒度访问控制. 最后通过
自动作文评分能够有效减轻教师的作文评阅负担并为学生提供客观、及时的反馈,是自然语言处理在教育领域的一项重要应用. 跨提示自动作文评分旨在学习一个可迁移的自动评分模型,使之能够有效为目标提示的作文评分. 然而,现有的跨提示自动作文评分大都是面向目标提示数据可见的场景,通过将源提示和目标提示的特征分布进行对齐学习提示不变特征表示来学习可迁移到目标提示的评分模型,但是这类方法无法应用于目标提示数据不可见的场景. 面向目标提示数据不可见的场景,提出一种基于类别对抗联合学习的跨提示自动作文评分方法. 一方面,通过对分类和回归联合任务进行联合建模学习2个任务的共享特征,从而实现二者性能的相互促进;另一方面,不同于现有方法采用提示无关特征来提升模型泛化性能,针对不同提示的类别分布差异引入类别对抗策略,通过对不同提示进行类别级特征对齐学习不同提示间的细粒度不变特征表示,从而提升模型泛化性能. 将所提出方法用于自动学生评估奖(ASAP)和ASAP++数据集,分别对作文的总体评分和属性评分进行预测. 实验结果表明,与6种经典方法相比,在平方卡帕指标上取得最好的实验效果.
随着流数据的大量涌现,概念漂移已成为流数据挖掘中备受关注且具有挑战性的重要问题. 目前,多数集成学习方法未针对性地识别概念漂移类型,并采取高效的集成适应策略,导致模型在不同漂移类型上的性能参差不齐. 为此,提出了一种弹性梯度集成的概念漂移适应方法(elastic gradient ensemble for concept drift adaptation, EGE_CD). 该方法首先通过提取梯度提升残差,计算流动残差比检测漂移位点,之后计算残差波动率识别漂移类型;然后,利用学习器损失变化提取漂移学习器,结合不同漂移类型与残差分布特征,删除对应学习器,实现弹性梯度剪枝;最后,将增量学习与滑动采样方法结合,通过计算最优拟合率,优化学习器拟合过程,再根据残差变化,实现增量梯度生长. 实验结果表明,该方法提高了模型对不同漂移类型的稳定性与适应性,取得了良好的泛化性能.
信息时代,数据存储的可靠性、一致性、安全性和实时性至关重要. 纠删码在允许多个存储设备发生故障的同时保证了最低的存储开销,被大量应用在数据存储领域. 纠删码的编码与解码运算具有计算密集的特征,其性能高低直接影响着存储系统的使用效率. 作为编码和解码运算中最耗时的部分,多层循环包裹的伽罗华域乘法计算是纠删码优化的一个焦点. 首先分析了伽罗华域乘法计算的查表方法中常用的log查表法、完全乘法查表法、移位分解法的优劣势,然后对已有的伽罗华域GF(28)查表方法进行了优化,提出4 b分割法以大幅减少查表开销. 在此基础上,利用64位现代处理器体系结构特点,从数据访问粒度扩展和单指令多数据(single instruction multiple data,SIMD)向量化利用实现数据级并行化2个角度优化了多层循环中的数据级访问粒度,提高了编码与解码的运算性能. 基于开源存储加速库(Intel storage acceleration library,ISA-L)在申威平台和x86平台上实现和验证了上述优化方法的有效性,结果表明:所提优化方法在不同数据规模下均有加速效果,申威平台与优化前相比平均性能加速比为3.28倍,x86平台与优化前相比平均性能加速比为2.36倍.
极小不可满足子集(minimal unsatisfiable subset,MUS)的求解是理论计算机科学的重要问题. 由于极小不可满足子集的个数随问题规模呈指数级增长,现有算法致力于在合适的时间限制内尽求解出可能多的MUS.在庞大的搜索空间中,选择合适的节点来扩展可以大幅减小收缩和扩充操作的时间开销,从而提高算法的求解效率. 提出一种基于增量信息交互的MUS求解算法MARCO-MSS4MUS,利用MUS、极小修正集(minimal correction set,MCS)和极大可满足子集(maximal satisfiable subset,MSS)之间的对偶和互补关系,采用MARCO算法框架增量求解MSS 和MUS的过程中,根据已求解的MSS的交集和并集信息辅助选择节点来扩展,即通过增量的MSS信息启发用于扩展节点选择以加速MUS枚举,这一过程同时利于算法找到更多的MSS,在枚举过程中新识别出的MSS又能辅助下一轮扩展节点的选择,从而实现了增量信息的有效交互. 针对交互的增量信息提出2个定理及2个推论,从理论角度分析了MARCO-MSS4MUS算法的可行性,并通过MUS标准测试用例上的实验验证了算法相较于当前先进算法的优越性,在部分测试用例上的结果显示新算法的枚举效率和枚举获胜个数较已有算法均有显著的提高.
多视图子空间聚类旨在挖掘多视图的丰富信息来指导高维数据聚类,其研究关键在于如何有效地学习多视图统一表示和子空间表示. 近年来,深度聚类方法利用神经网络强大的表征能力取得了优异的性能. 然而,多视图数据固有的多源异构性使得大多数现有方法以单模态编码器实现对各个视图的独立编码,不仅增加了模型参数量同时限制了模型的泛化能力. 另一方面,低秩子空间表示被证明能够提升聚类性能,传统的核范数正则化优化没有考虑不同奇异值隐含的信息量差异,是矩阵秩的一个有偏估计. 为此,提出了一种面向子空间聚类的多视图统一表示学习网络. 首先,基于Transformer构建编码器,通过共享参数将异构视图以相同的映射规则投影到低维特征空间. 其次,针对每个样本在不同视图中可能具有不同的表现,采用视图内样本加权融合的方法学习多视图统一表示. 最后,引入加权Schatten-
网络包处理是网络设备的基本功能,涉及报文修改、校验和与哈希计算、数据包镜像或过滤、统计限速等多项任务. 作为网络包处理的重要部件,网络处理器(network processor,NP)基于处理器结构,为网络设备提供线速的性能和充分的可编程能力,但其架构多样,可分为单段式和多段式架构,现有模拟方法无法同时对二者性能进行模拟仿真. 因此,提出一种通用网络处理器的结构模拟和性能仿真框架Neptune,采用多段式架构作为硬件抽象,使用事件链表、核间队列结构为数据通路和多段式架构模拟提供保障,同时满足单段式架构模拟需求. 另外,借助同步图计算模式进行准确的并行模拟,并采用混合事件与时间驱动方法保障模拟高效性. 实际测试中,Neptune以95%以上精确度支持2种架构的模拟,并以3.31MIPS的性能对网络处理器进行模拟,相较PFPSim取得一个数量级的性能提升. 最后,展示了3个运用该框架进行网络处理器优化分析的应用案例.
基于先进封装技术的芯粒集成芯片在制造成本、设计效率以及专用定制等方面更具优势,是延续芯片性能增长的有效途经. 设计空间探索(design space exploration,DSE)作为体系结构量化分析的重要方法,能够帮助设计者理解并权衡设计参数间的复杂关系. 但是将传统的芯片体系结构DSE方法直接应用于芯粒设计时,存在评估不全面、模拟不精确以及探索效率低下等问题. 针对这些问题提出了解决方案FireLink,作为一个面向芯粒(Chiplet)设计空间探索的评估框架,它支持芯粒微架构以及互连网络的建模和模拟,具备高效评估性能、功耗、面积和成本指标的能力. 此外,在该框架下采用了ID3(iterative dichotomiser 3)机器学习算法进行了实验,结果显示能够有效提高DSE的效率. 与现有的DSE框架和方法相比,FireLink在评估全面性、建模完整性和高效性方面具有显著优势,使得设计者能够在更短时间内探索更广泛的设计空间,进而选定较优的Chiplet设计方案.
瞬态执行攻击利用处理器优化措施绕过安全检查,进而通过隐蔽信道传输并窃取敏感信息. 其中,Meltdown和Spectre攻击尤为知名,波及包括Intel,ARM,AMD在内的主流商用处理器. 尽管处理器制造商已采取相应防御措施,但相关变种攻击仍不断被研究人员发现并公之于众. 为深化对瞬态执行攻击的理解并实施有效防御,对各种隐蔽信道下的瞬态执行攻击进行了剖析. 首先,提炼出了瞬态执行攻击的共同特征,并系统性构建了全新的瞬态执行攻击模型. 其次,总结了现有研究中涉及的各类隐蔽信道,将瞬态执行攻击归纳总结为3类:乱序执行驱动的熔断型攻击、错误分支预测驱动的幽灵型攻击以及错误数据预测驱动的数据采样型攻击,并梳理了各类型攻击的核心要点及关联性. 其中,首次对数据采样型攻击进行了系统性归纳和整理. 接着,从隐蔽信道利用、攻击适用场景和微架构通用性3个维度分析和评估了各攻击变种的能力. 最后,结合上述针对处理器微架构和隐蔽信道的深入分析与总结,展望了瞬态执行攻击研究的未来研究方向,以期为后续研究工作提供有力支撑.
为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令. 然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用. 针对此LoongArch边界检查访存指令改进了GCC编译器,实现利用该类指令优化程序的内存安全检查. 具体而言,完成了3个方面的工作:1)设计实现了针对边界检查访存指令的内建函数;2)改进GCC RTL(register transfer language)阶段的优化器,使其能够识别无异常处理和带异常处理2种情况的边界检查访存语义,并自动优化;3)面向LoongArch边界检查访存指令触发的边界检查异常(bound check exception,BCE),设计了新的Linux内核异常信号SIGBCE和相应的运行时库glibc(GNU C library)的信号处理函数,实现了边界检查异常处理. 通过在GCC 12.2.0和龙芯3C5000L服务器进行实验,验证了改进后编译器不仅能正确使用新引入的边界检查访存指令,并在某些安全函数中带来接近20%的性能提升. 完善了LoongArch生态、推进了LoongArch指令集发展. 对此类特定指令编译器优化工作有一定的借鉴意义.
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性. 现有的通用防死锁策略难以发挥出特定拓扑结构自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性. 另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性. 利用基三众核架构(Triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟. 在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制 (Hamiltonian shortest path routing,HamSPR).GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78% ~ 65.40% 和6.94% ~ 34.15%,吞吐量提高了8.00% ~ 59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低. 与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1% ~ 10%的提升.
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素. 为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证. 针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制. 此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口. 最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求.
随着现代计算机技术的进步,内存墙问题越发严重. 在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源. 近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存. 路划分技术是缓存资源管理的主要方法,通过将缓存按路为单位划分后分配给各个应用使用,实现系统性能优化. 然而路划分粒度较粗,要求缓存的所有组都遵循同样的路划分方案. 实际上,应用在不同组可能会有不同的空间需求,路划分技术限制了缓存的空间利用,造成资源浪费.GroupUCP是一种按需调节的细粒度缓存资源管理技术,其设计思路是根据每个应用对各缓存组的不同需求,采用动态分组和实时评估的方式,将各个缓存组聚合成组,分组进行按需分配. 这一设计允许各个组进行独立的路划分分配,从而提高缓存使用率和整体系统性能. 实验证明,相较于传统的UCP方法,GroupUCP利用更少的硬件资源实现了更细粒度资源按需分配,在对缓存资源敏感且需求不均衡的应用组合下获得了更高的系统性能提升.
方面情感三元组抽取(aspect sentiment triplet extraction,ASTE)是方面级情感分析中具有挑战性的子任务之一,旨在从文本中抽取方面术语、观点术语和情感极性三元组. 近期基于生成式的抽取方法取得了出色的表现,这些方法通过顺序串联目标三元组来实现自回归式三元组生成. 然而,这种串联方法可能导致无序三元组之间存在顺序依赖,从而在解码过程中引入错误累积. 为解决这个问题,提出了基于术语提示双路文本生成的方法(term-prompted and dual-path text generation,TePDuP). 该方法首先利用机器阅读理解(machine reading comprehension,MRC)实现方面和观点术语的并行化抽取,然后将它们作为提示前缀来引导条件式三元组的生成,形成双路文本生成框架. 同时,在训练阶段引入计划采样的方法来修正MRC抽取错误所带来的偏差. 为进一步提高性能,引入生成概率将方面和观点术语引导的结果合并,以增强模型的鲁棒性. 基于ASTE-DATA-V2数据集的实验结果表明,提出的方法是有效的且明显优于其他基线模型,并给出具体案例分析,证明该方法一定程度上解决了前述问题.
在传统的问答任务中,模型一般需要大量的数据进行训练,而标注这些数据需要较多的时间和人力成本. 无监督问题生成是解决问答任务训练数据匮乏的一种有效方法,但是目前使用该方法生成出的问题存在着难以回答、种类单一、语义不明等问题. 针对这些问题,提出了一个自适应的多模块流水线式模型ADVICE,多个模块分别从问题可回答性、问题多样性和语法规范性对现有方法进行改进. 在问题可回答性模块中,使用了共指消解和命名实体识别技术来提升问题的可回答性. 在问题多样性模块中,针对不同提问方式的问题设计了不同的规则来提升问题类型多样性与答案类型多样性. 在语法规范性模块中,基于T5训练了一个针对问句的语法错误纠正模型,并设计了一个筛选模块对纠正后的问答数据进行过滤. 最后,训练了一个分类器自动选择所需要的模块. 实验表明,使用改进后的问题生成方法,下游的问答模型在SQuAD数据集上的
基于WiFi感知的呼吸监测具有非接触、低成本和隐私保护性高等优点,已成为当前物联网感知层研究的热点. 然而,现有基于WiFi感知的呼吸监测依赖敏感的信道状态信息,在应用时要求处于静止状态的监测目标不能距离WiFi收发设备过远,并要求不能有处于运动状态的非监测目标的干扰,这些要求制约了WiFi感知在呼吸监测方面的应用推广. 为此,提出了一种适应于动态场景的呼吸监测范围扩大方法FDRadio,尝试从分离动态干扰源,消除环境噪声以及增强动态反射信号功率3个方面提高感知精度和监测范围. 具体而言,首先通过合并多个WiFi信道扩展信道带宽,以提高WiFi感知的空间分辨率,并使用有线直连信道作为参考信道去除硬件噪声. 其次分析了监测范围与环境噪声的关系,并基于时间分集提出一种2级消除环境噪声的方法. 此外设计并实现了一种新颖的权值分配算法,通过合理叠加不同天线的比值信号,最大化动态反射信号功率,从而使处理后的信号对呼吸引起的胸腔微弱起伏具有更强的感知能力. 最后将处理后的信号转换到时域上的功率时延谱,利用监测目标和非监测目标之间信号传播路径的距离差,识别目标的呼吸信号. 在商用嵌入式设备上实现了FDRadio,并进行了一系列实验. 实验结果表明,即使在监测人员附近有多个连续移动的非监测目标,FDRadio依然能够在7 m监测范围内保持监测误差小于0.5 bpm.
随着云计算领域数据安全和用户隐私的需求发展,密文图像可逆信息隐藏技术(reversible data hiding in encrypted images,RDHEI)已经越来越受到人们的关注,但目前大多数的密文图像可逆信息隐藏都是基于灰度图像,它们与彩色图像相比在应用场景上有很大局限性. 此外,由于目前关于密文域的可逆信息隐藏方法主要集中于灰度图像,同时针对彩色图像的特性优化较少,往往无法对彩色载体图像实现更好的性能,所以进一步加强对基于彩色密文图像的可逆信息隐藏算法的研究具有很高的价值. 首次提出了一种可以用于云计算环境的基于颜色通道相关性和熵编码的高性能彩色密文图像可逆信息隐藏算法(RDHEI-CE). 首先,原始彩色图像的RGB通道被分离并分别得出预测误差. 接下来,通过自适应熵编码和预测误差直方图生成嵌入空间,之后通过颜色通道相关性进一步扩展嵌入空间,并将秘密信息嵌入加密图像中. 最后,对载密图像进行可逆置乱以抵御唯密文攻击. 与大多数最先进的可逆信息隐藏方法相比,实验表明RDHEI-CE算法提供了更高的嵌入率和更好的安全性,并且拓宽了可逆信息隐藏在云端的应用场景.
推荐系统对缓解信息过载问题起着重要的作用,它使得用户从繁杂网络信息(如天猫、TikTok、小红书等)中轻松获取产品和服务. 然而多数推荐系统以准确率为中心,导致用户视野受限、部分商家展示机会少、平台内容生态单一且资源信息分配不均衡等不利影响,如引发过滤气泡和马太效应等. 由此,提升推荐的多样性逐渐成为推荐系统研究领域的关注重点,其目标是满足人们日益增长的多元化物质生活需求. 近年来,推荐系统在多样性方向的技术研究呈现迅速发展态势,然而,目前多样化推荐的研究缺乏系统的整理和归纳,缺少系统地对推荐的多样化问题进行梳理和综述. 首先提出了多样化推荐的问题定义、技术框架、分类及其应用场景. 其次从4个方面对模型和算法进行了比较和分析. 然后总结了多样化推荐的常用数据集和评测指标. 最后探讨了该领域中的问题和挑战,以期激发未来创新,推动多样化推荐的发展.
知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案. 近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法. 从模型方法、数据集等不同方面对基于信息检索的知识库问答研究进行梳理总结. 首先对知识库问答的研究意义和相关定义进行介绍. 然后按照模型执行过程从问句解析、信息检索、模型推理、答案生成这4个阶段阐述每个阶段面临的关键问题以及典型解决方法,对每个阶段所使用到的共性网络模块进行总结. 其次针对基于信息检索的知识库问答方法的不可解释性进行分析梳理. 此外,对不同特点的相关数据集和不同阶段的基线模型进行了分类介绍与总结. 最后对基于信息检索的知识库问答每个执行阶段以及该领域整体发展方向进行了总结和展望.
目前,深度学习在合成语音检测领域取得了巨大的成功. 然而,通常情况下,深度模型可以在与训练集分布相似的测试集上取得高准确率,但在跨数据集的情境下,其准确率却会显著下降. 为了提高模型在新数据集上的泛化能力,通常需要对其进行微调,但这会导致模型遭受灾难性遗忘. 灾难性遗忘指的是模型在新数据上的训练会损害其从旧数据中获得的知识,导致对旧数据的识别性能下降. 目前,克服灾难性遗忘的主要算法之一是连续学习. 面向合成语音检测提出了一种连续学习算法——弹性正交权重修正(elastic orthogonal weight modification,EOWM),用于克服灾难性遗忘. 该算法通过修正模型在学习新知识时的参数更新方向和更新幅度,以减少对已学知识的损害. 具体来说,该算法在模型学习新知识时要求参数的更新方向与旧任务的数据分布正交,并同时限制对旧任务中重要参数的更新幅度. 在合成语音检测领域的跨数据集实验中,算法取得了良好的效果. 与微调相比,该算法在旧数据集上的等错误率(equal error rate,EER)从7.334%降低至0.821%,相对下降了90%;在新数据集上的等错误率从0.513%降低至0.315%,相对下降了40%.
交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性. 然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交通领域对数据可靠性的要求. 而且,现有方法将重点放在了建模交通数据的时空相关性上,却未能在捕获时空相关性的过程中考虑缺失值的影响. 此外,交通数据的不确定性同时受到时间、空间位置以及数据自身状态的影响,但是现有方法无法全面考虑这些因素的影响. 为了解决这些问题,提出了一种时空不确定性指导的交通数据插补模型(spatial-temporal uncertainty guided traffic data imputation network,STUIN),以自监督训练的方式实现了时空交通数据的插补和对插补结果的不确定性量化. 具体来说,创新地将神经网络的隐状态建模成服从高斯分布的随机变量,借助方差建模隐状态的不确定性,利用基于方差的注意力机制描述不确定性对时空相关性建模的影响;此外,设计了一个新颖的时空不确定性初始化模块,在初始化均值和方差时同时考虑了时间、空间和数据缺失状况多种因素的影响. 在2个交通流量数据集上的实验结果表明STUIN在数据插补和不确定性量化上都达到了最先进的性能.
知识追踪(knowledge tracing,KT)是对学习者知识水平建模的一种技术,根据学习者过去的学习交互预测其未来答题表现,这些交互代表了学习者回答一个习题序列的过程. 当前知识追踪方法在建模学习者遗忘行为时缺乏考虑知识点重复练习次数,并且少有模型考虑知识点相关性对答题预测的影响. 基于此,提出了一个融合知识点相关性和遗忘程度的深度知识追踪模型. 首先使用统计方法构建了一个关联矩阵,以捕获知识点之间的相关性. 其次,利用交互之间的时间间隔和学习者学习同一知识点的次数来计算知识点的遗忘程度,以更好地拟合学生的遗忘行为. 最后,将知识点相关性和遗忘程度整合到一个注意力模块中,以获得过去的每个交互对未来答题的影响,据此预测学习者的答题结果. 在真实的在线教育数据集algebra2005-2006和ASSISTment2012上的实验表明,相较于已有主流方法,所提模型取得了更好的预测结果.
多模态情感分析是利用多种模式的主观信息对情感进行分析判断的一种多模态任务. 情感表达具有主观性,在某些场景下不同模态的情感表达不一致,甚至存在相悖的情况,这会削弱多模态协同决策的效果. 针对不同模态间情感语义不一致的问题,提出一种多模态学习方法,学习情感语义表达一致的模态特征表示. 为了在不影响模态原始信息的同时,提高各模态的共性特征表达并增加模态间的动态交互,首先学习每个模态的共性特征表示,然后利用交叉注意力使单个模态能有效从其余模态的共性特征表示中获取辅助信息. 在模态融合模块,以软注意力机制为基础提出模态注意力,对情感语义表达一致的各模态特征表示进行加权连接,以增大强模态的表达,抑制弱模态对任务的影响. 提出的模型在情感分析数据集MOSI,MOSEI,CH-SIMS上的实验结果均优于对比模型,表明在多模态情感分析任务中考虑情感语义不一致问题的必要性与合理性.
随着全球信息化的高速发展,高维数据挖掘与知识发现成为了人工智能领域亟待破解的科学问题之一. 然而,由于高维数据中样本的稀疏性与特征的冗余性,传统统计学模型和机器学习方法的泛化性和可解释性遇到极大的挑战. 为此,针对高维数据与知识弱演化能力之间不平衡的科学问题,利用三支概念求解复杂问题的认知机理,提出了一种新的概念建模方法,即稳健模糊概念认知学习(fuzzy-based concept-cognitive learning with robustness,R-FCCL). 首先,借助概念的最大相似性原则,建立了基于R-FCCL的高维数据分类系统,并从概念的角度出发,研究了高维数据的知识结构和认知学习机理. 进一步,利用模糊三支概念的正、负算子从2个不同的角度刻画了模糊环境概念认知学习过程,进而基于概念融合的模糊三支概念完成概念辨识和数据分类. 通过在12个真实数据集与12种分类方法的实验分析,验证所提方法具有较好的鲁棒性和有效性.
在地铁场景中,小行人目标由于分辨率低,包含特征信息较少,现阶段目标检测器对此类目标的检测仍具有挑战性. SSD目标检测算法利用金字塔网络的多尺度检测头,能一定程度提高行人目标检测性能,但将其应用于地铁等复杂环境中实现小行人目标检测仍具有一定局限性. 针对上述问题,提出一种改进SSD算法以加强地铁场景中小行人目标检测效果. 通过构建地铁场景行人目标数据集,标注相应标签,同时进行数据预处理操作;在特征提取网络中加入金字塔特征加强模块,将多分支残差单元、亚像素卷积和特征金字塔相结合获得图像多尺度、多感受野融合特征;利用上下文信息融合模块将图像低层特征与上下文特征相融合,生成扩展特征层用于检测小行人目标;设计一种基于Anchor-free的动态正负样本分配策略,为小行人目标生成最优正样本. 实验结果表明:提出的改进SSD算法能有效提高地铁场景小行人目标检测性能,对遮挡严重的小行人目标检测,效果提升更为明显.
基于模型诊断(MBD)方法在不同的环境中有越来越多的用途,包括软件故障定位、电子表格的调试、Web服务和硬件设计,以及生物系统的分析等. 受这些不同用途的启发,近年来MBD算法改进成效显著. 然而,对体系庞大、结构复杂的系统,需要对现有方法进一步改进. 由于求解诊断解在计算上具有挑战性,因此相继提出了一些通过压缩模型的MBD算法来提高诊断效率,如基于统治的多观测压缩模型(dominated-based compacted model with multiple observations,D-CMMO)算法. 对于给定多个观测值且注入1个以上错误需要大量时间的诊断问题,提出了一个新的诊断模型CCM(cardinality-constrained compacted model)来解决. 基于基数约束的压缩模型算法使用2种方法对求解过程进行优化:首先,利用系统观测的故障输出和故障组件数量之间的约束关系来限制目标解的范围; 其次,通过对假设集采用单次入队方法, 进而有效提升MaxSAT(maximum satisfiability)求解器的性能. 此外,在ISCAS85和ITC99基准测试用例上的实验结果表明,与目前最新的MBD求解方法D-CMMO 相比,上述2种优化方法有效缩小了MBD问题的求解范围,降低 MaxSAT 求解器搜索目标解的难度,进而能在更短的时间内返回一个诊断解. 在平均状况下,CCM方法相比D-CMMO方法求解效率分别提升64.5%和92.8%.
近年来,随着城市化进程的加速和社会经济的发展,公共安全问题也愈发引起人们的关注. 为了保障社会稳定和公民生命财产安全,各地政府开始大力推进智能安防和智慧城市的建设. 行人重识别就是构建智慧城市的核心技术之一,对安防监控和刑事调查申请具有重要意义. 行人重识别旨在检索不同摄像头下捕捉到的特定人物. 然而,由于光照、视角、遮挡和姿势等造成的类内差异,行人重识别在计算机视觉领域仍然是一项具有挑战性的任务. 受限于数据和标记匮乏,已有的全监督行人重识别任务在模型层面上改进的方法效果基本达到瓶颈. 引入更复杂多样且标记易获得的大型虚拟数据集来进行辅助训练,并提出了一种基于摄像头感知的非对称领域对抗学习方法,同时缓解领域间差异和多摄像头间类内差异的影响,使模型从更丰富多样的数据中学到摄像头差异无关的特征表示. 此外,为了缓解虚拟数据集夹带的误导信息带来的不利影响和对抗训练中真实世界数据集的数据分布向虚拟数据集的数据分布发生偏移的问题,提出使用基于真实数据训练的辅助网络来约束主干网络的训练. 实验在2个公开的数据集上进行验证,表明了所提方法的有效性.
半监督多标记学习利用有标记数据和无标记数据进行模型的训练,降低了多标记数据的标记成本并取得了不错的结果,吸引了很多研究者不断进行研究. 然而,在半监督标注过程中,由于标记的数量较多,往往会出现某些标记缺失标注样本的情况,这些标记被称为开放词汇. 开放词汇会导致模型无法学习到该类别的标记信息,使得模型性能下降. 针对上述问题,提出了基于图提示的半监督开放词汇多标记学习方法. 具体地,该方法利用基于提示的图神经网络对预训练大模型进行微调,挖掘和探索开放词汇与监督样本之间的关系. 通过使用包含图像与文本的多模态数据构造图神经网络作为预训练大模型的文本输入进行学习. 其次利用预训练大模型在开放词汇上的泛化能力,对无监督样本生成伪标记,实现对输出分类层的微调,使模型在对开放词汇进行分类时能获得更加理想的效果. 多个基准数据集上的实验结果均显示,基于图提示的半监督开放词汇多标记学习方法优于目前的主流方法,在VOC,COCO,CUB,NUS等基准数据集上均取得了最优的效果.
价格操控攻击通过改变去中心化金融项目的数字资产存量操控资产链上价格,从而攻击其清算机制以实现不当牟利,是目前去中心化金融生态最主要的安全威胁之一. 目前主流的安全防御手段是通过预言机获取不易被操控的链下价格,但频繁将链下数据更新上链会导致预言机的维护成本高昂,因而无法满足工业界需求. 为解决上述问题,提出一种针对价格操控攻击的防御机制,通过链下价格来指导链上价格操控行为的识别,以合约代理的形式实现对价格操纵交易的拦截,并通过低频的价格获取降低交易提交的频率和链下数据更新上链的成本,进而实现价格操控攻击的防御成本和识别精度之间的折中. 实验表明,该方法在降低预言机30%以上运维成本的前提下,对价格操纵攻击的防御率达到97.5%.
多目标安全博弈(multi-objective security game,MOSG)旨在同时最优化防御者应对多个异质攻击者获得的收益,在实际应用中具有重要意义. 近期提出的基于空间离散化的演化搜索(space discretization based evolutionary search,SDES)框架将MOSG中的带约束的高维阶梯函数优化问题转换为低维组合优化问题,并使用贪心策略解决组合优化任务. 虽然SDES能够在有限时间内处理大规模MOSG任务,但是SDES难以收敛到大规模MOSG任务对应的最优Pareto前沿上. 一方面,SDES的贪心策略的收敛性假设随问题规模扩大而变得愈发难以满足;另一方面,SDES过多的阶段组件(空间离散化、演化优化、评估、解的精炼)存在阶段耦合的风险,即上游组件的优化质量直接影响下游组件的表现. 因此,挖掘并利用MOSG任务中被保护对象的优先级(priority)先验知识,旨在提高解的质量并简化SDES框架,从而提出了SDES-P框架. SDES-P重新设计了SDES的核心组件——评估组件,并移除解的精炼组件. 具体而言,SDES-P从具有最大资源的不可行解开始,根据被保护对象优先级先验将被保护对象分成2 组,优先级较高的一组对象会逐渐释放资源以找到可行解. 最后,SDES-P包含了一种结合优先级先验的演化局部搜索策略,增强最终Pareto前沿的质量. 分析出SDES-P可保持SDES所具有的样本复杂度低、规模可扩展性强的优势,并且用实验结果表明,无论MOSG任务是否满足收敛假设,SDES-P可以找到相较于SDES收敛性、多样性更优的高质量Pareto前沿.
基于用户级别本地化差分隐私的联邦学习得到了研究者的广泛关注,联邦数据的类型、本地更新的裁剪、隐私预算的分配以及用户掉线问题直接制约着全局联邦学习模型的精度. 针对现有方法难以有效应对该类问题的不足,提出了一种有效基于用户级别本地化差分隐私的联邦学习算法ULDP-FED. 该算法能够同时处理同分布与非同分布的联邦数据类型;不同于现有的固定裁剪设置方法,ULDP-FED算法采用裁剪阈值动态衰减策略来实现高斯机制造成的误差与裁剪造成的偏差之间的均衡;为了节省用户手中的隐私预算,该算法通过遍历用户所有历史本地噪音梯度更新来寻找当前轮本地梯度更新的替代更新. 若存在高度相似的历史更新,用户只需要上传该历史梯度更新的索引即可,进而减少了用户与服务器之间的通信代价. ULDP-FED算法与现有算法在MNIST和CIFAR 10数据上的实验结果表明,其模型精度均高于同类方法.
近年来随着经济的发展,室内定位系统的需求越来越迫切. 传统的室内定位系统如WIFI定位和蓝牙定位面临着定位精度低、易受非视距(non-line-of-sight,NLOS)和噪声干扰等挑战. 针对这些问题,提出了一种基于融合集成学习的近超声室内定位方法. 首先,使用优化的增强互相关方法有效地抵消多径干扰. 与传统基于峰值提取或固定阈值的方法相比,此法在混响环境中明显提升了测距的精度. 然后,利用到达时间差(time difference of arrival,TDOA)作为特征进行提取. 最终,采用了融合集成学习模型,对设定好的训练集进行交叉融合训练,并输入特征,从而得到修正的定位结果. 仿真和实验测试结果表明,所提出的方法可以在室内NLOS和噪声干扰的情况下克服较大误差实现精确定位,并且精度优于对比方法50%~90%. 本文核心数据公布在https://github.com/ChirsJia/JSJYF上.
在容器技术和微服务框架的普及背景下,无服务器计算为开发者提供了一种无需关注服务器操作以及硬件资源管理的云计算范式. 与此同时,无服务器计算通过弹性扩缩容实时地适应动态负载变化,能够有效降低请求响应延时并且减少服务成本,满足了客户对于云服务成本按需付费的需求. 然而,无服务器计算中面临着弹性扩缩容需求导致的冷启动延迟问题. 提前预热函数实例能够有效地降低冷启动发生频率和延时. 然而,在云环境中流量突发问题极大地增加了预测预热函数实例数的难度. 针对上述挑战,提出了一种基于概率分布的弹性伸缩算法(probability distribution based auto-scaling algorithm,PDBAA),利用监控指标历史数据预测未来请求的概率分布,以最小化请求响应延时为目的计算预热函数实例的最佳数量,并且PDBAA能够有效地结合深度学习技术的强大预测功能进一步提升性能. 在Knative框架中,通过NASA和WSAL数据集对算法进行了验证,仿真实验表明,相比于Knative弹性伸缩算法以及其他预测算法,所提出的算法弹性性能提升了31%以上,平均响应时间降低了16%以上,能够更好地解决流量突发问题,有效地降低了无服务器计算请求的响应延时.
TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域. 小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据输入的算法. 随着高性能计算领域个性化、精细化发展,科学界、工业界对小规模非规则TRSM计算的需求愈加明显. 传统算法更偏重于大规模、规则TRSM的计算,在小规模非规则TRSM计算上效率不佳. 结合硬件体系结构、应用场景特征提出小规模非规则TRSM优化方案,从寄存器分块、边界处理、向量化计算角度设计高性能内核,在此基础上构建覆盖双精度实数、双精度复数的小规模非规则算法库SI_TRSM (small-scale irregular TRSM),大幅度提升该算法性能. 实验结果表明,构建的双精度小规模非规则TRSM算法库,较MKL(Intel math kernel library)同类算法,在双精度小规模非规则实数上平均性能提高29.4倍,在双精度小规模非规则复数上平均性能提高24.6倍.
卷积神经网络(convolutional neural network,CNN)已成为图像识别领域最重要的一项机器学习技术. 近年来,随着CNN在边缘端部署的需求越来越多,CNN的轻量化也成为研究热点. 主流的CNN轻量化方法包括剪枝和量化,这2项技术都能有效地减少CNN推导过程中计算和存储开销. 然而,这些方法未能完全挖掘CNN中的双边稀疏性(权重稀疏和激活值稀疏)和潜在的数据复用. 因此,为了解决上述问题,提出一种全新的神经网络轻量化方法,通过
通知公告 更多+
-
【重磅】
本刊虚拟专辑J-CRAD Transactions on系列更新,欢迎阅读! 2025-01-14
- 【通知】 编辑部1月26日至2月5日集中休假 2025-01-12
- 【声明】 本刊不接收任何代理方式投稿,请认准期刊主页和编辑部固定电话,以防上当受骗 2014-12-18
本刊动态 更多+
- 高性能计算与智能计算专题征文【截稿日期2025-02-28】 2024-12-19
- 大模型时代的存储管理与数据分析专题征文延期至2024-07-20 2024-06-02
- 生成式人工智能驱动的信息系统专题征文延期至2024-06-20 2024-05-30
- 数据要素安全专题征文【截稿日期2024-06-05】 2024-03-11
学术活动 更多+
- 2024中国计算机大会(CNCC2024)横店 2024-07-04
- 第十届中国数据挖掘会议(CCDM2024)泰安 2024-07-04
- 2024中国多媒体大会(ChinaMM2024)银川 2024-07-04
浏览排行更多+
- 知识图谱构建技术综述 19553
- 知识表示学习研究进展 13077
- 大数据管理:概念、技术与挑战 12907
- 匿名通信系统不可观测性度量方法 11501
- 边缘计算:现状与展望 10330
下载排行更多+
- 大数据管理:概念、技术与挑战 271145
- 知识图谱构建技术综述 25845
- 知识表示学习研究进展 20928
- 深度学习的昨天、今天和明天 14328
- 边缘计算:现状与展望 7269