2017年 第54卷 第4期
摘要:
能源可持续发展是人类面临的共同难题,传统化石能源消耗殆尽,除水力资源作为清洁的可再生能源被广泛用于发电之外,其他具有较大利用潜力的可再生能源,如太阳能、风能等都具有间歇性和不稳定性的特点,至今尚未充分加以利用。借鉴信息互联网技术的理念、方法,可实现能源生产、传输到消费的开放对等和双向动态平衡,构建未来信息与能源深度融合的能源互联网是践行我国能源革命和国际第三次工业革命的重要方面。在能源互联网构建的能源体系中,能源与信息互联网中的信息类似,任何合法主体都能够自由接入和分享能量。从计算机技术角度看,通过信息能源深度融合,可实现信息主导、精准控制的能源体系,这些方面的研究亟需开展。《计算机研究与发展》适时推出了能源互联网专题,在征文发出之后,得到同行的广泛关注。通过专题公开征文以及约稿征得74篇高质量的投稿,这些论文分别在多个研究方向上阐述了能源互联网领域具有重要意义的研究成果,展示这个领域近年来的热点及研究现状。本专题的审稿严格按照期刊审稿要求进行,最终从中遴选出7篇论文入选本专题,分别涵盖了能源互联网在能量交换、信息通信、能量管理和市场交易等方面的研究内容。
能源可持续发展是人类面临的共同难题,传统化石能源消耗殆尽,除水力资源作为清洁的可再生能源被广泛用于发电之外,其他具有较大利用潜力的可再生能源,如太阳能、风能等都具有间歇性和不稳定性的特点,至今尚未充分加以利用。借鉴信息互联网技术的理念、方法,可实现能源生产、传输到消费的开放对等和双向动态平衡,构建未来信息与能源深度融合的能源互联网是践行我国能源革命和国际第三次工业革命的重要方面。在能源互联网构建的能源体系中,能源与信息互联网中的信息类似,任何合法主体都能够自由接入和分享能量。从计算机技术角度看,通过信息能源深度融合,可实现信息主导、精准控制的能源体系,这些方面的研究亟需开展。《计算机研究与发展》适时推出了能源互联网专题,在征文发出之后,得到同行的广泛关注。通过专题公开征文以及约稿征得74篇高质量的投稿,这些论文分别在多个研究方向上阐述了能源互联网领域具有重要意义的研究成果,展示这个领域近年来的热点及研究现状。本专题的审稿严格按照期刊审稿要求进行,最终从中遴选出7篇论文入选本专题,分别涵盖了能源互联网在能量交换、信息通信、能量管理和市场交易等方面的研究内容。
2017, 54(4): 683-694.
DOI: 10.7544/issn1000-1239.2017.20161011
摘要:
能源互联网已经成为我国能源生产和消费革命强大的推动力,它将智能微网技术和多能协调互补等核心技术集成应用,多种能源形式的“源-荷-储”交叉共建,使得能量转化、传输机理和系统运行特性复杂.现有热力、电力等能源系统的计算方法和仿真手段分别针对一种独立能源系统,不能满足多种不同能源耦合和交互机理、多能系统组网运行及控制特性的计算分析需求.总结评述了作为多能系统仿真基础的微电网和非电能源系统仿真技术现状,分析和概括了多能系统根本特征、仿真要点和难点,进一步提出了阶段化、多模式混合仿真思想,概括了其中的关键技术,以期充分利用现有能源设备-系统仿真模型和算法基础,建立适用于多能源系统动态、暂态仿真分析技术,并以典型的冷热电联供为例说明段化多模式混合仿真技术在多能系统中的应用.
能源互联网已经成为我国能源生产和消费革命强大的推动力,它将智能微网技术和多能协调互补等核心技术集成应用,多种能源形式的“源-荷-储”交叉共建,使得能量转化、传输机理和系统运行特性复杂.现有热力、电力等能源系统的计算方法和仿真手段分别针对一种独立能源系统,不能满足多种不同能源耦合和交互机理、多能系统组网运行及控制特性的计算分析需求.总结评述了作为多能系统仿真基础的微电网和非电能源系统仿真技术现状,分析和概括了多能系统根本特征、仿真要点和难点,进一步提出了阶段化、多模式混合仿真思想,概括了其中的关键技术,以期充分利用现有能源设备-系统仿真模型和算法基础,建立适用于多能源系统动态、暂态仿真分析技术,并以典型的冷热电联供为例说明段化多模式混合仿真技术在多能系统中的应用.
2017, 54(4): 695-702.
DOI: 10.7544/issn1000-1239.2017.20161022
摘要:
针对能源路由器在能源互联网示范工程中的应用需求,提出了链式路由网络结构以及基于边缘扩散的路由控制实现策略,初步解决了示范工程内部用户级的能量管理问题.1)在介绍单能源路由器的基础上,设计了由多个能源路由器链接组成的链式路由网络,实现了能量的区块化划分;2)给出了边缘扩散策略.以链式网络内的个体路由器为决策中心,把功率不平衡性传递到临近的路由器,最终由链式网络最外缘的低压电网消除功率失衡,从而实现自身的功率平衡;3)对通信支撑网络和应用场景进行了分析,初步说明了链式路由网络在示范工程中的实际可行性.
针对能源路由器在能源互联网示范工程中的应用需求,提出了链式路由网络结构以及基于边缘扩散的路由控制实现策略,初步解决了示范工程内部用户级的能量管理问题.1)在介绍单能源路由器的基础上,设计了由多个能源路由器链接组成的链式路由网络,实现了能量的区块化划分;2)给出了边缘扩散策略.以链式网络内的个体路由器为决策中心,把功率不平衡性传递到临近的路由器,最终由链式网络最外缘的低压电网消除功率失衡,从而实现自身的功率平衡;3)对通信支撑网络和应用场景进行了分析,初步说明了链式路由网络在示范工程中的实际可行性.
2017, 54(4): 703-710.
DOI: 10.7544/issn1000-1239.2017.20161016
摘要:
近年来,数据中心能效优化问题得到业界的普遍关注.同时,能源互联网的发展为数据中心能效优化问题提供了新的研究思路.能源互联网中的用户,尤其是大型的工业用户,通常具备一定的储能能力和一定的智能化能源管理能力.随着清洁能源的大规模部署以及售电公司的快速发展,数据中心等大型能耗用户也随之获得购电的选择权,可以根据电价、清洁程度等因素,从不同的能源供应商购买能源,从而降低能源成本,提高能效.研究表明在污染指数及实时电价的调节下,用户更趋向于在用电低谷期买入更多廉价且清洁的能源.因此,一方面综合考虑污染指数函数与实时电价,构建多源购电成本模型;另一方面综合考虑储能的操作成本及潜在收益成本,构建储能充放电成本模型,简称储能成本模型.以此为基础,建立了有储能系统下的数据中心多源能源选择模型,并与无储能时序调度策略时的系统性能做了对比.仿真结果表明:提出的模型可以通过对储能时序及多源能源选择的综合优化,一定程度上降低数据中心的日能源成本,同时提高清洁能源利用率.
近年来,数据中心能效优化问题得到业界的普遍关注.同时,能源互联网的发展为数据中心能效优化问题提供了新的研究思路.能源互联网中的用户,尤其是大型的工业用户,通常具备一定的储能能力和一定的智能化能源管理能力.随着清洁能源的大规模部署以及售电公司的快速发展,数据中心等大型能耗用户也随之获得购电的选择权,可以根据电价、清洁程度等因素,从不同的能源供应商购买能源,从而降低能源成本,提高能效.研究表明在污染指数及实时电价的调节下,用户更趋向于在用电低谷期买入更多廉价且清洁的能源.因此,一方面综合考虑污染指数函数与实时电价,构建多源购电成本模型;另一方面综合考虑储能的操作成本及潜在收益成本,构建储能充放电成本模型,简称储能成本模型.以此为基础,建立了有储能系统下的数据中心多源能源选择模型,并与无储能时序调度策略时的系统性能做了对比.仿真结果表明:提出的模型可以通过对储能时序及多源能源选择的综合优化,一定程度上降低数据中心的日能源成本,同时提高清洁能源利用率.
2017, 54(4): 711-719.
DOI: 10.7544/issn1000-1239.2017.20161024
摘要:
随着全球能源互联网的快速发展,越来越多分布式能源系统接入,对于能源信息的网络与信息安全关注和需求日益迫切.量子保密通信技术在原理上可实现信息通信的无条件绝对安全,其在电网中的应用尚处于探索试点阶段.围绕全球能源互联网环境下的电力量子保密通信性能进行评估分析研究,1)考虑到电网环境的复杂性和电力通信传输损耗的多样性,提出电力量子保密通信系统性能评估的架构图;2)通过仿真模拟电力通信传输环境、电网实际业务环境,从距离损耗、舞动损耗、接续损耗等6个方面测试评估电力量子保密通信系统中的量子信道和数据交互通道的各项性能指标;3)通过仿真实验验证了该技术在电力通信领域应用的可行性及安全性,有效地支撑能源互联网的发展.
随着全球能源互联网的快速发展,越来越多分布式能源系统接入,对于能源信息的网络与信息安全关注和需求日益迫切.量子保密通信技术在原理上可实现信息通信的无条件绝对安全,其在电网中的应用尚处于探索试点阶段.围绕全球能源互联网环境下的电力量子保密通信性能进行评估分析研究,1)考虑到电网环境的复杂性和电力通信传输损耗的多样性,提出电力量子保密通信系统性能评估的架构图;2)通过仿真模拟电力通信传输环境、电网实际业务环境,从距离损耗、舞动损耗、接续损耗等6个方面测试评估电力量子保密通信系统中的量子信道和数据交互通道的各项性能指标;3)通过仿真实验验证了该技术在电力通信领域应用的可行性及安全性,有效地支撑能源互联网的发展.
2017, 54(4): 720-730.
DOI: 10.7544/issn1000-1239.2017.20161026
摘要:
随着智能电网、信息技术和新能源技术的飞速发展,能源互联网的概念已经提出,“源-网-荷-储”4个环节的互动协调的趋势已经显现.能源互联网本质上是安全攸关系统,特别在电网故障发生时,需要执行大量的具有先后关系和截止期限的动作序列进行恢复.因此,能源互联网中实现电网自愈的体系架构在多智能体的基础上,提出了一种基于多智能体的混合实时调度模型和求解方法,在电网自愈过程中加入了故障链和安全树,并增加了截止期约束条件,确保电网能及时得出修复故障安全的操作序列,减少后继可能发生的故障.最后,通过仿真结果验证了智能电网自愈多智能体混合实时调度模型及其求解算法可有效地增加故障结点安全操作处理的成功率(平均17.74%)并减少故障链式后续触发率(平均7.72%),有助于增强智能电网乃至能源互联网的快速自愈和减少后继安全故障的发生.
随着智能电网、信息技术和新能源技术的飞速发展,能源互联网的概念已经提出,“源-网-荷-储”4个环节的互动协调的趋势已经显现.能源互联网本质上是安全攸关系统,特别在电网故障发生时,需要执行大量的具有先后关系和截止期限的动作序列进行恢复.因此,能源互联网中实现电网自愈的体系架构在多智能体的基础上,提出了一种基于多智能体的混合实时调度模型和求解方法,在电网自愈过程中加入了故障链和安全树,并增加了截止期约束条件,确保电网能及时得出修复故障安全的操作序列,减少后继可能发生的故障.最后,通过仿真结果验证了智能电网自愈多智能体混合实时调度模型及其求解算法可有效地增加故障结点安全操作处理的成功率(平均17.74%)并减少故障链式后续触发率(平均7.72%),有助于增强智能电网乃至能源互联网的快速自愈和减少后继安全故障的发生.
2017, 54(4): 731-741.
DOI: 10.7544/issn1000-1239.2017.20161015
摘要:
传统的安全态势评估方法主要面向小规模网信息系统,忽略了网络节点间风险的关联性.针对能源互联网中复杂的网络结构,提出基于威胁传播的多节点网络安全态势量化评估方法,1)该方法提出能源互联网网络节点的概念和相关定义,并利用图理论对能源互联网的网络结构进行建模;2)提出基于威胁传播概率的安全态势量化方法,计算网络节点安全态势,并提出多节点网络的权重计算方法LR-NodeRank,进而评估整个网络的融合安全态势;3)提出一种基于最简威胁图的安全态势改进方法,计算需要开展安全加固的网络边界.实验结果表明:该方法能够准确评估多节点网络的安全态势,能够有效计算边界连接关系.
传统的安全态势评估方法主要面向小规模网信息系统,忽略了网络节点间风险的关联性.针对能源互联网中复杂的网络结构,提出基于威胁传播的多节点网络安全态势量化评估方法,1)该方法提出能源互联网网络节点的概念和相关定义,并利用图理论对能源互联网的网络结构进行建模;2)提出基于威胁传播概率的安全态势量化方法,计算网络节点安全态势,并提出多节点网络的权重计算方法LR-NodeRank,进而评估整个网络的融合安全态势;3)提出一种基于最简威胁图的安全态势改进方法,计算需要开展安全加固的网络边界.实验结果表明:该方法能够准确评估多节点网络的安全态势,能够有效计算边界连接关系.
2017, 54(4): 742-749.
DOI: 10.7544/issn1000-1239.2017.20160991
摘要:
针对能源互联网企业内部与外间的数据共享过程中,存在集中部署访问受限、标识不唯一、易被窃取或篡改隐患等问题,影响到数据作为资产进行统一安全共享的效率.为此,结合区块链的去中心化、自主对等、难以更改的技术特征,构建基于区块链的数据安全共享网络体系,主要包括去集中化数据统一命名技术及服务、授权数据分布式高效存储和支持自主对等的数据高效分发协议.其次,设计了开放式数据索引命名结构,含一级基础ODIN和多级扩展ODIN,且阐述了开放数据索引命名运行机制.再次,基于ODIN技术,设计了基于ODIN的去中心化DNS的域名协议模块,为数据间P2P安全可信共享奠定基础.最后,针对基于ODIN的去中心DNS的功能进行验证,为实现企业内部及企业间的数据安全共享构建了一种可信网络环境.
针对能源互联网企业内部与外间的数据共享过程中,存在集中部署访问受限、标识不唯一、易被窃取或篡改隐患等问题,影响到数据作为资产进行统一安全共享的效率.为此,结合区块链的去中心化、自主对等、难以更改的技术特征,构建基于区块链的数据安全共享网络体系,主要包括去集中化数据统一命名技术及服务、授权数据分布式高效存储和支持自主对等的数据高效分发协议.其次,设计了开放式数据索引命名结构,含一级基础ODIN和多级扩展ODIN,且阐述了开放数据索引命名运行机制.再次,基于ODIN技术,设计了基于ODIN的去中心化DNS的域名协议模块,为数据间P2P安全可信共享奠定基础.最后,针对基于ODIN的去中心DNS的功能进行验证,为实现企业内部及企业间的数据安全共享构建了一种可信网络环境.
2017, 54(4): 750-763.
DOI: 10.7544/issn1000-1239.2017.20160138
摘要:
分簇超标量处理器将硬件资源分区来避免大的单体部件导致的功耗与周期惩罚,动态多核处理器融合多个物理核的硬件资源提供适应程序需求的计算能力,这些结构合理使用空间分布的硬件资源实现高能效的计算.空间分区结构中指令负载不均衡和跨区操作数传递延迟等问题可导致性能惩罚,需要有效的指令调度方法将计算在分区间进行分布.提出了基于数据流块(data-flow block, DFB)的空间指令调度方法.DFB是动态构建、缓存并重用的一个或数个顺序执行的指令基本块的调度模式.DFB调度算法建模动态指令流中的数据流约束和硬件资源定义的调度空间,然后根据指令量化的相对关键性完成调度决策.介绍了DFB调度的微结构框架和算法.通过对分区数、分区间延迟和调度窗口容量等与调度方法密切相关的微结构参数的实验,证明了DFB调度的性能和稳定性优于负载均衡调度和基于依赖的调度.最后举例证明结合一种数据流块缓存实现的DFB调度达到的调度效果接近理想化的DFB调度.
分簇超标量处理器将硬件资源分区来避免大的单体部件导致的功耗与周期惩罚,动态多核处理器融合多个物理核的硬件资源提供适应程序需求的计算能力,这些结构合理使用空间分布的硬件资源实现高能效的计算.空间分区结构中指令负载不均衡和跨区操作数传递延迟等问题可导致性能惩罚,需要有效的指令调度方法将计算在分区间进行分布.提出了基于数据流块(data-flow block, DFB)的空间指令调度方法.DFB是动态构建、缓存并重用的一个或数个顺序执行的指令基本块的调度模式.DFB调度算法建模动态指令流中的数据流约束和硬件资源定义的调度空间,然后根据指令量化的相对关键性完成调度决策.介绍了DFB调度的微结构框架和算法.通过对分区数、分区间延迟和调度窗口容量等与调度方法密切相关的微结构参数的实验,证明了DFB调度的性能和稳定性优于负载均衡调度和基于依赖的调度.最后举例证明结合一种数据流块缓存实现的DFB调度达到的调度效果接近理想化的DFB调度.
2017, 54(4): 764-774.
DOI: 10.7544/issn1000-1239.2017.20160141
摘要:
在CC-NUMA架构系统中,为了减少缓存一致性维护的开销,大规模CC-NUMA系统通常采用多级缓存一致性域设计,降低平均一致性维护操作数量,从而有效缓解系统性能扩展与一致性维护开销的矛盾.传统的MESI,MESIF,MOESI协议主要是针对单级一致性域优化设计,并且没有考虑到大型数据库应用中查询(数据读访问)业务量占据主导地位的特点,故该类一致性协议在多级缓存一致性域场景下存在着跨域操作频度高、执行效率低等缺点.针对上述问题,提出了一种基于共享转发态的多级缓存一致性协议MESI-SF.该协议创建了一个共享转发态Share-F,允许多个一致性域内同时存在远端数据副本的可读可转发状态,从而能够为同一域内同地址的读请求直接提供共享数据,有效减少了跨域操作,提升系统性能.SPLASH-2程序集模拟结果表明,对于两级Cache一致性域系统,相比MESI协议,MESI-SF能够减少23.0%跨结点访问次数,指令平均执行周期数(cycles per instruction, CPI)降低7.5%;相比MESIF协议,MESI-SF能够减少12.2%跨结点访问次数,指令平均执行周期数降低5.95%.
在CC-NUMA架构系统中,为了减少缓存一致性维护的开销,大规模CC-NUMA系统通常采用多级缓存一致性域设计,降低平均一致性维护操作数量,从而有效缓解系统性能扩展与一致性维护开销的矛盾.传统的MESI,MESIF,MOESI协议主要是针对单级一致性域优化设计,并且没有考虑到大型数据库应用中查询(数据读访问)业务量占据主导地位的特点,故该类一致性协议在多级缓存一致性域场景下存在着跨域操作频度高、执行效率低等缺点.针对上述问题,提出了一种基于共享转发态的多级缓存一致性协议MESI-SF.该协议创建了一个共享转发态Share-F,允许多个一致性域内同时存在远端数据副本的可读可转发状态,从而能够为同一域内同地址的读请求直接提供共享数据,有效减少了跨域操作,提升系统性能.SPLASH-2程序集模拟结果表明,对于两级Cache一致性域系统,相比MESI协议,MESI-SF能够减少23.0%跨结点访问次数,指令平均执行周期数(cycles per instruction, CPI)降低7.5%;相比MESIF协议,MESI-SF能够减少12.2%跨结点访问次数,指令平均执行周期数降低5.95%.
2017, 54(4): 775-786.
DOI: 10.7544/issn1000-1239.2017.20160142
摘要:
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access, CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%.
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access, CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%.
2017, 54(4): 787-803.
DOI: 10.7544/issn1000-1239.2017.20160049
摘要:
内存计算框架的低延迟特性大幅提高了集群的计算效率,但Shuffle过程的性能瓶颈仍不可规避.宽依赖的同步操作导致大多数工作节点等待慢节点的计算结果,同步过程不仅浪费计算资源,更增加了作业延时,这一现象在异构集群环境下尤为突出.针对内存计算框架Shuffle操作的同步问题,建立了资源需求模型、执行效率模型和任务分配及调度模型.给出了分配效能熵(allocation efficiency entropy, AEE)和节点贡献度(worker contribution degree, WCD)的定义,提出了算法的优化目标.根据模型的相关定义求解,设计了局部数据优先拉取算法(partial data shuffled first algorithm, PDSF),通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率;通过分析算法的相关优化原则,证明了算法的帕累托最优性.实验表明:PDSF算法提高了内存计算框架的作业执行效率,并使集群资源得到有效利用.
内存计算框架的低延迟特性大幅提高了集群的计算效率,但Shuffle过程的性能瓶颈仍不可规避.宽依赖的同步操作导致大多数工作节点等待慢节点的计算结果,同步过程不仅浪费计算资源,更增加了作业延时,这一现象在异构集群环境下尤为突出.针对内存计算框架Shuffle操作的同步问题,建立了资源需求模型、执行效率模型和任务分配及调度模型.给出了分配效能熵(allocation efficiency entropy, AEE)和节点贡献度(worker contribution degree, WCD)的定义,提出了算法的优化目标.根据模型的相关定义求解,设计了局部数据优先拉取算法(partial data shuffled first algorithm, PDSF),通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率;通过分析算法的相关优化原则,证明了算法的帕累托最优性.实验表明:PDSF算法提高了内存计算框架的作业执行效率,并使集群资源得到有效利用.
2017, 54(4): 804-812.
DOI: 10.7544/issn1000-1239.2017.20151059
摘要:
科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式地指定数据在不同设备之间的传递情况.全局数组(global arrays, GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.CoGA模型是对GA模型的异构拓展,旨在为CPU+英特尔至强融核(MIC)的异构系统提供全局数组结构,隐藏数据传输细节从而简化异构编程难度.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.最后,通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.
科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式地指定数据在不同设备之间的传递情况.全局数组(global arrays, GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.CoGA模型是对GA模型的异构拓展,旨在为CPU+英特尔至强融核(MIC)的异构系统提供全局数组结构,隐藏数据传输细节从而简化异构编程难度.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.最后,通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.
2017, 54(4): 813-820.
DOI: 10.7544/issn1000-1239.2017.20160116
摘要:
能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗.
能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗.
2017, 54(4): 821-831.
DOI: 10.7544/issn1000-1239.2017.20151060
摘要:
多核并行程序的调试是一个公认的困难问题,困难主要来自于程序执行的不确定性.可重现调试(replay debug)提供了消除程序中不确定性的能力,但是现有的可重现调试解决方案都无法应用于商用的软硬件平台中,且进行调试所带来的性能损失会随着并发度的增加而超线性地增长.提出了一种基于运行快照的新型并行程序调试方法SDT(snapshot debug tool).该方法以离线的断点设置、运行快照捕捉和运行快照细化为基础,提出了一套可以指导用户由粗到细发现错误的调试过程,并在通用的软硬件平台上进行了实现.实验结果显示,在8线程的并发条件下,使用SDT调试所带来的时间性能损耗平均为5188%;同时当线程数增长4倍时,使用SDT所带来的额外时间消耗最多增长1倍,具有很好的可扩展性.记录快照的数据量是影响SDT性能的重要挑战,实验证明通过使用增量式的快照记录方式可以有效地降低需要记录的数据量,减少记录快照花费的时间,提高SDT的整体性能.
多核并行程序的调试是一个公认的困难问题,困难主要来自于程序执行的不确定性.可重现调试(replay debug)提供了消除程序中不确定性的能力,但是现有的可重现调试解决方案都无法应用于商用的软硬件平台中,且进行调试所带来的性能损失会随着并发度的增加而超线性地增长.提出了一种基于运行快照的新型并行程序调试方法SDT(snapshot debug tool).该方法以离线的断点设置、运行快照捕捉和运行快照细化为基础,提出了一套可以指导用户由粗到细发现错误的调试过程,并在通用的软硬件平台上进行了实现.实验结果显示,在8线程的并发条件下,使用SDT调试所带来的时间性能损耗平均为5188%;同时当线程数增长4倍时,使用SDT所带来的额外时间消耗最多增长1倍,具有很好的可扩展性.记录快照的数据量是影响SDT性能的重要挑战,实验证明通过使用增量式的快照记录方式可以有效地降低需要记录的数据量,减少记录快照花费的时间,提高SDT的整体性能.
2017, 54(4): 832-843.
DOI: 10.7544/issn1000-1239.2017.20151176
摘要:
针对流程模型行为相似性度量难题,提出了一种基于任务发生关系的流程模型相似性度量TOR.基于Petri网的完全前缀展开理论,提出了节点编号算法以及最近公共前驱计算方法,在此基础上定义了任务间3种基本的发生关系:因果、并行和互斥,并给出这些关系的高效计算方法和模型相似度计算公式.TOR能有效处理不可见任务和非自由选择结构,基于来自企业实际模型的实验证明了TOR具备较好的效果和性能,与已有算法相比,TOR能较好地满足行为相似性算法应具备的性质.
针对流程模型行为相似性度量难题,提出了一种基于任务发生关系的流程模型相似性度量TOR.基于Petri网的完全前缀展开理论,提出了节点编号算法以及最近公共前驱计算方法,在此基础上定义了任务间3种基本的发生关系:因果、并行和互斥,并给出这些关系的高效计算方法和模型相似度计算公式.TOR能有效处理不可见任务和非自由选择结构,基于来自企业实际模型的实验证明了TOR具备较好的效果和性能,与已有算法相比,TOR能较好地满足行为相似性算法应具备的性质.
2017, 54(4): 844-854.
DOI: 10.7544/issn1000-1239.2017.20150923
摘要:
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%.
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%.
2017, 54(4): 855-860.
DOI: 10.7544/issn1000-1239.2017.20151056
摘要:
随着计算机性能的不断提高,大规模数值模拟的规模成倍增长.即使在大型可视化服务器上,针对这些模拟结果的大规模数据可视分析也难以进行流畅地交互.提出基于图像的交互分析方法并开发相应系统,可以预先生成多视角的可视化结果图像,基于这些图像可以在普通设备上实现3D可视化结果的交互分析与展示,可以交互改变观察视角,动态展示数值模拟全过程的可视化结果,可以有效提高数值模拟的效率.
随着计算机性能的不断提高,大规模数值模拟的规模成倍增长.即使在大型可视化服务器上,针对这些模拟结果的大规模数据可视分析也难以进行流畅地交互.提出基于图像的交互分析方法并开发相应系统,可以预先生成多视角的可视化结果图像,基于这些图像可以在普通设备上实现3D可视化结果的交互分析与展示,可以交互改变观察视角,动态展示数值模拟全过程的可视化结果,可以有效提高数值模拟的效率.
2017, 54(4): 861-871.
DOI: 10.7544/issn1000-1239.2017.20151111
摘要:
为了解决已有研究成果无法有效处理障碍空间中的组反k最近邻查询问题,提出了障碍物环境中基于Voronoi图的OGRkNN查询方法,该方法获得的结果集是将一组查询点中任意一点作为障碍kNN的数据点集合,在实际应用中可以用来评估一组查询对象的影响力.依据障碍物集合是否发生变化提出了2种情况下的OGRkNN查询方法,一种是静态障碍物环境下的OGRkNN查询(简称STA_OGRkNN查询)方法,另一种是动态障碍物环境下的OGRkNN查询(简称DYN_OGRkNN查询)方法.其中STA_OGRkNN查询方法利用Voronoi图的邻接特性可以在剪枝阶段有效地过滤掉大量的非候选者,快速地缩小查询范围,提高整个算法的查询效率,在精炼阶段有效地提高了算法的准确性.进一步给出了3种情况下的DYN_OGRkNN查询方法,分别为障碍物动态增加情况下的OGRkNN查询算法、障碍物动态减少情况下的OGRkNN查询算法以及障碍物动态移动情况下的OGRkNN查询算法.理论研究和实验结果表明所提算法具有较高效率.
为了解决已有研究成果无法有效处理障碍空间中的组反k最近邻查询问题,提出了障碍物环境中基于Voronoi图的OGRkNN查询方法,该方法获得的结果集是将一组查询点中任意一点作为障碍kNN的数据点集合,在实际应用中可以用来评估一组查询对象的影响力.依据障碍物集合是否发生变化提出了2种情况下的OGRkNN查询方法,一种是静态障碍物环境下的OGRkNN查询(简称STA_OGRkNN查询)方法,另一种是动态障碍物环境下的OGRkNN查询(简称DYN_OGRkNN查询)方法.其中STA_OGRkNN查询方法利用Voronoi图的邻接特性可以在剪枝阶段有效地过滤掉大量的非候选者,快速地缩小查询范围,提高整个算法的查询效率,在精炼阶段有效地提高了算法的准确性.进一步给出了3种情况下的DYN_OGRkNN查询方法,分别为障碍物动态增加情况下的OGRkNN查询算法、障碍物动态减少情况下的OGRkNN查询算法以及障碍物动态移动情况下的OGRkNN查询算法.理论研究和实验结果表明所提算法具有较高效率.
2017, 54(4): 872-885.
DOI: 10.7544/issn1000-1239.2017.20151174
摘要:
工作流系统中任务分配策略将对其系统运行性能有很大的影响,在分配任务时不仅需要考虑执行者对相应任务的熟悉度,还需分析执行者之间配合协作的默契程度.传统研究工作在进行工作流任务分配时缺乏对执行者工作负载、执行者之间协作相容性的综合考虑.为了实现有效的任务分配,首先通过分析历史日志的信息,对执行者间的协作相容性进行分析计算,在此基础上综合考虑执行者当前的任务负载,提出了基于协作相容性的、负载均衡式任务分配模型,并给出了多目标联合优化的任务分配方法,可提高整个流程实例的执行效率,并保持执行者间的负载均衡.提出4种相应的算法,并分析了算法的时间复杂度,进行了系统性的对比实验,评估了所提出方法的正确性和有效性.
工作流系统中任务分配策略将对其系统运行性能有很大的影响,在分配任务时不仅需要考虑执行者对相应任务的熟悉度,还需分析执行者之间配合协作的默契程度.传统研究工作在进行工作流任务分配时缺乏对执行者工作负载、执行者之间协作相容性的综合考虑.为了实现有效的任务分配,首先通过分析历史日志的信息,对执行者间的协作相容性进行分析计算,在此基础上综合考虑执行者当前的任务负载,提出了基于协作相容性的、负载均衡式任务分配模型,并给出了多目标联合优化的任务分配方法,可提高整个流程实例的执行效率,并保持执行者间的负载均衡.提出4种相应的算法,并分析了算法的时间复杂度,进行了系统性的对比实验,评估了所提出方法的正确性和有效性.
2017, 54(4): 886-905.
DOI: 10.7544/issn1000-1239.2017.20151122
摘要:
表述性状态传递(RESTful)服务已成为当前以云计算、物联网为代表的泛在服务体系结构中使用最广泛的服务交互方式.与传统SOAP/WS-\+*Web服务不同,RESTful服务的超媒体特性使得其服务响应中常包含能作为引擎驱动新资源调用的链接.RESTful服务请求/响应过程包含复杂的内部状态变迁,也带来了更大的隐私泄露风险.如何在超媒体驱动的动态交互方式中精确刻画隐私活动并支持面向隐私需求的验证,是RESTful服务隐私保护的1个基本问题.提出了一种RESTful服务应用状态隐私的形式化模型并研究了从RESTful服务描述向此模型的自动转换方法.在该模型中,不仅通过RESTful服务中隐私活动的元建模确保了对隐私操作的精确刻画,同时形式化定义了RESTful服务资源操作、链接等基本概念以及之间的关联关系.最后讨论了该理论方法的实现框架,并通过案例分析和基于自行开发的实现工具的实验说明了方法的可用性.
表述性状态传递(RESTful)服务已成为当前以云计算、物联网为代表的泛在服务体系结构中使用最广泛的服务交互方式.与传统SOAP/WS-\+*Web服务不同,RESTful服务的超媒体特性使得其服务响应中常包含能作为引擎驱动新资源调用的链接.RESTful服务请求/响应过程包含复杂的内部状态变迁,也带来了更大的隐私泄露风险.如何在超媒体驱动的动态交互方式中精确刻画隐私活动并支持面向隐私需求的验证,是RESTful服务隐私保护的1个基本问题.提出了一种RESTful服务应用状态隐私的形式化模型并研究了从RESTful服务描述向此模型的自动转换方法.在该模型中,不仅通过RESTful服务中隐私活动的元建模确保了对隐私操作的精确刻画,同时形式化定义了RESTful服务资源操作、链接等基本概念以及之间的关联关系.最后讨论了该理论方法的实现框架,并通过案例分析和基于自行开发的实现工具的实验说明了方法的可用性.