Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2022年 第59卷 第3期    出版日期:2022-03-07
体系结构
低CPU开销的低延迟存储引擎
廖晓坚, 杨者, 杨洪章, 屠要峰, 舒继武
2022, 59(3):  489-498.  doi:10.7544/issn1000-1239.20210574
摘要 ( 519 )   PDF (770KB) ( 278 )  
相关文章 | 计量指标
近些年来,固态存储的硬件处理速率得到了极大改善.一块超低延迟的固态存储盘能在10 μs内处理4 KB大小的数据.加速I/O收割过程以构建低延迟的存储引擎是存储系统研究中的一个重要研究课题.传统存储系统通过硬件中断机制收割I/O,却引入了额外的上下文切换开销,延长了整体I/O处理时间.现有工作使用轮询机制以消除上下文切换,却要付出高昂的CPU开销.提出了一种低CPU开销的低延迟存储引擎NIO(nimble I/O),以充分发挥高性能固态存储盘的低延迟优势.NIO的核心思想是将大小I/O处理路径分离;大I/O使用硬件中断机制;小I/O引入惰性轮询机制,先睡眠一个变长时间间隔再持续轮询.NIO进一步提出了事务感知的I/O收割机制以降低事务的延迟,以及动态调整机制以应对上层应用负载以及设备内部活动的动态变化.实验显示在动态负载下,NIO与基于轮询的存储引擎性能相当,并能减少至少59%的CPU占用率.
一种基于时间戳的高扩展性的持久性软件事务内存
刘超杰, 王芳, 邹晓敏, 冯丹
2022, 59(3):  499-517.  doi:10.7544/issn1000-1239.20210565
摘要 ( 298 )   PDF (4326KB) ( 200 )  
相关文章 | 计量指标
新兴的非易失性内存(non-volatile memory, NVM)具有字节寻址、持久性、大容量和低功耗等优点,然而,在NVM上进行并发编程往往比较困难,用户既要保证数据的崩溃一致性又要保证并发的正确性.为了降低用户开发难度,研究人员提出持久性事务内存方案,但是现有持久性事务内存普遍存在扩展性较差问题.测试发现限制扩展性的关键因素在于全局逻辑时钟和冗余NVM写操作.针对这2个方面,提出了线程逻辑时钟方法,通过允许每个线程拥有一个独立时钟,消除全局逻辑时钟中心化问题;提出了缓存行感知的双版本方法,为数据维护2个版本,通过循环更新这2个版本来保证数据的崩溃一致性,从而消除冗余的NVM写操作.基于所提出的这2个方法,实现了一个基于时间戳的高扩展的持久性软件事务内存(scalable durable transactional memory, SDTM),对比测试显示,在YCSB负载下,与DudeTM和PMDK相比,SDTM的性能最多分别提高了2.8倍和29倍.
基于近端策略优化的阻变存储硬件加速器自动量化
魏正, 张兴军, 卓志敏, 纪泽宇, 李泳昊
2022, 59(3):  518-532.  doi:10.7544/issn1000-1239.20210551
摘要 ( 154 )   PDF (5749KB) ( 118 )  
相关文章 | 计量指标
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的“内存墙”问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32 b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array, FPGA)平台使用基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的强化学习来进行自动量化,但需要将连续动作转换为离散动作,并通过逐层递减量化位宽来满足资源约束条件.基于此,提出基于近端策略优化(proximal policy optimization, PPO)算法的阻变存储硬件加速器自动量化,使用离散动作空间来避免动作空间转换步骤,设计新的奖励函数使PPO自动学习满足资源约束的最优量化策略,并给出软硬件设计改动以支持混合精度计算.实验结果表明:与粗粒度的量化相比,提出的方法可以减少20%~30%的硬件开销,而不引起模型准确度的过多损失.与其他自动量化相比,提出的方法搜索时间短,并且在相同的资源约束条件下可以进一步减少约4.2%的硬件开销.这为量化算法和硬件加速器的协同设计提供了参考.
基于自选尾数压缩的高能效浮点忆阻存内处理系统
丁文隆, 汪承宁, 童薇
2022, 59(3):  533-552.  doi:10.7544/issn1000-1239.20210580
摘要 ( 148 )   PDF (3743KB) ( 111 )  
相关文章 | 计量指标
矩阵向量乘法(matrix-vector multiplication, MVM)运算是高性能科学线性系统求解的重要计算内核.Feinberg等人最近的工作提出了将高精度浮点数部署在忆阻阵列上的方法,显示出其在加速科学MVM运算方面的巨大潜力.由于科学计算不同类型的应用对于求解精度的要求各不相同,为具体应用提供合适的计算方式是进一步降低系统能耗的有效途径.展示了一种拥有尾数压缩与对齐位优化策略的系统,在实现高精度浮点数忆阻MVM运算这一基本功能的前提下,能够根据具体应用的求解精度要求选择合适的浮点数尾数压缩位数.通过忽略浮点数尾数权重较小的部分低位与冗余的对齐位的阵列激活,减小运算时阵列及外围电路的能耗.评估结果表明:当忆阻器求解相对于软件基线平均分别有0~10\+\{-3\}数量级的求解残差时,平均运算阵列能耗与模数转换器能耗相对于已有的优化前的系统分别减少了5%~65%与30%~55%.
耐久性感知的持久性内存异地更新
蔡长兴, 杜亚娟, 周泰宇
2022, 59(3):  553-567.  doi:10.7544/issn1000-1239.20210541
摘要 ( 122 )   PDF (1984KB) ( 72 )  
相关文章 | 计量指标
持久性内存具有非易失性、可字节寻址、随机读写速度快、能耗低以及可扩展性强等优良特性,为大数据存储和处理提供了新的机遇.然而,持久性内存系统的故障一致性问题为其广泛推广应用带来挑战.现有一致性保证的研究工作通常以增加额外读写为代价,对持久性内存系统的性能和寿命在时间和空间维度产生了一定的影响.为了降低该影响,提出一种耐久性感知的持久性内存异地更新机制(endurance aware out-of-place update for persistent memory, EAOOP).通过软件透明的异地更新技术,为持久性内存提供耐久性感知的内存管理,将数据交替刷新至原始数据区域和更新数据区域.EAOOP既保证了系统的故障一致性,又避免了冗余的数据合并操作.同时,为了高效利用内存空间,在后台执行轻量级垃圾回收,处理更新数据区域的旧数据,减少了额外的写放大和带宽占用,从而进一步降低了对持久性内存寿命和性能的影响.实验显示,EAOOP相比于现有工作,具有更高的性能和更少的开销.其中,事务处理吞吐量提升了1.6倍,总线延迟和写数量分别减少了27.3%和32.4%.
基于DRAM牺牲Cache的异构内存页迁移机制
裴颂文, 钱艺幻, 叶笑春, 刘海坤, 孔令和
2022, 59(3):  568-581.  doi:10.7544/issn1000-1239.20210567
摘要 ( 204 )   PDF (2837KB) ( 149 )  
相关文章 | 计量指标
当海量数据请求访问异构内存系统时,异构内存页在动态随机存储器(dynamic random access memory, DRAM)和非易失性存储器(non-volatile memory, NVM)之间进行频繁的往返迁移.然而,应用于传统内存页的迁移策略难以适应内存页“冷”“热”度的快速动态变化,这使得从DRAM迁移至NVM的“冷”页面可能在短时间内变“热”从而产生大量冗余的迁移操作.当前的相关研究都仅着眼于正在执行迁移的页面而忽视了等待迁移和完成迁移的页面,且判断“冷”“热”程度的标准不一,使得冗余的迁移大量产生.因此,提出了一个基于DRAM牺牲Cache的异构内存页迁移机制(VC-HMM),使用非易失性存储器中工艺较为成熟的相变存储器(phase change memory, PCM),通过在DRAM和PCM之间增加一个由DRAM构成的小容量牺牲Cache将系统主存DRAM中变“冷”的页面迁移到牺牲Cache中,以避免主存页面在短时间内再次变“热”而造成的冗余迁移.同时,还使得迁回PCM的部分页面不需要写回,减少PCM存储单元的写入操作次数,延长PCM的使用寿命.另外,对于不同的工作负载,VC-HMM可以自适应设置迁移操作的参数,增加迁移的合理性.实验结果表明:与其他迁移策略(CoinMigrator,MQRA,THMigrator)相比,VC-HMM平均减少了至少62.97%的PCM写操作次数、22.72%的平均访问时延、38.37%的重复迁移操作以及3.40%的系统能耗.
RS类纠删码的译码方法
唐聃, 蔡红亮, 耿微
2022, 59(3):  582-596.  doi:10.7544/issn1000-1239.20210575
摘要 ( 135 )   PDF (2885KB) ( 48 )  
相关文章 | 计量指标
RS(Reed-Solomon)码可以根据应用环境构造出任意容错能力的码字,有很好的灵活性,且使用RS纠删码作为容错方法的存储系统能达到理论最优的存储效率.但是,与异或(exclusive-OR, XOR)类纠删码相比,RS类纠删码译码计算的时间开销过大,这又很大程度上阻碍了它在分布式存储系统中的使用.针对这一问题,提出了一类RS纠删码的译码方法,该方法完全抛弃了当前大多RS类纠删码译码方法中普遍使用的矩阵求逆运算,仅使用计算复杂度更小的加法和乘法,通过构造译码变换矩阵并在此矩阵上执行相应的简单的矩阵变换,能够直接得出失效码元由有效码元组成的线性组合关系,从而降低译码计算复杂度.最后,通过理论证明了该方法的正确性,并且针对每种不同大小的文件,进行3种不同大小文件块的划分,将划分得到的数据块进行实验,实验结果表明:在不同的文件分块大小情况下,该新译码方法较其他方法的译码时间开销更低.
近数据计算下键值存储中Compaction并行优化方法
孙辉, 娄本冬, 黄建忠, 赵雨虹, 符松
2022, 59(3):  597-616.  doi:10.7544/issn1000-1239.20210577
摘要 ( 134 )   PDF (8746KB) ( 59 )  
相关文章 | 计量指标
大规模非结构化数据的爆炸式增长给传统关系型数据库带来了极大的挑战.基于日志结构合并树(log-structured merge tree, LSM-tree)的键值存储系统已被广泛应用,并起到重要的作用,原因在于基于LSM-tree的键值存储能够将随机写转化为顺序写,从而提升性能.然而,LSM-tree键值存储也存在一些性能问题.一方面,键值存储利用compaction操作更新数据,保持系统平衡,但造成严重的写放大问题.另一方面,以传统计算为中心的架构下,compaction操作带来大量的数据传输,影响了系统性能.以数据为中心的近数据计算模型(near-data processing, NDP)为基础,利用该模型下主机端与近数据计算使能设备端的并行资源,提出基于系统并行与流水线并行的compaction优化方法(collaborative parallel compaction optimization for LSM-tree key-value stores, CoPro).当处理compaction操作时,CoPro主机端与NDP设备端协同执行compaction卸载任务.此外,进一步提出基于决策组件的CoPro+,根据系统资源变化以及负载键值对中值大小的变化来动态调整并行度,使NDP架构中计算资源的使用更加高效.在搭建的硬件平台上验证了CoPro的有效性.
人工智能
概率生成模型变分推理方法综述
陈亚瑞, 杨巨成, 史艳翠, 王嫄, 赵婷婷
2022, 59(3):  617-632.  doi:10.7544/issn1000-1239.20200637
摘要 ( 563 )   PDF (931KB) ( 318 )  
相关文章 | 计量指标
概率生成模型是知识表示的重要方法,在该模型上计算似然函数的概率推理问题一般是难解的.变分推理是重要的确定性近似推理方法,具有较快的收敛速度、坚实的理论基础.尤其随着大数据时代的到来,概率生成模型变分推理方法受到工业界和学术界的极大关注.综述了多种概率生成模型变分推理框架及最新进展,具体包括:首先综述了概率生成模型变分推理一般框架及基于变分推理的生成模型参数学习过程;然后对于条件共轭指数族分布,给出了具有解析优化式的变分推理框架及该框架下可扩展的随机化变分推理;进一步,对于一般概率分布,给出了基于随机梯度的黑盒变分推理框架,并简述了该框架下多种变分推理算法的具体实现;最后分析了结构化变分推理,通过不同方式丰富变分分布提高推理精度并改善近似推理一致性.此外,展望了概率生成模型变分推理的发展趋势.
面向概念漂移数据流的自适应分类算法
蔡桓, 陆克中, 伍启荣, 吴定明
2022, 59(3):  633-646.  doi:10.7544/issn1000-1239.20201017
摘要 ( 211 )   PDF (5338KB) ( 176 )  
相关文章 | 计量指标
数据流分类是数据挖掘中最重要的任务之一,而数据流的概念漂移特性给分类算法带来了巨大的挑战.基于极限学习机算法进行优化是解决数据流分类问题的一个热门方向,但目前大多数算法都采用提前指定模型参数的方式进行学习,这种做法使得分类模型只能在特定的数据集上才能发挥较好的性能.针对这一问题,提出了一种简单有效的处理概念漂移的算法——自适应在线顺序极限学习机分类算法.算法通过引入自适应模型复杂度机制,从而具有更好的分类性能.然后通过引入自适应遗忘因子与概念漂移检测机制,能够根据动态变化的数据流进行自适应学习,从而可以更好地适应概念漂移.进一步还引入异常点检测机制,避免分类决策边界被异常点破坏.仿真实验表明,所提出算法比同类算法具有更好的稳定性、分类准确性以及概念漂移适应能力.此外,还通过消融实验证实了算法所引入3个机制的有效性.
DMFUCP:大规模轨迹数据通用伴随模式分布式挖掘框架
张敬伟, 刘绍建, 杨青, 周娅
2022, 59(3):  647-660.  doi:10.7544/issn1000-1239.20200648
摘要 ( 150 )   PDF (4720KB) ( 78 )  
相关文章 | 计量指标
广泛应用的移动定位设备方便了用户位置数据的获取,轨迹数据量高速增长.通用伴随模式挖掘聚焦时空维度上的用户高相似度行为路径发现问题,基于大规模轨迹数据设计高效准确地伴随模式挖掘方法对发现用户偏好、构建新商业模式等具有重要意义,同时也极具挑战.一方面,海量且不断增长的轨迹数据要求伴随模式挖掘应具有良好的可扩展性,集中性挖掘策略并不适用.另一方面,现有的分布式挖掘框架在为高效模式挖掘提供高质量数据输入、轨迹数据中大量松散连接的有效处理等方面考虑不足,使得通用伴随模式发现存在改进空间.提出了一个分布式的2阶段通用伴随模式挖掘框架——DMFUCP,其通过嵌入数据预处理优化、松散连接分析优化等,让伴随模式挖掘方法呈现了更好的性能.其中,该框架为数据预处理阶段设了融合运动方向的密度聚类算法DBSCANCD和聚类平衡算法TCB,确保后续挖掘任务获得提供少噪音、高质量的轨迹数据输入;在模式挖掘阶段,该框架设计了G剪枝重划分算法GSPR和分段枚举算法SAE,GSPR使用参数G对长轨迹进行分割,并将分割后的所有分段重划分以改善松散连接的处理效果,SAE负责引入多线程和前向闭包保证挖掘算法的性能.实验证明,相比现有的通用伴随模式挖掘框架,DMFUCP具有更好的通用伴随模式发现能力的同时,将挖掘每组通用伴随模式的时间消耗降低了20%~40%.
数据缺失的扩展置信规则库推理方法
刘永裕, 巩晓婷, 方炜杰, 傅仰耿
2022, 59(3):  661-673.  doi:10.7544/issn1000-1239.20200702
摘要 ( 140 )   PDF (5007KB) ( 66 )  
相关文章 | 计量指标
数据驱动的扩展置信规则库专家系统能够处理含有定量数据或定性知识的不确定性问题.该方法已被广泛地研究和应用,但仍缺乏在不完整数据问题上的研究.鉴于此,针对不完整数据集上的问题,提出一种新的扩展置信规则库专家系统推理方法.首先提出基于析取范式的扩展规则结构,并通过实验讨论了在新的规则结构下,置信规则前提属性参考值个数对推理方法的影响;然后提出通过不完整数据生成具有不完整置信规则,并构成析取范式置信规则库的方法,同时引入衰减因子修正不完整规则权重,使不完整规则可以更合理地参与信息融合过程;最后,选取若干个公共数据集对所提方法进行验证.与其他方法的实验对比显示,新方法在完整数据集上有良好表现的同时,对具有不同缺失程度和缺失模式的数据集表现出更好更稳定的推理效果.
基于度量学习的无监督域适应方法及其在死亡风险预测上的应用
蔡德润, 李红燕
2022, 59(3):  674-682.  doi:10.7544/issn1000-1239.20200693
摘要 ( 203 )   PDF (1252KB) ( 133 )  
相关文章 | 计量指标
近年来,深度学习模型已在医疗领域的预测任务上得到广泛应用,并取得了不错的效果.然而,深度学习模型常会面临带标签训练数据不足、整体数据分布偏移和类别之间数据分布偏移的问题,导致模型预测的准确度下降.为解决上述问题,提出一种基于域对抗和加性余弦间隔损失的无监督域适应方法(additive margin softmax based adversarial domain adaptation, AMS-ADA).首先,该方法使用带有注意力机制的双向长短程记忆网络来提取特征.其次,该方法引入了生成对抗网络的思想,以域对抗的形式减少了整体数据之间数据分布偏移.然后,该方法引入了度量学习的思想,以最大化角度空间内决策边界的方式进一步减少了类别之间的数据分布偏移.该方法能够提升域适应的效果与模型预测的准确度.在真实世界的医疗数据集上进行了重症监护病人死亡风险预测任务,实验结果表明:由于该方法相较于其他5种基线模型能够更好地解决数据分布偏移的问题,取得比其他基线模型更好的分类效果.
有限样本条件下欠规范手语识别容错特征扩充
孔乐毅, 张金艺, 楼亮亮
2022, 59(3):  683-693.  doi:10.7544/issn1000-1239.20200789
摘要 ( 109 )   PDF (3735KB) ( 57 )  
相关文章 | 计量指标
生活中似是而非的手语表达语义含糊,欠规范的手势动作易混淆,同时从有限样本中难以获得充足特征用于训练手语识别模型,模型容易过拟合进而导致识别准确率较低.针对此问题,提出一种在有限样本条件下扩充欠规范手语识别容错特征的表示学习方法.该方法基于手语表达时人体骨架的运动信息,面向手语的时空关联性构建自编码器,从手语语料库中少量原始样本提取标准特征;然后利用生成对抗网络从标准特征产生大量欠规范样本,再通过自编码器扩充容错特征,构建新的容错特征集用于后续任务.实验结果表明:该方法在有限样本条件下,产生的欠规范手语样本语义清晰,新的容错特征集中不同类别的特征易于划分.在中文手语数据集上利用该方法构建容错特征集,训练手语识别模型达到97.5%的识别准确率,证明其具有广泛的应用前景.
结合双流网络和双向五元组损失的跨人脸-语音匹配
柳欣, 王锐, 钟必能, 王楠楠
2022, 59(3):  694-705.  doi:10.7544/issn1000-1239.20200547
摘要 ( 185 )   PDF (2604KB) ( 180 )  
相关文章 | 计量指标
面部视觉信息和语音信息是人机交互过程中最为直接和灵活的方式,从而基于智能方式的人脸和语音跨模态感知吸引了国内外研究学者的广泛关注.然而,由于人脸-语音样本的异质性以及语义鸿沟问题,现有方法并不能很好地解决一些难度比较高的跨人脸-语音匹配任务.提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架,该框架学到的特征可直接用于4种不同的跨人脸-语音匹配任务.首先,在双流深度网络顶端引入一种新的权重共享的多模态加权残差网络,以挖掘人脸和语音模态间的语义关联;接着,设计了一种融合多种样本对构造策略的双向五元组损失,极大地提高了数据利用率和模型的泛化性能;最后,在模型训练中进行ID分类学习,以保证跨模态表示的可分性.实验结果表明,与现有方法相比,能够在4个不同跨人脸-语音匹配任务上取得效果的全面提升,某些评价指标效果提升近5%.
软件技术
用于索引视域的凸多边形树
苗雪, 郭茜, 王昭顺, 谢永红
2022, 59(3):  706-719.  doi:10.7544/issn1000-1239.20200689
摘要 ( 134 )   PDF (5946KB) ( 96 )  
相关文章 | 计量指标
智能手机等设备在拍摄照片和录制视频时会将拍摄位置和光学参数记录到影像文件中,可以提取并利用这些信息,在二维平面空间中还原出图片所对应的扇形视域(field-of-view, FOV).将影像文件及其对应的FOV存储在计算机中,用来支持用户对影像文件的空间查询.一种典型的空间查询是用户在地图上指定查询区域,计算机找出拍摄到这个区域的影像返回给用户,其实质是找出与查询区域存在交集的FOV.为了提升查询效率,需要设计合理的数据结构来索引FOV.然而,现有的索引结构没有充分利用FOV的形状特点.使用五边形近似描述FOV,并设计凸多边形树来索引五边形.树的节点是k\+*凸多边形.k\+*凸多边形是包围一组多边形的最佳多边形,它的边数不超过k并且无效区域最小,即它本身与其内部元素的差集最小.提出了淹没算法来找出这样的包围多边形.在构建凸多边形树时,将逐一插入FOV,为每个待插入FOV选择最优叶子节点的标准是让FOV插入后新节点的无效区较小,新节点的增加区较小,并且旧节点与FOV的重合区较大.同时,提出了基于凸多边形树的FOV查询算法.实验结果表明凸多边形树与现有索引相比可以提升查询效率.