ISSN 1000-1239 CN 11-1777/TP

推荐文章

    Please wait a minute...
    选择: 显示/隐藏图片
    1. 面向非易失内存写优化的重计算方法
    张铭,华宇,刘璐荣,胡蓉,李子怡
    计算机研究与发展    2020, 57 (2): 243-256.   doi: 10.7544/issn1000-1239.2020.20190524
    摘要68)      PDF (2602KB)(64)   
    非易失存储(non-volatile memory, NVM)技术的兴起给计算机存储系统带来了很多机遇与挑战.与DRAM相比,NVM作为持久性内存具有非易失、低能耗以及高存储密度等优点,但同时它也具有擦/写次数有限以及写操作延迟高等缺点,故以NVM为内存的系统需要减少对内存的写操作,以提升NVM寿命和系统性能.为了解决这个问题,提出了基于结点出度的重计算方法(re-computation scheme based on the out degree of computing nodes, ROD),由于CPU与内存间的性能差距会导致CPU计算资源的浪费,为此ROD方法选择性地丢弃本需要存储到内存的计算结果,需要时再重新计算得到,利用计算换存储的方式减少写NVM的次数.实验采用powerstone测试集,在搭载了NVMain的Gem5模拟器中对ROD方法与贪心重计算方法和以存储为主导的无重计算方法做性能对比.结果表明ROD方法相比于存储主导的方法平均减少44.3%(最高68.5%)的写操作.ROD方法的运行耗时比存储主导的方法平均减少28.1%(最高68.6%),比贪心重计算的方法平均减少9.3%(最高19.4%).
    相关文章 | 计量指标
    2. 基于冲突检测的高吞吐NVM存储系统
    蔡涛,王杰,牛德姣,刘佩瑶,陈福丽
    计算机研究与发展    2020, 57 (2): 257-268.   doi: 10.7544/issn1000-1239.2020.20190526
    摘要35)      PDF (2727KB)(31)   
    非易失性存储器(non-volatile memory, NVM)是解决计算机系统存储墙问题的有效手段,但现有的I/O栈缺乏相应的适应和优化机制,特别是基于文件系统的锁机制是影响NVM存储系统性能的重要因素.将存储系统访问请求的管理嵌入到存储设备中,利用NVM存储设备自主管理访问请求,使用基于冲突检测的方法代替基于文件系统的现有锁机制,提高操作系统执行访问请求的并发度,缓解设备接口带来的瓶颈问题.给出了高吞吐NVM存储系统的结构,设计了一种基于二维链表的访问请求管理方法减少访问请求管理中的冲突,一种基于冲突检测的访问请求调度算法用于管理NVM存储设备中共享的访问请求,并给出了新访问请求提交和已有访问请求释放流程,并基于Intel的开源NVM存储设备模拟器PMEM实现了HTPM的原型系统,使用Filebench中的多种负载和Fio测试了HTPM的吞吐率和I/O性能,实验结果表明:HTPM相比PMEM最大能提高31.9%的IOPS值和21.4%的I/O性能.
    相关文章 | 计量指标
    3. 新型存储设备上重复数据删除指纹查找优化
    何柯文,张佳辰,刘晓光,王刚
    计算机研究与发展    2020, 57 (2): 269-280.   doi: 10.7544/issn1000-1239.2020.20190543
    摘要28)      PDF (1942KB)(24)   
    指纹查找部分是I/O密集型工作负载,即外存存储设备的性能是指纹查找的性能瓶颈.因此关注重复数据删除系统的指纹查找部分,对比了传统的勤奋指纹查找算法和致力于减少磁盘访问次数的懒惰指纹查找算法,分析了2种方法在傲腾固态硬盘(Optane solid state drive, Optane SSD)和持久性内存(persistent memory, PM)两种新型存储设备上的性能表现,并给出了优化建议.对勤奋指纹查找算法和懒惰指纹查找算法的时间进行建模,分析得出了指纹查找算法在新型存储设备下的3点优化结论:1)应减少统一查找的指纹数;2)在较快设备上应减少懒惰指纹查找中局部性环的大小,并且局部性环大小存在一个最优值;3)在快速设备上,勤奋指纹查找的效果要优于懒惰指纹查找.最终,在实际机械硬盘(hard disk drive, HDD)、Optane SSD和PM模拟器上实验验证了模型的正确性.实验结果显示,快速设备上指纹查找的时间相较于HDD减少90%以上,并且采用勤奋算法要优于懒惰算法,局部性环最优值前移的现象,也与模型理论优化结果吻合.
    相关文章 | 计量指标
    4. 一种持久性内存文件系统数据页的混合管理机制
    陈游旻,朱博弘,韩银俊,屠要峰,舒继武
    计算机研究与发展    2020, 57 (2): 281-290.   doi: 10.7544/issn1000-1239.2020.20190574
    摘要39)      PDF (1047KB)(26)   
    英特尔于2019年4月正式发布基于3D-Xpoint技术的傲腾持久性内存(Optane DC persistent memory),这为构建高效的持久性内存存储系统提供了新的机遇.然而,现有的存储系统软件并不能很好地利用其字节寻址特性,持久性内存性能很难充分发挥.提出一种文件系统数据页的混合管理机制HDPM,通过选择性使用写时复制机制和日志结构管理文件数据,充分发挥持久性内存字节可寻址特性,从而避免了传统单一模式在非对齐写或者小写造成的写放大问题.为避免影响读性能,HDPM引入逆向扫描机制,实现日志结构重构数据页时不引入额外数据拷贝.HDPM还提出一种多重垃圾回收机制进行日志清理.当单个日志结构过大时,通过读写流程主动回收日志结构;当持久性内存空间受限时,则通过后台线程使用免锁机制异步释放日志空间.实验显示,HDPM相比于NOVA文件系统,单线程写延迟降低达58%,且读延迟不受影响;Filebench多线程测试显示,HDPM相比于NOVA提升吞吐率33%.
    相关文章 | 计量指标
    5. 基于生成矩阵变换的跨数据中心纠删码写入方法
    包涵,王意洁,许方亮
    计算机研究与发展    2020, 57 (2): 291-305.   doi: 10.7544/issn1000-1239.2020.20190542
    摘要37)      PDF (4535KB)(26)   
    近年来,为了避免数据因数据中心故障而永久丢失,各大机构开始尝试采用容错技术将数据存放在跨数据中心存储系统中.作为一种具有高容错性和低冗余度的容错技术,纠删码被广泛应用于单数据中心存储系统中.然而,在跨数据中心存储系统中,已有纠删码写入方法的网络资源消耗量大、编码效率低且传输效率低,这使得跨数据中心纠删码的写入速度难以适应于日益增长的数据生成速度.为提高跨数据中心纠删码的写入速度,提出了一种基于生成矩阵变换的跨数据中心纠删码写入方法(cross-datacenter erasure code writing method based on generator matrix transformation, CREW).通过对传输拓扑和生成矩阵进行优化,CREW可使写入过程中需要长距离传输的数据块尽可能地少,从而达到降低网络资源消耗量的目的.通过在数据中心间采用分布式的数据传输和数据编码、在各数据中心内部采用集中式的数据传输和数据编码,CREW可在编码效率和传输效率间取得较好权衡.在跨数据中心环境下的实验表明:与2种广泛使用的传统纠删码写入方法相比,CREW的写入速度提高了36.3%~57.9%;与现有的跨数据中心纠删码写入方法IncEncoding相比,CREW的写入速度提高了32.4%.
    相关文章 | 计量指标
    6. 基于“采集—预测—迁移—反馈”机制的主动容错技术
    杨洪章,杨雅辉,屠要峰,孙广宇,吴中海
    计算机研究与发展    2020, 57 (2): 306-317.   doi: 10.7544/issn1000-1239.2020.20190549
    摘要33)      PDF (1574KB)(12)   
    硬盘故障是数据中心最主要的故障,严重影响了可靠性.传统的数据容错技术一般都是通过增加数据冗余来实现的,存在缺陷.主动容错技术通过预测硬盘故障提前将数据迁移,成为研究热点.现有技术大多研究硬盘故障预测,缺乏采集、迁移、反馈的研究,难以商用.提出“采集—预测—迁移—反馈”全流程主动容错机制,包括:分时硬盘信息采集方法、滑动窗口记录合并及样本构建方法、多类型硬盘故障预测方法、多盘联合数据迁移方法、预测结果二级验证及快速反馈方法.测试表明:采集硬盘信息对业务影响仅0.96%,硬盘故障预测召回率达94.66%,数据修复时间较传统方法减少55.10%.该工作已在中兴通讯的数据中心稳定商用,满足了主动容错技术在高可靠、高智能、低干扰、低成本、广适用等核心目标.
    相关文章 | 计量指标
    7. 基于收益模型的Spark SQL数据重用机制
    申毅杰,曾丹,熊劲
    计算机研究与发展    2020, 57 (2): 318-332.   doi: 10.7544/issn1000-1239.2020.20190563
    摘要25)      PDF (3529KB)(13)   
    通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.
    相关文章 | 计量指标
    8. 基于地理空间大数据的高效索引与检索算法
    赵慧慧,赵凡,陈仁海,冯志勇
    计算机研究与发展    2020, 57 (2): 333-345.   doi: 10.7544/issn1000-1239.2020.20190565
    摘要33)      PDF (4069KB)(16)   
    近年来,随着智能目标识别、电子传感器、协同控制以及计算机网络等先进技术的快速发展,智能交通系统实现了质的飞越,现代智能交通系统可以实现车、路、云端于一体的智能交通运输管理平台.但智能交通系统依赖于每天产生的大量的2维地理空间信息数据,因此,如何对大规模的地理空间数据进行高效的存储和查询对智能交通系统未来的普及和发展具有重要意义.然而,由于城市交通信息的复杂性、数据量大、更新速度快等特征,当前的空间索引技术很难针对2维地理空间信息数据进行高效的检索.为了优化空间大数据下2维地理空间信息数据的存储组织结构、提高检索效率,提出了一种对2维地理空间信息数据进行多层切片递归的空间索引树构造算法(multi-layer slice recursive, MSR).提出的算法首先对地图数据第1维度进行排序划分切片,生成FD(first division)切片;然后对FD切片中的地图数据进行第2维度排序,生成SD(second division)切片,在SD切片中对当前切片和相邻切片划分空间对象;最后对空间对象长度与节点容量比较进行数据聚类操作,通过判断所有切片是否完成聚类操作,自下而上递归生成MSR 树.实验表明,MSR算法构建的2维空间存储结构的查询性能优于现在最具代表性的空间索引技术基于R树的批量加载算法(sort tile recursive, STR)、STR-网格混合算法(str-grid)及高效几何范围查询算法(efficient geometric range query, EGRQ).
    相关文章 | 计量指标
    9. 机器学习的隐私保护研究综述
    刘俊旭,孟小峰
    计算机研究与发展    2020, 57 (2): 346-362.   doi: 10.7544/issn1000-1239.2020.20190455
    摘要66)      PDF (1684KB)(62)   
    大规模数据收集大幅提升了机器学习算法的性能,实现了经济效益和社会效益的共赢,但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类,前者在模型训练前需统一收集各方数据,尽管易于部署,却存在极大数据隐私与安全隐患;后者实现了将各方数据保留在本地的同时进行模型训练,但该方式目前正处于研究的起步阶段,无论在技术还是部署中仍面临诸多问题与挑战.现有的隐私保护技术研究大致分为2条主线,即以同态加密和安全多方计算为代表的加密方法和以差分隐私为代表的扰动方法,二者各有利弊.为综述当前机器学习的隐私问题,并对现有隐私保护研究工作进行梳理和总结,首先分别针对传统机器学习和深度学习2类情况,探讨集中学习下差分隐私保护的算法设计;之后概述联邦学习中存在的隐私问题及保护方法;最后总结目前隐私保护中面临的主要挑战,并着重指出隐私保护与模型可解释性研究、数据透明之间的问题与联系.
    相关文章 | 计量指标
    10. 密度峰值聚类算法综述
    陈叶旺,申莲莲,钟才明,王田,陈谊,杜吉祥
    计算机研究与发展    2020, 57 (2): 378-394.   doi: 10.7544/issn1000-1239.2020.20190104
    摘要40)      PDF (1845KB)(28)   
    密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.
    相关文章 | 计量指标
    11. 一种灵活的精度可控的可搜索对称加密方案
    李西明, 陶汝裕, 粟晨, 黄琼, 黄欣沂
    计算机研究与发展    2020, 57 (1): 3-16.   doi: 10.7544/issn1000-1239.2020.20190233
    摘要164)      PDF (2476KB)(119)   
    在传统基于关键词集合的可搜索对称加密技术中,关键词集合通常由关键词提取算法生成,使得其关键词的内容和数量受到关键词提取算法的限制.因此,在基于关键词的加密搜索系统中,除了初始化系统生成的关键词集,用户无法搜索其他相关内容导致限制了加密搜索技术的应用.针对以上问题,提出了支持灵活精度可控的可搜索对称加密方案(flexible accuracy-controllable searchable symmetric encryption, FASSE),通过在系统运行过程中灵活地生成关键词和文档摘要生成的索引,从而减少对关键词集合的依赖,从而有效提高了加密搜索技术灵活性.FASSE提供3种基本搜索,分别是一次命中搜索、增强搜索和过滤搜索,它们分别对应着用户只用一次就在字典中找到关键词记录、没有在字典中找到关键词记录而只用一次就在摘要中找到记录或者多次在字典和摘要中查找到关键词记录的这3种搜索情况.同时,系统也结合3种搜索设计了一种模糊增强搜索进一步增强系统的实用性.FASSE方案的具体实现语言是Java编程开发语言,并且最终实验得出FASSE在https://eprint.iacr.org/complete/的论文数据集中平均搜索完每一篇论文的时间为114.26 ms.
    相关文章 | 计量指标
    12. 多光源绘制方法综述
    刘逸凡, 徐昆
    计算机研究与发展    2020, 57 (1): 17-31.   doi: 10.7544/issn1000-1239.2020.20190208
    摘要69)      PDF (4092KB)(74)   
    多光源场景绘制一直是计算机图形学中的重要研究问题,是实现全局光照效果的重要手段之一,也是游戏、影视、动画等应用领域的重要需求.无论在离线绘制领域还是实时绘制领域,多光源场景的高效绘制仍然是一个巨大的挑战.回顾了近年来图形学在多光源场景绘制方面的主要进展,如何提高多光源绘制的效率是所有相关方法的主要研究问题.在离线绘制领域,首先介绍了如何通过加快可见性测试来提高单个光源的平均计算效率;然后,讨论了光源聚类算法,介绍了基于光源聚类的加速绘制方法,并讨论了不同的光源聚类策略,包括基于层次结构的策略和基于矩阵分析的策略;之后,介绍了基于光源聚类的重要性采样方法.在实时绘制领域,介绍了多种光源剔除绘制方法.对比和分析了各种方法的优缺点,并总结了多光源绘制的研究趋势以及面临的挑战.
    相关文章 | 计量指标
    13. 大规模拼车算法研究进展
    徐毅, 童咏昕, 李未
    计算机研究与发展    2020, 57 (1): 32-52.   doi: 10.7544/issn1000-1239.2020.20190239
    摘要144)      PDF (2479KB)(252)   
    随着共享经济的发展,拼车这一由多位乘客协商共同乘坐同一辆车并分担费用的共享出行模式正得到广泛应用.在移动互联网与普适计算的推动下,拼车体现出数据量大、动态性强、目标多样、应用范围广等新特点.这些新特点使得求解大规模拼车问题的难度大大增加,并催生了众多大规模拼车算法的学术研究.拼车中各类关于社会影响因素的实际问题也成为新型研究热点.为了面向大规模拼车算法进行系统性介绍,首先介绍了拼车问题的概念定义与工作流程.随后,对大规模拼车系统的核心算法问题,即路线规划问题进行了系统地分类、介绍与分析,并进一步详细讨论了大规模拼车涉及的激励机制、隐私保护、安全保障等社会影响因素.最后,分析展望了该领域未来的潜在研究方向,为从事拼车算法的相关研究人员和从业者提供参考和帮助.
    相关文章 | 计量指标
    14. 智慧健康研究综述: 从云端到边缘的系统
    邱宇, 王持, 齐开悦, 沈耀, 李超, 张成密, 过敏意
    计算机研究与发展    2020, 57 (1): 53-73.   doi: 10.7544/issn1000-1239.2020.20190002
    摘要167)      PDF (1196KB)(141)   
    智慧健康是基于物联网的环境感知网络和传感基础设施的实时的、智能的、无处不在的医疗保健服务.得益于云计算、雾计算以及物联网等相关技术的快速发展,关于智慧健康的相关研究也逐渐步入正轨.近年来对于智慧健康的相关研究,主要从云端和边缘这2个主要方向展开,其中包含了云、雾计算,物联网传感器,区块链以及隐私和安全等相关技术.目前,在云和智慧健康的研究中,关注点在于如何利用云去完成海量健康数据的挑战和提升服务性能,具体包括健康大数据在云中的存储、检索和计算等相关问题.而在边缘,研究重点转变为健康数据的采集、传输和计算,具体包括用于采集健康数据的各类传感器和可穿戴设备、各类无线传感器技术以及如何在边缘处理健康数据并提升服务性能等.最后,对典型的智慧健康应用案例、区块链在智慧健康中的应用以及相关隐私和安全问题进行了讨论,并提出了智慧健康服务在未来的挑战和机遇.
    相关文章 | 计量指标
    15. 数据中心网络传输协议综述
    曾高雄, 胡水海, 张骏雪, 陈凯
    计算机研究与发展    2020, 57 (1): 74-84.   doi: 10.7544/issn1000-1239.2020.20190519
    摘要135)      PDF (889KB)(122)   
    近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方面——传输层协议.虽然传输协议在因特网上已经有很长的历史,它却直到2010年才在数据中心网络环境下被系统性地探索.数据中心网络有着和因特网不一样的特点(如单一控制域和同构网络架构),这给数据中心网络上的传输协议设计同时带来了机遇和挑战.在这驱使下,一系列的传输协议被设计提出.将早期(2010—2015年)数据中心网络传输设计方面的工作分成3类——基于端主机的拥塞控制、网络仲裁机制和交换机优先级调度,对这3类工作的优缺点作深入讨论.最后,分析近年来数据中心网络传输设计的研究趋势——接收端驱动的主动拥塞控制和RDMA传输协议设计.
    相关文章 | 计量指标
    16. 面向非易失内存的数据一致性研究综述
    肖仁智, 冯丹, 胡燏翀, 张晓祎, 程良锋
    计算机研究与发展    2020, 57 (1): 85-101.   doi: 10.7544/issn1000-1239.2020.20190062
    摘要170)      PDF (1043KB)(226)   
    随着DRAM技术面临密度扩展瓶颈以及高泄漏功耗问题,新型非易失内存(non-volatile memory, NVM)因其非易失、高密度、字节寻址和低静态功耗等特性,已经得到学术界和工业界的广泛关注.新型非易失内存如相变内存(phase change memory, PCM)很可能替代DRAM或与DRAM混合作为系统主内存.然而,由于NVM的非易失特性,存储在NVM的数据在面临系统故障时可能由于部分更新或内存控制器写重排序而产生不一致性的问题.为了保证NVM中数据的一致性,确保对NVM写操作的顺序化和持久化是基本要求.NVM有着内在缺陷如有限的写耐久性以及较高的写延迟,在保证NVM数据一致性的前提下,减少NVM写次数有助于延长NVM的寿命并提高NVM系统的性能.重点讨论了基于NVM构建的持久索引、文件系统以及持久性事务等数据一致性研究,以便为实现低开销的数据一致性提供更好的解决方案或思路.最后给出了基于NVM的数据一致性研究展望.
    相关文章 | 计量指标
    17. 云计算系统可靠性研究综述
    段文雪, 胡铭, 周琼, 吴庭明, 周俊龙, 刘晓, 魏同权, 陈铭松
    计算机研究与发展    2020, 57 (1): 102-123.   doi: 10.7544/issn1000-1239.2020.20180675
    摘要100)      PDF (1657KB)(136)   
    云计算作为一种新型计算模式,已经受到了学术界和工业界的广泛关注.基于资源虚拟化技术,云计算能够以按需使用、按使用量付费的方式为用户提供基础设施、平台、软件等服务.因此,越来越多的企业和组织选择云计算来部署他们的科学或商业应用.然而,随着用户数量的不断增加,数据中心的规模在迅速扩大、架构变得日益复杂,导致云计算系统的运行故障频繁发生,造成了巨大的损失.因此在规模巨大、架构复杂的云计算系统中,如何保障系统的可靠性已经成为一个极具挑战性的问题.针对云计算可靠性问题,概述了云计算系统中常见的各种故障,并详细描述了目前云计算中提高可靠性关键的故障管理技术;由于故障管理技术的应用会不可避免地增加系统的能耗,因此介绍了云计算中可靠性与能耗权衡问题的研究现状;最后列举了当前云计算可靠性研究中存在的主要挑战.
    相关文章 | 计量指标
    18. 推荐系统的隐私保护研究进展
    周俊,董晓蕾,曹珍富
    计算机研究与发展    2019, 56 (10): 2033-2048.   doi: 10.7544/issn1000-1239.2019.20190541
    摘要852)   HTML5)    PDF (1868KB)(568)   
    推荐系统是建立在海量数据挖掘基础之上的一种智能平台,根据用户个人信息与物品特征,比如用户的兴趣、历史购买行为和物品的材质、价格等,利用统计分析和机器学习等人工智能技术建立模型,预测用户对新物品的评价与喜好,从而向用户推荐其可能感兴趣的潜在物品,以实现个性化的信息服务和决策支持.然而,推荐系统的历史数据集、预测模型和推荐结果都与用户的隐私休戚相关,如何能在有效保护用户隐私的前提下,提供正确性可验证的有效推荐结果是一个具有挑战性的重要研究课题.国内外现有的工作多是通过数据扰动或公钥全同态加密技术来试图解决这个问题,但都无法满足推荐系统对高效性、精确性和各类隐私保护的要求.从推荐系统隐私保护的模式、安全模型、轻量级的推荐系统隐私保护一般性构造与推荐结果正确性可验证、可审计等方面,系统阐述了国内外最新研究成果,并在此基础上提出了存在问题、未来研究方向与解决方案.在安全模型方面,聚焦于标准模型或通用组合模型下,用户数据隐私、预测模型隐私和推荐结果隐私等多种安全模型的形式化刻画;在轻量化方面,将不依赖公钥全同态加密技术,通过减少公钥加密/解密次数(最优时一次),在单用户、多数据模型和多用户、多数据模型下,提出高效的推荐系统隐私保护一般性构造方法;最后,通过批量验证技术研究推荐结果轻量化防欺诈与抗抵赖的一般性理论问题.从而,为适用于推荐系统隐私保护的新型加密方案研究及其实用化提供理论和方法支撑.
    相关文章 | 计量指标
    19. 机器学习系统的隐私和安全问题综述
    何英哲,胡兴波,何锦雯,孟国柱,陈恺
    计算机研究与发展    2019, 56 (10): 2049-2070.   doi: 10.7544/issn1000-1239.2019.20190437
    摘要638)   HTML8)    PDF (1644KB)(590)   
    人工智能已经渗透到生活的各个角落,给人类带来了极大的便利.尤其是近年来,随着机器学习中深度学习这一分支的蓬勃发展,生活中的相关应用越来越多.不幸的是,机器学习系统也面临着许多安全隐患,而机器学习系统的普及更进一步放大了这些风险.为了揭示这些安全隐患并实现一个强大的机器学习系统,对主流的深度学习系统进行了调查.首先设计了一个剖析深度学习系统的分析模型,并界定了调查范围.调查的深度学习系统跨越了4个领域——图像分类、音频语音识别、恶意软件检测和自然语言处理,提取了对应4种类型的安全隐患,并从复杂性、攻击成功率和破坏等多个维度对其进行了表征和度量.随后,调研了针对深度学习系统的防御技术及其特点.最后通过对这些系统的观察,提出了构建健壮的深度学习系统的建议.
    相关文章 | 计量指标
    20. 机器学习模型可解释性方法、应用与安全研究综述
    纪守领,李进锋,杜天宇,李博
    计算机研究与发展    2019, 56 (10): 2071-2096.   doi: 10.7544/issn1000-1239.2019.20190540
    摘要602)   HTML2)    PDF (5499KB)(358)   
    尽管机器学习在许多领域取得了巨大的成功,但缺乏可解释性严重限制了其在现实任务尤其是安全敏感任务中的广泛应用.为了克服这一弱点,许多学者对如何提高机器学习模型可解释性进行了深入的研究,并提出了大量的解释方法以帮助用户理解模型内部的工作机制.然而,可解释性研究还处于初级阶段,依然还有大量的科学问题尚待解决.并且,不同的学者解决问题的角度不同,对可解释性赋予的含义也不同,所提出的解释方法也各有侧重.迄今为止,学术界对模型可解释性仍缺乏统一的认识,可解释性研究的体系结构尚不明确.在综述中,回顾了机器学习中的可解释性问题,并对现有的研究工作进行了系统的总结和科学的归类.同时,讨论了可解释性相关技术的潜在应用,分析了可解释性与可解释机器学习的安全性之间的关系,并且探讨了可解释性研究当前面临的挑战和未来潜在的研究方向,以期进一步推动可解释性研究的发展和应用.
    相关文章 | 计量指标