• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

2022年  第59卷  第11期

栏目
隐私保护
摘要:
随着企业、政府以及私人等数据资产的不断增加,机器学习领域对于图像等分类应用需求也随之不断增涨.为了应对各种实际的需求,机器学习即服务(machine learning as a service, MLAAS)的云服务部署思想逐渐成为主流.然而,基于云服务实现的应用往往会带来严重的数据隐私安全问题.FPCBC(federated learning privacy-preserving classification system based on crowdsourcing aggregation)是一种基于众包聚合的联邦学习隐私保护分类系统.它将分类任务众包给多个边缘参与方并借助云计算来完成,不再使用联合训练理想模型的方式来得到可信度高的分类结果,而是让参与方先根据本地有限数据训练出的模型进行推理,然后再使用成熟的算法对推理结果聚合得到较高准确率的分类.重要的是,保证了数据查询方不会泄露任何隐私数据,很好地解决了传统MLAAS的隐私安全问题.在系统实现中,使用同态加密来对需要进行机器学习推理的图像数据加密;改善了一种众包的联邦学习分类算法,并通过引入双服务器机制来实现整个系统的隐私保护计算.通过实验和性能分析表明了该系统的可行性,且隐私保护的安全程度得到了显著提升,更适用于实际生活中对隐私安全需求较高的应用场景.
摘要:
深度学习技术的快速发展给我们带来了极大的便利,但同时也导致大量隐私数据的泄露.联邦学习允许客户端在只共享梯度的情况下联合训练模型,这看似解决了隐私信息泄露问题,但研究表明联邦学习框架中传输的梯度依然会导致隐私信息泄露.并且,联邦学习的高通信代价的特点难以适用于资源受限的环境.为此,提出了2个通信高效且安全的联邦学习算法,算法使用Top-K稀疏及压缩感知等技术以减少梯度传输造成的通信开销,另外利用安全多方计算中的加法秘密共享对重要的梯度测量值加密,以实现在减少通信开销的同时进一步增强其安全性.2个算法的主要区别是客户端与服务器通信时传递的分别为梯度测量值与梯度测量值的量化结果.在MNIST及Fashion-MNIST数据集上的实验表明,与其他算法相比,本文所提的算法在保证通信代价较低的情况下进一步增加了安全性,同时在模型准确性上也有较好的性能.
摘要:
联邦学习(federated learning)通过用上传模型参数的方式取代了数据传输,降低了隐私泄露的风险.然而,将联邦学习应用到云边端框架下时,一方面,由于云边端存在边缘和终端两层分布式框架,对传统的单层联邦学习提出挑战;另一方面,终端节点因资源异构难以训练相同复杂度的模型,无法满足联邦学习客户端统一模型的假设.针对上述第1个问题,从传统的单层联邦学习方法出发,设计了面向云边端分层部署模型的联邦学习方案;针对第2个问题,通过在终端模型插入分支的方式,将大模型拆分为不同复杂度的小模型适配不同客户端资源状态,从而实现异构联邦学习.同时,考虑到终端存在大量无标签数据无法进行有效模型训练的问题,还提出了针对联邦框架的半监督学习方法,实现对无标签数据的有效利用.最终,通过MNIST和FashionMNIST数据集对方法进行了验证.实验结果表明,在有效避免隐私泄露的前提下,相比于其他同构和异构学习方法,所提方法最大可提升22%的模型准确率;在计算、通信、存储等资源开销上均有明显降低.
摘要:
传统的联邦学习依赖一个中央服务器,模型训练过程易受单点故障和节点恶意攻击的影响,明文传递的中间参数也可能被用来推断出数据中的隐私信息.提出了一种基于区块链的去中心化、安全、公平的联邦学习模型,利用同态加密技术保护协同训练方的中间参数隐私,通过选举的联邦学习委员会进行模型聚合和协同解密.解密过程通过秘密共享方案实现安全的密钥管理,利用双线性映射累加器为秘密份额提供正确性验证.引入信誉值作为评估参与方可靠性的指标,利用主观逻辑模型实现不信任增强的信誉计算作为联邦学习委员会的选举依据,信誉值作为激励机制的参考还可以保障参与公平性.模型信息和信誉值通过区块链实现数据的防篡改和不可抵赖.实验表明,模型在训练准确率相比中心化学习模型略有损失的情况下,能够保障在多方协作的环境下以去中心化的方式训练模型,有效实现了各参与方的隐私保护.
系统结构
摘要:
新型非易失存储器是下一代计算机内存最具潜力的候选之一.基于非易失存储器构建持久性内存系统面临着2方面挑战:保证数据安全性、优化写操作.为此,现有工作提出加密和完整性检测技术以保证安全性,同时提出选择重加密策略以优化写操作.这些技术在持久性内存中引入多种元数据,但尚无研究工作综合考虑各类元数据特性以实现高效管理.为解决此问题,提出一种面向安全持久性内存的元数据协同管理方法(coordinated metadata management for secure persistent memory, COTANA).COTANA将加密和选择重加密元数据整合在相同块中,以减少加解密时元数据访问开销.同时,COTANA将整合后的块作为叶子结点构建完整性检测树,并通过将消息鉴别码放置在纠错码芯片中避免额外访问延迟.此外,通过实验发现数据块中不同字节存在不同修改频率.在选择重加密时,COTANA采用动态数据分片策略,从现有的连续分片方法和针对修改频率规律设计的聚集分片方法中动态选择造成位翻转最少的方法.实验结果显示,与采用最新的元数据管理方法和选择重加密策略的系统相比,COTANA最多能提升13.7%的性能,并减少21.3%的位翻转.
摘要:
目前分布式存储集群广泛采用纠删码来保证数据可靠性,但是数据更新密集时存储集群的磁盘I/O开销会成为性能瓶颈.在常用的纠删码数据更新方法中,磁盘I/O开销主要包括:1)更新数据块时对数据节点的读后写操作;2)更新校验块时读写日志的磁盘寻道开销.针对这些问题,提出PARD(parity logging with reserved space and data delta)数据更新方法,其主要思想是首先利用纠删码线性运算的特性来减少读后写操作;然后根据磁盘特性来降低磁盘寻道开销.PARD包含3个设计要点:1)采用即时的数据块更新和基于日志的校验块更新;2)利用纠删码线性运算的特性,构建基于数据增量的日志,极大限度地消除对数据节点的读后写操作;3)根据磁盘特性,在数据文件末尾为日志预留空间,减少读写日志的磁盘寻道开销.实验结果表明,当块大小为4 MB时,PARD的更新吞吐率相较于PLR(parity logging with reserved space),PARIX(speculative partial write),FO(full overwrite),分别至少提升了30.4%,47.0%,82.0%.
人工智能
摘要:
情感原因提取是情感计算领域研究的一个新方向,是一种细粒度的情感分析,其目的是要找出给定文档中触发情感的那部分文本,是对情感的一种追根溯源.情感原因提取涉及到语言学、心理学等相关的领域知识,具有较高的学术研究价值和广泛的应用场景.尽管情感计算的相关研究大多集中在情感识别、情感预测、情感信息抽取等方面,但近些年不少学者已开始深入到情感背后的原因分析与提取上,并产生了较为丰富的成果.从问题定义、任务类别、研究方法、主流数据集、评测指标等多个角度对基于文本的情感原因自动提取的研究成果进行全面回顾和分析,重点对情感原因提取的方法特别是基于深度学习的方法进行了梳理,最后总结了现有情感原因提取工作的不足及其未来所面临的挑战.
摘要:
为提升车辆重识别算法的性能,提出一种基于车辆组件特征与多注意力融合的特征学习方法.首先,修改深度残差网络以获取具有丰富语义信息的特征图,同时应用语义分割网络将车辆图像划分为车辆正面、背面、顶面、侧面及背景区域,以实现组件特征提取并消除视角变化的影响.然后,设计多注意力融合模块,基于面积注意力与特征注意力实现组件特征的自适应融合.最后,在多任务学习框架下,优化车辆重识别的三元组损失与辅助分类任务的交叉熵与焦点损失,对网络参数进行训练.在多个数据集上的实验结果表明,提出的方法在大多数性能指标上均超越了现有方法.进一步的消融实验证明了多注意力融合模块与多任务损失函数在特征提取上的有效性.
摘要:
众包(crowdsourcing)通常涉及到目标各不相同的多个参与者.设计有效的众包机制,使得各个参与者在竞争中实现共赢,是众包理论研究中的基本问题之一.当前,众包机制设计通常基于发包方-标注者直接进行交互的两方博弈模型.而现实应用中,发包方与标注者之间往往通过平台进行交互,从而构成三方博弈下的众包市场.其中的发包方-平台博弈机制设计是过往众包研究中未曾涉及的全新问题.将三方众包市场建模为不完全信息博弈,并证明该博弈问题的Nash均衡可通过在线学习来最小化发包方和平台的累计遗憾而达到.在单发包方情形下,证明经典的EXP3算法对于发包方的最优性,并基于反事实遗憾最小化技术为平台设计了有效策略.同时,将单发包方情形下发包方和平台策略拓展到多发包方情形下并给出理论分析.合成及真实数据集上的实验验证了该方法的有效性.
摘要:
在线学习由于不受时空限制而愈来愈流行.如何从成千上万的在线课程中选择合适课程是在线学习者面临的极大挑战,在线课程推荐应运而生.但现有课程推荐系统仍面临2个主要问题:1)不同用户具有不同的学习能力和需求.因此,需要仔细考虑用户对不同课程的适合度,否则可能会导致推荐的课程难度太大.2)目前的课程推荐方法忽略了推荐课程与用户已学课程之间存在的可搭配关系,可能导致不合适的推荐.针对以上2个问题,首先深入分析了用户的学习特征、类型及其对不同课程的学习适合度;同时,利用课程的共同被选频率,对不同课程之间的可搭配关系进行探究.基于以上2个方面,提出了一种结合用户适合度和课程搭配度的课程推荐模型(user-suitability and course-matching aware course recommendation model, SMCR).在CN(canvas network)数据集和MOOC(massive open online courses)数据集上进行的对比实验结果表明,该方法可以达到更高的推荐准确性,而且SMCR模型能够向用户推荐既适合其学习又与其已学课程可以进行搭配的课程.
摘要:
目标检测器现已被广泛应用在各类智能系统中,主要用于对图像中的物体进行识别与定位.然而,近年来的研究表明,目标检测器与DNNs分类器都易受数字对抗样本和物理对抗样本的影响.YOLOv3是实时检测任务中一种主流的目标检测器,现有攻击YOLOv3的物理对抗样本的构造方式大多是将生成的较大对抗性扰动打印出来再粘贴在特定类别的物体表面.最近的研究中出现的假阳性对抗样本(false positive adversarial example, FPAE)可通过目标模型直接生成得到,人无法识别出该对抗样本图像中的内容,但目标检测器却以高置信度将其误识别为攻击者指定的目标类.现有以YOLOv3为目标模型生成FPAE的方法仅有AA(appearing attack)方法一种,该方法在生成FPAE的过程中,为提升FPAE的鲁棒性,会在迭代优化过程中加入EOT(expectation over transformation)图像变换来模拟各种物理条件,但是并未考虑拍摄时可能出现的运动模糊(motion blur)情况,进而影响到对抗样本的攻击效果.此外,生成的FPAE在对除YOLOv3外的目标检测器进行黑盒攻击时的攻击成功率并不高.为生成性能更好的FPAE,以揭示现有目标检测器存在的弱点和测试现有目标检测器的安全性,以YOLOv3目标检测器为目标模型,提出RTFP(robust and transferable false positive)对抗攻击方法.该方法在迭代优化过程中,除了加入典型的图像变换外,还新加入了运动模糊变换.同时,在损失函数的设计上,借鉴了C&W攻击中损失函数的设计思想,并将目标模型在FPAE的中心所在的网格预测出的边界框与FPAE所在的真实边界框之间的重合度(intersection over union, IOU)作为预测的边界框的类别损失的权重项.在现实世界中的多角度、多距离拍摄测试以及实际道路上的驾车拍摄测试中,RTFP方法生成的FPAE能够保持较强的鲁棒性且迁移性强于现有方法生成的FPAE.
软件技术
摘要:
应用自适应是软件工程和服务计算这一交叉领域的研究热点之一,应用通过感知自身和环境的变化,动态调整自己的行为与流程,以便在环境与需求发生非确定性变化的情况下继续高效地达成服务目标.近年来随着大数据和人工智能的发展,传统的基于软件模型控制的方法已经不再适用于当今动态和复杂的应用环境.相比而言,数据驱动的方法不依赖于数学模型和专家知识,而是以概率和数理统计为基础,通过应用服务运行的反馈数据,逐步学习和理解复杂多变的环境,继而学习出自适应系统的模型.因此,数据驱动的应用自适应具有感知性、适应性、自治性和协作性等特点,适用于流程复杂的应用服务场景,如物联网、智能交通、分布式计算等.从自适应框架出发,参考了认知计算的相关特点,总结出数据驱动的智能自适应框架,并分别综述了其中的表征学习、模式识别、决策规划和规则演化这4种技术在近几年数据驱动的自适应技术中的应用,重点探索了如机器学习、深度学习和强化学习等新技术在其中所起的作用,并总结和展望了自适应技术在服务计算领域的发展趋势.
摘要:
广泛的位置感知应用产生了大量的空间文本数据,其中既包含位置信息,也包含空间文本属性.为了利用这些丰富的信息来描述用户对路线的偏好,提出了面向空间兴趣区域的路线查询(region of interests oriented route query, ROIR).给定空间关键字集合及路线长度约束,ROIR检索满足长度约束和最高收益的由空间兴趣区域组成的路线.与传统的空间关键字路线查询相比,ROIR的对象由空间兴趣点扩展为兴趣区域,增加了用户的选择空间,使得查询结果的适用性更好.针对多种类型的海量空间兴趣点(point of interests, POI )及相关文本信息,设计了2层数据组织模型,模型中集成了POI对象的空间位置、关键字及POI对象间的转移关系.基于2层数据组织模型,提出了综合空间对象位置、转移图以及关键字3类信息的索引结构,同时预计算了关键字的收益统计值,并以签名方式存储在转移结点上.设计了ROIR路线查询精确算法.ROIR是一个NP难问题,为了有效地实现ROIR提出了近似率为1/ε的近似算法.利用真实数据集进行了详细的实验分析,评估了所提出算法的有效性.
信息安全
摘要:
域名系统(domain name system, DNS)是网络和信息时代互联网基础结构的重要组成部分,同时也被多种严重威胁网络安全的攻击活动滥用,例如僵尸网络命令和控制、垃圾邮件分发以及网络钓鱼.从典型检测场景的角度,全面回顾现有的域名滥用检测技术.首先,介绍域名滥用行为检测的背景知识,并通过调研现有域名滥用检测方案,提出域名滥用检测场景分类体系、总结典型检测特征及方法.其次,分别阐述了恶意软件、网络钓鱼、域名抢注、垃圾邮件,以及不限定滥用行为5种典型检测场景下,域名滥用攻防技术演进的过程.并从技术方案、典型特征、检测算法等多个维度进一步全面梳理域名滥用检测工作,对现有的域名滥用检测方法进行系统概述.最后,讨论域名滥用检测技术面临的挑战和未来研究方向,以期改善域名系统的生态环境.
摘要:
Qin等人提出的基于冗余转移的高容量加密域可逆信息隐藏算法,有效提高了抵抗现有已知明文和唯密文等攻击的能力. 在分析该算法的冗余转移图像加密特性的基础上,提出一种基于非0比特个数(non-zero-bit number, NZBN)特征的已知明文攻击方法.首先,定义给出了图像块的NZBN特征,分析指出了图像块NZBN特征在冗余转移图像加密前、后的恒定不变性;然后利用NZBN特征的恒定不变性,依次估计块置乱密钥和每个图像块的位平面置乱密钥;接着,给出了多对明-密文图像条件下的块置乱密钥估计方法,以进一步提高块置乱密钥的估计正确率;最后,分析讨论了在不同分块大小下的密钥估计正确率和时间复杂度.实验结果表明,算法的密钥估计正确率和时间复杂度依赖于分块大小.分块大小不小于4×4时,1对明-密文图像得到的块置乱密钥正确率超过89%;即使分块大小降至2×2,2对明-密文图像可导致信息泄露.
摘要:
由于信息系统记录的行为不断变化,因此事件日志与给定模型之间往往存在偏差.事件日志可能产生2种不同类型的偏差,且每种偏差在偏差总数中的占比是不确定的.已有方法采用固定方式修复日志中非迭代偏差和自循环产生的迭代偏差,或在理想适合度被设定为1的前提下选择执行不同的修复方式,因而很难保证适合度与精度始终在合理范围.针对这一问题,提出一种修复方法可根据迭代可观测偏差总成本预测配置优化后的适合度,并在其满足给定阈值的情况下对所有偏差进行整体配置.当预测适合度不满足给定阈值时,进一步通过最优对齐发现事件日志与过程模型之间的变体,并根据每个变体的实际情况使用配置优化或者自循环插入的方式修复可观测偏差.仿真实验中对不同数据集进行了验证,结果表明:在始终保证适合度合理的前提下所提出方法能够最大程度地改善精度.
摘要:
动态可搜索加密技术实现了数据动态更新,可以应对更加灵活多变的应用挑战,但是对于数据更新时产生的隐私泄露以及用户与云服务器的不诚实性问题并没有解决.为了解决上述问题,提出了一种支持双向验证的动态密文检索方案,实现用户与云服务器之间的双向验证.首先,引入位图索引以及同态加法对称加密技术,使用位图索引表示单个关键字每次更新涉及的所有文档标识符,减少了云服务器搜索次数和本地索引加密次数,从而提高了搜索效率以及更新效率,并且利用同态加法对称加密对位图索引进行加密,可以有效地保护数据的安全更新.其次,将聚合消息认证码上传到区块链中,利用区块链对云服务器返回的结果进行正确性验证,防止用户和云服务器发生欺骗行为.最后,实验结果和安全分析表明,方案满足前向安全与后向安全,并且在索引生成、搜索、更新以及验证方面提高了效率.