• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

2021年  第58卷  第2期

栏目
摘要:
2020年4月,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,提出要加快培育数据要素市场的概念,进一步突出了数据在经济发展、科技进步和生产生活等各方面的重要性.但与此同时,人们对自身产生的数据失去掌控权,以及对大数据决策深度依赖,由此导致用户数据滥用、隐私泄露、数据垄断和决策公平等数据伦理问题层出不穷,严重影响了数据生产者和数据消费者等参与主体的权益.传统的数据治理体系与方法已经不能解决当下数据治理面临的难题,亟待新思想和新方法等突破性进展的出现.目前来看,建立数据透明化的数据治理体系是一条有效途径,即通过增加大数据价值发现过程中的透明性来保障各方参与主体的权益.鉴于此,《计算机研究与发展》推出“数据治理与数据透明”专题,侧重数据透明、数据伦理、数据决策公平、数据决策可解释、数据垄断、数据隐私保护等方面,探讨当下数据治理的新体系与新方法,展望未来的发展趋势.本专题最终收录了4篇论文,内容涵盖数据伦理判别、数据决策公平、隐私保护新方法和数据透明4个方面,反映了国内学术领域在数据治理方面的主要工作.
信息安全
摘要:
物联网、穿戴设备和移动通信等技术的高速发展促使数据源源不断地产生并汇聚至多方数据收集者,由此带来更严峻的隐私泄露问题, 然而传统的差分隐私、加密和匿名等隐私保护技术还不足以应对.更进一步,数据的自主汇聚导致数据垄断问题,严重影响了大数据价值实现.此外,大数据决策过程中,数据非真实产生、被篡改和质量管理过程中的单点失败等问题导致数据决策不可信.如何使这些问题得到有效治理,使数据被正确和规范地使用是大数据发展面临的主要挑战.首先,提出数据透明化的概念和研究框架,旨在增加大数据价值实现过程的透明性,从而为上述问题提供解决方案.然后,指出数据透明化的实现需求与区块链的特性天然契合,并对目前基于区块链的数据透明化研究现状进行总结.最后,对基于区块链的数据透明化可能面临的挑战进行分析.
人工智能
摘要:
人工智能(artificial intelligence, AI)应用的伦理风险和挑战引起了人们的普遍关注,如何从技术实现角度开发出遵守人类价值观和伦理规范的AI系统,即,符合伦理的AI设计,是亟需解决的重要问题之一.基于机器学习的伦理与道德判别是此方面的有益探索.社会新闻数据具有丰富的伦理和道德的内容及知识,为机器学习的训练数据开发提供了可能.鉴于此,本文构建了具有人类行为伦理和道德属性的社会新闻数据集,附之以法律与行为规范数据集,用以机器学习的训练和测试;建立了基于使用信息实体的增强语言表示(enhanced language representation of information entities, ERNIE)和卷积神经网络(convolutional neural network, CNN)的伦理行为判别模型ERNIE-CNN,通过词的向量表示计算语义相似度来提取关于行为的伦理判断.实验结果表明,提出的模型具有比基准模型更好的性能,验证了方法和模型的有效性.
摘要:
深度学习是机器学习研究中的一个重要领域,它具有强大的特征提取能力,且在许多应用中表现出先进的性能,因此在工业界中被广泛应用.然而,由于训练数据标注和模型设计存在偏见,现有的研究表明深度学习在某些应用中可能会强化人类的偏见和歧视,导致决策过程中的不公平现象产生,从而对个人和社会产生潜在的负面影响.为提高深度学习的应用可靠性、推动其在公平领域的发展,针对已有的研究工作,从数据和模型2方面出发,综述了深度学习应用中的偏见来源、针对不同类型偏见的去偏方法、评估去偏效果的公平性评价指标、以及目前主流的去偏平台,最后总结现有公平性研究领域存在的开放问题以及未来的发展趋势.
信息安全
摘要:
近年来,如何合理有效地在区块链上实现用户隐私数据保护是区块链技术领域的一个关键性问题.针对此问题,设计出一种基于Pedersen承诺与Schnorr协议的安全多方计算协议(protocol of blockchain based on Pedersen commitment linked Schnorr protocol for multi-party computation,BPLSM).通过构筑该协议架构并进行形式化证明演算,表明了该协议能够融入区块链网络、能够在匿名情况下合并不同隐私消息并进行高效签署的特点.此外分析了协议的性质与安全性,证明了在区块链中应用BPLSM协议的泛用型隐私计算方案计算上的低算力开销,并具备良好的信息隐蔽性.最后对协议进行实验仿真,结果表明:在小范围人数固定的多方计算中,BPLSM协议验签的时间成本比当前主流的BLS签名节省约83.5%.
摘要:
随着大数据时代的到来,各领域的数据呈现出爆炸式增长态势,数据资源得到了各行各业的广泛关注.如何挖掘大数据价值,进而充分发挥大数据效益?大数据的4V特征使得数据获取、数据存储、数据搜索、数据共享、数据分析、数据可视化等各个环节对存储系统构建带来了新的技术挑战.同时,伴随着人工智能的崛起,智能存储与智能分析逐渐成为发挥大数据效益的有效技术途径.基于上述背景,为促进存储领域技术交流,《计算机研究与发展》推出了本期“大数据时代的存储系统与智能存储技术”专题.本专题收录了9篇论文,分别展示了大数据存储和智能存储等存储领域研究热点的研究现状和最新研究成果,希望能为从事相关工作的读者提供借鉴和帮助.
系统结构
摘要:
云数据存储的快速发展对数据的可用性提出了较高要求.目前,主要采用纠删码计算数据编码块进行分布式冗余数据存储来保证数据的可用性.虽然这种数据编码技术保证了存储数据的安全性并减少了额外的存储空间,但在损坏数据恢复时会产生较大的计算和通信开销.提出一种基于多级网络编码的多副本生成和损坏数据恢复算法.算法基于多级网络编码对纠删码的编码矩阵进行改进形成多级编码矩阵,利用其级联性生成多级编码(hierarchical coding, HC码)来构成多副本数据,使得各副本之间存在编码关系.在损坏数据恢复时,利用数据所有者提供的数据编码信息和云存储中保存的数据块直接计算进行恢复,从而避免从云存储中远程下载数据.理论分析和实验表明,所提算法在相同的存储空间下显著减少了损坏数据恢复时的通信开销并提高了数据的可用性.
摘要:
由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准.然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service, QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme, ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm, MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发.大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.
摘要:
借助海量数据中心存储,通过存储转发(store-and-forward, SnF)调度大数据传输,已被证明能有效解决跨数据中心间大数据传输难题.然而,多数现有调度方法将数据途经的所有网络节点(例如数据中心)均纳入SnF调度决策,导致其计算复杂度过高,难以为大规模网络提供实时调度服务.针对跨数据中心光网络场景,给出SnF模型,量化分析存储节点数量对调度问题性能与复杂度的影响.研究表明:在一定条件下,无需将所有节点都纳入调度决策也可获得良好的调度性能.由此,提出了节点约束SnF调度方法.该方法的特点在于:1)仅将部分数据途经节点纳入调度决策,降低调度问题求解难度;2)引入拓扑抽象,将被选节点间链路状态压缩,缩小调度问题规模、提高算法求解效率.仿真结果表明:在阻塞率和算法计算时间方面,该方法优于现有调度方法.
摘要:
随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage, CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力.机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间.最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射.在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码.然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.
摘要:
非易失性内存(non-volatile memory, NVM)是近几年来出现的一种新型存储介质.一方面,同传统的易失性内存一样,它有着低访问延迟、可字节寻址的特性;另一方面,与易失性内存不同的是,掉电后它存储的数据不会丢失,此外它还有着更高的密度以及更低的能耗开销.这些特性使得非易失性内存有望被大规模应用在未来的计算机系统中.非易失性内存的出现为构建高效的持久化索引提供了新的思路.由于非易失性硬件还处于研究阶段,因此大多数面向非易失性内存的索引研究工作基于模拟环境开展.在2019年4月英特尔发布了基于3D-XPoint技术的非易失性内存硬件apache pass (AEP),这使得研究人员可以基于真实的硬件环境去进行相关研究工作.首先评测了真实的非易失性内存器件,结果显示AEP的写延迟接近DRAM,而读延迟是DRAM的3~4倍.基于对硬件的实际评测结果,研究发现过去很多工作对非易失性内存的性能假设存在偏差,这使得过去的一些工作大多只针对写性能进行优化,并没有针对读性能进行优化.因此,重新审视了之前研究工作,针对过去的混合索引工作进行了读优化.此外,还提出了一种基于混合内存的异步缓存方法.实验结果表明,经过异步缓存方法优化后的混合索引读性能是优化前的1.8倍,此外,经过异步缓存优化后的持久化索引最多可以降低50%的读延迟.
摘要:
由新型非易失存储介质构成的持久性内存(persistent memory, PM)具有扩展性强、按字节访问与静态能耗低等特性,为未来主存与辅存融合提供了强大的契机.然而由于LLC(last level cache)具有易失性且与主存交互粒度通常为64B,而PM的原子持久化操作粒度为8B.因此,数据从LLC更新到PM的过程中,若发生故障,则可能破坏更新操作的失败原子性,进而影响原始数据的完整性.为了保证更新操作的失败原子性,目前研究主要采用显式调用持久化指令与内存屏障指令,将数据有序地持久化到PM上,但该操作会造成显著的开销,在索引更新中尤为明显.在对索引进行更新时,往往会涉及到索引结构的变化,该变化需要大量的有序持久化开销.研究旨在减少基于PM的B\++树在更新过程中为保证失败原子性而引入的持久化开销.通过分析B\++树节点利用率、不同更新模式下持久化开销以及更新操作之间的关系,提出了一种基于节点内数据真实分布的数据单向移动算法.通过原地删除的方式,减少删除带来的持久化开销.利用删除操作在节点内留下的空位,减少后续插入操作造成的数据移动,进而减少数据持久化开销.基于上述算法,对B\++树的重均衡操作进行优化.最后通过实验证明,相较于最新基于PM的B\++树,提出的单向移动B\++树能够显著提高单一负载与混合负载性能.
摘要:
持久性内存技术与远程直接内存访问(remote direct memory access, RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system, MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call, RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性.
摘要:
相比于传统内存,持久性内存具有容量大和非易失的特点,这为构建大规模键值存储系统提供了新的机遇.然而,在多核服务器架构下设计持久性内存键值系统面临着诸多挑战,包括并发控制带来的CPU缓存抖动、对持久性内存有限写带宽的消耗和竞争以及持久性内存高延迟带来的线程冲突加剧.提出一种多核友好的持久性内存键值系统(multicore-friendly persistent memory key-value store, MPKV),通过设计高效并发控制方法和减少对持久性内存的写操作,充分提高多核并发性能.为避免锁资源带来的额外持久性内存写带宽消耗,MPKV引入了易失性锁管理机制,将写锁资源从索引中分离,在DRAM(dynamic RAM)中单独维护它们.为保证崩溃一致性和提高并发查询性能,MPKV引入了2阶段原子写机制,利用CPU提供的原子写操作指令将系统从一个一致性状态原子地切换到另一个一致性状态,并支持了无锁查询.基于易失性锁管理机制,MPKV还提出一种并发写消除机制,以提高更新操作之间的并发效率.当出现2个冲突的更新操作时,并发写消除机制让其中一个操作直接返回,不做任何持久性内存的分配与写操作.实验显示,MPKV相比于pmemkv具有更良好的性能以及多核扩展性.其中,在18线程环境下,MPKV的吞吐达到pmemkv的1.7~6.2倍.
摘要:
持久性内存(persistent memory, PMEM)同时具备内存的低时延字节寻址和磁盘的持久化特性,将对现有软件架构体系产生革命性的变化和深远的影响.分布式存储在云计算和数据中心得到了广泛的应用,然而现有的以Ceph BlueStore为代表的后端存储引擎是面向传统机械盘和固态硬盘(solid state disk, SSD)设计的,其原有的优化设计机制不适合PMEM特性优势的发挥.提出了一种基于持久性内存和SSD的后端存储MixStore,通过易失区段标记和待删除列表技术实现了适用于持久性内存的并发跳表,用于替代RocksDB实现元数据管理机制,在保证事务一致性的同时,消除了BlueStore的compaction所引发的性能抖动等问题,同时提升元数据的并发访问性能;通过结合元数据管理机制的数据对象存储优化设计,把非对齐的小数据对象存放在PMEM中,把对齐的大块数据对象存储在SSD上,充分发挥了PMEM的字节寻址、持久性特性和SSD的大容量低成本优势,并结合延迟写入和CoW(copy-on-write)技术实现数据更新策略优化,消除了BlueStore的WAL日志引起的写放大,提升小数据写入性能.测试结果表明,在同样的硬件环境下,相比BlueStore,MixStore的写吞吐提升59%,写时延降低了37%,有效地提升了系统的性能.
图形图像
摘要:
互联网电视(over the top, OTT)视频业务逐渐成为最流行的在线业务之一,然而网络视频往往由于网络质量差、服务平台过载等原因,出现播放失败、卡顿次数增加、缓冲时间过长等质量问题,导致用户感知质量(quality of experience, QoE)下降.因此,运营商需要精确评估和掌握用户在使用网络视频业务过程中的质量体验,以便提前发现质量问题,进一步开展网络和业务优化工作.为了解决该问题,提出一种基于用户呼叫/事务/会话记录数据(extend data record, XDR)的无参考网络视频质量评估方法.该方法从大量XDR数据中提取出与视频质量相关性高的少量信息,将大规模、低价值的XDR话单数据转化为高价值、小规模的视频质量特征信息,有利于后续人工智能算法的应用和视频业务质量评价,降低进一步数据挖掘的资源成本,提升机器学习的输入样本质量和QoE评价结果的准确性.实验表明:使用该方法提取后的数据进行QoE预测,得到的预测结果在准确性方面明显优于目前基于原始XDR数据的QoE机器学习评估方法.
摘要:
为解决相关滤波类视觉跟踪算法中的边界效应问题,提出一种基于自适应空间正则化的视觉跟踪算法.在经典滤波模型中引入自适应空间正则化项,通过建立正则权重在相邻帧之间的关联,自适应调整当前帧的模型正则化权重,减小边界效应的影响.采用自适应宽高比的尺度估计策略,以及基于颜色直方图相似度的模型更新策略,抑制模型漂移,提高跟踪准确性.实验显示,该算法在UAV123,OTB2013,OTB2015这3个数据集上的跟踪成功率和精确度均高于所有对比的算法,且即使在复杂场景中也能保持良好的跟踪效果.特别是在出现运动模糊和目标在平面内旋转2种情况时,该算法的跟踪成功率较排名第2的算法分别提升了9.72个百分点和9.03个百分点,说明所提出的算法具有较好的适应性.
摘要:
红外图像即使在低光照条件下,也能根据热辐射的差异将目标与背景区分开来,而可见光图像具有高空间分辨率的纹理细节,此外,红外和可见光图像都含有相应的语义信息.因此,红外与可见光图像融合,需要既保留红外图像的辐射信息,也保留可见光图像的纹理细节,同时,也要反映出二者的语义信息.而语义分割可以将图像转换为带有语义的掩膜,提取源图像的语义信息.提出了一种基于语义分割的红外和可见光图像融合方法,能够克服现有融合方法不能针对性地提取不同区域特有信息的缺点.使用生成式对抗神经网络,并针对源图像的不同区域设计了2种不同的损失函数,以提高融合图像的质量.首先通过语义分割得到含有红外图像目标区域语义信息的掩模,并利用掩模将红外和可见光图像分割为红外图像目标区域、红外图像背景区域、可见光图像目标区域和可见光图像背景区域;然后对目标区域和背景区域分别采用不同的损失函数得到目标区域和背景区域的融合图像;最后将2幅融合图像结合起来得到最终融合图像.实验表明,融合结果目标区域对比度更高,背景区域纹理细节更丰富,提出的方法取得了较好的融合效果.