ISSN 1000-1239 CN 11-1777/TP

    2015大数据管理

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2015大数据管理专题前言
    孟小峰
    计算机研究与发展    2015, 52 (2): 261-264.  
    摘要1259)   HTML0)    PDF (678KB)(1070)   
    当下大数据的产生主要源于人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于如何帮助人们解释复杂的社会行为和结构,以及提高人们生产制造的能力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下3方面的内涵,即:大数据的“深度”、大数据的“广度”、以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”。而数据的“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面。大数据的“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”等。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”、“深度”、“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。
    相关文章 | 计量指标
    2. 大数据隐私管理
    孟小峰,张啸剑
    计算机研究与发展    2015, 52 (2): 265-281.   doi: 10.7544/issn1000-1239.2015.20140073
    摘要2364)   HTML20)    PDF (3345KB)(1725)   
    信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是IT业正在发生的深刻技术变革.但它在提高经济和社会效益的同时,也为个人和团体的隐私保护以及数据安全带来极大风险与挑战.当前,隐私成为大数据应用领域亟待突破的重要问题,其紧迫性已不容忽视.描述了大数据的分类、隐私特征与隐私类别,分析了大数据管理中存在的隐私风险和隐私管理关键技术;提出大数据隐私主动式管理建议框架以及该框架下关于隐私管理技术的主要研究内容,并指出相应的技术挑战.
    相关文章 | 计量指标
    被引次数: Baidu(45)
    3. 分布式大数据函数依赖发现
    李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍
    计算机研究与发展    2015, 52 (2): 282-294.   doi: 10.7544/issn1000-1239.2015.20140229
    摘要1353)   HTML3)    PDF (2922KB)(940)   
    在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side, LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.
    相关文章 | 计量指标
    被引次数: Baidu(7)
    4. Web大数据环境下的不一致跨源数据发现
    余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞
    计算机研究与发展    2015, 52 (2): 295-308.   doi: 10.7544/issn1000-1239.2015.20140224
    摘要1353)   HTML1)    PDF (2541KB)(1101)   
    Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
    相关文章 | 计量指标
    被引次数: Baidu(24)
    5. 大数据群体计算中用户主题感知的任务分配
    张晓航,李国良,冯建华
    计算机研究与发展    2015, 52 (2): 309-317.   doi: 10.7544/issn1000-1239.2015.20140267
    摘要1675)   HTML1)    PDF (2171KB)(1103)   
    大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战.一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求;另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术.针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,传统的基于计算机的算法已经无法满足日益苛刻的数据处理要求,而基于人机协作的群体计算是有效的解决途径.在大数据群体计算中,最基础的就是任务的分配方式.考虑到大量网络用户不同的专业背景、诚信程度,因此不能简单随机地将要处理的任务交给大众来完成.针对此问题,提出了一种基于用户主题感知的迭代式任务分配算法.利用已知答案的测试问题迭代地检测不同人群的专业背景和完成任务的准确率.在充分了解用户真实主题和准确率的情况下为他们分配合适的问题.通过和随机任务分配算法在模拟数据和真实数据上的对比,有效显示了基于主题感知任务分配算法的准确性.
    相关文章 | 计量指标
    被引次数: Baidu(11)
    6. 分布式流处理技术综述
    崔星灿,禹晓辉,刘洋,吕朝阳
    计算机研究与发展    2015, 52 (2): 318-332.   doi: 10.7544/issn1000-1239.2015.20140268
    摘要2853)   HTML27)    PDF (2523KB)(2497)   
    随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式应运而生.首先回顾分布式流处理技术产生的背景以及技术演进过程,然后将其与其他相关大数据处理技术进行对比,以界定分布式流数据处理的外延.进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析,指出现有解决方案的优势和不足.随后,介绍S4,Storm,Spark Streaming等几种具有代表性的分布式流处理系统,并对它们进行系统地对比.最后,给出分布式流处理在社交媒体处理等领域的几种典型应用,并探讨分布式流处理领域进一步的研究方向.
    相关文章 | 计量指标
    被引次数: Baidu(32)
    7. 大数据分析与高速数据更新
    陈世敏
    计算机研究与发展    2015, 52 (2): 333-342.   doi: 10.7544/issn1000-1239.2015.20140302
    摘要1748)   HTML4)    PDF (3828KB)(1463)   
    大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率.
    相关文章 | 计量指标
    被引次数: Baidu(34)
    8. 基于PCM的大数据存储与管理研究综述
    吴章玲,金培权,岳丽华,孟小峰
    计算机研究与发展    2015, 52 (2): 343-361.   doi: 10.7544/issn1000-1239.2015.20140116
    摘要1630)   HTML2)    PDF (3583KB)(1754)   
    大数据已经成为当前学术界和工业界的一个研究热点.但由于计算机系统架构的限制,大数据存储与管理在性能、能耗等方面均面临着巨大的挑战.近年来,一种新型存储介质——相变存储器(phase Change Memory, PCM)——凭着其非易失、字节可寻址、读取速度快、低能耗等诸多优点,为计算机存储体系结构和数据管理设计带来了新的技术变革前景,也为大数据存储和管理带来了新的契机.PCM既是一种非易失存储介质,同时又具备了内存的字节可寻址和高速随机访问特性,模糊了主存和外存的界限,有望突破原有的存储体系架构,实现更高性能的存储与数据管理.概述了PCM存储器的发展现状;总结了目前基于PCM的持久存储技术和基于PCM的主存系统等方面的研究进展;并讨论了PCM在多个领域的应用现状.最后,给出了基于PCM的大数据存储与管理研究的若干未来发展方向,从而为构建新型存储架构下的大数据存储与管理技术提供有价值的参考.
    相关文章 | 计量指标
    被引次数: Baidu(40)
    9. 基于GPU加速的超精简型编码数据库系统
    骆歆远,陈刚,伍赛
    计算机研究与发展    2015, 52 (2): 362-376.   doi: 10.7544/issn1000-1239.2015.20140254
    摘要1135)   HTML0)    PDF (4925KB)(824)   
    在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值.
    相关文章 | 计量指标
    被引次数: Baidu(13)
    10. 一种异构集群中能量高效的大数据处理算法
    丁有伟,秦小麟,刘亮,王涛春
    计算机研究与发展    2015, 52 (2): 377-390.   doi: 10.7544/issn1000-1239.2015.20140126
    摘要1250)   HTML0)    PDF (5721KB)(1075)   
    集群的能量消耗已经超过了其本身的硬件购置费用,而大数据处理需要大规模的集群耗费大量时间,因此如何进行能量高效的大数据处理是数据拥有者和使用者亟待解决的问题,也是对能源和环境的一个巨大挑战.现有的研究一般通过关闭部分节点以减少能量消耗,或者设计新的数据存储策略以便实施能量高效的数据处理.通过分析发现即便使用最少的节点也存在很大的能源浪费,而新的数据存储策略对于已经部署好的集群会造成大规模的数据迁移,消耗额外的能量.针对异构集群下I/O密集型的大数据处理任务,提出一种新的能量高效算法MinBalance,将问题分为节点选择和负载均衡两个步骤.在节点选择阶段采用4种不同的贪心策略,充分考虑到节点的异构性,尽量选择最合适的节点进行任务处理;在负载均衡阶段对选择的节点进行负载均衡,以减少各个节点因为等待而造成的能量浪费.该方法具有通用性,不受数据存储策略的影响.实验表明MinBalance方法在数据集较大的情况下相对于传统关闭部分节点的方法可以减少超过60%的能量消耗.
    相关文章 | 计量指标
    被引次数: Baidu(13)
    11. 大规模图数据匹配技术综述
    于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉
    计算机研究与发展    2015, 52 (2): 391-409.   doi: 10.7544/issn1000-1239.2015.20140188
    摘要2765)   HTML3)    PDF (4874KB)(2390)   
    在大数据时代海量的多源异构数据间存在着紧密的关联性,图作为表示数据之间关系的基本结构在社交网络分析、社会安全分析、生物数据分析等领域有着广泛应用.在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题.从应用角度对用于图查询的图数据匹配技术的研究进展进行综述,根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍.同时,将重点介绍精确图匹配,包括无索引的匹配和基于索引的匹配,以及相关的关键技术、主要算法、性能评价等进行了介绍、测试和分析.最后对图匹配技术的应用现状和面临的问题进行了总结,并对该技术的未来发展趋势进行了展望.
    相关文章 | 计量指标
    被引次数: Baidu(34)
    12. 符号社会网络中正负关系预测算法研究综述
    蓝梦微,李翠平,王绍卿,赵衎衎,林志侠,邹本友,陈红
    计算机研究与发展    2015, 52 (2): 410-422.   doi: 10.7544/issn1000-1239.2015.20140210
    摘要1738)   HTML2)    PDF (2032KB)(1217)   
    一些网络中的边根据其潜在涵义可分为正关系和负关系,若用正号和负号来标记网络中的边,则形成一个符号网络.符号网络的应用场景非常丰富,在社会学、信息学、生物学等多个领域广泛存在,逐渐成为当前研究的热点之一.对符号社会网络中链接的正负预测问题进行研究,其成果对社会网络的个性化推荐、网络中异常节点的识别、用户聚类等都具有非常重要的应用价值.主要介绍符号社会网络中正负关系预测问题在国内外的研究现状和最新进展.首先介绍了社会结构平衡理论和地位理论,并将目前主要的预测算法按照设计思路分成两类:基于矩阵的符号预测算法和基于分类的符号预测算法,详细介绍各类算法的基本思路,并从算法效率、准确性和可伸缩性等角度进行详细的对比和分析,总结了符号社会网络预测问题具有的一些特点以及所面临的挑战,同时指出未来可能的发展方向,为相关研究人员提供有价值的参考.
    相关文章 | 计量指标
    被引次数: Baidu(19)
    13. 基于低秩和稀疏矩阵分解的多源融合链接预测算法
    刘冶,朱蔚恒,潘炎,印鉴
    计算机研究与发展    2015, 52 (2): 423-436.   doi: 10.7544/issn1000-1239.2015.20140221
    摘要1221)   HTML1)    PDF (1785KB)(1051)   
    近年来,链接预测成为社会网络和其他复杂网络链接挖掘中的热门研究领域.在链接预测问题中,经常会存在用来提高预测效果的附加数据信息源,这些数据可以用于预测网络中的链接是否存在.在所有的数据源中,最主要的数据源在链接预测中起到最重要的作用.因此,设计具备健壮性的算法用于充分利用所有数据源的信息来进行链接预测十分重要,算法还需要平衡主数据源和附加数据源的关系,使得链接预测能够获得更好的效果.同时,传统基于拓扑结构计算的无监督算法大多数通过计算网络中节点间的评分值来解决预测链接存在可能性的问题,这些方法能够获得有效的结果.在链接预测方法中,最关键的一步是构建准确的输入矩阵数据.由于许多真实世界数据集存在噪声,这导致降低了大多数链接预测模型的效果.提出了一种新的链接预测方法,通过多个数据源的融合,兼顾地利用了主数据源的信息和其他附加数据源的信息.接着,主数据源和其他附加数据源被用于构建一个低噪声且更准确的矩阵,而新的矩阵被用于作为传统无监督拓扑链接预测算法的输入.根据在多个真实世界数据上的测试结果,在多源数据集上进行对比实验,提出的基于低秩和稀疏矩阵分解的多源融合链接预测算法相对于基准算法能够获得更好的效果.
    相关文章 | 计量指标
    被引次数: Baidu(16)
    14. 基于微博的事件传播分析
    朱湘,贾焰,聂原平,曲铭
    计算机研究与发展    2015, 52 (2): 437-444.   doi: 10.7544/issn1000-1239.2015.20140187
    摘要1264)   HTML4)    PDF (2184KB)(1240)   
    事件的传播分析是社交网络分析中一个重要的研究点.网络热点事件的爆发通过社交网络迅速传播,从而在短时间内造成很大的影响.而在社交网络中制造舆论热点进行传播的代价相对于传统媒介较低,因此很容易被不法分子利用,对社会安全以及人们财产造成损失.传统的影响传播分析仅能对单条博文进行影响传播分析,这使社交网络中的事件传播分析受到限制.在已有的独立级联模型的基础上,提出了一种结合用户去重、垃圾用户滤除和概率阅读的传播模型,其基本思想是对多条热点博文构成的事件进行用户去重,构建事件传播网络拓扑图,然后对其中的垃圾用户节点进行滤除,最后利用概率阅读模型进行影响传播分析.这为事件传播分析提供了思路.通过一系列实验来验证方法及模型,通过与传统的博文分析进行对比,验证了方法的正确性与有效性.
    相关文章 | 计量指标
    被引次数: Baidu(6)