Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2015年 第52卷 第2期    出版日期:2015-02-01
综述
2015大数据管理专题前言
孟小峰
2015, 52(2):  261-264. 
摘要 ( 1276 )   HTML ( 0)   PDF (678KB) ( 1074 )  
相关文章 | 计量指标
当下大数据的产生主要源于人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于如何帮助人们解释复杂的社会行为和结构,以及提高人们生产制造的能力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下3方面的内涵,即:大数据的“深度”、大数据的“广度”、以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”。而数据的“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面。大数据的“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”等。面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”、“深度”、“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。
大数据隐私管理
孟小峰,张啸剑
2015, 52(2):  265-281.  doi:10.7544/issn1000-1239.2015.20140073
摘要 ( 2511 )   HTML ( 24)   PDF (3345KB) ( 1797 )  
相关文章 | 计量指标
信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是IT业正在发生的深刻技术变革.但它在提高经济和社会效益的同时,也为个人和团体的隐私保护以及数据安全带来极大风险与挑战.当前,隐私成为大数据应用领域亟待突破的重要问题,其紧迫性已不容忽视.描述了大数据的分类、隐私特征与隐私类别,分析了大数据管理中存在的隐私风险和隐私管理关键技术;提出大数据隐私主动式管理建议框架以及该框架下关于隐私管理技术的主要研究内容,并指出相应的技术挑战.
软件技术
分布式大数据函数依赖发现
李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍
2015, 52(2):  282-294.  doi:10.7544/issn1000-1239.2015.20140229
摘要 ( 1431 )   HTML ( 4)   PDF (2922KB) ( 963 )  
相关文章 | 计量指标
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side, LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升.
Web大数据环境下的不一致跨源数据发现
余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞
2015, 52(2):  295-308.  doi:10.7544/issn1000-1239.2015.20140224
摘要 ( 1425 )   HTML ( 2)   PDF (2541KB) ( 1117 )  
相关文章 | 计量指标
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
大数据群体计算中用户主题感知的任务分配
张晓航,李国良,冯建华
2015, 52(2):  309-317.  doi:10.7544/issn1000-1239.2015.20140267
摘要 ( 1728 )   HTML ( 1)   PDF (2171KB) ( 1115 )  
相关文章 | 计量指标
大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战.一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求;另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术.针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,传统的基于计算机的算法已经无法满足日益苛刻的数据处理要求,而基于人机协作的群体计算是有效的解决途径.在大数据群体计算中,最基础的就是任务的分配方式.考虑到大量网络用户不同的专业背景、诚信程度,因此不能简单随机地将要处理的任务交给大众来完成.针对此问题,提出了一种基于用户主题感知的迭代式任务分配算法.利用已知答案的测试问题迭代地检测不同人群的专业背景和完成任务的准确率.在充分了解用户真实主题和准确率的情况下为他们分配合适的问题.通过和随机任务分配算法在模拟数据和真实数据上的对比,有效显示了基于主题感知任务分配算法的准确性.
综述
分布式流处理技术综述
崔星灿,禹晓辉,刘洋,吕朝阳
2015, 52(2):  318-332.  doi:10.7544/issn1000-1239.2015.20140268
摘要 ( 2936 )   HTML ( 29)   PDF (2523KB) ( 2543 )  
相关文章 | 计量指标
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式应运而生.首先回顾分布式流处理技术产生的背景以及技术演进过程,然后将其与其他相关大数据处理技术进行对比,以界定分布式流数据处理的外延.进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析,指出现有解决方案的优势和不足.随后,介绍S4,Storm,Spark Streaming等几种具有代表性的分布式流处理系统,并对它们进行系统地对比.最后,给出分布式流处理在社交媒体处理等领域的几种典型应用,并探讨分布式流处理领域进一步的研究方向.
大数据分析与高速数据更新
陈世敏
2015, 52(2):  333-342.  doi:10.7544/issn1000-1239.2015.20140302
摘要 ( 1807 )   HTML ( 4)   PDF (3828KB) ( 1475 )  
相关文章 | 计量指标
大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率.
基于PCM的大数据存储与管理研究综述
吴章玲,金培权,岳丽华,孟小峰
2015, 52(2):  343-361.  doi:10.7544/issn1000-1239.2015.20140116
摘要 ( 1682 )   HTML ( 2)   PDF (3583KB) ( 1774 )  
相关文章 | 计量指标
大数据已经成为当前学术界和工业界的一个研究热点.但由于计算机系统架构的限制,大数据存储与管理在性能、能耗等方面均面临着巨大的挑战.近年来,一种新型存储介质——相变存储器(phase Change Memory, PCM)——凭着其非易失、字节可寻址、读取速度快、低能耗等诸多优点,为计算机存储体系结构和数据管理设计带来了新的技术变革前景,也为大数据存储和管理带来了新的契机.PCM既是一种非易失存储介质,同时又具备了内存的字节可寻址和高速随机访问特性,模糊了主存和外存的界限,有望突破原有的存储体系架构,实现更高性能的存储与数据管理.概述了PCM存储器的发展现状;总结了目前基于PCM的持久存储技术和基于PCM的主存系统等方面的研究进展;并讨论了PCM在多个领域的应用现状.最后,给出了基于PCM的大数据存储与管理研究的若干未来发展方向,从而为构建新型存储架构下的大数据存储与管理技术提供有价值的参考.
软件技术
基于GPU加速的超精简型编码数据库系统
骆歆远,陈刚,伍赛
2015, 52(2):  362-376.  doi:10.7544/issn1000-1239.2015.20140254
摘要 ( 1204 )   HTML ( 0)   PDF (4925KB) ( 831 )  
相关文章 | 计量指标
在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值.
一种异构集群中能量高效的大数据处理算法
丁有伟,秦小麟,刘亮,王涛春
2015, 52(2):  377-390.  doi:10.7544/issn1000-1239.2015.20140126
摘要 ( 1304 )   HTML ( 0)   PDF (5721KB) ( 1085 )  
相关文章 | 计量指标
集群的能量消耗已经超过了其本身的硬件购置费用,而大数据处理需要大规模的集群耗费大量时间,因此如何进行能量高效的大数据处理是数据拥有者和使用者亟待解决的问题,也是对能源和环境的一个巨大挑战.现有的研究一般通过关闭部分节点以减少能量消耗,或者设计新的数据存储策略以便实施能量高效的数据处理.通过分析发现即便使用最少的节点也存在很大的能源浪费,而新的数据存储策略对于已经部署好的集群会造成大规模的数据迁移,消耗额外的能量.针对异构集群下I/O密集型的大数据处理任务,提出一种新的能量高效算法MinBalance,将问题分为节点选择和负载均衡两个步骤.在节点选择阶段采用4种不同的贪心策略,充分考虑到节点的异构性,尽量选择最合适的节点进行任务处理;在负载均衡阶段对选择的节点进行负载均衡,以减少各个节点因为等待而造成的能量浪费.该方法具有通用性,不受数据存储策略的影响.实验表明MinBalance方法在数据集较大的情况下相对于传统关闭部分节点的方法可以减少超过60%的能量消耗.
综述
大规模图数据匹配技术综述
于静,刘燕兵,张宇,刘梦雅,谭建龙,郭莉
2015, 52(2):  391-409.  doi:10.7544/issn1000-1239.2015.20140188
摘要 ( 2860 )   HTML ( 3)   PDF (4874KB) ( 2510 )  
相关文章 | 计量指标
在大数据时代海量的多源异构数据间存在着紧密的关联性,图作为表示数据之间关系的基本结构在社交网络分析、社会安全分析、生物数据分析等领域有着广泛应用.在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题.从应用角度对用于图查询的图数据匹配技术的研究进展进行综述,根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍.同时,将重点介绍精确图匹配,包括无索引的匹配和基于索引的匹配,以及相关的关键技术、主要算法、性能评价等进行了介绍、测试和分析.最后对图匹配技术的应用现状和面临的问题进行了总结,并对该技术的未来发展趋势进行了展望.
符号社会网络中正负关系预测算法研究综述
蓝梦微,李翠平,王绍卿,赵衎衎,林志侠,邹本友,陈红
2015, 52(2):  410-422.  doi:10.7544/issn1000-1239.2015.20140210
摘要 ( 1839 )   HTML ( 2)   PDF (2032KB) ( 1259 )  
相关文章 | 计量指标
一些网络中的边根据其潜在涵义可分为正关系和负关系,若用正号和负号来标记网络中的边,则形成一个符号网络.符号网络的应用场景非常丰富,在社会学、信息学、生物学等多个领域广泛存在,逐渐成为当前研究的热点之一.对符号社会网络中链接的正负预测问题进行研究,其成果对社会网络的个性化推荐、网络中异常节点的识别、用户聚类等都具有非常重要的应用价值.主要介绍符号社会网络中正负关系预测问题在国内外的研究现状和最新进展.首先介绍了社会结构平衡理论和地位理论,并将目前主要的预测算法按照设计思路分成两类:基于矩阵的符号预测算法和基于分类的符号预测算法,详细介绍各类算法的基本思路,并从算法效率、准确性和可伸缩性等角度进行详细的对比和分析,总结了符号社会网络预测问题具有的一些特点以及所面临的挑战,同时指出未来可能的发展方向,为相关研究人员提供有价值的参考.
软件技术
基于低秩和稀疏矩阵分解的多源融合链接预测算法
刘冶,朱蔚恒,潘炎,印鉴
2015, 52(2):  423-436.  doi:10.7544/issn1000-1239.2015.20140221
摘要 ( 1276 )   HTML ( 1)   PDF (1785KB) ( 1062 )  
相关文章 | 计量指标
近年来,链接预测成为社会网络和其他复杂网络链接挖掘中的热门研究领域.在链接预测问题中,经常会存在用来提高预测效果的附加数据信息源,这些数据可以用于预测网络中的链接是否存在.在所有的数据源中,最主要的数据源在链接预测中起到最重要的作用.因此,设计具备健壮性的算法用于充分利用所有数据源的信息来进行链接预测十分重要,算法还需要平衡主数据源和附加数据源的关系,使得链接预测能够获得更好的效果.同时,传统基于拓扑结构计算的无监督算法大多数通过计算网络中节点间的评分值来解决预测链接存在可能性的问题,这些方法能够获得有效的结果.在链接预测方法中,最关键的一步是构建准确的输入矩阵数据.由于许多真实世界数据集存在噪声,这导致降低了大多数链接预测模型的效果.提出了一种新的链接预测方法,通过多个数据源的融合,兼顾地利用了主数据源的信息和其他附加数据源的信息.接着,主数据源和其他附加数据源被用于构建一个低噪声且更准确的矩阵,而新的矩阵被用于作为传统无监督拓扑链接预测算法的输入.根据在多个真实世界数据上的测试结果,在多源数据集上进行对比实验,提出的基于低秩和稀疏矩阵分解的多源融合链接预测算法相对于基准算法能够获得更好的效果.
信息处理
基于微博的事件传播分析
朱湘,贾焰,聂原平,曲铭
2015, 52(2):  437-444.  doi:10.7544/issn1000-1239.2015.20140187
摘要 ( 1343 )   HTML ( 5)   PDF (2184KB) ( 1249 )  
相关文章 | 计量指标
事件的传播分析是社交网络分析中一个重要的研究点.网络热点事件的爆发通过社交网络迅速传播,从而在短时间内造成很大的影响.而在社交网络中制造舆论热点进行传播的代价相对于传统媒介较低,因此很容易被不法分子利用,对社会安全以及人们财产造成损失.传统的影响传播分析仅能对单条博文进行影响传播分析,这使社交网络中的事件传播分析受到限制.在已有的独立级联模型的基础上,提出了一种结合用户去重、垃圾用户滤除和概率阅读的传播模型,其基本思想是对多条热点博文构成的事件进行用户去重,构建事件传播网络拓扑图,然后对其中的垃圾用户节点进行滤除,最后利用概率阅读模型进行影响传播分析.这为事件传播分析提供了思路.通过一系列实验来验证方法及模型,通过与传统的博文分析进行对比,验证了方法的正确性与有效性.
人工智能
不产生候选项集的TOP-K高效用模式挖掘算法
王乐,冯林,王水
2015, 52(2):  445-455.  doi:10.7544/issn1000-1239.2015.20131184
摘要 ( 984 )   HTML ( 0)   PDF (5922KB) ( 837 )  
相关文章 | 计量指标
目前TOP-K高效用模式挖掘算法需要产生候选项集,特别是当数据集比较大或者数据集中包含较多长事务项集时,算法的时间和空间效率会受到更大的影响.针对此问题,通过将事务项集和项集效用信息有效地保存到树结构HUP-Tree,给出一个不需要候选项集的挖掘算法TOPKHUP;HUP-Tree树能保证从中计算到每个模式的效用值,不需要再扫描数据集来计算模式的效用值,从而使挖掘算法的时空效率得到较大的提高.采用7个典型数据集对算法的性能进行测试,实验结果证明TOPKHUP的时间和空间效率都优于已有算法,并对K值的变化保持平稳.
信息处理
基于开放网络知识的信息检索与数据挖掘
王元卓,贾岩涛,刘大伟,靳小龙,程学旗
2015, 52(2):  456-474.  doi:10.7544/issn1000-1239.2015.20131342
摘要 ( 1892 )   HTML ( 12)   PDF (3434KB) ( 2382 )  
相关文章 | 计量指标
网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望.
一种播存网络环境下的UCL协同过滤推荐方法
顾梁,杨鹏,罗军舟
2015, 52(2):  475-486.  doi:10.7544/issn1000-1239.2015.20131418
摘要 ( 905 )   HTML ( 0)   PDF (3901KB) ( 726 )  
相关文章 | 计量指标
信息资源在分发共享过程中存在带宽拥塞、内容冗余等问题,播存网络借助“一点对无限点”的物理广播分发共享信息资源,对解决此类问题有独特优势.播存网络采用统一内容标签(uniform content label, UCL)适配用户兴趣和推荐信息资源,用户如何高效地获得自己感兴趣的UCL是播存网络中的关键问题.针对该问题,提出一种播存网络环境下的UCL协同过滤推荐方法(unifying collaborative filtering with popularity and timing, UCF-PT).首先,通过设定一对相似度阈值来计算用户与UCL数据的稀疏情况,根据稀疏情况决定二者对UCL评分的影响权值,并基于二者权值预测用户对UCL的评分,生成推荐结果集.其次,依据UCL热度调整推荐结果集的UCL顺序,从而使热门UCL更容易推荐给用户;最后提出UCL价值衰减函数,保证较新的UCL具备较高的推荐优先级.实验结果表明:与传统推荐方法相比,该方法不仅具有良好的推荐精度,还可保证所推荐UCL的热度与时效性,更适用于在播存网络环境下推荐UCL.
多社区网络上的命名博弈
郭东伟,孟翔燕,刘淼,侯彩芳
2015, 52(2):  487-498.  doi:10.7544/issn1000-1239.2015.20131465
摘要 ( 752 )   HTML ( 0)   PDF (6864KB) ( 673 )  
相关文章 | 计量指标
为了模仿人类对新物体认知和命名的过程,提出了一种新型的命名博弈模型,它通过词汇的权重表示个体的认知程度,低权重词汇被删除模拟个体有限记忆的过程.实验发现,在单社区网络上,所有个体的词汇最终能够统一,通过总词汇数、不同词汇数和平均协议成功率的分析解释了新个体命名的演化过程.衰减因子和删除阈值的取值对于演化速度影响较大,当它们之间存在线性关系时演化收敛较快.通过将该模型应用到多社区网络模型上,发现收敛词汇数可能不唯一,会与社区数相同,且收敛词汇数的稳定性与网络社区化强度和社区内节点的平均度有关,而与社区内节点数无关.最后,使用微分动力学的方法对这种情况进行了定量分析.
基于随机游走的语义重叠社区发现算法
辛宇,杨静,谢志强
2015, 52(2):  499-511.  doi:10.7544/issn1000-1239.2015.20131246
摘要 ( 1213 )   HTML ( 2)   PDF (5948KB) ( 1321 )  
相关文章 | 计量指标
语义社会网络是由信息节点及社会关系构成的一类新型复杂网络,因此语义社会网络重叠社区发现是传统社区发现研究的新方向.针对这一问题,提出基于随机游走的语义社会网络重叠社区发现算法,该算法首先以LDA(latent Dirichlet allocation)算法为基础建立语义空间,实现节点语义信息到语义空间的量化映射;其次,以语义空间中节点信息熵作为节点语义信息比重,以节点的度分布比率作为节点关系比重,建立节点语义影响力模型及语义社会网络的加权邻接矩阵;再次,以语义影响力模型和加权邻接矩阵为参数,提出一种改进的语义社会网络重叠社区发现的随机游走策略,并提出可度量语义社区发现结果的语义模块度模型;最后,通过实验分析,验证了所提出的算法及语义模块度模型的有效性和可行性.
面向大规模微博消息流的突发话题检测
申国伟,杨武,王巍,于淼
2015, 52(2):  512-521.  doi:10.7544/issn1000-1239.2015.20131336
摘要 ( 956 )   HTML ( 8)   PDF (4216KB) ( 1225 )  
相关文章 | 计量指标
突发事件在微博中迅速传播,产生巨大的影响力,因此,突发舆情受到政府、企业的广泛关注.现有的突发话题检测算法只考虑单一的特征实体,无法处理微博中新词、图片、链接等诱导的突发.面向大规模微博消息流,提出一种无需中文分词的实时突发话题检测框架模型.模型依据消息流动态调整窗口大小,并通过传播影响力度量实体的突发权值.采用高阶联合聚类算法同时对实体、消息、用户进行聚类分析,在检测突发话题的同时,得到话题的关联消息及参与用户.对比实验结果表明,算法的准确性高,能够更早地检测到突发话题.
微博用户特征量增长规律研究
苑卫国,刘云
2015, 52(2):  522-532.  doi:10.7544/issn1000-1239.2015.20131273
摘要 ( 914 )   HTML ( 2)   PDF (5397KB) ( 1041 )  
相关文章 | 计量指标
根据抓取到的新浪微博实际用户数据,分析了粉丝数、关注数和微博数3个特征量的增长模式,发现这3个特征量整体上都随时间线性增长,取整后的增长率服从幂律分布.用户特征量增长模式主要呈持续增长和爆发式增长,其中爆发式增长用户按增长的不同阶段又可以划分为前期、中期、后期和阶跃式4种增长模式.使用基于向量余弦距离相似性的K-means聚类算法,对不同排序和不同初始规模实际用户特征量的时间序列进行聚类分析,统计得到不同增长模式的用户数量.发现用户特征量中增速高的用户增长主要以爆发式增长为主,而规模高的用户增长以持续式增长为主.通过对用户粉丝数爆发式增长的过程分析,对比用户微博被转发和被评论二者的增长关系,提出了导致用户粉丝数爆发式增长的原因.
基于信息偏好的影响最大化算法研究
郭景峰,吕加国
2015, 52(2):  533-541.  doi:10.7544/issn1000-1239.2015.20131311
摘要 ( 1038 )   HTML ( 0)   PDF (1414KB) ( 870 )  
相关文章 | 计量指标
实证研究表明,社会个体对于不同主题的信息有着不同的偏好,这对于社会网络中的信息传播过程起着非常重要的作用.影响最大化是社会网络信息传播领域中关于影响结点集挖掘的热点课题.它会从社会网络中寻找最具影响力的结点子集,以这些结点为目标进行影响传播时会获得最大的影响范围.以前关于影响最大化算法研究的大部分工作没有考虑社会个体的信息偏好,这大大降低了结果的准确性.为了提高影响最大化算法的效率和种子集的影响范围,提出一种基于信息偏好的2阶段启发式影响结点挖掘策略L_GAUP:第1阶段,基于网络中各结点对于信息主题的偏好程度,得到易感染结点网络;第2阶段,在易感染网络中,基于贪心策略进行影响结点的挖掘.实验中,在数据集douban上实现了L_GAUP,GAUP和CELF算法.实验结果表明,与基准算法GAUP相比,L_GAUP不仅在影响范围指标ISST和IS上有着更好的表现,在效率上也有大幅度的提高.
综述
情境计算研究综述
李伟平,王武生,莫同,张志超,褚伟杰,吴中海
2015, 52(2):  542-552.  doi:10.7544/issn1000-1239.2015.20131266
摘要 ( 2351 )   HTML ( 3)   PDF (1652KB) ( 2150 )  
相关文章 | 计量指标
作为一种新的计算模式,情境计算得到了学术界和产业界越来越多的关注.随着物联网、云计算、大数据、社会计算等相关技术的不断发展成熟,情境计算进入了快速发展阶段.情境计算是一种通过对获取到的情境信息进行处理、从而得出用户所需服务并主动向用户提供相应情境感知服务的计算模式.这一新的计算模式为使用者的工作、生活带来了舒适和便利.对情境计算的诞生背景进行阐述,介绍情境、情境计算、情境感知、情境感知系统和情境感知服务等关键概念,总结情境数据获取、情境模型与建模、情境推理、主动服务提供、情境感知中间件和安全与隐私等重要研究内容以及其中使用到的关键技术,最后依托情境计算的一般性架构分析得出情境计算的未来发展挑战.