计算机研究与发展 ›› 2015, Vol. 52 ›› Issue (2): 295-308.doi: 10.7544/issn1000-1239.2015.20140224
所属专题: 2015大数据管理
余伟1,李石君1,杨莎1,2,胡亚慧1,3,刘晶1,丁永刚1,王骞1
Yu Wei1,Li Shijun1,Yang Sha1,2, Hu Yahui1,3,Liu Jing1, Ding Yonggang1, Wang Qian1
摘要: Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.
中图分类号: