计算机研究与发展 ›› 2015, Vol. 52 ›› Issue (8): 1794-1805.doi: 10.7544/issn1000-1239.2015.20150252
所属专题: 2015面向大数据的人工智能技术
胡亚慧1,2,李石君1,余伟1,杨莎1,3,甘琳1,王凯1,方其庆2
Hu Yahui1,2,Li Shijun1,Yu Wei1,Yang Sha1,3,Gan Lin1,Wang Kai1,Fang Qiqing2
摘要: 怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性/值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
中图分类号: