• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

大数据环境下的电子商务商品实体同一性识别

胡亚慧, 李石君, 余伟, 杨莎, 甘琳, 王凯, 方其庆

胡亚慧, 李石君, 余伟, 杨莎, 甘琳, 王凯, 方其庆. 大数据环境下的电子商务商品实体同一性识别[J]. 计算机研究与发展, 2015, 52(8): 1794-1805. DOI: 10.7544/issn1000-1239.2015.20150252
引用本文: 胡亚慧, 李石君, 余伟, 杨莎, 甘琳, 王凯, 方其庆. 大数据环境下的电子商务商品实体同一性识别[J]. 计算机研究与发展, 2015, 52(8): 1794-1805. DOI: 10.7544/issn1000-1239.2015.20150252
Hu Yahui, Li Shijun, Yu Wei, Yang Sha, Gan Lin, Wang Kai, Fang Qiqing. Recognizing the Same Commodity Entities in Big Data[J]. Journal of Computer Research and Development, 2015, 52(8): 1794-1805. DOI: 10.7544/issn1000-1239.2015.20150252
Citation: Hu Yahui, Li Shijun, Yu Wei, Yang Sha, Gan Lin, Wang Kai, Fang Qiqing. Recognizing the Same Commodity Entities in Big Data[J]. Journal of Computer Research and Development, 2015, 52(8): 1794-1805. DOI: 10.7544/issn1000-1239.2015.20150252
胡亚慧, 李石君, 余伟, 杨莎, 甘琳, 王凯, 方其庆. 大数据环境下的电子商务商品实体同一性识别[J]. 计算机研究与发展, 2015, 52(8): 1794-1805. CSTR: 32373.14.issn1000-1239.2015.20150252
引用本文: 胡亚慧, 李石君, 余伟, 杨莎, 甘琳, 王凯, 方其庆. 大数据环境下的电子商务商品实体同一性识别[J]. 计算机研究与发展, 2015, 52(8): 1794-1805. CSTR: 32373.14.issn1000-1239.2015.20150252
Hu Yahui, Li Shijun, Yu Wei, Yang Sha, Gan Lin, Wang Kai, Fang Qiqing. Recognizing the Same Commodity Entities in Big Data[J]. Journal of Computer Research and Development, 2015, 52(8): 1794-1805. CSTR: 32373.14.issn1000-1239.2015.20150252
Citation: Hu Yahui, Li Shijun, Yu Wei, Yang Sha, Gan Lin, Wang Kai, Fang Qiqing. Recognizing the Same Commodity Entities in Big Data[J]. Journal of Computer Research and Development, 2015, 52(8): 1794-1805. CSTR: 32373.14.issn1000-1239.2015.20150252

大数据环境下的电子商务商品实体同一性识别

基金项目: 国家自然科学基金项目(61272109);中央高校基本科研业务费专项资金项目(2042014KF0057);湖北省自然科学基金项目(2014CFB289);空军预警学院青年创新基金项目(2013ZDJC0101)
详细信息
  • 中图分类号: TP391

Recognizing the Same Commodity Entities in Big Data

  • 摘要: 怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性/值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
    Abstract: The recent blossom of big data and e-commerce has revolutionized our life by providing everyone with the ease and fun never before. How to identify the same commodity entities from these multi-source heterogeneous, fragmented, various and inconsistent e-commerce data for better business intelligence raises a very valuable and challenging topic. In this light, we analyze the characteristics of Web big data and collect the crawled original commodity information data from the different e-commerce platforms, which are the multi-source heterogeneous and mass scales of data. Then, we build an index model based on commodity’s attributes and values, and construct a global model map to record the commodity’s attribute and value, and form the unified model and high efficient commodity information for the next step. And we measure the similarity of the commodity’s identity on the multilayer hierarchical probabilistic model, including identifying the possible candidate commodity set, similarity filtering the candidate commodity set and similarity filtering based on the special items of candidate commodities set. Finally, we output the same commodity set in the inverted index list. We also evaluate our method on the datasets collected from Chinese three main-stream B2C e-commerce platforms with Hadoop framework. Experimental results show the accuracy and effectiveness of our method.
  • 期刊类型引用(19)

    1. 董胡,陈伟,彭高丰,陈耀东,刘刚. 基于信号子空间和DNN的语音增强方法. 微型电脑应用. 2025(01): 32-34+38 . 百度学术
    2. 李世其,周雨玫,郑旋烨,刘裔斌. 复杂噪声环境下服务机器人语音增强算法研究. 传感器与微系统. 2025(04): 35-39 . 百度学术
    3. 王向辉,李梅,田旭华,王姣,谭歆,路东东. 短时傅里叶变换域最优非因果滤波器和滤波矩阵降噪算法. 陕西科技大学学报. 2024(02): 164-173+197 . 百度学术
    4. 尤昕源,王恒. 基于门控膨胀卷积循环网络的单声道语音增强. 计算机应用. 2024(04): 1317-1324 . 百度学术
    5. 莫尚斌,王文君,董凌,高盛祥,余正涛. 基于多路信息聚合协同解码的单通道语音增强. 计算机应用. 2024(08): 2611-2617 . 百度学术
    6. 缪悦. 时频域变换技术在语音降噪中的应用. 电声技术. 2024(12): 92-94+100 . 百度学术
    7. 李鑫元,黄鹤鸣. 基于并行卷积循环网络的单通道语音增强系统. 计算机工程与设计. 2023(04): 1181-1188 . 百度学术
    8. 文丽萍. 噪声环境下基于小波变换的普通话智能测试系统设计. 自动化与仪器仪表. 2023(05): 153-157 . 百度学术
    9. 刘汾港,马建芬,张朝霞. 基于离散余弦变换与Transformer的语音增强. 计算机工程与设计. 2023(06): 1893-1898 . 百度学术
    10. 徐浩森,姜囡,齐志坤. 基于注意力机制的卷积循环网络语音降噪. 科学技术与工程. 2022(05): 1950-1957 . 百度学术
    11. 李小平,白超. 一种基于多模态信息融合的火车司机疲劳驾驶检测方法. 铁道学报. 2022(06): 56-65 . 百度学术
    12. 胡勉宁,李欣,李明锋,孙海春. 面向诈骗短信息识别的融合多策略数据增强技术研究. 信息网络安全. 2022(10): 121-128 . 百度学术
    13. 孙立辉,曹丽静,张竟雄. 基于升降编解码全卷积神经网络语音增强技术. 智能计算机与应用. 2021(02): 19-22 . 百度学术
    14. 刘元,匡文凯,苏盛,李彬. 基于双通道能量差的环网柜局放信号消噪方法. 仪器仪表学报. 2021(02): 218-227 . 百度学术
    15. 台文鑫,王钇翔,李森,蓝天,刘峤. 基于动态选择机制的低信噪比单声道语音增强算法. 计算机应用研究. 2021(09): 2604-2608 . 百度学术
    16. 祁晓,赵连玉. 基于多频带谱减法的老年人语音增强算法的研究. 电声技术. 2020(05): 34-37 . 百度学术
    17. 梁力,莫晓毅,柯华强. 基于语音识别技术的测试平台研究. 科技视界. 2020(31): 17-18 . 百度学术
    18. 曹洁,周尧风,于泓,李晓旭. 基于SI-SDR优化的生成对抗网络语音增强方法. 华中科技大学学报(自然科学版). 2020(11): 17-23 . 百度学术
    19. 许春冬,徐琅,周滨,凌贤鹏. 单通道语音增强技术的研究现状与发展趋势. 江西理工大学学报. 2020(05): 55-64 . 百度学术

    其他类型引用(43)

计量
  • 文章访问数:  1622
  • HTML全文浏览量:  13
  • PDF下载量:  1178
  • 被引次数: 62
出版历程
  • 发布日期:  2015-07-31

目录

    /

    返回文章
    返回