• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于因子图的不一致记录对消歧方法

徐耀丽, 李战怀, 陈群, 王艳艳, 樊峰峰

徐耀丽, 李战怀, 陈群, 王艳艳, 樊峰峰. 基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展, 2020, 57(1): 175-187. DOI: 10.7544/issn1000-1239.2020.20180691
引用本文: 徐耀丽, 李战怀, 陈群, 王艳艳, 樊峰峰. 基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展, 2020, 57(1): 175-187. DOI: 10.7544/issn1000-1239.2020.20180691
Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng. An Approach for Reconciling Inconsistent Pairs Based on Factor Graph[J]. Journal of Computer Research and Development, 2020, 57(1): 175-187. DOI: 10.7544/issn1000-1239.2020.20180691
Citation: Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng. An Approach for Reconciling Inconsistent Pairs Based on Factor Graph[J]. Journal of Computer Research and Development, 2020, 57(1): 175-187. DOI: 10.7544/issn1000-1239.2020.20180691
徐耀丽, 李战怀, 陈群, 王艳艳, 樊峰峰. 基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展, 2020, 57(1): 175-187. CSTR: 32373.14.issn1000-1239.2020.20180691
引用本文: 徐耀丽, 李战怀, 陈群, 王艳艳, 樊峰峰. 基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展, 2020, 57(1): 175-187. CSTR: 32373.14.issn1000-1239.2020.20180691
Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng. An Approach for Reconciling Inconsistent Pairs Based on Factor Graph[J]. Journal of Computer Research and Development, 2020, 57(1): 175-187. CSTR: 32373.14.issn1000-1239.2020.20180691
Citation: Xu Yaoli, Li Zhanhuai, Chen Qun, Wang Yanyan, Fan Fengfeng. An Approach for Reconciling Inconsistent Pairs Based on Factor Graph[J]. Journal of Computer Research and Development, 2020, 57(1): 175-187. CSTR: 32373.14.issn1000-1239.2020.20180691

基于因子图的不一致记录对消歧方法

基金项目: 国家重点研发计划项目(2018YFB1003403);国家自然科学基金项目(61732014,61672432);陕西省自然科学基础研究计划项目(2018JM6086)
详细信息
  • 中图分类号: TP391

An Approach for Reconciling Inconsistent Pairs Based on Factor Graph

Funds: This work was supported by the National Key Research and Development Program (2018YFB1003403), the National Natural Science Foundation of China (61732014,61672432), and the Natural Science Basic Research Plan in Shaanxi Province of China (2018JM6086).
  • 摘要: 实体解析(entity resolution, ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法.
    Abstract: Entity resolution (ER) is a critical and fundamental problem in data integration and data cleaning systems. Although there have been numerous methods proposed for entity resolution, those approaches explicitly or implicitly depend on ad-hoc assumptions or employ different strategies. Given an ER task, there exist many inconsistent pairs due to conflicting results resolved by these approaches. It is of great challenges of reconciling these pairs without any labeled data: 1)without labeled data, it is impractical to estimate the performance of existing approaches and pick out the best; 2)although an optional way is to reconcile these conflicting results for a better and consistent labeling solution, an effective reconciliation mechanism for combining all hints remains to be investigated. To this end, an approach for reconciling inconsistent pairs based on factor graph is proposed. It firstly achieves inconsistent and consistent pairs through conducting existing entity resolution approaches for a given ER task. Secondly, the features that can indicate the matching status of inconsistent pairs, are extracted by leveraging techniques like kernel density estimation and matching information transfer and so on. Then these features are modeled as factor functions of the factor graph, which represents a joint probability distribution with factor weights. Finally, the weight of each factor is estimated based on the maximum likelihood estimation, and the inconsistent pairs are reconciled according to the distribution represented by the factor graph. Experimental results on real-world datasets show our method is effective and can outperform the state-of-the-art approach.
  • 期刊类型引用(11)

    1. 徐宁,李静秋,王岚君,刘安安. 时序特性引导下的谣言事件检测方法评测. 南京大学学报(自然科学). 2025(01): 71-82 . 百度学术
    2. 关昌珊,邴万龙,刘雅辉,顾鹏飞,马洪亮. 基于图卷积网络的多特征融合谣言检测方法. 郑州大学学报(工学版). 2024(04): 70-78 . 百度学术
    3. 帅训波,冯梅,李青,董之光,张文博. 文本信息检索质量评估技术发展趋势及展望. 网络新媒体技术. 2024(04): 1-7+25 . 百度学术
    4. 王友卫,王炜琦,凤丽洲,朱建明,李洋. 基于广度-深度采样和图卷积网络的谣言检测方法. 浙江大学学报(工学版). 2024(10): 2040-2052 . 百度学术
    5. 陈鑫,荣欢,郭尚斌,杨彬. 用于谣言检测的图卷积时空注意力融合与图重构方法. 计算机科学. 2024(11): 54-64 . 百度学术
    6. 丁浩,刘清,齐江蕾,胡广伟. 基于网络突发公共卫生事件早期谣言识别研究——以新冠疫情谣言为例. 情报科学. 2023(04): 156-163 . 百度学术
    7. 吴越,温欣,袁雪. ParallelGAT:网络谣言检测方法. 情报杂志. 2023(05): 94-101+93 . 百度学术
    8. 曹健,陈怡梅,李海生,蔡强. 基于图神经网络的行人轨迹预测研究综述. 计算机工程与科学. 2023(06): 1040-1053 . 百度学术
    9. 王友卫,凤丽洲,王炜琦,侯玉栋. 基于事件-词语-特征异质图的微博谣言检测新方法. 中文信息学报. 2023(09): 161-174 . 百度学术
    10. 王莉. 网络虚假信息检测技术研究与展望. 太原理工大学学报. 2022(03): 397-404 . 百度学术
    11. 王友卫,童爽,凤丽洲,朱建明,李洋,陈福. 基于图卷积网络的归纳式微博谣言检测新方法. 浙江大学学报(工学版). 2022(05): 956-966 . 百度学术

    其他类型引用(16)

计量
  • 文章访问数:  889
  • HTML全文浏览量:  0
  • PDF下载量:  160
  • 被引次数: 27
出版历程
  • 发布日期:  2019-12-31

目录

    /

    返回文章
    返回