• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种基于大规模知识库的语义相似性计算方法

张立波, 孙一涵, 罗铁坚

张立波, 孙一涵, 罗铁坚. 一种基于大规模知识库的语义相似性计算方法[J]. 计算机研究与发展, 2017, 54(11): 2576-2585. DOI: 10.7544/issn1000-1239.2017.20160578
引用本文: 张立波, 孙一涵, 罗铁坚. 一种基于大规模知识库的语义相似性计算方法[J]. 计算机研究与发展, 2017, 54(11): 2576-2585. DOI: 10.7544/issn1000-1239.2017.20160578
Zhang Libo, Sun Yihan, Luo Tiejian. Calculate Semantic Similarity Based on Large Scale Knowledge Repository[J]. Journal of Computer Research and Development, 2017, 54(11): 2576-2585. DOI: 10.7544/issn1000-1239.2017.20160578
Citation: Zhang Libo, Sun Yihan, Luo Tiejian. Calculate Semantic Similarity Based on Large Scale Knowledge Repository[J]. Journal of Computer Research and Development, 2017, 54(11): 2576-2585. DOI: 10.7544/issn1000-1239.2017.20160578
张立波, 孙一涵, 罗铁坚. 一种基于大规模知识库的语义相似性计算方法[J]. 计算机研究与发展, 2017, 54(11): 2576-2585. CSTR: 32373.14.issn1000-1239.2017.20160578
引用本文: 张立波, 孙一涵, 罗铁坚. 一种基于大规模知识库的语义相似性计算方法[J]. 计算机研究与发展, 2017, 54(11): 2576-2585. CSTR: 32373.14.issn1000-1239.2017.20160578
Zhang Libo, Sun Yihan, Luo Tiejian. Calculate Semantic Similarity Based on Large Scale Knowledge Repository[J]. Journal of Computer Research and Development, 2017, 54(11): 2576-2585. CSTR: 32373.14.issn1000-1239.2017.20160578
Citation: Zhang Libo, Sun Yihan, Luo Tiejian. Calculate Semantic Similarity Based on Large Scale Knowledge Repository[J]. Journal of Computer Research and Development, 2017, 54(11): 2576-2585. CSTR: 32373.14.issn1000-1239.2017.20160578

一种基于大规模知识库的语义相似性计算方法

基金项目: 中国科学院系统优化基金项目(Y42901VED2,Y42901VEB1,Y42901VEB2)
详细信息
  • 中图分类号: TP391

Calculate Semantic Similarity Based on Large Scale Knowledge Repository

  • 摘要: 人类知识总量不断增加,依靠人类产生的结构化大数据进行语义分析在推荐系统和信息检索等领域都有着重要的应用.在这些领域中,首要解决的问题是语义相似性计算,之前的研究通过运用以维基百科为代表的大规模知识库取得了一定突破,但是其中的路径并没有被充分利用.研究基于人类思考方式的双向最短路径算法进行单词和文本的相似性评估,以充分利用知识库中的路径信息.提出的算法通过在维基百科中抽取出颗粒度比词条更细密的节点之间的超链接关系,并首次验证了维基百科之间的普遍连通性,并对2个词条之间的平均最短路径长度进行评估.最后,在公开数据集上进行的实验结果显示,算法在单词相似度得分上明显优于现有算法,在文本相似度的得分上趋于先进水平.
    Abstract: With the continuous growth of the total of human knowledge, semantic analysis on the basis of the structured big data generated by human is becoming more and more important in the application of the fields such as recommended system and information retrieval. It is a key problem to calculate semantic similarity in these fields. Previous studies acquired certain breakthrough by applying large scale knowledge repository, which was represented by Wikipedia, but the path in Wikipedia didn't be fully utilized. In this paper, we summarize and analyze the previous algorithms for evaluating semantic similarity based on Wikipedia. On this foundation, a bilateral shortest paths algorithm is provided, which can evaluate the similarity between words and texts on the basis of the way human beings think, so that it can take full advantage of the path information in the knowledge repository. We extract the hyperlink structure among nodes, whose granularity is finer than that of articles form Wikipedia, then verify the universal connectivity among Wikipedia and evaluate the average shortest path between any two articles. Besides, the presented algorithm evaluates word similarity and text similarity based on the public dataset respectively, and the result indicates the great effect obtained from our algorithm. In the end of the paper, the advantages and disadvantages of proposed algorithm are summed up, and the way to improve follow-up study is proposed.
  • 期刊类型引用(19)

    1. 包晓丽. 可信数据空间:技术与制度二元共治. 浙江学刊. 2024(01): 89-100+239-240 . 百度学术
    2. 林宁,张亮. 基于联邦学习的个性化推荐系统研究. 科技创新与生产力. 2024(04): 27-30 . 百度学术
    3. 李璇,邓天鹏,熊金波,金彪,林劼. 基于模型后门的联邦学习水印. 软件学报. 2024(07): 3454-3468 . 百度学术
    4. 洪榛,冯王磊,温震宇,吴迪,李涛涛,伍一鸣,王聪,纪守领. 基于梯度回溯的联邦学习搭便车攻击检测. 计算机研究与发展. 2024(09): 2185-2198 . 本站查看
    5. 陈卡. 基于模型分割的联邦学习数据隐私保护方法. 电信科学. 2024(09): 136-145 . 百度学术
    6. 余晟兴,陈钟. 基于同态加密的高效安全联邦学习聚合框架. 通信学报. 2023(01): 14-28 . 百度学术
    7. 林莉,张笑盈,沈薇,王万祥. FastProtector:一种支持梯度隐私保护的高效联邦学习方法. 电子与信息学报. 2023(04): 1356-1365 . 百度学术
    8. 顾育豪,白跃彬. 联邦学习模型安全与隐私研究进展. 软件学报. 2023(06): 2833-2864 . 百度学术
    9. 郭松岳,王阳谦,柏思远,刘永恒,周骏,王梦鸽,廖清. 面向数据混合分布的联邦自适应交互模型. 计算机研究与发展. 2023(06): 1346-1357 . 本站查看
    10. 陈宛桢,张恩,秦磊勇,洪双喜. 边缘计算下基于区块链的隐私保护联邦学习算法. 计算机应用. 2023(07): 2209-2216 . 百度学术
    11. 高莹,陈晓峰,张一余,王玮,邓煌昊,段培,陈培炫. 联邦学习系统攻击与防御技术研究综述. 计算机学报. 2023(09): 1781-1805 . 百度学术
    12. 张连福,谭作文. 一种面向多模态医疗数据的联邦学习隐私保护方法. 计算机科学. 2023(S2): 933-940 . 百度学术
    13. 周赞,张笑燕,杨树杰,李鸿婧,况晓辉,叶何亮,许长桥. 面向联邦算力网络的隐私计算自适激励机制. 计算机学报. 2023(12): 2705-2725 . 百度学术
    14. 莫慧凌,郑海峰,高敏,冯心欣. 基于联邦学习的多源异构数据融合算法. 计算机研究与发展. 2022(02): 478-487 . 本站查看
    15. 陈前昕,毕仁万,林劼,金彪,熊金波. 支持多数不规则用户的隐私保护联邦学习框架. 网络与信息安全学报. 2022(01): 139-150 . 百度学术
    16. 侯坤池,王楠,张可佳,宋蕾,袁琪,苗凤娟. 基于自编码神经网络的半监督联邦学习模型. 计算机应用研究. 2022(04): 1071-1074+1104 . 百度学术
    17. 詹玉峰,王家盛,夏元清. 面向联邦学习的数据交易机制. 指挥与控制学报. 2022(02): 122-132 . 百度学术
    18. 肖林声,钱慎一. 基于并行同态加密和STC的高效安全联邦学习. 通信技术. 2021(04): 922-928 . 百度学术
    19. 刘飚,张方佼,王文鑫,谢康,张健毅. 基于矩阵映射的拜占庭鲁棒联邦学习算法. 计算机研究与发展. 2021(11): 2416-2429 . 本站查看

    其他类型引用(45)

计量
  • 文章访问数:  1288
  • HTML全文浏览量:  3
  • PDF下载量:  752
  • 被引次数: 64
出版历程
  • 发布日期:  2017-10-31

目录

    /

    返回文章
    返回