ISSN 1000-1239 CN 11-1777/TP

    2016数据融合与知识融合专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 知识表示学习研究进展
    刘知远,孙茂松,林衍凯,谢若冰
    计算机研究与发展    2016, 53 (2): 247-261.   doi: 10.7544/issn1000-1239.2016.20160020
    摘要10124)   HTML112)    PDF (3333KB)(15824)   
    人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系.在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的困扰.最近,以深度学习为代表的表示学习技术受到广泛关注.表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习.该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升.介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景.
    相关文章 | 计量指标
    被引次数: Baidu(75)
    2. 大数据融合研究:问题与挑战
    孟小峰,杜治娟
    计算机研究与发展    2016, 53 (2): 231-246.   doi: 10.7544/issn1000-1239.2016.20150874
    摘要3554)   HTML28)    PDF (3467KB)(3011)   
    随着大规模数据的关联和交叉,数据特征和现实需求都发生了变化.以大规模、多源异构、跨领域、跨媒体、跨语言、动态演化、普适化为主要特征的数据发挥着更重要的作用,相应的数据存储、分析和理解也面临着重大挑战.当下亟待解决的问题是如何利用数据的关联、交叉和融合实现大数据的价值最大化.认为解决这一问题的关键在于数据的融合,所以提出了大数据融合的概念.首先以Web数据、科学数据和商业数据的融合作为案例分析了大数据融合的需求和必要性,并提出了大数据融合的新任务;然后,总结分析了现有融合技术;最后针对大数据融合问题可能面临的挑战和大数据融合带来的问题进行了分析.
    相关文章 | 计量指标
    3. 短文本理解研究
    王仲远,程健鹏,王海勋,文继荣
    计算机研究与发展    2016, 53 (2): 262-269.   doi: 10.7544/issn1000-1239.2016.20150742
    摘要2907)   HTML5)    PDF (1608KB)(3064)   
    短文本理解是一项对于机器智能至关重要但又充满挑战的任务.这项任务有益于众多应用场景,如搜索引擎、自动问答、广告和推荐系统.完成这些应用的首要步骤是将输入文本转化为机器可以诠释的形式,即帮助机器“理解”短文本的含义.基于这一目标,许多方法利用外来知识源来解决短文本中语境信息不足的问题.通过总结短文本理解领域的相关工作,介绍了基于向量的短文本理解框架.同时,探讨了短文本理解领域未来的研究方向.
    相关文章 | 计量指标
    被引次数: Baidu(22)
    4. 数据融合与知识融合专题前言
    孟小峰,王建勇,董欣
    计算机研究与发展    2016, 53 (2): 229-230.  
    摘要2529)   HTML11)    PDF (428KB)(1486)   
    随着互联网的快速普及与发展,互联网数据以惊人的速度在全世界范围内呈现出指数级增长的态势。而数据作为客观世界在信息世界中的抽象表达,其必然带有普遍的关联性。如何从海量的异构数据中挖掘实体及其语义关联和属性,并进行知识的融合,进而构建大规模的知识图谱,为语义搜索、深度问答、文本理解等应用提供有力支撑,已成为数据管理、数据挖掘和信息抽取等领域的一个重要研究方向。相比于传统的数据集成,在面向大规模的数据和知识融合过程中,融合算法的效率、多源数据的数据质量评估和基于语义的数据和知识融合等都给现有的数据集成和知识融合技术带来了巨大的挑战。2016年《计算机研究与发展》数据融合和知识融合专题侧重大规模数据和知识的抽取、融合及应用等诸多方面,涉及到数据管理、信息抽取和知识工程等多个交叉学科领域,研究主题包括数据与知识抽取技术、歧义性消除、数据与知识融合技术、数据与知识建模、关联知识库的应用等。本期专题经过公开征文收到43篇投稿,并最终收录了7篇论文,内容涉及实体抽取、实体链接、数据融合与溯源、短文本理解、数据查询、知识表示等主题,为相关领域的研究者探讨面向大数据的数据融合和知识融合的基础理论研究及其应用、讨论该领域内最新的突破性进展、交流新的学术思想和新方法以及展望未来的发展趋势提供了很好的沟通和交流机会。
    相关文章 | 计量指标
    5. 基于图的中文集成实体链接算法
    刘峤,钟云,李杨,刘瑶,秦志光
    计算机研究与发展    2016, 53 (2): 270-283.   doi: 10.7544/issn1000-1239.2016.20150832
    摘要1854)   HTML6)    PDF (1917KB)(2599)   
    实体链接(entity linking)是知识库扩容的核心关键技术,传统的实体链接方法通常受制于本地知识库的知识水平,而且忽略共现实体间的语义相关性.提出了一种基于图的中文集成实体链接方法,不仅能够充分利用知识库中实体间的结构化关系,而且能够通过增量证据挖掘获取外部知识,从而实现对同一文本中出现的多个歧义实体的批量实体链接.在开放域公开测试语料上的实验结果表明,所提出的实体相关图构造方法、增量证据挖掘方法和实体语义一致性判据是有效的,算法整体性能一致且显著地优于当前的主流算法.
    相关文章 | 计量指标
    6. 基于句法语义特征的中文实体关系抽取
    甘丽新,万常选,刘德喜,钟青,江腾蛟
    计算机研究与发展    2016, 53 (2): 284-302.   doi: 10.7544/issn1000-1239.2016.20150842
    摘要1610)   HTML9)    PDF (2640KB)(1787)   
    作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine, SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法.
    相关文章 | 计量指标
    被引次数: Baidu(44)
    7. 面向数据融合的半环溯源计算方法
    薛见新,申德荣,寇月,聂铁铮,于戈
    计算机研究与发展    2016, 53 (2): 316-325.   doi: 10.7544/issn1000-1239.2016.20150872
    摘要996)   HTML0)    PDF (2286KB)(885)   
    数据融合是集成数据的质量保证和分析挖掘的前提条件;然而,数据融合作为一个整体对于用户来讲是一个黑盒过程,使得当前数据融合过程缺乏可解释性和可调试性.为了便于数据融合过程中有效的冲突检测和调试,需要利用数据溯源技术建立数据融合的可回溯机制.数据溯源描述了数据产生并随着时间推移而演变的整个过程,半环溯源模型作为一种经典的数据溯源表示形式,不仅能表示结果数据是由哪些数据派生的,而且还能够描述这些数据以什么方式进行派生.主要研究用于数据融合的半环溯源的计算问题.用于数据融合的半环溯源计算是一个pay as you go的模式,计算数据的溯源信息是一个非常耗时的过程.首先,提出一种基于Kleene序列的近似迭代方法,并证明了该方法与半环溯源的派生树定义的关系,从而证明了该方法的正确性.然后,提出了一种类牛顿序列,这种方法比Kleene序列有更好的收敛性.由于递归的引入可能会导致这2种迭代算法无法终止,通过分析结果元组的半环多项式溯源的特点,证明这2种近似算法最坏可在n次迭代后终止.最后,通过实验说明了本文提出的方法是可行和有效的.
    相关文章 | 计量指标
    被引次数: Baidu(2)
    8. 基于图的不一致容忍语义下的查询应答方法
    付雪峰,漆桂林,张勇
    计算机研究与发展    2016, 53 (2): 303-315.   doi: 10.7544/issn1000-1239.2016.20150839
    摘要768)   HTML3)    PDF (2468KB)(689)   
    本体在演变的过程中常出现不一致性问题,这将导致经典的推理模式失效. 不一致容忍语义能有效地解决推理失效的问题,但各类不一致容忍语义或者需要耗费大量计算,或者丢弃了本体中有效的信息.为此,一种针对IAR-语义和ICAR-语义的变种被用以解决上述的缺陷.新定义的IPAR-语义能够避免计算整个ABox关于TBox的封闭,在减少计算量的同时尽可能地保留了本体中的信息.在IPAR-语义下实现了基于图的查询应答方法,新方法将本体和查询以不同的规则构建成图,避免了传统重写导致的查询冗余的问题.最后,通过实验对比新的查询应答方法与ICAR-语义下的查询应答方法,实验结果表明:基于图的一致性查询方法执行效率要优于ICAR-语义下的查询方法;在本体规模不断增加的情况下,新方法具有更好的稳定性.
    相关文章 | 计量指标
    被引次数: Baidu(1)