ISSN 1000-1239 CN 11-1777/TP

    2017优青专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 优青专题前言
    刘克,刘志勇
    计算机研究与发展    2017, 54 (6): 1131-1132.  
    摘要736)   HTML2)    PDF (1040KB)(668)   
    优秀青年科学基金(“优青基金”)是国家自然科学基金委员会2012年起设立的一类人才项目,主要支持在基础研究方面已取得较好成绩的青年学者自主选择研究方向开展创新研究,至今已经资助了5期。为了集中介绍这些优秀青年学者的研究成果,本刊推出了“优青专题”系列,并已于2015年和2016年出版了两个专辑,本期是该系列的第三个专辑,共13篇文章。与前两次专辑一样,本专辑并不专注于介绍计算机科学技术领域某个特定方向的研究和发展状况,而是为优青基金获得者提供展示他们(及其合作者)研究成果、传播相关知识的综合平台,同时可以使得有关读者通过该专辑了解我国这一层次研究人员的研究状况及相关领域发展的趋势。我们希望本系列专辑的出版能为作者、读者提供一个开放的交流平台,促进计算机科学技术领域的研究、开发、教育和前沿知识的传播。
    相关文章 | 计量指标
    2. 搜索引擎用户满意度评估
    刘奕群
    计算机研究与发展    2017, 54 (6): 1133-1143.   doi: 10.7544/issn1000-1239.2017.20160804
    摘要956)   HTML6)    PDF (5359KB)(923)   
    用户满意度评估一直是互联网搜索领域的研究热点,并具有3方面的挑战:1)传统的搜索性能评估方法大多基于对检索结果相关性的标注,但大多数基于相关性标注的评价指标并非针对互联网搜索环境而设计,其结果与搜索用户主观满意度之间的关系缺乏相应研究;2)大多数已有的工作都基于搜索结果同质化的假设,但随着搜索引擎的发展,异质化的搜索结果元素开始频繁地出现在搜索结果列表中;3)已有的关于搜索满意度评估的工作主要基于用户的点击和查询修改行为开展,但实际搜索中会有大量的用户会话中缺失此类信息.总结了近期为解决这些研究问题开展的实验研究工作:1)构建了用户行为实验系统,分析了结果相关性与用户所感知到的结果效用和满意度之间的关系;2)基于仔细设计的异质化搜索结果页面,定量地分析了垂直搜索结果的质量、展现形式、位置等因素对用户满意度的影响;3)受现有的采用鼠标移动信息进行搜索结果相关性预测的工作启发,提出了在搜索结果页面上抽取用户鼠标移动行为模式并进行满意度评估的方法.实验结果表明:在真实搜索环境下,所提出的方法优于现有的模型.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    3. 神经机器翻译前沿进展
    刘洋
    计算机研究与发展    2017, 54 (6): 1144-1149.   doi: 10.7544/issn1000-1239.2017.20160805
    摘要1595)   HTML20)    PDF (3970KB)(1503)   
    机器翻译研究如何利用计算机实现自然语言之间的自动翻译,是人工智能和自然语言处理领域的重要研究方向之一.近年来,基于深度学习的神经机器翻译方法获得迅速发展,目前已取代传统的统计机器翻译成为学术界和工业界新的主流方法.首先介绍神经机器翻译的基本思想和主要方法,然后对最新的前沿进展进行综述,最后对神经机器翻译的未来发展方向进行展望.
    相关文章 | 计量指标
    被引次数: Baidu(12)
    4. 情感分类研究进展
    陈龙,管子玉,何金红,彭进业
    计算机研究与发展    2017, 54 (6): 1150-1170.   doi: 10.7544/issn1000-1239.2017.20160807
    摘要1584)   HTML17)    PDF (9364KB)(1485)   
    文本情感分析是多媒体智能理解的重要问题之一.情感分类是情感分析领域的核心问题,旨在解决评论情感极性的自动判断问题.由于互联网评论数据规模与日俱增,传统基于词典的方法和基于机器学习的方法已经不能很好地处理海量评论的情感分类问题.随着近年来深度学习技术的快速发展,其在大规模文本数据的智能理解上表现出了独特的优势,越来越多的研究人员青睐于使用深度学习技术来解决文本分类问题.主要分为2个部分:1)归纳总结传统情感分类技术,包括基于字典的方法、基于机器学习的方法、两者混合方法、基于弱标注信息的方法以及基于深度学习的方法;2)针对前人情感分类方法的不足,详细介绍所提出的面向情感分类问题的弱监督深度学习框架.此外,还介绍了评论主题提取相关的经典工作.最后,总结了情感分类问题的难点和挑战,并对未来的研究工作进行了展望.
    相关文章 | 计量指标
    被引次数: Baidu(7)
    5. 面向标记分布学习的标记增强
    耿新,徐宁,邵瑞枫
    计算机研究与发展    2017, 54 (6): 1171-1184.   doi: 10.7544/issn1000-1239.2017.20170002
    摘要1437)   HTML7)    PDF (4492KB)(1022)   
    多标记学习(multi-label learning, MLL)任务处理一个示例对应多个标记的情况,其目标是学习一个从示例到相关标记集合的映射.在MLL中,现有方法一般都是采用均匀标记分布假设,也就是各个相关标记(正标记)对于示例的重要程度都被当作是相等的.然而,对于许多真实世界中的学习问题,不同相关标记的重要程度往往是不同的.为此,标记分布学习将不同标记的重要程度用标记分布来刻画,已经取得很好的效果.但是很多数据中却仅包含简单的逻辑标记而非标记分布.为解决这一问题,可以通过挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化为标记分布,进而通过标记分布学习有效地提升预测精度.上述将原始逻辑标记提升为标记分布的过程,定义为面向标记分布学习的标记增强.首次提出了标记增强这一概念,给出了标记增强的形式化定义,总结了现有的可以用于标记增强的算法,并进行了对比实验.实验结果表明:使用标记增强能够挖掘出数据中隐含的标记重要性差异信息,并有效地提升MLL的效果.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    6. 基于概率分布的多峰演化算法
    陈伟能,杨强
    计算机研究与发展    2017, 54 (6): 1185-1197.   doi: 10.7544/issn1000-1239.2017.20160891
    摘要1045)   HTML4)    PDF (6078KB)(1013)   
    演化算法通过模拟自然界生物迭代演化的智能现象来求解优化问题,因其不依赖于待解问题具体数学模型特性的优势,已成为求解复杂优化问题的重要方法.分布估计算法是一类新兴的演化算法,它通过估计种群中优势个体的分布状况建立概率模型并采样得到子代,具有良好的搜索多样性,且能通用于连续和离散空间的优化问题.为进一步推动基于概率分布思想的演化算法发展,概述了多峰优化演化算法的研究现状,并总结出2个基于概率分布的演化算法框架:面向多解优化的概率分布演化算法框架和基于概率分布的集合型离散演化算法框架.前者针对现有的演化算法在求解多峰多解的优化难题时缺乏足够的搜索多样性的缺点,将广义上基于概率分布的演化策略与小生境技术相结合,突破多解优化的搜索多样性瓶颈;后者围绕粒子群优化等部分演化算法在传统上局限于连续实数向量空间的不足,引入概率分布估计的思想,在离散的集合空间重定义了算法的演化操作,从而提高了算法的可用性.
    相关文章 | 计量指标
    7. 查询结果可用性研究综述
    柳晴,高云君
    计算机研究与发展    2017, 54 (6): 1198-1212.   doi: 10.7544/issn1000-1239.2017.20160806
    摘要835)   HTML0)    PDF (5085KB)(956)   
    数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有的数据库系统既不能向用户解释为什么会得到这样的结果,也无法给出有效的建议以帮助用户得到满意的查询结果.查询结果可用性研究正是针对当前数据库系统的这一不足而展开.在数据库可用性的视角之上,以查询结果为中心,对当前查询结果可用性工作的最新动态进行了综述.梳理了当前查询结果可用性相关研究中问题的类型及其特点,并从Causality & Responsibility问题、Why-not & Why问题、Why-few & Why-many问题这3个方面对该领域的研究工作现状进行了分类、介绍和总结.最后对该研究领域未来可能的研究方向进行了展望,为相关研究提供参考.
    相关文章 | 计量指标
    8. 分布式RDF数据管理综述
    邹磊,彭鹏
    计算机研究与发展    2017, 54 (6): 1213-1224.   doi: 10.7544/issn1000-1239.2017.20160908
    摘要1224)   HTML0)    PDF (5363KB)(987)   
    资源描述框架(resource description framework, RDF)作为一个展示、共享和连接网络上的数据的模型,已经被广泛地用在各种应用中.同时,SPARQL(simple protocol and RDF query language)作为一种结构化查询语言则被用来支持对RDF数据进行查询检索.随着RDF数据规模的日益增长,在现有RDF数据库上进行SPARQL查询处理已经超出了单机的处理能力.于是,人们需要设计出高性能的分布式RDF数据库以支持对SPARQL查询进行高效的处理.当前,已经有大量的工作来讨论如何搭建分布式RDF数据管理系统.对这些不同的分布式RDF数据管理方法进行综述,将现有的分布式RDF数据管理方法分成3类:基于云计算平台的分布式RDF数据管理方法、基于数据划分的分布式RDF数据管理方法和联邦式系统.基于云计算平台的分布式RDF数据管理方法利用已有云平台进行RDF数据的管理;基于数据划分的分布式RDF数据管理方法首先将RDF数据图划分成若干子图,然后将这些子图分配到不同计算节点上;联邦式系统的特点是数据已经分布在不同节点上,数据管理系统无法控制数据的分布.在每类分布式RDF数据管理方法的介绍中,将深入讨论以帮助读者了解各种方法的特点.
    相关文章 | 计量指标
    被引次数: Baidu(2)
    9. 高通量图像视频计算
    唐金辉,李泽超,刘少礼,秦磊
    计算机研究与发展    2017, 54 (6): 1225-1237.   doi: 10.7544/issn1000-1239.2017.20170001
    摘要974)   HTML4)    PDF (3639KB)(705)   
    互联网上的图像和视频数据正在飞速地产生和传播.这些数据不仅规模庞大,还具有高并发、高维度、大流量的显著特性,导致了目前对它们的实时分析和处理面临着巨大的挑战.这就需要开展高通量图像视频计算方面的研究,需要结合新型硬件结构,利用其体系结构优势,提出一系列实用的高通量图像视频计算理论与方法,提升数据中心的图像视频数据处理效率.为此,在详细地分析了现有的高通量图像视频计算相关方法与技术的基础上,探讨了现有高通量图像视频计算方法研究的不足;进一步地,分析了高通量图像视频计算的3个未来研究方向:高通量图像视频计算理论、高通量图像视频分析方法及高通量视频编码方法.最后,总结了高通量图像视频计算需要解决的3个关键科学问题.这些问题的解决将为互联网图像视频内容监管、大规模视频监控、图像视频搜索等重要应用提供关键技术支持.
    相关文章 | 计量指标
    10. 视频拷贝检测方法综述
    顾佳伟,赵瑞玮,姜育刚
    计算机研究与发展    2017, 54 (6): 1238-1250.   doi: 10.7544/issn1000-1239.2017.20170003
    摘要1214)   HTML1)    PDF (5737KB)(964)   
    目前网络上存在着大量的拷贝视频,研究人员长期以来致力于视频拷贝检测技术的研究,特别是近年来随着深度学习方法的引入,又涌现出了一些新颖的检测算法.将对现有代表性的视频拷贝检测方法进行回顾与总结,涵盖视频拷贝检测系统的基本框架与各个主要步骤的不同实现方法,包含视频拷贝检测中的特征提取、建立索引、特征匹配与时间对齐等不同模块.总结的关键技术包括了最新的深度学习方法在其中的应用与取得的突破,主要体现在深度卷积神经网络和双胞胎卷积神经网络方法的应用.此外,还将详细介绍目前常用的5个用于视频拷贝检测评测的数据集及通用的评价标准,并讨论分析一些代表性方法的性能表现.最后,对视频拷贝检测技术未来发展趋势进行展望.
    相关文章 | 计量指标
    被引次数: Baidu(4)
    11. 融合语义知识的深度表达学习及在视觉理解中的应用
    张瑞茂,彭杰锋,吴恙,林倞
    计算机研究与发展    2017, 54 (6): 1251-1266.   doi: 10.7544/issn1000-1239.2017.20171064
    摘要1404)   HTML7)    PDF (12595KB)(1295)   
    近几年来,随着深度学习技术的日趋完善,传统的计算机视觉任务得到了前所未有的发展.如何将传统视觉研究中的领域知识融入到深度模型中提升深度模型的视觉表达能力,从而应对更为复杂的视觉任务,成为了学术界广泛关注的问题.鉴于此,以融合了语义知识的深度表达学习为主线展开了一系列研究.取得的主要创新成果包括3个方面:1)研究了将单类型的语义信息(类别相似性)融入到深度特征的学习中,提出了嵌入正则化语义关联的深度Hash学习方法,并将其应用于图像的相似性比对与检索问题中,取得了较大的性能提升;2)研究了将多类型信息(多重上下文信息)融入到深度特征的学习中,提出了基于长短期记忆神经网络的场景上下文学习方法,并将其应用于复杂场景的几何属性分析问题中;3)研究了将视觉数据的结构化语义配置融入到深度表达的学习中,提出了融合语法知识的表达学习方法,并将其应用到复杂场景下的通用内容解析问题中.相关的实验结果表明:该方法能有效地对场景的结构化配置进行预测.
    相关文章 | 计量指标
    被引次数: Baidu(2)
    12. 多媒体信息检索中的查询与反馈技术
    查正军,郑晓菊
    计算机研究与发展    2017, 54 (6): 1267-1280.   doi: 10.7544/issn1000-1239.2017.20170004
    摘要939)   HTML2)    PDF (6830KB)(800)   
    历经几十年的发展,多媒体检索取得了长足的进步,然而检索性能的提升依然受到“意图鸿沟”与“语义鸿沟”的制约.针对此问题,学术界提出了一系列查询技术帮助用户清楚地表达检索意图以及反馈技术帮助系统准确地理解用户意图与媒体数据,有效提升了检索性能.对多媒体检索中的查询与反馈技术进行了分析与讨论.分析了查询方式的演变与反馈技术的发展,综述了面向PC机、移动智能终端、触屏设备的查询技术,介绍了不同时期的反馈技术,探讨了探索式搜索中的交互问题,最后分析了该领域的未来研究趋势.
    相关文章 | 计量指标
    被引次数: Baidu(4)
    13. 动态蛋白质网络的构建、分析及应用研究进展
    李敏,孟祥茂
    计算机研究与发展    2017, 54 (6): 1281-1299.   doi: 10.7544/issn1000-1239.2017.20160902
    摘要1030)   HTML2)    PDF (7481KB)(792)   
    蛋白质组学的快速发展,特别是高通量技术的发展产生了大量的蛋白质相互作用数据,为人们从更深层次理解蛋白质之间的相互作用及其在复杂疾病的作用机理提供了基础.一个生物体内所有的蛋白质与蛋白质之间的相互作用组成的网络称为蛋白质网络.传统的研究多是基于静态的蛋白质网络模型.然而,由于蛋白质自身表达的动态性及蛋白质间相互作用的动态性,真实的蛋白质网络会随着时间和条件不断变化,与疾病的发生和发展有关的蛋白质功能模块也与这种动态变化密切相关.因此,研究者已经把注意力从关注蛋白质网络的静态属性转移到动态属性上,提出了一系列的动态蛋白质网络的构建方法.在介绍静态蛋白质网络的基础上,分类讨论了动态蛋白质网络的构建方法,将现有的动态蛋白质网络的构建方法归纳为基于蛋白质表达动态性的方法、基于多状态下表达及相关性变化的方法和基于时空动态变化的方法这3类:第1类体现的是蛋白质自身表达随时间演化的动态性,第2类则表现为不同条件下蛋白质之间表达相关性的改变,第3类则体现了蛋白质及蛋白质相互作用在时间和空间上的动态变化.然后,对动态蛋白质网络的蛋白质节点和相关子网络进行了动态分析并详细介绍了动态蛋白质网络在复杂疾病中的一些主流应用,如蛋白质复合物识别、蛋白质功能预测、生物标志物识别、疾病基因预测等.最后,对动态蛋白质网络所面临的挑战与未来的研究方向进行了探讨.
    相关文章 | 计量指标
    被引次数: Baidu(9)
    14. 基于多核平台的高速网络流量实时捕获方法
    令瑞林,李峻峰,李丹
    计算机研究与发展    2017, 54 (6): 1300-1313.   doi: 10.7544/issn1000-1239.2017.20160823
    摘要738)   HTML3)    PDF (9190KB)(910)   
    随着互联网上应用的丰富和网络带宽的增长,带来的安全问题也与日剧增,除了传统的垃圾邮件、病毒传播、DDoS攻击外,还出现了新型的隐蔽性强的攻击方式.网络探针工具是一种部署在局域网出口处的旁路设备,能够收集当前进出网关的全部流量并进行分析,而网络探针工具中最重要的模块就是数据包的捕获.传统的Linux网络协议栈在捕获数据包时有诸多性能瓶颈,无法满足高速网络环境的要求.介绍了基于零拷贝、多核并行化等技术的多种新型的数据包捕获引擎,并基于Intel DPDK平台设计并实现了一个可扩展的数据包捕获系统,它能够利用接收端扩展(receiver-side scaling, RSS)技术实现多核并行化的数据包捕获、模块化的上层处理流程.除此之外,还讨论了更有效、更公平的将数据包分发到不同的接收队列所应使用的Hash函数.经过初步的实验验证,该系统能够实现接近线速的收包并且多个CPU核心间实现负载均衡.
    相关文章 | 计量指标
    被引次数: Baidu(4)