ISSN 1000-1239 CN 11-1777/TP

全文下载排行

    一年内发表文章 | 两年内 | 三年内 | 全部 | 最近1个月下载排行 | 最近1年下载排行

    当前位置: 两年内
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 机器学习的隐私保护研究综述
    刘俊旭, 孟小峰
    计算机研究与发展    2020, 57 (2): 346-362.   doi: 10.7544/issn1000-1239.2020.20190455
    摘要2413)   HTML99)    PDF (1684KB)(2441)   
    大规模数据收集大幅提升了机器学习算法的性能,实现了经济效益和社会效益的共赢,但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类,前者在模型训练前需统一收集各方数据,尽管易于部署,却存在极大数据隐私与安全隐患;后者实现了将各方数据保留在本地的同时进行模型训练,但该方式目前正处于研究的起步阶段,无论在技术还是部署中仍面临诸多问题与挑战.现有的隐私保护技术研究大致分为2条主线,即以同态加密和安全多方计算为代表的加密方法和以差分隐私为代表的扰动方法,二者各有利弊.为综述当前机器学习的隐私问题,并对现有隐私保护研究工作进行梳理和总结,首先分别针对传统机器学习和深度学习2类情况,探讨集中学习下差分隐私保护的算法设计;之后概述联邦学习中存在的隐私问题及保护方法;最后总结目前隐私保护中面临的主要挑战,并着重指出隐私保护与模型可解释性研究、数据透明之间的问题与联系.
    相关文章 | 计量指标
    2. 机器学习系统的隐私和安全问题综述
    何英哲,胡兴波,何锦雯,孟国柱,陈恺
    计算机研究与发展    2019, 56 (10): 2049-2070.   doi: 10.7544/issn1000-1239.2019.20190437
    摘要1987)   HTML67)    PDF (1644KB)(2234)   
    人工智能已经渗透到生活的各个角落,给人类带来了极大的便利.尤其是近年来,随着机器学习中深度学习这一分支的蓬勃发展,生活中的相关应用越来越多.不幸的是,机器学习系统也面临着许多安全隐患,而机器学习系统的普及更进一步放大了这些风险.为了揭示这些安全隐患并实现一个强大的机器学习系统,对主流的深度学习系统进行了调查.首先设计了一个剖析深度学习系统的分析模型,并界定了调查范围.调查的深度学习系统跨越了4个领域——图像分类、音频语音识别、恶意软件检测和自然语言处理,提取了对应4种类型的安全隐患,并从复杂性、攻击成功率和破坏等多个维度对其进行了表征和度量.随后,调研了针对深度学习系统的防御技术及其特点.最后通过对这些系统的观察,提出了构建健壮的深度学习系统的建议.
    相关文章 | 计量指标
    3. 人工智能系统安全与隐私风险
    陈宇飞,沈超,王骞,李琦,王聪,纪守领,李康,管晓宏
    计算机研究与发展    2019, 56 (10): 2135-2150.   doi: 10.7544/issn1000-1239.2019.20190415
    摘要3608)   HTML148)    PDF (1175KB)(1873)   
    人类正在经历着由深度学习技术推动的人工智能浪潮,它为人类生产和生活带来了巨大的技术革新.在某些特定领域中,人工智能已经表现出达到甚至超越人类的工作能力.然而,以往的机器学习理论大多没有考虑开放甚至对抗的系统运行环境,人工智能系统的安全和隐私问题正逐渐暴露出来.通过回顾人工智能系统安全方面的相关研究工作,揭示人工智能系统中潜藏的安全与隐私风险.首先介绍了包含攻击面、攻击能力和攻击目标的安全威胁模型.从人工智能系统的4个关键环节——数据输入(传感器)、数据预处理、机器学习模型和输出,分析了相应的安全隐私风险及对策.讨论了未来在人工智能系统安全研究方面的发展趋势.
    相关文章 | 计量指标
    4. 基于机器学习的智能路由算法综述
    刘辰屹, 徐明伟, 耿男, 张翔
    计算机研究与发展    2020, 57 (4): 671-687.   doi: 10.7544/issn1000-1239.2020.20190866
    摘要2413)   HTML88)    PDF (2198KB)(1545)   
    互联网的飞速发展催生了很多新型网络应用,其中包括实时多媒体流服务、远程云服务等.现有尽力而为的路由转发算法难以满足这些应用所带来的多样化的网络服务质量需求.随着近些年将机器学习方法应用于游戏、计算机视觉、自然语言处理获得了巨大的成功,很多人尝试基于机器学习方法去设计智能路由算法.相比于传统数学模型驱动的分布式路由算法而言,基于机器学习的路由算法通常是数据驱动的,这使得其能够适应动态变化的网络环境以及多样的性能评价指标优化需求.基于机器学习的数据驱动智能路由算法目前已经展示出了巨大的潜力,未来很有希望成为下一代互联网的重要组成部分.然而现有对于智能路由的研究仍然处于初步阶段.首先介绍了现有数据驱动智能路由算法的相关研究,展现了这些方法的核心思想和应用场景并分析了这些工作的优势与不足.分析表明,现有基于机器学习的智能路由算法研究主要针对算法原理,这些路由算法距离真实环境下部署仍然很遥远.因此接下来分析了不同的真实场景智能路由算法训练和部署方案并提出了2种合理的训练部署框架以使得智能路由算法能够低成本、高可靠性地在真实场景被部署.最后分析了基于机器学习的智能路由算法未来发展中所面临的机遇与挑战并给出了未来的研究方向.
    相关文章 | 计量指标
    5. 机器学习模型可解释性方法、应用与安全研究综述
    纪守领,李进锋,杜天宇,李博
    计算机研究与发展    2019, 56 (10): 2071-2096.   doi: 10.7544/issn1000-1239.2019.20190540
    摘要1787)   HTML52)    PDF (5499KB)(1434)   
    尽管机器学习在许多领域取得了巨大的成功,但缺乏可解释性严重限制了其在现实任务尤其是安全敏感任务中的广泛应用.为了克服这一弱点,许多学者对如何提高机器学习模型可解释性进行了深入的研究,并提出了大量的解释方法以帮助用户理解模型内部的工作机制.然而,可解释性研究还处于初级阶段,依然还有大量的科学问题尚待解决.并且,不同的学者解决问题的角度不同,对可解释性赋予的含义也不同,所提出的解释方法也各有侧重.迄今为止,学术界对模型可解释性仍缺乏统一的认识,可解释性研究的体系结构尚不明确.在综述中,回顾了机器学习中的可解释性问题,并对现有的研究工作进行了系统的总结和科学的归类.同时,讨论了可解释性相关技术的潜在应用,分析了可解释性与可解释机器学习的安全性之间的关系,并且探讨了可解释性研究当前面临的挑战和未来潜在的研究方向,以期进一步推动可解释性研究的发展和应用.
    相关文章 | 计量指标
    6. 机器学习的可解释性
    陈珂锐, 孟小峰
    计算机研究与发展    2020, 57 (9): 1971-1986.   doi: 10.7544/issn1000-1239.2020.20190456
    摘要1420)   HTML50)    PDF (1315KB)(1324)   
    近年来,机器学习发展迅速,尤其是深度学习在图像、声音、自然语言处理等领域取得卓越成效.机器学习算法的表示能力大幅度提高,但是伴随着模型复杂度的增加,机器学习算法的可解释性越差,至今,机器学习的可解释性依旧是个难题.通过算法训练出的模型被看作成黑盒子,严重阻碍了机器学习在某些特定领域的使用,譬如医学、金融等领域.目前针对机器学习的可解释性综述性的工作极少,因此,将现有的可解释方法进行归类描述和分析比较,一方面对可解释性的定义、度量进行阐述,另一方面针对可解释对象的不同,从模型的解释、预测结果的解释和模仿者模型的解释3个方面,总结和分析各种机器学习可解释技术,并讨论了机器学习可解释方法面临的挑战和机遇以及未来的可能发展方向.
    相关文章 | 计量指标
    7. 量子计算与量子密码的原理及研究进展综述
    王永利, 徐秋亮
    计算机研究与发展    2020, 57 (10): 2015-2026.   doi: 10.7544/issn1000-1239.2020.20200615
    摘要1286)   HTML23)    PDF (967KB)(1283)   
    量子计算与量子密码是基于量子效应的计算技术和密码技术.1984年Bennett和Brassard提出了第一个量子密钥分发协议,开启了量子密码学的研究,此后相继在量子加密、量子签名等领域进行了大量研究.1994年,Shor利用量子Fourier变换,设计了第一个实用的量子算法,在多项式时间内对大整数进行因子分解.1996年,Grover提出了量子搜索算法,能够对无结构数据进行二次加速.Shor算法和Grover算法的提出不仅体现了量子计算的优越性,还对传统基于数学困难问题的密码学体制造成威胁.经过半个世纪的发展,量子计算与量子密码在理论与实践的研究上都取得了丰硕的成果.从量子力学的数学框架、基本概念和原理、量子计算基本思想、量子密码研究进展及主要思想等方面进行总结梳理.
    相关文章 | 计量指标
    8. 深度学习可解释性研究进展
    成科扬, 王宁, 师文喜, 詹永照
    计算机研究与发展    2020, 57 (6): 1208-1217.   doi: 10.7544/issn1000-1239.2020.20190485
    摘要1578)   HTML23)    PDF (1226KB)(1272)   
    深度学习的可解释性研究是人工智能、机器学习、认知心理学、逻辑学等众多学科的交叉研究课题,其在信息推送、医疗研究、金融、信息安全等领域具有重要的理论研究意义和实际应用价值.从深度学习可解释性研究起源、研究探索期、模型构建期3方面回顾了深度学习可解释性研究历史,从可视化分析、鲁棒性扰动分析、敏感性分析3方面展现了深度学习现有模型可解释性分析研究现状,从模型代理、逻辑推理、网络节点关联分析、传统机器学习模型改进4方面剖析了可解释性深度学习模型构建研究,同时对当前该领域研究存在的不足作出了分析,展示了可解释性深度学习的典型应用,并对未来可能的研究方向作出了展望.
    相关文章 | 计量指标
    9. 实体关系抽取方法研究综述
    李冬梅, 张扬, 李东远, 林丹琼
    计算机研究与发展    2020, 57 (7): 1424-1448.   doi: 10.7544/issn1000-1239.2020.20190358
    摘要1621)   HTML40)    PDF (1404KB)(1243)   
    在自然语言处理领域,信息抽取一直以来受到人们的关注.信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节.实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建.综合阐述了实体关系抽取的发展历史,介绍了常用的中文和英文关系抽取工具和评价体系.主要从4个方面展开介绍了实体关系抽取方法,包括:早期的传统关系抽取方法、基于传统机器学习、基于深度学习和基于开放领域的关系抽取方法,总结了在不同历史阶段的主流研究方法以及相应的代表性成果,并对各种实体关系抽取技术进行对比分析.最后,对实体关系抽取的未来重点研究内容和发展趋势进行了总结和展望.
    相关文章 | 计量指标
    10. 推荐系统的隐私保护研究进展
    周俊,董晓蕾,曹珍富
    计算机研究与发展    2019, 56 (10): 2033-2048.   doi: 10.7544/issn1000-1239.2019.20190541
    摘要1805)   HTML36)    PDF (1868KB)(1214)   
    推荐系统是建立在海量数据挖掘基础之上的一种智能平台,根据用户个人信息与物品特征,比如用户的兴趣、历史购买行为和物品的材质、价格等,利用统计分析和机器学习等人工智能技术建立模型,预测用户对新物品的评价与喜好,从而向用户推荐其可能感兴趣的潜在物品,以实现个性化的信息服务和决策支持.然而,推荐系统的历史数据集、预测模型和推荐结果都与用户的隐私休戚相关,如何能在有效保护用户隐私的前提下,提供正确性可验证的有效推荐结果是一个具有挑战性的重要研究课题.国内外现有的工作多是通过数据扰动或公钥全同态加密技术来试图解决这个问题,但都无法满足推荐系统对高效性、精确性和各类隐私保护的要求.从推荐系统隐私保护的模式、安全模型、轻量级的推荐系统隐私保护一般性构造与推荐结果正确性可验证、可审计等方面,系统阐述了国内外最新研究成果,并在此基础上提出了存在问题、未来研究方向与解决方案.在安全模型方面,聚焦于标准模型或通用组合模型下,用户数据隐私、预测模型隐私和推荐结果隐私等多种安全模型的形式化刻画;在轻量化方面,将不依赖公钥全同态加密技术,通过减少公钥加密/解密次数(最优时一次),在单用户、多数据模型和多用户、多数据模型下,提出高效的推荐系统隐私保护一般性构造方法;最后,通过批量验证技术研究推荐结果轻量化防欺诈与抗抵赖的一般性理论问题.从而,为适用于推荐系统隐私保护的新型加密方案研究及其实用化提供理论和方法支撑.
    相关文章 | 计量指标
    11. 机器学习的安全问题及隐私保护
    魏立斐, 陈聪聪, 张蕾, 李梦思, 陈玉娇, 王勤
    计算机研究与发展    2020, 57 (10): 2066-2085.   doi: 10.7544/issn1000-1239.2020.20200426
    摘要1381)   HTML23)    PDF (2361KB)(1153)   
    近年来,机器学习迅速地发展,给人们带来便利的同时,也带来极大的安全隐患.机器学习的安全与隐私问题已经成为其发展的绊脚石.机器学习模型的训练和预测均是基于大量的数据,而数据中可能包含敏感或隐私信息,随着数据安全与隐私泄露事件频发、泄露规模连年加剧,如何保证数据的安全与隐私引发科学界和工业界的广泛关注.首先,介绍了机器学习隐私保护中的敌手模型的概念;其次总结机器学习在训练和预测阶段常见的安全及隐私威胁,如训练数据的隐私泄露、投毒攻击、对抗攻击、隐私攻击等.随后介绍了常见的安全防御方法和隐私保护方法,重点介绍了同态加密技术、安全多方计算技术、差分隐私技术等,并比较了典型的方案及3种技术的适用场景.最后,展望机器学习隐私保护的未来发展趋势和研究方向.
    相关文章 | 计量指标
    12. 机器学习化数据库系统研究综述
    孟小峰,马超红,杨晨
    计算机研究与发展    2019, 56 (9): 1803-1820.   doi: 10.7544/issn1000-1239.2019.20190446
    摘要1248)   HTML43)    PDF (1227KB)(1139)   
    数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新的硬件加速器来实现,传统的数据库系统不能够有效利用现代的硬件加速器;数据库系统具有成百个可调参数,面对工作负载频繁变化,大量繁琐的参数配置已经超出DBA的能力,这使得数据库系统面对快速而又多样性的变化缺乏实时响应能力.当下机器学习技术恰好同时符合这2个条件:应用现代加速器以及从众多参数调节经验中学习.机器学习化数据库系统将机器学习技术引入到数据库系统设计中.一方面将顺序扫描转化为计算模型,从而能够利用现代硬件加速平台;另一方面将DBA的经验转化为预测模型,从而使得数据库系统更加智能地动态适应工作负载的快速多样性变化.将对机器学习化数据库系统当前的研究工作进行总结与归纳,主要包括存储管理、查询优化的机器学习化研究以及自动化的数据库管理系统.在对已有技术分析的基础上,指出了机器学习化数据库系统的未来研究方向及可能面临的问题与挑战.
    相关文章 | 计量指标
    13. 微服务技术发展的现状与展望
    冯志勇, 徐砚伟, 薛霄, 陈世展
    计算机研究与发展    2020, 57 (5): 1103-1122.   doi: 10.7544/issn1000-1239.2020.20190460
    摘要2032)   HTML86)    PDF (3960KB)(1050)   
    随着云计算、物联网等技术迅速发展,用户对软件系统的需求趋于多样化,面向服务的体系架构(service oriented architecture, SOA)需要在服务稳定集成与需求灵活适配之间寻求平衡.基于此,拥有独立进程、具备独立部署能力的微服务技术应运而生,它具有分布式存储、高可用性、可伸缩性、运维智能化等优势,能够弥补传统SOA的缺陷.首先,从系统集成角度的出发,阐述微服务出现的应用背景,利用微服务的核心组件、软件技术发展、架构演化等基础技术,以保证微服务基础设施的可用性;其次,基于微服务体系架构在实际应用中的问题,从分布式通信、分布式数据存储、分布式调用链、测试的复杂性等方面,分析微服务体系架构具体应用中采用的关键技术,并给出具体应用案例,以保证微服务的技术可行性;最后,从基础设施、信息交互、数据安全与网络安全等方面探寻微服务所面临的诸多挑战,并分析未来发展趋势分析,以期为微服务未来的创新和发展提供有价值的理论与技术参考.
    相关文章 | 计量指标
    14. 数据中心能耗模型及能效算法综述
    王继业,周碧玉,张法,石翔,曾楠,刘志勇
    计算机研究与发展    2019, 56 (8): 1587-1603.   doi: 10.7544/issn1000-1239.2019.20180574
    摘要1278)   HTML36)    PDF (1055KB)(1037)   
    近年来,云计算技术发展迅猛.作为云计算的物理平台和重要基础设施,数据中心的数量和规模都得到了前所未有的发展.与此同时,数据中心极低的资源利用率和巨大的能耗问题日益突出,数据中心能效的研究已经成为了近年来学术界与工业界关注的热点.针对数据中心能效的基本问题,研究了基于资源和任务调度的数据中心节能关键技术,从能效模型与能效算法的角度总结了数据中心服务器系统与网络系统的节能研究进展和最新成果,涵盖能效分析、能耗模型、分类标准和策略算法4个方面,并且展望了数据中心能效优化研究的发展趋势.
    相关文章 | 计量指标
    15. 基于深度学习的程序理解研究进展
    刘芳,李戈,胡星,金芝
    计算机研究与发展    2019, 56 (8): 1605-1620.   doi: 10.7544/issn1000-1239.2019.20190185
    摘要1175)   HTML29)    PDF (1562KB)(1005)   
    程序理解通过对程序进行分析、抽象、推理从而获取程序中相关信息,在软件开发、维护、迁移等过程中起重要作用,因而得到学术界和工业界的广泛关注.传统程序理解很大程度上依赖开发人员的经验,但随着软件规模及其复杂度不断增大,完全依赖开发人员的先验知识提取程序特征既耗时耗力,又很难充分挖掘出程序中隐含特征.深度学习是一种数据驱动的端到端的方法,它根据已有数据构建深度神经网络对数据中隐含的特征进行挖掘,已经在众多领域中获得成功应用.将深度学习技术运用于程序理解中,根据具体任务以及大量数据自动地学习程序数据中蕴含的特征,可以充分地挖掘出程序中隐含的知识,提高程序理解的效率.对基于深度学习的程序理解研究工作进行综述,首先对程序所包含的性质进行分析,然后介绍主流的程序理解模型,包括基于序列、结构以及执行过程的程序理解模型.随后展示基于深度学习的程序理解在程序分析中的应用,主要针对代码补全、代码注释生成、代码检索等任务.最后,分析并总结程序理解研究所面临的挑战.
    相关文章 | 计量指标
    16. 类脑机的思想与体系结构综述
    黄铁军,余肇飞,刘怡俊
    计算机研究与发展    2019, 56 (6): 1135-1148.   doi: 10.7544/issn1000-1239.2019.20190240
    摘要1004)   HTML39)    PDF (3343KB)(932)   
    经典计算机的理论边界在1936年就由图灵确定了,冯·诺依曼体系结构计算机也受限于图灵机模型.囿于神经形态器件的缺失,神经网络模型一直在经典计算机上运行.然而,冯·诺依曼体系结构与神经网络的异步并行结构及通信机制并不匹配,表现之一是功耗巨大,发展面向神经网络的体系结构,对于人工智能乃至一般意义上的信息处理都是重要方向.类脑机是仿照生物神经网络、采用神经形态器件构造的、以时空信息处理为特征的智能机器.类脑机的思想在计算机发明之前就提出了,研究开发实践也已经进行了30多年,多台类脑系统已经上线运行,其中SpiNNaker专注于类脑系统的体系结构研究,提出了一种行之有效的类脑方案.未来20年左右,预计模式动物大脑和人脑的精细解析将逐步完成,模拟生物神经元和神经突触信息处理功能的神经形态器件及集成工艺将逐步成熟,结构逼近大脑、性能远超大脑的类脑机有望实现.类脑机像生物大脑一样都是脉冲神经网络,神经形态器件具有真正的随机性,因此类脑机具备丰富的非线性动力学行为.已证明任何图灵机均可由脉冲神经网络构造出来,类脑机在理论上是否能够超越图灵机,是需要突破的一个重大问题.
    相关文章 | 计量指标
    17. 物联网中基于智能合约的访问控制方法
    杜瑞忠,刘妍,田俊峰
    计算机研究与发展    2019, 56 (10): 2287-2298.   doi: 10.7544/issn1000-1239.2019.20190416
    摘要1368)   HTML42)    PDF (2976KB)(837)   
    针对物联网中设备资源受限、连接数量大、动态性强等特点,传统的集中式访问控制技术已不完全适用,如何在物联网环境中实现安全高效的访问控制授权成为亟待解决的关键问题.对此,提出一种基于层级区块链的物联网分布式体系架构(distributed architecture based on hierarchical blockchain for Internet of things, DAHB).在该架构中以基于属性的访问控制(attribute-based access control, ABAC)模型为基础,采用智能合约的方式实现对物联网设备基于属性的域内和跨域的灵活、动态、自动化的访问控制.同时,在属性度量中增加信任值与诚实度动态评估不同域间和设备间的信任关系,保证实体能够履行合约的信用能力和稳定性.理论分析和实验结果表明:该方案比现有方案更有效解决物联网访问控制中存在的轻量级、灵活性、细粒度和安全性问题.
    相关文章 | 计量指标
    18. 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别
    张晗,郭渊博,李涛
    计算机研究与发展    2019, 56 (9): 1851-1858.   doi: 10.7544/issn1000-1239.2019.20180733
    摘要1853)   HTML17)    PDF (765KB)(820)   
    领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包标注数据集中整合出与专家标注数据分布一致的正样本标注数据来解决领域内标注数据缺乏的问题;然后通过在BiLSTM-Attention-CRF模型中引入文档层面的全局向量,计算每个单词与该全局向量的关系得出其新的特征表示以解决由于实体名称多样化造成的同一文档中实体标注不一致问题;最后,在基于信息安全领域众包标注数据集上的实验结果表明,该模型在各项指标上显著优于同类其他模型方法.
    相关文章 | 计量指标
    19. TensorFlow Lite:端侧机器学习框架
    李双峰
    计算机研究与发展    2020, 57 (9): 1839-1853.   doi: 10.7544/issn1000-1239.2020.20200291
    摘要758)   HTML18)    PDF (1882KB)(817)   
    TensorFlow Lite(TFLite)是一个轻量、快速、跨平台的专门针对移动和IoT场景的开源机器学习框架,是TensorFlow的一部分,支持安卓、iOS、嵌入式Linux以及MCU等多个平台部署.它大大降低开发者使用门槛,加速端侧机器学习的发展,推动机器学习无处不在.介绍了端侧机器学习的浪潮、挑战和典型应用;TFLite的起源和系统架构;TFLite的最佳实践,以及适合初学者的工具链;展望了未来的发展方向.
    相关文章 | 计量指标
    20. 自动文本摘要研究综述
    李金鹏, 张闯, 陈小军, 胡玥, 廖鹏程
    计算机研究与发展    2021, 58 (1): 1-21.   doi: 10.7544/issn1000-1239.2021.20190785
    摘要630)      PDF (1756KB)(784)   
    近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测.
    相关文章 | 计量指标