• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于自然语言处理的漏洞检测方法综述

杨伊, 李滢, 陈恺

杨伊, 李滢, 陈恺. 基于自然语言处理的漏洞检测方法综述[J]. 计算机研究与发展, 2022, 59(12): 2649-2666. DOI: 10.7544/issn1000-1239.20210627
引用本文: 杨伊, 李滢, 陈恺. 基于自然语言处理的漏洞检测方法综述[J]. 计算机研究与发展, 2022, 59(12): 2649-2666. DOI: 10.7544/issn1000-1239.20210627
Yang Yi, Li Ying, Chen Kai. Vulnerability Detection Methods Based on Natural Language Processing[J]. Journal of Computer Research and Development, 2022, 59(12): 2649-2666. DOI: 10.7544/issn1000-1239.20210627
Citation: Yang Yi, Li Ying, Chen Kai. Vulnerability Detection Methods Based on Natural Language Processing[J]. Journal of Computer Research and Development, 2022, 59(12): 2649-2666. DOI: 10.7544/issn1000-1239.20210627
杨伊, 李滢, 陈恺. 基于自然语言处理的漏洞检测方法综述[J]. 计算机研究与发展, 2022, 59(12): 2649-2666. CSTR: 32373.14.issn1000-1239.20210627
引用本文: 杨伊, 李滢, 陈恺. 基于自然语言处理的漏洞检测方法综述[J]. 计算机研究与发展, 2022, 59(12): 2649-2666. CSTR: 32373.14.issn1000-1239.20210627
Yang Yi, Li Ying, Chen Kai. Vulnerability Detection Methods Based on Natural Language Processing[J]. Journal of Computer Research and Development, 2022, 59(12): 2649-2666. CSTR: 32373.14.issn1000-1239.20210627
Citation: Yang Yi, Li Ying, Chen Kai. Vulnerability Detection Methods Based on Natural Language Processing[J]. Journal of Computer Research and Development, 2022, 59(12): 2649-2666. CSTR: 32373.14.issn1000-1239.20210627

基于自然语言处理的漏洞检测方法综述

基金项目: 国家重点研发计划项目(2020AAA0105200);国家自然科学基金项目(U1836211);北京市自然科学基金项目(JQ18011);中国科学院青年创新促进会资助项目;北京智源人工智能研究院资助项目(BAAI2020ZJ0402)
详细信息
  • 中图分类号: TP391

Vulnerability Detection Methods Based on Natural Language Processing

Funds: This work was supported by the National Key Research and Development Program of China (2020AAA0105200), the National Natural Science Foundation of China (U1836211), the Beijing Natural Science Foundation (JQ18011), the Youth Innovation Promotion Association CAS, and the Project of Beijing Academy of Artificial Intelligence (BAAI2020ZJ0402).
  • 摘要: 随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生.漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性.当前漏洞检测技术主要集中在静态检测和动态检测2方面.其中静态检测分析又分为文档分析法、交叉验证法以及程序分析方法等3类.随着自然语言处理技术的兴起和专家知识的不断扩展,研究人员探索了在多个数据源上利用自然语言处理技术辅助进行漏洞检测研究的可行性.根据信息类型的不同,分别从官方文档、代码、代码注释以及漏洞相关信息4部分内容出发,对基于自然语言处理的漏洞检测相关研究成果进行调研.首先,通过对近10年来基于自然语言处理技术的漏洞检测相关文献进行梳理,对相关成果进行分类并提取技术细节;接着,对不同数据源下的研究成果进行横向对比,总结当前基于自然语言处理技术的漏洞检测成果的优缺点;最后,通过交叉对比并深入分析,总结当前基于自然语言处理的漏洞检测方法中存在的8类问题,从数据、技术以及效果3方面进行解决方案的讨论,同时提出了未来研究方向.
    Abstract: With the number of the official reported vulnerabilities is exponentially increasing, the researches aiming at the techniques of vulnerability detection is arising. The diversity of vulnerability types and the unicity of detection methods result in the limitation of the vulnerability detection achievement. The main streams of the research on vulnerability detection methods are static detection and dynamic detection. Static detection includes document analysis, cross validation, and program analysis, etc. With the natural language processing is rising and the knowledge is booming, the researchers explore the possibility of vulnerability detection on multiple data resources with the help of natural language processing technique. In this paper, the literatures are classified into four parts which are official document, code, code comment and the vulnerability-related information based on the sources of information. Firstly, we extract the technical details and classify the research achievement by conducting an investigation on the related researches of the vulnerability detection methods based on natural language processing in recent 10 years, and then we summarize the relative merits of the research achievement by comparing and analyzing the researches originated from various data sources. Finally, through conducting cross comparison and in-depth exploration researches, we conclude eight types of limitations of vulnerability detection methods based on natural language processing and then discuss the solutions on the level of data, technique and effect, and meanwhile propose the future research trends.
  • 期刊类型引用(24)

    1. 许炜,李卓卓,方向阳. 多向度的数据分类分级:目标、逻辑与路径. 图书情报工作. 2025(01): 68-79 . 百度学术
    2. 刘怀骏,徐劲松. 基于区块链和代理重加密的快递出海数据共享方案. 物流科技. 2025(03): 82-86 . 百度学术
    3. 白久君,陈雪波,李大明,刘锐. 构建数字化未来:算网融合的战略应用与研究. 广播电视网络. 2025(02): 28-31 . 百度学术
    4. 任静,李筱永,梁恒瑜,赵依凡,吴佼玥. 脑科学视角下经颅磁刺激治疗精神障碍的法律问题及对策研究. 中国全科医学. 2024(08): 1015-1020 . 百度学术
    5. 薛俊伟,吴凯,周静. 耳机式物联网血氧监护系统的设计. 中国医学物理学杂志. 2024(01): 60-65 . 百度学术
    6. 杨斌,王正阳,程梓航,赵慧英,王鑫,管宇,程新洲. 基于扩散模型生成数据重构的客户流失预测. 计算机研究与发展. 2024(02): 324-337 . 本站查看
    7. 李敏,肖迪,陈律君. 兼顾通信效率与效用的自适应高斯差分隐私个性化联邦学习. 计算机学报. 2024(04): 924-946 . 百度学术
    8. 刘立. 大数据技术在中职计算机教学应用初探. 科技风. 2024(12): 64-66+167 . 百度学术
    9. 孔庆苹. 大数据环境下物联网设备数据隐私保护研究. 无线互联科技. 2024(07): 116-118 . 百度学术
    10. 徐帅. 数据隐私保护与法律责任:新形势下的挑战与应对. 法制博览. 2024(14): 95-97 . 百度学术
    11. 张海霞. 安全路由协议综合交互信任评价及性能分析. 山西电子技术. 2024(03): 69-70+90 . 百度学术
    12. 张世涛,祁舒慧. 社交媒体数据分析在市场审计中的运用. 赤峰学院学报(自然科学版). 2024(07): 30-32 . 百度学术
    13. 张国业,郎雅婧. 科技支撑区域工业治理能力提升路向选择及发展布局. 现代工业经济和信息化. 2024(10): 246-248 . 百度学术
    14. 李卓卓,刘子轶. 从分野到融合:多学科视角下的数据跨境研究综述. 情报杂志. 2024(12): 198-207 . 百度学术
    15. 蒋雷,朱婷婷,汤海林. 大数据背景下塑料加工行业的数据安全与隐私保护. 塑料助剂. 2024(06): 78-82 . 百度学术
    16. 苗权,张弛,房硕,刘季平. 我国数据跨境流动管理的创新实践和思考. 互联网天地. 2023(03): 49-52 . 百度学术
    17. 冯凡. 大数据分析技术下的隐私保护. 数字通信世界. 2023(03): 142-145 . 百度学术
    18. 赵静. 基于区块链技术及数据挖掘技术推进数字经济发展. 科技资讯. 2023(15): 36-39 . 百度学术
    19. 王鹏涛,徐润婕. AIGC介入知识生产下学术出版信任机制的重构研究. 图书情报知识. 2023(05): 87-96 . 百度学术
    20. 赵尔波,苏玉成,黄少远. 医院部署GCP远程监查的多级安全防护设计与实践. 中国卫生信息管理杂志. 2023(05): 709-714 . 百度学术
    21. 张铠,汪希,黄晋. 基于混沌技术的多域物联网敏感数据安全传输方法. 信息与电脑(理论版). 2023(16): 232-234 . 百度学术
    22. 王大阜,王静,石宇凯,邓志文,贾志勇. 基于深度迁移学习的图像隐私目标检测研究. 图学学报. 2023(06): 1112-1120 . 百度学术
    23. 郭赟赟,于浩. 突破语言障碍:ChatGPT在多语言教育中的作用与影响. 郑州师范教育. 2023(06): 48-53 . 百度学术
    24. 姚莉娟,廖冬琴. 基于隐私保护的高校大数据挖掘平台设计. 无线互联科技. 2023(23): 50-54 . 百度学术

    其他类型引用(28)

计量
  • 文章访问数:  804
  • HTML全文浏览量:  31
  • PDF下载量:  477
  • 被引次数: 52
出版历程
  • 发布日期:  2022-11-30

目录

    /

    返回文章
    返回