Processing math: 100%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

欺骗防御技术发展及其大语言模型应用探索

王瑞, 阳长江, 邓向东, 刘园, 田志宏

王瑞, 阳长江, 邓向东, 刘园, 田志宏. 欺骗防御技术发展及其大语言模型应用探索[J]. 计算机研究与发展, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961
引用本文: 王瑞, 阳长江, 邓向东, 刘园, 田志宏. 欺骗防御技术发展及其大语言模型应用探索[J]. 计算机研究与发展, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961
Wang Rui, Yang Changjiang, Deng Xiangdong, Liu Yuan, Tian Zhihong. Development of Deception Defense Technology and Exploration of Its Large Language Model Applications[J]. Journal of Computer Research and Development, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961
Citation: Wang Rui, Yang Changjiang, Deng Xiangdong, Liu Yuan, Tian Zhihong. Development of Deception Defense Technology and Exploration of Its Large Language Model Applications[J]. Journal of Computer Research and Development, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961
王瑞, 阳长江, 邓向东, 刘园, 田志宏. 欺骗防御技术发展及其大语言模型应用探索[J]. 计算机研究与发展, 2024, 61(5): 1230-1249. CSTR: 32373.14.issn1000-1239.202330961
引用本文: 王瑞, 阳长江, 邓向东, 刘园, 田志宏. 欺骗防御技术发展及其大语言模型应用探索[J]. 计算机研究与发展, 2024, 61(5): 1230-1249. CSTR: 32373.14.issn1000-1239.202330961
Wang Rui, Yang Changjiang, Deng Xiangdong, Liu Yuan, Tian Zhihong. Development of Deception Defense Technology and Exploration of Its Large Language Model Applications[J]. Journal of Computer Research and Development, 2024, 61(5): 1230-1249. CSTR: 32373.14.issn1000-1239.202330961
Citation: Wang Rui, Yang Changjiang, Deng Xiangdong, Liu Yuan, Tian Zhihong. Development of Deception Defense Technology and Exploration of Its Large Language Model Applications[J]. Journal of Computer Research and Development, 2024, 61(5): 1230-1249. CSTR: 32373.14.issn1000-1239.202330961

欺骗防御技术发展及其大语言模型应用探索

基金项目: 国家自然科学基金项目(U20B2046);国家重点研发计划项目(2021YFB2012402);广东省高校珠江学者资助计划(2019)
详细信息
    作者简介:

    王瑞: 1994年生. 博士研究生. 主要研究方向为网络安全、攻防博弈、欺骗防御

    阳长江: 2000年生. 硕士研究生. 主要研究方向为网络安全、欺骗防御

    邓向东: 1998年生. 硕士研究生. 主要研究方向为网络安全、欺骗防御

    刘园: 1986年生. 博士,教授,博士生导师. CCF杰出会员. 主要研究方向为网络安全、机制设计、博弈理论

    田志宏: 1978年生. 博士,教授,博士生导师. CCF杰出会员. 主要研究方向为网络攻防对抗、APT 检测与溯源、工控安全

    通讯作者:

    田志宏(tianzhihong@gzhu.edu.cn)

  • 中图分类号: TP391

Development of Deception Defense Technology and Exploration of Its Large Language Model Applications

Funds: This work was supported by the National Natural Science Foundation of China (U20B2046), the National Key Research and Development Program of China (2021YFB2012402), and Guangdong Province Universities and Colleges Pearl River Scholar Funded Scheme(2019).
More Information
    Author Bio:

    Wang Rui: born in 1994. PhD candidate. His main research interests include network security, attack-defense game and deception defense

    Yang Changjiang: born in 2000. Master candidate. His main research interests include network security and deception defense

    Deng Xiangdong: born in 2000. Master candidate. His main research interests include network security and deception defense

    Liu Yuan: born in 1986. PhD, professor, PhD supervisor. Distinguished member of CCF. Her main research interests include network security, mechanism design, and game theory

    Tian Zhihong: born in 1978. PhD, professor, PhD supervisor. Distinguished member of CCF. His research interests include network attack and defense confrontation, APT detection and traceability, and industrial control security

  • 摘要:

    欺骗防御作为主动防御中最具发展前景的技术,帮助防御者面对高隐蔽未知威胁化被动为主动,打破攻守间天然存在的不平衡局面. 面对潜在的威胁场景,如何利用欺骗防御技术有效地帮助防御者做到预知威胁、感知威胁、诱捕威胁,均为目前需要解决的关键问题. 博弈理论与攻击图模型在主动防御策略制定、潜在风险分析等方面提供了有力支撑,总结回顾了近年来二者在欺骗防御中的相关工作. 随着大模型技术的快速发展,大模型与网络安全领域的结合也愈加紧密,通过对传统欺骗防御技术的回顾,提出了一种基于大模型的智能化外网蜜点生成技术,实验分析验证了外网蜜点捕获网络威胁的有效性,与传统Web蜜罐相比较,在仿真性、稳定性与灵活性等方面均有所提升. 为增强蜜点间协同合作、提升对攻击威胁的探查与感知能力,提出蜜阵的概念. 针对如何利用蜜点和蜜阵技术,对构建集威胁预测、威胁感知和威胁诱捕为一体的主动防御机制进行了展望.

    Abstract:

    Deception defense, as the most promising technology in proactive defense, aids defenders in facing highly covert and unknown threats, turning passivity into proactivity, and breaking the inherent imbalance between offense and defense. In the face of potential threat scenarios, how to effectively use deception defense technology to help defenders anticipate threats, perceive threats, and entrap threats, is a key issue that currently need to be addressed. Game theory and attack graph models provide strong support in formulating active defense strategies and analyzing potential risks. We summarize and review the recent work of both in the realm of deception defense. With the rapid development of large language model technology and its increasingly close integration with the field of cybersecurity, we review traditional deception defense technology and propose a large language model-based intelligent external network HoneyPoint generation technique. Experimental analysis validates the effectiveness of external network HoneyPoint in capturing network threats, showing improvements over traditional Web honeypots in aspects like simulation, stability, and flexibility. To enhance the collaborative cooperation between HoneyPoints and improve the capabilities for threatening exploration and perception, the concept of Honey-Landscape is introduced. We provide an outlook on how to utilize HoneyPoint and Honey-Landscape technologies to construct an integrated active defense mechanism that includes threat prediction, threat perception, and threat entrapment.

  • 大语言模型,如FLAN[1], GPT-3[2], LLaMA[3]和PaLM2[4]等,在对话、理解和推理方面展示了惊人的能力[5]. 在不修改模型参数的情况下,大模型可以仅通过输入合适的提示来执行各种任务. 其中,GPT系列模型因其出色的能力备受关注.

    为定量评估和探究大模型的能力,已有的工作集中于评估大模型在常识和逻辑推理[6]、多语言和多模态[7]、心智理论[8]和数学[9]等方面的能力. 尽管这些工作在基准测试集上取得了很好的效果,但大模型是否具备良好的鲁棒性仍然需要进一步研究.

    鲁棒性衡量了模型在面对异常情况(如噪音、扰动或故意攻击)时的稳定性,这种能力在现实场景,尤其是在自动驾驶和医学诊断等安全场景下对于大模型至关重要. 鉴于此,现有工作对大模型的鲁棒性展开了探究:Wang等人[10]从对抗性和分布外(out of distribution,OOD)的角度出发,使用现有的AdvGLUE[11]和ANLI[12]对抗基准评估ChatGPT等大模型的对抗鲁棒性,使用DDXPlus[13]医学诊断数据集等评估分布外鲁棒性;Zhu等人[14]则从提示的角度出发,提出了基于对抗性提示的鲁棒性评测基准,并对大模型在对抗提示方面的鲁棒性进行了分析. 然而,已有的研究主要使用对抗攻击策略,这对于大规模评估来说需要消耗大量的算力和时间;并且对抗样本生成的目标是通过对特定模型或数据集的原始输入进行微小的扰动,以误导模型的分类或生成结果,但这些扰动并不总是代表真实世界中的威胁和攻击方式. 此外,现有研究大多针对ChatGPT及同时期的其他大模型,对GPT系列模型迭代过程中性能和鲁棒性的变化关注较少.

    鉴于此,本文选择了图1所示的5个GPT-3和GPT-3.5系列模型作为大模型的代表,通过全面的实验分析其性能和鲁棒性,以解决3个问题.

    图  1  5个GPT-3和GPT-3.5系列模型的迭代过程
    Figure  1.  The evolution of five GPT-3 and GPT-3.5 series models

    问题1:GPT模型在自然语言处理(NLP)任务的原始数据集上有何性能缺陷?

    为给后续的鲁棒性评估提供基础和参考点,本文首先评估模型在原始数据集上的性能. 本文选择15个数据集(超过147000个原始测试样本),涵盖了9个常见的NLP任务,如情感分析、阅读理解和命名实体识别等,评估了GPT模型在原始数据集上的性能以及迭代过程中的性能变化. 虽然这些任务没有直接对应具体的对话场景,但它们评估了模型的潜在能力,包括理解上下文、处理不同的语言结构和捕捉微小的信息等,这些能力对于语言理解和生成系统都非常重要.

    问题2:GPT模型在NLP任务上面对输入文本扰动时的鲁棒性如何?

    本文首先确定评估鲁棒性的方法. 为更加真实地模拟现实世界中可能存在的噪音、扰动和攻击,本文选择了TextFlint[15]作为对输入文本进行扰动的工具. TextFlint提供了许多针对NLP任务特定的文本变形,这些变形均基于语言学进行设计,体现了实际使用语言过程中可能发生的情况,保持了变形后文本的语言合理性,能够模拟实际应用中的挑战. 本文使用了61种文本变形方法,这些变形按照粒度可以分为句子级、词级和字符级. 本文通过实验分析了GPT模型在各种任务和各个变形级别上的鲁棒性,并探究了模型迭代过程中鲁棒性的变化.

    问题3:提示对GPT模型的性能和鲁棒性有何影响?

    在上述2个问题中,本文从测试文本出发,通过将不同的测试样本与任务特定的提示进行拼接,评估了模型的性能和鲁棒性. 在这个问题中,本文从提示的角度出发,研究其对性能和鲁棒性的影响. 上下文学习[16](in-context learning,ICL)已经成为NLP领域的新范式,语言模型可以仅基于少量示例执行复杂任务. 基于此,本文通过改变提示中演示(demonstration)的数量或内容,探究提示对GPT模型的性能和鲁棒性的影响.

    本文的定量结果和定性分析表明:

    1)GPT模型在情感分析、语义匹配等分类任务和阅读理解任务中表现出较优异的性能,但在信息抽取任务中性能较差. 例如,其严重混淆了关系抽取任务中的各种关系类型,甚至出现了“幻觉”现象.

    2)在处理被扰动的输入文本时,GPT模型的鲁棒性较弱,它们在分类任务和句子级别变形中鲁棒性缺乏更为显著.

    3)随着GPT系列模型的迭代,其在NLP任务上的性能稳步提升,但是鲁棒性并未增强. 除情感分析任务外,模型在其余任务上的鲁棒性均未明显提升,甚至出现显著波动.

    4)随着提示中演示数量的增加,GPT模型的性能提升,但模型鲁棒性仍然亟待增强;演示内容的改变可以一定程度上增强模型的抗扰动能力,但未能从根本上解决鲁棒性问题.

    同时,通过对gpt-3.5-turbo的更新版本、gpt-4、开源模型LLaMA2-7B和LLaMA2-13B的表现进行评估,本文进一步验证了上述实验结论的普适性和可持续性.

    近期有大量的研究集中于评估大模型在各种任务中的性能. Qin等人[6]对ChatGPT和text-davinci-003等模型在常见NLP任务上的零样本能力进行了评测,结果表明ChatGPT擅长处理推理和对话任务,但是在序列标注任务上表现欠佳;Bang等人[7]评估了ChatGPT在多任务、多语言和多模态方面的能力,发现ChatGPT在大多数任务上优于零样本学习的大模型,甚至在某些任务上优于微调模型;Zhuo等人[17]针对大模型伦理进行了评测工作. 此外,大量工作针对大模型在不同领域的能力进行了研究和讨论,包括法律领域[18]、教育领域[19-20]、人机交互领域[21]、医学领域[22]以及写作领域[23]等. 然而,这些研究主要集中在大模型的性能上,对鲁棒性的关注有限. 模型在固定的测试数据上取得较高准确率,并不能反映出其在现实场景中面对输入的文本噪音、扰动或恶意攻击时的可靠性和稳定性,因此,鲁棒性对于评估模型处理现实世界中的复杂任务的能力至关重要.

    已有的关于大模型鲁棒性的工作主要集中于2个方面:对抗鲁棒性和分布外鲁棒性. 对抗鲁棒性是指模型在对抗样本上的鲁棒性表现,对抗样本[24]的生成方式为:对原始输入施加一个阈值范围内的微小扰动,使得模型的分类或生成结果发生变化. 分布外鲁棒性关注于模型的泛化性,即使用与模型训练数据存在分布偏移的数据(包括跨域或跨时间数据)进行鲁棒性评测. Wang等人[10]使用现有的AdvGLUE[11]和ANLI[12]对抗基准评估ChatGPT等大模型的对抗性鲁棒性,使用Flipkart评论和DDXPlus[13]医学诊断数据集评估分布外鲁棒性. 结果表明,尽管ChatGPT在大多的分类任务和翻译任务上展现出更优的鲁棒性,但是大模型的对抗性和分布外鲁棒性仍然较弱. Zhu等人[14]针对提示进行对抗攻击,并使用这些对抗性提示对大模型进行鲁棒性测试,结果表明大模型容易受到对抗性提示的影响. 然而,对抗样本的数据是以欺骗模型为目的而生成的,与现实场景中产生的噪音和扰动存在明显差异,并且生成对抗样本需要消耗大量算力和时间,不适合进行大规模评测. 本文通过考虑更广泛的使用场景,从输入文本的角度出发,利用任务特定的文本变形来评估大模型在每个任务中的鲁棒性表现,从而进行更全面的分析. 此外,本文关注于GPT系列的多个模型的表现,分析了它们在迭代过程中性能和鲁棒性方面的变化.

    为了全面评估GPT模型在各类NLP任务上的表现,本文选取了9个常见的NLP任务,涵盖分类、阅读理解和信息抽取3个不同类别,如表1所示. 针对每个任务,本文选取了具有代表性的公开数据集进行测试,最终共包含15个不同数据集.

    根据图1所示,本文主要针对5个GPT-3和GPT-3.5系列模型进行评估和分析,并对GPT-4模型在零样本场景下进行抽样测试,所有模型都通过OpenAI官方API 1进行评估. 根据OpenAI官方文档的说明,text-davinci-002是基于code-davinci-002的InstructGPT[37]模型,其使用了一种监督式微调策略的方法FeedME 2进行训练;text-davinci-003是text-davinci-002的改进版本,其使用近端优化策略(proximal policy optimization,PPO)算法进行训练,该算法被用于基于人类反馈的强化学习[38](reinforcement learning from human feedback, RLHF);gpt-3.5-turbo是针对聊天场景进行优化的最强大的GPT-3.5模型(本文第3~5节所使用的版本均为gpt-3.5-turbo-0301版本).

    性能评测对于评估模型的能力,以及对后续的鲁棒性评估建立基准和参考至关重要. 本节对GPT系列模型在NLP任务中原始数据集上的性能表现进行了全面的评测,旨在评估它们在不同NLP任务中的表现,并分析它们有何缺陷. 同时,本节还探究了GPT系列模型在迭代过程中的性能变化.

    大模型可以通过输入适当的提示或指令来执行各种任务,而无需修改任何参数. 为评估GPT模型在NLP任务中的性能,本文针对每个具体任务设计了3种不同的提示. 如图2所示,本文将提示与测试文本拼接起来作为测试样本输入模型,并获得相应的输出,通过对输出结果的定量评估来评测模型的性能.

    图  2  实验评测流程图
    Figure  2.  Overview of experimental evaluating process

    为定量分析模型的性能,本文使用准确率(accuracy)和F1分数(F1 score)作为评估指标. 各个数据集对应的评估指标如表1所示.

    表  1  实验使用的15个数据集的信息
    Table  1.  Information of 15 Datasets Used in Experiments
    任务类型 子任务类型 数据集 数据量 评测指标
    分类 细粒度情感分析(ABSA) SemEval2014-Laptop[25] 331 准确率
    SemEval2014-Restaurant[25] 492 准确率
    情感分析(SA) IMDB[26] 25000 准确率
    自然语言推理(NLI) MNLI-m[27] 9815 准确率
    MNLI-mm[27] 9832 准确率
    SNLI[27] 10000 准确率
    语义匹配(SM) QQP[28] 40430 准确率
    MRPC[29] 1725 准确率
    威诺格拉德模式挑战(WSC) WSC273[30] 570 准确率
    阅读理解 机器阅读理解(MRC) SQuAD 1.1[31] 9868 F1
    SQuAD 2.0[32] 11491 F1
    信息抽取 词性标注(POS) WSJ[33] 5461 准确率
    命名实体识别(NER) CoNLL2003[34] 3453 F1
    OntoNotesv5[35] 4019 F1
    关系抽取(RE) TACRED[36] 15509 F1
    下载: 导出CSV 
    | 显示表格

    由于本文实验涉及不同模型、数据集、变形类型、提示种类等多个维度,为方便后续从不同维度对结果进行统计、计算和比较,实验选取的基准模型应当在NLP研究中具有强大的性能和广泛应用,从而能够适用于本文所有评测数据集. 因此,本文选择BERT[39]作为所有数据集的统一基准模型. 对于每个数据集,本文使用在相应数据集上经过有监督微调的BERT模型. 具体而言,对于IMDB数据集和WSJ数据集,本文使用的BERT版本分别是BERT-Large-ITPT和BERT-BiLSTM-CRF. 在其他数据集中,本文均使用BERT-base-uncased作为基准模型. 此外,本节中GPT模型的测试结果均为零样本场景下的结果.

    首先分析2个最新的GPT-3.5模型(即gpt-3.5-turbo和text-davinci-003模型)的性能表现, 其和BERT在15个数据集上的性能表现如图3所示,图中的数据是每个数据集在3个提示下的性能均值. 图3所示的结果表明,GPT模型的零样本性能在情感分析、语义匹配、机器阅读理解等分类任务和阅读理解任务中可以与BERT相媲美,并且在SemEval2014-Restaurant和WSC273数据集上的表现均优于BERT.

    图  3  GPT-3.5模型和BERT的性能表现
    注: “Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集.
    Figure  3.  Performance of GPT-3.5 models and BERT

    然而,GPT模型在命名实体识别(NER)和关系抽取(RE)任务上表现不佳. 为深入了解模型错误预测背后的原因,本文选择CoNLL2003和TACRED数据集作为代表,分析了错误预测的分布情况. 图4的2个分图的第1列表示在CONLL2003数据集的预测结果中,实体类型被错误预测为“非实体”类型(即“O”)的数量. 结果表明,在NER任务中,大多数错误预测来自于“O”标签与特定实体类型的混淆,这表明大模型对实体词缺乏敏感性;在RE任务中,如图5的2个分图的第1行所示,GPT模型倾向于将“无关系”实例(即“N/A”)错误分类为特定的关系类型.

    图  4  在CoNLL2003数据集上的错误预测的分布
    Figure  4.  Distribution of prediction errors in CoNLL2003 dateset
    图  5  在TACRED数据集上的错误预测的分布
    Figure  5.  Distribution of prediction errors in TACRED dataset

    需要注意的是,我们观察到在RE任务中模型存在“幻觉”现象,即模型生成了在给定文本和预定义标签空间中不存在的虚构关系. 如图5所示,“N/A”表示“无关系”,“PER”和“ORG”分别表示属于“人物”和“组织”关系类别中的关系类型集合,而 “Other”表示不属于任何预定义标签的关系集合. 如图5的最后1列所示,GPT模型在生成结果中会虚构大量的“Other”关系,而非基于提示中给出的任务特定的关系类型和语义信息. 同时,本文在IMDB二分类数据集中也观察到类似的现象,模型将许多句子分类为“中性”标签,而该标签并不属于提示中给定的标签空间.

    图6所示,本文按照OpenAI官方发布模型的时间顺序和迭代关系(图1),评测了GPT-3和GPT-3.5系列模型在迭代过程中性能的变化. 由于测试数据较多,本文按照表1所示的子任务类型进行结果展示,每个子任务的数值为其包含数据集的结果的均值. 结果表明,随着模型发布时间的推移,GPT模型在大多数NLP任务上的性能稳步提升. 其中,GPT模型在情感分析(SA)和细粒度情感分析(ABSA)任务上保持了较高的性能,并在自然语言推理(NLI)、语义匹配(SM)和威诺格拉德模式挑战(WSC273)任务上有显著的性能提升,但在NER和RE任务上的性能一直处于较低水平.

    图  6  GPT模型的性能变化
    Figure  6.  Performance variations of GPT models

    由于text-davinci-001和gpt-3.5-turbo在WSJ数据集上未能按照提示完成任务,因此图3图6中未展示该数据集的结果.

    在NLP中,鲁棒性通常是指模型在面对噪音、扰动或有意攻击等情况时能够持续可靠地执行任务的能力. 具有较高鲁棒性的模型,在处理不应该对输出造成影响的微小变化的输入时,模型的预测结果不会发生变化. 本节对GPT模型面对输入文本扰动时的鲁棒性进行了全面评估,并分析了不同任务和不同变形级别的鲁棒性情况.

    表2所示,本节使用TextFlint提供的61种任务特定的变形来评测模型的鲁棒性. 如图2所示,每种变形均已通过TextFlint提供的变形规则作用于原始数据,从而生成变形数据. 本文通过将提示与变形数据拼接起来,作为测试文本输入模型并获得相应输出.

    表  2  61种任务特定变形的信息
    Table  2.  Information of 61 Task-Specific Transformations
    子任务类型 变形类型 变形方式
    细粒度情感分析(ABSA)句子级AddDiff, RevNon, RevTgt
    情感分析(SA)词级SwapSpecialEnt-Movie,
    SwapSpecialEnt-Person
    句子级AddSum-Movie, AddSum-Person, DoubleDenial
    自然语言推理(NLI)字符级NumWord
    词级SwapAnt
    句子级AddSent
    语义匹配(SM)字符级NumWord
    词级SwapAnt
    威诺格拉德模式挑战(WSC)字符级SwapNames
    词级SwapGender
    句子级AddSentences, InsertRelativeClause, SwitchVoice
    机器阅读理解(MRC)句子级AddSentDiverse, ModifyPos, PerturbAnswer, PerturbQuestion-BackTranslation, PertyrbQuestion-MLM
    词性标注(POS)字符级SwapPrefix
    词级SwapMultiPOSJJ, SwapMultiPOSNN, SwapMultiPOSRB, SwapMutliPOSVB
    命名实体识别(NER)字符级EntTypos, OOV
    词级CrossCategory, SwapLonger
    句子级ConcatSent
    关系抽取(RE)词级SwapEnt-LowFreq, SwapEnt-SamEtype
    句子级InsertClause, SwapTriplePos-Age, SwapTriplePos-Birth, SwapTriplePos-Employee
    下载: 导出CSV 
    | 显示表格

    TextFlint提供的变形是基于语言学并针对不同的NLP任务设计的,在保持变形文本的可接受性的同时,能够更好地代表实际应用中的挑战. 本节中,根据变形的粒度,将变形分为句子级别、词级别和字符级别. 表3展示了不同类型的变形样例.

    表  3  不同类型的变形样例
    Table  3.  Examples of Deformations in Different Categories
    变形类型 变形方式 样例
    字符级 SwapPrefix 原始:That is a prefixed string.
    变形后:That is a preunfixed string.
    词级 DoubleDenial 原始:The leading actor is good.
    变形后:The leading actor is good not bad.
    句子级 InsertClause 原始:Shanghai is in the east of China.
    变形后:Shanghai which is a municipality of China
    is in the east of China established in Tiananmen.
    注: 划线单词表示变形后的数据中删掉的部分;黑体单词表示变形后的数据中新增的部分.
    下载: 导出CSV 
    | 显示表格

    由于在不同任务和变形中使用的评估指标存在差异,本节在鲁棒性评估中引入一个新指标,即性能下降率(performance drop rate,PDR). 该指标的计算方式为:

    PDR(T,P,fθ,D)=1(x;y)DM[fθ([P,T(x)]),y](x;y)DM[fθ([P,x]),y] (1)

    其中,M表示不同数据集D使用的评价指标. PDR提供了一种上下文归一化的度量方式,用于量化在处理经过变形T的输入x(使用提示P)时,模型fθ发生的相对性能下降. 其中,负值的PDR表示在某些文本变形下会出现性能提升.

    本节计算模型在不同数据集和变形中的平均原始性能(ori)、 平均变形性能(trans)和平均性能下降率(APDR). 此外,使用BERT作为基准模型,并且对于每个数据集,GPT模型和BERT都在相同的变形方法和测试数据上进行了评估.

    表4列出了模型在每个数据集上的平均结果. 具体而言,本文定义APDRDPDR(式(1))在不同数据集上的平均值:

    表  4  不同模型的鲁棒性表现
    Table  4.  The Robustness Performance of Different Models %
    数据集 gpt-3.5-turbo text-davinci-003 BERT
    ori trans APDR ori trans APDR ori trans APDR
    Restaurant 91.43±1.23 66.00±11.28 27.80±2.74 90.14±1.33 52.59±11.21 41.65±4.26 84.38±1.20 53.49±15.07 36.51±18.43
    Laptop 86.67±2.15 59.36±21.97 31.25±23.31 83.30±0.71 54.71±17.75 34.42±19.29 90.48±0.06 49.06±9.03 45.78±9.97
    IMDB 91.60±0.20 90.86±0.50 0.80±0.47 91.74±0.68 91.40±0.58 0.37±0.31 95.24±0.12 94.61±0.80 0.66±0.94
    MNLI-m 73.03±7.44 41.75±17.05 42.27±21.87 67.49±2.80 54.88±20.93 19.52±24.60 86.31±4.50 52.49±2.97 39.10±4.13
    MNLI-mm 72.21±7.69 40.94±19.11 42.71±24.31 66.61±1.57 50.57±20.58 24.46±27.71 84.17±1.09 52.33±5.44 37.87±5.73
    SNLI 73.30±12.50 47.80±8.80 32.99±13.66 70.81±9.24 56.44±22.68 18.99±26.16 90.75±1.52 77.61±18.34 14.44±20.25
    QQP 79.32±5.97 64.96±20.52 17.17±1.18 70.14±12.03 69.27±13.67 −1.08±9.23 91.75±2.60 52.77±5.93 42.56±4.83
    MRPC 80.69±10.28 84.99±10.69 −8.12±22.99 74.87±5.38 74.33±23.12 −0.17±26.51 86.87±6.05 0.00±0.00 100.00±0.00
    WSC273 66.05±1.95 64.12±5.82 2.93±5.57 62.05±0.48 61.42±2.41 1.01±3.12 56.00±0.00 53.61±5.31 4.26±9.49
    SQuAD 1.1 55.33±8.22 44.55±9.73 19.45±12.39 67.18±8.23 61.07±9.04 9.11±7.13 87.22±0.26 70.78±21.84 18.88±24.95
    SQuAD 2.0 55.03±7.39 44.21±9.31 19.62±12.70 65.91±7.81 59.70±8.93 9.45±7.58 78.81±2.65 60.17±16.99 23.48±21.81
    WSJ 75.53±2.28 74.63±2.58 1.21±0.90 97.72±0.09 96.23±1.69 1.53±1.79
    CoNLL2003 44.61±3.48 37.30±9.29 16.31±20.05 51.54±2.88 42.64±9.24 17.13±17.76 90.57±0.38 72.24±16.75 20.26±18.42
    OntoNotesv5 17.74±8.51 18.68±7.00 −12.73±40.09 11.94±9.98 12.30±7.69 −17.51±51.73 79.99±6.54 61.98±20.30 23.47±20.45
    TACRED 31.44±31.24 32.64±33.27 0.58±7.88 35.67±30.89 38.67±31.59 −25.69±55.14 77.99±13.47 65.53±15.46 16.54±7.83
    注:“±”后的数字表示均值对应的标准差;“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集;“−”表示模型未完成指定任务.
    下载: 导出CSV 
    | 显示表格
    APDRD(fθ,D)=1|TD|1|P|TTDPPPDR(T,P,fθ,D) (2)

    其中,TD表示特定数据集D包含的任务特定变形的集合,P表示3个提示的集合.

    与第3节类似,本节首先分析gpt-3.5-turbo和text-davinci-003的鲁棒性表现. 表4表明,GPT模型的表现与BERT类似,其在分类任务中出现了显著的性能下降. 例如,gpt-3.5-turbo在MNLI-mm数据集上的绝对性能下降了42.71个百分点,而text-davinci-003在SemEval2014-Restaurant数据集上的绝对性能下降了41.65个百分点.

    此外,GPT模型在阅读理解(MRC)任务中性能较稳定,其在SQuAD 1.1和SQuAD 2.0变形前后的数据集上的性能没有出现严重的下降. 但与其他任务不同的是,在MRC任务中,text-davinci-003在性能和鲁棒性方面的表现均优于gpt-3.5-turbo. 进一步分析发现,如表4所示,gpt-3.5-turbo在该任务上具有较低的精确度(precision),通过抽样分析其生成结果,我们发现原因可能在于gpt-3.5-turbo倾向于生成更长的句子. 此外,这2个模型的输出均达到95%左右的召回率(recall),这表明GPT模型在篇章级别的理解任务上具有较强的能力.

    同时,GPT模型对数字和反义词敏感度较高. 在语义匹配任务(包括QQP和MRPC数据集)中,GPT模型和BERT在变形前后的性能变化上存在显著差距. BERT在MRPC数据集上的变形后性能降至0,但GPT模型在该数据集上的变形后性能甚至有所提升. 通过分析MRPC和QQP数据集的任务特定变形,即NumWord和SwapAnt,我们发现这2种变形通过改变原始数据中的数字或对原始词语进行反义词替换,将原始句子对之间的蕴涵关系转化为矛盾关系. GPT模型在此类变形上的性能提升表明它们能够较好地捕捉到变形后的文本中数字或反义词所涉及的矛盾关系.

    在NER和RE任务中,GPT模型性能的下降不明显,有时甚至有提升,尤其是在OntoNotesv5和TACRED数据集中. 但需要注意的是,模型在这些数据集上的原始性能较低. 因此,在这种情况下,讨论GPT模型在这类任务上的鲁棒性缺乏实际意义,提升模型在原始数据上的性能更为紧要.

    此外,随着迭代的进行,GPT系列模型在不同任务上平均性能下降率的变化如图7所示. 由于不同模型间的结果波动较大,图7的纵坐标数值为经过对数变换之后的结果. 平均性能下降率越小,代表模型的鲁棒性越好,但图中的结果没有呈现出一致的趋势. 在ABSA和MRC任务中,模型间的鲁棒性表现较为相似;在SA任务上出现了较显著的鲁棒性提升;但是在其余任务中均呈现出显著的波动,并且没有出现鲁棒性显著提升的情况. 这可能表明GPT模型的迭代过程主要集中于改进模型在一般场景下的性能,而非解决鲁棒性问题.

    图  7  GPT模型的平均性能下降率的变化
    Figure  7.  APDR variations of GPT models

    图8为GPT模型在3种变形级别上的性能下降情况. 其中斜杠部分表示模型的变形后性能,无斜杠部分表示变形后性能与原始性能的差值,折线表示平均性能下降率(APDR). 通过计算每个变形级别下的PDR的均值得到APDRTt

    图  8  不同模型在3种变形类别上的性能下降情况
    Figure  8.  Performance drop of different models on three transformation categories
    APDRTt(fθ,Tt)=1|D|1|P|DDPPPDR(Tt,P,fθ,D) (3)

    其中,Tt表示某个变形类别t的变形集合,P表示提示的集合.

    根据图8所示,GPT模型的APDR在句子级、词级、字符级3个变形类别上逐级递减,即处理句子级别的变形文本时,GPT模型在变形前后的性能下降更为显著. 句子级别的变形通常涉及语义的重新表述或句子整体结构的改变,这对模型稳定性有更高的要求. 此外,GPT模型在字符级和词级变形上表现出比BERT更好的鲁棒性. GPT模型的平均性能下降范围为9.61%~15.22%,而BERT在字符级和词级变形上的性能下降分别为36.74%和37.07%. 可以看出,与监督微调模型相比,GPT模型对细粒度扰动表现出更强的稳定性.

    在第3节和第4节中,本文使用涵盖了各种任务和文本变形的大量测试数据,对GPT模型的性能和鲁棒性进行了评估. 除测试文本之外,提示是评测过程中模型输入数据的另一个重要部分,并且基于提示中少量示例的上下文学习已经成为NLP领域的新范式. 基于此,本节探究提示对GPT模型的性能和鲁棒性的影响,具体关注2个方面:1)提示中演示数量的影响;2)提示中演示内容的影响. 其中,演示是指提示中的示例或样本,通常用来说明我们所期望模型输出的结果.

    通过改变演示数量(即图2中的“k”),本文研究了在0、1和3个演示数量下模型的原始性能表现和变形前后性能的变化.

    图9结果表明,增加演示数量通常会带来性能的提升. 此外,从零样本增加为少样本的情况下,模型性能提升显著,特别是对于一开始在零样本情景下表现不佳的任务,如信息抽取任务. 此外,随着演示数量的增加,不同GPT模型之间的性能差异减小.

    图  9  GPT模型在0-shot、1-shot、3-shot样本场景下原始性能与变形后的性能表现
    Figure  9.  Original and transformed performance of GPT models on 0-shot, 1-shot, and 3-shot

    然而,就变形前后的性能变化而言,在大多数情况下,增加演示数量没有显著缓解模型的性能下降. 只有在分类任务中,可以观察到text-davinci-001,code-davinci-002和text-davinci-002的性能下降有所缓解. 这表明增加演示数量虽然可以改善模型在原始任务上的性能,但并不能有效提高模型面对扰动时的鲁棒性.

    在5.1节中的少样本情景下,原始数据和变形后数据均使用相同的、未经过变形的演示样例来研究变形后测试数据引起的性能变化. 本节研究在提示中使用变形后的演示样例对模型的鲁棒性有何影响. 本文分别从分类、信息抽取和阅读理解三大类任务中选取SemEval2014-Restaurant (Restaurant),CoNLL2003和SQuAD 1.1数据集作为代表进行实验. 对于每个数据集,演示样例使用该数据集特定的任务变形进行变换,并与变形后的测试数据拼接,用以评估模型变形后的性能. 演示样例的数量为3.

    图10展示了变形前后模型的APDR. 结果表明,在演示中使用变形后的样本有助于缓解模型变形后的性能下降,说明演示中包含的扰动信息能够帮助模型更好地处理变形数据. 但是,APDR依然处于较高的数值,这表明这种性能改善是有限的,不足以从根本上解决模型的鲁棒性问题.

    图  10  模型使用原始和变形后的演示数据的APDR
    Figure  10.  APDR with original and transformed demonstrations date

    本文前文主要针对GPT-3和GPT-3.5系列模型的性能和鲁棒性表现进行了探究. 随着时间的推进,GPT系列模型仍然在持续迭代,并且Chen等人[40]、Tu等人[41]近期的工作表明模型的表现会随时间发生变化. 为了更好地验证本文实验结果的可持续性,本节针对GPT系列模型的更新版本“gpt-3.5-turbo-0613”(上文中的“gpt-3.5-turbo”为“gpt-3.5-turbo-0301”版本)、“gpt-4” 进行性能和鲁棒性评测.

    首先是模型的性能表现. 如图11所示,根据模型更新与迭代顺序,gpt-3.5-turbo-0613和gpt-4模型在大部分数据集上的性能表现较为显著的提升. 其中,在情感分析和阅读理解的数据集中,这2个模型的提升最为显著. 第3节中的结果表明GPT模型在NER和RE任务上表现不佳,图11表明gpt-3.5-turbo-0613和gpt-4模型在NER任务的OntoNotesv5数据集及RE任务的TACRED数据集上的表现仍然处于较低水平.

    图  11  GPT和LLaMA2模型的性能表现
    注:“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集. 柱状图中WSJ和TACRED数据集空缺的部分表示模型未完成在该数据集上的指定任务.
    Figure  11.  Performance of GPT and LLaMA2 models

    其次是模型的鲁棒性表现. 表5展示了3个模型的鲁棒性表现. 如表5所示, GPT模型仍然存在4.3节中提到的鲁棒性问题,尤其在分类任务中存在显著的性能下降. 值得注意的是,在阅读理解任务中gpt-3.5-turbo-0613和gpt-4 的鲁棒性进一步提升,表现出在该任务上较高的稳定性. 同时,gpt-3.5-turbo的版本迭代未带来稳定的鲁棒性提升,而gpt-4的鲁棒性在大多任务上都优于GPT-3.5系列模型.

    表  5  3个GPT模型的鲁棒性表现
    Table  5.  The Robustness Performance of Three GPT Models %
    数据集 gpt-3.5-turbo-0301 gpt-3.5-turbo-0613 gpt-4
    ori trans APDR ori trans APDR ori trans APDR
    Restaurant 91.43±1.23 66.00±11.28 27.80±2.74 97.05±0.86 59.98±16.37 38.28±16.56 95.81±2.27 71.07±9.15 25.80±9.69
    Laptop 86.67±2.15 59.36±21.97 31.25±23.31 93.91±1.45 63.82±19.10 32.16±19.83 98.74±1.88 74.42±16.01 24.75±15.42
    IMDB 91.60±0.20 90.86±0.50 0.80±0.47 96.58±1.05 95.99±1.63 0.62±0.90 93.81±3.69 91.91±5.31 2.05±3.83
    MNLI-m 73.03±7.44 41.75±17.05 42.27±21.87 71.88±7.99 35.30±16.00 51.85±20.03 84.24±7.00 53.46±10.50 36.81±9.04
    MNLI-mm 72.21±7.69 40.94±19.11 42.71±24.31 71.78±7.68 35.59±15.45 50.28±22.50 80.23±8.14 53.88±14.19 33.28±14.43
    SNLI 73.30±12.50 47.80±8.80 32.99±13.66 75.67±15.70 38.58±11.11 47.61±16.40 89.10±5.64 70.65±21.60 21.25±21.31
    QQP 79.32±5.97 64.96±20.52 17.17±1.18 81.42±8.49 49.71±16.16 38.22±22.66 53.14±19.48 84.91±15.74 −105.86±159.05
    MRPC 80.69±10.28 84.99±10.69 −8.12±22.99 85.70±11.16 70.65±16.74 14.29±30.49 60.38±7.06 94.65±4.68 −58.46±18.46
    WSC273 66.05±1.95 64.12±5.82 2.93±5.57 53.98±0.75 51.92±3.13 3.80±6.10 77.88±6.12 64.42±23.57 16.91±30.39
    SQuAD1.1 55.33±8.22 44.55±9.73 19.45±12.39 90.11±1.09 80.84±8.65 10.27±9.70 95.14±1.74 84.96±13.75 10.69±14.41
    SQuAD2.0 55.03±7.39 44.21±9.31 19.62±12.70 73.68±4.61 64.25±10.76 12.85±13.16 81.94±3.17 74.15±7.17 9.50±8.02
    WSJ 50.35±5.22 49.31±5.61 2.07±4.52 68.66±3.03 67.88±5.58 1.10±7.39
    CoNLL2003 44.61±3.48 37.30±9.29 16.31±20.05 66.78±2.98 49.76±11.69 25.38±17.69 83.23±1.86 65.53±13.86 21.25±16.66
    OntoNotesv5 17.74±8.51 18.68±7.00 −12.73±40.09 9.85±6.53 13.50±4.13 −66.86±72.42 7.58±15.72 6.70±10.70 10.87±15.47
    TACRED 31.44±31.24 32.64±33.27 0.58±7.88 37.00±35.29 40.23±34.38 −20.07±36.33 14.32±7.57 13.31±9.17 −0.02±74.59
    注:“±”后的数字表示均值对应的标准差;“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集;“−”表示模型未完成指定任务.
    下载: 导出CSV 
    | 显示表格

    由于GPT系列模型出色的性能和较完善的迭代过程,对其进行的性能和鲁棒性评测有助于更全面地了解大模型的能力及其发展进程中的变化,但是由于闭源模型的限制,后续在GPT系列模型上进行优化较为困难. 为此,本节对开源模型LLaMA2-7B和LLaMA2-13B进行性能和鲁棒性评测.

    图11第1个子图所示,LLaMA2-7B和LLaMA2-13B在情感分析和阅读理解类任务上的表现与GPT-3.5系列模型相当;在第2个子图中,其在自然语言推理和语义匹配任务中却与GPT-3.5系列模型存在较大差距. 需要注意的是,LLaMA2-7B和LLaMA2-13B在WSJ和TACRED数据集中均未按照指令完成相应任务,并且在NER任务中的表现亟待提升.

    表6所示,与GPT系列模型的鲁棒性表现类似,LLaMA2-7B和LLaMA2-13B在大多分类任务上的性能下降都较为严重,但在阅读理解任务中的鲁棒性与gpt-4相当,且好于GPT-3.5系列模型. 同时,LLaMA2-13B比LLaMA2-7B具有更好的鲁棒性.

    表  6  LLaMA2模型的鲁棒性表现
    Table  6.  The Robustness Performance of LLaMA2 Model %
    数据集 LLaMA2-7B LLaMA2-13B
    ori trans APDR ori trans APDR
    Restaurant 87.85±1.68 52.38±7.01 40.34±8.22 87.10±3.17 35.16±9.07 59.84±9.45
    Laptop 79.40±2.93 56.23±12.68 28.96±16.86 81.15±2.82 47.21±18.58 41.87±22.81
    IMDB 92.04±1.68 91.06±2.68 1.08±1.43 88.17±2.30 87.40±2.89 0.88±1.21
    MNLI-m 46.76±16.03 27.64±13.39 34.77±34.65 54.47±15.15 44.70±18.95 12.52±43.92
    MNLI-mm 50.16±17.23 27.92±13.99 39.21±32.29 57.04±15.11 45.47±19.30 15.94±42.02
    SNLI 47.77±19.73 30.73±17.44 27.79±41.43 54.79±15.20 43.75±24.22 12.83±53.93
    QQP 59.93±16.77 33.18±11.02 40.58±24.61 54.49±12.91 40.17±14.45 21.36±32.47
    MRPC 70.66±14.76 66.49±16.68 1.92±33.62 69.59±17.74 33.75±32.70 43.09±63.48
    WSC273 52.40±3.60 53.10±1.68 −1.65±7.48 52.57±0.73 56.43±2.77 −7.33±4.58
    SQuAD1.1 79.64±0.69 67.85±9.98 14.80±12.51 71.27±1.16 63.67±5.14 10.65±7.12
    SQuAD2.0 78.25±0.95 66.30±9.66 15.26±12.36 69.40±1.27 61.77±5.05 10.99±7.20
    WSJ
    CoNLL2003 20.05±8.92 4.44±5.36 74.37±36.93 45.66±10.22 20.26±10.27 53.47±26.94
    OntoNotesv5 4.97±2.57 4.94±2.03 −19.85±76.91 5.87±5.21 5.36±3.34 −8.23±51.59
    TACRED 4.26±2.60 5.95±5.45 −16.67±104.08
    注:“±”后的数字表示均值对应的标准差;“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集;“−”表示模型未完成指定任务.
    下载: 导出CSV 
    | 显示表格

    本文通过评估涵盖9个不同NLP任务的15个数据集,使用61种任务特定的变形方法,对GPT-3和GPT-3.5系列模型的性能和鲁棒性进行了全面分析. 研究结果表明,尽管GPT模型在情感分析、语义匹配等分类任务和阅读理解任务表现出色,但在面对输入文本扰动时仍然存在明显的鲁棒性问题. 其中,本文分别从任务层面和变形级别层面具体分析了GPT模型的鲁棒性表现,表明其在分类任务和句子级变形中的鲁棒性亟待提升. 同时,随着GPT系列模型的迭代,其性能在大多数任务上稳步提升,但鲁棒性依然面临很大的挑战. 此外,本文探讨了提示对GPT模型的性能和鲁棒性的影响,包括提示中演示数量和演示内容2方面. 这些发现从任务类型、变形种类、提示内容等方面揭示了 GPT模型还无法完全胜任常见的 NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决. 与此同时,本文通过评估gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现,进一步验证了实验结论. 鉴于此,未来的大模型研究应当提升模型在信息提取和语义理解方面的能力,并且应当在模型训练或微调阶段考虑提升模型的鲁棒性.

    作者贡献声明:陈炫婷提出研究思路和实验方案,负责部分实验和论文写作;叶俊杰负责部分实验和完善论文;祖璨负责部分实验并整理分析实验结果;许诺协助实验和完善论文;桂韬提出指导意见并修改论文;张奇提出指导意见并审阅论文.

  • 图  1   欺骗防御相关文献关键词

    Figure  1.   Keywords of deception defense-related literature

    图  2   欺骗防御相关技术介绍

    Figure  2.   Introduction of deception defense related technologies

    图  3   IDDIL/ATC核心概念[46]

    Figure  3.   Core concepts of IDDIL/ATC[46]

    图  4   多阶段网络攻击中攻防技术示意图

    Figure  4.   Schematic diagram of offensive and defensive techniques in multi-stage network attacks

    图  5   常见攻击图模型介绍

    Figure  5.   Introduction of common attack graph models

    图  6   常见攻击图[51-53]

    Figure  6.   Common attack diagram[51-53]

    图  7   攻击图的用途总结

    Figure  7.   Summary of the purpose of the attack graph

    图  8   网络欺骗博弈模型分类

    Figure  8.   Classification of network deception game model

    图  9   AIGC辅助蜜点生成的工作流程

    Figure  9.   AIGC-assisted HoneyPoint generation workflow

    图  10   生成蜜点诱饵网页的prompt代码片段

    Figure  10.   HoneyPoint decoy Web pages generated by prompts code snippet

    图  11   AIGC辅助生成蜜点页面效果展示

    Figure  11.   AIGC assisted in generating HoneyPoint page effect display

    图  12   实验网络拓扑图

    Figure  12.   Experimental network topology diagram

    图  13   本文方法与传统蜜罐模拟Web服务的对比

    Figure  13.   Comparison between our method and the traditional Honeypot simulation Web service

    图  14   外网蜜点捕获的IP威胁值分布

    Figure  14.   IP threat value distribution captured by the HoneyPoint of the external network

    图  15   中美IP地址威胁值分布对比

    Figure  15.   Comparison of threat value distribution between Chinese and American IP addresses

    图  16   蜜点记录的攻击IP日志

    Figure  16.   Attack IP log recorded by HoneyPoints

    表  1   现有欺骗防御相关综述工作

    Table  1   Existing Deception Defense-Related Review Work

    文献来源 研究角度 贡献
    文献[23] 网络欺骗形式化 对网络欺骗进行了形式化定义,概述了网络欺骗发展历程的3个阶段,将网络欺骗与网络杀伤链结合,提出了网络欺骗层次化模型,分析了网络欺骗在设备层、网络层、数据层、应用层的欺骗技术,并在网络杀伤链上进行了验证性的讨论.
    文献[24] 蜜罐(Honeypot)、
    蜜标(Honeytoken)、
    移动目标防御(MTD)
    对近30年蜜罐、蜜标以及移动目标防御中代表性技术的整理,描述了3个领域之间关键技术的相互补充,并构建了基于欺骗的主动防御体系. 提出一个全新的杀伤链模型,从攻击阶段与欺骗层次两方面对3种主动防御技术进行了归类.
    文献[25] 博弈论 从博弈论的角度对欺骗防御的相关研究成果进行了筛选,提出了欺骗博弈的概念,并给出了网络欺骗博弈的形式化定义.
    文献[26] 博弈论、机器学习 从防御者的角度出发,在博弈论与机器学习两方面对防御性欺骗工作进行了较为全面地调查,阐述了防御性欺骗的设计原则与特性,明确了如何选取欺骗攻击者的类型、欺骗发起的时机以及欺骗技术的运用.
    下载: 导出CSV

    表  2   常见攻击威胁与防御对抗模型对比

    Table  2   Comparison of Common Attack Threats and Defense Adversarial Models

    攻防视角 模型 阶段数 步骤
    攻击者视角网络杀伤[42]7侦察→武器化→交付→利用→安装→命令与控制→行动
    在线操作杀伤链[43]10获取资产→伪装资产→收集信息→协调与计划→测试防御→逃避检测→无差别接触→针对性接触→渗透资产→长期驻留
    MITRE ATT&CK[44]14侦察→资源开发→初始访问→执行→持久化→权限提升→防御绕过→凭证访问→发现→横向移动→收集→命令与控制→数据窃取→危害
    防御者视角IDDIL/ ATC[46]7发现阶段:识别资产→定义攻击面→分解系统→识别攻击向量→列出威胁源和攻击代理;实施阶段:分析与评估→分类→控制
    MITRE ENGAEG[47]9规划→收集→检测→防御→转移→破坏→保证→激励→分析
    网络空间欺骗链[48]8制定目标→收集网络信息→设计封面故事→计划→准备→执行→监控→加固
    NIST 网络安全框架[45]5识别→保护→检测→响应→恢复
    下载: 导出CSV

    表  3   基于攻击图与博弈论的欺骗防御工作总结

    Table  3   Summary of Deception Defense Work Based on Attack Graph and Game Theory

    文献 年份 攻击图类型 攻击类型 应用目标 欺骗技术 博弈模型
    [83] 2020 多层攻击图 漏洞利用 网络安全加固、最优防御策略、最小化防御成本、预测攻击路径 MTD
    [84] 2020 贝叶斯攻击图 内部威胁 最优防御策略 MTD 动态三方博弈
    [85] 2020 漏洞依赖图 侦察 最优欺骗策略 网络欺骗 POSG、超博弈
    [86] 2020 有向无环图 最优欺骗策略 添加诱饵资源 Stackelberg博弈
    [87] 2020 贝叶斯攻击图 漏洞利用 最优欺骗策略 蜜罐、诱饵节点
    [88] 2021 多层攻击图 侦察,漏洞利用 最优欺骗策略 蜜罐 信号博弈
    [89] 2022 概率攻击图 漏洞扫描、漏洞利用 最优安全加固成本
    [90] 2022 概率攻击图 APT 网络安全风险评估、最优安全资源分配 MDP
    [91] 2022 Active Directory
    攻击图
    Active Directory攻击 网络安全加固、有限预算下的最优防御策略 Stackelberg博弈
    [92] 2023 概率攻击图 漏洞利用 最优诱饵资源分配 蜜罐、蜜饵 MDP、非零和博弈
    [93] 2023 概率攻击图 侦察 网络安全加固 MTD Stackelberg博弈、MDP
    下载: 导出CSV

    表  4   基于ChatGPT开发的产品

    Table  4   Products Developed Based on ChatGPT

    产品 功能
    ChatPDF[96] 一个用于帮助理解文档(PDF)内容的网页应用,只需将PDF文件上传到ChatPDF,聊天机器人将会自动提供一个摘要,并建议提出问题,以了解更多关于该文件的信息.
    Auto-GPT[97] 一种基于ChatGPT API的AI代理,它能够自动执行由自然语言描述的任务. 通过将目标拆解为子任务并自动进行网络搜索和数据收集,利用GPT进行文件存储与总结,最终实现任务的自动化执行.
    PentestGPT[98] 一款由 ChatGPT 赋能主要针对web渗透测试的工具. 旨在自动化渗透测试过程中,以交互方式运行指导渗透测试人员进行具体操作.
    下载: 导出CSV

    表  5   本文方法与Snare蜜罐的生成质量对比

    Table  5   Comparison of Our Method with the Generation Quality of Snare Honeypots

    比较条目 Snare蜜罐 本文方法
    页面生成 采用传统爬虫的方式实现Web服务模拟. 在传统爬虫技术的基础上结合大语言模型.
    仿真程度 仿真程度低,爬取时常因样式文件依赖关系导致页面无法显示. 仿真程度较高,通过精心设计的提示词,利用大语言模型深度分析.
    稳定性 样式文件爬取缺失时出现前端显示不全,甚至产生报错. 利用大模型的特征分析、语言理解和代码构建能力,生成具有独立特色的模拟页面.
    灵活性 页面生成后不易更改. 可根据用户需求定制化更新模拟页面.
    下载: 导出CSV
  • [1]

    Heckman K E, Stech F J, Schmoker B S, et al. Denial and deception in cyber defense[J]. Computer, 2015, 48(4): 36−44 doi: 10.1109/MC.2015.104

    [2]

    Wang C, Lu Zhuo. Cyber deception: Overview and the road ahead[J]. IEEE Security & Privacy, 2018, 16(2): 80−85

    [3]

    Ren Yitong, Xiao Yanjun, Zhou Yinghai, et al. CSKG4APT: A cybersecurity knowledge graph for advanced persistent threat organization attribution[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(6): 5695−5709

    [4]

    Zhou Yinghai, Ren Yitong, Yi Ming, et al. CDTier: A Chinese dataset of threat intelligence entity relationships[J]. IEEE Transactions on Sustainable Computing, 2023, 8(4): 627−638 doi: 10.1109/TSUSC.2023.3240411

    [5]

    Butavicius M, Ronnie T, Simon J H. Why people keep falling for phishing scams: The effects of time pressure and deception cues on the detection of phishing emails[J]. Computers & Security, 2022, 123: 102937

    [6]

    Stellios I, Kotzanikolaou P, Psarakis M. Advanced persistent threats and zero-day exploits in industrial Internet of things[G]//Security and Privacy Trends in the Industrial Internet of Things. Berlin: Spring, 2019: 47−68

    [7]

    Horak K, Bosansky B, Tomasek P, et al. Optimizing honeypot strategies against dynamic lateral movement using partially observable stochastic games[J]. Computers & Security, 2019, 87: 101579

    [8] 姜伟,方滨兴,田志宏,等. 基于攻防随机博弈模型的防御策略选取研究[J]. 计算机研究与发展,2010,47(10):1714−1723

    Jiang Wei, Fang Binxing, Tian Zhihong, et al. Research on defense strategies selection based on attack-defense stochastic game model[J]. Journal of Computer Research and Development, 2010, 47(10): 1714−1723 (in Chinese)

    [9]

    Aydeger A, Manshaei M H, Rahman M A, et al. Strategic defense against stealthy link flooding attacks: A signaling game approach[J]. IEEE Transactions on Network Science and Engineering, 2021, 8(1): 751−764 doi: 10.1109/TNSE.2021.3052090

    [10]

    Han Xiao, Kheir N, Balzarotti D. Deception techniques in computer security: A research perspective[J]. ACM Computing Surveys 2018, 51(4): 1−36

    [11]

    Baykara M, Resul D. A novel honeypot based security approach for real-time intrusion detection and prevention systems[J]. Journal of Information Security and Applications, 2018, 41: 103−116 doi: 10.1016/j.jisa.2018.06.004

    [12]

    Sun Yanbin, Tian Zhihong, Li Mohan, et al. Honeypot identification in softwarized industrial cyber–physical systems[J]. IEEE Transactions on Industrial Informatics, 2020, 17(8): 5542−5551

    [13]

    Franco J, Aris A, Canberk B, et al. A survey of honeypots and honeynets for Internet of things, Industrial Internet of things, and cyber-physical systems[J]. IEEE Communications Surveys & Tutorials, 2021, 23(4): 2351−2383

    [14]

    Pawlick J, Zhu Quanyan. Game Theory for Cyber Deception[M]. Berlin: Springer, 2021

    [15]

    Pawlick J, Edward C, Zhu Quanyan. A game-theoretic taxonomy and survey of defensive deception for cybersecurity and privacy[J]. ACM Computing Surveys, 2019, 52(4): 1−28

    [16]

    Huang Yunhan, Zhu Quanyan. Deceptive reinforcement learning under adversarial manipulations on cost signals[C] //Proc of 10th Int Conf on Decision and Game Theory for Security. Berlin: Springer, 2019: 217−237

    [17]

    Pourranjbar A, Kaddoum G, Ferdowsi A, et al. Reinforcement learning for deceiving reactive jammers in wireless networks[J]. IEEE Transactions on Communications, 2021, 69(6): 3682−3697 doi: 10.1109/TCOMM.2021.3062854

    [18]

    Abolfathi M, Shomorony I, Vahid A, et al. A game-theoretically optimal defense paradigm against traffic analysis attacks using multipath routing and deception[C] //Proc of the 27th ACM on Symp on Access Control Models and Technologies. New York: ACM, 2022: 67−78

    [19]

    Olowononi F O, Anwar A H, Rawat D B, et al. Deep learning for cyber deception in wireless networks[C] //Proc of Int Conf on Mobility, Sensing and Networking. Piscataway, NJ: IEEE, 2021: 551−558

    [20]

    Gong Xueluan, Wang Qian, Chen Yanjiao, et al. Model extraction attacks and defenses on cloud-based machine learning models[J]. IEEE Communications Magazine, 2020, 58(12): 83−89 doi: 10.1109/MCOM.001.2000196

    [21]

    Ferguson-Walter K J, Major M M, Johnson C K, et al. Examining the efficacy of decoy-based and psychological cyber deception[C] //Proc of USENIX Security Symp. Berkeley, CA: USENIX, 2021: 1127−1144

    [22]

    Ferguson-Walter K J, Major M M, Johnson C K, et al. Cyber expert feedback: Experiences, expectations, and opinions about cyber deception[J]. Computers & Security, 2023, 130: 103268

    [23] 贾召鹏,方滨兴,刘潮歌,等. 网络欺骗技术综述[J]. 通信学报,2017,38(12):128−143 doi: 10.11959/j.issn.1000-436x.2017281

    Jia Zhaopeng, Fang Binxing, Liu Chaoge, et al. Survey on cyber deception[J]. Journal on Communications, 2017, 38(12): 128−143(in Chinese) doi: 10.11959/j.issn.1000-436x.2017281

    [24]

    Zhang Li, Thing V L. Three decades of deception techniques in active cyber defense-retrospect and outlook[J]. Computers & Security, 2021, 106: 102288

    [25] 胡永进,马骏,郭渊博. 基于博弈论的网络欺骗研究[J]. 通信学报,2018,39(S2):9−18

    Hu Yongjin, Ma Jun, Guo Yuanbo. Research on network deception based on game theory[J]. Journal of Communications, 2018, 39(S2): 9−18(in Chinese)

    [26]

    Zhu Mu, Anwar A H, Wan Zelin, et al. A survey of defensive deception: Approaches using game theory and machine learning[J]. IEEE Communications Surveys & Tutorials, 2021, 23(4): 2460−2493

    [27]

    Kasneci E, Seßler K, Küchemann S, et al. ChatGPT for good? On opportunities and challenges of large language models for education[J]. Learning and Individual Differences, 2023, 103: 102274 doi: 10.1016/j.lindif.2023.102274

    [28]

    Kocoń J, Cichecki I, Kaszyca O, et al. ChatGPT: Jack of all trades, master of none[J]. Information Fusion, 2023, 99: 101861

    [29]

    Zhou Ming, Duan Nan, Liu Shujie, et al. Progress in neural NLP: Modeling, learning, and reasoning[J]. Engineering, 2020, 6(3): 275−290 doi: 10.1016/j.eng.2019.12.014

    [30]

    Steingartner W, Galinec D, Kozina A. Threat defense: Cyber deception approach and education for resilience in hybrid threats model[J]. Symmetry, 2021, 13(4): 597

    [31]

    Ziaie Tabari A, Ou Xinming. A multi-phased multi-faceted IoT honeypot ecosystem[C] //Proc of the 2020 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2020: 2121−2123

    [32]

    Zarca A M, Bernabe J B, Skarmeta A, et al. Virtual IoT HoneyNets to mitigate cyberattacks in SDN/NFV-enabled IoT networks[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(6): 1262−1277 doi: 10.1109/JSAC.2020.2986621

    [33]

    Zhang Weizhe, Zhang Bin, Zhou Ying, et al. An IoT honeynet based on multiport honeypots for capturing IoT attacks[J]. IEEE Internet of Things Journal, 2019, 7(5): 3991−3999

    [34]

    Srinivasa S, Pedersen J M, Vasilomanolakis E. Towards systematic honeytoken fingerprinting[C] //Proc of 13th Int Conf on Security of Information and Networks. New York: ACM , 2020: 1−5

    [35]

    Reti D, Angeli T, Schotten H D. Honey Infiltrator: Injecting Honeytoken using netfilter[C] //Proc of the 2023 IEEE European Symp on Security and Privacy Workshops. Piscataway, NJ: IEEE, 2023: 465−469

    [36]

    Tan Jinglei, Jin Hui, Hu Hao, et al. WF-MTD: Evolutionary decision method for moving target defense based on wright-fisher process[J]. IEEE Transactions on Dependable and Secure Computing, 2022, 20(6): 4719−4732

    [37]

    Qian Yaguan, Guo Yankai, Shao Qiqi, et al. EI-MTD: Moving target defense for edge intelligence against adversarial attacks[J]. ACM Transactions on Privacy and Security, 2022, 25(3): 1−24

    [38]

    Javadpour A, Ja’fari F, Taleb T, et al. SCEMA: An SDN-oriented cost-effective edge-based MTD approach[J]. IEEE Transactions on Information Forensics and Security, 2022, 18: 667−682

    [39]

    Simmons C B, Shiva S G, Bedi H, et al. ADAPT: A game inspired attack-defense and performance metric Taxonomy[C] //Proc of the 28th IFIP TC11 Int Conf. Berlin: Springer, 2013: 344−365

    [40]

    Liu Shouzhou, Shao Chengwu, Li Yanfu, et al. Game attack–defense graph approach for modeling and analysis of cyberattacks and defenses in local metering system[J]. IEEE Transactions on Automation Science and Engineering, 2021, 19(3): 2607−19

    [41]

    Zhou Yuyang, Cheng Guang, Yu Shui. An SDN-enabled proactive defense framework for DDoS mitigation in IoT networks[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 5366−5380 doi: 10.1109/TIFS.2021.3127009

    [42]

    Khan M S, Siddiqui S, Ferens K. A cognitive and concurrent cyber kill chain model[G]//Computer and Network Security Essentials. Berlin: Springer, 2018: 585−602

    [43]

    Warner C. Online Operations Kill Chain in CTI[EB/OL]. (2023-11-07)[2024-01-10]. https://warnerchad.medium.com/online-operations-kill-chain-in-cti-8b3c99848250

    [44]

    Xiong Wenjun, Legrand E, Åberg O, et al. Cyber security threat modeling based on the MITRE Enterprise ATT&CK Matrix[J]. Software and Systems Modeling, 2022, 21(1): 157−177 doi: 10.1007/s10270-021-00898-7

    [45]

    Webb J, Hume D. Campus IoT collaboration and governance using the NIST cybersecurity framework[C] //Proc of Living in the Internet of Things: Cybersecurity of the IoT-2018. London: IET, 2018: 1−7

    [46]

    Muckin M, Fitch S C. A threat-driven approach to cyber security[R]. Washington: Lockheed Martin Corporation, 2014

    [47]

    Akbar K A, Rahman F I, Singhal A, et al. The design and application of a unified ontology for cyber security[C] //Proc of Int Conf on Information Systems Security. Berlin: Springer, 2023: 23−41

    [48]

    Underbrink A J. Effective cyber deception[G]//Cyber Deception: Building the Scientific Foundation. Berlin: Springer, 2016: 115−147

    [49]

    Kaynar K. A taxonomy for attack graph generation and usage in network security[J]. Journal of Information Security and Applications, 2016, 29: 27−56 doi: 10.1016/j.jisa.2016.02.001

    [50] 叶云,徐锡山,齐治昌,等. 大规模网络中攻击图自动构建算法研究[J]. 计算机研究与发展,2013,50(10):2133−2139 doi: 10.7544/issn1000-1239.2013.20111471

    Ye Yun, Xu Xishan, Qi Zhichang, et al. Attack graph generation algorithm for large-scale network system[J]. Journal of Computer Research and Development, 2013, 50(10): 2133−2139 (in Chinese) doi: 10.7544/issn1000-1239.2013.20111471

    [51] 叶子维,郭渊博,王宸东,等. 攻击图技术应用研究综述[J]. 通信学报,2017,38(11):121−132 doi: 10.11959/j.issn.1000-436x.2017213

    Ye Ziwei, Guo Yuanbo, Wang Chendong, et al. Survey on application of attack graph technology[J]. Journal on Communications, 2017, 38(11): 121−132 (in Chinese) doi: 10.11959/j.issn.1000-436x.2017213

    [52]

    Muñoz-González L, Sgandurra D, Barrère M, et al. Exact inference techniques for the analysis of Bayesian attack graphs[J]. IEEE Transactions on Dependable and Secure Computing, 2017, 16(2): 231−244

    [53]

    Nadeem A, Verwer S, Moskal S, et al. Alert-driven attack graph generation using S-PDFA[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 19(2): 731−746 doi: 10.1109/ACCESS.2023.3257721

    [54]

    Durkota K, Lisý V, Bošanský B, et al. Hardening networks against strategic attackers using attack graph games[J]. Computers & Security, 2019, 87: 101578

    [55]

    Wang Binghui, Gong N Z. Attacking graph-based classification via manipulating the graph structure[C] //Proc of the 2019 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2019: 2023−2040

    [56]

    Jorjani M, Seifi H, Varjani A Y. A graph theory-based approach to detect false data injection attacks in power system AC state estimation[J]. IEEE Transactions on Industrial Informatics, 2020, 17(4): 2465−2475

    [57]

    Naik N, Grace P, Jenkins P, et al. An evaluation of potential attack surfaces based on attack tree modelling and risk matrix applied to self-sovereign identity[J]. Computers & Security, 2022, 120: 102808

    [58]

    Shin G Y, Hong S S, Lee J S, et al. Network security node-edge scoring system using attack graph based on vulnerability correlation[J]. Applied Sciences, 2022, 12(14): 6852 doi: 10.3390/app12146852

    [59]

    Almohri H M J, Watson L T, Yao D, et al. Security optimization of dynamic networks with probabilistic graph modeling and linear programming[J]. IEEE Transactions on Dependable and Secure Computing, 2015, 13(4): 474−487

    [60]

    Wang L, Jajodia S, Singhal A, et al. Security Risk Analysis of Enterprise Networks Using Probabilistic Attack Graphs[M]. Berlin: Springer, 2017

    [61]

    Ou Xinming, Govindavajhala S, Appel A W. MulVAL: A logic-based network security analyzer[C] //Proc of USENIX Security Symp. Berkeley, CA: USENIX, 2005, 8: 113−128

    [62] 陈小军,方滨兴,谭庆丰,等. 基于概率攻击图的内部攻击意图推断算法研究[J]. 计算机学报,2014,37(1):62−72

    Chen Xiaojun, Fang Binxing, Tan Qingfeng, et al. Research on internal attack intent inference algorithm based on probabilistic attack graph[J]. Chinese Journal of Computers, 2014, 37(1): 62−72 (in Chinese)

    [63]

    Sun Xiaoyan, Dai Jun, Liu Peng, et al. Using Bayesian networks for probabilistic identification of zero-day attack paths[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(10): 2506−2521 doi: 10.1109/TIFS.2018.2821095

    [64]

    Sahu A, Davis K. Structural learning techniques for Bayesian attack graphs in cyber physical power systems[C] //Proc of 2021 IEEE Texas Power and Energy Conf (TPEC). Piscataway, NJ: IEEE, 2021: 1−6

    [65]

    Matthews I, Soudjani S, van Moorsel A. Stochastic simulation techniques for inference and sensitivity analysis of Bayesian attack graphs[C] //Proc of Int Conf on Science of Cyber Security. Berlin: Springer, 2021: 171−186

    [66]

    Asvija B, Eswari R, Bijoy M B. Bayesian attack graphs for platform virtualized infrastructures in clouds[J]. Journal of Information Security and Applications, 2020, 51: 102455 doi: 10.1016/j.jisa.2020.102455

    [67]

    Anwar A H, Kamhoua C A. Cyber deception using honeypot allocation and diversity: A game theoretic approach[C] //Proc of the 19th Annual Consumer Communications & Networking Conf (CCNC). Piscataway, NJ: IEEE, 2022: 543−549

    [68]

    Li Shuai, Wang Ting, Ma Ji, et al. A three-party attack-defense deception game model based on evolutionary[C] //Proc of the 3rd Int Conf on Consumer Electronics and Computer Engineering (ICCECE). Piscataway, NJ: IEEE, 2023: 51−56

    [69]

    Zhou Yuyang, Cheng Guang, Jiang Shanqing, et al. Cost-effective moving target defense against DDoS attacks using trilateral game and multi-objective Markov decision processes[J]. Computers & Security, 2020, 97: 101976

    [70]

    Thakoor O, Tambe M, Vayanos P, et al. General-sum cyber deception games under partial attacker valuation information[C] //Proc of Int Foundation for Autonomous Agents and Multiagent Systems (AAMAS). Richland, SC: AAMAS, 2019: 2215−2217

    [71]

    Liu Jieling, Wang Zhiliang, Yang Jiahai, et al. Deception maze: A stackelberg game-theoretic defense mechanism for intranet threats[C] // Proc of IEEE Int Conf on Communications (ICC 2021). Piscataway, NJ: IEEE, 2021: 1−6

    [72]

    Sayed M A, Anwar A H, Kiekintveld C, et al. Cyber deception against zero-day attacks: A game theoretic approach[C] //Proc of Int Conf on Decision and Game Theory for Security. Berlin: Springer, 2022: 44−63

    [73]

    Wahab O A, Bentahar J, Otrok H, et al. Resource-aware detection and defense system against multi-type attacks in the cloud: Repeated Bayesian stackelberg game[J]. IEEE Transactions on Dependable and Secure Computing, 2019, 18(2): 605−622

    [74]

    Sengupta S, Chowdhary A, Huang Dijiang, et al. General sum Markov games for strategic detection of advanced persistent threats using moving target defense in cloud networks[C] //Proc of Decision and Game Theory for Security: 10th Int Conf. Berlin: Springer, 2019: 492−512

    [75]

    Sengupta S, Chowdhary A, Huang Dijiang, et al. Moving target defense for the placement of intrusion detection systems in the cloud[C] //Proc of Decision and Game Theory for Security: 9th Int Conf. Berlin: Springer, 2018: 326−345

    [76]

    Huang Linan, Zhu Quanyan. Dynamic Bayesian games for adversarial and defensive cyber deception[G]//Autonomous Cyber Deception: Reasoning, Adaptive Planning, and Evaluation of HoneyThings. Berlin: Springer, 2019: 75−97

    [77] 杨峻楠,张红旗,张传富. 基于随机博弈与改进 WoLF-PHC的网络防御决策方法[J]. 计算机研究与发展,2019,56(5):942−954

    Yang Junnan, Zhang Hongqi, Zhang Chuanfu. Network defense decision-making method based on stochastic game and improved WoLF-PHC[J]. Journal of Computer Research and Development, 2019, 56(5): 942−954 (in Chinese)

    [78]

    Tsemogne O, Hayel Y, Kamhoua C, et al. Game-theoretic modeling of cyber deception against epidemic botnets in Internet of things[J]. IEEE Internet of Things Journal, 2021, 9(4): 2678−2687

    [79]

    Thakoor O, Tambe M, Vayanos P, et al. Cyber camouflage games for strategic deception[C] //Proc of Decision and Game Theory for Security: 10th Int Conf. Berlin: Springer, 2019: 525−541

    [80]

    Shinde A, Doshi P, Setayeshfar O. Cyber attack intent recognition and active deception using factored interactive POMDPs[C] //Proc of the 20th Int Conf on Autonomous Agents and MultiAgent Systems. Richland, SC: AAMAS, 2021: 1200−1208

    [81]

    Zhang Tao, Xu Changqiao, Shen Jiahao, et al. How to disturb network reconnaissance: A moving target defense approach based on deep reinforcement learning[J]. IEEE Transactions on Information Forensics and Security, 2023, 18: 5735-5748

    [82]

    Tian Wen, Du Miao, Ji Xiaopeng, et al. Honeypot detection strategy against advanced persistent threats in industrial internet of things: A prospect theoretic game[J]. IEEE Internet of Things Journal, 2021, 8(24): 17372−17381 doi: 10.1109/JIOT.2021.3080527

    [83]

    Yoon S, Cho J H, Kim D S, et al. Attack graph-based moving target defense in software-defined networks[J]. IEEE Transactions on Network and Service Management, 2020, 17(3): 1653−1668 doi: 10.1109/TNSM.2020.2987085

    [84]

    Hu Chenao, Yan Xuefeng. Dynamic trilateral game model for attack graph security game[C] //Proc of IOP Conf Series: Materials Science and Engineering. Bristol: IOP Publishing, 2020, 790: 012112

    [85]

    Anwar A H, Kamhoua C. Game theory on attack graph for cyber deception[C] //Proc of Int Conf on Decision and Game Theory for Security. Berlin: Springer, 2020: 445−456

    [86]

    Milani S, Shen W, Chan K S, et al. Harnessing the power of deception in attack graph-based security games[C] //Proc of Decision and Game Theory for Security: 11th Int Conf. Berlin: Springer, 2020: 147−167

    [87]

    Wu Hua, Gu Yu, Cheng Guang, et al. Effectiveness evaluation method for cyber deception based on dynamic bayesian attack graph[C] //Proc of the 3rd Int Conf on Computer Science and Software Engineering. New York: ACM, 2020: 1−9

    [88]

    Huang Weigui, Sun Yifeng, Ou Wang, et al. A flow scheduling model for SDN Honeypot using multi-layer attack graphs and signaling game[C] //Proc of 2021 7th Int Conf on Computer and Communications (ICCC). Piscataway, NJ: IEEE, 2021: 2012−2020

    [89]

    Buczkowski P, Malacaria P, Hankin C, et al. Optimal security hardening over a probabilistic attack graph: A case study of an industrial control system using CySecTool[C] //Proc of the 2022 ACM Workshop on Secure and Trustworthy Cyber-Physical Systems. New York: ACM, 2022: 21−30

    [90]

    Outkin A V, Schulz P V, Schulz T, et al. Defender policy evaluation and resource allocation with MITRE ATT&CK evaluations data[J]. IEEE Transactions on Dependable and Secure Computing, 2022, 20(3): 1909−1926

    [91]

    Guo Mingyu, Li Jialiang, Neumann A, et al. Practical fixed-parameter algorithms for defending active directory style attack graphs[C] //Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022, 36(9): 9360−9367

    [92]

    Ma Haoxiang, Han Shuo, Leslie N, et al. Optimal decoy resource allocation for proactive defense in probabilistic attack graphs[C] //Proc of the 2023 Int Conf on Autonomous Agents and Multiagent Systems. Richland, SC: AAMAS, 2023: 2616−2618

    [93]

    Li Lening, Ma Haoxiang, Han Shuo, et al. Synthesis of proactive sensor placement in probabilistic attack graphs[C] //Proc of the 2023 American Control Conf (ACC). Piscataway, NJ: IEEE, 2023: 3415−3421

    [94]

    Cao Yihan, Li Siyu, Liu Yixin, et al. A comprehensive survey of AI-generated content (AIGC): A history of generative AI from GAN to chatgpt[J]. arXiv preprint, arXiv: 2303.04226, 2023

    [95]

    Ziems N, Yu Wenhao, Zhang Zhihan, et al. Large language models are built-in autoregressive search engines[J]. arXiv preprint, arXiv: 2305. 09612, 2023

    [96]

    Panda S. Enhancing PDF interaction for a more engaging user experience in library: Introducing ChatPDF[J]. IP Indian Journal of Library Science and Information Technology, 2023, 8(1): 20−25 doi: 10.18231/j.ijlsit.2023.004

    [97]

    Firat M, Kuleli S. What if GPT4 became autonomous: The Auto-GPT project and use cases[J]. Journal of Emerging Computer Technologies, 2023, 3(1): 1−6 doi: 10.57040/jet.v3i1.394

    [98]

    Deng Gelei, Liu Yi, Mayoral-Vilches V, et al. PentestGPT: An LLM-empowered automatic penetration testing tool[J]. arXiv preprint, arXiv: 2308.06782, 2023

    [99]

    Renaud K, Warkentin M, Westerman G. From ChatGPT to HackGPT: Meeting the Cybersecurity Threat of Generative AI[M]. Cambridge, MA: MIT Sloan Management Review, 2023

    [100]

    Aleena N. Large Language Models in Cybersecurity: Upcoming AI Trends in 2023-24 [EB/OL]. 2023[2024-01-10]. https://hubs.ly/Q01XQM5q0

    [101]

    Das S S, Dutta A, Purohit S, et al. Towards automatic mapping of vulnerabilities to attack patterns using large language models[C] //Proc of the 2022 IEEE Int Symp on Technologies for Homeland Security (HST). Piscataway, NJ: IEEE, 2022: 1−7

    [102] 田志宏,方滨兴,廖清,等. 从自卫到护卫:新时期网络安全保障体系构建与发展建议[J]. 中国工程科学,2023,25(6):96−105 doi: 10.15302/J-SSCAE-2023.06.007

    Tian Zhihong, Fang Binxing, Liao Qing, et al. Cybersecurity assurance system in the new era and development suggestions thereof: From self-defense to guard[J]. Strategic Study of CAE, 2023, 25(6): 96−105 (in Chinese) doi: 10.15302/J-SSCAE-2023.06.007

  • 期刊类型引用(11)

    1. 肖明魁. 面向大语言模型的资产分类优化策略研究. 长江信息通信. 2025(01): 33-38+42 . 百度学术
    2. 何静,沈阳,谢润锋. 大语言模型幻觉现象的识别与优化. 计算机应用. 2025(03): 709-714 . 百度学术
    3. 苏眉,孔桂英. 大语言模型背景下的译者批判性思维研究. 北部湾大学学报. 2025(01): 82-87+108 . 百度学术
    4. 宋佳磊,左兴权,张修建,黄海. 大语言模型评估方法综述. 宇航计测技术. 2025(02): 1-30 . 百度学术
    5. 吴若玲,郭旦怀. 大语言模型空间认知能力测试标准研究. 地球信息科学学报. 2025(05): 1041-1052 . 百度学术
    6. 王新雷,饶宇锋. 数智时代的关键基础设施:开源大模型普及的潜在风险与防范进路——以DeepSeek为例. 决策咨询. 2025(02): 64-69+77 . 百度学术
    7. 王润周,张新生,王明虎,苏佳,马玉龙. 基于混合检索增强生成大语言模型的网络舆情多任务分析. 情报杂志. 2025(05): 91-103 . 百度学术
    8. 萧文科,宋驰,陈士林,陈伟. 中医药大语言模型的关键技术与构建策略. 中草药. 2024(17): 5747-5756 . 百度学术
    9. 冯皓. 大模型在自然语言处理中的应用方法研究. 数字通信世界. 2024(10): 123-125 . 百度学术
    10. 孙婧鑫. 关于人工智能在软件自动化测试行业应用的研究. 张江科技评论. 2024(03): 64-66 . 百度学术
    11. 孟逸飞,韩长霖,陈小松,李亦凡,闫亚男,禹文宝. 大语言模型在水电及新能源行业应用研究与探讨. 水电站机电技术. 2024(12): 78-82 . 百度学术

    其他类型引用(2)

图(16)  /  表(5)
计量
  • 文章访问数:  551
  • HTML全文浏览量:  128
  • PDF下载量:  178
  • 被引次数: 13
出版历程
  • 收稿日期:  2023-11-29
  • 修回日期:  2024-03-17
  • 网络出版日期:  2024-04-28
  • 刊出日期:  2024-05-13

目录

/

返回文章
返回