基于图神经网络的小样本学习方法研究进展

杨洁祎; 董一鸿; 钱江波

doi:10.7544/issn1000-1239.202220933

基于图神经网络的小样本学习方法研究进展

1.
宁波大学信息科学与工程学院　浙江宁波　315211
2.
浙江省移动网络应用技术重点实验室（宁波大学）　浙江宁波　315211

基金项目: 国家自然科学基金项目（62271274）；宁波市自然科学基金项目（2023J114）；宁波市公益性科技计划项目（2023S023）

详细信息

作者简介:
杨洁祎: 1999年生. 硕士研究生. CCF学生会员. 主要研究方向为小样本学习、图神经网络、机器学习

董一鸿: 1969年生. 博士，教授，硕士生导师. CCF会员. 主要研究方向为大数据处理、数据挖掘、人工智能

钱江波: 1974年生. 博士，教授，博士生导师. CCF高级会员. 主要研究方向为机器学习、模式识别、智能系统

通讯作者:
董一鸿（dongyihong@nbu.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 1048
- HTML全文浏览量: 142
- PDF下载量: 425
出版历程
- 收稿日期: 2022-11-10
- 修回日期: 2023-05-15
- 网络出版日期: 2023-11-13
- 刊出日期: 2024-04-05

Research Progress of Few-Shot Learning Methods Based on Graph Neural Networks

1.
Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo, Zhejiang 315211
2.
Key Laboratory of Mobile Network Application Technology of Zhejiang province（Ningbo University）, Ningbo, Zhejiang 315211

Funds: This work was supported by the National Natural Science Foundation of China (62271274), the Natural Science Foundation of Ningbo (2023J114), and the public welfare Technology Research project of Ningbo (2023S023).

More Information

Author Bio:
Yang Jieyi: born in 1999. Master candidate. Student member of CCF. Her main research interests include few-shot learning, graph neural network, and machine learning

Dong Yihong: born in 1969. PhD, professor, master supervisor. Member of CCF. His main research interests include big data, data mining, and artificial intelligence

Qian Jiangbo: born in 1974. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include machine learning, pattern recognition, and intelligent systems

摘要

摘要:
小样本学习（few-shot learning，FSL）旨在利用少量样本学习得到解决问题的模型，为解决应用场景中样本量少或标注样本少的问题. 图神经网络（graph neural network，GNN）由于其在许多应用中的卓越性能引起了极大的关注，许多学者开始尝试利用图神经网络进行小样本学习，基于图神经网络的方法在小样本领域取得了卓越的成绩. 目前与基于图神经网络的小样本学习方法相关的综述性研究较少，缺乏该类方法的划分体系与介绍性工作，因此系统地梳理了当前基于图神经网络的小样本学习的相关工作：概括了小样本学习的图神经网络方法的概念，根据模型的基本思想将其划分为基于节点特征、基于边特征、基于节点对特征和基于类级特征的4类方法，介绍了这4类方法的研究进展；总结了目前常用的小样本数据集和代表性模型在这些数据集上的实验结果，归纳各类方法主要的研究内容和优劣势；最后概述了基于图神经网络的小样本学习方法的应用和面临的挑战，并展望其未发展方向.
- 小样本学习 /
- 图神经网络 /
- 元学习 /
- 度量学习 /
- 迁移学习
Abstract:
Few-shot learning (FSL) aims to learn to get a problem-solving model using a small number of samples. Under the trend of training models with big data, deep learning has gained success in many fields, but realistic scenarios often lack sufficient samples or labeled samples. Therefore, FSL becomes a promising research direction at present. Graph neural networks (GNN) have attracted great attention due to their excellent performance in many applications. In view of this, many methods try to use GNN for FSL. Currently there are few review researches related to FSL methods based on GNN, and there is a lack of division system and introductory work on this type of methods. We systematically compose the current work related to FSL based on GNN. The work outlines the basis and concepts of graph methods for FSL, broadly classifies them into four categories of methods based on node-based feature, edge-based feature, node-pair-based feature and class-level-based feature according to the basic ideas of the models. The research progress of the four methods is introduced as well. Then the experimental results of the commonly used few-shot datasets and representative models on these datasets are summarized, as well as the advantages and disadvantages of each type of methods. Finally, current status and challenges of the graph methods for FSL are introduced, and their future directions are prospected.
- few-shot learning /
- graph neural network /
- meta-learning /
- metric-learning /
- transfer-learning

HTML全文

大语言模型，如FLAN^[1]， GPT-3^[2]， LLaMA^[3]和PaLM2^[4]等，在对话、理解和推理方面展示了惊人的能力^[5]. 在不修改模型参数的情况下，大模型可以仅通过输入合适的提示来执行各种任务. 其中，GPT系列模型因其出色的能力备受关注.

为定量评估和探究大模型的能力，已有的工作集中于评估大模型在常识和逻辑推理^[6]、多语言和多模态^[7]、心智理论^[8]和数学^[9]等方面的能力. 尽管这些工作在基准测试集上取得了很好的效果，但大模型是否具备良好的鲁棒性仍然需要进一步研究.

鲁棒性衡量了模型在面对异常情况（如噪音、扰动或故意攻击）时的稳定性，这种能力在现实场景，尤其是在自动驾驶和医学诊断等安全场景下对于大模型至关重要. 鉴于此，现有工作对大模型的鲁棒性展开了探究：Wang等人^[10]从对抗性和分布外（out of distribution，OOD）的角度出发，使用现有的AdvGLUE^[11]和ANLI^[12]对抗基准评估ChatGPT等大模型的对抗鲁棒性，使用DDXPlus^[13]医学诊断数据集等评估分布外鲁棒性；Zhu等人^[14]则从提示的角度出发，提出了基于对抗性提示的鲁棒性评测基准，并对大模型在对抗提示方面的鲁棒性进行了分析. 然而，已有的研究主要使用对抗攻击策略，这对于大规模评估来说需要消耗大量的算力和时间；并且对抗样本生成的目标是通过对特定模型或数据集的原始输入进行微小的扰动，以误导模型的分类或生成结果，但这些扰动并不总是代表真实世界中的威胁和攻击方式. 此外，现有研究大多针对ChatGPT及同时期的其他大模型，对GPT系列模型迭代过程中性能和鲁棒性的变化关注较少.

鉴于此，本文选择了图1所示的5个GPT-3和GPT-3.5系列模型作为大模型的代表，通过全面的实验分析其性能和鲁棒性，以解决3个问题.

图 1 5个GPT-3和GPT-3.5系列模型的迭代过程

Figure 1. The evolution of five GPT-3 and GPT-3.5 series models

下载: 全尺寸图片幻灯片

问题1：GPT模型在自然语言处理(NLP）任务的原始数据集上有何性能缺陷？

为给后续的鲁棒性评估提供基础和参考点，本文首先评估模型在原始数据集上的性能. 本文选择15个数据集（超过147000个原始测试样本），涵盖了9个常见的NLP任务，如情感分析、阅读理解和命名实体识别等，评估了GPT模型在原始数据集上的性能以及迭代过程中的性能变化. 虽然这些任务没有直接对应具体的对话场景，但它们评估了模型的潜在能力，包括理解上下文、处理不同的语言结构和捕捉微小的信息等，这些能力对于语言理解和生成系统都非常重要.

问题2：GPT模型在NLP任务上面对输入文本扰动时的鲁棒性如何？

本文首先确定评估鲁棒性的方法. 为更加真实地模拟现实世界中可能存在的噪音、扰动和攻击，本文选择了TextFlint^[15]作为对输入文本进行扰动的工具. TextFlint提供了许多针对NLP任务特定的文本变形，这些变形均基于语言学进行设计，体现了实际使用语言过程中可能发生的情况，保持了变形后文本的语言合理性，能够模拟实际应用中的挑战. 本文使用了61种文本变形方法，这些变形按照粒度可以分为句子级、词级和字符级. 本文通过实验分析了GPT模型在各种任务和各个变形级别上的鲁棒性，并探究了模型迭代过程中鲁棒性的变化.

问题3：提示对GPT模型的性能和鲁棒性有何影响？

在上述2个问题中，本文从测试文本出发，通过将不同的测试样本与任务特定的提示进行拼接，评估了模型的性能和鲁棒性. 在这个问题中，本文从提示的角度出发，研究其对性能和鲁棒性的影响. 上下文学习^[16]（in-context learning，ICL）已经成为NLP领域的新范式，语言模型可以仅基于少量示例执行复杂任务. 基于此，本文通过改变提示中演示（demonstration）的数量或内容，探究提示对GPT模型的性能和鲁棒性的影响.

本文的定量结果和定性分析表明：

1）GPT模型在情感分析、语义匹配等分类任务和阅读理解任务中表现出较优异的性能，但在信息抽取任务中性能较差. 例如，其严重混淆了关系抽取任务中的各种关系类型，甚至出现了“幻觉”现象.

2）在处理被扰动的输入文本时，GPT模型的鲁棒性较弱，它们在分类任务和句子级别变形中鲁棒性缺乏更为显著.

3）随着GPT系列模型的迭代，其在NLP任务上的性能稳步提升，但是鲁棒性并未增强. 除情感分析任务外，模型在其余任务上的鲁棒性均未明显提升，甚至出现显著波动.

4）随着提示中演示数量的增加，GPT模型的性能提升，但模型鲁棒性仍然亟待增强；演示内容的改变可以一定程度上增强模型的抗扰动能力，但未能从根本上解决鲁棒性问题.

同时，通过对gpt-3.5-turbo的更新版本、gpt-4、开源模型LLaMA2-7B和LLaMA2-13B的表现进行评估，本文进一步验证了上述实验结论的普适性和可持续性.

1. 相关工作

1.1 大模型的性能评测

近期有大量的研究集中于评估大模型在各种任务中的性能. Qin等人^[6]对ChatGPT和text-davinci-003等模型在常见NLP任务上的零样本能力进行了评测，结果表明ChatGPT擅长处理推理和对话任务，但是在序列标注任务上表现欠佳；Bang等人^[7]评估了ChatGPT在多任务、多语言和多模态方面的能力，发现ChatGPT在大多数任务上优于零样本学习的大模型，甚至在某些任务上优于微调模型；Zhuo等人^[17]针对大模型伦理进行了评测工作. 此外，大量工作针对大模型在不同领域的能力进行了研究和讨论，包括法律领域^[18]、教育领域^[19-20]、人机交互领域^[21]、医学领域^[22]以及写作领域^[23]等. 然而，这些研究主要集中在大模型的性能上，对鲁棒性的关注有限. 模型在固定的测试数据上取得较高准确率，并不能反映出其在现实场景中面对输入的文本噪音、扰动或恶意攻击时的可靠性和稳定性，因此，鲁棒性对于评估模型处理现实世界中的复杂任务的能力至关重要.

1.2 大模型的鲁棒性评测

已有的关于大模型鲁棒性的工作主要集中于2个方面：对抗鲁棒性和分布外鲁棒性. 对抗鲁棒性是指模型在对抗样本上的鲁棒性表现，对抗样本^[24]的生成方式为：对原始输入施加一个阈值范围内的微小扰动，使得模型的分类或生成结果发生变化. 分布外鲁棒性关注于模型的泛化性，即使用与模型训练数据存在分布偏移的数据（包括跨域或跨时间数据）进行鲁棒性评测. Wang等人^[10]使用现有的AdvGLUE^[11]和ANLI^[12]对抗基准评估ChatGPT等大模型的对抗性鲁棒性，使用Flipkart评论和DDXPlus^[13]医学诊断数据集评估分布外鲁棒性. 结果表明，尽管ChatGPT在大多的分类任务和翻译任务上展现出更优的鲁棒性，但是大模型的对抗性和分布外鲁棒性仍然较弱. Zhu等人^[14]针对提示进行对抗攻击，并使用这些对抗性提示对大模型进行鲁棒性测试，结果表明大模型容易受到对抗性提示的影响. 然而，对抗样本的数据是以欺骗模型为目的而生成的，与现实场景中产生的噪音和扰动存在明显差异，并且生成对抗样本需要消耗大量算力和时间，不适合进行大规模评测. 本文通过考虑更广泛的使用场景，从输入文本的角度出发，利用任务特定的文本变形来评估大模型在每个任务中的鲁棒性表现，从而进行更全面的分析. 此外，本文关注于GPT系列的多个模型的表现，分析了它们在迭代过程中性能和鲁棒性方面的变化.

2. 数据集和模型

2.1 数据集

为了全面评估GPT模型在各类NLP任务上的表现，本文选取了9个常见的NLP任务，涵盖分类、阅读理解和信息抽取3个不同类别，如表1所示. 针对每个任务，本文选取了具有代表性的公开数据集进行测试，最终共包含15个不同数据集.

2.2 GPT系列模型

根据图1所示，本文主要针对5个GPT-3和GPT-3.5系列模型进行评估和分析，并对GPT-4模型在零样本场景下进行抽样测试，所有模型都通过OpenAI官方API¹进行评估. 根据OpenAI官方文档的说明，text-davinci-002是基于code-davinci-002的InstructGPT^[37]模型，其使用了一种监督式微调策略的方法FeedME²进行训练；text-davinci-003是text-davinci-002的改进版本，其使用近端优化策略（proximal policy optimization，PPO）算法进行训练，该算法被用于基于人类反馈的强化学习^[38](reinforcement learning from human feedback, RLHF）；gpt-3.5-turbo是针对聊天场景进行优化的最强大的GPT-3.5模型（本文第3~5节所使用的版本均为gpt-3.5-turbo-0301版本）.

3. 性能评测

性能评测对于评估模型的能力，以及对后续的鲁棒性评估建立基准和参考至关重要. 本节对GPT系列模型在NLP任务中原始数据集上的性能表现进行了全面的评测，旨在评估它们在不同NLP任务中的表现，并分析它们有何缺陷. 同时，本节还探究了GPT系列模型在迭代过程中的性能变化.

3.1 方　法

大模型可以通过输入适当的提示或指令来执行各种任务，而无需修改任何参数. 为评估GPT模型在NLP任务中的性能，本文针对每个具体任务设计了3种不同的提示. 如图2所示，本文将提示与测试文本拼接起来作为测试样本输入模型，并获得相应的输出，通过对输出结果的定量评估来评测模型的性能.

图 2 实验评测流程图

Figure 2. Overview of experimental evaluating process

下载: 全尺寸图片幻灯片

3.2 实验设定

为定量分析模型的性能，本文使用准确率（accuracy）和F1分数（F1 score）作为评估指标. 各个数据集对应的评估指标如表1所示.

表 1 实验使用的15个数据集的信息

Table 1. Information of 15 Datasets Used in Experiments

任务类型	子任务类型	数据集	数据量	评测指标
分类	细粒度情感分析（ABSA）	SemEval2014-Laptop^[25]	331	准确率
	细粒度情感分析（ABSA）	SemEval2014-Restaurant^[25]	492	准确率
	情感分析（SA）	IMDB^[26]	25000	准确率
	自然语言推理（NLI）	MNLI-m^[27]	9815	准确率
		MNLI-mm^[27]	9832	准确率
		SNLI^[27]	10000	准确率
	语义匹配（SM）	QQP^[28]	40430	准确率
	语义匹配（SM）	MRPC^[29]	1725	准确率
	威诺格拉德模式挑战（WSC）	WSC273^[30]	570	准确率
阅读理解	机器阅读理解（MRC）	SQuAD 1.1^[31]	9868	F1
阅读理解	机器阅读理解（MRC）	SQuAD 2.0^[32]	11491	F1
信息抽取	词性标注（POS）	WSJ^[33]	5461	准确率
	命名实体识别（NER）	CoNLL2003^[34]	3453	F1
	命名实体识别（NER）	OntoNotesv5^[35]	4019	F1
	关系抽取（RE）	TACRED^[36]	15509	F1

下载: 导出CSV

| 显示表格

由于本文实验涉及不同模型、数据集、变形类型、提示种类等多个维度，为方便后续从不同维度对结果进行统计、计算和比较，实验选取的基准模型应当在NLP研究中具有强大的性能和广泛应用，从而能够适用于本文所有评测数据集. 因此，本文选择BERT^[39]作为所有数据集的统一基准模型. 对于每个数据集，本文使用在相应数据集上经过有监督微调的BERT模型. 具体而言，对于IMDB数据集和WSJ数据集，本文使用的BERT版本分别是BERT-Large-ITPT和BERT-BiLSTM-CRF. 在其他数据集中，本文均使用BERT-base-uncased作为基准模型. 此外，本节中GPT模型的测试结果均为零样本场景下的结果.

3.3 结果分析

首先分析2个最新的GPT-3.5模型（即gpt-3.5-turbo和text-davinci-003模型）的性能表现，其和BERT在15个数据集上的性能表现如图3所示，图中的数据是每个数据集在3个提示下的性能均值. 图3所示的结果表明，GPT模型的零样本性能在情感分析、语义匹配、机器阅读理解等分类任务和阅读理解任务中可以与BERT相媲美，并且在SemEval2014-Restaurant和WSC273数据集上的表现均优于BERT.

图 3 GPT-3.5模型和BERT的性能表现

注： “Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集.

Figure 3. Performance of GPT-3.5 models and BERT

下载: 全尺寸图片幻灯片

然而，GPT模型在命名实体识别（NER）和关系抽取（RE）任务上表现不佳. 为深入了解模型错误预测背后的原因，本文选择CoNLL2003和TACRED数据集作为代表，分析了错误预测的分布情况. 图4的2个分图的第1列表示在CONLL2003数据集的预测结果中，实体类型被错误预测为“非实体”类型（即“O”）的数量. 结果表明，在NER任务中，大多数错误预测来自于“O”标签与特定实体类型的混淆，这表明大模型对实体词缺乏敏感性；在RE任务中，如图5的2个分图的第1行所示，GPT模型倾向于将“无关系”实例（即“N/A”）错误分类为特定的关系类型.

图 4 在CoNLL2003数据集上的错误预测的分布

Figure 4. Distribution of prediction errors in CoNLL2003 dateset

下载: 全尺寸图片幻灯片

图 5 在TACRED数据集上的错误预测的分布

Figure 5. Distribution of prediction errors in TACRED dataset

下载: 全尺寸图片幻灯片

需要注意的是，我们观察到在RE任务中模型存在“幻觉”现象，即模型生成了在给定文本和预定义标签空间中不存在的虚构关系. 如图5所示，“N/A”表示“无关系”，“PER”和“ORG”分别表示属于“人物”和“组织”关系类别中的关系类型集合，而 “Other”表示不属于任何预定义标签的关系集合. 如图5的最后1列所示，GPT模型在生成结果中会虚构大量的“Other”关系，而非基于提示中给出的任务特定的关系类型和语义信息. 同时，本文在IMDB二分类数据集中也观察到类似的现象，模型将许多句子分类为“中性”标签，而该标签并不属于提示中给定的标签空间.

如图6所示，本文按照OpenAI官方发布模型的时间顺序和迭代关系（图1），评测了GPT-3和GPT-3.5系列模型在迭代过程中性能的变化. 由于测试数据较多，本文按照表1所示的子任务类型进行结果展示，每个子任务的数值为其包含数据集的结果的均值. 结果表明，随着模型发布时间的推移，GPT模型在大多数NLP任务上的性能稳步提升. 其中，GPT模型在情感分析（SA）和细粒度情感分析（ABSA）任务上保持了较高的性能，并在自然语言推理（NLI）、语义匹配（SM）和威诺格拉德模式挑战（WSC273）任务上有显著的性能提升，但在NER和RE任务上的性能一直处于较低水平.

图 6 GPT模型的性能变化

Figure 6. Performance variations of GPT models

下载: 全尺寸图片幻灯片

由于text-davinci-001和gpt-3.5-turbo在WSJ数据集上未能按照提示完成任务，因此图3、图6中未展示该数据集的结果.

4. 鲁棒性研究

在NLP中，鲁棒性通常是指模型在面对噪音、扰动或有意攻击等情况时能够持续可靠地执行任务的能力. 具有较高鲁棒性的模型，在处理不应该对输出造成影响的微小变化的输入时，模型的预测结果不会发生变化. 本节对GPT模型面对输入文本扰动时的鲁棒性进行了全面评估，并分析了不同任务和不同变形级别的鲁棒性情况.

4.1 方　法

如表2所示，本节使用TextFlint提供的61种任务特定的变形来评测模型的鲁棒性. 如图2所示，每种变形均已通过TextFlint提供的变形规则作用于原始数据，从而生成变形数据. 本文通过将提示与变形数据拼接起来，作为测试文本输入模型并获得相应输出.

表 2 61种任务特定变形的信息

Table 2. Information of 61 Task-Specific Transformations

子任务类型	变形类型	变形方式
细粒度情感分析（ABSA）	句子级	AddDiff， RevNon， RevTgt
情感分析（SA）	词级	SwapSpecialEnt-Movie， SwapSpecialEnt-Person
情感分析（SA）	句子级	AddSum-Movie， AddSum-Person， DoubleDenial
自然语言推理（NLI）	字符级	NumWord
	词级	SwapAnt
	句子级	AddSent
语义匹配（SM）	字符级	NumWord
语义匹配（SM）	词级	SwapAnt
威诺格拉德模式挑战（WSC）	字符级	SwapNames
	词级	SwapGender
	句子级	AddSentences， InsertRelativeClause， SwitchVoice
机器阅读理解（MRC）	句子级	AddSentDiverse， ModifyPos， PerturbAnswer， PerturbQuestion-BackTranslation， PertyrbQuestion-MLM
词性标注（POS）	字符级	SwapPrefix
词性标注（POS）	词级	SwapMultiPOSJJ， SwapMultiPOSNN， SwapMultiPOSRB， SwapMutliPOSVB
命名实体识别（NER）	字符级	EntTypos， OOV
	词级	CrossCategory， SwapLonger
	句子级	ConcatSent
关系抽取（RE）	词级	SwapEnt-LowFreq， SwapEnt-SamEtype
关系抽取（RE）	句子级	InsertClause， SwapTriplePos-Age， SwapTriplePos-Birth， SwapTriplePos-Employee

下载: 导出CSV

| 显示表格

TextFlint提供的变形是基于语言学并针对不同的NLP任务设计的，在保持变形文本的可接受性的同时，能够更好地代表实际应用中的挑战. 本节中，根据变形的粒度，将变形分为句子级别、词级别和字符级别. 表3展示了不同类型的变形样例.

表 3 不同类型的变形样例

Table 3. Examples of Deformations in Different Categories

变形类型	变形方式	样例
字符级	SwapPrefix	原始：That is a prefixed string. 变形后：That is a preunfixed string.
词级	DoubleDenial	原始：The leading actor is good. 变形后：The leading actor is good not bad.
句子级	InsertClause	原始：Shanghai is in the east of China. 变形后：Shanghai which is a municipality of China is in the east of China established in Tiananmen.
注：划线单词表示变形后的数据中删掉的部分；黑体单词表示变形后的数据中新增的部分.

下载: 导出CSV

| 显示表格

4.2 实验设定

由于在不同任务和变形中使用的评估指标存在差异，本节在鲁棒性评估中引入一个新指标，即性能下降率（performance drop rate，PDR）. 该指标的计算方式为：

$PDR(T,P,{f}_{\theta },\mathcal{D})=1-\frac{\sum\limits_{(x;y)\in \mathcal{D}}\mathcal{M}\left[{f}_{\theta }([P,T(x)]),y\right]}{\sum\limits_{(x;y)\in \mathcal{D}}\mathcal{M}\left[{f}_{\theta }([P,x]),y\right]} \text{，}$

(1)

其中， $\mathcal{M}$ 表示不同数据集 $\mathcal{D}$ 使用的评价指标. PDR提供了一种上下文归一化的度量方式，用于量化在处理经过变形T的输入 $x$ （使用提示P）时，模型 ${f}_{\mathrm{\theta }}$ 发生的相对性能下降. 其中，负值的PDR表示在某些文本变形下会出现性能提升.

本节计算模型在不同数据集和变形中的平均原始性能（ori）、平均变形性能（trans）和平均性能下降率（APDR）. 此外，使用BERT作为基准模型，并且对于每个数据集，GPT模型和BERT都在相同的变形方法和测试数据上进行了评估.

4.3 任务层面的鲁棒性

列出了模型在每个数据集上的平均结果. 具体而言，本文定义 $APD{R}_{D}$ 为PDR（式（1））在不同数据集上的平均值：

表 4 不同模型的鲁棒性表现

Table 4. The Robustness Performance of Different Models %

数据集	gpt-3.5-turbo			text-davinci-003			BERT
数据集	ori	trans	APDR	ori	trans	APDR	ori	trans	APDR
Restaurant	91.43±1.23	66.00±11.28	27.80±2.74	90.14±1.33	52.59±11.21	41.65±4.26	84.38±1.20	53.49±15.07	36.51±18.43
Laptop	86.67±2.15	59.36±21.97	31.25±23.31	83.30±0.71	54.71±17.75	34.42±19.29	90.48±0.06	49.06±9.03	45.78±9.97
IMDB	91.60±0.20	90.86±0.50	0.80±0.47	91.74±0.68	91.40±0.58	0.37±0.31	95.24±0.12	94.61±0.80	0.66±0.94
MNLI-m	73.03±7.44	41.75±17.05	42.27±21.87	67.49±2.80	54.88±20.93	19.52±24.60	86.31±4.50	52.49±2.97	39.10±4.13
MNLI-mm	72.21±7.69	40.94±19.11	42.71±24.31	66.61±1.57	50.57±20.58	24.46±27.71	84.17±1.09	52.33±5.44	37.87±5.73
SNLI	73.30±12.50	47.80±8.80	32.99±13.66	70.81±9.24	56.44±22.68	18.99±26.16	90.75±1.52	77.61±18.34	14.44±20.25
QQP	79.32±5.97	64.96±20.52	17.17±1.18	70.14±12.03	69.27±13.67	−1.08±9.23	91.75±2.60	52.77±5.93	42.56±4.83
MRPC	80.69±10.28	84.99±10.69	−8.12±22.99	74.87±5.38	74.33±23.12	−0.17±26.51	86.87±6.05	0.00±0.00	100.00±0.00
WSC273	66.05±1.95	64.12±5.82	2.93±5.57	62.05±0.48	61.42±2.41	1.01±3.12	56.00±0.00	53.61±5.31	4.26±9.49
SQuAD 1.1	55.33±8.22	44.55±9.73	19.45±12.39	67.18±8.23	61.07±9.04	9.11±7.13	87.22±0.26	70.78±21.84	18.88±24.95
SQuAD 2.0	55.03±7.39	44.21±9.31	19.62±12.70	65.91±7.81	59.70±8.93	9.45±7.58	78.81±2.65	60.17±16.99	23.48±21.81
WSJ	−	−	−	75.53±2.28	74.63±2.58	1.21±0.90	97.72±0.09	96.23±1.69	1.53±1.79
CoNLL2003	44.61±3.48	37.30±9.29	16.31±20.05	51.54±2.88	42.64±9.24	17.13±17.76	90.57±0.38	72.24±16.75	20.26±18.42
OntoNotesv5	17.74±8.51	18.68±7.00	−12.73±40.09	11.94±9.98	12.30±7.69	−17.51±51.73	79.99±6.54	61.98±20.30	23.47±20.45
TACRED	31.44±31.24	32.64±33.27	0.58±7.88	35.67±30.89	38.67±31.59	−25.69±55.14	77.99±13.47	65.53±15.46	16.54±7.83
注：“±”后的数字表示均值对应的标准差；“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集；“−”表示模型未完成指定任务.

下载: 导出CSV

| 显示表格

${A}{P}{{D}}{R}_{{D}}(f_{\theta},{D})=\frac{1}{\left|\mathcal{T}_{{D}}\right|}\frac{1}{\left|\mathcal{P}\right|}\sum_{T\in\mathcal{T}_{{D}}}^{ }\sum_{P\in\mathcal{P}}^{ }P{D}R(T,P,f_{\theta},{D})\text{，}$

(2)

其中， $\mathcal{T}_{{D}}$ 表示特定数据集D包含的任务特定变形的集合， $\mathcal{P}$ 表示3个提示的集合.

与第3节类似，本节首先分析gpt-3.5-turbo和text-davinci-003的鲁棒性表现. 表4表明，GPT模型的表现与BERT类似，其在分类任务中出现了显著的性能下降. 例如，gpt-3.5-turbo在MNLI-mm数据集上的绝对性能下降了42.71个百分点，而text-davinci-003在SemEval2014-Restaurant数据集上的绝对性能下降了41.65个百分点.

此外，GPT模型在阅读理解（MRC）任务中性能较稳定，其在SQuAD 1.1和SQuAD 2.0变形前后的数据集上的性能没有出现严重的下降. 但与其他任务不同的是，在MRC任务中，text-davinci-003在性能和鲁棒性方面的表现均优于gpt-3.5-turbo. 进一步分析发现，如表4所示，gpt-3.5-turbo在该任务上具有较低的精确度（precision），通过抽样分析其生成结果，我们发现原因可能在于gpt-3.5-turbo倾向于生成更长的句子. 此外，这2个模型的输出均达到95%左右的召回率（recall），这表明GPT模型在篇章级别的理解任务上具有较强的能力.

同时，GPT模型对数字和反义词敏感度较高. 在语义匹配任务（包括QQP和MRPC数据集）中，GPT模型和BERT在变形前后的性能变化上存在显著差距. BERT在MRPC数据集上的变形后性能降至0，但GPT模型在该数据集上的变形后性能甚至有所提升. 通过分析MRPC和QQP数据集的任务特定变形，即NumWord和SwapAnt，我们发现这2种变形通过改变原始数据中的数字或对原始词语进行反义词替换，将原始句子对之间的蕴涵关系转化为矛盾关系. GPT模型在此类变形上的性能提升表明它们能够较好地捕捉到变形后的文本中数字或反义词所涉及的矛盾关系.

在NER和RE任务中，GPT模型性能的下降不明显，有时甚至有提升，尤其是在OntoNotesv5和TACRED数据集中. 但需要注意的是，模型在这些数据集上的原始性能较低. 因此，在这种情况下，讨论GPT模型在这类任务上的鲁棒性缺乏实际意义，提升模型在原始数据上的性能更为紧要.

此外，随着迭代的进行，GPT系列模型在不同任务上平均性能下降率的变化如图7所示. 由于不同模型间的结果波动较大，图7的纵坐标数值为经过对数变换之后的结果. 平均性能下降率越小，代表模型的鲁棒性越好，但图中的结果没有呈现出一致的趋势. 在ABSA和MRC任务中，模型间的鲁棒性表现较为相似；在SA任务上出现了较显著的鲁棒性提升；但是在其余任务中均呈现出显著的波动，并且没有出现鲁棒性显著提升的情况. 这可能表明GPT模型的迭代过程主要集中于改进模型在一般场景下的性能，而非解决鲁棒性问题.

图 7 GPT模型的平均性能下降率的变化

Figure 7. APDR variations of GPT models

下载: 全尺寸图片幻灯片

4.4 变形层面的鲁棒性

为GPT模型在3种变形级别上的性能下降情况. 其中斜杠部分表示模型的变形后性能，无斜杠部分表示变形后性能与原始性能的差值，折线表示平均性能下降率（APDR）. 通过计算每个变形级别下的PDR的均值得到 ${{A}{P}{D}{R}}_{{\mathcal{T}}_{t}}$ ：

图 8 不同模型在3种变形类别上的性能下降情况

Figure 8. Performance drop of different models on three transformation categories

下载: 全尺寸图片幻灯片

${{APDR}}_{{\mathcal{T}}_{t}}\left({f}_{\theta },{\mathcal{T}}_{t}\right)=\frac{1}{\left|\mathcal{D}\right|}\frac{1}{\left|\mathcal{P}\right|}\sum _{D\in \mathcal{D}}\sum _{P\in \mathcal{P}}PDR\left({\mathcal{T}}_{t},P,{f}_{\theta },D\right) \text{，}$

(3)

其中， $\mathcal{T}_{\mathcal{\mathit{t}}}$ 表示某个变形类别 $t$ 的变形集合， $\mathcal{P}$ 表示提示的集合.

根据图8所示，GPT模型的APDR在句子级、词级、字符级3个变形类别上逐级递减，即处理句子级别的变形文本时，GPT模型在变形前后的性能下降更为显著. 句子级别的变形通常涉及语义的重新表述或句子整体结构的改变，这对模型稳定性有更高的要求. 此外，GPT模型在字符级和词级变形上表现出比BERT更好的鲁棒性. GPT模型的平均性能下降范围为9.61%~15.22%，而BERT在字符级和词级变形上的性能下降分别为36.74%和37.07%. 可以看出，与监督微调模型相比，GPT模型对细粒度扰动表现出更强的稳定性.

5. 性能和鲁棒性影响因素

在第3节和第4节中，本文使用涵盖了各种任务和文本变形的大量测试数据，对GPT模型的性能和鲁棒性进行了评估. 除测试文本之外，提示是评测过程中模型输入数据的另一个重要部分，并且基于提示中少量示例的上下文学习已经成为NLP领域的新范式. 基于此，本节探究提示对GPT模型的性能和鲁棒性的影响，具体关注2个方面：1）提示中演示数量的影响；2）提示中演示内容的影响. 其中，演示是指提示中的示例或样本，通常用来说明我们所期望模型输出的结果.

5.1 演示数量的影响

通过改变演示数量（即中的“ $k$ ”），本文研究了在0、1和3个演示数量下模型的原始性能表现和变形前后性能的变化.

图9结果表明，增加演示数量通常会带来性能的提升. 此外，从零样本增加为少样本的情况下，模型性能提升显著，特别是对于一开始在零样本情景下表现不佳的任务，如信息抽取任务. 此外，随着演示数量的增加，不同GPT模型之间的性能差异减小.

图 9 GPT模型在0-shot、1-shot、3-shot样本场景下原始性能与变形后的性能表现

Figure 9. Original and transformed performance of GPT models on 0-shot, 1-shot, and 3-shot

下载: 全尺寸图片幻灯片

然而，就变形前后的性能变化而言，在大多数情况下，增加演示数量没有显著缓解模型的性能下降. 只有在分类任务中，可以观察到text-davinci-001，code-davinci-002和text-davinci-002的性能下降有所缓解. 这表明增加演示数量虽然可以改善模型在原始任务上的性能，但并不能有效提高模型面对扰动时的鲁棒性.

5.2 演示内容的影响

在5.1节中的少样本情景下，原始数据和变形后数据均使用相同的、未经过变形的演示样例来研究变形后测试数据引起的性能变化. 本节研究在提示中使用变形后的演示样例对模型的鲁棒性有何影响. 本文分别从分类、信息抽取和阅读理解三大类任务中选取SemEval2014-Restaurant (Restaurant)，CoNLL2003和SQuAD 1.1数据集作为代表进行实验. 对于每个数据集，演示样例使用该数据集特定的任务变形进行变换，并与变形后的测试数据拼接，用以评估模型变形后的性能. 演示样例的数量为3.

图10展示了变形前后模型的APDR. 结果表明，在演示中使用变形后的样本有助于缓解模型变形后的性能下降，说明演示中包含的扰动信息能够帮助模型更好地处理变形数据. 但是，APDR依然处于较高的数值，这表明这种性能改善是有限的，不足以从根本上解决模型的鲁棒性问题.

图 10 模型使用原始和变形后的演示数据的APDR

Figure 10. APDR with original and transformed demonstrations date

下载: 全尺寸图片幻灯片

6. 讨　　论

6.1 GPT更新版本的表现

本文前文主要针对GPT-3和GPT-3.5系列模型的性能和鲁棒性表现进行了探究. 随着时间的推进，GPT系列模型仍然在持续迭代，并且Chen等人^[40]、Tu等人^[41]近期的工作表明模型的表现会随时间发生变化. 为了更好地验证本文实验结果的可持续性，本节针对GPT系列模型的更新版本“gpt-3.5-turbo-0613”（上文中的“gpt-3.5-turbo”为“gpt-3.5-turbo-0301”版本）、“gpt-4” 进行性能和鲁棒性评测.

首先是模型的性能表现. 如图11所示，根据模型更新与迭代顺序，gpt-3.5-turbo-0613和gpt-4模型在大部分数据集上的性能表现较为显著的提升. 其中，在情感分析和阅读理解的数据集中，这2个模型的提升最为显著. 第3节中的结果表明GPT模型在NER和RE任务上表现不佳，图11表明gpt-3.5-turbo-0613和gpt-4模型在NER任务的OntoNotesv5数据集及RE任务的TACRED数据集上的表现仍然处于较低水平.

图 11 GPT和LLaMA2模型的性能表现

注：“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集. 柱状图中WSJ和TACRED数据集空缺的部分表示模型未完成在该数据集上的指定任务.

Figure 11. Performance of GPT and LLaMA2 models

下载: 全尺寸图片幻灯片

其次是模型的鲁棒性表现. 表5展示了3个模型的鲁棒性表现. 如表5所示， GPT模型仍然存在4.3节中提到的鲁棒性问题，尤其在分类任务中存在显著的性能下降. 值得注意的是，在阅读理解任务中gpt-3.5-turbo-0613和gpt-4 的鲁棒性进一步提升，表现出在该任务上较高的稳定性. 同时，gpt-3.5-turbo的版本迭代未带来稳定的鲁棒性提升，而gpt-4的鲁棒性在大多任务上都优于GPT-3.5系列模型.

表 5 3个GPT模型的鲁棒性表现

Table 5. The Robustness Performance of Three GPT Models %

数据集	gpt-3.5-turbo-0301			gpt-3.5-turbo-0613			gpt-4
数据集	ori	trans	APDR	ori	trans	APDR	ori	trans	APDR
Restaurant	91.43±1.23	66.00±11.28	27.80±2.74	97.05±0.86	59.98±16.37	38.28±16.56	95.81±2.27	71.07±9.15	25.80±9.69
Laptop	86.67±2.15	59.36±21.97	31.25±23.31	93.91±1.45	63.82±19.10	32.16±19.83	98.74±1.88	74.42±16.01	24.75±15.42
IMDB	91.60±0.20	90.86±0.50	0.80±0.47	96.58±1.05	95.99±1.63	0.62±0.90	93.81±3.69	91.91±5.31	2.05±3.83
MNLI-m	73.03±7.44	41.75±17.05	42.27±21.87	71.88±7.99	35.30±16.00	51.85±20.03	84.24±7.00	53.46±10.50	36.81±9.04
MNLI-mm	72.21±7.69	40.94±19.11	42.71±24.31	71.78±7.68	35.59±15.45	50.28±22.50	80.23±8.14	53.88±14.19	33.28±14.43
SNLI	73.30±12.50	47.80±8.80	32.99±13.66	75.67±15.70	38.58±11.11	47.61±16.40	89.10±5.64	70.65±21.60	21.25±21.31
QQP	79.32±5.97	64.96±20.52	17.17±1.18	81.42±8.49	49.71±16.16	38.22±22.66	53.14±19.48	84.91±15.74	−105.86±159.05
MRPC	80.69±10.28	84.99±10.69	−8.12±22.99	85.70±11.16	70.65±16.74	14.29±30.49	60.38±7.06	94.65±4.68	−58.46±18.46
WSC273	66.05±1.95	64.12±5.82	2.93±5.57	53.98±0.75	51.92±3.13	3.80±6.10	77.88±6.12	64.42±23.57	16.91±30.39
SQuAD1.1	55.33±8.22	44.55±9.73	19.45±12.39	90.11±1.09	80.84±8.65	10.27±9.70	95.14±1.74	84.96±13.75	10.69±14.41
SQuAD2.0	55.03±7.39	44.21±9.31	19.62±12.70	73.68±4.61	64.25±10.76	12.85±13.16	81.94±3.17	74.15±7.17	9.50±8.02
WSJ	−	−	−	50.35±5.22	49.31±5.61	2.07±4.52	68.66±3.03	67.88±5.58	1.10±7.39
CoNLL2003	44.61±3.48	37.30±9.29	16.31±20.05	66.78±2.98	49.76±11.69	25.38±17.69	83.23±1.86	65.53±13.86	21.25±16.66
OntoNotesv5	17.74±8.51	18.68±7.00	−12.73±40.09	9.85±6.53	13.50±4.13	−66.86±72.42	7.58±15.72	6.70±10.70	10.87±15.47
TACRED	31.44±31.24	32.64±33.27	0.58±7.88	37.00±35.29	40.23±34.38	−20.07±36.33	14.32±7.57	13.31±9.17	−0.02±74.59
注：“±”后的数字表示均值对应的标准差；“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集；“−”表示模型未完成指定任务.

下载: 导出CSV

| 显示表格

6.2 开源模型的表现

由于GPT系列模型出色的性能和较完善的迭代过程，对其进行的性能和鲁棒性评测有助于更全面地了解大模型的能力及其发展进程中的变化，但是由于闭源模型的限制，后续在GPT系列模型上进行优化较为困难. 为此，本节对开源模型LLaMA2-7B和LLaMA2-13B进行性能和鲁棒性评测.

如图11第1个子图所示，LLaMA2-7B和LLaMA2-13B在情感分析和阅读理解类任务上的表现与GPT-3.5系列模型相当；在第2个子图中，其在自然语言推理和语义匹配任务中却与GPT-3.5系列模型存在较大差距. 需要注意的是，LLaMA2-7B和LLaMA2-13B在WSJ和TACRED数据集中均未按照指令完成相应任务，并且在NER任务中的表现亟待提升.

如表6所示，与GPT系列模型的鲁棒性表现类似，LLaMA2-7B和LLaMA2-13B在大多分类任务上的性能下降都较为严重，但在阅读理解任务中的鲁棒性与gpt-4相当，且好于GPT-3.5系列模型. 同时，LLaMA2-13B比LLaMA2-7B具有更好的鲁棒性.

表 6 LLaMA2模型的鲁棒性表现

Table 6. The Robustness Performance of LLaMA2 Model %

数据集	LLaMA2-7B			LLaMA2-13B
数据集	ori	trans	APDR	ori	trans	APDR
Restaurant	87.85±1.68	52.38±7.01	40.34±8.22	87.10±3.17	35.16±9.07	59.84±9.45
Laptop	79.40±2.93	56.23±12.68	28.96±16.86	81.15±2.82	47.21±18.58	41.87±22.81
IMDB	92.04±1.68	91.06±2.68	1.08±1.43	88.17±2.30	87.40±2.89	0.88±1.21
MNLI-m	46.76±16.03	27.64±13.39	34.77±34.65	54.47±15.15	44.70±18.95	12.52±43.92
MNLI-mm	50.16±17.23	27.92±13.99	39.21±32.29	57.04±15.11	45.47±19.30	15.94±42.02
SNLI	47.77±19.73	30.73±17.44	27.79±41.43	54.79±15.20	43.75±24.22	12.83±53.93
QQP	59.93±16.77	33.18±11.02	40.58±24.61	54.49±12.91	40.17±14.45	21.36±32.47
MRPC	70.66±14.76	66.49±16.68	1.92±33.62	69.59±17.74	33.75±32.70	43.09±63.48
WSC273	52.40±3.60	53.10±1.68	−1.65±7.48	52.57±0.73	56.43±2.77	−7.33±4.58
SQuAD1.1	79.64±0.69	67.85±9.98	14.80±12.51	71.27±1.16	63.67±5.14	10.65±7.12
SQuAD2.0	78.25±0.95	66.30±9.66	15.26±12.36	69.40±1.27	61.77±5.05	10.99±7.20
WSJ	−	−	−	−	−	−
CoNLL2003	20.05±8.92	4.44±5.36	74.37±36.93	45.66±10.22	20.26±10.27	53.47±26.94
OntoNotesv5	4.97±2.57	4.94±2.03	−19.85±76.91	5.87±5.21	5.36±3.34	−8.23±51.59
TACRED	−	−	−	4.26±2.60	5.95±5.45	−16.67±104.08
注：“±”后的数字表示均值对应的标准差；“Laptop”和“Restaurant”分别表示“SemEval2014-Laptop”和“SemEval2014-Restaurant”数据集；“−”表示模型未完成指定任务.

下载: 导出CSV

| 显示表格

7. 总　　结

本文通过评估涵盖9个不同NLP任务的15个数据集，使用61种任务特定的变形方法，对GPT-3和GPT-3.5系列模型的性能和鲁棒性进行了全面分析. 研究结果表明，尽管GPT模型在情感分析、语义匹配等分类任务和阅读理解任务表现出色，但在面对输入文本扰动时仍然存在明显的鲁棒性问题. 其中，本文分别从任务层面和变形级别层面具体分析了GPT模型的鲁棒性表现，表明其在分类任务和句子级变形中的鲁棒性亟待提升. 同时，随着GPT系列模型的迭代，其性能在大多数任务上稳步提升，但鲁棒性依然面临很大的挑战. 此外，本文探讨了提示对GPT模型的性能和鲁棒性的影响，包括提示中演示数量和演示内容2方面. 这些发现从任务类型、变形种类、提示内容等方面揭示了 GPT模型还无法完全胜任常见的 NLP任务，并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决. 与此同时，本文通过评估gpt-3.5-turbo的更新版本、gpt-4模型，以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现，进一步验证了实验结论. 鉴于此，未来的大模型研究应当提升模型在信息提取和语义理解方面的能力，并且应当在模型训练或微调阶段考虑提升模型的鲁棒性.

作者贡献声明：陈炫婷提出研究思路和实验方案，负责部分实验和论文写作；叶俊杰负责部分实验和完善论文；祖璨负责部分实验并整理分析实验结果；许诺协助实验和完善论文；桂韬提出指导意见并修改论文；张奇提出指导意见并审阅论文.

图 1 任务数据设置示意图

Figure 1. Illustration of task data setup

下载: 全尺寸图片幻灯片

图 2 训练阶段流程

Figure 2. Process of training stage

下载: 全尺寸图片幻灯片

图 3 基于GNN的FSL方法基本流程

Figure 3. Basic flow of FSL method based on GNN

下载: 全尺寸图片幻灯片

图 4 GNN-FSL模型框架图^[43]

Figure 4. The frame diagram of GNN-FSL model^[43]

下载: 全尺寸图片幻灯片

图 5 EGNN模型框架

Figure 5. The framework of EGNN model^[53]

下载: 全尺寸图片幻灯片

图 6 Frog-GNN模型框架图^[17]

Figure 6. The frame diagram of Frog-GNN model^[17]

下载: 全尺寸图片幻灯片

图 7 TPRN模型框架图^[65]

Figure 7. The frame diagram of TPRN model^[65]

下载: 全尺寸图片幻灯片

图 8 分层GNN框架图^[66]

Figure 8. The frame diagram of hierarchical GNN^[66]

下载: 全尺寸图片幻灯片

表 1 小样本学习方法优缺点对比

Table 1 Comparison of Advantages and Disadvantages of Few-Shot Learning Methods

分类体系		优点	缺点
基于模型微调的方法		方法简单，仅需要设计模型参数；调整模块，而无需考虑模型构建.	当目标数据集与源数据集分布相差较大时，将导致模型在目标数据集上过拟合.
基于数据增强的方法		一定程度地缓解了模型过拟合问题，通常专注于对数据属性的增强，更高效地利用现有数据，避免对模型的优化与调整.	可能会产生噪声数据或噪声特征，难以达到最佳效果.
基于迁移学习的方法	基于度量学习的方法	思想易于理解，可解释性较强，便于计算和公式化，可扩展性强，能够和其他FSL方法结合.	在样本量较少的情况下，简单地通过距离度量的方法使得最终效果不佳.
	基于元学习的方法	受到人类学习的启发，使模型具备学习的能力，能够学习到除训练之外的知识，并利用已有知识，指导模型更快地适应新任务. 可解释性强，能够更准确地度量样本间关系.	模型复杂度较高、训练时间较长，因此该类方法的时间成本与设备成本较高，且模型效果仍有较大的提升空间.
	基于GNN的方法	GNN中节点分类的思想能够自然地应用于小样本分类问题，且该类FSL方法性能较好.	不可避免地存在节点过平滑的问题，由于该方法较为新颖，其需要改进和发展的方面还有很多.

下载: 导出CSV

表 2 符号说明

Table 2 Symbol Description

符号	描述
D_base	训练集
D_novel	测试集
m_base	训练集中样本数量
m_novel	测试集中样本数量
${x_i}$	样本i实例
${y_i}$	样本i实际标签
${\overline y _i}$	样本i预测标签
C_base	用于构建训练任务的类集合
C_novel	用于构建测试任务的类集合
N	每轮任务中类的数量
K	支持集中每一种类的样本数量
H	查询集中每一种类的样本数量
${T_{{\text{train}}}}$	训练任务
${T_{{\text{test}}}}$	测试任务
$\mathit{\theta }$	图神经网络参数
$\mathit{S}$	支持集
Q	查询集
L	损失函数
Y	样本标签矩阵
A	邻接矩阵
D	度矩阵
f_i	样本i对应的特征向量
n_i	样本i对应的节点表示
F	样本特征向量矩阵

下载: 导出CSV

表 3 数据集的统计与划分

Table 3 Statistics and Division of Datasets

数据集	类别数量	图像数量	训练数量/验证数量/测试数量
MiniimageNet	100	60000	64/16/20
TieredimageNet	608	779165	351/97/160
CUB-200-2011	200	11788	100/50/50
CIFAR-FS	100	60000	64/16/20
Stanford Cars	196	16185	130/17/49

下载: 导出CSV

表 4 基于GNN的小样本图像分类学习方法在2个数据集上的准确率

Table 4 Accuracy of GNN-Based Few-Shot Image Classification Learning Method on Two Datasets %

方法	模型	主干	MiniimageNet		TieredImageNet
方法	模型	主干	1-shot	5-shot	1-shot	5-shot
基于节点特征	GNN-FSL^[43]	Conv4	50.33	66.41	54.97	70.92
	TPN^[44]	Conv4	55.51±0.86	69.86±0.65	57.53±0.96	72.86±0.74
	AGNN^[48]	Conv4	54.81	69.85	57.47	72.29
	AGNN*^[48]	Conv4	60.14	72.41	67.23	79.55
	DMH-FSL^[51]	Conv4	51.18	67.86
	文献[50]	Conv4	61.99	78.81	57.89	73.62
基于边缘特征	EGNN^[53]	Conv4	52.86	66.85		70.98
	EGNN*^[53]	Conv4	59.18	76.37	63.52	80.15
	MDEGNN*^[22]	Conv4	62.23±0.73	78.83±0.67
	MCGN^[56]	Conv4	57.89±0.87	73.58 ± 0.87	58.45 ± 0.59	74.58 ± 0.84
	MCGN*^[56]	Conv4	67.32±0.43	83.03 ± 0.54	71.21 ± 0.85	85.98 ± 0.98
	DPGN*^[58]	Conv4	66.01±0.36	82.83±0.41	69.43±0.49	85.92±0.42
	MDGN^[59]	Conv4	69.22±0.46	85.35±0.72
	Fuzzy GNN^[62]	Conv4	64.15±0.28	80.08±0.35	69.09±0.15	84.13±0.18
基于节点对特征	TPRN-T*^[64]	Conv4	57.84±0.51	78.57±0.44	59.26±0.50	79.66±0.45
基于节点对特征	TPRN-D*^[65]	Conv4	62.98±0.50	81.24±0.42	61.01±0.49	80.98±0.42
基于类级特征	Hybrid GNN^[69]	Conv4	55.63±0.22	72.48±0.16	56.05±0.21	72.82±0.18
	Hierachical GNN^[66]	Conv4	60.03±0.51	79.64±0.36	64.32±0.49	83.34±0.45
	文献[71]	Conv4	71.82±0.88	83.04±0.51	77.67±0.27	87.98±1.01
	ECKPN^[67]	Conv4	68.89±0.34	83.59±0.44	70.45±0.48	86.74±0.42
注：*表示转导学习设置下的模型.

下载: 导出CSV

表 5 基于GNN的小样本学习方法总结

Table 5 Summary of Few-Shot Learning Methods Based on GNN

方法	模型名称	应用	主要技术	优点	缺点
基于节点特征	GNN-FSL^[43]	图像分类	GCN	1. 节点特征易获取、易利用. 2. 扩展性强，通过丰富GNN模型使节点特征在图上进行高效的传播. 3. 易理解模型设计容易，可解释性强.	1. 对节点之间相关性的探究不足. 2. 通常利用节点特征间的相似度构建邻接矩阵，易导致不适当的特征聚合. 3. 存在过拟合的风险.
	TPN^[44]	图像分类	GCN 转导学习
	AGNN^[48]	图像分类	GCN 注意力机制
	AMGNN^[21]	疾病诊断	GCN 多模态融合
	DMH-FSL^[51]	图像分类	超图卷积
	文献[50]	图像分类	GCN 幻觉网络
基于边缘特征	EGNN^[53]	图像分类	GCN	1. 在节点特征的基础上考虑到对节点间的关系进行深入挖掘. 2. 精心设计的边缘特征既可以控制节点信息聚合的程度也可以建模节点间丰富的关系，效果提升明显. 3. 设计过的边特征可以缓解图上的过拟合问题.	1. 边缘特征的表示形式不够丰富. 2. 缺乏明确的初始边缘特征建模标准. 3. 设计合适的边缘特征更新网络较为困难. 算法复杂度较高.
	文献[54]	图像分类	GCN
	MDEGNN^[55]	图像分类	GCN
	HOSP-GNN^[80]	图像分类	GCN 高阶关系
	MCGN^[56]	图像分类	GCN 混合高斯分布
	DPGN^[58]	图像分类	GCN 分布图
	DPGNN^[60]	视频分类	GCN 图池化
	Fuzzy-GNN^[62]	图像分类	GCN 模糊数学
基于节点对特征	Frog-GNN^[17]	文本分类	GCN	1. 对节点关系进行显示建模，由此丰富了关系的表现形式. 2. 直接将关系在图上进行传播，能够学习到节点间的深入的关系. 3. 能够充分挖掘样本间相关性.	1. 关系节点的构建方法复杂. 2. 多种形式的信息在图上传播可能导致节点间过平滑. 3. 可解释性较差. 4. 算法复杂度较高. 5. 模型扩展性较差.
	TPRN-T^[64]	图像分类	GCN
	TPRN-D^[65]	图像分类	GCN 解耦学习
基于类级特征	Hierachical GNN^[66]	图像分类	GCN 图池化	1. 结合类级知识能够为查询样本匹配更高可信度的类级知识，对于5-shot的分类任务这类方法平均性能提升明显. 2. 模型扩展性较强，改进方式较多.	1. 对于1-shot的分类任务，类级知识对模型性能的提升相当于失效.
	ECKPN^[67]	图像分类	GCN 图池化多模态
	NSCGNN^[19]	文本分类	GCN 胶囊网络动态路由算法
	Hybrid GNN^[69]	图像分类	GCN 原型网络
	EGNN-prot^[18]	图像分类	GCN 原型网络
	文献[71]	图像分类	GCN 分布校准最优传输（OPT）

下载: 导出CSV

参考文献(103)

[1]	葛轶洲,刘恒,王言,等. 小样本困境下的深度学习图像识别综述[J]. 软件学报,2022,33(1):193−210 doi: 10.13328/j.cnki.jos.006342 Ge Yizhou, Liu Heng, Wang Yan, et al. Survey on deep learning image recognition in dilemma of small samples[J]. Journal of Software, 2022, 33(1): 193−210 (in Chinese) doi: 10.13328/j.cnki.jos.006342
[2]	李凡长,刘洋,吴鹏翔,等. 元学习研究综述[J]. 计算机学报,2021,44(2):422−446 doi: 10.11897/SP.J.1016.2021.00422 Li Fanchang, Liu Yang, Wu Pengxiang, et al. A survey on recent advance in meta-learning[J]. Chinese Journal of Computers, 2021, 44(2): 422−446 (in Chinese) doi: 10.11897/SP.J.1016.2021.00422
[3]	Sun Qianru, Liu Yaoyao, Chua T, et al. Meta-transfer learning for few-shot learning [C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 403−412
[4]	Wang Peng, Liu Lingqiao, Shen Chunhua, et al. Multi-attention network for one shot learning [C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2721−2729
[5]	Khodadadeh S, Boloni L, Shan M. Unsupervised meta-learning for few-shot image classification [C] //Proc of the 33rd Annual Conf on Neural Information-Processing Systems. Cambrige, MA: MIT, 2019: 10132−10142
[6]	赵凯琳,靳小龙,王元卓. 小样本学习研究综述[J]. 软件学报,2021,32(2):349−369 doi: 10.13328/j.cnki.jos.006138 Zhao Kailin, Jin Xiaolong, Wang Yuanzhuo. Survey on few-shot learning[J]. Journal of Software, 2021, 32(2): 349−369 (in Chinese) doi: 10.13328/j.cnki.jos.006138
[7]	Howard J, Ruder S. Universal language model fine-tuning for text classification[J]. arXiv preprint, arXiv: 1801. 06146, 2018
[8]	Royle J, Dorazio R, Link W. Analysis of multinomial models with unknown index using data augmentation[J]. Journal of Computational and Graphical Statistics, 2007, 16(1): 67−85 doi: 10.1198/106186007X181425
[9]	Liu Zicheng, Li Siyuan, Wu Di, et al. AutoMix: Unveiling the power of mixup for stronger classifiers [C] //Proc of the 17th European Conf on Computer Vision. Berlin: Springer, 2022: 441−458
[10]	Kipf T, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint, arXiv: 1609. 02907, 2016
[11]	Blaes S, Burwick T. Few-shot learning in deep networks through global prototyping[J]. Neural Networks, 2017, 94: 159−172 doi: 10.1016/j.neunet.2017.07.001
[12]	Rahman S, Khan S, Porikli F. A unified approach for conventional zero-shot, generalized zero-shot, and few-shot learning[J]. IEEE Transactions on Image Processing, 2018, 27((11): ): 5652−5267 doi: 10.1109/TIP.2018.2861573
[13]	Cheng Yu, Yu Mo, Guo Xiaoxiao, et al. Few-shot learning with meta metric learners[J]. arXiv preprint, arXiv: 1901. 09890, 2019
[14]	马帅,刘建伟,左信. 图神经网络综述[J]. 计算机研究与发展,2022,59(1):47−80 Ma Shuai, Liu Jianwei, Zuo Xin. Survey of graph neural networks[J]. Journal of Computer Research and Development, 2022, 59(1): 47−80 (in Chinese)
[15]	谢小杰,梁英,王梓森,等. 基于图卷积的异质网络节点分类方法[J]. 计算机研究与发展,2022,59(7):1470−1485 Xie Xiaojie, Liang Ying, Wang Zisen, et al. Node classification method for heterogeneous networks based on graph convolution[J]. Journal of Computer Research and Development, 2022, 59(7): 1470−1485 (in Chinese)
[16]	任嘉睿,张海燕,朱梦涵,等. 基于元图卷积的异质网络嵌入学习算法[J]. 计算机研究与发展,2022,59(8):1683−1693 Ren Jiarui, Zhang Haiyan, Zhu Menghan, et al. Embedding learning algorithm for heterogeneous networks based on metagram convolution[J]. Journal of Computer Research and Development, 2022, 59(8): 1683−1693 (in Chinese)
[17]	Xu Shiyao, Xiang Yang. Frog-GNN: Multi-perspective aggregation based graph neural network for few-shot text classification[J]. Expert Systems with Applications, 2021, 176: 114795 doi: 10.1016/j.eswa.2021.114795
[18]	Lyu Chen, Liu Weijie, Wang Ping. Few-shot text classification with edge-labeling graph neural network-based prototypical network [C] //Proc of the 28th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2020: 5547−552
[19]	Ding Ling, Chen Xiaojun, Xiang Yang. Negative-supervised capsule graph neural network for few-shot text classification[J]. Journal of Intelligent & Fuzzy Systems, 2021, 41(6): 6875−6887
[20]	Zhang Yuxiang, Li Wei, Zhang Mengmeng, et al. Dual graph cross-domain few-shot learning for hyperspectral image classification [C] //Proc of the 47th IEEE Int Conf on Acoustics Speech and Signal Processing. Piscataway, NJ: IEEE, 2022: 3573−3577
[21]	Song Xiaofa, Mao Mingyi, Qian Xiaohua. Auto-metric graph neural network based on a meta-learning strategy for the diagnosis of Alzheimer’s disease[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 25(8): 3141−3152 doi: 10.1109/JBHI.2021.3053568
[22]	Xiong chao, Li wen, Wang Minghui, et al. Multi-dimensional edge features graph neural network on few-shot image classification[J]. IEEE Signal Processing Letters, 2021, 28: 573−577 doi: 10.1016/j.ymeth.2021.10.005
[23]	刘颖,雷研博,范九伦,等. 基于小样本学习的图像分类技术综述[J]. 自动化学报,2021,47(2):297−315 doi: 10.16383/j.aas.c190720 Liu Ying, Lei Yanbo, Fan Jiulun, et al. Survey on image classification technology based on small sample learning[J]. Acta Automatica Sinica, 2021, 47(2): 297−315 (in Chinese) doi: 10.16383/j.aas.c190720
[24]	徐冰冰,岑科廷,黄俊杰,等. 图卷积神经网络综述[J]. 计算机学报,2020,43(5):755−780 Xu Bingbing, Cen Keting, Huang Junjie, et al. A survey on graph convolutional neural networks[J]. Chinese Journal of Computers, 2020, 43(5): 755−780 (in Chinese)
[25]	Nakamura A, Harada T. Revisiting fine-tuning for few-shot learning[J]. arXiv preprint, arXiv: 1910. 00216, 2019
[26]	Dhillon G S, Ghaudhari P, Ravichandran A, et al. A baseline for few-shot image classification [C/OL] //Proc of the 8th Int Conf on Learning Representation. Amsterdam: Elsevier, 2020 [2023-03-26].https://openreview.net/forum?id=rylXBkrYDS
[27]	Wang Y, Girshick R, Hebert M, et al. Low-shot learning from imaginary data [C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 7278−7286
[28]	Liu Bo, Wang Xudong, Dixit M, et al. Feature space transfer for data augmentation [C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 9090−9098
[29]	Jing Kunlei, Zhang Xinman, Yang Zhiyuan, et al. Feature augmentation learning for few-shot palmprint image recognition with unconstrained acquisition [C] //Proc of the 47th IEEE Int Conf on Acoustics Speech and Signal Processing. Piscataway, NJ: IEEE, 2022: 3323−3327
[30]	蒋留兵,周小龙,姜风伟,等. 基于改进匹配网络的单样本学习[J]. 系统工程与电子技术,2019,41(6):1210−1217 doi: 10.3969/j.issn.1001506X.2019.06.06 Jiang Liubing, Zhou Xiaolong, Jiang Fengwei, et al. One-shot learning based on improved matching network[J]. Systems Engineering and Electronics, 2019, 41(6): 1210−1217 (in Chinese) doi: 10.3969/j.issn.1001506X.2019.06.06
[31]	Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning [C] //Proc of the 31st Annual Conf on Neural InformationProcessing Systems. Cambrige, MA: MIT, 2017: 4077−4087
[32]	Li Wenbin, Xu Jinglin, Huo Jing, et al. Distribution consistency based covariance metric networks for few-shot learning [C] //Proc of the 33rd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 8642−8649
[33]	Jiang Wen, Huang Kai, Geng Jie, et al. Multi-scale metric learning for few-shot learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31(3): 1091−1102
[34]	Tian Yingjie, Zhao Xiaoxi, Huang Wei. Meta-learning approaches for learning-to-learn in deep learning: A survey [J]. Neurocomputing, 2022, 494: 203−223 Tian Yingjie,Zhao Xiaoxi,Huang Wei. Meta-learning approaches for learning-to-learn in deep learning:A survey [J]. Neurocomputing,2022,494:203−223
[35]	李维刚,甘平,谢璐,等. 基于样本对元学习的小样本图像分类方法[J]. 电子学报,2022,50(2):295−304 doi: 10.12263/DZXB.20210453 Li Weigang, Gan Ping, Xie Lu, et al. A few-shot image classification method by pairwise-based meta learning[J]. Acta Electronica Sinica, 2022, 50(2): 295−304 (in Chinese) doi: 10.12263/DZXB.20210453
[36]	Ravi S, Larochelle H. Optimization as a model for few-shot learning [C/OL] //Proc of the 4th Int Conf on Learning Representation. Amsterdam: Elsevier, 2016 [2023-03-26].https://openreview.net/pdf?id=rJY0-Kcll
[37]	Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks [C] //Proc of the 34th ACM Int Conf on Machine Learning. New York: ACM, 2017: 1126−1135
[38]	Li Zhenguo, Zhuo Fengwei, Chen Fei, et al. Meta-SGD: Learning to learn quickly for few-shot learning[J]. arXiv preprint, arXiv: 1707. 09835, 2017
[39]	Vinyals O, Blundell C, Lilicrap T, et al. Matching networks for one shot learning [C] //Proc of the 30th Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2016: 3630−3638
[40]	Santoro A, Bartunov S, Botvinick M, et al. Meta-learning with memory-augmented neural networks [C] //Proc of the 33rd ACM Int Conf on Machine Learning. New York: ACM, 2016: 1842−1850
[41]	Brendel W, Bethge M. Approximating CNNs with bag-of-local-features models works surprisingly well on ImageNet [C/OL] //Proc of the 7th Int Conf on Learning Representation. Amsterdam: Elsevier, 2019 [2023-03-26].https://openreview.net/forum?id=rJY0-Kcll
[42]	Lai K, Zha Daochen, Zhou Kaixiong, et al. Policy-GNN: Aggregation optimization for graph neural networks [C] //Proc of the 26th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2020: 461−471
[43]	Garcia V, Bruna J. Few-shot learning with graph neural networks [C/OL] //Proc of the 6th Int Conf on Learning Representation. Amsterdam: Elsevier, 2018 [2023-03-26].https://openreview.net/pdf ?id=BJj6qGbRW
[44]	Liu Yanbin, Lee J, Park M, et al. Learning to propagate labels: Transductive propagation network for few-shot learning [C/OL] //Proc of the 7th Int Conf on Learning Representation. Amsterdam: Elsevier, 2019 [2023-03-26].https://openreview.net/pdf?id=SyVuRiC5K7
[45]	Qiao Limeng, Shi Yemin, Li Jia, et al. Transductive episodic-wise adaptive metric for few-shot learning [C] //Proc of the 11th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 3602−3611
[46]	Angluin D, Smith C. Inductive inference: Theory and methods[J]. ACM Computing Surveys, 1983, 15(3): 237−269 doi: 10.1145/356914.356918
[47]	Chen Jinyin, Lin Xiang, Xiong Hui, et al. Smoothing adversarial training for GNN[J]. IEEE Transactions on Computational Social Systems, 2020, 8(3): 618−629
[48]	Cheng Hao, Zhou J, Tay W, et al. Attentive graph neural networks for few-shot learning [C] //Proc of the 5th IEEE Int Conf on Multimedia Information Processing and Retrieval. Piscataway, NJ: IEEE, 2022: 152−157
[49]	Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint, arXiv: 1710. 10903, 2017
[50]	Zhang Xu, Zhang Youjia, Zhang Zuyu, et al. Discriminative learning of imaginary data for few-shot classification [J]. Neurocomputing, 2022, 467: 406−417 Zhang Xu,Zhang Youjia,Zhang Zuyu,et al. Discriminative learning of imaginary data for few-shot classification [J]. Neurocomputing,2022,467:406−417
[51]	Xu Rui, Liu Baodi, Lu Xiaoping, et al. DMH-FSL: Dual-modal hypergraph for few-shot learning[J]. Neural Processing Letters, 2022, 54(2): 1317−1332 doi: 10.1007/s11063-021-10684-7
[52]	Yadati N, Nimishakavi M, Yadav P, et al. HyperGCN: A new method for training graph convolutional networks on hypergraphs [C] //Proc of the 33rd Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2019: 1509−1520
[53]	Kim J, Kim T, Kim S, et al. Edge-labeling graph neural network for few-shot learning [C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 11−20
[54]	Zuo Xibing, Yu Xuchun, Liu Bing, et al. FSL-EGNN: Edge-labeling graph neural network for hyperspectral image few-shot classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1−18
[55]	Xiong Chao, Li Wen, Liu Yun, et al. Multi-dimensional edge features graph neural network on few-shot image classification[J]. IEEE Signal Processing Letters, 2021, 28: 573−577 doi: 10.1109/LSP.2021.3061978
[56]	Tang Shixiang, Chen Dapeng, Bai Lei, et al. Mutual CRF-GNN for few-shot learning [C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 2329−2339
[57]	Bale T, Vale W. CRF and CRF receptors: Role in stress responsivity and other behaviors [J]. Annual Review of Pharmacology and Toxicology, 2004, 44: 525−557 Bale T,Vale W. CRF and CRF receptors:Role in stress responsivity and other behaviors [J]. Annual Review of Pharmacology and Toxicology,2004,44:525−557
[58]	Yang Lin, Li Liangliang, Zhang Zilun, et al. DPGNN: Distribution propagation graph network for few-shot learning [C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 13387−13396
[59]	Zhang Bailin, Ling Hefei, Shen Jialie, et al. Mixture distribution graph network for few shot learning[J]. IEEE Transactions on Cognitive and Developmental Systems, 2022, 14(3): 892−901 doi: 10.1109/TCDS.2021.3075280
[60]	Hu Yufan, Gao Junyu, Xu Changsheng. Learning dual-pooling graph neural networks for few-shot video classification[J]. IEEE Transactions on Multimedia, 2020, 23: 4285−4296
[61]	Mordeson J. Fuzzy mathematics [M]. Foundations of Image Understanding. Berlin: Springer, 2001: 95−125
[62]	Wei Tong, Hou Junlin, Feng Rui. Fuzzy graph neural network for few-shot learning [C/OL] //Proc of the 30th IEEE Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 2020 [2023-03-26].https://openreview.net/pdf?id=BJj6qGbRW
[63]	Devlin J, Chang M, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [C] //Proc of the 17th Annual Conf of the North American chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4171−4186
[64]	Ma Yuqing, Bai Shihao, An Shan, et al. Transductive relation-propagation network for few-shot Learning [C] //Proc of the 29th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2020: 804−810
[65]	Ma Yuqing, Bai Shihao, Liu Wei, et al. Transductive relation-propagation with decoupling training for few-shot learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 6652−6664 doi: 10.1109/TNNLS.2021.3082928
[66]	Chen Cen, Li Kenli, Wei Wei, et al. Hierarchical graph neural networks for few-shot learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32(1): 240−252
[67]	Chen Chaofan, Yang Xiaoshan, Xu Changsheng, et al. ECKPN: Explicit class knowledge propagation network for transductive few-shot learning [C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 6596−6605
[68]	Pennington J, Socher R, Manning C. Glove: Global vectors for word representation [C] //Proc of the 28th Int Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532−1543
[69]	Yu Tianyuan, He Sen, Song Yizhe, et al. Hybrid graph neural networks for few-shot learning [C] //Proc of the 36th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022: 3179−3187
[70]	Deng Fei, Pu Shengliang, Chen Xuehong, et al. Hyperspectral image classification with capsule network using limited training samples[J]. Sensors, 2018, 18(9): 3153−3174 doi: 10.3390/s18093153
[71]	Zhang Ruiheng, Yang Shuo, Zhang Qi, et al. Graph-based few-shot learning with transformed feature propagation and optimal class allocation[J]. Neurocomputing, 2022, 470: 247−256 doi: 10.1016/j.neucom.2021.10.110
[72]	Tantawi A, Towsley G, Wolf J. Optimal allocation of multiple class resources in computer systems [C] //Proc of the 16th ACM SIGMETRICS Conf on Measurement and Modeling of Computer Systems. New York: ACM, 1988: 253−260
[73]	Cuturi M. Sinkhorn distances: Lightspeed computation of optimal transport [C] //Proc of the 27th Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2013: 2292−2300
[74]	Malalur P, Jaakkola T. Alignment based matching networks for one-shot classification and open-set recognition[J]. arXiv preprint, arXiv: 1903. 06538, 2019
[75]	Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification [C/OL]//Proc of the 6th Int Conf on Learning Representation. Amsterdam: Elsevier, 2018 [2023-03-26].https://openreview.net/pdf?id=HJcSzz-CZ
[76]	Cui Yin , Zhou Feng, Lin Yuanqing, et al. Fine-grained categorization and dataset bootstrapping using deep metric learning with humans in the loop [C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1153−1162
[77]	Singla S, Singla S, Feizi S. Improved deterministic l₂ robustness on CIFAR-10 and CIFAR-100 [C/OL] //Proc of the 10th Int Conf on Learning Representation. Amsterdam: Elsevier, 2022 [2023-03-26].https://openreview.net/forum?id=tD7eCtaSkR
[78]	Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database [C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248−255
[79]	He Kaiming, Zhang Xianyu, Ren Shaoqing, et al. Deep residual learning for image recognition [C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770−778
[80]	Lin Guangfeng, Yang Ying, Fan Yindi, et al. High-order structure preserving graph neural network for few-shot learning[J]. arXiv preprint, arXiv: 2005. 14415, 2020
[81]	Wang Yaqing, Yao Quanming, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys, 2020, 53(3): 1−34
[82]	Bendre N, Marin H, Najafirad P. Learning from few samples: A survey[J]. arXiv preprint, arXiv: 2007. 15484, 2020
[83]	Li Na, Zhou Deyun, Shi Jiao, et al. Graph-based deep multitask few-shot learning for hyperspectral image classification[J]. Remote Sensing, 2022, 14(9): 2246−2267 doi: 10.3390/rs14092246
[84]	Tong Xinyi, Yin Jihao, Han Bingnan, et al. Few-shot learning with attention-weighted graph convolutional networks for hyperspectral image classification [C] //Proc of the 27th IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2020: 1686−1690
[85]	Hong Danfeng, Gao Lianru, Yao Jing, et al. Graph convolutional networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(7): 5966−5978 doi: 10.1109/TGRS.2020.3015157
[86]	Xiao Weiwei, Song Kechen, Liu Jie, et al. Graph embedding and optimal transport for few-shot classification of metal surface defect[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1−10
[87]	Bao Yanqi, Song Kechen, Liu Jie, et al. Triplet-graph reasoning network for few-shot metal generic surface defect segmentation[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1−11
[88]	Li Feimo, Li Shuaibo, Fan Xinxin, et al. Structural attention enhanced continual meta-learning for graph edge labeling based few-shot remote sensing scene classification[J]. Remote Sensing, 2022, 14(3): 485−515 doi: 10.3390/rs14030485
[89]	Yuan Zhengwu, Huang Wendong, Tang Chan, et al. Graph-based embedding smoothing network for few-shot scene classification of remote sensing images[J]. Remote Sensing, 2022, 14(5): 1161−1179 doi: 10.3390/rs14051161
[90]	Guo Xinyu, Tian Bingjie, Tian Xuedong. HFGNN-proto: Hesitant fuzzy graph neural network-based prototypical network for few-shot text classification[J]. Electronics, 2022, 11(15): 2423−2437 doi: 10.3390/electronics11152423
[91]	Ma Ning, Bu Jiajun, Yang Jieyu, et al. Adaptive-step graph meta-learner for few-shot graph classification [C] //Proc of the 29th ACM Int Conf on Information & Knowledge Management. New York: ACM, 2020: 1055−1064
[92]	Hospedales T, Antoniou A, Micaelli P, et al. Meta-learning in neural networks: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 5149−5169
[93]	Pan Jiacheng, Lin Haocai, Dong Yihong, et al. MAMF-GCN: Multi-scale adaptive multi-channel fusion deep graph convolutional network for predicting mental disorder[J]. Computers in Biology and Medicine, 2022, 148: 105823 doi: 10.1016/j.compbiomed.2022.105823
[94]	Wei Yinwei, Wang Xiang, Nie Liqiang, et al. MMGCN: Multi-modal graph convolution network for personalized recommendation of micro-video [C] //Proc of the 27th ACM Int Conf on Multimedia. New York: ACM, 2019: 1437−144
[95]	Tao Zhulin, Wei Yinwei, Wang Xiang, et al. MGAT: Multimodal graph attention network for recommendation[J]. Information Processing & Management, 2020, 57(5): 102277
[96]	Hsu K, Levine S, Finn C. Unsupervised learning via meta-learning [C/OL] //Proc of the 7th Int Conf on Learning Representation. Amsterdam: Elsevier, 2018 [2023-03-26].https://openreview.net/forum?id=r1My6sR9tX
[97]	Antoniou A, Storkey A. Assume, augment and learn: Unsupervised few-shot meta-learning via random labels and data augmentation[J]. arXiv preprint, arXiv: 1902. 09884, 2019
[98]	Veeriah V, Hessel M, Xu Zhongwen, et al. Discovery of useful questions as auxiliary tasks [C] // Proc of the 33rd Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2019: 9306−9317
[99]	Zheng Zeyu, Oh J, Singh S. On learning intrinsic rewards for policy gradient methods [C] // Proc of the 32nd Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2018: 4649−4659
[100]	Meier F, Kappler D, Schaal S. Online learning of a memory for learning rates [C] //Proc of the 4th IEEE Int Conf on Robotics and Automation. Piscataway, NJ: IEEE, 2018: 2425−2432
[101]	Tseng H, Lee H, Huang Jiabin, et al. Cross-domain few-shot classification via learned feature-wise transformation [C/OL] //Proc of the 9th Int Conf on Learning Representation. Amsterdam: Elsevier, 2020 [2023-03-26].https://openreview.net/forum?id=SJl5Np4tPr
[102]	Yun S, Jeong M, Kim R, et al. Graph transformer networks [C] // Proc of the 33rd Annual Conf on Neural Information Processing Systems. Cambrige, MA: MIT, 2019: 11960−11970
[103]	Jiang Bo, Zhao Kangkang, Tang jin, et al. RGTransformer: Region-graph transformer for image representation and few-shot classification[J]. IEEE Signal Processing Letters, 2022, 29: 792−796 doi: 10.1109/LSP.2022.3155991

施引文献(13)

期刊类型引用(11)

1.	肖明魁. 面向大语言模型的资产分类优化策略研究. 长江信息通信. 2025(01): 33-38+42 . 百度学术
2.	何静，沈阳，谢润锋. 大语言模型幻觉现象的识别与优化. 计算机应用. 2025(03): 709-714 . 百度学术
3.	苏眉，孔桂英. 大语言模型背景下的译者批判性思维研究. 北部湾大学学报. 2025(01): 82-87+108 . 百度学术
4.	宋佳磊，左兴权，张修建，黄海. 大语言模型评估方法综述. 宇航计测技术. 2025(02): 1-30 . 百度学术
5.	吴若玲，郭旦怀. 大语言模型空间认知能力测试标准研究. 地球信息科学学报. 2025(05): 1041-1052 . 百度学术
6.	王新雷，饶宇锋. 数智时代的关键基础设施：开源大模型普及的潜在风险与防范进路——以DeepSeek为例. 决策咨询. 2025(02): 64-69+77 . 百度学术
7.	王润周，张新生，王明虎，苏佳，马玉龙. 基于混合检索增强生成大语言模型的网络舆情多任务分析. 情报杂志. 2025(05): 91-103 . 百度学术
8.	萧文科，宋驰，陈士林，陈伟. 中医药大语言模型的关键技术与构建策略. 中草药. 2024(17): 5747-5756 . 百度学术
9.	冯皓. 大模型在自然语言处理中的应用方法研究. 数字通信世界. 2024(10): 123-125 . 百度学术
10.	孙婧鑫. 关于人工智能在软件自动化测试行业应用的研究. 张江科技评论. 2024(03): 64-66 . 百度学术
11.	孟逸飞，韩长霖，陈小松，李亦凡，闫亚男，禹文宝. 大语言模型在水电及新能源行业应用研究与探讨. 水电站机电技术. 2024(12): 78-82 . 百度学术

其他类型引用(2)

资源附件(0)

图(8) / 表(5)

计量

文章访问数: 1048
HTML全文浏览量: 142
PDF下载量: 425
被引次数: 13

1. 相关工作
1.1 大模型的性能评测
1.2 大模型的鲁棒性评测
2. 数据集和模型
2.1 数据集
2.2 GPT系列模型
3. 性能评测
3.1 方　法
3.2 实验设定
3.3 结果分析
4. 鲁棒性研究
4.1 方　法
4.2 实验设定
4.3 任务层面的鲁棒性
4.4 变形层面的鲁棒性
5. 性能和鲁棒性影响因素
5.1 演示数量的影响
5.2 演示内容的影响
6. 讨　　论
6.1 GPT更新版本的表现
6.2 开源模型的表现
7. 总　　结

1. 相关工作
1.1 大模型的性能评测
1.2 大模型的鲁棒性评测
2. 数据集和模型
2.1 数据集
2.2 GPT系列模型
3. 性能评测
3.1 方　法
3.2 实验设定
3.3 结果分析
4. 鲁棒性研究
4.1 方　法
4.2 实验设定
4.3 任务层面的鲁棒性
4.4 变形层面的鲁棒性
5. 性能和鲁棒性影响因素
5.1 演示数量的影响
5.2 演示内容的影响
6. 讨　　论
6.1 GPT更新版本的表现
6.2 开源模型的表现
7. 总　　结

参考文献(103)

施引文献

资源附件(0)

分类体系		优点	缺点
基于模型微调的方法		方法简单，仅需要设计模型参数；调整模块，而无需考虑模型构建.	当目标数据集与源数据集分布相差较大时，将导致模型在目标数据集上过拟合.
基于数据增强的方法		一定程度地缓解了模型过拟合问题，通常专注于对数据属性的增强，更高效地利用现有数据，避免对模型的优化与调整.	可能会产生噪声数据或噪声特征，难以达到最佳效果.
基于迁移学习的方法	基于度量学习的方法	思想易于理解，可解释性较强，便于计算和公式化，可扩展性强，能够和其他FSL方法结合.	在样本量较少的情况下，简单地通过距离度量的方法使得最终效果不佳.
	基于元学习的方法	受到人类学习的启发，使模型具备学习的能力，能够学习到除训练之外的知识，并利用已有知识，指导模型更快地适应新任务. 可解释性强，能够更准确地度量样本间关系.	模型复杂度较高、训练时间较长，因此该类方法的时间成本与设备成本较高，且模型效果仍有较大的提升空间.
	基于GNN的方法	GNN中节点分类的思想能够自然地应用于小样本分类问题，且该类FSL方法性能较好.	不可避免地存在节点过平滑的问题，由于该方法较为新颖，其需要改进和发展的方面还有很多.

基于图神经网络的小样本学习方法研究进展

通讯作者: 董一鸿（dongyihong@nbu.edu.cn）

计量

出版历程

Research Progress of Few-Shot Learning Methods Based on Graph Neural Networks

1. 相关工作

1.1 大模型的性能评测

1.2 大模型的鲁棒性评测

2. 数据集和模型

2.1 数据集

2.2 GPT系列模型

3. 性能评测

3.1 方 法

3.2 实验设定

3.3 结果分析

4. 鲁棒性研究

4.1 方 法

4.2 实验设定

4.3 任务层面的鲁棒性

4.4 变形层面的鲁棒性

5. 性能和鲁棒性影响因素

5.1 演示数量的影响

5.2 演示内容的影响

6. 讨 论

6.1 GPT更新版本的表现

6.2 开源模型的表现

7. 总 结

期刊类型引用(11)

其他类型引用(2)

计量

出版历程

目录

1. 相关工作

1.1 大模型的性能评测

1.2 大模型的鲁棒性评测

2. 数据集和模型

2.1 数据集

2.2 GPT系列模型

3. 性能评测

3.1 方 法

3.2 实验设定

3.3 结果分析

4. 鲁棒性研究

4.1 方 法

4.2 实验设定

4.3 任务层面的鲁棒性

4.4 变形层面的鲁棒性

5. 性能和鲁棒性影响因素

5.1 演示数量的影响

5.2 演示内容的影响

6. 讨 论

6.1 GPT更新版本的表现

6.2 开源模型的表现

7. 总 结

通讯作者:
董一鸿（dongyihong@nbu.edu.cn）

3.1 方　法

4.1 方　法

6. 讨　　论

7. 总　　结

3.1 方　法

4.1 方　法

6. 讨　　论

7. 总　　结