面向增量分类的多示例学习

魏秀参1,2,3,4,5 徐书林1,3,4 安 鹏6 杨 健1,3,4

1(南京理工大学计算机科学与工程学院 南京 210094)2(综合业务网理论及关键技术国家重点实验室(西安电子科技大学) 西安 710071)3(高维信息智能感知与系统教育部重点实验室(南京理工大学) 南京 210094)4(社会安全图像与视频理解江苏省重点实验室(南京理工大学) 南京 210094)5(计算机软件新技术国家重点实验室(南京大学) 南京 210023)6(中国海洋石油集团有限公司信息技术中心 北京 100010)

摘 要 近年来多示例学习(multi-instance learning, MIL)被广泛应用于复杂数据问题中,但现有的多示例学习算法往往在封闭静态环境中工作良好,其所处理的类别数量也恒定不变.然而在现实应用当中,常会有新的类别不断地加入到系统当中,例如科学的发展中不断出现新的议题、社交媒体中不断出现新的话题.由于存储限制或保密协议等原因,旧数据可能随着时间的发展变得不可见,这使得直接学习新的类别时模型会忘记曾经学过的知识.增量学习则被用于解决上述问题.因此,在多示例学习设定下进行增量数据挖掘十分有意义,然而目前针对多示例学习下的增量数据挖掘的工作十分稀少.提出一个基于注意力机制和原型分类器映射的多示例增量数据挖掘方法,通过注意力机制选择性地将多示例包的示例汇合为统一的特征表示,然后为每个类别生成类别原型表示并存储下来.类别原型通过原型分类器映射模块得到无偏鲁棒的类别分类器,并通过上一个增量阶段生成的分类器的预测结果对新增量阶段生成的分类器的预测结果进行知识蒸馏,使得模型能够在多示例学习下以极低的存储很好地保留模型的旧知识.实验结果表明:提出的方法能够有效地进行面向增量分类的多示例学习.

关键词 多示例学习;增量学习;注意力机制;知识蒸馏;原型

多示例学习(multi-instance learning, MIL)是一种弱监督学习,其在药物活性检测任务[1]中被自然提出,随后被广泛应用于许多现实任务,例如图像分类或检索、人脸检测、文本分类和计算机辅助医疗诊断等.传统的单示例学习中一个示例会有一个或多个标签与之对应.与单示例学习不同:MIL中的训练单元——多示例包(bag)——由多个示例构成,多示例包有对应的标签,但包中的示例没有与之对应的标签.多示例学习系统的目标是对已知标签的多示例包进行学习后需要能够对未知的多示例包进行类别预测.

另一方面,现实生活中的许多系统需要不断地从新类新样本中学习新的知识,并且能够很好地保存以前学习的旧类别和旧知识,即增量学习(incremental learning)所解决的问题.在过去的几年里已经开发了很多有效的多示例方法[2-12]解决多示例学习中示例缺失带来的困难,也有很多方法被提出解决增量学习[13-29]的灾难性遗忘问题,然而很少有人提出有效方法来处理多示例学习下的类别增量问题.据我们所知,只有Mera等人[30]提出了一种以集成学习框架为基础的方法Learn++.MIL解决此难题.Learn++.MIL使用了在传统单示例学习中所提出的集成学习的策略去解决增量学习的遗忘问题,并简单地使用早期的MIL-Boost[31]作为集成学习中的基分类器使之能够处理多示例数据.所以此方法并不能很好地解决复杂的面向增量分类的多示例学习问题.同时,传统增量学习方法由于同样仅针对单示例数据设计,无法处理多示例学习中一对多的样本与示例的对应,故而难以解决多示例学习中的训练样本歧义而难以良好工作.

本文面向增量分类的多示例学习提出了一种基于注意力机制及原型分类器映射的多示例增量学习方法(multi-instance class-incremental learning, MICIL).我们的方法主要包含2个模块,基于注意力机制的多示例汇合表示模块和基于类别原型映射的多示例增量分类器生成模块.前者将复杂的多示例包表示汇合成统一的特征向量,并且基于注意力机制给予包中关键示例(key instance)更高的汇合权重,这么做的动机是因为包中的关键示例更能体现包的类别信息.在得到包的统一汇合向量表示之后,我们计算所有同类别多示例包表示的质心而得到对应的类别原型并存储起来.对于后者,类别原型通过一个类别原型映射得到对应的类别分类器,基于所有类别原型生成分类器进行监督学习可以学得增量阶段新类别的知识,基于上一增量阶段生成的旧类别分类器的预测结果对当前阶段生成的旧类别分类器的预测结果的知识蒸馏便可一定程度保留旧类别的知识.尤其是,使用类别原型我们可以用极小的存储代价保留旧知识,并且由于每类只有一个类别原型使我们能很好地解决新旧数据的不平衡难题,由此得到无偏鲁棒的类别分类器.通过上述框架,我们能够很好地在类别增量环境下进行多示例学习数据挖掘.

在实验中,我们在3类多示例多类别问题的数据集Text[32],COREL[33]和NYU-v1[34]上进行增量学习任务的实验验证.实验结果表明MICIL方法与其他方法相比取得了最优的增量学习识别精度,包括最新针对多示例学习的增量学习方法[30]和目前最新的面向增量分类的多示例学习[29].

本文工作的主要贡献包括3个方面:

1) 提出一种基于注意力机制及原型分类器映射的多示例增量学习方法MICIL,通过构建和存储多示例类别原型应对多示例类别增量学习任务.

2) 基于注意力机制的多示例汇合操作构建了包含了多示例包显著类别相关信息的统一特征表示;原型分类映射器能够生成平衡无偏的分类器,并在知识蒸馏的作用下很好地保留旧类别相关信息.

3) 在3个不同任务的多示例数据集进行实验验证,结果表明我们提出的MICIL方法能够很好地解决多示例学习环境下的类别增量问题.

1 相关工作

MIL是机器学习中的一种弱监督学习任务,其中一个标记的包(bag)与多个未标记的示例相关联.随着MIL在文献[1]中的开创性提议,许多MIL算法已经被开发出来以帮助人们解决一系列实际应用.近年来,得益于深度学习的发展,在传统机器学习方法[2-4]的基础上,许多基于神经网络的MIL方法[5-8]被提出并取得了不错的效果.

首个MIL研究[1]中给出了标准假设(standard assumption).在标准假设中,通常每个示例都有一个未知的类标签,将其标识为正或负,当且仅当一个包至少含有一个正示例时这个包才被认为是正的.随着MIL研究的发展,这个假设并不适用于所有MIL问题.在某些情况下,需要一个广义的假设:集体假设(collective assumption)被经常使用,在这个假设中包的类标签是与该包中所有示例相关的一个属性.总的来说,在集体假设中有2种方法可以获取包的类别标签.一种是示例级方法[2,10],该方法有一个示例级传递函数来获取每个示例的分数,然后通过一个MIL汇合(例如最大汇合和均值汇合)来获得包的类标签.另一种是包级别方法[5,11],它将多示例数据转换为包级别的表示,然后在包级别表示上训练包级别分类器来预测包的类标签.在大多数情况下,包级别方法更显灵活且更具竞争力.

本文我们研究面向增量分类的多示例学习,除了多示例学习还主要涉及到了增量学习的问题.增量学习意味着我们需要从随时间出现的一系列数据中学习,已有的参考文献中增量学习主要分为了3类:任务增量学习(task-incremental learning)、领域增量学习(domain-incremental learning)和类增量学习(class-incremental learning, CIL).本文中我们主要关注类增量学习:随着时间的推移会出现新类别的数据且旧类别的数据不可见,我们需要学习一个统一的分类器去识别所有新旧类的组合.这是一个非常现实的问题,在这个过程中主要面临旧数据遗忘的挑战.

现有的解决CIL中遗忘挑战的方法有2类主流,分别是基于数据的方法和基于参数的方法.基于数据的方法会在新数据中放入一部分旧数据,有的方法[13-15]试图从旧数据中选择一组代表性的样本存储备用,有的方法[16-18]使用合成的样本来表示旧数据的分布.这时新旧任务之间的不平衡问题成为关键挑战.具体而言,文献[13-14,19]通过减少对新数据的偏见来缓解这个问题.基于参数的方法中主要有基于正则化和基于结构2种策略.前者基于显式或隐式的正则化策略使用不同的指标来识别和惩罚原始网络重要参数的变化,例如弹性权重巩固(elastic weight consolidatio)[21]、突触智能(synaptic intelligence)[22]、记忆感知突触(memory aware synapses)[23]和知识蒸馏(knowledge distillation)[24-25]等方法.后者[26-28]主要保持与旧类相关的网络参数固定,并以不同形式分配新参数去学习新类的知识.

本文提出的基于注意力机制及原型分类器映射的多示例增量学习方法,动态地对类别增量多示例数据进行学习和识别.不仅解决了多示例数据的统一表示和分类问题,还使其能够在类别增量的环境下很好的运行.该方法可以用极低的存储代价很好地保留旧多示例类别信息,并对不平衡的增量新旧数据保持无偏和鲁棒的效果.

2 本文方法

本节我们主要介绍针对类别增量数据挖掘任务的基于注意力机制及原型分类器映射的多示例增量学习方法MICIL.

MICIL方法流程如图1所示.首先,针对多示例包(MIL bag),通过基于注意力的多示例汇合操作将每个包表示为包层级特征表示,其中,注意力机制主要设计用于关注并增强包中的关键示例(key instance),进而突出包中的类别相关信息.之后,在每类的包层级特征表示基础上将得到每类对应的类别原型特征,该原型可包含类别级信息,并具有一定的判别能力与鲁棒性.同时,由于类别原型每类仅有一个,可有效缓解增量学习中较为显著的类别不平衡问题.基于类别原型,我们提出构建以多层感知机为实现形式的类别分类器映射函数,将类别原型映射为类别分类器.与此同时,对于增量学习中的已知类别,我们将其类别原型进行存储,在推理时使用参数共享的类别分类器映射函数由存储的类别原型获取对应的已知类别分类器.损失函数方面,对于增量学习新任务中的多示例包,一方面将其作用于已知类类别分类器得到已知类类别预测;另一方面作用于增量新任务的类别分类器得到对应类别预测,对于该2种不同类别预测,将通过对应的损失函数作为模型驱动进行参数训练及优化(详见第2.4节内容).

Fig. 1 Framework of our proposed MICIL method
图1 基于注意力机制及原型分类器映射的多示例增量学习方法(MICIL)示意图

2.1 问题定义及符号表示

在MIL中,假设训练样本为含有N个样本的集合D={(X1,y1),(X2,y2),…,(Xi,yi),…,(XN,yN)},其中每个样本Xi均为一个由若干示例组成的包,即其对应的类别标记为yi={1,2,…,C}.对于多类别多示例学习而言,我们一般有2方面假设:1)若一个多示例包Xi隶属于第c类,其充要条件为Xi中至少有一个示例隶属该类别;2)若一个多示例包Xi不属于第c类,其充要条件为Xi中的示例均不属于该类别.特别地,在类别增量的设定下,我们通常基于一个已知类别样本集合Do进行模型首轮训练;但伴随增量学习新任务的到来,Do将不再可见,此时需要借助第t个阶段相应训练数据Dt进行模型更新.多示例增量学习的目标要求基于Dt进行训练的模型需同时具备识别已知类和Dt中新增类别的能力.

2.2 基于注意力机制的多示例包表示

根据2.1节描述,多示例包具有较为复杂的集合结构,对于数据挖掘任务的后续处理构成了一定挑战.如何构建既能体现多示例包信息又形式统一简单的包级别特征表示,是MICIL需要解决的首要问题.

此外,多示例包的另一特点为包中示例的无序性与数量不定性,即多示例包中示例的顺序与数量对于包的类别标记无任何影响.因此,我们提出基于注意力机制设计适应多示例包形式的包级别汇合操作(MIL bag pooling),用以将多示例包表示为单一的特征向量.

具体而言,对于多示例包中的示例首先经由特征嵌入函数fembed(·;θembed)获得示例的嵌入表示:

(1)

其中,θembed为特征嵌入函数的参数.之后,基于特征嵌入向量得到Xi的包级别特征表示ui

(2)

其中,αj为权重参数,其形式化为

(3)

其中,vM为MICIL法注意力机制中的参数,可通过最终模型的损失函数进行整体优化.

可以发现,上述式(2)的注意力汇合操作可赋予包中示例不同重要程度的权重,因此包中反映类别信息的关键示例(key instance)可获得较大权重,无关示例则对应较小权重,如此便可更好地在Xi的包级别特征表示ui上体现类别相关信息.

2.3 基于类别原型映射的多示例增量分类器生成

由式(2)可得多示例包Xi的包级别特征表示ui,接下来,针对隶属于第c类的多示例包,首先获得其对应的类别原型特征表示

(4)

其中,Ωc={k|yk=c}.类别原型表示具备较强泛化能力与鲁棒性[35],同时不同类别均只有一个类别原型,因此使用类别原型进行后续操作可避免不同类别样本不平衡带来的影响与挑战.

在获得后,我们提出基于类别原型映射的分类器生成操作,即通过类别原型映射函数fmapping(·;θmapping)将类别原型映射为对应的类别分类器wc

(5)

MICIL推理时,即使用wc对多示例包Xi的包级别特征ui进行类别预测:

(6)

2.4 损失函数及模型训练

针对2.1节的多示例学习类别增量设定,模型首先根据已知类别样本集合Do,由式(4)得到类别原型特征表示并进行存储,同时基于式(5)获得Do中类别的类别分类器,根据式(6)的操作可进行模型训练获得初始阶段Do对应的类别分类器映射函数.

之后,待第t阶段训练新任务及对应训练集合Dt到来时,对Dt中的多示例包做式(4)同样操作得到Dt中对应的类别原型特征表示.随后,对于存储的已知类类别原型和Dt中对应的类别原型,一同作用类别分类器映射函数fmapping(·;θmapping),由式(5)分别可得已知类(old class)类别分类器{wo}及第t阶段新任务(new task)中对应类别的分类器{wn}.

模型训练时,为缓解灾难性遗忘,我们首先在第t阶段多示例包Xi的包级别特征表示ui上作用已知类类别分类器{wo},进而根据式(6)获得Xi的类别预测yo.需注意的是,因增量学习设定,此时Do已不可见,故通过记录在上轮{wo}上获得的本轮样本Xi的预测结果yo进行约束:使fmapping更新后基于已知类生成的类别分类器Xi上的预测结果yo尽可能接近,从而保证模型经过本轮训练后产生对已有数据/类别不发生“遗忘”.因此,基于yo的损失函数可通过知识蒸馏[24]形式化为

(7)

其中,l为当前阶段的已知类别数.另一方面,对于第t阶段新任务中的类别预测损失则较为直观.在第t阶段,Dt中的样本同时含有X及其真实标签y,故其损失函数可表示为常用的交叉熵损失:

(8)

总体而言,模型训练的损失函数为式(7)和式(8)的结合,即:

L=Lnew+λ Lold,

(9)

其中,λ为两项的调节因子超参数.

3 实验与结果分析

本节我们首先介绍实验数据集和实验设定,之后介绍主要的对比方法及汇报实验结果,最后对MICIL方法进行消融实验并进行讨论分析.

3.1 数据集和实验设置

我们分别在3类多示例多类别问题上进行增量学习任务的实验验证:

1) 文本分类.文本分类是多示例学习的重要应用领域,相关数据中Text[32]是较为常用的标准数据集.Text数据集共有12个文本类别,每个样本对应一篇学术论文,论文摘要和参考文献中的摘要对应了多示例包中的若干示例.TF-IDF[36]特征用来抽取摘要内容的向量表示,此后,主成分分析(principal component analysis, PCA)[37]被用于该向量表示进行去噪操作,最终示例的向量表示长度为300维.

2) 物体图像识别.图像识别亦是多示例学习的重要应用任务.本文我们在物体图像识别(object-centric image recognition)和场景图像分类(scene-centric image classification)这2类经典的图像识别任务进行实验验证.在物体图像识别任务中,我们选用多示例学习中常用的COREL数据集[33]进行实验.COREL共有10个图像类别,每类含有100张384×256分辨率的图像,其示例表示形式我们遵循文献[36]中的设定,即将图像划分为6个大小相同的图像块,之后通过预训练的Alex-Net[38]抽取4096维特征,再经过主成分分析降维到200维.

3) 场景图像分类.该任务中我们选用NYU-v1[34]进行实验验证.该数据集共含有2 284张640×480分辨率的图像,对应7个场景类别.与COREL不同的是,NYU-v1还提供了超分辨率图像块作为像素语义标签.我们根据语义标签产生相应的图像区域并将其作为示例进行特征抽取[36],与COREL类似,最终的示例特征为200维的经PCA后的特征向量.

对于MICIL方法中的实现细节,式(1)中的特征嵌入函数我们将其实现为2层多层感知机,中间层使用ReLU作为激活函数.式(5)中的类别原型映射函数我们将其实现为3层多层感知机,中间层使用ELU作为激活函数.式(9)中的超参数设置为1.另对于增量学习设定而言,我们共设置4个阶段,3个数据集的各阶段类别划分如表1所示:

Table 1 Categories Splitting in the Incremental Learning Setting
表1 增量学习设定下的类别划分

数据集阶段0阶段1阶段2阶段3Text[32]6222COREL[33]4222NYU-v1[34]3220

3.2 对比方法

本文主要选取代表性方法作为对比方法进行实验验证与结果对比,简述如下:

1) FineTune[39].直接基于MICIL方法中存储的类别原型映射生成分类器,并在当前轮次数据上进行模型微调(fine-tuning),但可以预计该方法会引起模型“灾难性遗忘”.

2) LwF[25].通过知识蒸馏进行类别增量学习.但LwF原方法不支持多示例形式数据,故实验时将多示例包通过简单的平均汇合操作变换为单一向量后,使用LwF方法进行模型学习与性能评估.

3) Coil[29].通过建模类别语义关系学习相关增量任务间关系,从而支持已知类和新增类别的共同识别.需指出的是,Coil方法同样不支持多示例形式数据,类似LwF中的处理手段,依然使用平均汇合操作变换为单一向量后进行实验评估.

4) Learn++.MIL[30].在集成学习框架下,通过动态选择适合当前轮次数据的多示例分类器并以此进行更新来支持增量类别识别,该方法可直接处理多示例形式数据.

3.3 主要结果

3个多示例、多类别增量任务的对比实验结果分别如表2、表3和表4所示:

Table 2 Comparison Results on Text Dataset
表2 Text数据集上的结果对比

方法阶段0阶段1阶段2阶段3FineTune[39]81.3656.9442.9831.61LwF[25]81.3672.1665.2661.33Coil[29]81.3674.7966.4263.15Learn++.MIL[30]81.3675.4368.3164.09本文方法81.3678.0472.9968.61

注:黑体数字表示该阶段最好的结果.

Table 3 Comparison Results on COREL Dataset
表3 COREL数据集上的结果对比

方法阶段0阶段1阶段2阶段3FineTune[39]84.1258.9141.5334.41LwF[25]84.1270.3668.8464.04Coil[29]84.1273.5470.1766.12Learn++.MIL[30]84.1278.4677.8672.43本文方法84.1281.0879.6275.72

注:黑体数字表示该阶段最好的结果.

Table 4 Comparison Results on NYU-v1 Dataset
表4 NYU-v1数据集上的结果对比

方法阶段0阶段1阶段2FineTune[39]87.6762.5539.51LwF[25]87.6772.3065.86Coil[29]87.6778.4872.86Learn++.MIL[30]87.6781.2276.81本文方法87.6784.1380.01

注:黑体数字表示该阶段最好的结果.

其中,为了避免类别不平衡带来的评估不准确问题,我们选用macro-average F1 score作为评测指标.我们对最好的结果进行了加粗展示,从这3个表中可以看到我们的方法都取得了最好的结果.我们提出的MICIL方法比先前最好的方法在连续的增量阶段中:在Text数据集上分别提升2.61%,4.68%和4.52%;在COREL数据集上分别提升2.62%,1.76%和3.29%;在NYU-v1数据集上分别提升2.91%和3.20%.

总体来看,我们方法几乎在3个数据集上都随着增量数据的增长能够比对比方法展示更大的优势.这说明了我们的方法在多示例学习中可以更好地缓解旧数据遗忘的挑战.

3.4 消融实验及分析

如表5所示,为了验证提出的MICIL方法中2个核心模块的有效性,我们在Text数据集上进行了消融实验.其中行2是我们的方法去掉注意力机制直接使用平均汇合操作的结果.对比行1和行2的结果,可以看到我们基于式(7)的知识蒸馏能够有效地缓解旧数据遗忘的问题,在3个增量阶段分别有16.67%,23.4%和30.95%的精度提升.对比行2和行3可以看出,我们提出的MICIL方法中注意力机制在3个增量阶段分别带来了4.36%,6.61%和6.05%的稳定提升,这验证了挖掘包中体现类别相关信息的关键示例十分有益于MIL任务.

Table 5 Ablation Studies on Text Dataset
表5 基于Text数据集的消融实验结果

方法阶段0阶段1阶段2阶段3FineTune[39]81.3656.9442.9831.61本文方法(无注意力机制)81.3673.6866.3862.56本文方法81.3678.0472.9968.61

注:黑体数字表示该阶段最好的结果.

3.5 注意力机制的分析

如2.2节所述,为应对多示例包的复杂集合结构,我们采用基于注意力机制的包表示方法来刻画多示例样本.本节我们针对COREL数据集对其完成注意力机制后的示例权重进行分布情况分析.

COREL数据集因每个样本对应6个示例(即图像块),在注意力机制完成前,其示例权重αj=1/6;而完成注意力机制后,我们将所有示例权重组织为图2的柱状图形式.

Fig. 2 Histogram of the attention weights in MICIL
图2 MICIL方法中的示例注意力权重分布.

可以看出,在经过注意力机制的操作后,多示例包中的示例权重有了明显的改变.大部分示例权重集中在0~0.15左右,该部分示例对应多示例包中的类别无关示例.而可有效刻画类别的关键示例则占比较小,但其权重值较大,多集中在0.75左右,这与多示例包中关键示例的自然观察较为一致.

4 结 论

本文提出了一种基于注意力机制及原型分类器映射的多示例增量学习方法以应对面向增量分类的多示例学习任务.首先,多示例包汇合操作利用注意力机制关注并增强多示例包中的关键示例并将其汇合形成包层级特征表示.之后,包层级特征表示被用于生成对应的包类别原型特征表示并且包类别原型特征将以极小的代价存储下来用于缓解遗忘.然后,类别原型映射函数将所有新旧类别原型特征映射为对应的类别分类器,以对所有新旧类进行预测;同时使用知识蒸馏,将上一阶段类别原型映射函数对旧类别生成的分类器的预测结果作为“教师”,指导当前阶段更新后的类别原型映射函数对旧类别生成的分类器的预测结果,使得类别原型映射函数能够很好地保留旧类别的知识.通过注意力机制对多示例包类别信息的表示、交叉熵损失对增量类别的学习以及知识蒸馏对旧类的指导,我们的方法能够很好地处理面向增量分类的多示例学习问题,并在3个不同任务的多示例数据集上验证了我们MICIL方法的有效性.

未来,考虑多示例包与类别原型关系的类别原型特征表示的构造方法值得进一步研究.

参考文献

[1]Dietterich T G, Lathrop R H, Lozano-Perez T. Solving the multiple instance problem with axis-parallel rectangles[J]. Artificial Intelligence, 1997, 89(1): 31-71

[2]Andrews S, Tsochantaridis I, Hofmann T. Supportvector machines for multiple-instance learning[C/OL] //Proc of the 17th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2003 [2022-03-12]. https://proceedings.neurips.cc/paper/2002/file/3e6260b81898beacda3 d16db379ed329-Paper.pdf

[3]Zhou Zhihua, Sun Yuyin, Li Yufeng. Multi-instance learning by treating instances as non-IID samples[C] //Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 1249-1256

[4]Zhou Zhihua, Zhang Minling, Huang Shengjun, et al. Multi-instance multi-label learning[J]. Artificial Intelligence, 2012, 176(1): 2291-2320

[5]Ilse M, Tomczak J, Welling M. Attention-based deep multiple instance learning[C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 2127-2136

[6]Wang Xinggang, Yan Yongluan, Tang Peng, et al. Bag similarity network for deep multi-instance learning[J]. Information Sciences, 2019, 504: 578-588

[7]Li Xinchun, Zhan Dechuan, Yang Jiaqi, et al. Deep multiple instance selection[J]. SCIENCE CHINA Information, 2021, 64(3): Article No.130102 (in Chinese)

(李新春, 詹德川, 杨嘉祺, 等. 深度多示例选择[J]. 中国科学: 信息科学, 2021, 64(3): Article No.130102)

[8]Tu Ming, Huang Jing, He Xiaodong, et al. Multiple instance learning with graph neural networks[J]. arXiv preprint, arXiv:1906.04881, 2019

[9]Ren Jie, Hou Bojian, Jiang Yuan. Deep forest for multiple instance learning[J]. Journal of Computer Research and Development, 2019, 56(8): 1670-1676 (in Chinese)

(任婕, 侯博建, 姜远. 多示例学习下的深度森林架构[J]. 计算机研究与发展, 2019, 56(8): 1670-1676)

[10]Zhang Qi, Goldman S A. EM-DD: An improved multiple-instance learning technique[C] //Proc of the 15th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2001: 1073-1080

[11]Li Wujun. MILD: Multiple-instance learning via disambiguation[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(1): 76-89

[12]McGovern A, Jensen D. Identifying predictive structures in relational data using multiple instance learning[C] //Proc of the 20th Int Conf on Machine Learning. New York: ACM, 2003: 528-535

[13]Castro F M, Marín-Jiménez M J, Guil N, et al. End-to-end incremental learning[C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 233-248

[14]Hou Saihui, Pan Xinyu, Loy C C, et al. Learning a unified classifier incrementally via rebalancing[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 831-839

[15]Rebuffi S A, Kolesnikov A, Sperl G, et al.ICaRL: Incremental classifier and representation learning[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2001-2010

[16]Kamra N, Gupta U, Liu Yan. Deep generative dual memory network for continual learning[J]. arXiv preprint, arXiv:1710.10368, 2017

[17]Kemker R, Kanan C. FearNet: Brain-inspired model for incremental learning[C/OL] //Proc of the Int Conf on Learning Representations. 2018 [2022-02-26]. https://arxiv.org/abs/1711.10563

[18]Liu Yaoyao, Su Yuting, Liu Anan, et al. Mnemonics training: Multi-class incremental learning without forgetting[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 12245-12254

[19]Zhao Bowen, Xiao Xi, Gan Guojun, et al. Maintaining discrimination and fairness in class incremental learning[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 13208-13217

[20]Wang Zhigang, Wang Haitao, She Qi,et al. Robot 4.0: Continual learning and spatial-temporal intelligence through edge[J]. Journal of Computer Research and Development, 2020, 57(9): 1854-1863 (in Chinese)

(王志刚, 王海涛, 佘琪, 等. 机器人4.0: 边缘计算支撑下的持续学习和时空智能[J]. 计算机研究与发展, 2020, 57(9): 1854-1863)

[21]Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526

[22]Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence[C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 3987-3995

[23]Aljundi R, Babiloni F, Elhoseiny M, et al. Memory aware synapses: Learning what (not) to forget[C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 139-154

[24]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint, arXiv:1503.02531, 2015[25]Li Zhizhong, Hoiem D. Learning without forgetting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 2935-2947

[26]Abati D, Tomczak J, Blankevoort T, et al. Conditional channel gated networks for task-aware continual learning[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 3931-3940

[27]Hung Chingyi, Tu Chenghao, Wu Chengen, et al. Compacting, picking and growing for unforgetting continual learning[C] //Proc of the 33rd Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2019: 13669-13679

[28]Rajasegaran J, Hayat M, Khan S H, et al. Random path selection for continual learning[C] //Proc of the 33rd Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2019: 12669-12679

[29]Zhou Dawei, Ye Hanjia, Zhan Dechuan. Co-transport for class-incremental learning[C] //Proc of the 29th ACM Int Conf on Multimedia. New York: ACM, 2021: 1645-1654

[30]Mera C, Orozco-Alzate M, Branch J. Incremental learning of concept drift in multiple Instance Learning for industrial visual inspection[J]. Computers in Industry, 2019, 109: 153-164

[31]Viola P, Platt J, Zhang Cha. Multiple instance boosting for object detection[C] //Proc of the 19th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2005: 1417-1426

[32]Zhu Yue, Wu Jianxin, Jiang Yuan, et al. Learning with augmented multi-instance view[C] //Proc of 6th Asian Conf on Machine Learning. Cambridge, MA: JMLR, 2015: 234-249

[33]Chen Yixin, Wang J Z. Image categorization by learning and reasoning with regions[J]. The Journal of Machine Learning Research, 2004, 5: 913-939

[34]Silberman N, Fergus R. Indoor scene segmentation using a structured light sensor[C] //Proc of the 26th IEEE Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2011: 601-608

[35]Viéville T, Crahay S. Using an hebbian learning rule for multi-class SVM classifiers[J]. Journal of Computational Neuroscience, 2004, 17: 271-287

[36]Wei Xiushen, Ye Hanjia, Mu Xin, et al. Multiple instance learning with emerging novel class[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(5): 2109-2120

[37]Wold S, Esbensen K, Geladi P. Principal component analysis[J].Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37-52

[38]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of the 26th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012, 25: 1097-1105

[39]Zhou Dawei, Wang Fuyun, Ye Hanjia, et al. PyCIL: A Python toolbox for class-incremental learning[J]. arXiv preprint, arXiv:2112.12533, 2021

Multi-Instance Learning with Incremental Classes

Wei Xiushen1,2,3,4,5, Xu Shulin1,3,4, An Peng6, and Yang Jian1,3,4

1(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094)2(State Key Laboratory of Integrated Services Networks(Xidian University), Xian 710071)3(Key Laboratory of Intelligent Perception and Systems for High-Dimensional Information (Nanjing University of Science and Technology), Ministry of Education, Nanjing 210094)4(Jiangsu Key Laboratory of Image and Video Understanding for Social Security (Nanjing University of Science and Technology), Nanjing 210094)5(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023)6(Information Technology Center, China National Offshore Oil Corporation, Beijing 100010)

Abstract In recent years, multi-instance learning (MIL) has been widely used in complicated data problems, but the existing MIL methods often study a fixed number of categories in a closed environment. However, in real applications, novel categories are constantly added to the system, such as the continuous emergence of new topics in the development of science or social media. Due to storage restrictions or confidentiality agreements, old data may become invisible over time, which makes the model forget the previously learned knowledge when directly learning new categories. Incremental learning is often used to deal with the aforementioned problems. The mining of multi-instance learning with incremental classes is very meaningful, but the current works on this is rare to be focused. We propose a novel multi-instance incremental data mining method based on both attention mechanism and prototype classifier mapping. Through the attention mechanism, the MIL bags are selectively merged into unified feature representations, which will be used to generate the corresponding storable category prototypes. Through the prototype classifier mapping, each category prototype is mapped into an unbiased and robust classifier. The prediction results of the classifier generated in the previous incremental stage are used to perform knowledge distillation on the prediction results of the classifier generated in novel incremental stages, so that the model can retain the old knowledge with very low storage under MIL. Experimental results on benchmarks of three different tasks show that our proposed method have achieved effective performance in MIL with incremental classes.

Key words multi-instance learning; incremental learning; attention mechanism; knowledge distillation; prototype

(weixs@njust.edu.cn)

中图法分类号 TP391

收稿日期2022-01-09;修回日期:2022-04-07

基金项目国家重点研发计划青年科学家项目(2021YFA1001100);江苏省基础研究计划(自然科学基金)项目(BK20210340);中国人工智能学会-华为MindSpore学术奖励基金;中央高校基本科研业务费专项资金(30920041111);北京智源人工智能研究院悟道科研基金

This work was supported by the National Key Research and Development Program of China (2021YFA1001100), the Natural Science Foundation of Jiangsu Province of China (BK20210340), the CAAI-Huawei MindSpore Open Fund, the Fundamental Research Funds for the Central Universities (30920041111), and the Wudao Research Funding of Beijing Academy of Artificial Intelligence (BAAI).

通信作者杨健(csjyang@njust.edu.cn)

DOI:10.7544/issn1000-1239.20220071

作者贡献声明:魏秀参提出了算法思路、实验方案并撰写论文;徐书林负责完成相关文献综述及对应内容书写;安鹏提出指导意见并修改论文;杨健提出指导意见.

Wei Xiushen, born in 1989. PhD, professor. His main research interests include computer vision and machine learning.

魏秀参,1989年生.博士,教授.主要研究方向为计算机视觉和机器学习.

Xu Shulin, born in 1999. Master candidate. His main research direction is few-shot fine-grained image recognition. (xusl@njust.edu.cn)

徐书林,1999年生.硕士研究生.主要研究方向为少样本图像细粒度识别.

An Peng, born in 1992. Engineer. His main research direction is digital and intelligent construction of petroleum and petrochemical industry. (anpeng@cnooc.com.cn)

安 鹏,1992年生.工程师.主要研究方向为石油石化行业数字化、智能化建设.

Yang Jian, born in 1973. PhD, professor. His main research interests include pattern recognition, computer vision, machine learning and brain-inspired computing.

杨 健,1973年生.博士,教授.主要研究方向为模式识别、计算机视觉、机器学习和类脑计算.