Processing math: 11%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

开放世界物体识别与检测系统:现状、挑战与展望

聂晖, 王瑞平, 陈熙霖

聂晖, 王瑞平, 陈熙霖. 开放世界物体识别与检测系统:现状、挑战与展望[J]. 计算机研究与发展, 2024, 61(9): 2128-2141. DOI: 10.7544/issn1000-1239.202440054
引用本文: 聂晖, 王瑞平, 陈熙霖. 开放世界物体识别与检测系统:现状、挑战与展望[J]. 计算机研究与发展, 2024, 61(9): 2128-2141. DOI: 10.7544/issn1000-1239.202440054
Nie Hui, Wang Ruiping, Chen Xilin. Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects[J]. Journal of Computer Research and Development, 2024, 61(9): 2128-2141. DOI: 10.7544/issn1000-1239.202440054
Citation: Nie Hui, Wang Ruiping, Chen Xilin. Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects[J]. Journal of Computer Research and Development, 2024, 61(9): 2128-2141. DOI: 10.7544/issn1000-1239.202440054
聂晖, 王瑞平, 陈熙霖. 开放世界物体识别与检测系统:现状、挑战与展望[J]. 计算机研究与发展, 2024, 61(9): 2128-2141. CSTR: 32373.14.issn1000-1239.202440054
引用本文: 聂晖, 王瑞平, 陈熙霖. 开放世界物体识别与检测系统:现状、挑战与展望[J]. 计算机研究与发展, 2024, 61(9): 2128-2141. CSTR: 32373.14.issn1000-1239.202440054
Nie Hui, Wang Ruiping, Chen Xilin. Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects[J]. Journal of Computer Research and Development, 2024, 61(9): 2128-2141. CSTR: 32373.14.issn1000-1239.202440054
Citation: Nie Hui, Wang Ruiping, Chen Xilin. Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects[J]. Journal of Computer Research and Development, 2024, 61(9): 2128-2141. CSTR: 32373.14.issn1000-1239.202440054

开放世界物体识别与检测系统:现状、挑战与展望

基金项目: 科技创新2030 —“新一代人工智能”重大项目(2021ZD0111901);国家自然科学基金项目(U21B2025,U19B2036)
详细信息
    作者简介:

    聂晖: 1996年生. 博士研究生. 主要研究方向为开放世界物体检测、计算机视觉

    王瑞平: 1981年生. 博士,教授,博士生导师. 主要研究方向为计算机视觉、模式识别、机器学习

    陈熙霖: 1965年生. 博士,教授,博士生导师. 主要研究方向为计算机视觉、模式识别、图像处理、多模式人机接口

    通讯作者:

    王瑞平(wangruiping@ict.ac.cn

  • 中图分类号: TP391

Open World Object Recognition and Detection Systems: Landscapes, Challenges and Prospects

Funds: This work was supported by the National Key Research and Development Program of China (2021ZD0111901) and the National Natural Science Foundation of China (U21B2025, U19B2036).
More Information
    Author Bio:

    Nie Hui: born in 1996. PhD candidate. His main research interests include open world object detection and computer vision

    Wang Ruiping: born in 1981. PhD, professor, PhD supervisor. His main research interests include computer vision, pattern recognition, and machine learning

    Chen Xilin: born in 1965. PhD, professor, PhD supervisor. His main research interests include computer vision, pattern recognition, image processing, and multimodal interfaces

  • 摘要:

    探究了从封闭环境到开放世界环境的转变及其对视觉感知(集中于物体识别和检测)与深度学习领域的影响. 在开放世界环境中,系统软件需适应不断变化的环境和需求,这为深度学习方法带来新挑战. 特别是,开放世界视觉感知要求系统理解和处理训练阶段未见的环境和物体,这超出了传统封闭系统的能力. 首先讨论了技术进步带来的动态、自适应系统需求,突出了开放系统相较封闭系统的优势. 接着,深入探讨了开放世界的定义和现有工作,涵盖开集学习、零样本学习、小样本学习、长尾学习、增量学习等5个开放维度. 在开放世界物体识别方面,分析了每个维度的核心挑战,并为每个任务数据集提供了量化的评价指标. 对于开放世界物体检测,讨论了检测相比识别的新增挑战,如遮挡、尺度、姿态、共生关系、背景干扰等,并强调了仿真环境在构建开放世界物体检测数据集中的重要性. 最后,强调开放世界概念为深度学习带来的新视角和机遇,是推动技术进步和深入理解世界的机会,为未来研究提供参考.

    Abstract:

    We explore the transition from closed environments to open world environments and its impact on visual perception (focusing on object recognition and detection) and the field of deep learning. In open world environments, software systems need to adapt to constantly changing conditions and demands, presenting new challenges for deep learning methods. In particular, open world visual perception requires systems to understand and process environments and objects not seen during the training phase, which exceeds the capabilities of traditional closed systems. We first discuss the dynamic and adaptive system requirements brought about by technological advances, highlighting the advantages of open systems over closed systems. Then we delve into the definition of the open world and existing work, covering five dimensions of openness: open set learning, zero-shot learning, few-shot learning, long-tail learning, and incremental learning. In terms of open world recognition, we analyze the core challenges of each dimension and provide quantified evaluation metrics for each task dataset. For open world object detection, we discuss additional challenges compared with recognition, such as occlusion, scale, posture, symbiotic relationships, background interference, etc., and emphasize the importance of simulation environments in constructing open world object detection datasets. Finally, we underscore the new perspectives and opportunities that the concept of the open world brings to deep learning, acting as a catalyst for technological advancement and deeper understanding of the realistic environment challenges, offering a reference for future research.

  • 介数中心度(betweenness centrality, BC)通过计算经过顶点的最短路径数来确定顶点在图结构中的重要程度,是图顶点重要性计算的一种流行方式,最早由Freeman[1]提出. 顶点的介数中心度越大,则顶点对图中其他顶点的控制能力越强,介数中心度算法被广泛应用于社会网络分析[2-3]、蛋白质交互网络影响预测[4]、社区发现[5]等.

    现有的介数中心度算法主要聚焦于普通图,然而现实场景中建模的图常为时态图,边上带有时态信息. 例如电子邮件网络[6]边上附带有邮件发送/接收时间;社交网络[7]边上附带有人与人的接触时间.图1是一个电子邮件网络示例,顶点表示用户,边表示用户之间发送/接收邮件的关系,边上时间戳表示邮件发送/接收或转发/接收的时间. 具体地,用户1在3个不同时间点向用户2共发送了3份邮件,而后用户2将邮件1和邮件2转发给用户3和用户4,并将邮件3转发给用户5.电子邮件网络上介数中心度计算有助于精确推断网络结构[8]、用户活跃程度等. 图2是一个农贸市场接触网络示例,顶点表示供货商、商户、消费者;边表示他们之间的接触时刻. 具体地,消费者1和消费者2在商户1消费;消费者3在商户1和商户2消费. 蔬菜供货商为商户1送货,水果供货商为商户1和商户2送货. 在传染病疫情暴发时,接触网络上介数中心度计算有助于识别超级传播者[9],控制传染病的传播.

    图  1  电子邮件网络示例
    Figure  1.  An example of email network
    图  2  农贸市场接触网络示例
    Figure  2.  An example of agricultural market contact network

    普通图上介数中心度计算忽略了重要的时态信息,而时态信息对于信息流传播扩散[10]具有重要作用. 鉴于此,本文研究的时态图顶点介数中心度计算方法与已有的普通图介数中心度计算方法相比,时态图包含时态信息,且1对顶点之间存在多条被不同时间戳标记的边,因此时态图上介数中心度计算难度更大. 具体原因可分为2方面:

    1)时态图顶点介数中心度需要根据时态最短路径计算,而时态最短路径的定义方法多样,且计算时需要考虑时态边之间的时序依赖关系. 例如图3(a)给出的时态图示例中,边上的值为时间戳信息. 如果不考虑时态信息,则ad的最短路径为acd,但实际上acd是不可达的,因为ac的时间为4 (> 3). 所以计算时态最短路径时需要考虑时态边与边之间的时序依赖关系,记ad的时态最短路径为abcd.

    图  3  时态图和普通图示例
    Figure  3.  Examples of temporal graph and general graph

    2)针对时态图,普通图上介数中心度的计算理论与方法已不再适用,需要设计全新的理论与方法. 这是因为普通图中的介数中心度计算方法主要根据Brandes算法[11]设计,Brandes算法有效的关键理论是最短路径的子路径依然是最短路径,即最优子结构特性. 然而时态最短路径并不满足此特性. 例如图3(b)给出的普通图中,acd是1条最短路径,则子路径ac一定是最短路径. 而在时态图中(如图3(a)所示),时态最短路径abcd的子路径abc很明显不是时态最短路径,ac的时态最短路径为ac.

    为了解决这2个难点,本文根据时态边之间的时序依赖关系,定义了严格(时态递增)和非严格(时态非递减)2种时态路径类型,提出了基于消息传播的2阶段迭代计算框架以高效计算时态图顶点介数中心度. 其中,第1阶段采用自顶向下的广度优先遍历方式计算时态最短路径;第2阶段采用自底向上的方式计算顶点的后继节点和孩子节点对其介数中心度的贡献值,并设计了基于消息传播机制的迭代累积计算方法. 为了提高效率和可扩展性,实现了基于OpenMP(open multiprocessing)框架的多线程并发算法FTBC(fast temporal betweenness centrality). 概括而言,本文的主要贡献有3点:

    1)提出了自顶向下和自底向上结合的2阶段计算框架,并设计了基于消息传播机制的迭代累积计算方法以高效计算时态图顶点介数中心度.

    2)提出了基于OpenMP框架的多线程并发算法FTBC,以提高时态图顶点介数中心度计算的效率和可扩展性,并理论分析了算法的复杂度.

    3)基于8个真实的时态图数据集进行了大量的实验评估,验证了多线程FTBC算法相比目前流行的方法计算性能更优,可扩展性更强.

    本节分别概述已有的普通图和时态图介数中心度计算方法.

    针对普通图,Brandes[11]推导了经典的成对依赖、迭代计算理论,并基于此提出了精确介数中心度计算方法. 算法空间复杂度为O(n+m),时间复杂度为O(nm)(无权图)或Onm+n2log2 n)(有权图),其中nm分别表示顶点数和边数.Erdős等人[12]提出了Brandes++算法,该算法采用分治策略,利用图基础结构加速计算.Sariyüce等人[13]提出了BADIOS算法,该算法针对无向无环图,先将一些特殊顶点压缩,并利用顶点、桥边将图划分为多个子图,而后在子图上计算顶点的介数中心度.Baglioni等人[14]提出利用图的拓扑特征加速计算. 但文献[12-14]所提算法的最坏时间复杂度仍与Brandes算法[11]相同.

    为了提高介数中心度计算效率,研究人员提出了近似算法. 为了避免计算所有顶点对之间的最短路径,近似算法的总体思想是基于采样方法计算部分顶点之间的最短路径,并基于此估算所有顶点的介数中心度. 为了保证结果质量,近似算法通常理论推导采样数或迭代更新介数中心度值,直到满足预置的终止条件.Brandes等人[15]提出了基于顶点采样的方法,其利用霍夫丁不等式[16]估计误差概率.Riondato等人[17]提出了基于最短路径采样的方法RK,其利用顶点直径(vertex diameter, VD)和VC(vapnik-chervonenkis)维[18]估算达到要求精度所需的最少样本数.RK首先采样一对顶点,然后再基于采样顶点对的一条最短路径而不是所有最短路径来近似计算顶点的介数中心度. 此外,由于计算精确的顶点直径需要所有顶点对之间的最短路径,此操作非常耗时,因此RK随机采样一个顶点,并根据该顶点到图中其他顶点的单源最短路径距离估计顶点直径. 基于RK,Borassi等人[19]提出了KADABRA算法,其采用双向广度优先搜索方式来减少最短路径的采样时间,在介数中心度估计时允许为每个顶点设置不同的概率置信度.Riondato等人[20]提出了ABRA算法,其利用渐进式随机抽样,基于拉德马赫平均值和伪维估计采样数. Cousins等人[21]提出了Bavarain算法,其采用蒙特卡洛经验拉德马赫平均值[22]估计更加严格的样本数上界,进而保证结果精度.Pellegrina等人[23]提出了SILVAN算法,与Bavarain算法相同的是,SILVAN同样采用蒙特卡洛经验拉德马赫平均值估计样本数上界;与Bavarain不同的是,Bavarain仅适用于均匀边界,而SILVAN可以用于均匀和非均匀边界.

    然而,无论是普通图介数中心度精确计算方法还是近似计算方法,方法有效的关键理论是最优子结构性质,而时态图不满足最优子结构特性,因此无法直接扩展到时态图.

    一些工作将时态图看作是一系列图的镜像,即动态图,而后研究动态图介数中心度计算.Lee等人[24]将动态图分解为连通分量后再进行BC值更新计算以减少搜索空间. Green等人[25]提出最短路径树结构加速动态图BC值的更新.Kourtellis等人[26]将最短路径树结构压缩存储以减少内存占用.Kas等人[27]拓展了动态APSP(all pairs of shortest path)算法[28]以实现BC值动态更新.Bergamini等人[29]提出了半动态的近似计算方法以支持顶点和边的插入操作.Hayashi等人[30]提出了全动态的近似算法以支持边和顶点的插入和删除. 然而文献[25-30]算法均将时态图视为图镜像集合,没有考虑时态边之间的时序依赖关系,本质上还是基于普通图的最优子结构性质设计的方法.

    与本文研究问题最相似的工作为Buß等人[31]提出的时态图顶点介数中心度精确计算算法,其首先构建顶点的前置图,使得前置图上满足最优子结构性质,而后将Brandes算法理论扩展,运用在前置图上进行计算. 另一篇较相似的工作为Tsalouchidou等人[32]提出的算法,其将路径长度与持续时间结合起来作为时态最短路径定义标准,并在时态图定长静态窗口上计算介数中心度精确值. 本文实验测试了Buß等人[31]提出的算法,发现当时态图边数为3万时,其在内存16GB的机器上已无法运行.Tsalouchidou等人[32]提出的算法对于时间离散程度较大的时态图而言,需要设置较大的静态窗口值,导致复制静态窗口时耗费了大量的时间. 可见,文献[31-32]工作存在计算效率较低、可扩展性差的问题.

    本节主要介绍时态图、时态路径、时态最短路径、时态介数中心度的相关概念,并给出问题定义.

    定义1. 时态图. 本文定义的时态图既可以是有向的,又可以是无向的,表示为G=(V,E,T). 其中,V表示顶点集合;E表示时态边集合;T为时间戳集合. 时态图中2点之间可以有多条时态边. 具体地,时态边ei = (ui, vi,, ti)表示顶点uivi之间的事件发生时间为titiT.

    定义2. 严格与非严格时态路径. 从顶点uvk的时态路径表示为p = ut1v1t2v2t3v3vk-1tkvk. 其中,p的第1条边e1 = (u, v1, t1),第i条边ei = (vi−1, vi, ti) (1 < i < k),第k条边ek = (vk−1, vk, tk)使得对于任意的1ti \leqslant ti+1. 特别地,当 k = 1 p也是1条时态路径. 进一步地,如果对于任意的 1 \leqslant i < k ti < ti+1,则p称为严格时态路径;否则p称为非严格时态路径. 令|p|=k表示时态路径的长度.

    定义3. 时态最短路径. 给定从顶点uv的时态路径ps,如果不存在从uv的其他时态路径p满足路径长度 |p| \lt |p_s| ,则ps是时态最短路径. 特别地,当|ps| = 1时,ps也是一条时态最短路径.

    定义4. 时态介数中心度. 给定时态图 G = (V, E, T) ,令σsf表示顶点s到顶点f的时态最短路径数目;σsf v)表示由顶点s经顶点v到顶点f的时态最短路径数目,则对于所有顶点 v \in V v的时态介数中心度TBCv)定义为TBCv= \displaystyle\sum\limits_{s,v,f \in V,s \ne v \ne f} {\dfrac{{{\sigma _{sf}}(v)}}{{{\sigma _{sf}}}}}.

    本节详细阐述基于消息传播的2阶段迭代计算框架以及基于OpenMP框架的多线程并发算法FTBC.

    为了清晰地说明框架的整体思路和2阶段计算过程,首先定义了分裂点集合.

    定义5. 分裂点集合. 给定时态图 G = (V,E,T) ,对于任意的顶点 v \in V v 的分裂点集合表示为Sv) = {(v, tm)|1 \leqslant m \leqslant h},其中tm v 入边中到达v的时间实例, h 表示不同的到达时间实例数.

    图4(a)给出了一个时态图G示例.G由6个顶点和15条时态边组成. 以顶点b为例:b的分裂点集合 S(b) = \{ (b,0),(b,2),(b,4)\} .

    图  4  时态图示例和FTBC执行中间结果
    Figure  4.  An example of temporal graph and intermediate results of FTBC execution

    2阶段迭代计算框架中,第1阶段采用自顶向下的广度优先遍历方式计算时态最短路径. 具体地,将每个顶点u作为源点,自顶向下计算源点u到其他顶点和分裂点的最短路径数. 这个阶段需要保存的主要数据结构为:

    1)σuvσuv,t分别记录源点uv和源点u到分裂点 (v,t) 的时态最短路径数.

    2)DuvDuv,t分别记录源点uv和源点u到分裂点(v, t)的时态最短路径长度.

    3)flagv, t)标记(v, t)是否是源点uv的时态最短路径的终点,如flagv, t=1,则表示(v, t)是源点uv的时态最短路径的终点;否则flagv, t=0.

    4)Pv, t)记录(v, t)的前驱分裂点集合. 对于时态最短路径 s \xrightarrow{{{t_0}}} … \xrightarrow{{{t_k}}} u \xrightarrow{{{t_{k + 1}}}} v 而言,(u, tk)为(v, tk+1)的一个前驱分裂点.

    第2阶段基于消息传播的机制,采用自底向上的方式迭代计算每个顶点的所有分裂点的时态介数中心度. 这个阶段需要保存的主要数据结构为:

    TBCv)和δuv, t)分别记录v的时态介数中心度和源点u经过分裂点(v, t)的时态最短路径中,(v, t)的所有后续节点对(v, t)的贡献值大小,其中 {\delta _{u}}(v,t) = \displaystyle\sum\limits_{u,v,f \in V,u \ne v \ne f} {\dfrac{{{\sigma _{uf}}(v,t)}}{{{\sigma _{uf}}}}}.

    由于时态最短路径不满足子结构特性,因此需要分别计算分裂点的后继节点和孩子节点对其时态介数中心度的贡献值. 具体地,对于时态最短路径 s \xrightarrow{{{t_0}}} … \xrightarrow{{{t_k}}} \,u \, \xrightarrow{{{t_{k + 1}}}} v \xrightarrow{{{t_{k + 2}}}} w \xrightarrow{{{t_{k + 3}}}} … \xrightarrow{{{t_n}}} z 而言,(v, tk+1)称为分裂点(u, tk)的孩子节点;(w, tk+2)…(z, tn)称为(u, tk)的后继节点. 则对于分裂点(u, tk),需要计算2部分贡献值:第1部分为其后继节点(w, tk+2)…(z, tn)对其时态介数中心度的贡献值,需要迭代计算得到;第2部分为其孩子节点(v, tk+1)对其时态介数中心度的贡献值.2部分贡献值均通过消息传播给分裂点(u, tk). 以图4(a)为例:当根据时态最短路径 a \xrightarrow{0} b \xrightarrow{1} c \xrightarrow{2} e 更新分裂点(b, 0)的时态介数中心度时,需要考虑其孩子节点(c, 1)和其后继节点(e, 2)的贡献值. 由于flagc, 1)=0,即(c, 1)不是ac的时态最短路径的终点,因此(c, 1)对(b, 0)的贡献值为0;只需计算第1部分贡献值,即后继节点(e, 2)对(b, 0)的贡献值.

    引理1. 可推导顶点介数中心度公式TBC (v) = \displaystyle\sum\limits_{s,v,f \in V,s \ne v \ne f} {\dfrac{{{\sigma _{sf}}(v)}}{{{\sigma _{sf}}}}} = \displaystyle\sum\limits_{(v,t) \in S(v)} {{\delta _{s}}(v,t) = } \displaystyle\sum\limits_{(v,t) \in S(v)}\; {\displaystyle\sum\limits_{(w,t'):(v,t) \in P(w,t')} {\left(\dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}}}\right.}\times} { flag(w,t') +\left. \dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}(w,t')}} \times {\delta _{s}}(w,t')\right) }.

    证明. 由{\delta _{s}}(v,t) = \displaystyle\sum\limits_{s,v,f \in V,s \ne v \ne f} {\frac{{{\sigma _{sf}}(v,t)}}{{{\sigma _{sf}}}}}以及定义4可得TBC(v) = \displaystyle\sum\limits_{s,v,f \in V,s \ne v \ne f} {\frac{{{\sigma _{sf}}(v)}}{{{\sigma _{sf}}}}} = \displaystyle\sum\limits_{(v,t) \in S(v)} {{\delta _{s}}(v,t)}. 进一步地,可推导出计算公式{\delta _{s}}(v,t) = \displaystyle\sum\limits_{v,f \in V,s \ne v \ne f} {{\delta _{sf}}(v,t)} = \displaystyle\sum\limits_{(w,t'):(v,t) \in P(w,t')} {\displaystyle\sum\limits_{f \in V,s \ne v \ne f} {{\delta _{sf}}((v,t),(v,t) \to (w,t'))} }

    1)当 f = w ,即 s \xrightarrow{{{t_0}}}… \xrightarrow{t} v \xrightarrow{{t'}} w 时,有{\delta _{sf}}((v,t), ((v,t) \to (w,t'))) = \dfrac{{{\sigma _{sw}}(v,t) \times flag(w,t')}}{{{\sigma _{sw}}}}

    2)当 f \ne w ,即 s \xrightarrow{{{t_0}}} … \xrightarrow{t} v \xrightarrow{{t'}} w \xrightarrow{{{t_k}}} … \xrightarrow{{{t_n}}} f 时,有{\delta _{sf}}((v,t), ((v,t) \to (w,t'))) = \dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}(w,t')}} \times \dfrac{{{\sigma _{sf}}(w,t')}}{{{\sigma _{sf}}}} = \dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}(w,t')}} \times {\delta _{s}}(w,t').

    因此最终TBC(v) = \displaystyle\sum\limits_{(v,t) \in S(v)}\; \displaystyle\sum\limits_{(w,t'):(v,t) \in P(w,t')} {\left(\dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}}} \times \right.} {\left. flag\left(w,t'\right) + \dfrac{{{\sigma _{sw}}(v,t)}}{{{\sigma _{sw}}\left(w,t'\right)}} \times {\delta _{s}}\left(w,t'\right) \right)}.证毕.

    基于2阶段迭代计算框架,本节提出了算法1.

    算法1. 时态图介数中心度计算算法FTBC.

    输入:时态图 G = (V,E,T) ,线程数 \# threadnum

    输出:所有顶点的介数中心度{TBC (u),u \in V }.

    ① 创建 \# threadnum 个线程,TBC (u) \leftarrow 0

    ② for each u \in V

    ③  线程 i {\text{1}} \leqslant i \leqslant \# threadnum )执行方法

    Computeu,TBC);

    ④ end for

    ⑤ if 所有线程终止

    ⑥  输出TBC \{ (u),u \in V\}

    ⑦ end if

    线程:Computeu,TBC);

    ⑧ 初始化栈S

    ⑨ 从u出发BFS方式遍历严格/非严格时态路径;

    ⑩ 首次访问 (w,t') 则入栈S,计算 {\sigma _{u(w,t')}} {D_{u(w,t')}} {\sigma _{uw}} {D_{uw}} P(w,t')

    ⑪ if (w,t') uw的时态最短路径的终点

    ⑫   flag(w,t') \leftarrow 1

    ⑬ end if

    ⑭ while (w,t') \leftarrow pop(S)

    ⑮  if flag(w,t') = 1 /* 计算孩子节点的贡献值*/

    ⑯   for each (v,t) \in P(w,t')

    ⑰    {\delta _{u}}(v,t) \leftarrow {\delta _{u}}(v,t) + \dfrac{{{\sigma _{u(v,t)}}}}{{{\sigma _{uw}}}}

    ⑱   end for

    ⑲  end if

    ⑳  for each (v,t) \in P(w,t') /* 计算后继节点的贡 献值*/

    ㉑   {\delta _{u}}(v,t) \leftarrow {\delta _{u}}(v,t) + \dfrac{{{\sigma _{u(v,t)}}}}{{{\sigma _{u(w,t')}}}} \times {\delta _{u}}(w,t')

    ㉒  end for

    ㉓ end while

    TBC加写锁;

    TBC (w) \leftarrow TBC(w) + {\delta _{u}}(w,t') ;/* 根据引理1累加 计算顶点介数中心度*/

    TBC释放锁.

    FTBC算法的输入为时态图G和自定义的线程数,输出为G中所有顶点的时态介数中心度. 首先,FTBC创建线程,初始化TBC数组(行①). 然后,对于时态图中的每一个顶点u,FTBC委派空闲线程执行Compute方法计算顶点的TBC值(行②~④). 最后,如果所有线程终止,FTBC返回所有顶点的TBC值(行⑤~⑦).

    Compute方法是一个2阶段迭代计算的过程. 阶段1通过广度优先搜索的方式遍历时态图以完成距离、前驱分裂点和最短路径数的计算,并确定分裂点的flag值(行⑧~⑬). 具体地,Compute首先初始化栈S(行⑧). 然后从当前源点u出发遍历严格或非严格时态路径,将首次遍历到的分裂点(w, t' )加入S中,并计算源点u到分裂点(w, t' )的最短路径数σuw,t'、源点u到分裂点(w, t' )的距离Duw,t'、源点u到顶点w的最短路径数{\sigma _{uw}}、源点uw的距离Duw以及分裂点(w, t' )的前驱分裂点集合Pw, t' )(行⑨~⑩). 如果分裂点(w, t' )确定是uw的时态最短路径的终点,则令flagw, t' ) = 1(行⑪~⑬). 阶段2根据引理1自底向上迭代计算分裂点的时态介数中心度,进而累加得到最终顶点的时态介数中心度(行⑭~㉖). 具体地,当栈S不为空时,从S中弹出分裂点(w, t' ),如果flagw, t' ) = 1,则计算(w, t' )对其前驱分裂点(v, t)的贡献值(行⑭~⑲);接着,累加计算(v, t)经(w, t' )到达的所有后继节点对(v, t)的贡献值(行⑳~㉒). 迭代计算这2部分贡献值直至S为空. 最后,Compute累加计算顶点的时态介数中心度(行㉔~㉖).

    图4(a)所示时态图为FTBC算法输入,图4(b)给出了源点为a时FTBC算法第1阶段自顶向下计算得到的时态最短路径数σuvσuv,t、时态最短路径长度DuvDuv,t flag(v,t) 以及前驱分裂点集合Pv, t). 以顶点c为例:a到分裂点(c, 5)的时态最短径为a \xrightarrow{5} c,则Dac,5) = 1,σac,5) = 1;a到分裂点(c, 1)的时态最短路径为 a \xrightarrow{0} b \xrightarrow{1} c ,则Dac,1) = 2,σac,1)= 1;a到分裂点(c, 3)的时态最短路径为 a \xrightarrow{{0/2}} b \xrightarrow{3} c Dac,3) = 2,σac,3) = 2.因为Dac,5) = 1最小,所以可以得出:flagc,5) = 1 flagc,1) = 0 flagc,3) = 0 Dac = 1;σac = 1.

    图4(c)给出了源点为a时FTBC算法第2阶段自底向上计算得到的贡献值δuv, t)和δuv). 首先,因为(f, 4)和(f, 6)的flag = 1,因此计算(f, 4)对其前驱分裂点(d, 3)的贡献值以及(f, 6)对其前驱分裂点(d, 3)和(d, 5)的贡献值,明显地,有δaf, 4) = δaf, 6) = 0,则根据引理1可得:δad, 3)= \dfrac{2}{7} + \dfrac{2}{7} = \dfrac{4}{7}δad, 5)= \dfrac{3}{7}δad = 1 . 然后,计算flag = 1时的e的分裂点对其前驱分裂点的贡献值,即计算(e, 2)对(c, 1)的贡献值以及(e, 4)对(c, 1)和(c, 3)的贡献值. 明显地,有δae, 2) = δae, 4) = 0,则根据引理1可得:δac,1)= \dfrac{1}{4} + \dfrac{1}{4} = \dfrac{1}{2}δac,3)= \dfrac{2}{4} = \dfrac{1}{2}δac = 1 . 接着,计算flag = 1的d的分裂点对其前驱分裂点的贡献值,以及经d的分裂点到达的所有后继节点对其前驱分裂点的贡献值,即计算(d, 3),(f, 4),(f, 6)对(b, 0)和(b, 2)以及(d, 5)和(f, 6)对(b, 0),(b, 2),(b, 4)的贡献值. 则:{\delta _{a}}(b,0) = \dfrac{1}{5} + \dfrac{4}{7} \times \dfrac{1}{2} + \dfrac{1}{5} + \dfrac{3}{7} \times \dfrac{1}{3} = \dfrac{{29}}{{35}} {\delta _{a}}(b,2) = \dfrac{1}{5} + \dfrac{4}{7} \times \dfrac{1}{2} + \dfrac{1}{5} + \dfrac{3}{7} \times \dfrac{1}{3} = \dfrac{{29}}{{35}} {\delta _{a}}(b,4) = \dfrac{1}{5} + \dfrac{3}{7} \times \dfrac{1}{3} =\dfrac{{12}}{{35}}. 而后,因为Sc)中分裂点(c, 1)和(c, 3)的flag = 0,所以只需计算经(c, 1)和(c, 3)到达的所有后继节点对(c, 1)和(c, 3)前驱分裂点的贡献值,即计算(e, 2),(e, 4)和(f, 3)对(b, 0)和(e, 4)对(b, 2)的贡献值. 则: {\delta _{a}}(b,0) = \dfrac{{29}}{{35}} + \dfrac{1}{2} \times \dfrac{1}{1} + \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{{221}}{{140}}{\delta _{a}}(b,2) = \dfrac{{29}}{{35}} + \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{{151}}{{140}}δab)=3.

    复杂度分析. 算法1中的主要时间开销为Compute方法的计算开销,Compute方法自顶向下计算时态最短路径花费O(|V|2|T|2),|V|和|T|分别代表时态图顶点数和时间戳集合的大小. 因此FTBC算法的时间复杂度为 O(\dfrac{{{{\left| V \right|}^3}{{\left| T \right|}^2}}}{{\# threadnum}}) . 每个线程保存源点到分裂点的时态最短路径数,需要O(|V||V|) 空间,边信息需要O(|E|) 空间,|E|为时态图的边数,FTBC的空间复杂度为O(\# threadnum|V||T|+|E|).

    本节在真实的数据集中对FTBC算法进行实验测试,并与2种流行算法进行对比,以验证FTBC的效率.

    本文采用了8个真实的数据集进行实验测试. email[8]数据集是一家中型制造企业员工之间的内部电子邮件通信网络,hypertext[33]是参会者面对面的接触网络;以hs为前缀的3个数据集[34-36]是由高中生与朋友构成的联络网络;hospital[37],school[36],infectious[33]分别为患者和护工、老师和学生、参展人之间构成的接触网络. 其中email数据集来自KONECT[38],其他7个数据集均来自ScocialPattern[39].表1给出了数据集的统计信息,其中|V|表示顶点数,|E|表示边数,|D|表示时态区间. 时态区间为整个时态图中最大时间戳和最小时间戳的差值.

    表  1  数据集信息
    Table  1.  Dataset Information
    数据集 \left| V \right| \left| E \right| \left| { {D} } \right|
    hypertext11320818212340
    hs201112628560272330
    hs201218045047729500
    hs2013327188508363560
    hospital7532424347500
    email1678292723430482
    school242125773116900
    infectious10972415912123837267
    下载: 导出CSV 
    | 显示表格

    本文将FTBC与2个流行算法SBT算法[31]和SWTBC算法[32]进行对比. 相关实验代码分别从文献[40-41]中获取. 在实验测试过程中,为取得较好的计算性能,除infectious外的所有数据集默认线程数均设置为8,infectious数据集由于内存限制,线程数设置为1.本文所有实验程序均使用C++语言编写,实验测试环境为一台配置为英特尔至强CPU处理器E5-2640 v4 2.40 GHz,128 GB内存,Linux系统版本为CentOS 7.9的服务器.

    根据时态介数中心度值,将顶点分散在8个桶中,如果满足\mathop {\max }\limits_j \dfrac{{T BC(v)}}{{T B{C_{{\text{max}}}}}} \leqslant \dfrac{j}{8},j \in \left\{ {1, 2, …. 8} \right\},则顶点 v 被分到第 j 个桶中. 其中TBCmax为时态图中顶点的最大时态介数中心度. 图5(a)~(f)分别展示6个数据集hypertext,hs2012,hs2013,school,hs2011,hospital上的时态介数中心度分布结果. 从图5看出,顶点的介数中心度呈幂律分布,基于非严格和严格时态路径下的顶点介数中心度分布差距不大.

    图  5  不同数据集的顶点介数中心度分布
    Figure  5.  TBC distribution of different datasets

    表2给出了FTBC,SBT,SWTBC算法的时态介数中心度计算时间. 其中,FTBC和SBT算法名称前加上前缀“N”为基于非严格时态路径计算的时态介数中心度,加上前缀“S”为基于严格时态路径计算的时态介数中心度. SWTBC算法仅支持非严格的时态路径. 首先可以看出无论基于严格的还是非严格的时态最短路径计算方式,FTBC算法的计算效率最高. 具体地,FTBC计算时间比SBT快0.7~3倍,比SWTBC算法最多快4个数量级. 这是因为,FTBC算法采用2阶段迭代计算框架,基于引理1,运用并发机制高效迭代计算介数中心度. SBT算法为了降低内存使用,需要不断花费时间清空数据结构中的值;SWTBC算法由于数据集中时间离散程度大,需要设置静态窗口值较大,在复制静态窗口中的图数据方面花费了大量的时间,导致其效率最低.

    表  2  顶点介数中心度计算时间
    Table  2.  TBC Computation Time s
    数据集NFTBCSFTBCNSBTSSBTSWTBC
    hypertext3.94.112.412.3−1
    hs20112.32.34.04.029101.9
    hs201211.011.232.132.1−1
    hs201365.968.3244.3243.5−1
    hospital8.08.317.417.428612.8
    email218.4220.71001.8999.7−1
    school44.142.7178.6179.140872.0
    infectious1280.11278.01689.41646.1−1
    注: −1表示程序12 h内未运行完成;加粗数值表示最快计算速度.
    下载: 导出CSV 
    | 显示表格

    实验验证了线程数对时态介数中心度计算时间的影响. 图6给出了6个数据集分别在线程数为1,8,16,24,32,40进行实验的结果. 从图6可以看出时态介数中心度的计算时间随着线程数的增加呈先减后增的趋势. 这是因为随着线程数的增加,顶点并发计算数增多,计算效率提高. 但当线程数增加到一定数量后,线程开销主导了整体计算开销,线程切换和保证数据一致性的开销增大导致计算效率降低.

    图  6  线程数对不同数据集的影响
    Figure  6.  Effect of the number of threads on different datasets

    本文研究了时态图上精确介数中心度计算问题,设计了一种高效的基于消息传播的2阶段迭代计算框架,提出了基于OpenMP框架的多线程并发算法FTBC,通过引理1理论证明了自底向上传播机制的正确性,并通过示例解释了FTBC算法的2阶段迭代计算过程. 基于8个真实的时态图数据集,与2种流行方法进行了时间效率对比,实验验证了FTBC算法的高效性与可扩展性. 通过理论与实验分析可以看出,精确计算时态介数中心度复杂性较高,设计高效的近似时态介数中心度算法是一个重要且值得研究的问题,后续工作计划对其展开深入研究.

    作者贡献声明:张天明负责问题定义、方法设计、数据分析与论文撰写和修改工作;赵杰负责方法实现、实验验证、实验结果可视化;金露负责数据收集、实验测试和实验整理;陈璐负责实验分析与结果验证、论文写作指导;曹斌指导论文写作并提出修改建议;范菁指导论文写作并提出修改建议.

  • 图  1   封闭环境和开放环境的对比

    Figure  1.   Comparison between closed and open environments

    图  2   开放世界识别方法分类

    Figure  2.   Classification of open world recognition methods

    图  3   开放世界检测方法分类

    Figure  3.   Classification of open world detection methods

    图  4   从不同角度模拟真实世界的开放性

    Figure  4.   Simulating the openness of the real scenes from different perspectives

    图  5   开放性维度及其核心难度指标

    Figure  5.   Openness dimensions and their core difficulty metrics

    图  6   在COCO数据中存在许多未标注物体

    Figure  6.   There are many unannotated objects in COCO dataset

    图  7   在仿真环境中控制光照、纹理和位姿变化

    Figure  7.   Controlling lighting, texture, and pose variations in simulation environments

    图  8   仿真环境自带的多样化标注

    Figure  8.   Diverse annotations provided by the simulation environment

    表  1   变化迁移性指标的零样本物体检测实验结果

    Table  1   Experimental Results of Zero-shot Object Detection with Varying Transferability Metrics

    方法 {{M}}_{{\mathrm{tran}}} AP50s AP50u
    DPIF 0.30 51.5 2.7
    0.46 57.2 3.4
    0.57 52.6 4.5
    RRFS 0.30 53.5 1.6
    0.46 44.8 1.9
    0.57 49.9 3.9
    ZSDSCR 0.30 53.6 0.7
    0.46 44.8 1.2
    0.57 50.0 3.5
    下载: 导出CSV

    表  2   变化不均衡性指标的长尾物体检测实验结果

    Table  2   Experimental Results of Long-tailed Object Detection with Varying Imbalance Metrics

    方法 {{M}}_{{\mathrm{imb}}} AP AP50
    EQLV2 0.1 50.3 64.0
    0.5 30.8 39.5
    0.9 17.2 21.7
    Seesaw 0.1 51.2 64.9
    0.5 32.9 42.0
    0.9 17.6 22.1
    下载: 导出CSV

    表  3   变化迁移性指标的零样本物体检测实验结果

    Table  3   Experimental Results of Zero-shot Object Detection with Varying Transferability Metrics

    方法 {{M}}_{{\mathrm{tran}}} AP50s AP50u
    DPIF 0.25 44.4 0.8
    0.45 37.6 21.8
    0.67 32.3 38.3
    RRFS 0.25 70.3 0.3
    0.45 62.6 7.7
    0.67 59.4 19.4
    ZSDSCR 0.25 70.3 0.3
    0.45 62.6 6.6
    0.67 59.4 16.9
    下载: 导出CSV
  • [1]

    Hu Yihan, Yang Jiazhi, Chen Li, et al. Planning-oriented autonomous driving[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2023: 17853−17862

    [2]

    Zhou Kaiyang, Yang Yongxin, Cavallaro A, et al. Omni-scale feature learning for person re-identification[C]//Pro of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 3702−3712

    [3]

    Hu Qixin, Chen Yixiong, Xiao Junfei, et al. Label-free liver tumor segmentation[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2023: 7422−7432

    [4]

    Liu Haotian, Li Chunyuan, Li Yuheng, et al. Improved baselines with visual instruction tuning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2024: 26296−26306

    [5]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 5998−6008

    [6]

    Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2020: 1877−1901

    [7]

    Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248−255

    [8]

    Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2014: 740−755

    [9]

    Shao Shuai, Li Zeming, Zhang Tianyuan, et al. Objects365: A large-scale, high-quality dataset for object detection[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 8430−8439

    [10]

    Bendale A, Boult T. Towards open world recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1893−1902

    [11]

    Joseph K J, Khan S, Khan F, et al. Towards open world object detection[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 5830−5840

    [12]

    Bendale A, Boult T E. Towards open set deep networks[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1563−1572

    [13]

    Shu Lei, Xu Hu, Liu Bing. Doc: Deep open classification of text documents[J]. arXiv preprint, arXiv: 1709.08716, 2017

    [14]

    Yang Hongming, Zhang Xuyao, Yin Fei, et al. Convolutional prototype network for open set recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(5): 2358−2370

    [15]

    Zhang Hongjie, Li Ang, Guo Jie, et al. Hybrid models for open set recognition[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2020: 102−117

    [16]

    Geng Chuanxing, Chen Songcan. Collective decision for open set recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 192−204

    [17]

    Yoshihashi R, Shao Wen, Kawakami R, et al. Classification-reconstruction learning for open-set recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4016−4025

    [18]

    Hassen M, Chan P K. Learning a neural-network-based representation for open set recognition[J]. arXiv preprint, arXiv: 1802.04365, 2018

    [19]

    Sun Xin, Yang Zhenning, Zhang Chi, et al. Conditional Gaussian distribution learning for open set recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 13480−13489

    [20]

    Perera P, Morariu V I, Jain R, et al. Generative-discriminative feature representations for open-set recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 11814−11823

    [21]

    Ge Zongyuan, Demyanov S, Chen Zetao, et al. Generative openmax for multi-class open set classification[J]. arXiv preprint, arXiv: 1707.07418, 2017

    [22]

    Neal L, Olson M, Fern X, et al. Open set learning with counterfactual images[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2018: 613−628

    [23]

    Yu Yang, Qu Weiyang, Li Nan, et al.[J]. arXiv preprint, arXiv: 1705.08722, 2017

    [24]

    Ditria L, Meyer B J, Drummond T. Opengan: Open set generative adversarial networks[C]//Proc of the Asian Conf on Computer Vision. Cham: Springer, 2020: 474−492

    [25]

    Yu F X, Cao Liangliang, Feris R S, et al. Designing category-level attributes for discriminative visual recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 771−778

    [26]

    Peng Peixi, Tian Yonghong, Xiang Tao, et al. Joint learning of semantic and latent attributes[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2016: 336−353

    [27]

    Song Jie, Shen Chengchao, Lei Jie, et al. Selective zero-shot classification with augmented attributes[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2018: 468−483

    [28]

    Xian Yongqin, Lorenz T, Schiele B, et al. Feature generating networks for zero-shot learning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5542−5551

    [29]

    Xian Yongqin, Sharma S, Schiele B, et al. F-VAEGAN-D2: A feature generating framework for any-shot learning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 10275−10284

    [30]

    Gidaris S, Komodakis N. Generating classification weights with GNN denoising autoencoders for few-shot learning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 21−30

    [31]

    Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 4077−4087

    [32]

    Afrasiyabi A, Lalonde J F, Gagné C. Associative alignment for few-shot image classification[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2020: 18−35

    [33]

    Guan Jiechao, Lu Zhiwu, Xiang Tao, et al. Zero and few shot learning with semantic feature synthesis and competitive learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(7): 2510−2523

    [34]

    Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Int Conf on Machine Learning. New York: PMLR, 2017: 1126−1135

    [35]

    Ravi S, Larochelle H. Optimization as a model for few-shot learning[C]// Proc of Int Conf on Learning Representations. 2016[2024-05-12]. https://openreview.net/pdf?id=rJY0-Kcll

    [36]

    Kang Bingyi, Xie Saining, Rohrbach M, et al. Decoupling representation and classifier for long-tailed recognition[J]. arXiv preprint, arXiv: 1910.09217, 2019

    [37]

    Tan Jingru, Wang Changbao, Li Buyu, et al. Equalization loss for long-tailed object recognition[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 11662−11671

    [38]

    Kemker R, Kanan C. FearNet: Brain-inspired model for incremental learning[J]. arXiv preprint, arXiv: 1711.10563, 2017

    [39]

    Rusu A A, Rabinowitz N C, Desjardins G, et al. Progressive neural networks[J]. arXiv preprint, arXiv: 1606.04671, 2016

    [40]

    Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13): 3521−3526 doi: 10.1073/pnas.1611835114

    [41]

    Zenke F, Poole B, Ganguli S. Continual learning through synaptic intelligence[C]//Proc of Int Conf on Machine Learning. New York: PMLR, 2017: 3987−3995

    [42]

    Rebuffi S A, Kolesnikov A, Lampert C H. iCaRL: Incremental classifier and representation learning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5533−5542

    [43]

    Lopez-Paz D, Ranzato M. Gradient episodic memory for continual learning[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 6467−6476

    [44]

    Dhamija A, Gunther M, Ventura J, et al. The overlooked elephant of object detection: Open set[C]//Proc of the IEEE/CVF Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2020: 1021−1030

    [45]

    Miller D, Nicholson L, Dayoub F, et al. Dropout sampling for robust object detection in open-set conditions[C]// Proc of Int Conf on Robotics and Automation. Piscataway, NJ: IEEE, 2018: 3243−3249

    [46]

    Du Xuefeng, Wang Zhaoning, Cai Mu, et al. VOS: Learning what you don’t know by virtual outlier synthesis[J]. arXiv preprint, arXiv: 2202.01197, 2022

    [47]

    Rahman S, Khan S, Porikli F. Zero-shot object detection: Learning to simultaneously recognize and localize novel concepts[C]//Proc of the Asian Conf on Computer Vision. Cham: Springer, 2018: 547−563

    [48]

    Hayat N, Hayat M, Rahman S, et al. Synthesizing the unseen for zero-shot object detection[C]//Proc of the Asian Conf on Computer Vision. Cham: Springer, 2020: 155−170

    [49]

    Yan Xiaopeng, Chen Ziliang, Xu Anni, et al. Meta R-CNN: Towards general solver for instance-level low-shot learning[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 9577−9586

    [50]

    Wang Xin, Huang T E, Darrell T, et al. Frustratingly simple few-shot object detection[J]. arXiv preprint, arXiv: 2003.06957, 2020

    [51]

    Feng Chengjian, Zhong Yujie, Huang Weilin. Exploring classification equilibrium in long-tailed object detection[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 3417−3426

    [52]

    Li Yu, Wang Tao, Kang Bingyi, et al. Overcoming classifier imbalance for long-tail object detection with balanced group softmax[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 10991−11000

    [53]

    Joseph K J, Rajasegaran J, Khan S, et al. Incremental object detection via meta-learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(12): 9209−9216

    [54]

    Radford A, Kim W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the Int Conf on Machine Learning. New York: PMLR, 2021: 8748−8763

    [55]

    Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint, arXiv: 2304.02643, 2023

    [56]

    Lampert C H, Nickisch H, Harmeling S. Learning to detect unseen object classes by between-class attribute transfer[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 951−958

    [57]

    Wah C, Branson S, Welinder P, et al. The Caltech-UCSD Birds−200−2011 dataset[R]. Pasadena, CA: California Institute of Technology, 2011

    [58]

    Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 3630−3638

    [59]

    Ren Mengye, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint, arXiv: 1803.00676, 2018

    [60]

    Horn V G, Aodha O M, Song Yang, et al. The inaturalist species classification and detection dataset[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8769−8778

    [61]

    Everingham M, Van G L, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88: 303−338 doi: 10.1007/s11263-009-0275-4

    [62]

    Kolve E, Mottaghi R, Gordon D, et al. AI2-THOR: An interactive 3D environment for visual AI[J]. arXiv preprint, arXiv: 1712.05474, 2017

    [63]

    Wu Zhifan, Wei Tong, Jiang Jianwen, et al. NGC: A unified framework for learning with open-world noisy data[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 62−71

    [64]

    Wang Yisen, Liu Weiyang, Ma Xingjun, et al. Iterative learning with open-set noisy labels[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8688−8696

    [65]

    Tachet des Combes R, Zhao Han, Wang Yuxiang, et al. Domain adaptation with conditional distribution matching and generalized label shift[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2020, 33: 19276−19289

    [66]

    Zhang Yuchen, Liu Tianle, Long Mingsheng, et al. Bridging theory and algorithm for domain adaptation[C]//Proc of the Int Conf on Machine Learning. New York: PMLR, 2019: 7404−7413

    [67]

    Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779−788

    [68]

    Qin Zheng, Li Zeming, Zhang Zhaoning, et al. ThunderNet: Towards real-time generic object detection on mobile devices[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 6718−6727

    [69] 高菲,杨柳,李晖. 开放集识别研究综述[J]. 南京大学学报(自然科学版),2022,58(1):115−134

    Gao Fei, Yang Liu, Li Hui. A survey on open set recognition[J]. Journal of Nanjing University (Natural Sciences), 2022, 58(1): 115−134 (in Chinese)

    [70]

    Lampert C H, Nickisch H, Harmeling S, et al. Learning to detect unseen object classes by between-class attribute transfer[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 951−958

    [71]

    Bansal A, Sikka K, Sharma G, et al. Zero-shot object detection[C]//Proc of the European Conf on Computer Vision. Cham: Springer, 2018: 384−400

    [72]

    Sung F, Yang Yongxin, Zhang Li, et al. Learning to compare: Relation network for few-shot learning[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1199−1208

    [73]

    Kang Bingyi, Liu Zhuang, Wang Xin, et al. Few-shot object detection via feature reweighting[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 8420−8429

    [74]

    Liu Ziwei, Miao Zhongqi, Zhan Xiaohang, et al. Large-scale long-tailed recognition in an open world[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 2537−2546

    [75]

    Shmelkov K, Schmid C, Alahari K. Incremental learning of object detectors without catastrophic forgetting[C]//Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 3400−3409

    [76]

    Chang A X, Funkhouser T, Guibas L, et al. ShapeNet: An information-rich 3D model repository[J]. arXiv preprint, arXiv: 1512.03012, 2015

    [77]

    Li Yanan, Li Pengyang, Cui Han, et al. Inference fusion with associative semantics for unseen object detection[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2021: 1993−2001

    [78]

    Huang Peiliang, Han Junwei, Cheng De, et al. Robust region feature synthesizer for zero-shot object detection[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 7622−7631

    [79]

    Sarma S, Kumar S, Sur A. Resolving semantic confusions for improved zero-shot detection[C]//Proc of the British Machine Vision Conf. Durham: BMVA, 2023: 347−361

    [80]

    Tan Jingru, Lu Xin, Zhang Gang, et al. Equalization loss v2: A new gradient balance approach for long-tailed object detection[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 1685−1694

    [81]

    Wang Jiaqi, Zhang Wenwei, Zang Yuhang, et al. Seesaw loss for long-tailed instance segmentation[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 9695−9704

  • 期刊类型引用(0)

    其他类型引用(1)

图(8)  /  表(3)
计量
  • 文章访问数:  668
  • HTML全文浏览量:  125
  • PDF下载量:  320
  • 被引次数: 1
出版历程
  • 收稿日期:  2024-01-28
  • 修回日期:  2024-06-05
  • 网络出版日期:  2024-06-16
  • 刊出日期:  2024-08-31

目录

/

返回文章
返回