Processing math: 13%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

高性能自研处理器物理设计频率提升方法

何小威, 乐大珩, 郭维, 隋兵才, 邓全

何小威, 乐大珩, 郭维, 隋兵才, 邓全. 高性能自研处理器物理设计频率提升方法[J]. 计算机研究与发展, 2024, 61(6): 1429-1435. DOI: 10.7544/issn1000-1239.202330942
引用本文: 何小威, 乐大珩, 郭维, 隋兵才, 邓全. 高性能自研处理器物理设计频率提升方法[J]. 计算机研究与发展, 2024, 61(6): 1429-1435. DOI: 10.7544/issn1000-1239.202330942
He Xiaowei, Yue Daheng, Guo Wei, Sui Bingcai, Deng Quan. Promoting Frequency Method for Our Own High Performance Processor Physical Design[J]. Journal of Computer Research and Development, 2024, 61(6): 1429-1435. DOI: 10.7544/issn1000-1239.202330942
Citation: He Xiaowei, Yue Daheng, Guo Wei, Sui Bingcai, Deng Quan. Promoting Frequency Method for Our Own High Performance Processor Physical Design[J]. Journal of Computer Research and Development, 2024, 61(6): 1429-1435. DOI: 10.7544/issn1000-1239.202330942
何小威, 乐大珩, 郭维, 隋兵才, 邓全. 高性能自研处理器物理设计频率提升方法[J]. 计算机研究与发展, 2024, 61(6): 1429-1435. CSTR: 32373.14.issn1000-1239.202330942
引用本文: 何小威, 乐大珩, 郭维, 隋兵才, 邓全. 高性能自研处理器物理设计频率提升方法[J]. 计算机研究与发展, 2024, 61(6): 1429-1435. CSTR: 32373.14.issn1000-1239.202330942
He Xiaowei, Yue Daheng, Guo Wei, Sui Bingcai, Deng Quan. Promoting Frequency Method for Our Own High Performance Processor Physical Design[J]. Journal of Computer Research and Development, 2024, 61(6): 1429-1435. CSTR: 32373.14.issn1000-1239.202330942
Citation: He Xiaowei, Yue Daheng, Guo Wei, Sui Bingcai, Deng Quan. Promoting Frequency Method for Our Own High Performance Processor Physical Design[J]. Journal of Computer Research and Development, 2024, 61(6): 1429-1435. CSTR: 32373.14.issn1000-1239.202330942

高性能自研处理器物理设计频率提升方法

基金项目: 国防科技大学科研计划项目(ZK22-05);全军共用信息系统装备预研专用技术项目(31513010105)
详细信息
    作者简介:

    何小威: 1980年生. 博士,副研究员. CCF会员. 主要研究方向为数字/模拟集成电路物理设计、全定制电路设计

    乐大珩: 1980年生. 博士,副研究员. 主要研究方向为超大规模集成电路物理设计、高性能计算CPU设计

    郭维: 1986年生. 博士,助理研究员. 主要研究方向为集成电路、微处理器体系结构、加速器体系结构

    隋兵才: 1981年生. 博士,副研究员. 主要研究方向为微处理器体系结构

    邓全: 1989年生. 博士,助理研究员. 主要研究方向为存内计算、非易失性存储器

    通讯作者:

    郭维(wineer_guowei@nudt.edu.cn

  • 中图分类号: TN47

Promoting Frequency Method for Our Own High Performance Processor Physical Design

Funds: This work was supported by the Scientific Research Project of National University of Defense Technology (ZK22-05) and the Specific Technology of Advanced Research for Military Information System Equipments (31513010105).
More Information
    Author Bio:

    He Xiaowei: born in 1980. PhD, associate research fellow. Member of CCF. His main research interests include physical design of digital and analog integrated circuits, and full custom design of circuits

    Yue Daheng: born in 1980. PhD, associate research fellow. His main research interests include physical design of VLSI and high performance computing CPU design

    Guo Wei: born in 1986. PhD, assistant research fellow. His main research interests include integrated circuit, microprocessor architecture, and accelerator architecture

    Sui Bingcai: born in 1981. PhD, associate research fellow. His main research interest includes microprocessor architecture

    Deng Quan: born in 1989. PhD, assistant research fellow. His main research interests include processing in memory and non-volatile memory

  • 摘要:

    提升处理器核的频率是提升处理器性能的重要手段. 传统的物理设计流程难以实现高主频的处理器核. 基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略. 在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%.

    Abstract:

    Promoting core’s frequency is the key method for increasing performance of processor. It is hard to achieve high frequency for processor core by traditional physical design flow. Based on main place and route tools, with the same process, comparable implementation area and power consumption, our own processor core frequency can be promoted by about 30% compared with original design at signoff stage, by employing manually written block netlist, logic and physical design co-optimization, custom routing rule optimization and physical design methodology adjustment.

  • 行人重识别研究的目标是如何从多个摄像机视角下匹配同一个行人,该技术的研究对智能视频监控和图像检索、刑事侦查等公共安全方面有着重大意义.但是光照条件、行人姿势、背景环境等因素都会导致同一个行人在不同视角下可能有较大的差异,同时还存在行人被遮挡或者图片模糊的情况,所以目前行人重识别仍然是一个具有挑战性且热门的研究课题.近几年有诸多研究者尝试使用深度学习的方法[1-4]来解决此问题,并取得了极大的进展.但是这些方法的性能通常受限于2个方面:一是依赖大量的数据标注,比如研究者们常用的Market1501数据集[5]包括了1501个行人的32668张图片,对这些图片进行标注是费时费力的;二是泛化能力有限,当把训练好的模型应用到另一个数据集上进行测试时性能急剧下降,比如文献[6]提出的BoT(bag of tricks)模型在Market1501数据集上训练之后测试的Rank-1是94.5%,如果在DuekMTMC-ReID[7]数据集上进行测试,Rank-1下降到41.4%.这些方法需要有标签数据集作为监督信息来优化模型,所以也称为有监督行人重识别方法.而无监督行人重识别无需数据集标注行人的编号信息,能以较低的成本对新场景进行数据采集和训练,能有效避免泛化能力有限的问题,因此研究基于无监督模式的重识别算法是有重大意义的.本文提出了一个新的框架为无标注的行人重识别数据集构造可靠的伪标签,再结合有监督方法进行训练,最终得到一个鲁棒的行人重识别模型,并在Market1501和DukeMTMC-reID数据集上测试,同时与相关方法进行比较,实验结果验证了本文算法的有效性和优越性.

    本文的主要贡献包括3个方面:

    1)提出了一个鲁棒的伪标签生成框架,首先依据图片样本的摄像头编号把数据集分成若干个域,依次构造摄像头域内的局部伪标签和域间的全局伪标签.

    2)使用最大团算法作为强约束对摄像头域内的样本进行聚类,相比于常用的聚类方法不仅聚类时间更短,而且有更优的聚类结果.

    3)将本文方法在2个大规模公开数据集Market1501和DukeMTMC-ReID上进行了实验,同时与现有的无监督行人重识别方法进行比较,实验结果表明,本文提出的方法性能是最佳的.

    基于大量标注数据和深度学习的有监督行人重识别方法已经取得了极大的进展,比如MGN[1],PCB[2],AignedReID[3]等方法,它们通过结合行人图片的全局特征和局部特征,或者使用特征对齐的方式重组特征描述向量,使用三元组损失和交叉熵损失优化网络参数,最终MGN在Market1501数据集上的Rank-1达到了95.7%.文献[6]研究了行人重识别模型构建和训练过程中的一些技巧,比如随机擦除、标签平滑、预热学习率和损失函数等,并提出了一个仅使用全局特征且网络结构简单的模型BoT,该模型在Market1501数据集上的Rank-1是94.5%,仅比结构复杂的MGN低1.2%.因此本文使用BoT作为基础模型,用于提取无标签数据集的特征和训练伪标签数据集.

    传统的无监督行人重识别方法尝试设计手工特征[8]、发掘显著性信息[9]等方式利用无标签数据集.这些算法可能在特定的数据集上表现良好,但并不适合处理复杂的真实场景,不具备通用性.还有一些基于深度学习的方法,比如BUC[10]设计了一个通过发掘行人之间相似性的聚类合并方法来产生伪标签,但是数据集中的样本数目较大,聚类过程十分耗时,而且难以确定聚类中心个数. 文献[11]提出把样本之间的相似性作为软限制构造软伪标签,起始阶段把每个样本当成一个类别,最终训练软伪标签数据集.显而易见,构造的伪标签越接近真实标签,训练出来的模型效果也就越好.与BUC构造硬标签类似,本文通过使用更强的约束范式来生成更可靠的伪标签,从而取得了更好的结果.

    无监督域自适应算法是无监督算法的一种,和BUC等算法相比,无监督域自适应算法要求有一个已知标签的数据集作为辅助域,通过迁移学习或者缩小辅助域和目标域之间的差异,从而在无标签的目标域上获得较好的结果.文献[12]通过把辅助域和目标域的特征映射到同一个特征空间中来解决辅助域和目标域的特征差异;CORAL[13]尝试对齐2个域的特征分布的均值和方差;SSG[14]提出一个挖掘无标签样本潜在相似性的自相似分组方法,进而构造伪标签.在辅助域的帮助下,文献[1214]方法的表现优于没有辅助域的无监督方法,但是其性能会受到辅助域和目标域的差异程度的影响.

    摄像头内监督(intra-camera supervision,ICS)假设已知每个摄像头拍摄的行人图片的标签是已知的,但这些标签是独立的,即各个摄像头之间的图片标签没有关联,ICS场景下的行人重识别是半监督学习问题.这样的标签在真实场景中能以较低的代价获取,比如使用目标跟踪方法来获取一个摄像头拍摄到的行人图片,并认为相邻帧内的行人是同一个行人. 现有的ICS模型通过摄像头内学习和摄像头间学习来解决这个问题,比如MATE[15]使用多分支网络来分别学习对应各个摄像头域的模型参数.ACAN[16]使用多摄像头对抗学习把不同摄像头拍摄到的图片映射到一个公共空间.文献[1516]方法的效果优于无监督方法,但是和经典的有监督方法相比仍有较大的差距. 本文提出的方法借鉴了ICS模型,首先通过摄像头编号把训练集分成各个摄像头域,分别在每个摄像头域内构造伪标签,因此把无监督行人重识别问题转化为ICS问题;其次考虑到ICS模型已知的摄像头域内标签是真实标签,而本文的伪标签和真值存在差异,若直接使用ICS模型,效果不如ICS方法,所以我们通过计算不同摄像头域之间样本的相似度来构造全局标签,然后使用BoT进行训练.

    部分半监督行人重识别方法假设仅有少部分的样本是有标签的,比如文献[17]假设每个行人仅有一个样本是有标注的,通过预测其他样本的标签,然后用这些伪标签数据来更新模型,迭代地预测标签和更新模型,最终得到一个鲁棒的模型. 文献[18]假设数据集中的一部分标签是已知的,比如Market1501数据集中有1/5的样本是已经标注的,最终能取得75.2%的Rank-1和53.2%的mAP;如果已标注数据达到了1/3,那么Rank-1和mAP将分别提升到83.9%和65.6%.本文对此实验进行了简化和扩展:一是直接使用基础模型对有标签的这部分数据集进行训练;二是测试了更多不同比例的有标签样本基础模型的表现.结果如图1所示,从图1可以看出,随着样本比例的增加,Rank-1性能和mAP性能逐渐增加,并在后期趋于平稳,尤其是在样本比例比较少的情况下,增幅更明显.受图1实验结果的启发,本文通过逐步生成更多可靠的伪标签数据来获得性能的稳步提升.

    图  1  在Market1501数据集上的标签样本实验结果
    Figure  1.  Experimental results on Market1501 with labeled samples

    本节主要介绍基于摄像头域内域间融合的伪标签生成算法,这是本文所提的无监督行人重识别算法框架的核心部分.

    首先给出本文要解决问题的形式化描述.本文的无监督行人重识别的设定是:已知数据集为X={X1,X2,,XNc},这里的Nc表示摄像头的个数,Xi表示摄像头i捕捉到的行人图片.目标是重新建立X中的样本图片关系,即同一个行人的图片应该归为一类,用公式描述为X={P1,P2,,PNn},这里的Nn表示整个数据集中的行人个数,Pi表示行人i的所有图片.在实际情况中,因为行人个数是未知的,所以很难完成从XX的转换.我们的目标是使生成的伪标签尽可能接近真实标签,同时让基础模型在生成的伪标签数据集上能有较好的表现.

    本文使用BoT作为基础模型,表示为H(θ),用于提取图片特征{\boldsymbol{F}} = H(X;\theta ),算法的最终目标是学习到合适的参数\theta 使得基础模型在测试集上有较好的表现.

    本文提出的算法框架如图2所示,这是一个迭代的算法.首先无标签的数据集通过基础模型提取特征,然后分别经过摄像头域内合并、域间合并以及样本召回3个步骤得到伪标签,最后使用基础模型对伪标签数据集进行训练,这是一次迭代过程.下一次迭代过程使用上一次迭代时训练得到的模型参数提取特征,然后重复生成伪标签和训练的步骤.在每轮迭代开始前,需要对数据集进行处理.为了避免摄像头间因背景不同、摄像头参数不同、拍摄角度不同等因素带来的影响,把数据集依据摄像头编号分成若干个域,对每个域中的样本图片{X_p}提取特征 {{\boldsymbol{f}}_{p,i}} \in {\mathbb{R}^d} ,其中 {{\boldsymbol{f}}_{p,i}} 表示摄像头p拍摄到的图片i经过基础模型的骨干网络提取得到的特征,并且经过了L2正则化.

    图  2  本文算法框架
    Figure  2.  The proposed algorithm framework

    摄像头域内合并算法分别对每个摄像头域进行操作,可以分为预合并、基于最大团的合并算法和样本清洗这3个步骤,最终得到各个摄像头域内伪标签.

    1)预合并.如图3所示,一些图片行人看起来很相似,它们很可能是同一个行人,比如摄像头拍摄到的视频中相邻两帧的行人图片.这种视觉上看起来很相似的图片,通过基础模型提取的特征也是相似的,所以可以使用样本特征计算样本之间的相似度,进而预先合并视觉上相似的图片.具体做法是:使用特征{{\boldsymbol{f}}_p}计算各样本之间的欧氏距离{d_1},设定阈值{t_1},若2个样本之间的距离小于{t_1},那就认为它们足够相似,可以预先合并.如图4 (a)表示某个摄像头域内预合并前的样本,合并后的样本被当成整体组成一个新样本,如图4 (b)所示,其特征由它包含的所有样本特征的平均值表示.为简单起见,摄像头域p下的图片特征仍记作{{\boldsymbol{f}}_p}.

    图  3  Market1501数据集中由同一个摄像头拍摄到的样本图片
    Figure  3.  Some samples captured by the same camera in Market1501
    图  4  某摄像头域内合并时的部分样本
    Figure  4.  Partial samples for intra-camera merger procedure

    2)基于最大团的合并算法.预合并操作之后,建立图模型.把每个样本当成图中的一个结点,然后计算各个样本之间的欧氏距离{d_2},并设定阈值{t_2},若2个结点之间的距离小于{t_2},则在它们之间连接一条无向边.这样,摄像头域内的样本,可以看作是一个巨大的无向图,这个无向图由很多个小的无向图组成,每个小的无向图都是连通图,如图4 (c)所示.对于每个小的无向图而言,它表示的物理意义是:若2个结点有边相连,则这2个结点对应的样本在一定程度上是相似的,但不能直接认定为属于同一个行人.考虑到最大团是一个图中的子图,并且这个子图中的所有结点两两相连,因此可以使用最大团作为强约束在每个小的无向图中找到可能表示同一个行人的样本.

    一个需要注意的细节是,寻找最大团是一个NP难题,最大团算法耗时随着无向图中结点个数的增加而急剧增加,所以当小无向图中的结点个数过多时,最大团算法执行缓慢.鉴于实际数据集中,每个摄像头拍摄到的同一行人图片数量较少,因此可以限制小无向图的结点个数.如果某个小无向图的结点个数超出限制,那么我们使用更小的阈值来确定是否连接2个结点.如果结点个数仍然超出限制,那就继续减小阈值,直到满足要求.另一方面,如果小无向图中的结点个数太少,比如只有2或者3个结点,此时没必要使用最大团算法进行求解.我们使用一种简单可靠的方法:如果2个或者3个结点之间的平均距离小于更小的阈值,比如0.75{t_2},那就认为它们等价于1个最大团.最终的合并结果如图4(d)所示.

    3)样本清洗.经过前2步合并操作之后,各摄像头域内表示同一个行人的样本被合并在同一个集合内,但可能存在不完整的合并,如图4(d)所示,存在3个圆形结点,即同一个行人分别被分在了3个集合中,这会给后面的训练过程带来标签噪声,影响模型效果.因此,本文方法通过丢弃一部分集合来减少这种不完整的合并.具体做法是,使用式(1)计算每个集合的团内相似度:

    si{m_i} = \frac{1}{{{N_{p,i}}}}\sum\limits_{k \in {S_i}} {{{\boldsymbol{f}}_{p,k}} \cdot {\boldsymbol{f}}_{p,k}^{\text{T}}} , (1)

    式(1)中,N_{p,i} 表示摄像头p内的第i个样本集合对应的样本个数,{\boldsymbol{f}}_{p,k}表示该集合中的第k个样本特征,T表示矩阵的转置.丢弃团内相似度最小的一部分集合,是因为若给这些集合里的样本分配伪标签,可能会有较多的错误,因此暂且丢弃这些样本,清洗后的结果如图5所示.

    图  5  样本清洗后的结果
    Figure  5.  The result after sample cleaning

    摄像头域内合并之后,除了暂时无法分配标签的样本,其他样本都被赋予了摄像头内部的独立标签,这和ICS问题的设定一致.但我们并不直接使用ICS方法,因为ICS问题中各个摄像头域内的标签是真实标签,若直接使用上述生成的伪标签,则性能会低于ICS方法.这里本文进一步构造全局伪标签,给不同摄像头域内表示同一个行人的样本图片分配相同的标签,然后结合现有的有监督模型进行训练.

    图6所示,Market1501数据集中的4个样本分别是摄像头2下的行人2(图6(a))和行人22(图6(b))以及摄像头5下的行人2(图6(c))和行人22(图6(d)).由神经网络提取得到的样本1和样本3的特征的相似程度高于样本1和样本4的,因为样本1和样本3的前景(行人)是相似的,而样本1和样本4的背景和前景都不同.基于这个前提假设,本算法合并来自不同摄像头的集合.首先通过式(2)计算来自摄像头域pq的2个集合ij的域间团的相似度:

    图  6  行人2和22在摄像头2和5下的样本
    Figure  6.  Samples of person 2 and 22 under camera 2 and 5.
    si{m_{i,j}} = \dfrac{{\exp ({{\boldsymbol{f}}_i} \cdot {\boldsymbol{f}}_j^{\text{T}}/\tau )}}{{ \displaystyle\sum\limits_{k = 1}^{{N_q}} \exp ({{\boldsymbol{f}}_i} \cdot {\boldsymbol{f}}_k^{\text{T}}/\tau )}},i \in [1,{N_p}],j \in [1,{N_1}] , \tau=0.05 (2)

    其中{N_p},{N_q}分别表示摄像头pq经过域内合并后的集合个数,\tau 是一个超参数.如果si{m_{i,j}}si{m_{j,i}}同时大于设定的阈值{\eta_1},那么就合并集合ij,赋予它们相同的伪标签.

    经过域间合并操作,无标签样本被分配了全局的伪标签,原数据集可表示为{X^*} = \{ {X_1},{X_2}, \cdots ,{X_{{N_n}}}\}.这里的{N_n}表示合并后的集合个数,也就是行人个数.

    在摄像头域内合并操作中,有一部分样本暂时无法分配合适的标签,所以这些样本被弃用.为了最大程度利用无标签样本,本文使用样本召回操作给之前弃用的样本重新分配标签.本文使用无参分类器[19]计算样本i应该分配标签k的概率pro{b_{i,k}}.令k = \arg \; \max (pro{b_i}), 若pro{b_{i,k}}大于给定阈值{\eta_2},则给样本i分配标签k;否则样本i被弃用.

    本文采用BoT对生成的伪标签数据集进行训练,得到模型参数\theta .在下一轮迭代开始前,使用{\boldsymbol{F}} = H(X;\theta )提取特征,然后开始新一轮的迭代.更多的细节在3.2节详述.

    本文主要在Market1501和DukeMTMC-ReID这2个大规模行人重识别数据集上进行实验,鲁棒性实验和参数分析使用了MSMT17数据集[20]. Market1501数据集由6个摄像头采集的图片组成,包括751个行人的12936张图片作为训练集,750个行人的19732张图片作为测试集;DukeMTMC-ReID数据集由8个摄像头进行采集,训练集包括1404个行人的16522张图片.各个摄像头捕捉到的行人个数和图片张数如表1所示.

    表  1  Market1501和DukeMTMC-ReID数据集中各个摄像头下的行人个数和图片张数
    Table  1.  Person Numbers and Image Numbers Under Each Camera in Market1501 and DukeMTMC-ReID
    摄像头编号Market1501DukeMTMC-ReID
    行人个数图片张数行人个数图片张数
    165220174042809
    254117093783009
    369427072011088
    42419201651395
    557623382181685
    655832453483700
    72171330
    82651506
    下载: 导出CSV 
    | 显示表格

    MSMT17数据集一共有15个摄像头采集到的126441张图片,其中训练集有32621张图片.本文使用此数据集分析部分参数对实验结果的影响.

    本文采用累计匹配特征曲线(CMC)以及平均查准率(mAP)作为评价指标,累计匹配特征曲线衡量的是查询图片出现在匹配结果列表中的概率,但是在实际中往往只考虑是否在前1个或前5个结果中匹配成功,本文关注前1个匹配成功的概率即Rank-1.

    本文使用BoT这一有监督算法作为基础模型,除训练轮次,其他超参数设置以及训练方式和原算法保持一致. 在第1次迭代开始前,使用在ImageNet[21]预训练的参数\theta 提取无标签数据集的图片特征;之后的迭代使用基础模型在生成的伪标签数据集上训练得到的模型参数\theta 提取无标签数据集的图片特征.关于训练轮次的设置,在迭代初期,由于生成的伪标签样本数据量较小,所以训练轮次应该设置较小,以避免过拟合,本文设置第1次迭代时训练轮次为20;此后训练轮次固定为60.

    本文使用的主要硬件资源为Intel® CoreTM i7-7800X CPU和NVIDIA Titan Xp(12 GB显存);软件环境为Python3.7,PyTorch1.6,Scikit-Learn0.24.2.

    目前基于深度学习的无监督行人重识别方法较少,无监督域自适应方法和半监督方法有时也被当作无监督方法,但它们的难度是低于无监督方法的.为了展示本文方法的优越性,本文比较了3个无监督方法:BOW [5],BUC[10],SSL[11];4个无监督域自适应方法:MAR[22],MMT[23],ECN[24],SSG[14];2个ICS方法:MATE[15],UGA[25].

    图7所示,Market1501和DukeMTMC-ReID随着迭代轮次逐渐增加,样本比例模型性能也随着迭代轮次逐步提升.在迭代初期,Rank-1和mAP的性能迅速增长,然后缓慢持续增长直至稳定.2个数据集都是经过15轮次迭代后性能达到最大稳定状态,在Market1501数据集的Rank-1和mAP分别是89%和74.9%,经过重排序[26]操作,Rank-1和mAP分别达到90.5%和86.1%;在DukeMTMC-ReID数据集上Rank-1和mAP分别是76.9%和61.9%,重排序之后分别是79.1%和72.1%.

    图  7  本文方法在Market1501和DukeMTMC-ReID数据集上的性能
    Figure  7.  The performance of our proposed method on Market1501 and DukeMTMC-ReID

    图7所示曲线中,随着迭代轮次的增加,赋予伪标签的样本占原总样本的比例逐渐增加,Rank-1和mAP也同步增加,这一结果与图1中小样本实验的结果相吻合,这表明本文所提框架生成的标签训练效果接近真实标签,也即所生成的伪标签是可靠的. 为了直观地展示伪标签和真实标签的相似程度,在Market1501数据集中随机选择64个行人,使用第14轮次迭代得到的基础模型参数提取样本特征,然后用t-SNE对特征进行降维,可视化结果如图8所示,不同的颜色表示不同的标签,可以看出绝大多数样本类内距离较小,类间界限明显,聚类结果较好.

    图  8  Market1501数据集中随机选择的64个样本的可视化图
    Figure  8.  Visualization of 64 randomly selected samples in Market1501.

    表2表3是本文方法和9种当前方法比较的结果.BOW在Market1501和DukeMTMC-ReID 2个数据集上的Rank-1和mAP值都比较低;BUC是用自底向上逐步聚类的方法构造伪标签,和本文方法思路相近,但本文在Market1501和DukeMTMC-ReID 2个数据集上的Rank-1分别提升了22.8%和29.5%;SSL使用软伪标签作为监督信息训练模型,相比于BUC有了较大的提升,但依然没有超过本文方法.通过和当前无监督方法的比较,表明了本文构造的伪标签对于无监督行人重识别是可靠的.

    表  2  本文方法和当前方法在Market1501数据集上的比较
    Table  2.  Comparison of Our Proposed Method and the State-of-The-Art Methods on Market1501
    方法类别Rank-1/%mAP/%
    BOW无监督35.814.8
    BUC无监督66.238.3
    SSL无监督71.737.8
    MAR域自适应67.740.0
    MMT域自适应87.771.2
    ECN域自适应75.143.0
    SSG域自适应86.268.7
    MATEICS85.365.2
    UGAICS63.741.2
    本文方法无监督89.074.9
    注:黑体数字表示最优结果
    下载: 导出CSV 
    | 显示表格
    表  3  本文方法和当前方法在DukeMTMC-ReID数据集上的比较
    Table  3.  Comparison of Our Proposed Method and the State-of-The-Art Methods on DukeMTMC-ReID
    方法类别Rank-1/%mAP/%
    BOW无监督17.18.3
    BUC无监督47.427.5
    SSL无监督52.528.6
    MAR域自适应67.148.0
    MMT域自适应78.065.1
    ECN域自适应63.340.4
    SSG域自适应76.060.3
    MATEICS71.750.7
    UGAICS75.053.3
    本文方法无监督76.961.9
    注:黑体数字表示最优结果
    下载: 导出CSV 
    | 显示表格

    无监督域自适应算法以一个有标签的数据集作为辅助域,希望在无标签的目标数据集上能有较好的表现.因为其难度低于无监督的方式,所以无监督自适应算法效果普遍强于无监督方法,比如MMT在DukeMTMC-ReID数据集上表现最佳,本文方法结果位居第二,两者Rank-1相差1.1%.

    摄像头内监督行人重识别(ICS)是目前流行的半监督行人重识别问题,但是MATE和UGA的效果不如本文方法.这表明和半监督方法相比,本文所提出的方法仍有很强的竞争力.

    在摄像头域内域间合并以及样本召回的过程中需要设定一些阈值或者参数,比如每个小无向图的最大结点个数、预合并的距离阈值等.各个参数对伪标签质量影响的分析为:

    1)预合并时的距离阈值{t_1}. 预合并通过提前把视觉上几乎没有差异的样本归为一类形成新样本来减少后续相似样本的个数,进而减少无向图中的结点个数,加速最大团算法的求解.然而为每个摄像头域确定一个合适的具体值作为阈值比较困难,通过分析,每个摄像头域内都存在这样一部分样本,它们来自相邻帧的同一个行人,它们之间的距离应该是小于和其他样本对的,这表示在每个摄像头域内,距离最小的那部分样本对应该被合并.因此首先把各个摄像头域内样本间的距离从小到大排序,选择距离最小的前{r_1}百分比的样本对进行合并,这样能针对不同的摄像头使用不同的距离阈值,进而得到较好的合并结果.因此在实验中,不直接设置{t_1}的值,而是通过设置{r_1}计算得到.在实验中,对于2个数据集{r_1}值均设置为0.1.可以预见,在大规模数据集中这类可以预先合并的样本更多,因此应该设置更大的阈值.

    2)基于最大团的合并算法中建立图模型的距离阈值{t_2}. {t_2}类似{t_1},但它用于衡量2个样本是否在一定程度上可以合并.为了把更多可能表示同一个行人的样本包括在同一个无向图中,{t_2}值的设置应该稍大一些.如图9所示,分别设置{r_2}为0.05,0.1,0.15,0.2,0.3,0.5,1.0等数值迭代15轮.当{r_2}值在0.05~0.3时,Rank-1先增加后减小,随着{r_2}值的继续增大,Rank-1略微增加,但可以视为实验误差而被认为基本不变,因此在本实验中r_2 值设置为0.2,和{t_1}一样,使用{r_2}计算得到{t_2}.

    图  9  r_2 对Market1501数据集性能的影响
    Figure  9.  The effects of r_2 on the performance of Market1501

    3)无向图的最大结点个数.同一个无向图中的结点表示对应的样本可能是同一个行人,为了避免遗漏潜在样本,本不应该限制结点个数,但由于求解最大团是NP难题,若结点过多,则算法求解费时甚至无法求解.考虑到已经预先合并了相似样本,以及最大团算法的运行效率,本文设置结点个数最大为50,若数据集中同一个摄像头拍摄到的行人图片较多,结点个数应和预合并阈值一样应设置更大一些.如图10所示,在MSMT17数据集上的实验结果表明了这样调整参数是有效的.

    图  10  本文方法在MSMT17数据集上的性能
    Figure  10.  The performance of our proposed method on MSMT17

    4)摄像头域内合并算法中清洗标签丢弃的集合个数. 鉴于存在同一个行人在同一个摄像头下也可能差异较大的情况,以及算法的误差带来的影响,经过摄像头内合并后得到的团可能存在重复的情况,我们丢弃掉一部分不可靠的团,并在后续的算法中重新召回这些样本.本文尝试不同的清洗比例,实验结果如图11所示,随着清洗比例的增加,Rank-1先增加后降低,在不清洗时Rank-1仅有82.9%;清洗比例为5%,10%,20%时Rank-1都在86%以上;而清洗比例太高时,如30%则Rank-1降为84.6%.由此结果,本文设定清洗比例为15%,即只保留团内相似度最大的前85%的团.

    图  11  清洗比例对Market1501数据集性能的影响
    Figure  11.  The effects of clean ratios on the performance of Market1501

    5)摄像头域间合并的阈值{\eta_1}. 各个摄像头域内的样本通过计算域间团的相似度进行合并,我们认为,在迭代初期各个摄像头域间样本的特征差异较大,此阈值应该设置较小;随着算法迭代,提取得到的特征逐渐可靠,使用更严格的约束限制合并,所以阈值应该设置较大.在实验中前13轮次的迭代\eta_1= 0.7,之后的迭代中\eta_1= 0.85.

    6)样本召回的阈值{\eta_2}. 在摄像头域内合并算法中,有一部分样本暂时无法分配合适的伪标签被临时弃用,但在摄像头域间合并结束后可以通过无参分类器对这些样本进行分类,若属于某个类别的概率较大,那就分配对应的伪标签参与到最终的训练中. 在本实验中{\eta_2}设置为0.35.

    本文使用最大团算法作为强约束进行摄像头域内合并,为了验证是否优于传统的聚类算法,本文以KMeans聚类算法为例进行实验和分析.具体的实验设置为:当实验数据集是Market1501时,使用在DukeMTMC-ReID数据集上预训练的模型参数提取特征;然后分别使用摄像头域内合并算法和KMeans聚类算法生成摄像头域内的伪标签,在使用KMeans算法进行聚类时,聚类中心个数设置为各摄像头内真实的行人个数;紧接着使用摄像头域间合并算法和样本召回构造全局伪标签;最后使用BoT进行训练,结果如表4所示:

    表  4  本文方法和基于聚类的方法的比较
    Table  4.  Comparison of Our Proposed Method and the Clustering-Based Method
    数据集方法Rank-1 /%mAP /%运行时间 /s
    Market1501聚类方法5434.1630
    本文方法60.738.11.8
    DukeMTMC-ReID聚类方法46.736.0513
    本文方法53.439.22.9
    下载: 导出CSV 
    | 显示表格

    在2个数据集上,本文基于最大团的摄像头域内合并算法的表现均优于KMeans聚类算法.此外,基于最大团的域内合并算法的用时远低于聚类算法,两者相差上百倍,本文所提算法具有明显的优势.如表1所示,Market1501数据集中有6个摄像头,但是每个摄像头内的行人个数都比较多,所以聚类算法在Market1501数据集上更费时,而本文提出的算法受此影响较小,可用于更大规模的数据集.

    本文所提出的方法用于解决无监督行人重识别中的标签缺失问题,以插件的形式结合有监督方法起作用.2个实验表明本文方法具备通用性:1)在MSMT17数据集上的实验结果意味着本文方法可以在更大规模的数据集上正常工作;2)以TransReId [27]作为基准模型也能取得不错的结果,表示本文方法能适配基于Transformer模型的新型有监督行人重识别方法.2个实验的详细描述为:

    1)在MSMT17数据集上的实验使用在3.4节中设置的参数迭代20次,本文方法在MSMT17数据集上的Rank-1是47.9%,mAP是25.5%,每一次迭代的结果如图11中实线所示.当按照各参数对实验结果的影响分析调整参数后,其结果如图11中虚线所示,Rank-1达到了52.3%,而mAP达到了27.2%.和相关当前方法的比较如表5所示,本文方法在更困难的MSMT17数据集上效果优于大部分域自适应方法或者其他半监督方法.

    表  5  本文方法和当前方法在MSMT17数据集上的比较
    Table  5.  Comparison of Our Proposed Methods and the State-of-The-Art Methods on MSMT17
    方法类别Rank-1 /%mAP /%
    MMT域自适应58.829.7
    ECN域自适应30.210.2
    SSG++域自适应41.619.3
    UGAICS49.521.7
    本文方法1无监督47.925.5
    本文方法2无监督52.327.2
    注:本文方法1使用在3.4节设置的参数,本文方法2使用在3.6节设置的参数.
    下载: 导出CSV 
    | 显示表格

    2)本文所提出的伪标签生成框架可适用于基于Transformer模型的有监督行人重识别算法,本文以TransReID作为基础模型取代原本使用的BoT进行实验,其结果如图12所示,可以看出Rank-1和mAP在前5轮迭代中快速增加,在之后的轮次里缓慢增加直至Rank-1达到87.4%,mAP达到72.9%,虽然TransReID模型低于BoT模型的结果,但仍然超出大部分当前方法.

    图  12  TransReID模型在Market1501数据集上的表现
    Figure  12.  The performance of TransReID on Market1501

    3.6节2个实验结果表明,本文所提出的伪标签生成框架可以作为一个插件使现有的有监督模型可以处理大规模的无监督行人重识别数据集.

    当前基于深度学习的行人重识别方法通常需要标注数据集,但对大量数据进行标注十分消耗人力物力.本文提出了一个框架用于生成伪标签数据集,然后使用有监督模型进行训练,实验结果证明了所提出方法的有效性.我们通过把无标签数据集依据摄像头编号分成若干个域,对每个域内的图片使用最大团算法作为强约束进行聚类,使得每个域内相似的图片被赋予同样的伪标签;然后通过计算域间团的相似度合并不同域的样本,进而构造全局伪标签.通过若干个实验,证明本文方法构造的伪标签优于基于聚类的方法,并且有更少的时间消耗,提升了无监督行人重识别的性能.

    作者贡献声明:陈利文和叶锋提出研究思路和算法框架;黄添强和黄丽清负责设计实验以验证算法的有效性;陈利文、翁彬和胡杰共同编写代码进行实验测试;陈利文和徐超完成论文撰写工作.

  • 图  1   自研处理器核布局

    Figure  1.   Floorplan of our own processor core

    图  2   RF综合网表物理设计布局图

    Figure  2.   Floorplan of physical design for RF synthesis netlist

    图  3   RF手工网表物理设计布局图

    Figure  3.   Floorplan of physical design for RF manual netlist

    图  4   逻辑物理协同优化下的SRAM位置调整

    Figure  4.   SRAM location adjustment by logic and physical co-optimization

    图  5   重新排布轨道后的绕线

    Figure  5.   Routing after re-assigned tracks

    图  6   带NDR和不带NDR时关键数据路径延时比较

    Figure  6.   Comparison of critical data path delay with NDR and without NDR

    图  7   静态IR-drop结果

    Figure  7.   Static IR-drop result

    图  8   动态IR-drop结果

    Figure  8.   Dynamic IR-drop result

    表  1   RF综合网表和RF手工网表的物理实现结果

    Table  1   Physical Implementation Results of RF Synthesis Netlist and RF Manual Netlist

    密度/% 时序 单元
    数目
    in2reg/ns reg2out/ns reg2reg/ns
    RF综合网表 75 − 0.171 − 0.074 0 44218
    RF手工网表 60 − 0.125 − 0.049 0 33188
    下载: 导出CSV

    表  2   RF定制网表和RF综合网表自研核的物理实现结果

    Table  2   Physical Implementation Results of Our Own Cores of RF Custom Netlist and RF Synthesis Netlist

    面积/
    mm2
    密度/
    %
    reg2reg/
    ns
    reg2reg
    违反条数
    单元
    数目
    定制RF网表 6.25 54.6 − 0.026 635 3863485
    综合RF网表 6.25 53.3 − 0.009 360 3834328
    下载: 导出CSV

    表  3   使用NDR和不使用NDR自研核的时序优化比较

    Table  3   Timing Optimization Comparison of Our Own Core Used with NDR and Without NDR

    面积/
    mm2
    密度/
    %
    reg2reg/
    ns
    reg2reg
    违反条数
    DRC
    数量
    不使用NDR 6.25 53.4 − 0.118 654 56
    使用NDR 6.25 53.3 − 0.021 125 62
    下载: 导出CSV

    表  4   useful skew不开启时布局布线的setup时序

    Table  4   setup Timing of Place and Route Without useful skew ns

    setup reg2reg in2reg reg2out
    典型端角 WNS:− 0.119
    TNS:− 29.345
    WNS:− 0.051
    TNS:− 15.312
    WNS:− 0.042
    TNS:− 10.215
    慢速端角 WNS: − 0.123
    TNS: − 28.198
    WNS:− 0.038
    TNS:− 13.115
    WNS:− 0.045
    TNS:− 10.221
    下载: 导出CSV

    表  5   useful skew开启为极限时布局布线的setup时序

    Table  5   setup Timing of Place and Route with Extreme useful skew ns

    setup reg2reg in2reg reg2out
    典型端角 WNS:− 0.021
    TNS:− 0.372
    WNS:− 0.055
    TNS:− 15.977
    WNS:− 0.049
    TNS:− 10.235
    慢速端角 WNS: − 0.018
    TNS: − 0.286
    WNS:− 0.040
    TNS:− 13.228
    WNS:− 0.050
    TNS:− 10.238
    下载: 导出CSV

    表  6   开启极限useful skew和不开启useful skew时setup和hold的违反比较

    Table  6   setup and hold Violation Comparisons with Extreme useful skew and Without useful skew ns

    useful skew reg2reg setup reg2reg hold
    关闭 WNS:− 0.119
    TNS:− 29.345
    WNS:− 0.215
    TNS:− 546.89
    开启 WNS: − 0.021
    TNS: − 0.372
    WNS:− 0.363
    TNS:− 1138.215
    下载: 导出CSV

    表  7   开启和关闭修复hold布局布线后典型端角下setup和hold的时序对比

    Table  7   setup and hold Timing Comparison Under Typical Corner After Place and Route with /Without Fixing hold ns

    布局布线策略 reg2reg setup reg2reg hold
    开启修复holdWNS:− 0.032
    TNS:− 5.868
    WNS:− 0.079
    TNS:− 59.352
    关闭修复holdWNS: − 0.021
    TNS: − 0.372
    WNS:− 0.363
    TNS:− 1138.215
    下载: 导出CSV
  • [1] 张静. TSMC 12 nm工艺下高性能Cortex-A55 CPU模块的物理设计[D]. 西安:西安电子科技大学,2021

    Zhang Jing. Physical design of high-performance Cortex-A55 CPU module based on TSMC12nm process[D]. Xi’an: Xidian university, 2021 (in Chinese)

    [2] 王胤翔,孙艳,王伟奇. 基于Cadence Innovus 的高速4核ARM Cortex-A17 CPU物理实现[J]. 中国集成电路,2018,27(12):37−43

    Wang Yingxiang, Sun Yan, Wang Weiqi. Implementation of high speed ARM Cortex-A17 quad-core CPU using Cadence Innovus[J]. China Integrated Circuit, 2018, 27(12): 37−43 (in Chinese)

    [3] 吴伟贤,周剑扬,许伟坚,等. 基于硅虚拟原型的RISC CPU核物理设计[J]. 微电子学与计算机,2005,22(3):162−169

    Wu Weixian, Zhou Jianyang, Xu Weijian, et al. The physical design of a RISC CPU core based on the SVP[J]. Microelectronics & Computer, 2005, 22(3): 162−169 (in Chinese)

    [4] 王红. 基于CPU芯片的物理设计与时序优化[D]. 北京:北京工业大学,2020

    Wang Hong. Physical design and timing optimization based on CPU chips[D]. Beijing: Beijing University of Technology, 2020 (in Chinese)

    [5] 王兵,彭瑞华,傅育熙. 前后端协同的时钟树设计方法[J]. 计算机工程,2008,34(12):227−229,232

    Wang Bing, Peng Ruihua, Fu Yuxi. Clock tree design method with front-end and back-end combined[J]. Computer Engineering, 2008, 34(12): 227−229, 232 (in Chinese)

    [6] 曾宏. 深亚微米下芯片后端物理设计方法学研究[J]. 中国集成电路,2010,19(2):30−35,49

    Zeng Hong. IC physical design methodology research under DSM[J]. China Integrated Circuit, 2010, 19(2): 30−35,49 (in Chinese)

    [7] 魏少雄. YHFT-X芯片内核的层次化物理设计[D]. 长沙:国防科技大学,2014

    Wei Shaoxiong. Hierarchical physical design of the CorePac in YHFT-X DSP[D]. Changsha: National University of Defense Technology, 2014 (in Chinese)

    [8] 陈宇轩,梁利平. 高速数字模块的层次化物理实现技术[J]. 湖南大学学报:自然科学版,2018,45(10):115−120

    Chen Yuxuan, Liang Liping. An improved hierarchy physical design flow for high speed circuits[J]. Journal of Hunan University (Natural Sciences), 2018, 45((10): ): 115−120 (in Chinese)

    [9] 边少鲜,Feng M,Yue D,等. Innovus机器学习在高性能CPU设计中的应用[J]. 电子技术应用,2020,46(8):54−59,63

    Bian Shaoxian, Feng M, Yue D, et al. Innovus machine learning application in performance CPU design[J]. Application of Electronic Technique, 2020, 46(8): 54−59,63 (in Chinese)

    [10] 何小威. 高性能CPU核频率提升和功耗优化物理设计方法[J]. 计算机与数字工程,2020,48(11):2677−2679 doi: 10.3969/j.issn.1672-9722.2020.11.027

    He Xiaowei. Physical design method for high performance CPU core frequency improvement and power optimization[J]. Computer & Digital Engineering, 2020, 48(11): 2677−2679 (in Chinese) doi: 10.3969/j.issn.1672-9722.2020.11.027

    [11]

    Koppanalil J, Yeung G, O'Driscoll D, et al. A 1.6 GHz dual-core ARM cortex A9 implementation on a low power high-K metal gate 32 nm process[C] //Proc of the IEEE Int Symp on VLSI Design, Automation and Test. Piscataway, NJ: IEEE, 2011: 239−242

    [12]

    Chen Chen, Xiang Xiaoyan, Liu Chang, et al. Xuantie-910: A commercial multi-core 12-stage pipeline out-of-order 64-bit high performance RISC-V processor with vector extension[C] //Proc of the ACM/IEEE 47th Annual Int Symp on Computer Architecture. New York: ACM, 2020: 52−64

  • 期刊类型引用(2)

    1. 祁磊,任子豪,刘俊汐,耿新. 虚实结合的行人重识别方法. 计算机研究与发展. 2025(02): 418-431 . 本站查看
    2. 程思雨,陈莹. 伪标签细化引导的相机感知无监督行人重识别方法. 光电工程. 2023(12): 62-76 . 百度学术

    其他类型引用(11)

图(8)  /  表(7)
计量
  • 文章访问数:  258
  • HTML全文浏览量:  72
  • PDF下载量:  78
  • 被引次数: 13
出版历程
  • 收稿日期:  2023-11-26
  • 修回日期:  2024-03-05
  • 网络出版日期:  2024-04-14
  • 刊出日期:  2024-05-31

目录

/

返回文章
返回