基于距离中心化与投影向量学习的行人重识别

丁宗元 1 王洪元 1 陈付华 2 倪彤光 1

1 (常州大学信息科学与工程学院 江苏常州 213164) 2 (西自由大学自然科学与数学系 美国西弗吉尼亚州西自由市 26074) (dzyha2011@foxmail.com)

摘 要: 现有的基于投影的行人重识别方法具有训练时间长、投影矩阵维数高、识别率低等问题.此外在建立训练集时,还会出现类内样本数目远少于类间样本数目的情况.针对这些问题,提出了基于距离中心化的相似性度量算法.在构建训练集时,将同一组目标群体特征值中心化,利用中心特征值来构建类间距离,而类内距离保持不变.这样使得类内类间样本数目接近,可以很好地缓解类别不平衡所带来的过拟合风险.另外在学习投影矩阵时,利用训练集更新策略,学习若干组投影向量,使得到的投影向量近似正交,这样既可以有效减少运算复杂度和存储复杂度,又可以使得学习到的投影向量能够通过简单的相乘近似得到原来的投影矩阵.最后,在学习投影向量时采用共轭梯度法,该方法具有二次收敛性,能够快速收敛到目标精度.实验结果表明:提出的算法具有较高的效率,在不同数据集上的识别率都有明显的提升,训练时间也比其他常用的行人重识别算法要短.

关键词: 行人重识别;距离中心化;度量学习;投影向量;共轭梯度法

目前,越来越多的摄像系统被广泛地布置到公共场所,进行24小时不间断的监控,产生了大量的视频数据,使得主要依靠人工监控和人工鉴别的传统视频监控系统不仅耗费大量的人力,而且效率非常低下.因此,对视频数据进行自动化处理和分析对提高视频监控的效率有极大的帮助.视频监控中,当一个行人被位于公共场所的某个摄像机所捕捉到,即该行人的一帧或多帧图像被获取后,利用现有摄像机网络去发现该目标行人下一次出现的场所的过程称为行人重识别.行人重识别研究近几年获得了较大的进展.以往研究工作主要是利用投影矩阵的方式,将特征投影到共同子空间,以获得更好的判别性.一些方法对于行人数据的光照条件变化、拍摄角度的不同等一些问题具有很好的鲁棒性.

近些年在行人重识别问题上的研究涌现出了不少有效的算法.这些方法主要分为2种类型,基于特征的行人重识别 [1-10] 和基于度量学习的行人重识别方法 [11-18] .而在基于度量学习的行人重识别方法中,主要以学习出“好的”度量为主要目的.其主要思想是利用机器学习的方法,学习出距离测度和分类器,使得类内距离尽量小,类间距离尽量大.该方法对特征选择的要求较低,但具有训练时间长、投影矩阵维数大、容易过拟合等一些问题.

2007年,Weinberger等人提出大间隔最近邻分类 [19] (large margin nearest neighbor, LMNN)距离测度学习算法.该方法采用三元组的方式,并加入对不相似对的约束,学习使得尽可能多的三元组样本满足一定条件的最优矩阵 M .2008年,Weinberger又给出了LMNN的快速解法 [20] ,采用激活策略的方式来避免计算所有样本的梯度.2010年,Dikmen在LMNN基础上提出改进的算法 [21] (LMNN-R),并用于行人重识别问题.2007年,Davis等人提出基于信息论方法 [22] (information theoretic metric learning, ITML)的度量学习算法,将马氏度量矩阵 M 映射到一个高斯模型,利用信息散度来度量不同马氏矩阵 M 的相似性.2011年,Zheng等人提出基于概率相对距离比较 [23] (probabilistic relative distance comparison, PRDC)的度量学习算法.作者采用的是logistic误差函数,因此最终的目标函数是一个平滑的凸优化问题.为了避免过拟合,作者对矩阵 M 加入了额外约束.Kostinger等人提出的基于简单而且直接策略 [24] (keep it simple and straight MEtric, KISSME)的度量学习算法,通过直接的方式来对模型的参数进行估计出度量矩阵 M ,该方法能够用于大尺度数据的学习,但该方法在训练数据不足时,估计出来的参数不准确.2013年,Pedagadi将局部线性判别分析 [25] (local fisher discrimination analysis, LFDA)方法用于行人重识别问题,其对特征进行了主成分分析(PCA)的方式,提取不同特征的主要成分.2015年,Chen等人提出了建立相似对来进行度量学习 [26] ,利用给定的相似矩阵进行度量学习,但该方法需要事先给定数据集中的相似矩阵,因此当数据集规模很大时,该方法会显得非常耗时.2016年,Chen等人提出了非对称特征投影模型 [27] ,该方法可以针对相机属性参数的不同学习出不同的投影矩阵,可以有效地提高识别的效率,但该方法需要根据摄像场景的数目分别学习出数目与之对应的投影矩阵,这必然增加训练时间与存储复杂度.

为解决上述行人重识别算法的种种不足,本文提出基于样本距离中心化的相似性度量算法.首先,常用的基于距离学习的算法在构建训练集时,存在反例样本数目远多于正例数目的情况.每个样本在构建反例时需要与所有不同样本的特征向量求特征距离,而在此过程中会产生大量冗余的反例特征距离,大大地增加了训练的时间复杂度,而LMNN算法中利用构建三元组的方法会丢失一些重要的训练特征距离.因此在求样本的反例特征距离时,对同一样本的不同特征向量进行中心化.这样可以很好地缓解类别不平衡带来的过拟合问题.另外,对于同一个样本具有较多的类内样本时,本文采用局部距离中心化的方法,这样可以很好地保留一些重要信息.

其次,常用的基于投影矩阵学习的方法中投影矩阵维数较高,带来了较大的运算和存储复杂度.本文对投影矩阵进行特征值分解,将其分解成低秩的投影矩阵.因此在训练时,与其他常用的学习整个投影矩阵不同的是,利用本文所提出的迭代优化策略,对样本特征的距离向量进行更新,获得新的样本分布,每次只需要利用更新后的训练集学习一组新的投影向量,在满足目标精度时停止更新,具有较好的降维效果,可以有效地降低运算和存储复杂度,并且该策略能够近似地保证矩阵特征值分解后的向量之间应该保持正交的特性.

最后,针对机器学习中常用的基于梯度下降的优化方法收敛速度慢、运算量大等问题,本文在学习投影向量时采用共轭梯度法的方式,该方法只需要计算一次初始梯度,而且对于二次函数具有二次终止性,可以很快地收敛到目标精度.

本文提出的针对行人重识别常见问题的解决方法主要包括3个部分:

1) 提出(局部)样本距离中心化的方法来构建训练集;

2) 提出新的迭代策略,只需更新一组近似正交的投影向量;

3) 利用共轭梯度法来更新投影向量.

1 目标函数的建立

本文将行人重识别问题转化为度量学习问题,假设利用特征向量来代表每个行人数据,将第 i 个行人特征向量记为 x i n ,其中 n 为特征维数.因此可以构造训练集为 X ={( x i , y i ) ,其中 y i 为第 i 个行人的标签, m 为所有训练集中所包含的行人数据集数目.对于任意2个样本数据集( x a , x b )之间的距离记作 dis ( x a , x b ),假设样本( x i , x j )代表同一个行人的数据集(类内样本),样本( x i , x k )代表不同行人的数据集(类间样本),则根据类内距离小于类间距离的原则,有 dis ( x i , x j )< dis ( x i , x k ).记 S ={ S t =( d pos t , d neg t ) ,其中 d pos t 代表第 t 个样本与其他样本之间的类内距离, d neg t 代表第 t 个样本与其他样本之间的类间距离.为了同时满足这2个条件,可以极小化

r ( d pos t , d neg t )= d pos t - d neg t .

(1)

式(1)中的函数无界,因此在迭代时无法保证收敛,不利于之后的优化工作,所以,将其转化为常用的Sigmoid函数,使其具有连续性:

C ( d pos t , d neg t )=(1+exp( d pos t - d neg t )) -1 .

(2)

将式(2)中的所有 t 进行连乘并取对数,然后再取负数,将式(2)转化为求和问题,即可使所有差值向量满足以上约束:

).

(3)

在这里,极小化式(1)即等价于极大化式(2),而极大化式(2)又等价于极小化式(3).而由于马氏距离中的马氏矩阵具有很好的投影性质和可学习性,因此这里的距离函数取马氏距离:

dis ( x i , x j )=( x i - x j ) T M ( x i - x j ),

(4)

度量学习就是对矩阵 M 进行学习,由于 M 是半正定对称矩阵,在这里,将 M 进行特征值分解,将其对角化,总能找到一组正交基 P ,使得 M = PP T ,其正交基数目可以小于原矩阵 M 的秩,这样可以通过学习获得一个降维矩阵 P n × d ,该降维矩阵的每一列即可以作为每一组更新后特征空间的投影向量,其中 d 为降维后的正交基数目.于是:

dis ( x i , x j )=( x i - x j ) T M ( x i - x j )=

(5)

另外,在对小样本进行训练时,仍然会有过拟合的情况发生,因此为了进一步缓解过拟合的风险,同时使学习到的投影矩阵具有一定的稀疏性,本文引入正则化项 其中 r 是正则化因子,则目标函数为

(6)

2 样本距离中心化与迭代策略

2 . 1 样本距离中心化

考虑到在建立正反例时,由于每一个样本与其他样本之间的正例特征距离数目(即为同一个行人不同数据集的特征距离数目,如图1中的实线所示)远少于反例特征距离数目(即为不同行人的不同特征距离数目,如图1中的粗虚线所示),这就带来了类别不平衡的问题,于是在度量学习时会出现反例样本训练过拟合或者正例样本欠拟合的情况,可能造成学习出来的度量矩阵并不能提高识别率.因此,对样本的特征向量进行适当的调整,尽量缓解类别严重不平衡的情况显得非常重要.本文主要利用类别不平衡问题常用的3个解决方法之一——欠采样的方式,将距离中心化,在求反例样本之间的特征距离数目时,将每一组正例样本的特征值平均化(如图1中黑点所示),用特征中心值距离来代替原先的反例特征距离数目,这样可以减少较多的较为相近的反例特征距离数目(如图1中点虚线所示),同时也有利于缓解过拟合的风险.即原本训练特征集为{ S t =( d pos t , d neg t ): t =1,2,…, m },距离中心化后的特征训练集为 其中 d pos t = dis ( x i , x j ), x i , x j 为同一行人的不同图像的特征向量,而 为不同行人图像的平均特征向量,即 是目标样本集 i k 中同一个行人图像的数目.

当同一目标群体里含有较多的样本时,本文针对其提出了局部距离中心化的思想,即将每一个目标群体中的较多样本分为若干个集合,对每个集合依次利用以上的距离中心化的方法.而求正例样本特征距离仍利用原先的策略来求解,这样在一定程度上能够缓解类别不平衡的问题,而且不会损失太多样本.

Fig. 1 Samples distance centralization (Dataset 3DPeS)
图1 样本距离中心化(3DPeS数据集)

2 . 2 投影向量学习算法

采用距离中心化策略后,可以获得数量较为平衡的正反例样本特征分布,以这些特征分布,利用特定的优化算法对目标函数进行极小化搜索,以此来学习在这些特征分布下的投影向量,在未达到总体目标精度之前,再利用迭代策略(即式(7))来更新得到一组新的特征分布,然后再学习一组新的投影向量,直到达到总体目标精度为止.通常在机器学习中用的较多的优化算法是梯度下降法,梯度下降法是用负梯度方向为搜索方向的,而梯度下降法有越接近目标值步长越小、前进越慢等缺点,且直线搜索时可能会产生一些问题.共轭梯度法具有存储量小、步收敛性、稳定性高的特点,而且不需要任何外来参数,因此本文提出了基于共轭梯度法的投影向量学习方法.

本文采用共轭梯度法.首先需要给定初始搜索点 和共轭梯度法的优化误差 ε g ,通过 计算得到目标函数的梯度,再根据PRP公式计算共轭方向,然后再利用一维精确搜索来确定搜索步长,如此优化直到收敛.优化到第 k 步时的目标函数为

(7)

则此时的目标函数的梯度 g l


(8)

而第 k 步迭代后的投影向量为

(9)

其中,步长 α k 通过一维精确搜索求得, q k 为第 k 步投影向量的搜索方向:

q k =- g k + β k -1 q k -1

(10)

(11)

式(11)为PRP公式,当 时,停止迭代,即已经达到目标精度,此时的 作为第 l 步迭代得到的投影向量 p l .

这里设第 l 步迭代的投影向量

(12)

其中 表示第 l 次更新后的训练集中的正例数目 亦如此,这里的 S 为第 l 步迭代更新后的新的训练集.

2 . 3 特征空间的迭代更新策略

本文通过迭代更新得到新的特征距离集合(即 S ),可以得到一组新的特征分布,通过新的特征分布来学习得到一组近似正交的投影向量 p i .这样,在满足一定精度要求的前提下可以大大减少运算复杂度,用少量的列向量 p i 来构造具有很好判别性的度量矩阵 M ,通过这种方式可以减少数据冗余度,即降噪的效果.

假设在 l 次迭代后,已经通过学习得到了一组投影向量 p 1 , p 2 ,…, p l ,与文献[28]使用的策略类似,本文在其基础上通过增加扰动项,利用下面的迭代策略来更新 其中 s ∈{pos,neg}, t ∈{1,2,…,| S |}.

(13)

假设初始 p 0 =0,则当 l >0时,使用式(13)来更新特征距离集合,而当 l =0时,即直接利用初始构造的特征距离集合(即 来学习投影向量 p 1 .根据式(9)、式(12)可知, p l 在{ d pos, l i }∪{ d neg, l i }的生成子空间中,即 p l 其中 s ∈{pos,neg},其中 i ∈{1,2,…,| S |}而由式(13)可知 并且有 ⊆…⊆ }.因此, p l p j , j =1,2,…, l -1近似正交.由于每次迭代得到的投影向量对应一个投影空间,而这些投影空间的关系并不是完全孤立的,因此本文在式(13)中加入数值较小的扰动项 u ,使得每一次更新迭代后的投影向量近似正交,保留每个投影空间的一些联系,使得投影更具有实际意义.

2 . 4 具体操作步骤

本文在提取得到行人图像的特征之后,利用2.1节所提出的局部距离中心化的方法构建训练集,然后在该训练集上利用2.2节与2.3节的方法来优化投影向量,最后将这些投影向量拼接成投影矩阵并输出.

算法1 . 投影矩阵学习算法

输入:行人特征集 X ,正则化因子 r ,扰动因子 u ,目标精度 ε o ,投影向量精度 ε g ;

输出:投影矩阵 P =[ p 1 , p 2 ,…, p l ];

① 用 X 构建训练集 S ;

P = p 0 =0, l =0;

③ 用式(6)计算 f 0 ;

④ While True

l = l +1;

⑥ 用式(13)更新 S l ;

⑦ 用式(12)计算

k =0;

⑨ 用式(7)计算

⑩ While True

k = k +1;

用式(8),(10),(11)分别计算 g l , q k , β k -1 ;

q k 更新

用式(7)计算

Break;

End If

End While

P =[ P , p l ];

用式(6)计算 f l ;

If | f l - f l -1 |≤ ε o

Break;

End If

End While

算法1中各个符号及字母的含义与前文含义相同,这里不再具体解释.

Fig. 2 Pedestrian image lists of public datasets
图2 公共数据集行人图像对

3 实验与分析

3 . 1 数据集与评价指标

本文采用3种常用公开数据集VIPeR [29] ,i-LIDs(MCTS) [30] ,3DPeS [31] ,如图2所示,每组中上下2行代表同一个行人.其中,VIPeR数据集分辨率被规范化为128×64像素,由632个行人组成一共1 024张行人图像,每个行人都有2张不同的图像,这2张图像是从不同摄像机不同角度拍摄得到的,同一个人在不同摄像机下的图像姿势有较大的变化.i-LIDs数据集分辨率也是128×64像素,该数据集是在机场入境大厅拍摄得到,一共有119个行人组成的476个行人图像,平均每个行人有4张行人图像,由于行人较多,因此行人图像中不免有些遮挡以及角度等问题.3DPeS数据集由8个不同的监控摄像机在不同时间拍摄得到的,该数据集的分辨率并不一样,由204个行人共1 012张行人图像组成,由于该数据集有时间跨度,因此每个行人数据集光照变化大.本文分别将VIPeR数据集、i-LIDs数据集和3DPeS数据集中的200个行人、59个行人和134个行人作为训练集,余下的用作测试集.

对于评价指标,本文采用行人重识别问题常用的累计匹配特性曲线(cumulative match characteristic, CMC)的方式.累计匹配特性曲线的横坐标是排名(rank),纵坐标是匹配率(matching rate),排名为 r 时的匹配率表示排序后前 r 个行人中匹配正确的概率.其中排名较靠前的匹配率大小更具有实际意义,因为在实际应用中,不管用什么方法来解决行人重识别问题,其结果都是返回若干张与该行人最相似的图像,这几张图像即排名靠前的几张图像,因此当排名靠前的匹配率较大时,能够在很大程度上使得返回的结果中一定有该行人的图像,从而提高行人重识别的效率.

为了测试本文算法的计算效率,本文的评价指标除了累计匹配特性曲线,还对本文算法与其他常用的基于度量学习的算法的时间花销进行对比,包括训练时间与测试时间.

Fig. 3 Feature extraction of pedestrian images
图3 行人图像的特征提取

3 . 2 特征表示

本文对行人图像分别提取RGB,YCbCr,HSV,Lab,YIQ,Gabor 6种特征,图3给出了提取一张行人图像的特征描述的示例.其中前5种特征为颜色空间特征,提取的是直方图特征,即统计特征,RGB,YCbCr分别提取全部3组颜色特征,而HSV特征只提取色调(H)、饱和度(S)特征,Lab特征和YIQ去除像素的亮度特征(即L分量与Y分量),这些待提取的特征全部分为16维直方图统计特征.而Gabor特征是一种纹理特征,根据不同波长、方向、相位偏移、空间纵横比、带宽等分别取16组不同的Gabor滤波器,而每个滤波器同样再提取16维直方图统计特征.对于每一张行人图像,将其在水平方向平均分为6个水平条带.因此每个水平条带中有28个特征通道,每个通道又被表示为16维直方图向量,因此每幅图像在特征空间中被表示为2 688维特征向量.

3 . 3 对比分析

常用的基于度量学习的行人重识别的解决方法有ITML [24] (information therotic metric learning),LMNN [21] (large margin nearest neighbor),KISSME [25] (keep it simple and straightforward metric),PRDC [19] (probabilistic relative distance comparison),LFDA [20] (local fisher discriminant analysis),CVDCA [26] (cross-view discriminant component analysis),RMLLC [27] (relevance metric learning method with listwise constraints)等方法.本节重点比较了这7种方法与本文所提出的方法,利用CMC曲线中的Rank 1,Rank 5,Rank 10,Rank 20所对应的Matching Rate来比较这7种方法与本文方法的优劣.其中,ITML,LMNN以及KISSME三种方法是基于学习高维的马氏度量矩阵的算法,这样不仅运算复杂度高,而且会带来存储量较大等问题;PRDC方法与本文方法类似,其主要以概率相对距离比较为方法,学习出较好的马氏度量矩阵;LFDA方法主要先利用主成分分析进行降维,并对不同的特征赋予不同的权重,其主要思想仍然是度量学习;CVDCA方法是基于非对称投影的方式,综合考虑了不同摄像机的属性不同的情况来学习出不同的投影矩阵,但其只适用于训练集中只有2个摄像场景的情况;RMLLC方法是基于相似对的方式,可以很好地减少相似但不同行人匹配出错的情况.这几种方法都未考虑类别不平衡的情况,而且都是以学习投影矩阵为主要方法,所以这些方法仍然会有存储量大、耗时长等问题.

本文实验在MATLAB 7.11.0平台下完成,实验环境为CPU Intel Core TM i5-4460T 1.90 GHz,内存8 GB.在本文方法中,正则化因子 r =1、扰动因子 u =10 -3 能够获得较好的结果.首先利用本文方法与其他方法在不同的数据集上分别进行比较.本文对VIPeR,i-LIDs,3DPeS分别利用局部距离中心化,在求反例样本距离时,需中心化的同一样本的不同图像分别按2个行人、2个行人、3个行人为一个集合分别进行局部距离中心化.在数据集VIPeR,i-LIDs,3DPeS上的实验结果分别如表1~3所示.

Table 1 Performance Comparison Among Different Methods on Dataset VIPeR ( P = 432 )
表1 各种方法在数据集VIPeR上的结果比较 ( 测试集规模为432 )

MethodsRank1Rank5Rank10Rank20TrainingTime∕sTestingTime∕sOurs0.26220.56620.71800.82324753CVDCA0.16680.41000.54110.6773137816RMLLC0.15220.35800.47370.5952211315LFDA0.11450.29720.40980.5603221420PRDC0.10360.28290.37620.5414120512KISSME0.07210.21160.30680.4446300218ITML0.02550.10520.16180.2390897843LMNN0.01000.03670.07130.1291365826

Table 2 Performance Comparison Among Different Methods on Dataset i - LIDs ( P = 60 )
表2 各种方法在数据集i - LIDs上的结果比较 ( 测试集规模为60 )

MethodsRank1Rank5Rank10Rank20TrainingTime∕sTestingTime∕sOurs0.40840.77350.85190.90561772CVDCA0.34980.59430.71580.791010828RMLLC0.26220.52620.64800.7532150310LFDA0.10360.28290.44620.6414178911PRDC0.21830.39370.51120.65439107KISSME0.14580.34140.46370.5996257918ITML0.07210.18160.29680.4795468820LMNN0.04450.15970.22800.3849323625

Table 3 Performance Comparison Among Different Methods on Dataset 3DPeS ( P = 70 )
表3 各种方法在数据集3DPeS上的结果比较 ( 测试集规模为70 )

MethodsRank1Rank5Rank10Rank20TrainingTime∕sTestingTime∕sOurs0.39800.86600.94400.99204194CVDCA0.30770.70000.88380.9640118910RMLLC0.30200.62200.81800.9200160212LFDA0.17310.43850.66150.8442183616PRDC0.29450.51190.71210.8748137113KISSME0.08000.30400.53760.8264283619ITML0.07900.27000.43550.7674542224LMNN0.09310.22360.35910.5381310522

对于数据集VIPeR,每个行人只有2张行人图像,从图2(a)可以看出,该数据集给行人重识别造成困难的因素是拍摄角度等问题,而且每个行人的图像较少,常用的行人重识别方法在该数据集上的表现一直不是很好.但通过表1可以看出,本文方法在该数据集上的表现比其他常用的行人重识别方法至少高出10个百分点.除此之外,由于本文方法采用了距离中心化的思想,明显减少了运算量,而且由于共轭梯度法具有快速收敛的特点,大大减少了运算复杂度,从表1的最后2列可以看出,本文方法的训练时间与测试时间明显比其他方法少.因此,本文算法在数据集VIPeR上的运算效率有了很大的提高.

而对于数据集i-LIDs,通过图2可以看出,该数据集中的每个行人由于有较多部分的遮挡,还有一些角度问题,这些问题给行人重识别问题带来了较大的困难,以往常用的方法在该数据集上的表现都很一般,而通过表2可以看出,本文方法比其他表现最好的方法仍然高出大约6个百分点.而且表2中最后2列也可以看出,本文方法的时间花销也比其他方法要少.此外,由于i-LIDs数据集属于小规模数据集,对于一般常用的算法会出现过拟合的问题,使得识别效果下降,但本文方法的识别效果仍然比其他方法要好,因此本文方法缓解了基于学习的算法的过拟合问题.

在数据集3DPeS上,其对行人重识别造成困难的因素是不同摄像机所摄取的时间差,因此同一行人的不同图像会有明显的光照区别.除此之外,该数据集对于同一行人的不同图像也有角度姿势的不同等问题.尽管如此,本文方法在该数据集上的表现仍然高于其他常用方法,比其他方法至少高9个百分点.算法的训练时间与测试时间也明显少于其他方法.因此本文方法在该数据集上的运算效率也有了较大的提高.

其次,本文还在同样的度量学习方法上,将样本距离中心化后的识别效果与样本距离未中心化的识别效果进行了对比,2种不同策略在3个数据集上的CMC曲线如图4所示,可以看出,由于样本距离中心化后能够很好地缓和过拟合的风险,将样本距离中心化后的行人重识别的效果明显要优于未中心化后的识别效果.可以看出,利用样本距离中心化后在排名较靠前的匹配率明显高于样本距离未中心化的算法,虽然排名靠后的匹配率增长幅度逐渐降低,但由前面叙述可知,样本距离中心化后效果的提升更具有实际意义.而对于数据集中同一目标样本数量较多的数据集3DPeS而言,如果将同一行人的所有不同图像的特征值全部中心化后会损失较多的类间距离,因此会使得识别效果反而有所下降,所以利用局部距离中心化后效果提升的会比较明显,其与未利用局部距离中心化的效果对比如表4所示:

Table 4 Performance Comparison Between Local and Global Distance Centralization ( 3DPeS )

表4 局部与全局距离中心化的效果对比 ( 3DPeS )

MethodsRank1Rank5Rank10Rank20LocalDistanceCentralized0.39800.86600.94400.9920GlobalDistanceCentralized0.35650.78630.86050.9396

Fig. 4 Performance comparison between feature distance centralization and non-centralization
图4 特征中心化与未中心化的效果比较

4

针对以往的方法中未考虑样本类别不平衡问题,本文提出了基于样本距离中心化的,并使用迭代策略的度量学习的行人重识别方法.相比其他基于度量学习方法,本文方法采取的样本距离中心化能够很好的去除较多的冗余的类间距离,使得类内距离与类间距离的数量趋于平衡,同时为了不使反例样本损失太多,本文在同样本因此在训练的时候能够很好的缓解因类别不平衡导致的过拟合的风险.本文的采用的迭代策略能够很好地减少运算以及存储复杂度,能使每次优化得到的投影向量之间都是近似正交的.而且利用特征值分解的方法与主成分分析(PCA)方法类似,除了能够起到降维的作用,还能达到去噪的效果.此外,本文运用共轭梯度法来训练投影向量能够快速的收敛到目标精度,由于共轭梯度法的特有性质,使得训练时所需的运算与存储复杂度大大降低.通过实验结果发现,本文提出的方法比其他基于度量学习的方法也更具有泛化性,而且训练时间也比其他基于度量学习的方法要短.

参考文献:

[1] Chen Puqiang, Guo Lijun, Zhang Rong, et al. Patch matching with global spatial constraints for person re-identification[J]. Journal of Computer Research and Development, 2015, 52(3): 596-605 (in Chinese)(陈普强, 郭立君, 张荣, 等. 基于全局空间约束块匹配的目标人体识别[J]. 计算机研究与发展, 2015, 52(3): 596-605)

[2] Bazzani L, Cristani M, Perina A, et al. Multiple-shot person re-identification by chromatic and epitomic analyses[J]. Pattern Recognition Letters, 2012, 33(7): 898-903

[3] Ma Bingpeng, Su Yu, Jurie F. Local descriptors encoded by fisher vectors for person re-identification[C] //Proc of the 12th European Conf on Computer Vision. Berlin: Springer, 2012, 7583: 413-422

[4] Zeng Mingyong, Wu Zemin, Tian Chang, et al. Fusing appearance statistical features for person re-identification[J]. Journal of Electronics & Information Technology, 2014, 36(8): 1844-1851 (in Chinese)(曾明勇, 吴泽民, 田畅, 等. 基于外观统计特征融合的人体目标再识别[J]. 电子与信息学报, 2014, 36(8): 1844-1851)

[5] Ma Bingpeng, Su Yu, Jurie F. Covariance descriptor based on bio-inspired features for person re-identification and face verification[J]. Image & Vision Computing, 2014, 32(6/7): 379-390

[6] Kviatkovsky I, Adam A, Rivlin E. Color invariants for person reidentification[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1622-1634

[7] Fan Caixia, Zhu Hong, Lin Guangfeng, et al. Person re-identification based on multi-features[J]. Journal of Image and Graphics, 2013, 18(6): 711-717 (in Chinese)(范彩霞, 朱虹, 蔺广逢, 等. 多特征融合的人体目标再识别[J]. 中国图象图形学报, 2013, 18(6): 711-717)

[8] Wu Ziyan, Li Yang, Radke R J. Viewpoint invariant human reidentification in camera networks using pose priors and subject discriminative features[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2014, 37(5): 1095-1108

[9] Li Wei, Wang Xiaogang. Locally aligned feature transforms across views[C] //Proc of the 2013 IEEE Conf on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2013. 4321-4328[10]Zhao Rui, Ouyang Wanli, Wang Xiaogang. Learning mid-level filters for person re-identification[C] //Proc of the 2014 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014. 144-151

[11] Qi Meibin, Tan Shengshun, Wang Yunxia, et al. Multi-feature subspace and kernel learning for person re-identification[J]. Acta Automatica Sinica, 2016, 42(2): 299-308 (in Chinese)(齐美彬, 檀胜顺, 王运侠, 等. 基于多特征子空间与核学习的行人再识别[J]. 自动化学报, 2016, 42(2): 299-308)[12]Kostinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C] //Proc of the 2012 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2288-2295

[13] Li Zhen, Chang Shiyu, Liang Feng, et al. Learning locally adaptive decision functions for person verification[C] //Proc of the 2013 IEEE Conf on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2013: 3610-3617

[14] Du Yuning, Ai Haizhou. A statistical inference approach for person re-identification[J]. Journal of Electronics and Information Technology, 2014, 36(7): 1612-1618 (in Chinese)(杜宇宁, 艾海舟. 基于统计推断的行人再识别算法[J]. 电子与信息学报, 2014, 36(7): 1612-1618)

[15] Ma Lianyang, Yang Xiaokang, Tao Dacheng. Person re-identification over camera networks using multi-task distance metric learning[J]. IEEE Trans on Image Process, 2014, 23(8): 3656-3670

[16] Lisanti G, Masi I, Bagdanov A D, et al. Person re-identification by iterative re-weighted sparse ranking[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2015, 37(8), 1629-1642

[17] Nguyen H V, Bai L. Cosine similarity metric learning for face verification[C] //Proc of the 10th Asian Conference on Computer Vision(ACCV). Berlin: Springer, 2010: 709-720

[18] Loy C C, Liu Chunxiao, Gong Shaogang. Person re-identification by manifold ranking[C] //Proc of the 20th IEEE Int Conf on Image Processing (ICIP). Piscataway, NJ: IEEE, 2013: 3567-3571

[19] Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification[J]. Journal of Machine Learning Research, 2009, 10(2): 207-244

[20] Weinberger K Q, Saul L K. Fast solvers and efficient implementations for distance metric learning[C] //Proc of the 25th Int Confe on Machine Learning. New York: ACM, 2008: 1160-1167

[21] Dikmen M, Akbas E, Huang T S, et al. Pedestrian recognition with a learned metric[C] //Proc of the 10th Asian Conf on Computer Vision. Queenstown, Berlin: Springer, 2010, 6495: 501-512

[22] Davis J V, Kulis B, Jain P, et al. Information theoretic metric learning[C] //Proc of the 24th Int Conf on Machine Learning. New York: ACM, 2007: 209-216

[23] Zheng Weishi, Gong Shaogang, Xiang Tao. Person re-identification by probabilistic relative distance comparison[C] //Proc of the 2011 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 649-656

[24] Kostinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C] //Proc of the 2012 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2288-2295

[25] Pedagadi S, Orwell J, Velastin S. Local fisher discriminant analysis for pedestrian reidentification[C] //Proc of the 2013 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2013: 3318-3325

[26] Chen Jiaxin, Zhang Zhaoxiang, Wang Yunhong. Relevance metric learning for person reidentification by exploiting listwise similarities[J]. IEEE Trans on Image Processing, 2015, 24(12): 4741-4755

[27] Chen Yingcong, Zheng Weishi, Lai Jianhua, et al. An asymmetric distance model for cross-view feature mapping in person re-identification[J]. 2016[2017-03-20]. http://ieeexplore.ieee.org/document/7373616/

[28] Zheng Weishi, Gong Shaogang, Xiang Tao. Reidentification by relative distance comparison[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 35(3): 653-668

[29] Gray D, Tao Hai. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C] //Proc of the 10th European Conf on Computer Vision. Berlin: Springer, 2008, 5302: 262-275

[30] Zheng Weishi, Gong Shaogang, Xiang Tao. Associating groups of people[C] //Proc of the 20th British Machine Vision Conf (BMVC). Piscataway, NJ: IEEE, 2009: 1-11[31]Baltieri D, Vezzani R, Cucchiara R. 3DPeS: 3D people dataset for surveillance and forensics[C] //Proc of Joint ACM Workshop on Human Gesture and Behavior Understanding. New York: ACM, 2011: 59-64

Person Re - Identification Based on Distance Centralization and Projection Vectors Learning

Ding Zongyuan 1 , Wang Hongyuan 1 , Chen Fuhua 2 , and Ni Tongguang 1

1 ( School of Information Science and Engineering , Changzhou University , Changzhou , Jiangsu 213164) 2 ( Department of Nature Science and Mathematics , West Liberty University , West Liberty , West Virginia , USA 26074)

Abstract: Existing projection-based person re-identification methods usually suffer from long time training, high dimension of projection matrix, and low matching rate. In addition, the intra-class samples may be much less than the inter-class samples when a training data set is built. To solve these problems, this paper proposes a distance-centralization based algorithm for similarity metric learning. When a training data set is to be built, the feature values of a same target person are centralized and the inter-class distances are built by these centralized values, while the intra-class distances are still directly built from original samples. As a result, the number of intra-class samples and the number of inter-class samples can be much closer, which reduces the risk of overfitting because of class imbalance. In addition, during learning projection matrix, the resulted projection vectors can be approximately orthogonal by using a strategy of updating training data sets. In this way, the proposed method can significantly reduce both the computational complexity and the storage space. Finally, the conjugate gradient method is used in the projection vector learning. The advantage of this method is its quadratic convergence, which can promote the convergence. Experimental results show that the proposed algorithm has higher efficiency. The matching rate can be significantly improved, and the time of training is much shorter than most of existing algorithms of person re-identification.

Key words: person re-identification; distance centralization; metric learning; projection vectors; conjugate gradient method

Received: yuan, born in 1960.

Received: his PhD degree from Nanjing University of Science and Technology in 2004. Professor and master supervisor at Changzhou University. His main research interests include image processing, artificial intelligence and pattern recognition.

Ding Zongyuan , born in 1991. Master candidate at Changzhou University. Member of CCF. His main research interests include image processing and pattern recognition.

Chen Fuhua , born in 1966. Received his PhD degree from Nanjing University of Science and Technology in 2003. Associate professor at Westliberty University. His main research interests include variation image segmentation and inverse problems.

Ni Tongguang , born in 1978. Received his PhD degree from Jiangnan University in 2015. Lecturer at Changzhou University. His main research interests include pattern recognition, intelligent computation and their application.

收稿日期: 2017-01-12;

修回日期: :2017-05-16

基金项目: 国家自然科学基金项目(61572085,61502058) This work was supported by the National Natural Science Foundation of China (61572085, 61502058).

通信作者: 王洪元(hywang@cczu.edu.cn)

中图法分类号: TP391.41