張 娜,張福星,王 強,胡玲玲,桂江生
(浙江理工大學 信息學院,杭州 310018)
行人再識別是指在無重疊視域多攝像機監(jiān)控系統(tǒng)中,匹配不同攝像機視域中的行人目標.行人再識別在目前的視頻監(jiān)控應用中是一個非常重要的任務,該技術在行人檢索[1]、多攝像機行人跟蹤[2]等視頻監(jiān)控領域都有著重要的應用.但由于在不同攝像機視域中,行人受視角、姿勢變化、光照條件、背景變化、攝像頭設置等因素的影響,導致同一行人的圖像外貌存在著很大的差異,使得行人再識別問題遇到了很大的挑戰(zhàn).為了應對這些挑戰(zhàn),近年來的廣大研究者提出了許多的解決方法.在行人圖片特征提取方法中,其最主要的是設計對不同行人具有區(qū)分性和對視角、光照、背景的變化具有魯棒性的描述特征.許多已經存在的行人再識別算法試圖通過建立一個特有的,健壯的代表特征來描述在各種變化環(huán)境下的行人外觀.文獻[3]利用行人區(qū)域的對稱性和不對稱性將人的前景劃分成不同的區(qū)域,每個區(qū)域通過提取局部累積特征來處理姿態(tài)、視角和光照的變化.文獻[4]也提出了類似的方法,用一個自適應的身體外形結構表示行人圖像,包括頭、胸、大腿和小腿,然后提取每個部分的顏色特征.文獻[5]提出了對行人圖像的同一水平位置的滑動窗口進行掃描,取所有滑動窗口的直方圖相同bin的最大值作為該水平組的直方圖特征.最近,顯著性信息也出現在行人再識別上的應用研究[6–9],文獻[9]采用4種方向顯著性加權融合學習的方法來度量一對行人圖像的相似度.
除了有代表性的特征外,距離度量學習也是行人再識別的另一個研究方面.文獻[10]首次提出距離測度學習的問題,根據樣本的類別,將具有相同類別標簽的樣本組成正樣本對,不同類別標簽的樣本構成負樣本對,然后利用這些樣本對作為約束條件來訓練得到一個馬氏矩陣.在文獻[11]提出一種PRDC算法,算法的原理是最優(yōu)化相關距離的比較.文獻[12]提出了一種叫 KISSME (Keep It Simple and Straightforward Metric)的度量學習算法,該算法將樣本之間的差向量看作是高斯分布中的一個點,同類樣本的差向量分布在同一個高斯分布中,而不同樣本之間的差向量分布在另一個高斯分布中,然后用概率的比值來度量樣本之間的距離.文獻[13]在文獻[12]的基礎上提出了核學習的思想,把低維線性不可分的特征空間投影到高維可分的非線性空間中再進行KISSME度量學習.這些算法通過學習一個馬氏距離相似度函數(Mahalanobis Similarity Function,MSF)來度量一對行人圖像的相似度.然而,MSF 只與特征差分空間有關,忽略了每個個體的獨立特征,因此對于同一個人在不同攝像機中的很大表觀變化的捕捉能力有限.
基于上述情況,提出了一種基于雙向關系相似度函數學習方法 (Bidirectional Relationship Similarity Function,BRSF)來計算一對行人圖像的相似度.利用KISSME算法的思想進行相似度函數學習,把一對樣本特征的自相關關系和互相關關系用高斯分布來表示,最終高斯分布的比值轉換為BRSF的形式,進而得到一個對背景、視角、姿勢變化有著更好的魯棒性的相似度函數.
近年來,行人再識別問題的研究者也嘗試設計合適的相似度學習算法,更好地計算一對行人圖像的相似度.當給定一對來源于非重疊攝像機視角的行人圖像,行人圖像對 (i,j)的特征向量分別為Xi和Xj,Xi,Xj∈Rd,d是特征維度.這些算法通過學習一個馬氏距離相似度函數fM(Xi,Xj)來度量一對行人圖像的相似度.MSF形式如下式(1)所示:
其中,M是一個半正定矩陣,用于保證相似度函數的對稱性.
正如引言所述,MSF只與特征差分空間有關,忽略了每個個體的獨立特征,因此對于同一個人在不同攝像機中的很大的外觀變化的捕捉能力有限.本文通過學習一個雙向關系相似度函數fB(Xi,Xj)來計算一對行人圖像的相似度.BRSF是MSF的泛化形式,BRSF的形式如下式(2)所示:
其中 A,B∈Rd×d.因為一對行人圖像的相似度有著對稱性,所以A和B不需要是半正定矩陣.在BRSF中,描述了一對行人圖像的自相關關系,描述了一對行人圖像的互相關關系.從式(2)中可以看出BRSF是MSF的泛化形式,當B=–A 時,可以從 BRSF 得到 MSF 的形式.B=–A 表示BRSF的自相關矩陣和互相關矩陣互為負矩陣.因此,MSF僅與一對行人圖像的特征差分空間有關,忽略了一對行人圖像中每個個體的獨立特征,而BRSF增強了一對行人圖像中獨立個體的特征,捕捉用于行人再識別的區(qū)分性信息的能力更強.
為了說明上述觀點,這里用一個一維空間的二分類例子來證明.有兩個類的樣本分別服從[–10,–2]的均勻分布和[2,10]的均勻分布.當給定一個樣本 X=–3 和另一個樣本Y,圖1顯示了采用MSF和BRSF兩種相似度函數,樣本X和樣本Y的相似度的分布.其中,S(X)=S(Y)表示X和Y屬于同一個類,S(X)!=S(Y)表示X和 Y屬于不同的類.當采用 MSF,即fM(X,Y)=–m(X–Y)2,如圖1(a)所示,同類樣本和不同類樣本之間的相似度取值范圍存在重疊的部分.MSF并不能完全分開上述兩類樣本,在這里,m=1,因為m并不改變兩類樣本之間相似度的相對關系.當相似度函數采用BRSF,相似度函數中的自相關矩陣和互相關矩陣不再互為負矩陣,增強了自相關關系的影響,即fB(X,Y)=–(X–Y)2+3XY,如圖1(b)所示,上述兩類樣本被完全分開.上述例子說明BRSF比MSF更具有區(qū)分性.
文獻[12]中提出了一種KISSME的算法,該方法沒有使用到復雜的迭代優(yōu)化的過程,學習相似度度量函數的時間花銷小.因此把KISSME度量學習算法的思想應用到BRSF中.一對行人圖像(i,j)的特征向量為 (Xi,Xj),Xi,Xj∈Rd,則行人圖像對 (i,j) 的相似度可以表示為式(3):
其中,p(Xi,Xj|H1)表示一對行人圖像對在假設H1是相關行人圖像對的條件下 (Xi,Xj)相似的概率.p(Xi,Xj|H0)表示一對行人圖像對在假設H0是不相關行人圖像對條件下 (Xi,Xj)相似的概率.如果δ(Xi,Xj)的值是比較大的,則說明假設H1是成立的.相反,δ(Xi,Xj)的值比較小,則說明假設H1是不成立的,則這對行人圖像對是不相關行人圖像對.
文獻[12]假設行人圖像對是高斯分布中的一個點,則行人圖像對的自相關關系和互相關關系分別用高斯分布來表示如下式(4)和式(5):
圖1 MSF 與 BRSF 相似度取值的對比
其中,yij=1表示行人圖像對(i,j)屬于相關行人圖像對.反之,yij=0表示行人圖像對(i,j)屬于不相關行人圖像對.相關行人圖像對的樣本分布在同一個高斯分布中,不相關行人圖像對的樣本分布在另一個高斯分布中.在這里,
把式(4)的右邊進行l(wèi)og簡化,我們重寫式(4)得到式(10).
在式(10)中常數項只是提供了一個補償,不影響最后的結果,我們可以把式中常數項去掉,將式(10)簡化得到式(11):
同理,式(5)也可以簡化重寫得到式(12):
最后,我們通過把式(11)和式(12)合并得到式(13),式(13)就是我們的BRSF的形式.
在這里,我們得到了:
基于BRSF學習的行人再識別系統(tǒng)包括3個步驟:(1) 行人圖像特征的提取; (2) BRSF 學習; (3) 查詢目標行人圖像.整個系統(tǒng)流程如圖2所示,其中BRSF是利用數據集離線學習得到.
圖2 基于BRSF學習的行人再識別系統(tǒng)框架
顏色和紋理是描述行人圖像非常重要的兩個特征.本文采用HSV、YCbCr和Lab三種顏色空間的顏色直方圖和 SILTP[14](Scale Invariant Local Ternary Pattern)紋理直方圖來描述一張行人圖像.不同的顏色空間采用不同的衡量標準,所以對同一張行人圖像描述的側重點也各不相同.SILTP是著名的LBP (Local Binary Pattern)紋理描述算子的改進算法,LBP 算法的缺點是對圖像噪聲比較敏感,所以SILTP算法還結合了 LTP (Local Ternary Patterns)算法取得了對圖像噪聲和光照變化具有更強的魯棒性.我們把一張行人圖像歸一化為128×48像素,使用大小為10×10像素的滑動子窗口去描述行人圖像的局部細節(jié).滑動子窗口的滑動方向是水平方向的,每次滑動的步長為5個像素.在每個子窗口中,提取HSV、YCbCr和Lab三種顏色空間中每個通道的顏色直方圖和SILTP紋理直方圖.為了解決不同攝像機下行人圖像視角變化的問題,在同一個水平位置上,掃描所有子窗口,取所有直方圖相同bin的最大值作為該水平組的直方圖特征.這樣得到的直方圖特征不但對行人圖像視角變化具有很好的魯棒性,而且可以捕捉到行人圖像的局部細節(jié)特征.圖3顯示滑動子窗口提取特征的過程.
在提取特征的過程,我們考慮到了行人圖像的多尺度信息.在原始圖像128×48像素的基礎上進行兩次金字塔降采樣分別獲得64×24像素的尺度和32×12的尺度圖像.在每個尺度的行人圖像上重復上述的特征提取過程.最后我們把所有特征級聯形成行人圖像的特性描述,該特征的維數為9000維(3*3*16維顏色特征+34維SILTP特征)*(24+11+5水平組).
圖3 滑動子窗口提取特征示意圖
不同攝像機中行人視角的變化主要集中在水平方向上,而在垂直方向上并不很明顯.因此,該文提取的特征對于水平方向的移動具有一定的不變性.為了說明本文提出的通過學習一個雙向關系相似度函數,來計算一對行人圖像的相似度的優(yōu)越性.即使采用比較簡單的特征來描述行人圖像,算法性能也能優(yōu)于一般的度量學習算法,后續(xù)的實驗結果也會有所證明.
為了提高特征的有效性,便于BRSF的學習,實驗中首先利用 PCA (Principle Component Analysis)降維,在兩個數據集的行人圖像的特征維數進行降維,都保持95%以上的能量.在訓練階段,利用數據集離線學習得到一個BRSF.當計算出BRSF的自相關矩陣A和互相關矩陣B,則根據式(2)計算一對行人圖像(i,j)的相似度.
行人再識別的研究目的是在不重疊的多攝像機視頻監(jiān)控系統(tǒng)中,根據輸入的目標行人圖像,檢索該行人是否出現在這些視頻中.該文假設通過行人檢測技術,已經將監(jiān)控視頻的行人轉換為行人圖像庫.利用離線學習得到的BRSF,度量目標行人圖像和行人圖像庫中所有圖像的相似度.行人圖像庫中相似度高的圖像為潛在的目標行人圖像.
算法通過大量的實驗來測試,分別在VIPeR數據集[15]和 QMUL GRID 數據集[16]上進行了實驗對比.實驗中,隨機選擇t對行人圖像對作為訓練樣本集,余下的行人圖像對作為測試樣本集.相機A中的行人圖像作為查詢目標庫,相機B中的行人圖像作為候選目標庫.每對行人圖像,任意選擇一張圖像加入查詢目標庫,另一張則加入候選目標庫.每個查詢目標庫與候選目標庫中的每張行人圖像都要有匹配.然后,再交換查詢目標庫和候選目標庫.為了得到穩(wěn)定的實驗結果,以上過程重復10次,并將10次實驗的平均值作為最終的實驗結果.實驗結果采用標準的累積匹配特性(Cumulative Match Characteristic,CMC)曲線評價算法性能,CMC是指在候選目標庫中匹配待查詢的目標,前r個匹配結果中包含正確匹配結果的比率.其中,第一匹配率(Rank=1)為真正的識別能力,所以比較重要.但是當Rank值很小時,也是可以通過人眼進行輔助識別查找目標,因此也具有現實意義.
VIPeR數據集是行人再識別領域最常用的且最具有挑戰(zhàn)性的數據集之一.它包含了632對行人圖像,每對行人圖像都是由兩個不重疊視角的攝像機在不同的室外環(huán)境下獲取的.在632對行人圖像中存在著許多視角,亮度,背景有著較大變化的圖像對.圖4 展示了在該數據集上,待查詢圖像和候選目標庫中與其匹配的圖像.在這兩個實驗中,最左邊的行人圖像為目標圖像,右邊的行人圖像為候選目標庫中根據相似度高低從左到右排序,其中虛線框內的行人圖像為正確的匹配圖像.圖5展示了基于MSF和基于BRSF在候選目標庫匹配待查詢目標的實驗結果,從圖5中可以看出基于BRSF在相似度排序中的正確匹配圖像比基于MSF的更加靠前了.
圖4 本文算法在VIPeR數據集上的實驗結果
實驗中測試樣本集和訓練樣本集均為316對行人圖像.VIPeR數據集上的其他實驗,如果沒有明確說明測試集和訓練集的個數,則都默認為316對行人圖像.表1給出了本文算法與已有算法的性能比較的實驗結果的數據.
從表1可知,本文算法性能有較大的提升,尤其是Rank1比表中排第二的XQDA算法提升了約13.2%,并且在Rank20內都有著較高的識別率.在一定程度上,本文算法的效果已經能夠應用到工程實踐中,尤其是在刑事偵查等方面,刑偵人員可以在行人再識別返回的前r個結果中快速搜索出目標行人,大大提高偵查辦案效率.
當訓練集規(guī)模為t=200時,本文算法與已有算法的性能對比結果如表2.
從表2中可知,在只有少量訓練樣本情況下,本文算法同樣優(yōu)于已有算法.由此可見,本文算法有效的解決了學習相似度度量函數中出現過擬合的問題.
為了說明本文提出的BRSF算法的優(yōu)越性,表3給出了本文算法僅用一種特征情況下與其他算法效果對比.由于表中對比的算法都有HSV顏色空間特征和LBP紋理特征,因此實驗中分別選用HSV和LBP作為BRSF算法提取的特征.
表3 僅用一種特征情況下的BRSF算法與已有算法性能比較實驗結果(單位: %)
由表3可知,該算法雖然只使用了一種特征,但是效果比其他采用多特征的算法更好.其中,RPLM算法融合了HSV、Lab和LBP等特征,Rank1僅有27.0%.而本文算法只用了HSV顏色特征,Rank1就達到了47.4%.當本文算法用到多特征時,算法的識別率又提升了一些,但是繼續(xù)增加特征,算法識別率提升的幅度會越來越小,而算法的時間復雜度會越來越高.因此,本文算法在最終的特征選擇上只選用了三種顏色空間特征和一種紋理特征.
評價度量學習算法性能好壞的一個重要因素是訓練時間的長短,本文提出的BRSF算法是在基于KISSME度量學習算法上進行訓練的,省略了迭代優(yōu)化的時間,從而減少了訓練時間.本文實驗平臺是8 GB 內存,Intel i5-2400 3.1 GHz CPU 的 PC 臺式機,實驗環(huán)境是基于Matlab 2014b實驗的.表4給出了本文算法與已有度量學習算法的訓練時間比較實驗結果,實驗結果是取10組在VIPeR數據集上的訓練時間的平均值.
表4 本文算法與已有算法的訓練時間對比實驗結果
從表4可知,本文算法訓練時間比其他大部分算法的耗時要短,只比KISSME算法耗時多了一些,因為KISSME訓練得到MSF的一個矩陣,而本文算法基于KISSME上訓練得到BRSF的兩個矩陣,一個自相關矩陣,一個互相關矩陣.
QMUL GRID數據集是目前行人再識別領域難度最高的數據集.QMUL GRID數據集上的圖片是從地鐵站的8個不相交的攝像機中拍攝獲取的,其中包含了250對行人圖像.除此之外,該數據集中還包含了額外的775張行人圖像,這775張行人圖像不屬于250對行人圖像中的任何一個行人,擴展了候選目標庫.上述這些都體現了該數據集測試行人再識別的難度所在.圖6展示了QMUL GRID數據集上的一些行人圖像對樣本.
圖6 QMUL GRID 數據集上的 5 對行人圖像對
從圖6中可以看到這些行人圖像的圖像質量,分辨率低,并包含了大量的照明和視角的變化.在QMUL GRID數據集的實驗上,我們隨機選擇125對行人圖像作為訓練集,剩下的125對和額外的775張行人圖像作為測試集.表5給出了本文算法在QMUL GRID數據集上與其他算法的比較實驗結果.從表5可知,所有算法的識別率都不是特別高,但是本文算法的Rank1比表中排第二的XQDA算法提升了約7%,并且本文算法的Rank10和Rank20比其他算法都有著顯著的提升.
表5 QMUL GRID 數據集本上文算法與已有算法性能對比實驗結果 (單位: %)
行人再識別是一個具有很高應用價值同時也更具有挑戰(zhàn)性的技術.提出了一種通過學習一個雙向關系相似度函數,來計算一對行人圖像的相似度.BRSF是MSF的泛化形式,與MSF相比,BRSF引入了一對行人的自相關關系和互相關關系,從而可以更好地捕捉同一個人在不同攝像機下的外觀變化.為了學習BRSF,借助了KISSME的度量學習思想,把最終高斯分布的比值轉換為BRSF的形式,得到一個對背景、視角、姿勢的變化具有魯棒性的相似度函數.由行人再識別的公共數據集VIPeR和QMUL GRID上的實驗結果表明,基于雙向關系度量學習得到有效的相似度函數,識別性能優(yōu)于已有的行人再識別算法.
參考文獻
1Li Z,Chang SY,Liang F,et al.Learning locally-adaptive decision functions for person verification.Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA.2013.3610–3617.
2Gong SG,Cristani M,Yan SC,et al.Person Reidentification.London: Springer,2013.301–313.
3Farenzena M,Bazzani L,Perina A,et al.Person reidentification by symmetry-driven accumulation of local features.Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).San Francisco,CA,USA.2010.2360–2367.
4Wang XY,Yang M,Zhu SH,et al.Regionlets for generic object detection.Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia.2013.17–24.
5Liao SC,Hu Y,Zhu XY,et al.Person re-identification by local maximal occurrence representation and metric learning.Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.2197–2206.
6Liu Y,Shao Y,Sun FC.Person re-identification based on visual saliency.Proceedings of the 12th International Conference on Intelligent Systems Design and Applications.Kochi,India.2012.884–889.
7Zhao R,Ouyang WL,Wang XG.Person re-identification by salience matching.Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia.2013.2528–2535.
8Luo Y,Jiang M,Wong YK,et al.Multi-camera saliency.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(10): 2057–2070.[doi: 10.1109/TPAMI.2015.2392783]
9陳瑩,霍中花.多方向顯著性權值學習的行人再識別.中國圖象圖形學報,2015,20(12): 1674–1683.[doi: 10.11834/jig.20151212]
10Xing EP,Ng AY,Jordan MI,et al.Distance metric learning,with application to clustering with side-information.Proceedings of the 15th International Conference on Neural Information Processing Systems.Cambridge,MA,USA.2003.505–512.
11Zheng WS,Gong SG,Xiang T.Person re-identification by probabilistic relative distance comparison.Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA.2011.649–656.
12K?stinger M,Hirzer M,Wohlhart P,et al.Large scale metric learning from equivalence constraints.Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2288–2295.
13齊美彬,檀勝順,王運俠,等.基于多特征子空間與核學習的行人再識別.自動化學報,2016,42(2): 299–308.
14Liao SC,Zhao GY,Kellokumpu V,et al.Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes.Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA.2010.1301–1306.
15Gray D,Tao H.Viewpoint invariant pedestrian recognition with an ensemble of localized features.Proceedings of the 10th European Conference on Computer Vision.Marseille,France.2008.262–275.
16Loy CC,Xiang T,Gong SG.Multi-camera activity correlation analysis.Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA.2009.1988–1995.
17Hirzer M,Roth PM,K?stinger M,et al.Relaxed pairwise learned metric for person re-identification.Proceedings of the 12th European Conference on Computer Vision.Florence,Italy.2012.780–793.
18Xiong F,Gou MR,Camps O,et al.Person re-identification using kernel-based metric learning methods.Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland.2014.1–16.
19Mignon A,Jurie F.PCCA: A new approach for distance learning from sparse pairwise constraints.Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2666–2672.