李大湘,費(fèi)國園+,劉 穎
(1.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121;2.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121)
行人再識別,旨在判別非重疊場景中的不同攝像機(jī)下的兩人是否為同一行人[1],該技術(shù)可應(yīng)用到智能安防和智能視頻監(jiān)控等領(lǐng)域。
當(dāng)前行人再識別的研究工作主要集中在特征描述和度量學(xué)習(xí)兩個方面。特征描述分為基于手工設(shè)計的表征方法和基于深度學(xué)習(xí)的表征方法?;谑止ぴO(shè)計的特征描述方法集中于描述符的定義,這些描述符能夠盡可能多地捕獲不同視圖中人物外觀的變量。文獻(xiàn)[2]提出了一種基于顯著顏色名描述符(salient color names based color descriptor,SCNCD),利用顏色名對光照的魯棒性這一優(yōu)點(diǎn)對行人圖像進(jìn)行表征。文獻(xiàn)[3]提出局部最大概率特征(local maximal occurrence,LOMO),該特征主要由HSV顏色直方圖和尺度不變局部三元模式(scale invariant local ternary pattern,SILTP)紋理特征構(gòu)成。與手工設(shè)計的特征描述方法不同,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)可以從原始圖像數(shù)據(jù)中自動捕獲人物外觀變量以建立行人表征。文獻(xiàn)[4]提出一種FTCNN模型,利用辨別行人聯(lián)合屬性的損失函數(shù)有效提高了CNN特征的辨別力,從而改善了行人再識別的性能。
針對文獻(xiàn)[5]中參考集的選擇問題,提出了一種基于改進(jìn)差異矩陣度量的行人再識別算法。該算法首先利用顯著顏色名描述符(salient color names based color descriptor,SCNCD)和FTCNN特征對行人圖像進(jìn)行表征,然后通過K-means算法對行人圖像聚類得到包含典型圖像的參考集,最后使用差異矩陣度量方法得到匹配結(jié)果。
為了處理跨攝像機(jī)視圖中行人外觀的變化,選用SCNCD和FTCNN作為視覺特征對不同攝像機(jī)捕獲的圖像進(jìn)行表征。
顏色作為一種線索,在行人再識別任務(wù)中可以獲得重要信息。但是它對于光照變化不具有魯棒性。基于顏色名對光照變化的魯棒性,Yang等利用顯著顏色名描述符對行人圖像進(jìn)行表征。SCNCD的提取過程如圖1所示[2]。
圖1 SCNCD提取
首先對行人圖像調(diào)整大小為128*48像素,并且將其均等地分為6個水平條紋以關(guān)聯(lián)特定的身體部位。然后基于手動預(yù)定義的16個顏色名,計算每個水平條紋中的顏色概率分布以形成16維向量。由于沒有單一顏色模型可以提供良好的描述符,因此顏色名稱在4種顏色模型中計算并融合以獲得最終的SCNCD。
為了結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)特征,本文選取FTCNN特征對行人圖像作進(jìn)一步表征。FTCNN特征的提取過程[4]如圖2所示。
安全人機(jī)工程學(xué)是人機(jī)工程學(xué)的一個分支,它從安全工程學(xué)的觀點(diǎn)出發(fā),為進(jìn)行系統(tǒng)安全分析和預(yù)防傷亡事故、職業(yè)病提供人機(jī)工程學(xué)方面的系統(tǒng)理論和知識[6]。LEC法是美國的安全專家G.F.Kinney和K.J.Graham提出的一種簡單易行的評價作業(yè)條件危險性方法。筆者針對城南污水廠建設(shè)要求和實(shí)際情況,運(yùn)用安全人機(jī)工程原理,通過風(fēng)險分析,運(yùn)用各種管理方法和技術(shù)手段,建立合理可行的人機(jī)系統(tǒng),做好城南污水廠工程的施工組織管理,旨在如何有效發(fā)揮人的主體作用,保證本工程以安全為主的各項(xiàng)指標(biāo)受控狀態(tài)良好,保障工程建設(shè)安全高效運(yùn)行,探索一套行之有效的污水廠建設(shè)管理新思路,并為其他類比工程提供參考。
圖2 FTCNN特征提取
使用Caffe深度學(xué)習(xí)框架中的AlexNet網(wǎng)絡(luò)提取FTCNN特征。在訓(xùn)練期間,使用行人屬性數(shù)據(jù)集PETA對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。首先對行人圖像調(diào)整大小256*256像素,然后隨機(jī)剪裁227*227像素子窗口送入AlexNet網(wǎng)絡(luò)中。測試期間,所有行人圖像調(diào)整大小為227*227像素。所有的CNN參數(shù)從預(yù)先訓(xùn)練的AlexNet網(wǎng)絡(luò)中得到。通過水平鏡像、隨機(jī)剪裁行人圖像擴(kuò)充數(shù)據(jù)量,以避免網(wǎng)絡(luò)發(fā)生過擬合現(xiàn)象。初始學(xué)習(xí)率被設(shè)置為γ=0.0001, 每經(jīng)過20 000次迭代學(xué)習(xí)率降低為原來的1/10。
FTCNN特征與SCNCD進(jìn)行串聯(lián)融合,然后采用主成分分析法(principal component analysis,PCA)對融合的特征進(jìn)行降維。最終每張行人圖像的特征是280維。
(1)
其中,A和B是兩個不同的攝像機(jī),p是目標(biāo)圖像的ID,q是候選集中圖像的ID。然后通過比較兩者特征向量之間的距離來確定排名。
文獻(xiàn)[6]提出一種參考描述符(reference descriptor,RD),即利用一個具有典型身份的參考數(shù)據(jù)集來重構(gòu)每個行人的特征。RD方法側(cè)重于發(fā)現(xiàn)目標(biāo)與參考身份相對應(yīng)的重建關(guān)系,并忽略其與每個參考身份的局部差異關(guān)系。利用這種關(guān)系來描述行人,可以找到目標(biāo)行人與參考集身份的相對差異,如圖3所示。
圖3 特征向量和特征矩陣
(2)
引入差異矩陣,可以避免跨攝像機(jī)視圖成像時對行人圖像造成的干擾[5]。
文獻(xiàn)[5]中參考集的選取具有隨機(jī)性,因此選取的參考集中的行人圖像不穩(wěn)定且特征矩陣維數(shù)較大。本文利用K-means算法對行人圖像聚類得到包含典型圖像的參考集,在減少典型參考行人圖像數(shù)量的同時提高行人再識別的匹配率。以行人圖像的特征向量作為數(shù)據(jù)點(diǎn),對A攝像機(jī)下的行人圖像操作步驟如下:
步驟1 任意指定k個數(shù)據(jù)點(diǎn)作為類中心ui,i=1,2,…,k;
步驟2 將每個數(shù)據(jù)點(diǎn)歸并到距其最近的類中心所在的簇ci;
步驟3 對屬于同一簇內(nèi)的所有數(shù)據(jù)點(diǎn)求取平均值,將平均值作為新的簇中心;
步驟4 重復(fù)步驟2和步驟3直至每個簇不再發(fā)生變化。
簇的個數(shù)對應(yīng)參考集圖像的對數(shù)。最終,分別選取距離k個類中心最近的數(shù)據(jù)點(diǎn)所對應(yīng)的行人圖像作為參考集。對于攝像機(jī)B,采用與A攝像機(jī)中參考集圖像相同ID的圖像作為參考集??紤]到算法的時間復(fù)雜度和行人再識別的匹配率,VIPeR數(shù)據(jù)集的參考圖像對設(shè)置為80對,PRID450s數(shù)據(jù)集的參考圖像對設(shè)置為40對。
(3)
一致項(xiàng)由所有相似對的矩陣距離之和來定義
(4)
(5)
(6)
為簡單起見,將一致項(xiàng)和辨別項(xiàng)的權(quán)重設(shè)為1,稀疏項(xiàng)權(quán)重設(shè)為μ, 則目標(biāo)函數(shù)為
E(L1,L2)=Econ(L1,L2)+Edis(L1,L2)+μEspr(L2)
(7)
可通過求解目標(biāo)函數(shù)(8)學(xué)習(xí)度量矩陣,利用梯度下降法迭代求解,具體過程如圖4所示,其中步長λ1和λ2的取法見文獻(xiàn)[8]
(8)
圖4 目標(biāo)函數(shù)求解流程
(1)VIPeR數(shù)據(jù)集:廣泛使用的VIPeR數(shù)據(jù)集[9]包含從632個人的兩種視圖中捕獲的1264張室外圖像。一些示例圖像顯示在圖5(a)中。每個人分別具有從兩個不同相機(jī)拍攝的一對圖像。將所有個體圖像標(biāo)準(zhǔn)化為128*48像素的大小。視角改變是外觀變化的最重要原因,還包括其它因素,如光照條件和攝像頭參數(shù)。
(2)PRID450s據(jù)集:PRID450s數(shù)據(jù)集[10]是一個更現(xiàn)實(shí)化的數(shù)據(jù)集,其中包含通過兩個空間不相交的攝像機(jī)視圖捕獲的450個圖像對。所有圖像在本實(shí)驗(yàn)中均調(diào)整大小為128*48像素。與VIPeR數(shù)據(jù)集不同,該數(shù)據(jù)集具有顯著且一致的光照變化。PRID450s數(shù)據(jù)集中的一些示例如圖5(b)所示。
圖5 行人再識別數(shù)據(jù)集示例圖像
采用Windows7 64位操作系統(tǒng)Intel i7處理器的戴爾電腦,利用軟件Matlab2015b進(jìn)行實(shí)驗(yàn)。VIPeR和PRID450s的訓(xùn)練集和測試集的圖像對數(shù)分別設(shè)置為200對、200對和150對、150對,參考集圖像對數(shù)分別為80對和40對。在每種數(shù)據(jù)集上重復(fù)實(shí)驗(yàn)10次取均值后作為最終結(jié)果。本文選用特征累積匹配(cumulative matching characteristic,CMC)曲線作為評價標(biāo)準(zhǔn)。橫軸代表排名等級rank-r,表示具有最大相似度的前r個目標(biāo);縱軸代表識別率,指在對應(yīng)的前r個目標(biāo)中正確目標(biāo)的個數(shù)與r的比值。利用改進(jìn)的度量算法在VIPeR和PRID450s行人再識別數(shù)據(jù)集上分別采用SCNCD、FTCNN以及兩者融合的特征對行人圖像進(jìn)行表征的識別率結(jié)果如圖6所示。
圖6 VIPeR和PRID450s的CMC曲線
與當(dāng)前一些行人再識別方法進(jìn)行比較,結(jié)果見表1和表2,表明提出的方法是有效的。同時對比文獻(xiàn)[5]和本文中的算法在兩種不同數(shù)據(jù)集所用時間見表3以及rank-1匹配率如圖7所示,驗(yàn)證了利用K-means算法對行人圖像聚類得到的圖像作為參考集是有利的。
實(shí)驗(yàn)結(jié)果表明了利用K-means算法選取的參考行人圖像比較穩(wěn)定。因?yàn)橹豢紤]具有代表性的行人圖像與目標(biāo)圖像之間的差異,所以特征矩陣的維數(shù)變小導(dǎo)致差異矩陣的維數(shù)降低,因此在差異矩陣度量時不僅提高了行人再識別的匹配率還降低了算法的時間復(fù)雜度。
本文在SCNCD特征和FTCNN特征以及DMMM矩陣度量算法的基礎(chǔ)上,提出了一種基于特征融合及差異矩陣的行人再識別算法。其創(chuàng)新性在于:①在特征融合階段,選取具有魯棒性的兩種特征對行人圖像進(jìn)行描述;②在差異矩陣度量時,通過K-means算法對行人圖像聚類得到包含典型行人圖像的參考集,從而優(yōu)化目標(biāo)圖像相對于參考集圖像的重建關(guān)系。對比實(shí)驗(yàn)結(jié)果表明,所提出的算法優(yōu)于DMMM算法,在降低時間復(fù)雜度的同時又提高了識別率。在兩個公開的行人再識別數(shù)據(jù)集VIPeR和PRID450s上的實(shí)驗(yàn)結(jié)果表明了該算法的有效性和可行性。
表1 不同算法在VIPeR上的匹配率/%
表2 不同算法在PRID450s上的匹配率/%
表3 矩陣度量算法時間對比/s
圖7 本文算法和DMMM算法匹配率對比