黃 印,周 軍,梅紅巖,鄭嵐卉
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
行人重識別是一項解決跨場景跨攝像頭下的行人識別問題的技術(shù)[1]。它是計算機視覺領(lǐng)域一個重要的研究課題,具有多種應(yīng)用,如自動駕駛、視頻監(jiān)控和活動分析等[2-4]。
根據(jù)網(wǎng)絡(luò)輸出特征類型,行人重識別方法主要有兩類,即基于全局特征的方法和基于局部特征的方法[5,6]?;谌痔卣鞯姆椒ㄖ饕镁W(wǎng)絡(luò)提取一個包含行人全局信息的特征,方法在推理階段計算快速,但易受到行人姿態(tài)變化、遮擋等因素影響[7,8]。基于局部特征的方法主要利用網(wǎng)絡(luò)手動或者自動地提取關(guān)鍵的局部區(qū)域的特征,方法更關(guān)注骨架、姿勢、人體部件等關(guān)鍵區(qū)域,具有更好的抗干擾能力。Sun等人對局部特征方法進行較為深入的研究,提出了一種分割特征空間的PCB方法[9],將特征在水平方向劃分為6塊,簡單且有效地利用局部特征。Wang等人提出一種多粒度模型MGN[10],整合局部特征和全局特征,并使用三元組損失對特征進行約束。Zheng等人提出了一種漸進式金字塔方法[11],增加行人的全局特征與局部特征之間的漸變聯(lián)系。
障礙物遮擋行人的現(xiàn)象非常普遍,既破壞人物結(jié)構(gòu)的完整性,又增加行人重識別難度。針對行人重識別的遮擋問題,本文提出了一種基于特征融合的遮擋行人重識別方法,引入關(guān)系感知全局注意力機制,對全局范圍的結(jié)構(gòu)信息建模,實現(xiàn)靈活提取行人特征;根據(jù)行人特征自適應(yīng)地生成特征權(quán)重,以此作為行人重識別模型對行人遮擋區(qū)域的判斷,并融合全局特征和局部特征來進行行人重識別。實驗驗證了所提方法的有效性,并且有效提升了行人重識別的效果。
本文提出一種基于特征融合的遮擋行人重識別方法。局部特征關(guān)注行人細節(jié)區(qū)域,而全局特征關(guān)注行人外觀,將兩者進行特征融合可以對受遮擋的行人進行更全面的描述。網(wǎng)絡(luò)的基礎(chǔ)模型的組成主要包括局部分支、全局分支、特征融合分支以及主干網(wǎng)絡(luò)。局部分支采用特征空間分割的方式來提取局部特征,在行人圖像中學(xué)習(xí)不同區(qū)域的差異性;全局分支嵌入注意力機制來提取全局特征,指導(dǎo)模型關(guān)注行人圖像的非遮擋區(qū)域;特征融合分支將局部特征和全局特征結(jié)合起來,提取出更具有判別性的融合特征;主干網(wǎng)絡(luò)采用ResNet50來提取圖像特征,ResNet50包含1個卷積層和4個殘差塊,每個殘差塊包含若干卷積層、BN層和ReLu激活函數(shù)。特征提取完成后,利用交叉熵損失和困難三元組損失,保證模型學(xué)習(xí)到具有辨別性的特征。基于特征融合的遮擋行人重識別方法示意圖,如圖1所示。
圖1 基于特征融合的遮擋行人重識別方法示意圖
關(guān)鍵區(qū)域的局部特征可以減少行人復(fù)雜化的影響,從而降低行人重識別的難度。局部分支根據(jù)人體結(jié)構(gòu),將人體特征圖進行橫向分割,提取具有判別性的局部特征。局部分支首先接收來自主干網(wǎng)絡(luò)提取的特征圖A,其尺寸為2048×24×8。然后,將特征圖A在豎直方向均勻分割為M塊,分別對每個部分進行全局池化(Global Average Pooling,GAP)和1×1的卷積操作,得到局部特征{h1,h2,…,hM},其中,每個局部特征的尺寸為256×1。
局部分支采用Szegedy等人提出的標(biāo)簽平滑正則化 (Label Smoothing Regularization,LSR)[12]。LSR是分類任務(wù)中防止過擬合的常用方法,其思想是給非真實類別賦予一個非零的較小值,鼓勵模型不要過度關(guān)注真實類別。運用LSR策略后,行人圖像的標(biāo)簽分布為
(1)
其中,N為訓(xùn)練樣本中行人總數(shù),ε是超參數(shù),文中設(shè)置為0.1,y為行人圖像的真實標(biāo)簽。
對每個局部特征使用全連接層和softmax激活函數(shù)得到分類結(jié)果,如式(2)所示
(2)
利用交叉熵損失函數(shù)來計算局部分支損失,如式(3)所示
(3)
其中,M是分割的塊數(shù),文中設(shè)置為6。
由于攝像頭的位置、拍照時間以及行人角度等因素的影響,在圖像中行人的可見部分占比較小,圖像中遮擋物占比較大。對于這類受遮擋的行人圖像,如果僅使用基本的ResNet50網(wǎng)絡(luò)來學(xué)習(xí)全局特征,模型提取的特征不夠代表性,同時易引入干擾因素。因此,本文將全局分支和關(guān)系感知全局注意力機制(Relation-Aware Global Attention,RGA)[13]相結(jié)合,提取出更具有代表性的行人全局特征。關(guān)系感知全局注意力機制RGA是Zhang等人在2020年提出的[13],與傳統(tǒng)注意力機制相比,RGA對全局范圍的結(jié)構(gòu)信息建模,可以更好的挖掘行人語義信息。在全局分支中,首先通過1×1的卷積層將特征圖A進行降維操作,并利用RGA增強特征表現(xiàn)力,抑制不必要的特征。接下來,利用GAP和1×1的卷積操作,得到全局特征F。其中,全局特征的尺寸為256×1。
全局分支采用Hermans等人提出的困難三元組損失(Hard Triplet Loss,HTL)[14]。三元組損失是一種廣泛應(yīng)用于圖像檢索領(lǐng)域的排序損失(Ranking Loss,RL),具有減小類內(nèi)間距,增大類間間距的特性。與交叉熵損失相比,三元組損失的兩種特性使得三元組損失更加適用于全局特征的訓(xùn)練。與傳統(tǒng)三元組損失不同,困難三元組損失將最難正例樣本和最難負例樣本作為困難三元組。由于專注于難樣本的訓(xùn)練,困難三元組損失在檢索任務(wù)的準(zhǔn)確率和模型的訓(xùn)練速度方面優(yōu)于傳統(tǒng)三元組損失。從數(shù)據(jù)集中采樣P個行人類別,并從每個類別中隨機選出K張行人圖像,全局分支損失如式(4)所示
(4)
其中,F(xiàn)a、Fn、Fp分別是錨點樣本(anchor)、正例樣本(positive)、負例樣本(negative)的特征向量表示,正例樣本和負例樣本分別代表與錨點圖像具有相同身份標(biāo)簽和不同身份標(biāo)簽的樣本;m是設(shè)定的間隔參數(shù),文中設(shè)置為0.3。
為了得到更健壯的行人特征表示,本文利用特征融合的方式把提取到的全局特征和局部特征進行特征融合。對于行人圖像,每個部件的重要程度是不同的。若簡單地利用add或concat操作來進行特征融合,可能會降低部件信息帶來的益處。因此,本文根據(jù)行人部件顯著性程度,設(shè)計一種自適應(yīng)地生成部件權(quán)重的權(quán)重生成模塊。權(quán)重生成模塊由全連接層FC和激活函數(shù)Sigmoid組成,將全局特征F作為輸入,輸出每個部件的權(quán)重{w1,w2,…,w6}。權(quán)重生成模塊示意圖如圖2所示。
圖2 權(quán)重生成模塊示意圖
對每個部件以加權(quán)求和的方式,計算融合特征G,如式(5)所示
(5)
其中,M是部件數(shù),文中設(shè)置為6。
特征融合分支采用困難三元組損失,如式(6)所示
(6)
其中,Ga、Gn、Gp分別是錨點樣本(anchor)、正例樣本(positive)、負例樣本(negative)的特征向量表示,正例樣本和負例樣本分別代表與錨點圖像具有相同身份標(biāo)簽和不同身份標(biāo)簽的樣本;m是設(shè)定的間隔參數(shù),文中設(shè)置為0.3。
總的損失函數(shù)L包括局部特征損失Lp、全局特征損失Lg和特征融合損失Lf,如式(7)所示
L=Lp+αLg+βLf
(7)
其中,α和β是平衡損失的權(quán)重因子。
文中使用的實驗環(huán)境是學(xué)院實驗室現(xiàn)有環(huán)境,實驗設(shè)備為一臺裝有Tesla P100顯卡、Intel Xeon CPU的服務(wù)器,服務(wù)器的內(nèi)存為13 GB,操作系統(tǒng)為Ubuntu16.04,算法程序用Python3.7版本的Pytorch深度學(xué)習(xí)框架實現(xiàn),使用的集成開發(fā)環(huán)境為Vscode。
在實驗中,將行人圖像尺寸縮放至384×128,使用隨機水平翻轉(zhuǎn)作為數(shù)據(jù)的增強方法,訓(xùn)練時采用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化方法,更新變量參數(shù)設(shè)置為(0.5,0.999),初始學(xué)習(xí)率設(shè)置為0.1,每隔20個epoch,學(xué)習(xí)率下降為之前的0.1倍,權(quán)重衰減率設(shè)置為0.0005,共訓(xùn)練60個epoch。模型的初始權(quán)重服從N(0,0.02)。
使用遮擋行人數(shù)據(jù)集Occluded-REID[15]和Partial-REID[16]來評估所提方法。由于Occluded-REID[15]和Partial-REID[16]上沒有劃分訓(xùn)練集和測試集,模型在Market-1501[17]數(shù)據(jù)集上進行預(yù)訓(xùn)練,在Occluded-REID[15]和Partial-REID[16]數(shù)據(jù)集上進行測試。Occluded-REID[15]數(shù)據(jù)集共包含200個人物身份的2000張行人圖像,每個行人包含5張全身圖像和5張不同遮擋方式的圖像,每張行人圖像尺寸為128×64。Partial-REID[16]數(shù)據(jù)集共包含60個人物身份的900張行人圖像,每個行人包含5張全身圖像、5張部分截斷圖像和5張遮擋圖像。本文僅利用Partial-REID[16]數(shù)據(jù)集上的全身圖像和遮擋圖像進行測試。Market-1501[17]數(shù)據(jù)集共包含1501個人物身份的32668張行人圖像,分為訓(xùn)練集和測試集兩部分,訓(xùn)練集包含751個人物身份的12936張行人圖像;測試集包含750個人物身份的19732張行人圖像。模型在Market-1501[17]的訓(xùn)練集上進行預(yù)訓(xùn)練。
在實驗驗證階段,本文使用累計匹配曲線(Cumulative Match Characteristic curve,CMC)和平均精度均值(mean Average Presicion,mAP)作為評價指標(biāo)。CMC用于評估行人重識別算法性能,包括rank-1、rank-5、rank-10等。rank-n表示測試集中前n個搜索結(jié)果中包含正確樣本的概率,如式(8)所示
(8)
其中,ki為第i個行人的第k個匹配結(jié)果。
mAP是衡量多標(biāo)簽圖像分類的常見指標(biāo),計算方法如式(9)所示
(9)
其中,P為準(zhǔn)確率(Percision Rate),R為召回率(Recall Rate)。
實驗分別在Occluded-REID[15]數(shù)據(jù)集和Partial-REID[16]數(shù)據(jù)集上進行了驗證。將本文所提方法與IDE[17]、OsNet[18]、MLFN[19]、HACNN[20]、IPAM[21]、Part Bilinear[22]、PCB[9]、PCB+RPP[9]、FGFA[16]進行對比。在Occluded-REID[15]數(shù)據(jù)集上,所提方法的rank-1、rank-5、rank-10和mAP分別達到65.3%、79.2%、85.0%和57.2%。與其他遮擋行人重識別方法相比,所提方法在Occluded-REID數(shù)據(jù)集上性能更優(yōu)異,表1為基于Occluded-REID數(shù)據(jù)集的性能對比結(jié)果。
表1 基于Occluded-REID數(shù)據(jù)集的性能對比結(jié)果(%)
在Partial-REID[16]數(shù)據(jù)集上,所提方法的rank-1、rank-5、rank-10和mAP分別達到71.7%、83.3%、91.3%和64.7%。相比性能較好的遮擋行人重識別方法FGFA[16],所提方法在rank-1、rank-5、rank-10和mAP指標(biāo)上分別提升了5.4%、1.5%、5.3%和1.5%。表2為基于Partial-REID數(shù)據(jù)集的性能對比結(jié)果。由表1和表2的數(shù)據(jù)可以看出,所提方法能夠有效提升在遮擋情況下行人重識別的性能。
表2 基于Partial-REID數(shù)據(jù)集的性能對比結(jié)果(%)
在Occluded-REID[15]數(shù)據(jù)集上驗證本文方法的注意力機制和特征融合在遮擋行人重識別問題上的有效性。將PCB[9]作為基本網(wǎng)絡(luò)模型baseline,它的rank-1、rank-5、rank-10和mAP分別達到59.3%、75.2%、83.2%和53.2%。在baseline上單獨利用注意力機制,使rank-1、rank-5、rank-10和mAP 分別提高了7.3%、3.8%、1.4%和6.4%。因為注意力機制不僅可以減少背景干擾,而且能夠很好的關(guān)注行人重要信息。在baseline上單獨利用特征融合,使rank-1、rank-5、rank-10和mAP 分別提高了8.7%、2.7%、0.3%和5.1%。因為局部特征和全局特征相互補充,可以對受遮擋的行人進行更全面的描述。在baseline上聯(lián)合利用注意力機制和特征融合,使rank-1、rank-5、rank-10和mAP 分別提高了2.7%、1.4%、7.1%和1.1%。表3為消融實驗結(jié)果,其中,RGA表示關(guān)系感知全局注意力機制,F(xiàn)S表示特征融合。結(jié)果表明,在基本網(wǎng)絡(luò)模型baseline上,單獨使用注意力機制或特征融合,都提高了行人重識別的性能;聯(lián)合使用注意力機制和特征融合,可以進一步提高行人重識別的性能。
表3 消融實驗結(jié)果(%)
在Occluded-REID[15]數(shù)據(jù)集上探究參數(shù)α和β對模型性能的影響。α是影響三元組中正負樣本對距離的參數(shù),在實驗中分別設(shè)置為0、0.05、0.1、0.15、0.2、0.25、0.3、0.35。α取不同值時對應(yīng)的rank-1和mAP的變化如圖3(a)所示。當(dāng)α較小時,會導(dǎo)致三元組中正負樣本對距離較近;當(dāng)α較大時,會導(dǎo)致三元組中正負樣本對距離被過度拉大;當(dāng)α=0.10時,可以獲得最好的rank-1和mAP。β是影響融合特征監(jiān)督強度的參數(shù),在實驗中分別設(shè)置為0、0.005、0.01、0.015、0.02、0.025、0.03、0.035。β取不同值時對應(yīng)的rank-1和mAP的變化如圖3(b)所示。隨著β值的增大,rank-1和mAP的變化趨勢是先升高再降低,說明對融合特征進行過少或者過多的監(jiān)督,模型性能都有所降低。當(dāng)β=0.01時,可以獲得最好的rank-1和mAP。結(jié)果表明,當(dāng)α=0.1且β=0.01時,模型達到最好的性能。
圖3 參數(shù)α和β對模型性能的影響
行人重識別問題是一類應(yīng)用背景強,具有挑戰(zhàn)性的研究課題。本文給出了一種基于特征融合的遮擋行人重識別方法,使用關(guān)系感知全局注意力機制提取行人特征,更好的挖掘行人語義信息;根據(jù)特征的顯著性程度來融合全局特征和局部特征,減弱了復(fù)雜環(huán)境中遮擋物對行人重識別的影響。雖然在兩種評估指標(biāo)上有明顯提升,但是,性能指標(biāo)還相對偏低,說明在遮擋情況下行人重識別方法還有進一步提升空間。進一步研究的問題還有許多,比如,遮擋行人重識別準(zhǔn)確率問題、遮擋比例與識別準(zhǔn)確率之間的關(guān)系等。