曾濤,薛峰,楊添
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601)
隨著智能安防和視頻監(jiān)控領(lǐng)域的需求與日俱增,行人重識(shí)別(Re-Identification,ReID)受到了越來越多研究人員的關(guān)注[1-2]。行人重識(shí)別可以看成一個(gè)圖片檢索任務(wù),利用計(jì)算機(jī)視覺技術(shù)判斷給定的圖片或視頻序列中是否存在特定行人,即給定一張待識(shí)別的行人圖片,在其它攝像頭拍攝到的視頻中檢索出與待識(shí)別行人具有相同身份的行人圖片。在現(xiàn)實(shí)場(chǎng)景中,視角變化、行人姿態(tài)變化、物體遮擋、圖像低分辨率等不利因素[3]導(dǎo)致行人重識(shí)別算法難以提取充分、有效的行人特征,造成行人重識(shí)別精度較低。因此,如何提取判別性強(qiáng)的行人特征是行人重識(shí)別研究的重點(diǎn)。
在深度學(xué)習(xí)技術(shù)普及之前,與大部分圖像分類識(shí)別一樣,行人重識(shí)別主要通過手工設(shè)計(jì)圖像特征來實(shí)現(xiàn),計(jì)算過程繁瑣,識(shí)別效果較差,難以滿足復(fù)雜環(huán)境變化下行人重識(shí)別任務(wù)的要求。近年來,基于深度學(xué)習(xí)的行人識(shí)別技術(shù)取得了較大的進(jìn)展和突破,其識(shí)別準(zhǔn)確率較基于人工特征的方法有了大幅提高,成為行人重識(shí)別領(lǐng)域的主流方法[4]。按照行人特征表達(dá)方式的不同,可以將基于深度學(xué)習(xí)的行人重識(shí)別方法概括為基于全局特征、基于局部特征和基于注意力機(jī)制3 種方法。
基于全局特征的行人重識(shí)別將整張行人圖像表示成一個(gè)不包含任何空間信息的特征向量,并對(duì)圖像進(jìn)行相似性度量。文獻(xiàn)[5]提出一個(gè)身份判別性編碼方法,將行人重識(shí)別問題看成分類問題,即將同一個(gè)行人的圖片看成同一類的圖片,在訓(xùn)練過程中利用行人的ID 標(biāo)簽計(jì)算分類損失。文獻(xiàn)[6]使用三元組損失來訓(xùn)練深度模型,通過拉近同一類樣本之間的距離,拉開不同類樣本之間的距離,從而獲得判別性強(qiáng)的行人特征。文獻(xiàn)[7]提出一個(gè)融合分類損失和驗(yàn)證損失的孿生網(wǎng)絡(luò),在模型訓(xùn)練過程中學(xué)習(xí)行人特征表示和相似度度量。然而,基于全局特征的方法忽略了圖像局部細(xì)節(jié)信息,在物體遮擋、行人圖片未對(duì)齊、視角變化等復(fù)雜場(chǎng)景下,辨別能力較差。
基于局部特征的行人重識(shí)別則先將整張圖像表示成若干局部特征的集合,再進(jìn)行度量學(xué)習(xí),這類方法可通過圖像切片、分割、人體骨架關(guān)鍵點(diǎn)檢測(cè)等方式實(shí)現(xiàn)。文獻(xiàn)[8]提出一種基于分塊卷積基線方法提取局部特征,使用分塊修正池化方法對(duì)齊分塊信息,并針對(duì)每個(gè)分塊信息分別采用分類損失進(jìn)行訓(xùn)練。文獻(xiàn)[9]提出一種水平金字塔匹配方法,通過在水平方向提取多個(gè)尺度的局部特征并分別進(jìn)行訓(xùn)練,從而增強(qiáng)行人局部特征的魯棒性和判別能力。文獻(xiàn)[10]提出一種以人體區(qū)域劃分的多階段特征提取和融合方法,從而對(duì)齊不同圖像中人體區(qū)域特征。但這類方法通常僅考慮粗粒度的局部特征,缺乏對(duì)行人全局特征的統(tǒng)籌考慮,因此難以獲得辨別力強(qiáng)的行人特征。
基于注意力機(jī)制的行人重識(shí)別方法是近年來行人重識(shí)別領(lǐng)域出現(xiàn)的新方法。文獻(xiàn)[11]提出一個(gè)端到端的比較性注意力網(wǎng)絡(luò),以長短時(shí)記憶網(wǎng)絡(luò)為基礎(chǔ)設(shè)計(jì)了注意力機(jī)制,并加入時(shí)空信息模擬人類的感知過程來比較行人之間的顯著性區(qū)域,判斷兩幅照片是否屬于同一個(gè)行人。文獻(xiàn)[12]通過將注意力機(jī)制融入孿生網(wǎng)絡(luò)中,發(fā)現(xiàn)具有相同身份的行人圖像中的一致性注意力區(qū)域,在跨視角的匹配中有較強(qiáng)的魯棒性。文獻(xiàn)[13]提出一個(gè)輕量級(jí)的注意力網(wǎng)絡(luò),能夠聯(lián)合學(xué)習(xí)行人圖片中的硬區(qū)域注意力和軟像素注意力,優(yōu)化未對(duì)準(zhǔn)圖像中的行人識(shí)別。文獻(xiàn)[14]提出一種批丟棄塊網(wǎng)絡(luò),通過在一個(gè)批次中隨機(jī)丟棄所有輸入特征圖的相同區(qū)域,加強(qiáng)局部區(qū)域的注意力特征學(xué)習(xí),從而獲得更加魯棒和判別性高的行人特征。文獻(xiàn)[15]提出一個(gè)類激活圖增強(qiáng)模型,通過在主干模型后面連接一系列有序分支進(jìn)行擴(kuò)展,并通過引入一個(gè)重疊激活懲罰的新?lián)p失函數(shù),使當(dāng)前分支更多地關(guān)注那些被先前分支較少激活的圖像區(qū)域,從而獲得多種辨別力的細(xì)粒度行人特征。然而,目前這些基于注意力機(jī)制的方法主要考慮行人局部區(qū)域的注意力特征,缺乏對(duì)行人圖片不同區(qū)域細(xì)粒度注意力特征的關(guān)注,特征粒度不夠精細(xì),特征表達(dá)的辨別能力有待進(jìn)一步增強(qiáng)。
本文提出一種通道與空間雙重注意力網(wǎng)絡(luò)(Channel and Spatial Dual-Attention Network,CSDA-Net),通過改進(jìn)設(shè)計(jì)一種混合池通道注意力模塊(Hybrid Pooling Channel Attention Module,HPCAM),在通道維度上獲得更加具有判別性的特征,并在HPCAM模塊之后設(shè)計(jì)一種新型像素級(jí)細(xì)粒度的全像素空間注意力模塊(Full Pixel Spatial Attention Module,F(xiàn)PSAM),從而在空間維度上增強(qiáng)行人特征的判別能力。
受文獻(xiàn)[16]中bagTricks 模型的啟發(fā),本文設(shè)計(jì)了一種通道和空間雙重注意力網(wǎng)絡(luò)CSDA-Net,其結(jié)構(gòu)如圖1 所示。可以看到,CSDA-Net 網(wǎng)絡(luò)在骨干網(wǎng)絡(luò)的第1 個(gè)、第2 個(gè)、第3 個(gè)殘差塊后引入HPCAM 模塊,在骨干網(wǎng)絡(luò)的第4 個(gè)殘差塊后引入FPSAM 模塊。相比于批歸一化(Batch Normalization,BN)模塊,實(shí)例批歸一化(Instance Batch Normalization,IBN)模塊[17]對(duì)一個(gè)批次里的每一個(gè)樣本均進(jìn)行正則化處理,而不是對(duì)整個(gè)批次樣本進(jìn)行正則化處理。研究表明IBN 泛化能力較強(qiáng)[18],更加適合處理在復(fù)雜環(huán)境下拍攝的行人圖片。因此,CSDA-Net 骨干網(wǎng)絡(luò)采用ResNet50-IBN 網(wǎng)絡(luò)。
圖1 CSDA-Net 結(jié)構(gòu)Fig.1 Structure of CSDA-Net
通道注意力機(jī)制可以在引入少量參數(shù)的情況下,在通道維度上抑制無用信息的干擾及增強(qiáng)顯著性特征的表達(dá),從而提高行人重識(shí)別的準(zhǔn)確度和精度。為了在通道維度上獲得更加具有判別性的行人特征,本文在傳統(tǒng)通道注意力網(wǎng)絡(luò)機(jī)構(gòu)上進(jìn)行改進(jìn),設(shè)計(jì)了混合池通道注意力模塊HPCAM,其結(jié)構(gòu)如圖2 所示。本文的HPCAM模塊在通道域注意力(Squeeze and Excitation SE)模塊[19]的全局均值池化(Global Average Pooling,GAP)單分支結(jié)構(gòu)設(shè)計(jì)的基礎(chǔ)上,加入全局最大池化(Global Max Pooling,GMP)分支結(jié)構(gòu),即通過全局均值池化操作混合全局最大池化操作,進(jìn)一步挖掘通道維度上的顯著性特征,從而提取到更加具有判別性的特征。
圖2 HPCAM 模塊Fig.2 HPCAM module
如圖2 所示,HPCAM 模塊的輸入是一個(gè)三維向量XCA∈RC×H×W,其中W、H、C分別表示特征圖的寬度、高度和通道個(gè)數(shù)。HPCAM 模塊旨在學(xué)習(xí)得到一個(gè)在通道維度上的權(quán)重偏好向量Ac∈RC×1×1,用于捕獲特征在通道維度上的顯著性信息。HPCAM 模塊的輸出計(jì)算過程如式(1)所示:
由式(1)可以看出,當(dāng)權(quán)重偏好向量Ac為0時(shí),式(1)變成恒等映射,能有效避免隨著深度網(wǎng)絡(luò)層數(shù)的加深而出現(xiàn)梯度消失和網(wǎng)絡(luò)退化的情況,有助于深度模型的訓(xùn)練學(xué)習(xí),挖掘出在通道維度上的行人顯著性特征。其中權(quán)重偏好向量Ac是通過GAP 分支和GMP 分支共同學(xué)習(xí)得到,其表達(dá)式如式(2)所示:
在GAP 分支中,Aca的計(jì)算式如式(3)所示:
其中:σ(·)表示Sigmoid 函數(shù);δ(·)表示ReLU 激活函數(shù);Wa1表示GAP 分支中第1 個(gè)全連接層中權(quán)重向量,其特征維度為(C/r)×1×1,其中r表示降維比例因子,本文中r取16;Wa2表示第2 個(gè)全連接層中權(quán)重向量,其特征維度為C×1×1;GAP(·)表示全局均值池化操作。
在GMP 分支中,Acm的計(jì)算式如式(4)所示:
其中:Wm1表示GMP 分支中第1 個(gè)全連接層的權(quán)重向量;Wm2表示第2 個(gè)全連接層的權(quán)重向量;GMP(·)表示全局最大池化操作。
為進(jìn)一步在空間維度上增強(qiáng)行人特征的判別能力,本文在HPCAM 模塊之后加入了全像素空間注意力模塊FPSAM,其結(jié)構(gòu)組成如圖3 所示。FPSAM模塊學(xué)習(xí)到的是一個(gè)和輸入特征圖維度一致的全像素細(xì)粒度的注意力權(quán)重向量,能夠在HPCAM 模塊獲得粗粒度的注意力特征基礎(chǔ)上,進(jìn)一步獲得更加具有判別性的行人特征,提高行人重識(shí)別的準(zhǔn)確率和精度。
圖3 FPSAM 模塊Fig.3 FPSAM module
FPSAM 模塊的輸入是一個(gè)三維向量XPA∈RC×H×W,其中W、H、C分別表示特征圖的寬度、高度和通道個(gè)數(shù)。FPSAM 模塊旨在學(xué)習(xí)得到一個(gè)和輸入維度相同的權(quán)重向量As∈RC×H×W。FPSAM模塊的輸出為輸入向量XPA和權(quán)重偏好向量As的乘積,其計(jì)算式如式(5)所示:
其中:權(quán)重向量As是基于通道注意力權(quán)重向量Apc∈RC×1×1和空間注意力權(quán)重向量Aps∈R1×H×W計(jì)算所得,向量Apc和向量Aps的學(xué)習(xí)過程如圖3 所示,其中,通道注意力權(quán)重向量Apc的學(xué)習(xí)過程如圖3 中左虛線框所示。Apc的計(jì)算式如式(6)所示:
其中:Wpa1表示第1 個(gè)全連接層中的權(quán)重向量;Wpa2表示第2 個(gè)全連接層中的權(quán)重向量。
空間注意力權(quán)重向量Aps的學(xué)習(xí)過程如圖3 中右虛線框所示。具體而言,首先在通道維度上求均值,然后通過一個(gè)卷積核為3×3、步長為2 的卷積層,最后通過一個(gè)雙線性插值層還原得到特征圖Aps?;谙蛄緼pc和向量Aps即可得到像素注意力權(quán)重向量As。具體而言,向量Apc和向量Aps首先進(jìn)行逐元素相乘,然后再經(jīng)過一個(gè)卷積核為1×1、步長為1 的卷積層,最后經(jīng)過Sigmoid 激活函數(shù)進(jìn)行歸一化處理。向量As的計(jì)算式如式(7)所示:
其中:Conv(·)表示卷積操作。因?yàn)锳pc和Aps是通過2 個(gè)不同的分支獨(dú)立學(xué)習(xí)得到的,兩者直接相乘得到的權(quán)重向量存在信息冗余,所以加入1×1 的卷積層后可以修正權(quán)重向量,得到更加具有判別性的特征。
為了使模型能更加有效地提取出辨別性強(qiáng)的行人特征,本文采用交叉熵?fù)p失函數(shù)、三元組損失函數(shù)和中心損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練。交叉熵?fù)p失結(jié)合三元組損失和中心損失進(jìn)行聯(lián)合訓(xùn)練可以獲取更加有效的行人特征,這也是行人重識(shí)別研究領(lǐng)域常用的方式。
1.4.1 交叉熵?fù)p失函數(shù)
設(shè)進(jìn)行分類識(shí)別的特征為f,交叉熵?fù)p失函數(shù)的計(jì)算式如式(8)所示:
其中:N為訓(xùn)練集中類別總數(shù);Wi表示全連接層中第i個(gè)類別的權(quán)重向量;y是輸入圖像的真實(shí)標(biāo)簽,當(dāng)y≠i時(shí),qi=0,當(dāng)y=i時(shí),qi=1。為防止模型對(duì)訓(xùn)練集中行人圖片過擬合,提高模型的泛化能力,本文采用了帶標(biāo)簽平滑的交叉熵?fù)p失函數(shù)qi,其表達(dá)式為:
其中:ε是標(biāo)簽平滑參數(shù),其通過抑制真實(shí)標(biāo)簽在計(jì)算損失時(shí)的權(quán)重,從而抑制模型在數(shù)據(jù)集上過擬合,提高模型泛化能力。在本文中,ε設(shè)置為0.1。
1.4.2 三元組損失函數(shù)
本文采用的難樣本三元組損失函數(shù)是三元組損失函數(shù)的一個(gè)改進(jìn)版本。難樣本三元組損失函數(shù)可以表示為式(10)所示:
其中:P表示一個(gè)批次數(shù)據(jù)中行人ID 個(gè)數(shù);K表示每個(gè)行人挑選出圖片的個(gè)數(shù)表示批次中一張ID為i的行人圖片(anchor)的特征表示與其ID 相同的正樣本特征表示ID不同的負(fù)樣本特征;α為預(yù)設(shè)的超參閾值,用來調(diào)整正負(fù)樣本對(duì)之間的距離,本文中,α設(shè)置為0.6;[·]+表示max(·,0)函數(shù)。
1.4.3 中心損失函數(shù)
中心損失函數(shù)通過為每個(gè)類別學(xué)習(xí)得到一個(gè)特征中心點(diǎn),并在訓(xùn)練過程中不斷拉近深度特征和其對(duì)應(yīng)的特征中心之間的距離,從而使類內(nèi)特征更加緊湊,學(xué)習(xí)得到更加魯棒的判別性特征。中心損失函數(shù)的表達(dá)式如式(11)所示:
其中:fi表示第i個(gè)樣本經(jīng)過深度網(wǎng)絡(luò)后提取得到的特征;yi表示第i個(gè)樣本的標(biāo)簽;cyi表示第yi個(gè)類別對(duì)應(yīng)的高維特征中心;B表示批次大小。
1.4.4 本文損失函數(shù)
綜上所述,本文使用3 種損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,最終的損失函數(shù)表達(dá)式如式(12)所示:
其中:β表示中心損失對(duì)應(yīng)的權(quán)重系數(shù),在本文中,β默認(rèn)設(shè)置為0.000 5。
為證明本文網(wǎng)絡(luò)的有效性,本文在行人重識(shí)別領(lǐng)域公開的3 個(gè)大型數(shù)據(jù)集Market1501[20]、DukeMTMC-ReID[21]和CUHK03[22]上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集的屬性信息如表1 所示。
表1 數(shù)據(jù)集屬性信息Table 1 Attribute information of dataset
本文使用Pytorch 深度學(xué)習(xí)框架,并采用2 塊GeForce GTX 1080ti 顯卡進(jìn)行GPU加速。在訓(xùn)練迭代過程中,每次隨機(jī)挑選16個(gè)行人,每個(gè)行人挑選4張圖片來構(gòu)成一個(gè)批次,且圖片大小統(tǒng)一調(diào)整為384×192像素。在訓(xùn)練過程中,學(xué)習(xí)率采用預(yù)熱策略,即在前10個(gè)epoch學(xué)習(xí)率由3.5×10-5線性增加到3.5×10-4,然后在第50個(gè)、第140 個(gè)和第240 個(gè)epoch 時(shí)學(xué)習(xí)率進(jìn)行系數(shù)為0.1 的指數(shù)衰減,訓(xùn)練總次數(shù)為400 個(gè)epoch。訓(xùn)練過程中采用Adam 優(yōu)化器算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,并使用權(quán)重衰減因子為5×10-4的L2正則化。測(cè)試時(shí),使用BN 層之后的特征作為行人檢索特征,并采用余弦距離度量方式計(jì)算特征之間的距離。
本文使用累積匹配特性曲線(Cumulative Match Characteristic Curve,CMC)中的Rank-1 準(zhǔn)確率和平均精度均值(mean Average Precision,mAP)作為評(píng)估模型性能的指標(biāo)。
為證明本文網(wǎng)絡(luò)性能,本文與近幾年行人重識(shí)別領(lǐng)域中一些具有代表性的網(wǎng)絡(luò)進(jìn)行比較,如基于全局特征的IDE[5]、TriNet[6]、SVDNet[23]、bagTricks[16],基于局部特征的PCB[8]、PCB+RPP[8]、HPM[9]、MGN[24],以及基于注意力機(jī)制的HA-CNN[13]、CASN[11]、CAMA[15]、BDB[14]。為簡(jiǎn)化實(shí)驗(yàn)和直觀地分析網(wǎng)絡(luò)本身的有效性,本文所有實(shí)驗(yàn)均采用單幀查詢模式,且未使用re-ranking[25]技術(shù)。實(shí)驗(yàn)結(jié)果如表2 和表3 所示,其中“—”表示原文獻(xiàn)中未列出該實(shí)驗(yàn)結(jié)果。
表2 不同網(wǎng)絡(luò)在Market1501 和DukeMTMC-ReID 數(shù)據(jù)集下的結(jié)果對(duì)比Table 2 Comparison of results of different networks under Market1501 and DukeMTMC-ReID datasets %
表3 不同網(wǎng)絡(luò)在CUHK03 數(shù)據(jù)集下的結(jié)果對(duì)比Table 3 Comparison of results of different networks under CUHK03 dataset %
由表2 可知,本文CSDA-Net網(wǎng)絡(luò)在Market1501 數(shù)據(jù)集上的Rank-1 和mAP 分別為96.0%和90.4%,兩者同時(shí)達(dá)到了對(duì)比網(wǎng)絡(luò)中的最高精度。相比于同樣基于注意力機(jī)制的CAMA[15]和BDB[14],本文CSDA-Net 網(wǎng)絡(luò)在Rank-1 上分別提升了1.3 和0.7 個(gè)百分點(diǎn),在mAP上分別提升了5.9 和3.7 個(gè)百分點(diǎn)。CAMA 和BDB 網(wǎng)絡(luò)由于僅考慮的是局部區(qū)域粗粒度的注意力特征,缺乏對(duì)行人像素級(jí)細(xì)粒度注意力特征的統(tǒng)籌考慮,因此獲取的行人判別性特征不夠準(zhǔn)確。相比于使用全局 特征的bagTricks[16]和使用局部特征的MGN[24]網(wǎng)絡(luò),本文的CSDA-Net 在Rank-1 上分別提升了1.5和0.3 個(gè)百分點(diǎn),在mAP 上分別提升了4.5 和3.5 個(gè)百分點(diǎn)。未使用注意力機(jī)制的bagTricks 和MGN 網(wǎng)絡(luò)提取得到的是一個(gè)全局的特征,缺乏對(duì)判別性特征的關(guān)注,故而較難獲得辨別力強(qiáng)的行人特征。上述實(shí)驗(yàn)結(jié)果驗(yàn)證了本文CSDA-Net 網(wǎng)絡(luò)的有效性。
由表2 可知,本文CSDA-Net 網(wǎng)絡(luò)在DukeMTMCReID數(shù)據(jù)集上的Rank-1和mAP分別為91.3%和82.1%,兩者同時(shí)達(dá)到了對(duì)比網(wǎng)絡(luò)中的最高精度。相比于同樣基于注意力機(jī)制的CAMA[15]和BDB[14]網(wǎng)絡(luò),本文CSDANet 網(wǎng)絡(luò)在Rank-1 上分別提升了5.5 和2.3 個(gè)百分點(diǎn),在mAP 上分別提升了9.2 和6.1 個(gè)百分點(diǎn)。相比于使用全局特征的bagTricks[16]網(wǎng)絡(luò),本文CSDA-Net 網(wǎng)絡(luò)在Rank-1 和mAP 分別提高了4.9 和5.7 個(gè)百分點(diǎn)。相比于使用局部特征的MGN[24]網(wǎng)絡(luò),本文CSDA-Net 網(wǎng)絡(luò)在Rank-1 方面提高了2.6 個(gè)百分點(diǎn),在mAP 上提高了3.7 個(gè)百分點(diǎn)。在DukeMTMC-ReID 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果同樣證明了本文CSDA-Net 網(wǎng)絡(luò)的有效性。
不同網(wǎng)絡(luò)在CUHK03 數(shù)據(jù)集上的對(duì)比結(jié)果如表3 所示,可以看到,本文CSDA-Net 網(wǎng)絡(luò)的性能顯著優(yōu)于其他網(wǎng)絡(luò)。因?yàn)樵摂?shù)據(jù)集中行人邊界框由手工標(biāo)記方式和檢測(cè)器檢測(cè)兩種方式獲得,所以分成兩種情況進(jìn)行驗(yàn)證。在使用手工標(biāo)注方式獲得的行人邊界框下,本文CSDA-Net 網(wǎng)絡(luò)達(dá)到了81.1%的Rank-1 精度和82.9%的mAP,兩者同時(shí)達(dá)到了對(duì)比網(wǎng)絡(luò)中最好的性能。相比于同樣基于注意力機(jī)制的CAMA[15]和BDB[14]網(wǎng)絡(luò),本文CSDA-Net網(wǎng)絡(luò)在Rank-1上分別提升了12.8 和6.2 個(gè)百分點(diǎn),在mAP 上分別提升了14.6 和1.7 個(gè)百分點(diǎn)。在使用檢測(cè)器檢測(cè)的方式下,本文CSDA-Net 網(wǎng)絡(luò)達(dá)到了78.3%的Rank-1和80.0%的mAP,性能同樣優(yōu)于其他的網(wǎng)絡(luò),相比于同樣基于注意力機(jī)制的CAMA[15]和BDB[14]網(wǎng)絡(luò),本文CSDA-Net 網(wǎng)絡(luò)在Rank-1 上分別提升了11.7 和4.8 個(gè)百分點(diǎn),在mAP 上分別提升了15.8 和3.6 個(gè)百分點(diǎn)。在CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了本文CSDA-Net 網(wǎng)絡(luò)的有效性。
由表2、表3 可以看出,本文CSDA-Net 網(wǎng)絡(luò)在DukeMTMC-ReID 和CUHK03 數(shù)據(jù)集上性能提升幅度明顯高于在Market1501 數(shù)據(jù)集上的性能提升幅度,這是由于Market1501 數(shù)據(jù)集中的行人圖片較為規(guī)整,且較少出現(xiàn)物體遮擋、視圖變化、行人未對(duì)齊等不利情況,而DukeMTMC-ReID 和CUHK03 數(shù)據(jù)集具有較大挑戰(zhàn)性,更符合真實(shí)場(chǎng)景下行人圖片的特點(diǎn),即圖片來自于多個(gè)互不重疊的攝像頭,普遍存在行人姿態(tài)變化、物體遮擋、行人未對(duì)齊等不利情況。實(shí)驗(yàn)結(jié)果論證了本文CSDA-Net 網(wǎng)絡(luò)能夠有效應(yīng)對(duì)上述不利情況,具有更好的魯棒性,更適合真實(shí)場(chǎng)景下的行人重識(shí)別任務(wù)。
為展現(xiàn)本文網(wǎng)絡(luò)中2 個(gè)主要?jiǎng)?chuàng)新改進(jìn)模塊(HPCAM 模塊和FPSAM 模塊)對(duì)算法性能提升的貢獻(xiàn),本文以Market1501 數(shù)據(jù)集為例,設(shè)計(jì)了一系列消融實(shí)驗(yàn)。本文以未加入注意力模塊作為基線(Baseline)模型,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同模塊組合在Market1501 數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different module combinations on Market1501 dataset %
由表4 實(shí)驗(yàn)結(jié)果可以看出,單獨(dú)融入HPCAM 模塊或FPSAM 模塊均對(duì)模型效果有所提升,將HPCAM 模塊和FPSAM 模塊同時(shí)融入Baseline 模型(即本文方法),Rank-1 和mAP 得到了進(jìn)一步提升。上述實(shí)驗(yàn)表明,HPCAM 和FPSAM 兩個(gè)注意力模塊在“粒度”上具有互補(bǔ)作用,通過深度網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)粗粒度和細(xì)粒度注意力特征,可以獲得更具魯棒性的行人特征,從而提高行人重識(shí)別的準(zhǔn)確率和精度。
為進(jìn)一步驗(yàn)證本文網(wǎng)絡(luò)的先進(jìn)性,本文隨機(jī)檢索了Market1501 查詢集中的3 個(gè)行人,檢索結(jié)果排名前10 的圖片如圖4 所示。其中,Query 是待查詢圖像,1~10 是按照相識(shí)度從大到小排列的10 張檢索結(jié)果正確的圖像,分別表示為Rank-1~Rank-10。
圖4 本文網(wǎng)絡(luò)在Market1501 數(shù)據(jù)集下排名前10 的行人檢索結(jié)果展示Fig.4 Display of the top 10 pedestrian search results of network in this paper under the Market1501 dataset
從圖4 第1 個(gè)檢索示例中可以看出,當(dāng)攝像機(jī)視角變化(Rank-1,Rank-4,Rank-8)和行人姿態(tài)變化(Rank-1,Rank-2,Rank-3)時(shí),均可以被檢索出來。從圖4 第2 個(gè)檢索示例中可以看出,即使是與待檢索圖像不對(duì)齊的行人圖像(Rank-1,Rank-8)也可以被檢索出來。從圖4 第3 個(gè)檢索示例中可以看出,即使是被自行車遮擋的行人圖像(Rank-7)也可以被正確地檢索出來。在圖像低分辨率情況下,如第1 個(gè)檢索示例中的Rank-8 和第3 個(gè)檢索示例中的Rank-6 所示,也能被檢索出來。上述實(shí)驗(yàn)結(jié)果驗(yàn)證了本文網(wǎng)絡(luò)的有效性和魯棒性,可以有效應(yīng)對(duì)真實(shí)場(chǎng)景下的行人重識(shí)別問題。
針對(duì)在復(fù)雜環(huán)境下行人判別性特征難以獲取的問題,本文提出一種面向行人重識(shí)別的通道與空間雙重注意力網(wǎng)絡(luò)CSDA-Net。通過在深度模型中分階段融入HPCAM 模塊和FPSAM 模塊,獲得不同粒度的注意力特征,并通過深度網(wǎng)絡(luò)互補(bǔ)訓(xùn)練學(xué)習(xí),有效挖掘行人判別性特征,提高行人重識(shí)別的準(zhǔn)確率和精度。在CUHK03、DukeMTMC-ReID 和Market1501 公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)能有效提高行人重識(shí)別性能。下一步將從實(shí)際應(yīng)用的角度出發(fā),在跨模態(tài)的情況下把不同模態(tài)的特征數(shù)據(jù)統(tǒng)一映射到一個(gè)共享的特征表征空間中,并同時(shí)約束該共享特征空間中的類內(nèi)一致性和類間辨別性,使用深度模型訓(xùn)練得到與模態(tài)無關(guān)的行人判別性特征,提高行人重識(shí)別模型的泛化能力,從而提取具有魯棒性和判別性的行人特征。