金 梅,李媛媛,郝興軍,楊 曼,張立國
(燕山大學 電氣工程學院, 河北 秦皇島 066004)
行人重識別主要解決跨攝像頭、跨場景下行人的識別與檢索問題,在智能安防、公共安全、刑偵等領域有著廣泛的應用前景,是計算機視覺領域研究的熱點[1]。傳統(tǒng)行人重識別方法[2,3]采用先手工設計圖像特征,再進行相似度度量,適應性差、計算效率低,很難應用在場景復雜的大數(shù)據(jù)集上。隨著卷積神經(jīng)網(wǎng)絡[4,5](convolutional neural network, CNN)和計算機硬件的快速發(fā)展,基于深度學習的算法[6,7]逐漸代替了傳統(tǒng)方法,行人重識別的性能得到了顯著提升。
早期的行人重識別研究是以提取圖像的全局特征為主[8,9],由于實際場景較為復雜,不同攝像機拍攝到的同一行人圖像[10]在光線、姿態(tài)、遮擋、視角等方面存在差異,不利于行人重識別。局部特征[11]可以在特定范圍內(nèi)捕獲穩(wěn)定的行人特征,取得更好的檢索效果,但會出現(xiàn)局部范圍內(nèi)行人對不齊[12],導致需要引入姿態(tài)估計模型[13]從而增加計算量等一些新的問題。為了進一步提升行人重識別性能,相關學者們開始探索其他方法研究。
引入注意力機制可以在增加少量參數(shù)的情況下顯著提升計算精度,在行人重識別任務中受到廣泛應用。Chen T L等[14]將注意力機制與多樣性正則化無縫地嵌入網(wǎng)絡中學習多樣性特征,但忽視了局部特征,只利用全局特征預測行人重識別。Li W等[15]提出的HA-CNN結(jié)合軟、硬注意力,以多個分支學習行人的全局、局部特征并融合,優(yōu)化未對齊的行人圖像,但網(wǎng)絡結(jié)構(gòu)復雜。Xu J等[16]為解決行人遮擋的問題提出的AACN結(jié)構(gòu),主要分為PPA(pose-guided part attention)和AFC(attention-aware feature composition)兩個子結(jié)構(gòu),前者學習人體重要的區(qū)域特征并計算各區(qū)域可視化分數(shù),后者將上述區(qū)域特征與全局特征融合。Tay C T等[17]提出的AANet結(jié)構(gòu),在一個框架中結(jié)合注意力機制提取到行人的全局、局部以及屬性特征,并分別預測這3類特征。但這兩種方法提取到的特征缺乏邊緣、紋理等信息。
雖然以注意力機制為基礎的網(wǎng)絡模型在一定程度上改善了行人重識別的性能,但提取到的特征信息不充足。
為獲得較為全面的行人信息,Zhao H Y等[13]提出SpindleNet定位人體的關節(jié)點并進行區(qū)域劃分來提取局部特征,然后與全局特征融合,此方法只利用了高層信息,并且需要額外訓練骨骼關鍵點檢測網(wǎng)絡。Wang C等[18]提出的Multi-scale &Multi-patch不依賴其他輔助模型,使用尺度標準化塊統(tǒng)一處理多層特征實現(xiàn)融合,融合時沒有考慮特征之間的差異性,不能消除網(wǎng)絡深度不同帶來的隔閡。Wang Y等[19]采用自注意力模塊使網(wǎng)絡選擇性地關注特征的重要區(qū)域,并對中、高層特征進行加權(quán)融合,但未考慮低層特征的細節(jié)信息。
基于上述行人重識別方法提取到的特征種類單一、網(wǎng)絡復雜、需要依賴其他輔助模型等問題,本文提出了一種非對稱增強注意力與特征交叉融合網(wǎng)絡模型(asymmetric enhanced attention and feature cross fusion network, AEFC-Net),可獲得全面有效的行人信息進行行人重識別。該方法引入注意力機制設計了非對稱增強注意力模塊(asymmetric enhanced attention module,AEM),從多個角度出發(fā)提取顯著特征,同時考慮到網(wǎng)絡各層特征的差異,利用特征交叉融合模塊(feature cross fusion module, FCM)實現(xiàn)多特征融合,以彌補僅利用單一種類特征進行行人重識別預測的不足,并平均切分最后輸出,獲得行人的局部特征。本文提出的方法將在Market1501、DukeMTMC-reID與CUHK03這3個公開數(shù)據(jù)集上進行有效性驗證。
本文提出的AEFC-Net結(jié)構(gòu)如圖1所示。
圖1 AEFC-Net結(jié)構(gòu)圖Fig.1 AEFC-Net structural diagram
該特征學習分為上、下兩個支路:(1)上支路(黑箭頭部分)以預訓練好的ResNet50模型為骨干網(wǎng)絡快速獲取特征,移除原網(wǎng)絡后面的全局平均池化GAP層以及全連接FC層,并且將卷積塊Conv5_x的步長設置為1,不進行下采樣操作,使最后兩個卷積塊輸出的特征大小相同;(2)下支路(藍箭頭部分)主要由非對稱增強注意力模塊AEM及特征交叉融合模塊FCM構(gòu)成。
AEM采用了多重池化聚合的跨鄰域通道交互策略對Conv3_x 、Conv4_x與Conv5_x層的通道進行調(diào)整,使網(wǎng)絡重點關注3個特征中的行人區(qū)域,學習顯著性通道,增強預測目標的判別性。FCM則對AEM強化學習后的特征進行優(yōu)化處理,逐步消除低、高層特征之間的像素位置及信息差異,使得調(diào)整后的特征有效地融合在一起。
為了使網(wǎng)絡學習到更加豐富的行人特征,本文對上、下支路(紅箭頭部分)的輸出特征進行相加,然后將特征水平分割成K塊,并且使用GAP對每個塊進行處理得到K個局部特征向量,使每個塊均獲得局部范圍內(nèi)的穩(wěn)定特征。上述特征向量分別送入由FC層與Softmax層構(gòu)成的K個分類器,預測輸入圖像的行人信息。
注意力機制是調(diào)整信息重要性的有效手段,可用于提取辨別性的圖像特征,大部分注意力機制采用池化對輸入特征的空間維度進行壓縮,但是不同池化關注的信息不同并且會損害信息的完整性。
針對這一問題,本文提出一種非對稱增強注意力模塊AEM,其分為最大池化跨鄰域通道交互分支MPA與平均池化跨鄰域通道交互分支APA兩個特征處理支路,采用全局最大池化GMP和全局平均池化GAP分別壓縮特征,并且使用跨鄰域通道交互策略獲取每個通道與局部范圍內(nèi)相鄰通道間的關系,捕獲顯著特征,然后將兩分支的輸出與原特征相加融合,獲得多種顯著信息與背景信息并存的特征。非對稱增強注意力模塊如圖2所示,其中L、H、W分別為模塊的長、高、寬。
圖2 非對稱增強注意力模塊圖Fig.2 Asymmetrical enhanced attention module diagram
AEM利用1×1卷積對輸入進行通道交互與信息整合得到特征F,然后分為兩個支路學習行人的顯著特征。其中MPA分支利用GMP進行空間壓縮,聚合特征空間中的顯著性信息,得到一個1×1×C大小的特征向量。
利用變形操作將向量維度進行變換得到C×1×1,利用k×1卷積建立每個通道與局部范圍內(nèi)跨通道間的關系,其中卷積核k的大小根據(jù)通道數(shù)自適應獲取,本實驗中設置為C/4-1。通過Sigmoid層得到每個通道的權(quán)重值,與原特征逐通道相乘,輸出加權(quán)后的特征,可以表示為
F1=δ{R[M(F)|k=C/4-1]}?F
(1)
式中:F1為MPA分支輸出特征向量;δ為Sigmoid函數(shù)操作;R為一維卷積計算;M為全局最大池化操作;k為一維卷積核大??;C為輸入特征通道數(shù);F為分支輸入特征向量。
APA分支的通道權(quán)重的計算方法及過程與MPA分支一樣,區(qū)別在于此分支采用GAP聚合特征空間的整體性信息,池化后的特征向量經(jīng)跨鄰域通道交互策略得到各通道與局部范圍內(nèi)相鄰通道間的關系,通過Sigmoid層得到C個權(quán)重值,與原特征通道相乘后輸出另一個加權(quán)后的特征,可以表示為
F2=δ{R[A(F)|k=C/4-1]}?F
(2)
式中:F2為APA分支輸出特征向量;A為全局平均池化操作。
多重池化聚合的跨鄰域通道交互策略在增強特征中有辨別力的通道的同時弱化了原背景信息,為了保持信息的完整,將輸入特征與上述兩個分支的輸出特征相連,進行相加處理,可以表示為
Fc=F1+F2+F
(3)
式中Fc為AEM輸出特征向量。
在卷積神經(jīng)網(wǎng)絡中,低層特征的感受野小,邊緣、紋理等信息豐富,而隨著層數(shù)的增加深高層特征包含抽象的語義信息,二者具有互補性。目前一些行人重識別的研究偏重于對高層特征的利用,忽視低層特征,導致細節(jié)信息的缺失,不能很好地滿足行人重識別任務需求。針對上述問題,本文設計了FCM優(yōu)化低層特征、提取高層特征, 消除二者間的差異,實現(xiàn)多尺度特征融合。特征交叉融合模塊如圖3所示。
圖3 特征交叉融合模塊圖Fig.3 Feature cross-fusing module diagram
2.3.1 低層特征處理
首先,為實現(xiàn)多尺度融合,需要設置步長為2的3×3卷積對輸入特征Xin進行降采樣,減小尺寸,得到特征Xs;其次為了提取不同感受野的特征并且減少計算量,設置了3個分支:b1、b2及b3。每個分支分別采用不同數(shù)目不同擴張率的3×3conv,從上至下卷積數(shù)目、擴張率的設置如表1所示。
表1 FCM各分支卷積參數(shù)設置Tab.1 Convolution parameter setting for FCM branches
為了加強同級別信息的交流與傳遞,采用跳躍連接以及相加的計算方交叉式融合特征,可以表示為
X1=φ(Xs/d1)⊕φ(Xs/d2)
(4)
X2=φ(Xs/d2)⊕φ(Xs/d2)
(5)
X3=φ(X1/d5)⊕φ(X2/d5)
(6)
式中:X1、X2、X3表示各分支中處在同級別的不同擴張率的卷積融合得到的特征;φ表示3×3卷積計算;d為卷積核的擴張率大小。
3個分支的輸出特征感受野各不相同但有著同等重要的作用,并且考慮到計算的問題,采用通道拼接的方式進行融合。因為拼接后會導致后續(xù)計算量增加,所以利用1×1conv進行降維處理,輸出優(yōu)化后的低層特征,可以表示為
X′=γ[φ(Xs/d1),φ(X1/d5),φ(X3/d7)]
(7)
Xout=P(X′)
(8)
式中:X′為3個分支特征通道拼接后的輸出特征;Xout為輸出的低層特征;γ表示通道拼接;P為1×1卷積計算。
2.3.2 高層特征處理
由于高層特征的語義信息豐富,與低層特征的處理相比,僅設置了兩個分支:b4與b5,同樣采用不同數(shù)目不同擴張率的3×3 conv,如表1所示。分支連接處采用與低層特征相同的處理方式,先拼接后降維,提取到高層特征,可以表示為
Yout=P{γ[φ(Yin/d2),φ(Yin/d5)]}
(9)
式中Yin、Yout分別為輸入、輸出的高層特征。
對上述提取到的特征相加處理,得到同時擁有多種信息的特征,有效地解決行人判別時,信息不充足的問題,可以表示為
Z=Xout+Yout
(10)
式中Z表示FCM輸出特征。
本文在Market1501、DukeMTMC-reID、CUHK03這3個主流公開的數(shù)據(jù)集上進行了充分的實驗,各數(shù)據(jù)集屬性信息如表2所示。其中,CUHK03數(shù)據(jù)集行人邊界框分為DPM檢測和手工標記兩類,本文使用DPM檢測的行人邊界框并且使用第2種測試協(xié)議[20]。
表2 數(shù)據(jù)集詳細信息Tab.2 Data set details
本文實驗是基于NVIDIA RTX 2080 Ti GPU上使用Pytorch1.2.0框架實現(xiàn),計算機的操作系統(tǒng)為64位的Ubuntu16.04.6 LTS,Python版本為3.7.3。網(wǎng)絡的訓練周期數(shù)為60,訓練時批次大小設置為32,初始學習率為0.1,經(jīng)過40個周期后學習率調(diào)整為0.01。選擇SGD作為優(yōu)化器,動量設置為0.9,采用L2正則化,權(quán)重衰減因子設置為5×10-4。K個分類器交叉熵損失Loss0,Loss1,…LossK-1之和作為最終損失,訓練時取K= 6。測試時將K個特征向量拼接得到完整的行人特征。
3.3.1 AEM消融實驗
為了驗證AEM結(jié)構(gòu)的有效性,本文在Market1501數(shù)據(jù)集上做了幾組實驗進行對比,結(jié)果如表3所示,“√”表示添加了該模塊中的相應結(jié)構(gòu),“—”表示沒有添加該模塊中的相應結(jié)構(gòu)。從沒有AEM時開始實驗,依次加入MPA、APA與Shortcut分支,由于MPA分支與APA分支計算方式及過程基本一致,所以只討論了添加MPA分支時的情況。從表3中可以觀察到,精度由低變高,AEM結(jié)構(gòu)完整時達到最高,首位命中率Rank-1與平均精度均值mAP分別為93.5%、80.8%,證明了AEM的加入增強了模型對行人的重識別能力。
表3 AEM消融實驗Tab.3 AEM ablation experiment (%)
表4 FCM消融實驗Tab.4 FCM ablation experiment (%)
3.3.2 FCM消融實驗
為了驗證FCM結(jié)構(gòu)的有效性,本文在Market1501數(shù)據(jù)集上做了一系列比對實驗,結(jié)果如表4所示。首先,在沒有FCM結(jié)構(gòu)下,Rank-1和mAP分別為91.8%、78.1%;其次,先后添加了b1分支和b1、b4分支做了兩組實驗,精度均有提升且后者大于前者;最后,在b1、b4分支存在的基礎上再依次加入剩余的b2、b3、b5分支,直至FCM結(jié)構(gòu)完整。從實驗結(jié)果可以看出,每添加一個分支都在一定程度上提升了模型效果,表明了FCM結(jié)構(gòu)可以顯著提高網(wǎng)絡性能。
3.3.3 AEM、FCM數(shù)目消融實驗
為了研究AEM與FCM數(shù)目對模型表現(xiàn)的影響,本文在Market1501數(shù)據(jù)集上做了各模塊不同數(shù)目組合的實驗,結(jié)果如表5所示。在不引入注意力機制與融合策略的情況下,Rank-1為91.3%,mAP為77.5%;在此基礎上增加一個FCM時,模型效果明顯提升;當在FCM存在的基礎上再加入AEM時,效果進一步提升; 當AEM、FCM數(shù)目完整時,實驗結(jié)果達到最好。
表5 模塊數(shù)目消融實驗
將本文所提出的網(wǎng)絡模型在Market1501、DukeMTMC-reID、CUHK03這3個公開數(shù)據(jù)集上與近幾年的先進算法進行對比,結(jié)果如表6所示,“-”表示該算法沒有在此數(shù)據(jù)集上實驗。本文所有實驗均未采用重排序Re-ranking算法優(yōu)化結(jié)果。
從表6可以觀察到,本文提出的方法在3個公開數(shù)據(jù)集上均取得了一些方面的提升。首先,Market1501數(shù)據(jù)集上的Rank-1和mAP分別達到了93.5%和80.8%,超越了其他對比算法。相比于表中性能優(yōu)越的APDR[26]算法,本文方法充分利用特征間的互補優(yōu)勢,通過對其有效融合獲取豐富的特征信息,取得了更好的表現(xiàn);其次,本文方法在DukeMTMC-reID數(shù)據(jù)集上的表現(xiàn)同樣優(yōu)于對比算法,相比于PAN[21]等經(jīng)典算法有大幅度提升,與新穎的DUNet[24]算法相比Rank-1、mAP顯著提升了3.0%、4.9%;最后,在CUHK03數(shù)據(jù)集上,本文方法相較于先進的Ensemble[28]算法,Rank-1相差0.8%,但mAP提高了1.2%。
為了直觀地展示本模型的行人重識別效果,本文選擇在具有代表性的Market1501數(shù)據(jù)集上給定待查詢圖像進行行人重識別,如圖4 所示。
表6 在Market1501、DukeMTMC-reID、CUHK03數(shù)據(jù)集上與主流方法對比Tab.6 Comparison with mainstream methods on Market1501、DukeMTMC-reID and CUHK03 (%)
圖4 Market1501數(shù)據(jù)集上給定行人前10位查詢結(jié)果圖Fig.4 The top ten query results of a given pedestrian on the Market1501
隨機選取了3張行人圖像進行查詢,左側(cè)的第1列為查詢圖像,右側(cè)的10列為該行人前10位的檢索圖像,綠色框為正確識別,紅色框為錯誤識別。
根據(jù)可視化結(jié)果可以看出,對同一行人檢索的準確率較高,表明了本文方法的有效性。
針對目前多數(shù)行人重識別方法提取到的特征信息不充分、不具辨識性這一問題,本文提出一種基于非對稱增強注意力與特征交叉融合的行人重識別方法,從以下3個方面提升重識別性能:(1)考慮網(wǎng)絡不同層特征的差異性,對低、高層特征分別處理使其有效融合,達到信息互補的目的。(2)非對稱結(jié)構(gòu)的注意力模塊在保護信息完整性的同時,加強辨別性特征,抑制無關干擾。(3)獲取局部范圍內(nèi)穩(wěn)定、可辨識的行人特征,使網(wǎng)絡可以更好的應對行人遮擋問題。本文所提出的模型在多個公開數(shù)據(jù)集上進行了驗證,都取得了較好的效果,從而證明了該方法的有效性。