亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于非對稱增強(qiáng)注意力與特征交叉融合的行人重識別方法

2022-02-02 08:53:44李媛媛郝興軍張立國

計(jì)量學(xué)報 2022年12期

金梅，李媛媛，郝興軍，楊曼，張立國

(燕山大學(xué) 電氣工程學(xué)院，河北秦皇島 066004)

1 引言

行人重識別主要解決跨攝像頭、跨場景下行人的識別與檢索問題，在智能安防、公共安全、刑偵等領(lǐng)域有著廣泛的應(yīng)用前景，是計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)[1]。傳統(tǒng)行人重識別方法[2,3]采用先手工設(shè)計(jì)圖像特征，再進(jìn)行相似度度量，適應(yīng)性差、計(jì)算效率低，很難應(yīng)用在場景復(fù)雜的大數(shù)據(jù)集上。隨著卷積神經(jīng)網(wǎng)絡(luò)[4,5](convolutional neural network, CNN)和計(jì)算機(jī)硬件的快速發(fā)展，基于深度學(xué)習(xí)的算法[6,7]逐漸代替了傳統(tǒng)方法，行人重識別的性能得到了顯著提升。

早期的行人重識別研究是以提取圖像的全局特征為主[8,9]，由于實(shí)際場景較為復(fù)雜，不同攝像機(jī)拍攝到的同一行人圖像[10]在光線、姿態(tài)、遮擋、視角等方面存在差異，不利于行人重識別。局部特征[11]可以在特定范圍內(nèi)捕獲穩(wěn)定的行人特征，取得更好的檢索效果，但會出現(xiàn)局部范圍內(nèi)行人對不齊[12]，導(dǎo)致需要引入姿態(tài)估計(jì)模型[13]從而增加計(jì)算量等一些新的問題。為了進(jìn)一步提升行人重識別性能，相關(guān)學(xué)者們開始探索其他方法研究。

引入注意力機(jī)制可以在增加少量參數(shù)的情況下顯著提升計(jì)算精度，在行人重識別任務(wù)中受到廣泛應(yīng)用。Chen T L等[14]將注意力機(jī)制與多樣性正則化無縫地嵌入網(wǎng)絡(luò)中學(xué)習(xí)多樣性特征，但忽視了局部特征，只利用全局特征預(yù)測行人重識別。Li W等[15]提出的HA-CNN結(jié)合軟、硬注意力，以多個分支學(xué)習(xí)行人的全局、局部特征并融合，優(yōu)化未對齊的行人圖像，但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜。Xu J等[16]為解決行人遮擋的問題提出的AACN結(jié)構(gòu)，主要分為PPA(pose-guided part attention)和AFC(attention-aware feature composition)兩個子結(jié)構(gòu)，前者學(xué)習(xí)人體重要的區(qū)域特征并計(jì)算各區(qū)域可視化分?jǐn)?shù)，后者將上述區(qū)域特征與全局特征融合。Tay C T等[17]提出的AANet結(jié)構(gòu)，在一個框架中結(jié)合注意力機(jī)制提取到行人的全局、局部以及屬性特征，并分別預(yù)測這3類特征。但這兩種方法提取到的特征缺乏邊緣、紋理等信息。

雖然以注意力機(jī)制為基礎(chǔ)的網(wǎng)絡(luò)模型在一定程度上改善了行人重識別的性能，但提取到的特征信息不充足。

為獲得較為全面的行人信息，Zhao H Y等[13]提出SpindleNet定位人體的關(guān)節(jié)點(diǎn)并進(jìn)行區(qū)域劃分來提取局部特征，然后與全局特征融合，此方法只利用了高層信息，并且需要額外訓(xùn)練骨骼關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)。Wang C等[18]提出的Multi-scale &Multi-patch不依賴其他輔助模型，使用尺度標(biāo)準(zhǔn)化塊統(tǒng)一處理多層特征實(shí)現(xiàn)融合，融合時沒有考慮特征之間的差異性，不能消除網(wǎng)絡(luò)深度不同帶來的隔閡。Wang Y等[19]采用自注意力模塊使網(wǎng)絡(luò)選擇性地關(guān)注特征的重要區(qū)域，并對中、高層特征進(jìn)行加權(quán)融合，但未考慮低層特征的細(xì)節(jié)信息。

基于上述行人重識別方法提取到的特征種類單一、網(wǎng)絡(luò)復(fù)雜、需要依賴其他輔助模型等問題，本文提出了一種非對稱增強(qiáng)注意力與特征交叉融合網(wǎng)絡(luò)模型(asymmetric enhanced attention and feature cross fusion network， AEFC-Net)，可獲得全面有效的行人信息進(jìn)行行人重識別。該方法引入注意力機(jī)制設(shè)計(jì)了非對稱增強(qiáng)注意力模塊(asymmetric enhanced attention module,AEM)，從多個角度出發(fā)提取顯著特征，同時考慮到網(wǎng)絡(luò)各層特征的差異，利用特征交叉融合模塊(feature cross fusion module, FCM)實(shí)現(xiàn)多特征融合，以彌補(bǔ)僅利用單一種類特征進(jìn)行行人重識別預(yù)測的不足，并平均切分最后輸出，獲得行人的局部特征。本文提出的方法將在Market1501、DukeMTMC-reID與CUHK03這3個公開數(shù)據(jù)集上進(jìn)行有效性驗(yàn)證。

2 非對稱增強(qiáng)注意力與特征交叉融合網(wǎng)絡(luò)模型

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的AEFC-Net結(jié)構(gòu)如圖1所示。

圖1 AEFC-Net結(jié)構(gòu)圖Fig.1 AEFC-Net structural diagram

該特征學(xué)習(xí)分為上、下兩個支路：(1)上支路(黑箭頭部分)以預(yù)訓(xùn)練好的ResNet50模型為骨干網(wǎng)絡(luò)快速獲取特征，移除原網(wǎng)絡(luò)后面的全局平均池化GAP層以及全連接FC層，并且將卷積塊Conv5_x的步長設(shè)置為1，不進(jìn)行下采樣操作，使最后兩個卷積塊輸出的特征大小相同；(2)下支路(藍(lán)箭頭部分)主要由非對稱增強(qiáng)注意力模塊AEM及特征交叉融合模塊FCM構(gòu)成。

AEM采用了多重池化聚合的跨鄰域通道交互策略對Conv3_x 、Conv4_x與Conv5_x層的通道進(jìn)行調(diào)整，使網(wǎng)絡(luò)重點(diǎn)關(guān)注3個特征中的行人區(qū)域，學(xué)習(xí)顯著性通道，增強(qiáng)預(yù)測目標(biāo)的判別性。FCM則對AEM強(qiáng)化學(xué)習(xí)后的特征進(jìn)行優(yōu)化處理，逐步消除低、高層特征之間的像素位置及信息差異，使得調(diào)整后的特征有效地融合在一起。

為了使網(wǎng)絡(luò)學(xué)習(xí)到更加豐富的行人特征，本文對上、下支路(紅箭頭部分)的輸出特征進(jìn)行相加，然后將特征水平分割成K塊，并且使用GAP對每個塊進(jìn)行處理得到K個局部特征向量，使每個塊均獲得局部范圍內(nèi)的穩(wěn)定特征。上述特征向量分別送入由FC層與Softmax層構(gòu)成的K個分類器，預(yù)測輸入圖像的行人信息。

2.2 非對稱增強(qiáng)注意力模塊

注意力機(jī)制是調(diào)整信息重要性的有效手段，可用于提取辨別性的圖像特征，大部分注意力機(jī)制采用池化對輸入特征的空間維度進(jìn)行壓縮，但是不同池化關(guān)注的信息不同并且會損害信息的完整性。

針對這一問題，本文提出一種非對稱增強(qiáng)注意力模塊AEM，其分為最大池化跨鄰域通道交互分支MPA與平均池化跨鄰域通道交互分支APA兩個特征處理支路，采用全局最大池化GMP和全局平均池化GAP分別壓縮特征，并且使用跨鄰域通道交互策略獲取每個通道與局部范圍內(nèi)相鄰?fù)ǖ篱g的關(guān)系，捕獲顯著特征，然后將兩分支的輸出與原特征相加融合，獲得多種顯著信息與背景信息并存的特征。非對稱增強(qiáng)注意力模塊如圖2所示，其中L、H、W分別為模塊的長、高、寬。

圖2 非對稱增強(qiáng)注意力模塊圖Fig.2 Asymmetrical enhanced attention module diagram

AEM利用1×1卷積對輸入進(jìn)行通道交互與信息整合得到特征F，然后分為兩個支路學(xué)習(xí)行人的顯著特征。其中MPA分支利用GMP進(jìn)行空間壓縮，聚合特征空間中的顯著性信息，得到一個1×1×C大小的特征向量。

利用變形操作將向量維度進(jìn)行變換得到C×1×1，利用k×1卷積建立每個通道與局部范圍內(nèi)跨通道間的關(guān)系，其中卷積核k的大小根據(jù)通道數(shù)自適應(yīng)獲取，本實(shí)驗(yàn)中設(shè)置為C/4-1。通過Sigmoid層得到每個通道的權(quán)重值，與原特征逐通道相乘，輸出加權(quán)后的特征，可以表示為

F1=δ{R[M(F)|k=C/4-1]}?F

(1)

式中：F1為MPA分支輸出特征向量；δ為Sigmoid函數(shù)操作；R為一維卷積計(jì)算；M為全局最大池化操作；k為一維卷積核大小；C為輸入特征通道數(shù)；F為分支輸入特征向量。

APA分支的通道權(quán)重的計(jì)算方法及過程與MPA分支一樣，區(qū)別在于此分支采用GAP聚合特征空間的整體性信息，池化后的特征向量經(jīng)跨鄰域通道交互策略得到各通道與局部范圍內(nèi)相鄰?fù)ǖ篱g的關(guān)系，通過Sigmoid層得到C個權(quán)重值，與原特征通道相乘后輸出另一個加權(quán)后的特征，可以表示為

F2=δ{R[A(F)|k=C/4-1]}?F

(2)

式中：F2為APA分支輸出特征向量；A為全局平均池化操作。

多重池化聚合的跨鄰域通道交互策略在增強(qiáng)特征中有辨別力的通道的同時弱化了原背景信息，為了保持信息的完整，將輸入特征與上述兩個分支的輸出特征相連，進(jìn)行相加處理，可以表示為

Fc=F1+F2+F

(3)

式中Fc為AEM輸出特征向量。

2.3 特征交叉融合模塊

在卷積神經(jīng)網(wǎng)絡(luò)中，低層特征的感受野小，邊緣、紋理等信息豐富，而隨著層數(shù)的增加深高層特征包含抽象的語義信息，二者具有互補(bǔ)性。目前一些行人重識別的研究偏重于對高層特征的利用，忽視低層特征，導(dǎo)致細(xì)節(jié)信息的缺失，不能很好地滿足行人重識別任務(wù)需求。針對上述問題，本文設(shè)計(jì)了FCM優(yōu)化低層特征、提取高層特征，消除二者間的差異，實(shí)現(xiàn)多尺度特征融合。特征交叉融合模塊如圖3所示。

圖3 特征交叉融合模塊圖Fig.3 Feature cross-fusing module diagram

2.3.1 低層特征處理

首先，為實(shí)現(xiàn)多尺度融合，需要設(shè)置步長為2的3×3卷積對輸入特征Xin進(jìn)行降采樣，減小尺寸，得到特征Xs；其次為了提取不同感受野的特征并且減少計(jì)算量，設(shè)置了3個分支：b1、b2及b3。每個分支分別采用不同數(shù)目不同擴(kuò)張率的3×3conv，從上至下卷積數(shù)目、擴(kuò)張率的設(shè)置如表1所示。

表1 FCM各分支卷積參數(shù)設(shè)置Tab.1 Convolution parameter setting for FCM branches

為了加強(qiáng)同級別信息的交流與傳遞，采用跳躍連接以及相加的計(jì)算方交叉式融合特征，可以表示為

X1=φ(Xs/d1)⊕φ(Xs/d2)

(4)

X2=φ(Xs/d2)⊕φ(Xs/d2)

(5)

X3=φ(X1/d5)⊕φ(X2/d5)

(6)

式中：X1、X2、X3表示各分支中處在同級別的不同擴(kuò)張率的卷積融合得到的特征；φ表示3×3卷積計(jì)算；d為卷積核的擴(kuò)張率大小。

3個分支的輸出特征感受野各不相同但有著同等重要的作用，并且考慮到計(jì)算的問題，采用通道拼接的方式進(jìn)行融合。因?yàn)槠唇雍髸?dǎo)致后續(xù)計(jì)算量增加，所以利用1×1conv進(jìn)行降維處理，輸出優(yōu)化后的低層特征，可以表示為

X′=γ[φ(Xs/d1),φ(X1/d5),φ(X3/d7)]

(7)

Xout=P(X′)

(8)

式中：X′為3個分支特征通道拼接后的輸出特征；Xout為輸出的低層特征；γ表示通道拼接；P為1×1卷積計(jì)算。

2.3.2 高層特征處理

由于高層特征的語義信息豐富，與低層特征的處理相比，僅設(shè)置了兩個分支：b4與b5，同樣采用不同數(shù)目不同擴(kuò)張率的3×3 conv，如表1所示。分支連接處采用與低層特征相同的處理方式，先拼接后降維，提取到高層特征，可以表示為

Yout=P{γ[φ(Yin/d2),φ(Yin/d5)]}

(9)

式中Yin、Yout分別為輸入、輸出的高層特征。

對上述提取到的特征相加處理，得到同時擁有多種信息的特征，有效地解決行人判別時，信息不充足的問題，可以表示為

Z=Xout+Yout

(10)

式中Z表示FCM輸出特征。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)集

本文在Market1501、DukeMTMC-reID、CUHK03這3個主流公開的數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn)，各數(shù)據(jù)集屬性信息如表2所示。其中，CUHK03數(shù)據(jù)集行人邊界框分為DPM檢測和手工標(biāo)記兩類，本文使用DPM檢測的行人邊界框并且使用第2種測試協(xié)議[20]。

表2 數(shù)據(jù)集詳細(xì)信息Tab.2 Data set details

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)是基于NVIDIA RTX 2080 Ti GPU上使用Pytorch1.2.0框架實(shí)現(xiàn)，計(jì)算機(jī)的操作系統(tǒng)為64位的Ubuntu16.04.6 LTS，Python版本為3.7.3。網(wǎng)絡(luò)的訓(xùn)練周期數(shù)為60，訓(xùn)練時批次大小設(shè)置為32，初始學(xué)習(xí)率為0.1，經(jīng)過40個周期后學(xué)習(xí)率調(diào)整為0.01。選擇SGD作為優(yōu)化器，動量設(shè)置為0.9，采用L2正則化，權(quán)重衰減因子設(shè)置為5×10-4。K個分類器交叉熵?fù)p失Loss0，Loss1，…LossK-1之和作為最終損失，訓(xùn)練時取K= 6。測試時將K個特征向量拼接得到完整的行人特征。

3.3 消融實(shí)驗(yàn)

3.3.1 AEM消融實(shí)驗(yàn)

為了驗(yàn)證AEM結(jié)構(gòu)的有效性，本文在Market1501數(shù)據(jù)集上做了幾組實(shí)驗(yàn)進(jìn)行對比，結(jié)果如表3所示，“√”表示添加了該模塊中的相應(yīng)結(jié)構(gòu)，“—”表示沒有添加該模塊中的相應(yīng)結(jié)構(gòu)。從沒有AEM時開始實(shí)驗(yàn)，依次加入MPA、APA與Shortcut分支，由于MPA分支與APA分支計(jì)算方式及過程基本一致，所以只討論了添加MPA分支時的情況。從表3中可以觀察到，精度由低變高，AEM結(jié)構(gòu)完整時達(dá)到最高，首位命中率Rank-1與平均精度均值mAP分別為93.5%、80.8%，證明了AEM的加入增強(qiáng)了模型對行人的重識別能力。

表3 AEM消融實(shí)驗(yàn)Tab.3 AEM ablation experiment (%)

表4 FCM消融實(shí)驗(yàn)Tab.4 FCM ablation experiment (%)

3.3.2 FCM消融實(shí)驗(yàn)

為了驗(yàn)證FCM結(jié)構(gòu)的有效性，本文在Market1501數(shù)據(jù)集上做了一系列比對實(shí)驗(yàn)，結(jié)果如表4所示。首先，在沒有FCM結(jié)構(gòu)下，Rank-1和mAP分別為91.8%、78.1%；其次，先后添加了b1分支和b1、b4分支做了兩組實(shí)驗(yàn)，精度均有提升且后者大于前者；最后，在b1、b4分支存在的基礎(chǔ)上再依次加入剩余的b2、b3、b5分支，直至FCM結(jié)構(gòu)完整。從實(shí)驗(yàn)結(jié)果可以看出，每添加一個分支都在一定程度上提升了模型效果，表明了FCM結(jié)構(gòu)可以顯著提高網(wǎng)絡(luò)性能。

3.3.3 AEM、FCM數(shù)目消融實(shí)驗(yàn)

為了研究AEM與FCM數(shù)目對模型表現(xiàn)的影響，本文在Market1501數(shù)據(jù)集上做了各模塊不同數(shù)目組合的實(shí)驗(yàn)，結(jié)果如表5所示。在不引入注意力機(jī)制與融合策略的情況下，Rank-1為91.3%，mAP為77.5%；在此基礎(chǔ)上增加一個FCM時，模型效果明顯提升；當(dāng)在FCM存在的基礎(chǔ)上再加入AEM時，效果進(jìn)一步提升；當(dāng)AEM、FCM數(shù)目完整時，實(shí)驗(yàn)結(jié)果達(dá)到最好。

表5 模塊數(shù)目消融實(shí)驗(yàn)

3.4 對比實(shí)驗(yàn)

將本文所提出的網(wǎng)絡(luò)模型在Market1501、DukeMTMC-reID、CUHK03這3個公開數(shù)據(jù)集上與近幾年的先進(jìn)算法進(jìn)行對比，結(jié)果如表6所示，“-”表示該算法沒有在此數(shù)據(jù)集上實(shí)驗(yàn)。本文所有實(shí)驗(yàn)均未采用重排序Re-ranking算法優(yōu)化結(jié)果。

從表6可以觀察到，本文提出的方法在3個公開數(shù)據(jù)集上均取得了一些方面的提升。首先，Market1501數(shù)據(jù)集上的Rank-1和mAP分別達(dá)到了93.5%和80.8%，超越了其他對比算法。相比于表中性能優(yōu)越的APDR[26]算法，本文方法充分利用特征間的互補(bǔ)優(yōu)勢，通過對其有效融合獲取豐富的特征信息，取得了更好的表現(xiàn)；其次，本文方法在DukeMTMC-reID數(shù)據(jù)集上的表現(xiàn)同樣優(yōu)于對比算法，相比于PAN[21]等經(jīng)典算法有大幅度提升，與新穎的DUNet[24]算法相比Rank-1、mAP顯著提升了3.0%、4.9%；最后，在CUHK03數(shù)據(jù)集上，本文方法相較于先進(jìn)的Ensemble[28]算法，Rank-1相差0.8%，但mAP提高了1.2%。

3.5 實(shí)驗(yàn)結(jié)果可視化

為了直觀地展示本模型的行人重識別效果，本文選擇在具有代表性的Market1501數(shù)據(jù)集上給定待查詢圖像進(jìn)行行人重識別，如圖4 所示。

表6 在Market1501、DukeMTMC-reID、CUHK03數(shù)據(jù)集上與主流方法對比Tab.6 Comparison with mainstream methods on Market1501、DukeMTMC-reID and CUHK03 (%)

圖4 Market1501數(shù)據(jù)集上給定行人前10位查詢結(jié)果圖Fig.4 The top ten query results of a given pedestrian on the Market1501

隨機(jī)選取了3張行人圖像進(jìn)行查詢，左側(cè)的第1列為查詢圖像，右側(cè)的10列為該行人前10位的檢索圖像，綠色框?yàn)檎_識別，紅色框?yàn)殄e誤識別。

根據(jù)可視化結(jié)果可以看出，對同一行人檢索的準(zhǔn)確率較高，表明了本文方法的有效性。

4 結(jié) 論

針對目前多數(shù)行人重識別方法提取到的特征信息不充分、不具辨識性這一問題，本文提出一種基于非對稱增強(qiáng)注意力與特征交叉融合的行人重識別方法，從以下3個方面提升重識別性能：(1)考慮網(wǎng)絡(luò)不同層特征的差異性，對低、高層特征分別處理使其有效融合，達(dá)到信息互補(bǔ)的目的。(2)非對稱結(jié)構(gòu)的注意力模塊在保護(hù)信息完整性的同時，加強(qiáng)辨別性特征，抑制無關(guān)干擾。(3)獲取局部范圍內(nèi)穩(wěn)定、可辨識的行人特征，使網(wǎng)絡(luò)可以更好的應(yīng)對行人遮擋問題。本文所提出的模型在多個公開數(shù)據(jù)集上進(jìn)行了驗(yàn)證，都取得了較好的效果，從而證明了該方法的有效性。