摘" 要: 針對(duì)現(xiàn)有行人特征提取方法的不足,提出了一種融合ECA的多分支多損失行人重識(shí)別方法.首先,將輕量級(jí)ECA注意力模塊嵌入到骨干網(wǎng)絡(luò)ResNet50中,以增強(qiáng)顯著特征,抑制無關(guān)特征.其次,設(shè)計(jì)了一個(gè)多分支網(wǎng)絡(luò)結(jié)構(gòu)分別提取行人的全局特征和局部特征,針對(duì)不同的特征采取不同的多池化特征提取方式,增強(qiáng)網(wǎng)絡(luò)的特征提取能力.最后,聯(lián)合三種損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練,并采用BNNeck進(jìn)行優(yōu)化,從而提高模型的魯棒性.在Market1501和DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方法具有較好的效果,在識(shí)別精度上也優(yōu)于較多的經(jīng)典算法.
關(guān)鍵詞: 行人重識(shí)別;ECA注意力模塊;多分支特征;多損失聯(lián)合
中圖分類號(hào):TP391.4""" 文獻(xiàn)標(biāo)志碼:A""""" 文章編號(hào):1673-4807(2024)01-082-07
DOI:10.20061/j.issn.1673-4807.2024.01.013
收稿日期: 2021-09-14""" 修回日期: 2021-04-29
基金項(xiàng)目: 國(guó)家自然科學(xué)基金項(xiàng)目(62076111)
作者簡(jiǎn)介: 王衛(wèi)東(1968—),男,博士,副教授,研究方向?yàn)槟J阶R(shí)別、智能信息系統(tǒng).E-mail:78653221@qq.com
引文格式: 王衛(wèi)東,徐金慧,張志峰.融合ECA的多分支多損失行人重識(shí)別[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,38(1):82-88.DOI:10.20061/j.issn.1673-4807.2024.01.013.
Multi-branch and multi-loss person re-identification integratingefficient channel attention
WANG Weidong, XU Jinhui, ZHANG Zhifeng
(School of Computer, Jiangsu University of Science and Technology, Zhenjiang, 212100, China)
Abstract:Aiming at overcoming the shortcomings of the existing person feature extraction methods, we propose a multi-branch and multi-loss person re-identification method fused with ECA. Firstly, the lightweight ECA attention module is embedded in the backbone network ResNet50 to enhance salient features and suppress irrelevant features. Secondly, a multi-branch network structure is designed to extract the global and local features of person, and different multi-pool feature extraction methods are adopted for different features to enhance the feature extraction ability of the network. Finally, the three types of loss functions are combined to train the model, and BNNeck is used for optimization, so as to improve the robustness of the model. Experiments on Market1501 and DukeMTMC-reID datasets show that the method proposed in this paper has better results and is better than many classic algorithms in recognition accuracy.
Key words:person re-identification, ECA attention module, multi-branch feature, multi-loss combination
行人重識(shí)別(person re-identification, reID)廣泛應(yīng)用于智能安防、視頻監(jiān)控、目標(biāo)跟蹤等領(lǐng)域,但它仍然面臨著遮擋、光照、低分辨率、姿勢(shì)變化[1]、域自適應(yīng)等諸多挑戰(zhàn).
近年來,隨著深度學(xué)習(xí)的迅猛發(fā)展,基于深度學(xué)習(xí)的行人重識(shí)別已經(jīng)基本取代了傳統(tǒng)的行人重識(shí)別方法.文獻(xiàn)[2]提出了IDE(ID-discriminative Embedding)模型,以ResNet-50作為主干網(wǎng)絡(luò),行人的ID類別作為訓(xùn)練標(biāo)簽,已成為很多現(xiàn)有行人重識(shí)別方法的基準(zhǔn)網(wǎng)絡(luò).文獻(xiàn)[3]通過引入行人屬性標(biāo)簽,將ID損失和屬性損失進(jìn)行結(jié)合,提高了行人重識(shí)別的性能.
雖然全局特征包含了行人圖片中最顯著的外觀信息,有助于判別不同身份的行人[4],但是也導(dǎo)致了局部細(xì)節(jié)信息(如帽子,腰帶等)被忽略.當(dāng)行人目標(biāo)存在遮擋或視角問題時(shí),僅憑全局特征很難準(zhǔn)確地識(shí)別行人.為了解決這個(gè)問題,引入了局部特征,文獻(xiàn)[5]提出了PCB(part-based convolutional baseline)分塊模型,將特征圖水平均勻劃分為6塊并分別預(yù)測(cè)ID,同時(shí)提出了RPP(refined part pooling)來解決行人圖像不對(duì)齊問題.文獻(xiàn)[6]使用人體關(guān)鍵點(diǎn)算法(global-local-alignment descriptor,GLAD)將圖片分為頭部、上身和下身3部分進(jìn)行特征提取.文獻(xiàn)[7]通過使用姿態(tài)估計(jì)模型估計(jì)出人體關(guān)鍵點(diǎn),再通過仿射變換進(jìn)行語(yǔ)義部件對(duì)齊,從而提取局部信息.文獻(xiàn)[8]提出多粒度網(wǎng)絡(luò)(multiple granularity network,MGN),通過結(jié)合全局特征和不同粒度的局部特征,進(jìn)一步提升了網(wǎng)絡(luò)的識(shí)別性能.
隨著注意力機(jī)制地不斷發(fā)展,使用注意力機(jī)制來優(yōu)化行人重識(shí)別任務(wù)已經(jīng)得到了學(xué)術(shù)界地廣泛關(guān)注.文獻(xiàn)[9]提出了注意力組成網(wǎng)絡(luò)(attention-aware compositional network,AACN),利用注意力模塊提取行人圖像的姿態(tài)信息和局部信息,從而避免背景干擾.文獻(xiàn)[10]提出雙感知匹配網(wǎng)絡(luò)(dual attention matching network,DuATM),去學(xué)習(xí)上下文感知特征序列,同步執(zhí)行序列對(duì)比.文獻(xiàn)[11]將通道注意力模塊CAM和位置感知模塊PAM融入到骨干網(wǎng)絡(luò)中來提取通道和空間信息,同時(shí)引入正交正則化來增強(qiáng)隱藏激活和權(quán)重的多樣性.文獻(xiàn)[12]提出了混合高階注意力網(wǎng)絡(luò)(mixed high-order attention network,MHN),通過混合不同階次的注意力模塊學(xué)習(xí)更有區(qū)分性的特征,進(jìn)一步增強(qiáng)注意信息的辨別力和豐富性.但上述注意力的方法由于復(fù)雜注意力模塊的加入,使得網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度更高,計(jì)算量更大.
為了解決行人重識(shí)別方法不能有效提取行人特征導(dǎo)致識(shí)別精度低且網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜的問題,文中提出了一種融合ECA的多分支多損失行人重識(shí)別網(wǎng)絡(luò)模型,其創(chuàng)新之處是采用多特征方法,分別提取行人圖像的全局特征和局部特征,并采用多損失函數(shù)進(jìn)行網(wǎng)絡(luò)參數(shù)優(yōu)化.同時(shí),算法還引入一個(gè)超輕量級(jí)的ECA注意力模塊,來強(qiáng)化更具鑒別性的行人特征.
1" 融合ECA的多分支多損失行人重識(shí)別網(wǎng)絡(luò)模型思想及步驟
(1) 構(gòu)建ResNet50殘差網(wǎng)為骨干網(wǎng).
(2) 將注意力模塊ECA注入到殘差網(wǎng)ResNet50中.
(3) 在ResNet50之后,網(wǎng)絡(luò)分為3個(gè)分支,包括兩個(gè)全局和一個(gè)局部分支.
(4) 在兩個(gè)全局分支的輸入端,一個(gè)采用平均池化,另一個(gè)采用最大池化,提取行人的全局特征.
(5) 全局分支采用相同的網(wǎng)絡(luò)結(jié)構(gòu),包括1×1卷積層,然后是三元組損失和中心損失組成的優(yōu)化層,再采用BNNeck瓶頸結(jié)構(gòu)得到歸一化特征,最后經(jīng)FC層用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化.
(6) 局部分支將特征圖水平均勻切分為3個(gè)部分.
(7) 對(duì)每個(gè)部分分別進(jìn)行最大池化和平均池化,通過特征拼接將兩種池化后的特征進(jìn)行融合.
(8) 對(duì)于融合后的特征,再經(jīng)過1×1卷積層、BN層和 ReLU 層得到局部特征向量.經(jīng)FC層用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化.
2" 網(wǎng)絡(luò)模型結(jié)構(gòu)
網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1,主要由骨干網(wǎng)絡(luò)和3個(gè)分支構(gòu)成.其中,骨干網(wǎng)絡(luò)以ResNet-50為基礎(chǔ),在每個(gè)階段中嵌入ECA注意力模塊.同時(shí)對(duì)ResNet-50進(jìn)行了輕微修改:移除網(wǎng)絡(luò)最后的池化層和全連接層;為了使特征圖擁有更加豐富的細(xì)節(jié)信息,取消了第四階段中的下采樣操作.引入ECA注意力模塊的目的是在不增加網(wǎng)絡(luò)復(fù)雜度的前提下使網(wǎng)絡(luò)更加關(guān)注行人圖像的有用信息,忽略無用信息,從而增強(qiáng)網(wǎng)絡(luò)的特征提取能力.
算法將輸入圖像大小調(diào)整為324×128,經(jīng)過骨干網(wǎng)絡(luò)后得到大小為24×8×2 048的特征圖.隨后將網(wǎng)絡(luò)分為3個(gè)分支,其中兩個(gè)為全局分支,一個(gè)為局部分支.對(duì)于兩個(gè)全局分支,分別采取全局最大池化和全局平均池化,以提取更全面的高級(jí)語(yǔ)義信息.經(jīng)過池化后得到特征大小為1×1×2 048.再通過1×1卷積層得到512維的全局判別特征,由三元組損失和中心損失進(jìn)行優(yōu)化.最后通過BNNeck瓶頸結(jié)構(gòu)得到歸一化特征,經(jīng)過FC層后用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化.
對(duì)于局部分支,將特征圖水平均勻切分為3個(gè)部分,對(duì)每個(gè)部分分別進(jìn)行最大池化和平均池化,通過特征拼接的方式將兩種池化后的特征進(jìn)行融合,從而得到增強(qiáng)的局部特征,局部特征的維數(shù)為4 096維.再經(jīng)過1×1卷積層維數(shù)下降為512維,最后采用BN層和 ReLU 層將特征向量降至256維.加入BN層的目的是使得網(wǎng)絡(luò)訓(xùn)練過程中的每一層輸入保持相同分布.考慮到分塊可能導(dǎo)致的不對(duì)齊問題,局部分支僅采用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化.
3" ECA注意力模塊
為了克服性能和復(fù)雜性折衷之間的矛盾,引入了高效通道注意力模塊[13](efficient channel attention,ECA),其主要作用是為每個(gè)通道生成相應(yīng)的權(quán)重并學(xué)習(xí)其相關(guān)性.將行人圖像的關(guān)鍵特征生成較大的權(quán)重,而無關(guān)的特征則生成較小的權(quán)重,從而提升網(wǎng)絡(luò)對(duì)行人主要特征的敏感度.避免降維對(duì)學(xué)習(xí)通道注意力具有重要意義,而跨通道信息交互可以在降低模型復(fù)雜度的同時(shí),提高模型的性能.
ECA模塊在SE模塊[14]的基礎(chǔ)上,去除了原來SE模塊中的FC層,通過增加局部跨通道交互和通道共享參數(shù),降低了模型的復(fù)雜度,提高了學(xué)習(xí)注意力的效率.ECA模塊結(jié)構(gòu)如圖2.
如圖2,ECA模塊首先對(duì)輸入的特征圖進(jìn)行全局平均池化,將特征從二維矩陣壓縮與提取到單個(gè)數(shù)值,然后執(zhí)行大小為k的快速一維卷積來生成通道權(quán)重,獲取各個(gè)通道之間的相關(guān)依賴關(guān)系.其中k是由通道維數(shù)C的函數(shù)自適應(yīng)地確定.最后將生成的各個(gè)通道的權(quán)重通過乘法加權(quán)到原來的輸入特征圖上,將通過ECA模塊提取的特征與原本的特征的加權(quán)完成在通道空間的特征再標(biāo)定.通道權(quán)重為:
wi=σ∑kj=1αjyij" yij∈Ωki(1)
式中:Ωki為yi的k個(gè)鄰域通道;yi為經(jīng)過全局平均池化后的通道i的特征表示;αj為共享參數(shù);σ為激活函數(shù);wi為通道i的權(quán)重.
通道權(quán)重的計(jì)算需要通過核大小為k的一維卷積來實(shí)現(xiàn),可以看出k是一個(gè)關(guān)鍵參數(shù),因?yàn)閗決定了局部跨通道交互的覆蓋范圍.由于通道維數(shù)C大小與k成正比,得到其指數(shù)函數(shù)對(duì)應(yīng)關(guān)系:
C=φk=2γ·k-b(2)
已知通道維數(shù)C,一維卷積核大小k為:
k=ψC=log2Cγ+bγodd(3)
式中:todd表示與t最近的奇數(shù).文中γ和b分別設(shè)為2和1.
4" 多池化與多損失函數(shù)
文中在模型中同時(shí)使用了平均池化和最大池化,從而獲得既有全局信息又有代表性信息的行人特征.所提出的網(wǎng)絡(luò)模型學(xué)習(xí)到更魯棒的行人特征,文中使用交叉熵?fù)p失(cross-entropy loss)、難樣本三元組損失(batch-hard triplet loss)、中心損失(center loss)3種損失函數(shù)聯(lián)合訓(xùn)練,并利用BNNeck對(duì)其進(jìn)行優(yōu)化.
4.1" 交叉熵?fù)p失
交叉熵?fù)p失用于分類任務(wù),交叉熵?fù)p失為:
Lc=-∑Ni=1qilogeeWTif∑Nk=1eWTkf" qi=0,y≠iqi=1,y=i(4)
式中:N為訓(xùn)練集中的行人類別總數(shù),y為行人的真實(shí)標(biāo)簽;W是全連接層對(duì)應(yīng)i類別的權(quán)重向量.
但是交叉熵?fù)p失函數(shù)過度依賴正確的行人標(biāo)簽,容易造成訓(xùn)練過擬合(overfitting)的現(xiàn)象.為了防止模型過擬合并且提高模型的泛化能力,采用了標(biāo)簽平滑(label smoothing)[15]思想,對(duì)行人標(biāo)簽進(jìn)行了平滑處理,將式(4)中的q改為:
qi=εNy≠i1-N-1Nεy=i(5)
式中:ε是錯(cuò)誤率,用于降低模型在訓(xùn)練集上的置信度,將其設(shè)置為0.1.
4.2" 難樣本三元組損失
難樣本三元組損失是三元組損失的改進(jìn)版本.公式為:
Ltriplet=α+maxp=1…K‖fia-fip‖2-""" minp=1…Kj=1…Pj≠i‖fia-fjn‖2+(6)
式中:fia為錨點(diǎn)特征向量;fip為正樣本特征向量;fjn為負(fù)樣本特征向量;P是每個(gè)批次中的行人ID數(shù);K是每個(gè)批次中同一ID的圖片數(shù);φ+表示maxφ,0;α為三元組損失的margin參數(shù),將其設(shè)置為1.2.
4.3" 中心損失
若僅使用三元組損失函數(shù)作為度量損失,可能會(huì)出現(xiàn)類間距離小于類內(nèi)距離的情況.所以引入了中心損失(center loss),中心損失可以學(xué)習(xí)到每一類深度特征圖的中心.當(dāng)深度特征圖與其對(duì)應(yīng)的類中心之間的距離較大時(shí),中心損失會(huì)對(duì)其進(jìn)行懲罰,從而彌補(bǔ)了三元組損失的缺點(diǎn).center loss 函數(shù)定義為:
Lcenter=12∑Bj=1‖ftj-cyj‖22(7)
式中:yj為第j個(gè)圖像的標(biāo)簽;cyj為第yj個(gè)類別的特征中心;B為最小批次的圖片數(shù)量.
4.4" 聯(lián)合損失函數(shù)
針對(duì)全局特征和局部特征,分別采用了不同的損失函數(shù).對(duì)于全局特征,使用三元組損失、中心損失和交叉熵?fù)p失3種損失函數(shù).而對(duì)于局部特征,考慮到分塊導(dǎo)致的不對(duì)齊問題,僅使用交叉熵?fù)p失.這樣整個(gè)網(wǎng)絡(luò)模型的損失函數(shù)為:
Ltotal=12∑2iLtripletGi+ε×∑2iLcenterGi+
15∑5iLCfi(8)
式中:Gi為全局特征;Ltriplet為三元組損失;Lcenter為中心損失;LC為交叉熵?fù)p失;fi為兩個(gè)全局特征和3個(gè)局部特征;ε為center loss的權(quán)重,文中設(shè)為 0.000 5.
雖然聯(lián)合三種損失函數(shù)可以提高模型的魯棒性.但是由于分類損失和度量損失優(yōu)化特征目標(biāo)所在的特征空間是不一致的.交叉熵?fù)p失通過構(gòu)建超平面來將不同類別的特征分配到不同的子空間里面,更適合在余弦空間優(yōu)化特征.而三元組損失和中心損失更適合在歐幾里得空間中約束特征.
4.5" BNNeck瓶頸結(jié)構(gòu)
如果對(duì)同一特征向量同時(shí)使用這兩種損失函數(shù),它們的特征空間目標(biāo)將會(huì)不一致,從而出現(xiàn)在訓(xùn)練過程中一種損失在減少,而另一種損失在振蕩甚至增加的可能.為了解決這一問題,引入BNNeck瓶頸結(jié)構(gòu).BNNeck的核心思想是在全連接(FC)層前添加批量歸一化(BN)層,如圖3.BN層前的特征為ft,ft經(jīng)過BN層得到的歸一化特征為fi.在訓(xùn)練過程中,ft用于計(jì)算三元組損失和中心損失,fi用于計(jì)算交叉熵?fù)p失.在測(cè)試階段,文中將fi用于最終的判別特征.
5" 實(shí)驗(yàn)與分析
5.1" 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用行人重識(shí)別領(lǐng)域兩個(gè)大型公開數(shù)據(jù)集,Marker-1501和DukeMTMC-reID.Marker-1501數(shù)據(jù)集是在清華大學(xué)中采集,包含在6個(gè)攝像頭(5個(gè)高清攝像頭和1個(gè)普清攝像頭)下1 501個(gè)行人的32 668張圖像,其中訓(xùn)練集有751人,共12 936張圖像.測(cè)試集有750人,共19 732張圖像,包含3 368張查詢圖像.DukeMTMC-reID 數(shù)據(jù)集在杜克大學(xué)中采集,是從DukeMTMC視頻數(shù)據(jù)集的視頻中每120幀采樣一張圖像而得到的.包含8個(gè)攝像頭下1 812個(gè)行人的36 411張圖像.其中訓(xùn)練集有702人,共16 522張圖像.測(cè)試集有702人,共19 889張圖像,包含2 228張查詢圖像.該數(shù)據(jù)集中不同行人的圖像相似度較高,具有較強(qiáng)的挑戰(zhàn)性.
文中采用累積匹配特性(cumulative matching characteristics,CMC)曲線中的首位命中率(Rank-1)和平均精度均值(mean average precision,MAP)作為評(píng)估模型性能的指標(biāo).Rank-1是檢索結(jié)果中第一張圖像即為目標(biāo)行人圖像的概率.MAP是計(jì)算所有查詢圖像在準(zhǔn)確率-召回率曲線下方的面積平均值.反應(yīng)了檢索結(jié)果中所有正確圖像排名的靠前程度,能更全面地衡量 ReID 算法的性能.
5.2" 實(shí)驗(yàn)設(shè)置
在深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)相關(guān)算法.網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)采用ResNet-50,并使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50模型參數(shù)來初始化網(wǎng)絡(luò)權(quán)重.在訓(xùn)練和測(cè)試過程中,將輸入圖像大小均調(diào)整為384×128,訓(xùn)練階段采用水平翻轉(zhuǎn)、隨機(jī)擦除(Random Erasing)和歸一化進(jìn)行數(shù)據(jù)預(yù)處理,測(cè)試階段僅使用歸一化處理.
批次大小N=P×K設(shè)置為16,每個(gè)訓(xùn)練批次隨機(jī)挑選P為4個(gè)行人,每個(gè)行人隨機(jī)選取K為4張圖片.三元組損失margin參數(shù)設(shè)置為1.2,中心損失權(quán)重參數(shù)設(shè)為5×10-4.訓(xùn)練共經(jīng)過500個(gè)周期(epoch),初始學(xué)習(xí)率為2×10-4,在第320周期和第380周期分別衰減為2×10-5和2×10-6.采用自適應(yīng)梯度優(yōu)化器(Adam)對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化,初始學(xué)習(xí)率為2×10-4,權(quán)重衰減因子為5×10-4的L2正則化.
5.3" 與傳統(tǒng)方法的對(duì)比實(shí)驗(yàn)
將文中算法與近年主流算法在Market1501和DukeMTMC-reID兩個(gè)數(shù)據(jù)集上進(jìn)行比較,結(jié)果如表1、2.
由表1可以看出,文中算法在Market1501數(shù)據(jù)集上Rank-1和MAP精度分別達(dá)到了95.1%和86.7%,與目前較優(yōu)的DG-Net相比,Rank-1和MAP分別提高了0.3%和0.7%.
由表2可以看出,在DukeMTMC-reID數(shù)據(jù)集上,文中方法Rank-1和MAP精度分別達(dá)到了89.2%和78.3%,較于OSNet算法精度分別提高了0.6%和4.8%.結(jié)果表明,所提模型能夠有效提升行人重識(shí)別的準(zhǔn)確率.
5.4" 消融研究
為評(píng)估所采用的各方法對(duì)網(wǎng)絡(luò)模型的影響,在Market1501 數(shù)據(jù)集上設(shè)計(jì)了一系列消融實(shí)驗(yàn).
5.4.1" ECA注意力模塊有效性分析
為驗(yàn)證ECA注意力模塊的有效性,對(duì)比了僅采用ResNet-50為骨干網(wǎng)絡(luò)和采用嵌入ECA注意力模塊的ResNet-50為骨干網(wǎng)絡(luò)兩者的實(shí)驗(yàn)結(jié)果,如表3.可以看出,添加了ECA注意力模塊后,網(wǎng)絡(luò)模型在Market1501 數(shù)據(jù)集上的Rank-1提升了1.3%,MAP提升了1.8%.實(shí)驗(yàn)結(jié)果表明,添加ECA注意力模塊有助于網(wǎng)絡(luò)對(duì)有效特征的提取,增強(qiáng)網(wǎng)絡(luò)的識(shí)別能力.
5.4.2" 多分支多池化架構(gòu)有效性分析
為研究多分支結(jié)構(gòu)和多池化特征提取對(duì)網(wǎng)絡(luò)模型的影響,選擇不同分支和不同池化的組合進(jìn)行了一系列對(duì)比實(shí)驗(yàn).結(jié)果如表4.
表4中G1、G2和P分別代表全局分支1、全局分支2和局部分支.A代表全局平均池化,M代表全局最大池化.因此,G1A表示采用全局平均池化的全局分支1,G1M表示采用全局最大池化的全局分支2,PAM表示采用多池化(全局平均池化和全局最大池化)特征提取的局部分支.
在多分支方面,可以看出,當(dāng)只有全局分支G1A時(shí),識(shí)別精度最低,Rank-1與MAP分別為92.9%和83.0%.而每增加一個(gè)分支,Rank-1和MAP精度都會(huì)提高,這體現(xiàn)了多分支模型的有效性.
在池化方面,當(dāng)采用G1A + PM方法時(shí),Rank-1與MAP精度僅達(dá)到了94.0%和83.6%.而采用G1AM + PAM方法時(shí),Rank-1與MAP精度分別達(dá)到了94.5%和84.8%,相比于單池化分別增加了0.5%和1.2%.這體現(xiàn)了多池化模型的有效性.因此,結(jié)合兩者的優(yōu)勢(shì),最終選用三分支多池化方法(G1A + G2M + PAM),獲得了最好的實(shí)驗(yàn)結(jié)果.
5.4.3" 多損失函數(shù)和BNNeck有效性分析
為證明多損失函數(shù)聯(lián)合學(xué)習(xí)以及BNNeck對(duì)損失進(jìn)一步優(yōu)化的有效性,進(jìn)行了一系列定量分析(表5).
表5中,cross代表交叉熵?fù)p失,triplet代表三元組損失,center代表中心損失.可以看出,當(dāng)聯(lián)合三種損失函數(shù)共同訓(xùn)練時(shí),Rank-1和MAP精度分別達(dá)到93.6%和83.2%.相比于只有兩種損失函數(shù)聯(lián)合學(xué)習(xí)的模型,雖然Rank-1精度沒有提高,但是MAP精度提高了1.6%.而對(duì)于只有交叉熵?fù)p失函數(shù)的模型,Rank-1和MAP精度分別提高了7.4%和18.1%.此外,當(dāng)聯(lián)合三種損失函數(shù)的模型加上BNNeck進(jìn)行優(yōu)化后,Rank-1精度提高了1.5%,MAP精度提高了3.5%.實(shí)驗(yàn)結(jié)果證明了多損失函數(shù)的有效性以及BNNeck對(duì)損失的優(yōu)化作用.
5.5" 實(shí)驗(yàn)結(jié)果可視化
圖4展示了文中實(shí)驗(yàn)的部分可視化結(jié)果.圖中左側(cè)query是待查詢圖像,右側(cè)1~10是查詢結(jié)果圖像.其中,無邊框的圖像為正確檢索結(jié)果,有邊框的圖像為錯(cuò)誤檢索結(jié)果.不難看出,文中方法具有較高的識(shí)別效果,從而顯示了模型較強(qiáng)的魯棒性.
6" 結(jié)論
針對(duì)行人特征提取方法問題的不足,提出了一種融合ECA的多分支多損失行人特征提取模型.得出如下結(jié)論:
(1) ECA注意力模塊的嵌入增強(qiáng)了行人的顯著特征,抑制了不相關(guān)特征.
(2) 多分支網(wǎng)絡(luò)能夠同時(shí)提取行人的全局特征和局部特征,并采取不同的池化方來充分進(jìn)行特征提取.
(3) 為了進(jìn)一步提高模型的魯棒性,結(jié)合了三種損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練,并采用BNNeck進(jìn)行優(yōu)化.
在Market1501和DukeMTMC-reID兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文中模型具有較好的魯棒性,同時(shí)在識(shí)別精度上也有所提升.未來的工作是進(jìn)一步優(yōu)化模型,在不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高行人重識(shí)別的準(zhǔn)確率.
參考文獻(xiàn)(References)
[1]" 李永順,李垣江,張尤賽,等. 應(yīng)用HOG-CHT組合特征的行人檢測(cè)[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,31(1):66-27.
[2]" ZHENG L, YANG Y, HAUPTMANN A G. Person re-identification: Past, present and future[J]. Journal of Class Files,2015,14(8):1610.02984.
[3]" LIN Y, ZHENG L, ZHENG Z, et al. Improving person re-identification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.
[4]" LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]∥Proceedings of the IEEE Conference On Computervision and Pattern Recognition.USA:IEEE,2015: 2197-2206.
[5]" SUN Y, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling [C]∥Proceedings of the European Conference on Computer Vision.USA:ECCV,2018: 480-496.
[6]" WEI L, ZHANG S, YAO H, et al. Glad: Global-local-alignment descriptor for pedestrian retrieval[C]∥Proceedings of the 25th ACM International Conference on Multimedia.USA:ACM,2017: 420-428.
[7]" ZHENG L, HUANG Y, LU H, et al. Pose-invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4500-4509.
[8]" WANG G, YUAN Y, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification[C]∥Proceedings of the 26th ACM International Conference on Multimedia.USA:ACM,2018: 274-282.
[9]" XU J, ZHAO R, ZHU F, et al. Attention-aware compositional network for person re-identification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE,2018: 2119-2128.
[10]" SI J, ZHANG H, LI C G, et al. Dual attention matching network for context-aware feature sequence based person re-identification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE, 2018: 5363-5372.
[11]" CHEN T, DING S, XIE J, et al. Abd-net: Attentive but diverse personre-identification[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. USA:IEEE,2019: 8351-8361.
[12]" CHEN B, DENG W, HU J. Mixed high-order attention network for person re-identification[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision.USA:IEEE,2019: 371-381.
[13]" WANG Q, WU B, ZHU P," et al. ECA-Net: Efficient channelattention for deep convolutional neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE,2020:11534-11542.
[14]" HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2018: 7132-7141.
[15]" SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2016: 2818-2826.
(責(zé)任編輯:曹莉)