亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合注意力與局部特征融合的行人重識(shí)別算法

        2022-07-21 09:47:32陳林鋒雷景生吳宏毅朱陳思聰葉仕超
        關(guān)鍵詞:分支全局行人

        陳林鋒,雷景生,吳宏毅,朱陳思聰,葉仕超

        浙江科技學(xué)院 信息與電子工程學(xué)院,杭州 310000

        隨著安防需求的日益增加,越來(lái)越多的攝像頭安裝在學(xué)校、游樂(lè)園、銀行、停車(chē)場(chǎng)、社區(qū)等場(chǎng)所,形成了大型分布式監(jiān)控網(wǎng)絡(luò)。成熟的監(jiān)控網(wǎng)絡(luò)能夠切實(shí)保障社會(huì)的平穩(wěn)運(yùn)行、人身以及財(cái)產(chǎn)安全。學(xué)校安裝攝像頭可以保證學(xué)生的人身以及財(cái)產(chǎn)安全,銀行可以通過(guò)監(jiān)控視頻識(shí)別與跟蹤不法分子,社區(qū)安裝攝像頭來(lái)保證居民的人身以及財(cái)產(chǎn)安全。在面對(duì)不同攝像頭下行人身份關(guān)聯(lián)的問(wèn)題時(shí),由于攝像機(jī)拍攝角度以及分辨率的原因,無(wú)法得到可靠的人臉圖片進(jìn)行身份識(shí)別,這時(shí)候就需要行人重識(shí)別技術(shù)。行人重識(shí)別是指在跨攝像頭跨場(chǎng)景下行人的識(shí)別與檢索,即給定一個(gè)要查詢(xún)的人,確定這個(gè)人是否在不同的時(shí)間出現(xiàn)在另一個(gè)地方,由不同的攝像頭捕捉到。由于光照變化、攝像頭視角變化、行人在視頻畫(huà)面中姿態(tài)變化以及遮擋等問(wèn)題的存在,使得同一行人在不同時(shí)刻不同場(chǎng)景下被攝像頭捕捉到的圖像差別很大,這為行人重識(shí)別帶來(lái)了巨大的挑戰(zhàn)[1]。

        近年來(lái),隨著機(jī)器學(xué)習(xí)的理論以及應(yīng)用取得了巨大的進(jìn)步,深度學(xué)習(xí)作為其重要分支,也在各個(gè)領(lǐng)域大放異彩。基于深度學(xué)習(xí)的行人重識(shí)別方法增強(qiáng)了表征信息的提取,促進(jìn)了度量學(xué)習(xí)方法的革新,提升了在各個(gè)數(shù)據(jù)集上的檢索性能。

        全局特征學(xué)習(xí)方法通過(guò)使用先進(jìn)的深度學(xué)習(xí)技術(shù)來(lái)提取行人的表征信息,然而,在光照、遮擋等不受限的環(huán)境下,只依靠全局特征的行人重識(shí)別方法無(wú)法解決較大的類(lèi)內(nèi)差異,通常會(huì)導(dǎo)致檢索性能大幅下降,無(wú)法再準(zhǔn)確識(shí)別行人[2]。為了解決這個(gè)問(wèn)題,基于局部特征的方法廣泛地應(yīng)用到行人重識(shí)別問(wèn)題當(dāng)中。Sun等人[3]提出了基于局部的卷積網(wǎng)絡(luò),將從特征提取器獲得的特征水平分割成若干塊,對(duì)每一個(gè)特征塊提取細(xì)粒度局部信息,同時(shí)利用精修部件池化(refined part pool)改善直接分塊造成邊緣粗糙的缺點(diǎn)。Wang等人[4]將特征圖進(jìn)行分割來(lái)提取多粒度的行人肢體語(yǔ)義信息。模型采用了三分支結(jié)構(gòu),一個(gè)分支用來(lái)提取全局特征,其他兩個(gè)分支用于局部特征表示,通過(guò)融合全局信息以及具有辨識(shí)力的多粒度局部信息來(lái)增強(qiáng)行人的特征表達(dá)。由于圖片中行人的身體各部位有不對(duì)齊的情況,直接使用基于局部特征的方法在計(jì)算特征相似度時(shí)會(huì)帶來(lái)噪聲,Suh等人[5]提出了基于身體部位對(duì)齊的雙流網(wǎng)絡(luò),其預(yù)訓(xùn)練權(quán)重由姿勢(shì)估計(jì)數(shù)據(jù)集訓(xùn)練而得,一個(gè)分支用于提取全局外觀(guān)特征,另一個(gè)分支用于提取局部身體特征,并通過(guò)雙線(xiàn)性池化將兩者進(jìn)行融合。Zhang等人[6]提出了基于密集語(yǔ)義對(duì)齊的行人重識(shí)別模型,通過(guò)引入DensePose(dense human pose estimation in the wild)來(lái)定位行人身體各個(gè)部件,有效地解決了空間語(yǔ)義不對(duì)齊問(wèn)題,同時(shí)也解決了姿態(tài)變化、遮擋等常見(jiàn)問(wèn)題,顯著地提高了算法的精度。Sun等人[7]提出一種可見(jiàn)性感知局部模型(visibility-aware part model),VPM可估計(jì)出兩張行人圖像之間的共享區(qū)域,并在評(píng)估圖片相似性時(shí)聚焦共享區(qū)域,顯著提高了行人重識(shí)別的準(zhǔn)確率。

        注意力機(jī)制因其增強(qiáng)重要特征以及抑制無(wú)關(guān)特征的特性被廣泛應(yīng)用在行人重識(shí)別領(lǐng)域當(dāng)中,它能夠改善行人姿態(tài)變化、視角變化、檢測(cè)器檢測(cè)誤差等問(wèn)題帶來(lái)的干擾[8]。Li等人[9]聯(lián)合硬注意力與軟注意力機(jī)制學(xué)習(xí)區(qū)域級(jí)別和像素級(jí)別的重要特征來(lái)解決同一行人不同圖片之間差距大的問(wèn)題,同時(shí)提出了交叉注意力交互學(xué)習(xí)機(jī)制(cross-attention interaction)來(lái)高效地聯(lián)合學(xué)習(xí)全局特征與局部特征。Chen等人[10]采用不同階次的注意力模塊提取高階統(tǒng)計(jì)量,從而顯著增強(qiáng)了注意力信息的辨別力和豐富性。此外,引入對(duì)抗學(xué)習(xí)約束來(lái)防止模型在訓(xùn)練階段時(shí)高階模塊坍塌為低階模塊。Xia等人[11]結(jié)合非局部機(jī)制與二階注意力來(lái)挖掘特征圖中點(diǎn)與點(diǎn)之間相關(guān)性,有效學(xué)習(xí)到豐富的全局信息,在局部分支加入了DropBlock進(jìn)行特征擦除來(lái)提升模型的魯棒性。Chen等人[12]將一對(duì)互補(bǔ)的注意力模塊融入到骨干網(wǎng)絡(luò)中,分別提取通道以及空間域的注意力信息,避免注意力機(jī)制過(guò)度集中于前景,同時(shí)引入正交規(guī)范化對(duì)特征空間以及神經(jīng)網(wǎng)絡(luò)權(quán)重進(jìn)行約束以確保重識(shí)別特征的多樣性。Park等人[13]提出基于非局部機(jī)制的關(guān)系網(wǎng)絡(luò),充分考慮了身體各個(gè)部位與其他部位之間的關(guān)系,使得每個(gè)局部特征都包含了相應(yīng)部位本身以及身體其他部位的信息,使其更具區(qū)分性,并提出全局對(duì)比池化來(lái)(global contrast pool)獲得行人圖片的細(xì)粒度全局特征。

        鑒于注意力機(jī)制與局部特征學(xué)習(xí)方法對(duì)行人姿態(tài)變化、遮擋、視角變化等問(wèn)題的魯棒性,本文提出了結(jié)合注意力與局部特征融合的行人重識(shí)別算法。該算法將ResNeSt-50[14]作為特征提取器,由雙分支結(jié)構(gòu)組成,分別提取行人細(xì)粒度全局和局部特征,通過(guò)關(guān)注不同特征之間共享的空間域信息以及同一特征不同水平區(qū)域之間的特征相關(guān)性,提出了空間感知特征融合模塊(spatial-aware feature fusion module)以及跨區(qū)域特征融合模塊(cross-region feature fusion module)。在Market-1501[15]、DukeMTMC-reID[16]以及CUHK03[17]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該算法極大程度上提升了網(wǎng)絡(luò)的檢索能力,同時(shí)與現(xiàn)有算法進(jìn)行比較,凸顯出優(yōu)越性能。

        1 結(jié)合注意力與局部特征融合的算法介紹

        1.1 算法網(wǎng)絡(luò)框架

        ResNet-50憑借其引入的殘差結(jié)構(gòu),使得網(wǎng)絡(luò)能夠向更深的方向發(fā)展,提取到豐富的高層語(yǔ)義信息,避免了出現(xiàn)梯度爆炸和梯度消失問(wèn)題。目前絕大部分行人重識(shí)別工作都選擇ResNet-50[18]作為骨干網(wǎng)絡(luò)來(lái)提取行人圖像的初始特征。然而,像ResNet等一系列基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)是針對(duì)圖像分類(lèi)而設(shè)計(jì),這些基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)會(huì)受到感受野的限制同時(shí)缺乏跨通道之間的相互作用。最近,新提出的ResNeSt在圖像分類(lèi)、對(duì)象檢測(cè)、實(shí)例分割和語(yǔ)義分割任務(wù)中達(dá)到了最先進(jìn)的性能,它通過(guò)基于通道的注意力機(jī)制來(lái)捕獲跨通道之間的關(guān)系。此外,它采用核大小為3×3的平均池化來(lái)代替ResNet-50中使用3×3卷積來(lái)進(jìn)行下采樣,這樣不會(huì)損失很多空間信息。ResNeSt網(wǎng)絡(luò)目前在行人重識(shí)別任務(wù)中還未廣泛使用,本文選用最新的ResNeSt-50作為骨干網(wǎng)絡(luò)來(lái)拓展其在行人重識(shí)別任務(wù)中的應(yīng)用。

        圖1給出了本文提出的行人重識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)圖,與單純使用ResNeSt-50不同的是,在ResNeSt-50的每個(gè)split-attention block中融入了空間感知特征融合模塊,目的是對(duì)不同的特征圖進(jìn)行跨通道關(guān)聯(lián)之前,讓每一個(gè)特征圖經(jīng)過(guò)一個(gè)共享權(quán)重的空間域注意力模塊,這樣能夠幫助網(wǎng)絡(luò)先挑選重要的特征并抑制無(wú)關(guān)的噪聲,進(jìn)一步增強(qiáng)特征魯棒性的同時(shí)加快網(wǎng)絡(luò)的收斂。

        圖1 算法網(wǎng)絡(luò)框架Fig.1 Algorithm network framework

        基于全局特征的單流網(wǎng)絡(luò)結(jié)構(gòu)能夠從圖像中提取行人身上顯著的辨別特征,來(lái)區(qū)分不同身份的行人,但是單流結(jié)構(gòu)無(wú)法提取關(guān)鍵的非顯著性特征,而且學(xué)習(xí)到的特征容易受背景信息的干擾,在面對(duì)遮擋、行人姿態(tài)變化等問(wèn)題時(shí)很難完成行人身份的分類(lèi)[19]。為了解決這個(gè)問(wèn)題,多分支結(jié)構(gòu)被廣泛應(yīng)用在行人重識(shí)別任務(wù)中,通過(guò)多個(gè)分支學(xué)習(xí)不同粒度信息來(lái)獲得更強(qiáng)大的行人表征,例如雙流結(jié)構(gòu)以及三分支結(jié)構(gòu)等[20]。雖然多分支結(jié)構(gòu)能夠挖掘更豐富的語(yǔ)義信息,增強(qiáng)網(wǎng)絡(luò)的檢索能力,但同時(shí)也加大了網(wǎng)絡(luò)訓(xùn)練的難度,減慢了網(wǎng)絡(luò)的收斂。因此本文在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)上,選用雙流網(wǎng)絡(luò)結(jié)構(gòu),這樣不僅可以通過(guò)多分支結(jié)構(gòu)增強(qiáng)行人的特征表示,而且不會(huì)因?yàn)檫^(guò)多的網(wǎng)絡(luò)分支造成訓(xùn)練難以收斂[21]。在圖1中,從ResNeSt-50 Layer1,2,3開(kāi)始分開(kāi)為兩個(gè)分支,分別是全局分支(global branch)以及部件關(guān)聯(lián)分支(part-association branch)。其中,全局分支強(qiáng)調(diào)學(xué)習(xí)行人整體的表征信息,部件關(guān)聯(lián)分支則強(qiáng)調(diào)學(xué)習(xí)行人各個(gè)身體部位的細(xì)粒度表征信息。在全局分支中,行人圖片通過(guò)ResNeSt-50 Layer1,2,3后,進(jìn)入到ResNeSt-50 Layer4時(shí)使用下采樣,之后特征圖經(jīng)過(guò)平均池化層,核大小為12×4,得到2 048維特征向量。該特征向量先通過(guò)一個(gè)全連接層,得到1 024維的輸出特征fg_1,fg_1在測(cè)試階段被視為行人圖片的全局特征,在訓(xùn)練階段用來(lái)計(jì)算硬三元組損失。接著,fg_1進(jìn)入一個(gè)全連接層得到輸出特征fg_2,此特征向量在訓(xùn)練階段用來(lái)計(jì)算交叉熵?fù)p失。在部件關(guān)聯(lián)分支中,與全局分支不同的是進(jìn)入到ResNeSt-50 Layer4時(shí)為了保留足夠的語(yǔ)義信息,沒(méi)有使用下采樣,之后特征圖經(jīng)過(guò)降維層(Reduction)后進(jìn)入跨區(qū)域特征融合模塊,讓每個(gè)身體部位的特征融合到其他身體部位來(lái)增強(qiáng)局部特征的豐富性,使得網(wǎng)絡(luò)能夠自適應(yīng)地關(guān)注到圖片中的行人區(qū)域,減少背景噪聲的干擾。模塊生成的各個(gè)局部特征先通過(guò)一個(gè)卷積塊進(jìn)行特征融合,再經(jīng)過(guò)平均池化層得到1 024維的輸出特征fp_1,其在測(cè)試階段被視為行人圖片的局部特征,在訓(xùn)練階段用來(lái)計(jì)算硬三元組損失。接著,fp_1進(jìn)入一個(gè)全連接層得到輸出特征fp_2,此特征向量在訓(xùn)練階段用來(lái)計(jì)算交叉熵?fù)p失。網(wǎng)絡(luò)將行人圖片的全局特征fg_1與局部特征fp_1按通道方向拼接在一塊,組成2 048維特征向量ftotal作為行人圖片的特征表示,如公式(1)所示:

        1.2 空間感知特征融合模塊

        由于ResNeSt網(wǎng)絡(luò)結(jié)構(gòu)中融入了基于通道的注意力機(jī)制,因此能夠捕獲跨通道的潛在語(yǔ)義信息,獲得更加精細(xì)化的行人表征。在行人重識(shí)別任務(wù)中,除了利用通道間的相互作用來(lái)增強(qiáng)特征的區(qū)別力之外,還可以捕獲空間域的重要特征信息,增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)行人特征表示的辨別能力,提升算法精度。鑒于以上分析,采用軟注意力機(jī)制,抑制特征圖中的噪聲,引導(dǎo)網(wǎng)絡(luò)關(guān)注對(duì)識(shí)別行人身份起到關(guān)鍵作用的空間位置,從而為后續(xù)的跨通道交互起到互補(bǔ)作用。

        給定在ResNeSt的某一個(gè)Bottleneck中分組卷積后輸出的特征映射組F={F1,F2,…,FT},即該分組卷積的結(jié)果有T個(gè)特征圖。如圖2(b)所示,輸入的每一個(gè)特征圖都先經(jīng)過(guò)一個(gè)共享權(quán)重的空間注意力塊(spatial attention block)來(lái)優(yōu)化空間信息,最后將每一個(gè)優(yōu)化后的特征圖進(jìn)行累加融合,其結(jié)果作為跨通道交互的輸入特征。在圖2(a)中,空間注意力塊的輸入特征先通過(guò)一個(gè)按通道方向取每個(gè)特征位置平均值的全局池化層(Pool),從而得到通道數(shù)為1的三維特征向量,再經(jīng)過(guò)三個(gè)3×3卷積層(φ1、φ2、φ3)來(lái)擴(kuò)大感受野,捕獲更豐富的空間信息,利用Sigmoid函數(shù)將卷積操作后的特征向量映射成空間注意力矩陣Xt,輸入特征與該注意力矩陣點(diǎn)乘后的結(jié)果通過(guò)一個(gè)殘差結(jié)構(gòu)得到優(yōu)化過(guò)空間信息的特征圖。特征映射組F經(jīng)過(guò)此空間感知特征融合模塊后得到融合特征,如公式(2)、公式(3)所示:

        圖2 空間注意力塊和空間感知特征融合模塊Fig.2 Spatial attention block and spatial-aware feature fusion module

        1.3 跨區(qū)域特征融合模塊

        最近的一些工作表明基于局部特征學(xué)習(xí)的方法有助于挖掘行人精細(xì)化表示,減少因遮擋產(chǎn)生的噪聲[11]。相比于其他方法將特征圖水平劃分為若干個(gè)區(qū)域并對(duì)這些區(qū)域采用池化方法來(lái)直接獲得局部特征不同,本文方法基于非局部注意力機(jī)制,充分考慮不同身體部件之間潛在的語(yǔ)義相關(guān)性,通過(guò)遍歷融合不同部位的局部特征來(lái)挖掘關(guān)鍵的非顯著性信息。數(shù)據(jù)經(jīng)過(guò)ResNeSt-50 Layer1,2,3之后,進(jìn)入部件關(guān)聯(lián)分支學(xué)習(xí)細(xì)粒度局部特征,通過(guò)ResNeSt-50 Layer4,進(jìn)入跨區(qū)域特征融合模塊學(xué)習(xí)不同身體部位之間的潛在語(yǔ)義信息,該模塊分為空間關(guān)聯(lián)注意力以及通道聚合注意力兩個(gè)子模塊。給定輸入特征P∈RC×H×W,其中C是特征圖的通道總數(shù),H和W分別是特征圖的高和寬。首先把P水平劃分為K個(gè)特征區(qū)域Pi∈RC×(H/K)×W,將這些特征區(qū)域經(jīng)過(guò)空間關(guān)聯(lián)注意力子模塊,利用不同身體部件之間的空間位置的相關(guān)性進(jìn)行局部特征融合來(lái)得到輸出特征Ps_i,再將這些特征輸入到通道聚合注意力子模塊學(xué)習(xí)通道域中不同身體部件之間的非顯著信息,最后得到精細(xì)化行人局部特征Ps_c_i。通過(guò)聯(lián)合行人的細(xì)粒度全局特征和細(xì)粒度局部特征,行人特征的完整性以及豐富性得到進(jìn)一步提升,網(wǎng)絡(luò)的檢索能力也因此大大增強(qiáng)。在圖1中展示了跨區(qū)域特征融合模塊的框架結(jié)構(gòu),對(duì)其各個(gè)子模塊的詳細(xì)說(shuō)明如下。

        1.3.1 空間關(guān)聯(lián)注意力子模塊

        水平劃分的局部特征Pi∈RC×(H/K)×W首先拼接成完整特征圖P∈RC×H×W,再讓特征圖P通過(guò)兩個(gè)1×1卷積層(γs,μs)進(jìn)行降維得到兩個(gè)輸出特征,對(duì)這兩個(gè)特征進(jìn)行reshape操作后的結(jié)果分別進(jìn)行矩陣乘積以及Sigmoid激活函數(shù)得到空間注意力系數(shù)矩陣As。為了挖掘局部特征的空間域相關(guān)性,根據(jù)Pi與Pj在特征圖P中的位置,即可從系數(shù)矩陣中找到Pj對(duì)應(yīng)于Pi的空間相關(guān)系數(shù)子矩陣As_i_j,如公式(4)所示:

        由于單個(gè)局部特征內(nèi)部的相關(guān)性較高而局部特征之間的相關(guān)性較低,為了挖掘到更多關(guān)鍵但非顯著的重要特征,在特征融合操作時(shí)沒(méi)有將局部特征本身的空間相關(guān)性As_i_i計(jì)算在內(nèi)。在圖3中,特征融合操作通過(guò)殘差結(jié)構(gòu)和一個(gè)1×1卷積層(σs)得到局部特征Pi的對(duì)應(yīng)輸出特征,如公式(5)所示:

        圖3 空間關(guān)聯(lián)注意力Fig.3 Spatial association attention(SAA)

        1.3.2 通道聚合注意力子模塊

        在行人重識(shí)別任務(wù)中,高層特征的通道往往有很強(qiáng)的相關(guān)性,一些通道共享相似的語(yǔ)義信息,例如衣服、鞋子、褲子、背景等。通過(guò)挖掘每個(gè)局部特征與其他局部特征之間的通道相關(guān)性來(lái)進(jìn)行特征融合,增強(qiáng)重識(shí)別特征的豐富性與多樣性。

        從空間關(guān)聯(lián)注意力子模塊輸出的特征圖Ps_i按通道方向拼接成完整特征圖,將Ps與自身reshape操作后的特征圖進(jìn)行矩陣乘積再通過(guò)歸一化得到通道注意力系數(shù)矩陣Ac。為了挖掘局部特征的通道域相關(guān)性,根據(jù)Ps_i與Ps_j在特征圖Ps中的位置,即可從系數(shù)矩陣中找到Ps_j對(duì)應(yīng)于Ps_i的通道相關(guān)系數(shù)子矩陣Ac_i_j,如公式(6)所示:

        同樣考慮到局部特征內(nèi)部的相關(guān)性較高而局部特征之間的相關(guān)性較低,在特征融合操作時(shí)沒(méi)有將局部特征本身的通道相關(guān)性Ac_i_i計(jì)算在內(nèi)。特征融合操作通過(guò)殘差結(jié)構(gòu)和一個(gè)1×1卷積層(σc)得到局部特征Ps_i的對(duì)應(yīng)輸出特征,如公式(7)所示:

        1.4 損失函數(shù)

        為了在訓(xùn)練過(guò)程中讓網(wǎng)絡(luò)學(xué)習(xí)到有身份鑒別力的特征,使用交叉熵?fù)p失(cross entropy loss)作為損失函數(shù)之一。交叉熵?fù)p失用來(lái)度量網(wǎng)絡(luò)預(yù)測(cè)類(lèi)別分布與真實(shí)類(lèi)別發(fā)布的差異性,被廣泛應(yīng)用于機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的分類(lèi)問(wèn)題當(dāng)中。在行人重識(shí)別任務(wù)中使用交叉熵?fù)p失意味著將重識(shí)別問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,即給定一張行人圖片,判斷它屬于哪個(gè)身份并把它歸到那一類(lèi)別。通過(guò)將身份信息作為監(jiān)督信號(hào),能夠有效地引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)到具有身份鑒別力的特征表示,保證在訓(xùn)練過(guò)程網(wǎng)絡(luò)能夠平穩(wěn)收斂。然而,行人重識(shí)別本質(zhì)上是一個(gè)圖像檢索問(wèn)題,它通過(guò)比較查詢(xún)圖片與候選圖片之間的特征相似性進(jìn)行排序,排名越靠前的圖片越有可能是與查詢(xún)圖片具有相同的身份。度量學(xué)習(xí),即相似度學(xué)習(xí),近幾年被廣泛應(yīng)用在模式識(shí)別領(lǐng)域,它采用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,目標(biāo)是使得不同類(lèi)別的圖片相似度小而相同類(lèi)別的圖片相似度大。因此,將硬三元組損失(hard triplet loss)[22]作為另一個(gè)損失函數(shù)來(lái)引入度量學(xué)習(xí)。網(wǎng)絡(luò)將原始像素域信息映射到編碼空間,硬三元組損失通過(guò)拉近相同類(lèi)別圖片距離的同時(shí)加大不同類(lèi)別圖片的距離來(lái)達(dá)到聚類(lèi)的效果,因此基于硬三元損失的模型更適用于行人重識(shí)別領(lǐng)域。由于僅僅依靠硬三元組損失進(jìn)行模型訓(xùn)練會(huì)缺乏身份監(jiān)督信號(hào),導(dǎo)致訓(xùn)練過(guò)程緩慢,因此聯(lián)合交叉熵?fù)p失與硬三元損失作為模型的損失函數(shù),這樣不僅引入了身份監(jiān)督信號(hào),能夠?qū)W習(xí)到具有身份鑒別力的特征,加速網(wǎng)絡(luò)的平穩(wěn)收斂,而且拉近了同類(lèi)圖片距離的同時(shí)加大不同類(lèi)別圖片的距離,提升了檢索性能。

        對(duì)于交叉熵?fù)p失,本文的目標(biāo)是減少預(yù)測(cè)標(biāo)簽分布與真實(shí)分布的差異性來(lái)學(xué)習(xí)行人的身份鑒別力特征。在圖1中,把網(wǎng)絡(luò)學(xué)習(xí)到的特征fp_2與fg_2用于計(jì)算交叉熵?fù)p失。交叉熵定義如公式(8)所示,其中N表示一個(gè)批次行人圖片總數(shù),C表示訓(xùn)練集行人標(biāo)簽總數(shù),qi,j表示預(yù)測(cè)的標(biāo)簽概率,pi,j表示真實(shí)的標(biāo)簽。

        對(duì)于硬三元組損失,本文的目標(biāo)是讓距離最遠(yuǎn)的相同標(biāo)簽的行人圖片距離小于最近的不同標(biāo)簽的行人圖片距離來(lái)提升檢索的準(zhǔn)確性。在圖1中,把網(wǎng)絡(luò)學(xué)習(xí)到的特征fp_1與fg_1用于計(jì)算硬三元組損失。硬三元組損失定義如公式(9)所示,其中分別是采樣得到的錨、積極以及消極特征,這里的積極是指與錨具有相同的標(biāo)簽,消極是指與錨的標(biāo)簽不同,P指的是一個(gè)批次采樣的行人標(biāo)簽總數(shù),R表示對(duì)一個(gè)行人標(biāo)簽采樣的圖片個(gè)數(shù),m是用來(lái)約束不同類(lèi)別樣本距離的閾值。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集是在行人重識(shí)別任務(wù)中廣泛使用的Market-1501、DukeMTMC-reID以及CUHK03。

        Market-1501數(shù)據(jù)集是在清華大學(xué)校園內(nèi)通過(guò)5個(gè)高分辨率攝像頭和1個(gè)低分辨率攝像頭拍攝到的1 501個(gè)行人、32 668張行人圖片。數(shù)據(jù)集提供訓(xùn)練集以及測(cè)試集的劃分,其中訓(xùn)練集包含751個(gè)行人、12 936張行人圖片,測(cè)試集包含750個(gè)行人、19 732張行人圖片,每類(lèi)圖片最少被2個(gè)攝像頭拍攝到。

        DukeMTMC-reID數(shù)據(jù)集是在杜克大學(xué)校園內(nèi)通過(guò)8個(gè)高分辨率攝像頭拍攝到的1 812個(gè)行人、36 411張行人圖片。數(shù)據(jù)集提供訓(xùn)練集以及測(cè)試集劃分,其中訓(xùn)練集包含702個(gè)行人、16 522張行人圖片,訓(xùn)練集包含702個(gè)行人、17 661張行人圖片,并且提供了手工標(biāo)注的邊界框(bounding box)。

        CUHK03數(shù)據(jù)集是在香港大學(xué)校園內(nèi)通過(guò)5對(duì)攝像頭拍攝到的1 467個(gè)行人、14 097張行人圖片,提供檢測(cè)器檢測(cè)(Detected)和人工標(biāo)注(Labeled)兩個(gè)數(shù)據(jù)集。采取新的測(cè)試協(xié)議,將訓(xùn)練集和測(cè)試集中行人個(gè)數(shù)分別劃分為767和700。相比于舊版本,新測(cè)試協(xié)議的訓(xùn)練圖片大大減少而測(cè)試圖片大大增加,因此加大了重識(shí)別的難度。

        選擇第n次命中準(zhǔn)確率(Rank-n)以及平均匹配度(mAP)作為網(wǎng)絡(luò)在數(shù)據(jù)集上測(cè)試效果的評(píng)價(jià)指標(biāo)。Rank-n表示待查詢(xún)圖像與候選庫(kù)圖像按照相似度從大到小排序的前n張候選圖片中存在與查詢(xún)圖像屬于同一身份的準(zhǔn)確率,計(jì)算如公式(10)所示,其中N表示查詢(xún)數(shù)據(jù)集中行人的數(shù)目,即總共進(jìn)行N次查詢(xún)和排序,ri表示在按相似度排序后的候選圖片中第一個(gè)與查詢(xún)圖片屬于同一身份的行人圖像的位置。

        mAP計(jì)算公式如公式(11)所示,其中C表示行人身份的類(lèi)別數(shù),AP(c)表示行人身份c的平均精度。平均精度是指同一個(gè)類(lèi)別的每個(gè)待查詢(xún)行人圖像的精確率累加之和與該類(lèi)樣本總數(shù)G的比值,AP的計(jì)算如公式(12)所示。精確率Precision指的是檢索出來(lái)的正樣本中正確的比例,Precision計(jì)算如公式(13)所示,其中TP表示被預(yù)測(cè)為正樣本,實(shí)際上也是正樣本的樣本數(shù)目,F(xiàn)P表示被預(yù)測(cè)為負(fù)樣本,實(shí)際上是正樣本的樣本數(shù)目。

        在所有實(shí)驗(yàn)中,不使用重新排序(re-ranking)算法以及多次查詢(xún)?nèi)诤希╩ulti-query fusion)進(jìn)一步提升評(píng)價(jià)性能。

        2.2 實(shí)施細(xì)節(jié)

        遵循常見(jiàn)的行人重識(shí)別設(shè)置,將所有圖像的大小調(diào)整為384×128,并通過(guò)隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)擦除來(lái)增強(qiáng)訓(xùn)練圖像。使用在ImageNet[23]上預(yù)訓(xùn)練的ResNeSt-50作為骨干網(wǎng)絡(luò),在其網(wǎng)絡(luò)結(jié)構(gòu)中去掉最后的全局平均池化以及全連接層。為了在部件關(guān)聯(lián)分支中保留足夠的語(yǔ)義信息,把Layer4下采樣層中平均池化的核大小設(shè)置為1×1,stride設(shè)置為1。使用Adam作為梯度優(yōu)化器,將學(xué)習(xí)率初始設(shè)置為0.000 3,并在訓(xùn)練階段的第30輪以及第60輪衰減10倍直至訓(xùn)練結(jié)束。批量大小設(shè)置為64,P=16,R=4,T=2,m=0.3,K=4。使用兩階段遷移學(xué)習(xí)算法來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù),首先凍結(jié)骨干網(wǎng)絡(luò)的權(quán)重,僅僅訓(xùn)練分類(lèi)器150輪,然后將整個(gè)網(wǎng)絡(luò)再訓(xùn)練300輪。本文方法在pytorch框架上實(shí)現(xiàn),并在一塊3.6 GHz的Intel i9-9900KF CPU和NVIDIA TITAN RTX GPU環(huán)境下訓(xùn)練,所有數(shù)據(jù)集共享與上述相同的實(shí)驗(yàn)設(shè)置。

        2.3 現(xiàn)有方法的對(duì)比實(shí)驗(yàn)

        在本節(jié)中,將提出的方法與現(xiàn)有的最先進(jìn)方法在三個(gè)主流數(shù)據(jù)集上進(jìn)行對(duì)比來(lái)表明本文方法的優(yōu)越性能,具體在每個(gè)數(shù)據(jù)集上的情況說(shuō)明如下。

        2.3.1 Market-1501

        表1中展示了在該數(shù)據(jù)集上本文提出的方法與現(xiàn)有最先進(jìn)方法的比對(duì)結(jié)果,在該數(shù)據(jù)集上實(shí)現(xiàn)了95.9%Rank-1、98.7%Rank-5、99.2%Rank-10以及89.1%mAP。

        表1 在Market-1501數(shù)據(jù)集上的對(duì)比結(jié)果Table 1 Results comparisons over Market-1501 %

        對(duì)比使用單一局部特征的PCB,本文方法挖掘局部特征之間的相關(guān)性來(lái)增強(qiáng)行人表征的豐富性,分別在Rank-1和mAP提高3.6和11.7個(gè)百分點(diǎn)。對(duì)比同樣把ResNeSt-50作為骨干網(wǎng)絡(luò)的FastReID,本文方法分別在Rank-1和mAP提升了0.9和2.1個(gè)百分點(diǎn),這得益于本文結(jié)合注意力以及局部特征融合的方法,增強(qiáng)重識(shí)別特征多樣性的同時(shí)提高了其魯棒性。GCP雖然充分地考慮身體各部位之間的相關(guān)性來(lái)挖掘具有身份鑒別力的特征,但是直接地水平劃分身體部件區(qū)域會(huì)導(dǎo)致邊界粗糙,本文提出的方法在局部關(guān)聯(lián)分支劃分身體部件之前已經(jīng)通過(guò)一系列軟注意力機(jī)制來(lái)優(yōu)化邊界特征,分別在Rank-1和mAP性能提升了0.7和0.2個(gè)百分點(diǎn)。

        2.3.2 DukeMTMC-reID

        在表2中,本文方法在該數(shù)據(jù)集上達(dá)到了89.1%Rank-1、94.3%Rank-5、95.8%Rank-10以及78.9%mAP。

        表2 在DukeMTMC-reID數(shù)據(jù)集上的對(duì)比結(jié)果Table 2 Results comparisons over DukeMTMC-reID %

        和只考慮局部特征的PCB相比,本文模型聯(lián)合全局特征以及局部特征來(lái)提升行人表征的完整性,分別在Rank-1和mAP提高了7.4和12.8個(gè)百分點(diǎn)。P2Net雖然充分挖掘行人以及外部裝飾的特征來(lái)提升精度,但是網(wǎng)絡(luò)的關(guān)注區(qū)域容易被行人圖片的背景所干擾,本文方法分別在Rank-1、Rank-5、Rank-10以及mAP提高了2.6、1.2、0.8、5.8個(gè)百分點(diǎn)。和充分考慮身體各個(gè)部位與其他部位之間的關(guān)系的GCP相比,本文模型在Rank-1上低了0.6個(gè)百分點(diǎn),但在mAP上提高了0.3個(gè)百分點(diǎn),這是由于該數(shù)據(jù)集的行人圖片被遮擋現(xiàn)象嚴(yán)重,存在較多的背景干擾,GCP在該數(shù)據(jù)集上的魯棒性比較強(qiáng)。

        2.3.3 CUHK03

        該數(shù)據(jù)集的標(biāo)注分為檢測(cè)器檢測(cè)(Detected)與人工標(biāo)注(Labeled)兩種。在Labeled數(shù)據(jù)集中,本文方法達(dá)到了85.5%Rank-1和82.1%mAP,在Detected數(shù)據(jù)集中,該方法達(dá)到了83.3%Rank-1和77.8%mAP,如表3。

        本文方法在這兩個(gè)數(shù)據(jù)集上的性能大大超過(guò)其他方法,在Detected數(shù)據(jù)集Rank-1、mAP上提高了3.7和3.3個(gè)百分點(diǎn),在Labeled數(shù)據(jù)集Rank-1、mAP上提高了4.4和4.7個(gè)百分點(diǎn)。本文方法與僅提取局部特征的PCB相比,在Detected數(shù)據(jù)集Rank-1、mAP上提高了19.6和20.3個(gè)百分點(diǎn)。對(duì)比同樣考慮身體部件關(guān)聯(lián)的GCP,將其原有性能提高了大約10個(gè)百分點(diǎn),這得益于本文模型提取的細(xì)粒度全局特征以及細(xì)粒度局部特征,提高了行人表征的鑒別力,提高了重識(shí)別特征的完整性。

        2.4 消融實(shí)驗(yàn)

        為了驗(yàn)證本文提出的每個(gè)注意力模塊的有效性以及探索局部特征劃分個(gè)數(shù)的問(wèn)題。在Market-1501、DukeMTMC-reID和CUHK03這三個(gè)數(shù)據(jù)集上設(shè)計(jì)了幾個(gè)不同設(shè)置的消融實(shí)驗(yàn)。

        表3 在CUHK03數(shù)據(jù)集上的對(duì)比結(jié)果Table 3 Results comparisons over CUHK03 %

        首先驗(yàn)證注意力模塊的有效性,實(shí)驗(yàn)的具體設(shè)置顯示在表4中,其中SFFM表示空間感知特征融合模塊,SAA表示跨區(qū)域特征融合模塊中的空間關(guān)聯(lián)注意力子模塊,CAA表示跨區(qū)域特征融合模塊中的通道聚合注意力子模塊。在表格的前兩行可以看到,為了驗(yàn)證SFFM的有效性,在ResNeSt的split-attention block結(jié)構(gòu)中融入SFFM顯著提高了行人重識(shí)別的性能,在CUHK03-Labeled的Rank-1和mAP上提升3.9和3.8個(gè)百分點(diǎn),在CUHK03-Detected的Rank-1和mAP上提升3.5和3.6個(gè)百分點(diǎn)。為了驗(yàn)證不同特征融合模塊對(duì)模型性能的影響,在第三、四行分別對(duì)ResNeSt-50結(jié)構(gòu)中增加SAA以及CAA,可以看到不管是SAA還是CAA都有助于模型性能的提升。實(shí)驗(yàn)結(jié)果表明,將SAA融入ResNeSt-50結(jié)構(gòu)后,在CUHK03-Labeled的Rank-1和mAP上提升6.7和5.7個(gè)百分點(diǎn),在CUHK03-Detected的Rank-1和mAP上提升6.2和5.3個(gè)百分點(diǎn),這得益于空間關(guān)聯(lián)子模塊將不同身體部位進(jìn)行關(guān)聯(lián),來(lái)學(xué)習(xí)身體部件之間的空間位置的相關(guān)性,增強(qiáng)局部特征的鑒別力。將CAA融入ResNeSt-50結(jié)構(gòu)后,在CUHK03-Labeled的Rank-1和mAP上提升5.1和6.9個(gè)百分點(diǎn),在CUHK03-Detected的Rank-1和mAP上提升5.5和6.5個(gè)百分點(diǎn),這得益于通道聚合子模塊通過(guò)挖掘局部特征與其他局部特征的通道相關(guān)性,來(lái)加強(qiáng)學(xué)習(xí)局部特征之間的非顯著性信息。第五行將它們聯(lián)合使用,進(jìn)一步提高了精確度。為了驗(yàn)證軟注意力(SFFM)與非局部注意力(SAA、CAA)的互補(bǔ)作用,從第六行開(kāi)始分別對(duì)它們不同的組合進(jìn)行實(shí)驗(yàn),可以看到無(wú)論哪一種組合都比舍棄對(duì)應(yīng)模塊的性能要強(qiáng)得多。最后一行將所有模塊組合在一起,實(shí)驗(yàn)結(jié)果表明它在這兩個(gè)數(shù)據(jù)集上達(dá)到最先進(jìn)的性能。整個(gè)模型在CUHK03-Labeled的Rank-1和mAP上相較于單流網(wǎng)絡(luò)ResNeSt-50分別提升了12.8和13.1個(gè)百分點(diǎn),在CUHK03-Detected的Rank-1和mAP上相較于單流網(wǎng)絡(luò)ResNeSt-50分別提升了13.2和12.5個(gè)百分點(diǎn),這表明全局分支與部件關(guān)聯(lián)分支具有互補(bǔ)作用,通過(guò)聯(lián)合網(wǎng)絡(luò)分支結(jié)構(gòu)學(xué)習(xí)到的細(xì)粒度全局特征與細(xì)粒度局部特征,提高了重識(shí)別特征的完整性與準(zhǔn)確性,極大程度增強(qiáng)了模型的檢索性能。

        其次,研究了部件關(guān)聯(lián)分支中身體部件劃分個(gè)數(shù)對(duì)模型性能的影響,在圖4中展示了不同身體部件劃分個(gè)數(shù)的模型在不同數(shù)據(jù)集上mAP指標(biāo)的變化。可以看到隨著部件數(shù)量的增加,mAP在不同數(shù)據(jù)集上的趨勢(shì)都是先逐步升高再緩慢下降,當(dāng)部件數(shù)量設(shè)置為4時(shí)在各個(gè)數(shù)據(jù)集上的性能達(dá)到最高。這個(gè)觀(guān)察結(jié)果表明,局部特征的劃分個(gè)數(shù)會(huì)直接影響模型的性能,過(guò)少的部件數(shù)不能充分提取細(xì)粒度局部特征而過(guò)多的部件數(shù)會(huì)減弱部件關(guān)聯(lián)分支的效果,進(jìn)而降低特征表達(dá)的能力。

        圖4 不同部件數(shù)量的對(duì)比實(shí)驗(yàn)Fig.4 Comparative experiment of different part numbers

        接著,利用Grad-Cam[31]可視化了一些圖像在不同模型中關(guān)注的區(qū)域情況。如圖5所示,第1列為輸入到模型的原始圖像,第2列和第3列分別是ResNeSt-50和本文提出的模型的圖像熱力圖。在圖5中,和ResNeSt-50相比,本文模型的關(guān)注區(qū)域更集中在行人身上以及覆蓋區(qū)域更廣,這是因?yàn)橥ㄟ^(guò)聯(lián)合軟注意力和非局部注意力機(jī)制來(lái)挖掘更多的全局信息,提升了關(guān)注區(qū)域的豐富性,還利用身體部件之間的關(guān)聯(lián)性來(lái)融合不同層次的語(yǔ)義信息,增強(qiáng)了關(guān)注區(qū)域的魯棒性。

        表4 注意力模塊的消融實(shí)驗(yàn)Table 4 Ablation experiment of attention modules %

        圖6 Market-1501數(shù)據(jù)集部分圖像查詢(xún)結(jié)果Fig.6 Market-1501 dataset partial image query results

        圖5 Market-1501數(shù)據(jù)集部分圖像熱力圖Fig.5 Market-1501 dataset partial image heatmap

        圖6展示了在遮擋、背景雜亂、圖片分辨率低等復(fù)雜情況下ResNeSt-50與本文算法的一些查詢(xún)前5名的對(duì)比結(jié)果。第一、二、三排行人的查詢(xún)圖片在被背包遮擋的情況下,本文算法相較于ResNeSt-50仍然可以準(zhǔn)確地檢索,這是由于本文算法融合了軟注意力以及非局部注意力機(jī)制,模型能夠發(fā)現(xiàn)更多具有鑒別力的行人特征,因此誤檢率更低。第四排、第五排查詢(xún)圖像在背景雜亂以及圖片模糊的情況下,本文算法相比于ResNeSt-50有更好的檢索性能,即使圖片出現(xiàn)較大的不對(duì)齊情況,仍然能找出對(duì)應(yīng)圖片,這得益于部件關(guān)聯(lián)分支充分地挖掘局部特征之間的潛在語(yǔ)義關(guān)系,使得算法提取到的細(xì)粒度局部特征提升了行人表征的魯棒性與豐富性。

        3 結(jié)束語(yǔ)

        在本文中,基于ResNeSt-50骨干網(wǎng)絡(luò),提出了結(jié)合注意力與局部特征融合的方法,通過(guò)兩個(gè)分支網(wǎng)絡(luò),分別提取行人的細(xì)粒度全局特征和細(xì)粒度局部特征。通過(guò)聯(lián)合軟注意力以及非局部注意力機(jī)制挖掘更豐富的全局信息,讓網(wǎng)絡(luò)提取到的特征更具區(qū)分力,同時(shí)通過(guò)挖掘身體各個(gè)部件之間的潛在語(yǔ)義相關(guān)性,融合不同層次的語(yǔ)義信息,增強(qiáng)了行人表征的魯棒性與豐富性,通過(guò)聯(lián)合全局特征與局部特征的方法進(jìn)一步提升了行人表征的完整性,提高了網(wǎng)絡(luò)的重識(shí)別性能。將ResNeSt網(wǎng)絡(luò)高效地應(yīng)用在行人重識(shí)別任務(wù),促進(jìn)其在更多領(lǐng)域上的推廣。大量實(shí)驗(yàn)證明,提出的每個(gè)注意力模塊的有效性以及提出的方法相較于現(xiàn)有方法的優(yōu)越性。

        猜你喜歡
        分支全局行人
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        毒舌出沒(méi),行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        巧分支與枝
        路不為尋找者而設(shè)
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        一類(lèi)擬齊次多項(xiàng)式中心的極限環(huán)分支
        我是行人
        新思路:牽一發(fā)動(dòng)全局
        生成分支q-矩陣的零流出性
        亚洲最新中文字幕一区| 亚洲伊人成综合网| 成年男女免费视频网站| 美女黄频视频免费国产大全| 青青久久精品一本一区人人| 亚洲精品电影院| 精产国品一二三产区m553麻豆| 亚洲制服无码一区二区三区| 中文字幕人妻少妇精品| 亚洲av网一区二区三区| 初女破初的视频| 女性自慰网站免费看ww| 最新日本免费一区二区三区| 婷婷色婷婷开心五月四| 精品av天堂毛片久久久| 99国产精品久久久蜜芽| 国产精品区二区东京在线| 亚洲中文字幕日产无码| 天天爽夜夜爽夜夜爽| 乱色欧美激惰| 最近日本中文字幕免费完整| 成人国产在线观看高清不卡| 亚洲av熟女少妇一区二区三区| 国产电影无码午夜在线播放| 97人妻熟女成人免费视频| 久久精品韩国日本国产| 成人自拍小视频在线看| 四虎国产精品永久在线国在线| 欧美黑人性色黄在线视频| 国产精品一区一区三区| 欧美日韩在线视频| 国产成人精品日本亚洲| 自慰高潮网站在线观看| 国产黑丝美女办公室激情啪啪| 99久久婷婷国产综合精品青草免费| 亚洲福利视频一区| 免费在线av一区二区| 人禽杂交18禁网站免费| 国产剧情麻豆女教师在线观看 | 国产精品一区二区无线| 久久精品国产亚洲婷婷|