耿 圓,譚紅臣,李敬華,王立春
基于視覺信息積累的行人重識別網(wǎng)絡(luò)
耿 圓,譚紅臣,李敬華,王立春
(北京工業(yè)大學(xué)人工智能與自動化學(xué)院,北京 100124)
在以往的行人重識別方法中,絕大部分的工作集中于圖像注意力區(qū)域的學(xué)習(xí),卻忽視了非注意力區(qū)域?qū)ψ罱K特征學(xué)習(xí)的影響,如果在關(guān)注圖像注意力區(qū)域的同時加強(qiáng)非注意力區(qū)域的特征學(xué)習(xí),可進(jìn)一步豐富最終的行人特征,有利于行人身份信息的準(zhǔn)確識別?;诖?,提出了視覺信息積累網(wǎng)絡(luò)(VIA Net),該網(wǎng)絡(luò)整體采用兩分支結(jié)構(gòu),一個分支傾向于學(xué)習(xí)圖像的全局特征,另一個分支則拓展為多分支結(jié)構(gòu),通過結(jié)合注意力區(qū)域和非注意力區(qū)域的特征逐步加強(qiáng)局部特征的學(xué)習(xí),實(shí)現(xiàn)視覺信息的積累,進(jìn)一步豐富特征信息。實(shí)驗(yàn)結(jié)果表明,在Market-1501等行人重識別數(shù)據(jù)集上,所提出的VIA Net網(wǎng)絡(luò)達(dá)到了較高的實(shí)驗(yàn)性能;同時,在In-Shop Clothes Retrieval數(shù)據(jù)集上的實(shí)驗(yàn)證明:該網(wǎng)絡(luò)也適用于一般的圖像檢索任務(wù),具有一定的通用性。
行人重識別;視覺信息;注意力區(qū)域;非注意力區(qū)域;度量學(xué)習(xí)
行人重識別任務(wù)是指在不同的監(jiān)控?cái)z像頭下的行人檢索問題,其目標(biāo)是在經(jīng)過裁剪的行人圖像上查詢匹配同一個人,即:給定一張行人的查詢圖像,該任務(wù)需在其他監(jiān)控?cái)z像頭拍攝的大量圖像中識別出包含該行人的圖像。行人重識別在現(xiàn)實(shí)世界中有很多的應(yīng)用場景,如視頻監(jiān)控安全、視頻檢索和人機(jī)交互。但是由于監(jiān)控?cái)z像頭視角變化、分辨率較低,行人圖像背景雜亂和遮擋等問題的影響,重識別目前依然是個具有挑戰(zhàn)性的任務(wù)。
最初,行人重識別的解決思路是利用從裁剪后的行人圖像中提取的手工特征進(jìn)行相似性度量實(shí)現(xiàn)重識別[1-3],如顏色和紋理等視覺特征,但早期的方法性能低且魯棒性差。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,目前基于深度學(xué)習(xí)的行人重識別成為了主流,其大多數(shù)工作[4-6]都集中于利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)學(xué)習(xí)對人體姿勢和視角變化等具有魯棒性的特征表示。但在實(shí)際中,由于人臉、四肢等身體部位會隨著監(jiān)控?cái)z像頭視角的變化發(fā)生改變,甚至產(chǎn)生遮擋,因此CNN在學(xué)習(xí)的過程中,會更多地關(guān)注人的主體部位,忽略了其他的身體部位也會產(chǎn)生判別特征。
為了解決這個問題,一些基于姿態(tài)的方法通過定位不同的身體部位并對齊相關(guān)特征進(jìn)行重識別。姿態(tài)歸一化生成對抗網(wǎng)絡(luò)[7](pose-normalized generative adversarial network,PN-GAN)考慮行人重識別中的姿態(tài)歸一化設(shè)計(jì)了生成對抗網(wǎng)絡(luò),通過將數(shù)據(jù)中的所有行人姿態(tài)歸一化到8種標(biāo)準(zhǔn)姿態(tài)中,以學(xué)習(xí)沒有姿態(tài)變化影響的行人特征。姿態(tài)不變方法[8](pose-invariant embedding,PIE)則引入了姿態(tài)不變嵌入向量作為行人描述子,首先使用PoseBox結(jié)構(gòu)使行人與標(biāo)準(zhǔn)姿態(tài)對齊,其次設(shè)計(jì)了一個以原始圖像、PoseBox和姿態(tài)估計(jì)置信度為輸入的PoseBox Fusion (PBF) CNN結(jié)構(gòu)以減少姿態(tài)估計(jì)誤差。還有一些基于身體部位的方法使用粗分割或注意力網(wǎng)絡(luò)來改進(jìn)特征學(xué)習(xí)。PCB-RPP[9]提出了基于部位的卷積基線網(wǎng)絡(luò)(part-based convolutional baseline,PCB),即輸入一張圖像,能夠輸出若干個部位級別的特征;同時還提出了優(yōu)化部位池化(refined part pooling,RPP)策略以避免分割時每個部位中出現(xiàn)極端值。關(guān)系感知全局注意力[10](relation-aware global attention,RGA)是基于全局注意力的行人重識別工作,提出了關(guān)系感知全局注意力模塊以充分利用全局相關(guān)性,通過對行人不同部位的特征施加權(quán)重實(shí)現(xiàn)增強(qiáng)判別特征,抑制無關(guān)特征。注意力金字塔[11](attention pyramid,APNet)提出了一種通過注意力金字塔以多尺度的方式模仿人類視覺感知過程的方法,首先將特征分割為數(shù)個局部區(qū)域并學(xué)習(xí)相應(yīng)的注意力,之后合并注意力并將其與殘差連接堆疊形成注意力金字塔。
可以看出,絕大部分的工作集中于圖像注意力區(qū)域的學(xué)習(xí),也證明了關(guān)注注意力區(qū)域?qū)ψ罱K重識別任務(wù)的有效性。但是很少有工作涉及到非注意力區(qū)域的學(xué)習(xí),考慮到非注意力區(qū)域也可能存在有用的判別特征,因此本文試圖將非注意力區(qū)域與注意力區(qū)域的特征同時考慮,以進(jìn)一步豐富最終的行人特征,從而有利于行人身份信息的準(zhǔn)確識別。
盡管基于身體姿態(tài)和部位的方法可以獲得不錯的實(shí)驗(yàn)效果,然而上述網(wǎng)絡(luò)通常需要附加的身體姿態(tài)信息。此外,這些網(wǎng)絡(luò)是根據(jù)具體的研究對象使用特定的劃分機(jī)制設(shè)計(jì)的,如水平部位劃分,其適合于行人重識別任務(wù),但并不通用,很難推廣到其他任務(wù)上。隨著技術(shù)的不斷發(fā)展,行人重識別任務(wù)已不再是一個簡單的分類問題,正逐漸演變?yōu)槎攘繉W(xué)習(xí)問題[12],即類內(nèi)樣本(同一個行人)之間的距離至少應(yīng)小于類間樣本(不同的行人)之間的距離。因此,本文設(shè)想構(gòu)建一個簡單且通用的網(wǎng)絡(luò),不僅可以用在行人重識別任務(wù)上,還可用于其他度量學(xué)習(xí)任務(wù)。
基于以上分析,本文提出了一個基于視覺信息積累的重識別網(wǎng)絡(luò),該網(wǎng)絡(luò)整體上采用兩分支結(jié)構(gòu),包括全局分支(global branch)和視覺信息積累分支(visual information accumulation branch),使得網(wǎng)絡(luò)在關(guān)注人主體部位的同時不忽略其他身體部位的判別特征,促使網(wǎng)絡(luò)學(xué)習(xí)到更加全面的特征。由于傳統(tǒng)的兩分支結(jié)構(gòu)一定程度上限制了特征的多樣性[13],本文在兩分支的基礎(chǔ)上進(jìn)一步拓展——將視覺信息積累分支拓展為多分支。具體來說,全局分支對全局特征表示進(jìn)行編碼,網(wǎng)絡(luò)會著重學(xué)習(xí)人主體部位的判別特征;視覺信息積累分支則在拓展的多分支上利用注意力機(jī)制逐步進(jìn)行視覺信息的積累,實(shí)現(xiàn)注意力區(qū)域和非注意力區(qū)域同時關(guān)注,不斷地關(guān)注新的局部細(xì)節(jié)特征,網(wǎng)絡(luò)著重學(xué)習(xí)其他身體部位的判別特征。
對于行人重識別任務(wù),本論文在CUHK03[14],Market-1501[15]和DukeMTMC-reID[16]等數(shù)據(jù)集上進(jìn)行了模型的訓(xùn)練與測試。對于一般的度量學(xué)習(xí)任務(wù),在In-Shop Clothes Retrieval[17]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文方法實(shí)現(xiàn)了較高性能的行人重識別,也適用于一般的度量學(xué)習(xí)任務(wù)。如,在Market-1501數(shù)據(jù)集上的mAP指標(biāo)達(dá)到了83.6%,Rank-1指標(biāo)達(dá)到了93.5%;在In-Shop Clothes Retrieval數(shù)據(jù)集上Recall@1指標(biāo)達(dá)到了93.0%,Recall@20指標(biāo)達(dá)到了99.1%。
圖1為本文所提出VIA Net的網(wǎng)絡(luò)框架圖,該網(wǎng)絡(luò)由主干網(wǎng)絡(luò)ResNet-50、全局分支(global branch)和視覺積累分支(visual information accumulation branch)組成。在全局分支中,特征圖經(jīng)全局平均池化(global average pooling,GAP)得到2048-dim的特征,再降維得到具有全局信息的512-dim特征,該分支提供全局判別特征。在視覺積累分支中,卷積塊注意力模型(convolutional block attention module,CBAM)為本文使用的注意力機(jī)制,V1~V3 sub為3個子分支,concat為維度拼接操作,GMP為全局最大池化(global max pooling,GMP)。在V1 sub上,將通過主干網(wǎng)絡(luò)得到的特征圖作為輸入,減去其經(jīng)過注意力機(jī)制細(xì)化后的特征圖,可得到除去注意力區(qū)域的其他區(qū)域,將得到的特征圖作為V2 sub的輸入。在V2 sub和V3 sub上,再次執(zhí)行與V1 sub相同的步驟,最后將3個子分支得到的特征圖進(jìn)行維度拼接作為該分支最后的輸出特征圖,實(shí)現(xiàn)視覺信息的積累。
圖1 VIA Net網(wǎng)絡(luò)框架圖
本文的VIA Net網(wǎng)絡(luò)所用到的注意力機(jī)制是CBAM[18]機(jī)制,如圖2所示,該機(jī)制結(jié)合了通道(channel)與空間(spatial)的注意力,對輸入的特征圖進(jìn)行細(xì)化,使得網(wǎng)絡(luò)集中關(guān)注圖像中最感興趣的區(qū)域。
圖2 CBAM注意力機(jī)制
通道注意力模塊如圖3所示,輸入的特征圖分別經(jīng)過GAP和GMP后共同輸入到共享多層神經(jīng)網(wǎng)絡(luò)(shared MLP)中,然后對輸出的特征進(jìn)行相加后經(jīng)過Sigmoid激活函數(shù)得到權(quán)重系數(shù)c。將c與輸入的特征圖進(jìn)行相乘操作得到通道注意力模塊生成的特征圖,即需要送入空間注意力模塊的特征。
圖3 通道注意力模塊
空間注意力模塊如圖4所示。將通道注意力模塊的輸出作為空間注意力模塊的輸入,同樣對該輸入的特征分別經(jīng)過GAP和GMP后依照通道拼接兩部分特征。之后經(jīng)過一個7×7的卷積層,再經(jīng)過一個Sigmoid線性激活函數(shù)得到權(quán)重系數(shù),將與此模塊的輸入特征圖進(jìn)行相乘操作得到最終的特征圖。
圖4 空間注意力模塊
方便起見,在此后的介紹中將該注意力機(jī)制用式(1)進(jìn)行描述
其中,為輸入的特征圖;T(*)為通道與空間注意力操作;*為經(jīng)過注意力機(jī)制的輸出特征圖。由于CBAM為即插即用,因此可方便地插入網(wǎng)絡(luò)中任何需要的地方。如圖1所示,將其插入到視覺積累分支的3個子分支中。
(1) 主干網(wǎng)絡(luò)。與行人重識別中的大部分方法相同,本文采用ResNet-50[19]作為主干網(wǎng)絡(luò)用于特征提取。同時為了與主流的方法進(jìn)行比較,將主干網(wǎng)絡(luò)的第4階段起始時的下采樣操作刪除,以得到大小為2048×24×8的特征圖。
(2) 全局分支(global branch)。其由GAP層、1×1卷積層、批歸一化層(batch normalization,BN)和線性整流函數(shù)(rectified linear unit,ReLU)組成。通過在Stage4層生成的2048×24×8的特征圖上進(jìn)行GAP得到2048-dim的特征向量,再利用1×1卷積層、BN層和ReLU層將其進(jìn)一步降低到512-dim,使用三元組損失和交叉熵?fù)p失約束全局特征的學(xué)習(xí)。全局分支在多分支網(wǎng)絡(luò)結(jié)構(gòu)中一般用于提供全局特征表示[20]。在本文中,全局分支關(guān)注行人的主體部位,學(xué)習(xí)全局判別特征。
(3) 視覺信息積累分支(visual information accumulation branch)。其由注意力模塊CBAM、GMP層和1×1卷積層、BN層和ReLU層組成,與全局分支類似,利用三元組損失和交叉熵?fù)p失約束網(wǎng)絡(luò)的學(xué)習(xí)。為進(jìn)一步豐富特征信息,本文將視覺信息積累分支拓展為多分支結(jié)構(gòu),如圖1所示的V1~V3子分支,依次利用CBAM注意力機(jī)制進(jìn)行視覺信息的積累,具體過程如下:
可以注意到:在VIA Net中全局分支使用GAP,而視覺信息積累分支使用GMP,這是因?yàn)镚MP會鼓勵網(wǎng)絡(luò)在減去最具辨別力的部分后仍可在剩余弱特征中識別出相對顯著的特征。綜上,在全局分支關(guān)注圖像全局特征的同時,視覺信息積累分支通過注意力相減操作融合注意力區(qū)域和非注意力區(qū)域的特征,從而不斷地關(guān)注新的局部特征,最終將2個分支的特征進(jìn)行拼接,使得最終獲得的特征表示更加全面。
(4) 損失函數(shù)。其是全局分支和視覺信息積累分支上的重識別損失與難樣本三元組損失[21]之和,即
reid重識別損失采用標(biāo)簽平滑交叉熵?fù)p失[22]。得到的行人特征利用全連接層(fully connected layer)和softmax激活函數(shù)可得到對應(yīng)的預(yù)測概率,進(jìn)而使用標(biāo)簽平滑交叉熵?fù)p失進(jìn)行約束。為了在計(jì)算損失函數(shù)時減少真實(shí)樣本標(biāo)簽類別的權(quán)重,即達(dá)到防止過擬合訓(xùn)練集的目的,對真實(shí)的概率分布進(jìn)行改進(jìn),即
其中,為行人類別數(shù);()為預(yù)測概率;為權(quán)重;為真實(shí)的樣本標(biāo)簽。
triplet為難樣本三元組損失,使用時為每個anchor找到其最難的正樣本和負(fù)樣本,即為每個anchor找到其最不相像的正樣本和最相像的負(fù)樣本進(jìn)行三元組損失的計(jì)算,從而使得類內(nèi)樣本之間的距離減小,類間樣本距離增大,即
在測試過程中,將來自全局分支和視覺信息積累分支的特征維度拼接,作為行人圖像的嵌入向量。值得注意的是本文所提出的VIA Net的全局分支和視覺信息積累分支皆具有通用性,因此可以應(yīng)用于除行人重識別任務(wù)之外的其他度量學(xué)習(xí)任務(wù),這一點(diǎn)將在下一部分的實(shí)驗(yàn)中給出證明。
在主流的行人重識別數(shù)據(jù)集上驗(yàn)證了本文所提出的VIA Net網(wǎng)絡(luò),在訓(xùn)練過程中,將輸入圖像的大小調(diào)整為384×128,然后通過隨機(jī)水平翻轉(zhuǎn)和標(biāo)準(zhǔn)化進(jìn)行數(shù)據(jù)增強(qiáng),訓(xùn)練過程設(shè)置為400 epochs。測試圖像調(diào)整為同樣大小,僅通過標(biāo)準(zhǔn)化進(jìn)行增強(qiáng)。在In-Shop Clothes Retrieval數(shù)據(jù)集上驗(yàn)證了本文的網(wǎng)絡(luò)同樣適用于一般的度量學(xué)習(xí)任務(wù),訓(xùn)練和測試過程中均將圖像進(jìn)行填充并調(diào)整大小為256×256,訓(xùn)練過程設(shè)置為300 epochs。網(wǎng)絡(luò)訓(xùn)練時使用Adam優(yōu)化器,在前50個epochs學(xué)習(xí)率為10–3,在200個epochs后學(xué)習(xí)率為10–4,在300個epochs后學(xué)習(xí)率為10–5。在2個任務(wù)上將本文結(jié)果分別與前沿方法進(jìn)行了比較與分析。
推薦理由:本書介紹了中國改革開放發(fā)展成就,主要從改革路徑、對外開放、宏觀經(jīng)濟(jì)、區(qū)域發(fā)展、“三農(nóng)”政策、扶貧脫貧、產(chǎn)業(yè)發(fā)展、科技引領(lǐng)、生態(tài)文明、人力資源、社會保障、收入分配這十二個方面講述中國故事。中國改革開放促進(jìn)發(fā)展與分享的成功故事,以及建立經(jīng)濟(jì)特區(qū)和試驗(yàn)區(qū)先行先試,繼而實(shí)施區(qū)域發(fā)展戰(zhàn)略,在中西部地區(qū)創(chuàng)造條件重演沿海地區(qū)發(fā)展奇跡的有益經(jīng)驗(yàn)。
2.1.1 數(shù)據(jù)集及評價指標(biāo)
本文在行人重識別數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與測試,包括Market-1501,DukeMTMC-reID和CUHK03數(shù)據(jù)集。Market-1501數(shù)據(jù)集使用6臺攝像機(jī)收集了1 501個身份,共有32 668張行人圖像。該數(shù)據(jù)集含有12 936張751個身份的圖像的訓(xùn)練集,以及含有3 368張查詢圖像和750個身份的15 913張的圖庫圖像的測試集。DukeMTMC-reID數(shù)據(jù)集包含1 404個身份,由2臺以上的攝像機(jī)拍攝,一共有36 411張圖像。訓(xùn)練集則包含702個身份和16 522張圖像,測試集包含其他的702個身份。CUHK03數(shù)據(jù)集包含標(biāo)記的14 096張圖像和檢測到的14 097張圖像,據(jù)此將數(shù)據(jù)集分為CUHK03-Label和CUHK03-Detect2個數(shù)據(jù)集,數(shù)據(jù)集中共有1 467個身份,767個身份用于訓(xùn)練,700個身份用于測試。
對于每個查詢圖像,按照與查詢圖像的歐氏距離降序排列所有圖庫圖像,并計(jì)算累積匹配特征(CMC)曲線,本文使用Rank-1值和mAP值作為評價指標(biāo)。
2.1.2 與前沿方法的比較與分析
本文在ResNet-50主干網(wǎng)絡(luò)的基礎(chǔ)上聯(lián)合全局分支(global branch)構(gòu)成本文的基線網(wǎng)絡(luò)(Baseline)。表1展示了本文所提出的VIA Net網(wǎng)絡(luò)在CUHK03-Label,CUHK03-Detect,DukeMTMC-reID和Market-1501數(shù)據(jù)集與一些前沿方法之間的統(tǒng)計(jì)比較。結(jié)果表明,本文方法的mAP值與Rank-1值均高于絕大多數(shù)前沿方法。
表1 VIA Net在行人重識別任務(wù)上與前沿方法的比較
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
可以看到,在簡單的Market-1501數(shù)據(jù)集上,VIA Net相比于基線網(wǎng)絡(luò)提升了1~2個百分點(diǎn),在相對復(fù)雜的CUHK03-Label,CUHK03-Detect和DukeMTMC-reID數(shù)據(jù)集上,VIA Net提升了大約4~9個百分點(diǎn)。分析原因可能是當(dāng)數(shù)據(jù)集較為復(fù)雜時,網(wǎng)絡(luò)關(guān)注全局特征已無法取得良好的判別特征,此時視覺信息積累分支關(guān)注局部細(xì)節(jié)特征的優(yōu)勢相對突出。這表明:VIA Net的視覺信息積累分支在復(fù)雜數(shù)據(jù)集上有明顯的優(yōu)勢。
2.1.3 消融實(shí)驗(yàn)
表2 消融實(shí)驗(yàn)(Branch)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
表2顯示,當(dāng)網(wǎng)絡(luò)只使用全局分支時,網(wǎng)絡(luò)的性能并不高;當(dāng)只使用視覺信息積累分支時,網(wǎng)絡(luò)的性能優(yōu)于表2的基線網(wǎng)絡(luò),聯(lián)合使用全局分支可以進(jìn)一步提高網(wǎng)絡(luò)性能。這表明全局分支和視覺信息積累分支對于網(wǎng)絡(luò)的整體學(xué)習(xí)是相互增強(qiáng)的,缺一不可。
表3 消融實(shí)驗(yàn)(Sub Branch)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
從表3中可以看出,當(dāng)網(wǎng)絡(luò)使用V1+V2+V3子分支時的性能是最優(yōu)的,當(dāng)減少或增加子分支時,實(shí)驗(yàn)性能均有所下降。當(dāng)只使用V1子分支或V1+V2子分支時的實(shí)驗(yàn)性能有所下降,原因可能是此時子分支數(shù)較少,網(wǎng)絡(luò)學(xué)習(xí)時積累的視覺信息不夠豐富;當(dāng)采用V1+V2+V3+V4子分支時,雖然網(wǎng)絡(luò)積累的視覺信息可能會增加,但是由于視覺信息積累分支關(guān)注的是局部細(xì)節(jié)特征,在子分支上進(jìn)行注意力區(qū)域逐步相減的操作,使得有用的判別信息隨著逐分支遞增而減少,再積累視覺信息反而不利于網(wǎng)絡(luò)的學(xué)習(xí)。
2.1.4 可視化分析
使用本文提出的VIA Net分別在Market-1501和CUHK03-Detect數(shù)據(jù)集上進(jìn)行可視化實(shí)驗(yàn),將與query圖像相似度top-7 (排名前7)的行人圖像進(jìn)行展示,結(jié)果如圖5和圖6所示。最左側(cè)的圖像為query圖像,右側(cè)有邊框的為檢索到對應(yīng)的top-7行人圖像,其中,綠色邊框表示檢索正確,紅色邊框表示檢索錯誤。
圖5 Market-1501數(shù)據(jù)集上的可視化檢索結(jié)果((a) Baseline檢索結(jié)果;(b) VIA Net檢索結(jié)果)
圖6 CUHK03-Detect數(shù)據(jù)集上的可視化檢索結(jié)果((a) Baseline檢索結(jié)果;(b) VIA Net檢索結(jié)果)
由可視化結(jié)果可知,在簡單的Market-1501數(shù)據(jù)集上,基線網(wǎng)絡(luò)在top-7的檢索中,僅在第6張時出現(xiàn)了檢索錯誤;而VIA Net無錯誤匹配出現(xiàn)。在較復(fù)雜的CUHK03-Detect數(shù)據(jù)集上,基線網(wǎng)絡(luò)在top-7的檢索中,出現(xiàn)了3張檢索錯誤;而VIA Net只出現(xiàn)了1張檢索錯誤。可以看出,數(shù)據(jù)集較為簡單時,使用基線網(wǎng)絡(luò)可以達(dá)到不錯的效果,VIA Net對結(jié)果的提升比較有限;而在較為復(fù)雜的數(shù)據(jù)集上,在使用基線網(wǎng)絡(luò)效果不佳時,使用視覺信息積累分支關(guān)注局部細(xì)節(jié)特征,可使VIA Net會更有優(yōu)勢,這與2.1.2節(jié)中的分析一致。
2.2.1 數(shù)據(jù)集及評價指標(biāo)
本文在In-Shop Clothes Retrieval數(shù)據(jù)集上驗(yàn)證了該網(wǎng)絡(luò)同樣適用于一般的度量學(xué)習(xí)任務(wù),具有一定的通用性。該數(shù)據(jù)集為賣家秀的圖像集,一共包括7 982件商品,52 712張圖像,圖像從不同角度拍攝而成,具有較大的挑戰(zhàn)性。本文使用標(biāo)準(zhǔn)召回率Recall@K衡量圖像檢索性能的指標(biāo)。
2.2.2 與前沿方法的比較與分析
表4為本文網(wǎng)絡(luò)在Clothes數(shù)據(jù)集上與一些前沿方法之間的統(tǒng)計(jì)比較。
表4 VIA Net在度量學(xué)習(xí)任務(wù)上與前沿方法的比較
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
結(jié)果表明,本文方法Recall@1值達(dá)到了93.0,同時在Recall@10與Recall@20指標(biāo)上也有較高地提升,均高于前沿算法的表現(xiàn)。
本文提出了一個基于視覺信息積累的簡單且通用的重識別網(wǎng)絡(luò)(VIA Net),該網(wǎng)絡(luò)整體上包含全局分支和視覺信息積累分支。其中,全局分支關(guān)注于圖像的主體區(qū)域,學(xué)習(xí)全局判別特征;視覺信息積累分支利用注意力機(jī)制實(shí)現(xiàn)注意力區(qū)域和非注意力區(qū)域同時關(guān)注,進(jìn)而進(jìn)行視覺信息的積累,著重學(xué)習(xí)其他身體部位的判別特征,關(guān)注局部特征,從而使得學(xué)習(xí)到的判別特征更加全面。實(shí)驗(yàn)結(jié)果顯示,本文提出的VIA Net不僅在行人重識別數(shù)據(jù)集上達(dá)到了較高的實(shí)驗(yàn)結(jié)果,在一般的圖像檢索數(shù)據(jù)集上也有很好的性能表現(xiàn)。
[1] BAZZANI L, CRISTANI M, PERINA A, et al. Multiple-shot person re-identification by HPE signature[C]//The 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 1413-1416.
[2] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2666-2672.
[3] LI Z, CHANG S Y, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3610-3617.
[4] CHEN D P, XU D, LI H S, et al. Group consistent similarity learning via deep CRF for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8649-8658.
[5] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3239-3248.
[6] ZHENG Z D, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017 14(1): 13.
[7] QIAN X L, FU Y W, XIANG T, et al. Pose-normalized image generation for person re-identification[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 661-678.
[8] ZHENG L, HUANG Y J, LU H C, et al. Pose invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2019, 28(9):4500-4509.
[9] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and A strong convolutional baseline)[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 501-518.
[10] ZHANG Z Z, LAN C L, ZENG W J, et al. Relation-aware global attention for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3183-3192.
[11] CHEN G Y, GU T P, LU J W, et al. Person re-identification via attention pyramid[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 7663-7676.
[12] SU C, LI J N, ZHANG S L, et al. Pose-driven deep convolutional model for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3980-3989.
[13] WU X F, XIE B, ZHAO S L, et al. Diversity-achieving slow-DropBlock network for person re-identification[EB/OL]. [2022-05-05]. https://arxiv.org/abs/2002.04414.
[14] LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 152-159.
[15] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2016: 1116-1124.
[16] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2016: 17-35.
[17] LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1096-1104.
[18] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[20] CHENG D, GONG Y H, ZHOU S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1335-1344.
[21] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. [2022-05-07]. https://arxiv.org/abs/1703.07737.
[22] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2818-2826.
[23] ZHENG Z D, ZHENG L, YANG Y. Pedestrian alignment network for large-scale person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045.
[24] CHEN Y B, ZHU X T, GONG S G. Person re-identification by deep learning multi-scale representations[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 2590-2600.
[25] 吳紹君, 高玲, 李強(qiáng). 基于多層次深度學(xué)習(xí)網(wǎng)絡(luò)的行人重識別[J]. 山東師范大學(xué)學(xué)報: 自然科學(xué)版, 2020, 35(2): 208-216.
WU S J, GAO L, LI Q. Multi-level deep learning network for person re-identificatioin[J]. Journal of Shandong Normal University: Natural Science, 2020, 35(2): 208-216 (in Chinese).
[26] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC: AAAI, 2020: 13001-13008.
[27] WANG Y, WANG L Q, YOU Y R, et al. Resource aware person re-identification across multiple resolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8042-8051.
[28] ALMAZAN J, GAJIC B, MURRAY N, et al. Re-ID done right: towards good practices for person re-identification[EB/OL]. [2022-04-25]. https://arxiv.org/abs/1801.05339.
[29] 厙向陽, 李蕊心, 葉鷗. 融合隨機(jī)擦除和殘差注意力網(wǎng)絡(luò)的行人重識別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(3): 215-221.
SHE X Y, LI R X, YE O. Pedestrian re-identification combining random erasing and residual attention network[J]. Computer Engineering and Applications, 2022, 58(3): 215-221 (in Chinese).
[30] 田智慧, 鄭付科, 高需. 內(nèi)容一致性行人重識別算法[J]. 計(jì)算機(jī)工程, 2021, 47(3): 237-242.
TIAN Z H, ZHENG F K, GAO X. Content-consistent pedestrian re-identification algorithm[J]. Computer Engineering, 2021, 47(3): 237-242 (in Chinese).
[31] ZHUANG Z J, WEI L H, XIE L X, et al. Rethinking the distribution gap of person re-identification with camera-based batch normalization[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 140-157.
[32] 宋曉茹, 楊佳, 高嵩, 等. 基于注意力機(jī)制與多尺度特征融合的行人重識別方法[J]. 科學(xué)技術(shù)與工程, 2022, 22(4): 1526-1533.
SONG X R, YANG J, GAO S, et al. Person re-identification method based on attention mechanism and multi-scale feature fusion[J]. Science Technology and Engineering, 2022, 22(4): 1526-1533 (in Chinese).
[33] YUAN Y H, YANG K Y, ZHANG C. Hard-aware deeply cascaded embedding[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 814-823.
[34] XUAN H, SOUVENIR R, PLESS R. Deep randomized ensembles for metric learning[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 751-762.
[35] GE W F, HUANG W L, DONG D K, et al. Deep metric learning with hierarchical triplet loss[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 272-288.
[36] OPITZ M, WALTNER G, POSSEGGER H, et al. Deep metric learning with BIER: boosting independent embeddings robustly[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 276-290.
[37] KIM W, GOYAL B, CHAWLA K, et al. Attention-based ensemble for deep metric learning[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 760-777.
[38] DAI Z Z, CHEN M Q, GU X D, et al. Batch DropBlock network for person re-identification and beyond[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2020: 3690-3700.
Visual information accumulation network for person re-identification
GENG Yuan, TAN Hong-chen, LI Jing-hua, WANG Li-chun
(School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China)
The preceding person re-identification methods were mostly focused on the learning of the image attention region, but ignored the impact of the non-attention region on the final feature learning. If the feature learning of image non-attention regions is enhanced while focusing on attention regions, the final person features can be further enriched, which is beneficial to the accurate identification of person identity information. Based on this, this paper proposed a visual information accumulation network (VIA Net), adopting two branches. One branch tended to learn the global features of the image, and the other branch was expanded into a multi-branch structure. By combining the features of the attention and non-attention regions, the learning of local features could be gradually strengthened, thus realizing the accumulation of visual information and further enriching the feature information. The experimental results show that the proposed VIA Net could attain high experimental performance in terms of person re-identification datasets such as Market-1501. At the same time, the experiment on the In-Shop Clothes Retrieval dataset shows that the network could also be applicable to general image retrieval tasks and possess certain universality.
person re-identification; visual information; attention region; non-attention region; metric learning
TP 391
10.11996/JG.j.2095-302X.2022061193
A
2095-302X(2022)06-1193-08
2022-08-02;
:2022-11-10
第7批全國博士后創(chuàng)新人才支持計(jì)劃項(xiàng)目(BX20220025);第70批全國博士后面上基金項(xiàng)目(2021M700303)
耿 圓(1997-),女,碩士研究生。主要研究方向?yàn)樾腥酥刈R別、視覺語言導(dǎo)航。E-mail:geng1455289970@163.com
譚紅臣(1992-),男,講師,博士。主要研究方向?yàn)樾腥酥刈R別、圖像生成、視覺定位等。E-mail:tanhongchenphd@bjut.edu.cn
2 August,2022;
10 November,2022
The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Fellowships (2021M700303)
GENG Yuan (1997-), master student. Her main research interests cover person re-identification and vision-and-language navigation. E-mail:geng1455289970@163.com
TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation, object detection, etc. E-mail:tanhongchenphd@bjut.edu.cn