周東明,張燦龍,唐艷平,李志欣
(1.廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004;2.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西桂林 541006)
行人再識(shí)別是指判斷不同攝像頭下出現(xiàn)的行人是否屬于同一行人,屬于圖像檢索的子問(wèn)題,廣泛應(yīng)用于智能視頻監(jiān)控、安保、刑偵等領(lǐng)域[1-2]。由于行人圖像的分辨率變化大、拍攝角度不統(tǒng)一、光照條件差、環(huán)境變化大、行人姿態(tài)不斷變化等原因,使得行人再識(shí)別成為目前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)問(wèn)題。
傳統(tǒng)的行人再識(shí)別方法側(cè)重于顏色、形狀等低級(jí)特征。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,以端到端的方式學(xué)習(xí)圖像特征,然后進(jìn)行三元組損失、對(duì)比損失、改進(jìn)的三元組損失等[3-4]的度量與計(jì)算。該方式能夠很好地學(xué)習(xí)圖像的全局特征,但是并沒(méi)有考慮圖像的局部特征和空間結(jié)構(gòu)。行人在不同的攝像頭下由于低分辨率、光照條件、部分遮擋、姿態(tài)變化等諸多因素使得視覺(jué)外觀發(fā)生顯著變化,主要表現(xiàn)為行人部分特征被遮擋導(dǎo)致不相關(guān)上下文被學(xué)習(xí)到特征圖中,姿態(tài)變化或者非剛性變換使得度量學(xué)習(xí)[5]變得困難,高相似度的外貌特征在基于全局特征學(xué)習(xí)的模型中不能得到有效識(shí)別,區(qū)域推薦網(wǎng)絡(luò)所產(chǎn)生的不精確的檢測(cè)框會(huì)影響特征學(xué)習(xí)等方面。為解決上述問(wèn)題,研究人員開(kāi)始關(guān)注圖像的局部特征,通過(guò)圖像的局部差異性分辨不同的行人。對(duì)于行人的局部特征進(jìn)行提取,主要是通過(guò)手工的方式將圖像分成若干塊。文獻(xiàn)[6]提出對(duì)圖像進(jìn)行分塊,將行人圖像平均分成6 份大小相同的區(qū)域,對(duì)每個(gè)區(qū)域施加標(biāo)簽約束,然后分別提取圖像的局部特征進(jìn)行學(xué)習(xí)。文獻(xiàn)[7]在全局特征的辨識(shí)模型中引入局部特征損失來(lái)影響全局特征表達(dá),在局部網(wǎng)絡(luò)中使用無(wú)監(jiān)督訓(xùn)練自動(dòng)檢測(cè)局部人體部件,增加了模型對(duì)于未見(jiàn)過(guò)的行人圖像的判別能力。但是,已有研究主要將注意力集中在人體的局部特征學(xué)習(xí)上,忽略了非人體部件的上下文線索對(duì)整體辨識(shí)的重要影響,因此模型在不同數(shù)據(jù)集中的魯棒性較差。本文使用行人語(yǔ)義分割代替手工設(shè)計(jì)的分塊框,快速提取圖像的局部特征。首先訓(xùn)練一個(gè)行人語(yǔ)義分割模型,該模型通過(guò)學(xué)習(xí)將行人分成多個(gè)語(yǔ)義區(qū)域,將非人體部分作為背景。然后通過(guò)局部語(yǔ)義區(qū)域進(jìn)行分塊,分塊后再進(jìn)行辨識(shí)比對(duì)。在此基礎(chǔ)上提出一種局部注意力機(jī)制,計(jì)算非人體部分潛在部件的相似度,依據(jù)輸入圖像和查詢圖像像素之間的差異來(lái)辨識(shí)是否屬于同一行人,以解決非人體部分潛在的原始信息辨識(shí)問(wèn)題。
本文提出一種基于局部對(duì)齊網(wǎng)絡(luò)(Partial Alignment Network,PAN)的行人再識(shí)別模型,通過(guò)行人解析模型對(duì)齊人體部分特征以及使用局部注意力機(jī)制對(duì)齊非人體部分的上下文線索[8]。局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,通過(guò)將分塊后的行人語(yǔ)義特征與注意力特征相融合得到最終的辨識(shí)特征,其中:Lpar表示人體語(yǔ)義解析網(wǎng)絡(luò)分支;Latt表示局部注意力網(wǎng)絡(luò)分支,先學(xué)習(xí)捕獲基于不同像素之間的部分差異,再計(jì)算潛在的局部對(duì)齊表示。
圖1 局部對(duì)齊網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of partial alignment network
輸入一張行人圖片I,經(jīng)過(guò)殘差網(wǎng)絡(luò)的特征提取得到特征圖V,將行人與分割后的標(biāo)簽映射進(jìn)行縮放[9],使其特征映射和V維度相同。第i個(gè)像素的表征為ri,本質(zhì)上是V的it,h行。像素i經(jīng)過(guò)縮放后行人部分類別的標(biāo)簽可表示為δi,δi有N個(gè)人體部件的值和1 個(gè)背景類別。將得到的人體特征標(biāo)記的置信度圖記為fk,每一個(gè)人體部件類別和背景均與局部特征置信度圖相關(guān)[10]。當(dāng)預(yù)測(cè)i個(gè)行人部件標(biāo)簽時(shí):
在得到第i個(gè)像素的標(biāo)簽圖fk,i后,本文使用L1正則化對(duì)每個(gè)行人標(biāo)簽的置信度圖進(jìn)行歸一化處理[11],L1 正則化可表示如下:
其中:λ∈[0,+∞]是用來(lái)平衡系數(shù)的稀疏性和經(jīng)驗(yàn)損失的超參數(shù),λ越大系數(shù)的稀疏性越好,但經(jīng)驗(yàn)損失就越大;ri是輸入的第i個(gè)像素特征;y是圖像的標(biāo)簽;w是在訓(xùn)練中學(xué)習(xí)的超參數(shù);Lemp()是目標(biāo)函數(shù)。對(duì)式(2)中的w求導(dǎo),使得偏置值?w J(w;ri,y)目標(biāo)函數(shù)取得最小值以產(chǎn)生稀疏模型,防止過(guò)擬合現(xiàn)象[12]。此時(shí),行人部分的特征hi可以表示如下:
其中:hi表示的是第i個(gè)像素的行人部件特征,通過(guò)指示函數(shù)[δi≡N]即可得到人體部分的特征圖Lpar。Lpar可以表示如下:
其中:Lpar本質(zhì)上是圖片中行人預(yù)定義標(biāo)簽的語(yǔ)義表示。在本文模型中,行人語(yǔ)義主干網(wǎng)絡(luò)每次激活輸出一個(gè)帶標(biāo)簽的置信度圖,而不是使用全局平均池化[13]輸出置信度圖。與全局平均池化[14]相比,置信度圖的激活發(fā)生在空間區(qū)域。
將ResNet50 提取到的特征圖V輸入局部注意力網(wǎng)絡(luò)中[15],局部注意力網(wǎng)絡(luò)學(xué)習(xí)預(yù)測(cè)K個(gè)非行人標(biāo)簽置信度圖Q1,Q2,…,QK。局部注意力網(wǎng)絡(luò)中的置信度圖學(xué)習(xí)與行人解析網(wǎng)絡(luò)中第i個(gè)像素有關(guān)的潛在知識(shí),第i個(gè)像素的注意力編碼向量可表示如下:
其中:Ti是第i個(gè)像素的特征編碼長(zhǎng)度;WP是在訓(xùn)練中學(xué)習(xí)的超參數(shù);tanh()是雙曲正切函數(shù),在得到注意力編碼向量的特征表示后,計(jì)算注意力網(wǎng)絡(luò)中i個(gè)像素特征 圖的權(quán)重ai,j。ai,j可以表示如下:
其中:ai,j是Qi的第jt,h行的置信度圖權(quán)重;s表示輸入序列的位置;σ表示局部注意力關(guān)注區(qū)域和標(biāo)簽之間的方差。本文在計(jì)算特征圖權(quán)重時(shí),添加高斯分布使得對(duì)齊權(quán)重在第i個(gè)像素對(duì)靠近pi的標(biāo)注時(shí)予以更多的影響力。遵循局部注意力機(jī)制,首先正則化align(Qj,Qi),然后計(jì)算輸入和查詢圖像之間關(guān)于像素i相似性的總和。局部注意力網(wǎng)絡(luò)中的兩個(gè)變換函數(shù)是為了更好地學(xué)習(xí)相似性,其實(shí)現(xiàn)使用的是1×1的卷積核,能更好地對(duì)小目標(biāo)予以檢測(cè)和關(guān)注。
潛在的局部注意力特征圖可表示如下:
其中:ψ(·)是用來(lái)學(xué)習(xí)更好表征的函數(shù)。在實(shí)現(xiàn)細(xì)節(jié)上,使用的是1×3 的卷積核和批量歸一化以及Sigmoid 激活函數(shù)[16]。
將潛在的局部注意力網(wǎng)絡(luò)對(duì)齊表示和人體語(yǔ)義解析網(wǎng)絡(luò)對(duì)齊表示進(jìn)行融合,得到最終的辨識(shí)特征X:
使用3 個(gè)公開(kāi)的大規(guī)模行人再識(shí)別領(lǐng)域的Market-1501[17]、DukeMTMC-reID[18]和CUHK03[19]數(shù)據(jù)集評(píng)估本文模型的性能。Market-1501 數(shù)據(jù)集有1 501 個(gè)行人,共32 688 張圖片。DukeMTMCreID 數(shù)據(jù)集有1 404 個(gè)行人,共36 411 張圖片。CUHK03 數(shù)據(jù)集有1 467 個(gè)行人,共14 096 張圖片。這些圖片由5 個(gè)高分辨率的攝像頭和1 個(gè)低分辨率的攝像頭拍攝,且每個(gè)行人至少出現(xiàn)在2 個(gè)不同的攝像頭中。CUHK03 數(shù)據(jù)集的數(shù)據(jù)格式和另外兩種數(shù)據(jù)集格式稍有不同,提供了兩種類型的數(shù)據(jù),包括手工注釋的標(biāo)簽(Labeled)和DPM 檢測(cè)的邊界框(Detected)[20],其中第二種類型的數(shù)據(jù)檢測(cè)更困難,因?yàn)镈MP 檢測(cè)的邊界框存在比例失調(diào)、雜亂背景等現(xiàn)象的發(fā)生。利用累計(jì)匹配特征(Cumulated Matching Characteristic,CMC)和平均精度均值(mean Average Presicion,mAP)兩種評(píng)價(jià)指標(biāo)來(lái)評(píng)估PAN 模型。所有實(shí)驗(yàn)均使用單查詢?cè)O(shè)置。
模型基于PyTorch 框架,在開(kāi)始訓(xùn)練前將數(shù)據(jù)集中圖片大小調(diào)整至384 像素×128 像素,通過(guò)隨機(jī)遮擋進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)中使用的3 個(gè)數(shù)據(jù)集預(yù)先使用CE2P 模型進(jìn)行人體語(yǔ)義解析[21],每張圖片定義20 個(gè)語(yǔ)義類別,其中,19 個(gè)行人類別,1 個(gè)背景類別。實(shí)驗(yàn)共訓(xùn)練100 個(gè)批次,每個(gè)批次的大小設(shè)置為128。初始學(xué)習(xí)率設(shè)置為0.02,在經(jīng)過(guò)60 個(gè)批次后學(xué)習(xí)率降為0.002。
將PAN 模型與基于注意力的行人再識(shí)別模型(RGA[22]、HOA[23])、基于行人語(yǔ)義解析的行人再識(shí)別模型(SSM[24])和基于局部對(duì)齊方法的行人再識(shí)別模型(SCSN[25]、GSRW[26]和DSA[27])進(jìn)行性能評(píng)價(jià)測(cè)試與對(duì)比,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果如表1 所示,其中,在Market-1501 和DukeMTMC 數(shù)據(jù)集中分別測(cè)試了Rank-1、Rank-5、Rank-10 和mAP 評(píng)價(jià)指標(biāo),在CUHK03 數(shù)據(jù)集中測(cè)試了Rank-1 和mAP 評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明:PAN 模型在3 個(gè)數(shù)據(jù)集中均取得較好的結(jié)果,通過(guò)觀察可以發(fā)現(xiàn),本文構(gòu)建的人體語(yǔ)義解析網(wǎng)絡(luò)有效地解決了分塊后特征不對(duì)齊導(dǎo)致的匹配失敗問(wèn)題;將PAN 模型與HOA 模型在沒(méi)有使用多分類Softmax 損失函數(shù)[28]的條件下進(jìn)行比較,可以發(fā)現(xiàn)PAN 模型的Rank-1 和mAP 評(píng)價(jià)指標(biāo)上有明顯提升,分別提高了5.4 和6.8 個(gè)百分點(diǎn)。
表1 在單查詢?cè)O(shè)置下PAN 模型和其他模型在Market-1501、DukeMTMC 和CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results of PAN model and other models on Market-1501,DukeMTMC and CUHK03 datasets under the single query setting %
本文探究了不同的行人部件分割數(shù)量N對(duì)PAN 模型的影響,實(shí)驗(yàn)結(jié)果如圖2 所示。由圖2 可以看出,當(dāng)N=5 時(shí),行人部件被分為頭部、上部分、下部分、腳部、背景等5 個(gè)部分,整個(gè)模型的再識(shí)別成功率最高,這表明精細(xì)的行人部件分割有效地克服了行人姿態(tài)變化的差異性問(wèn)題,通過(guò)上下文信息對(duì)行人再識(shí)別產(chǎn)生了重要影響。考慮到計(jì)算時(shí)間開(kāi)銷和硬件支持[29],本文默認(rèn)將N設(shè)置為5,即每張圖片的行人部分分割為5 個(gè)小區(qū)域。
圖2 PAN 模型選取不同行人部件分割數(shù)量時(shí)的實(shí)驗(yàn)結(jié)果對(duì)比Fig.2 Comparison of experimental results when the PAN model selects different number of pedestrian components
在使用三元組損失的基礎(chǔ)上[30],通過(guò)消融實(shí)驗(yàn)來(lái)深入研究PAN 模型中各分支的貢獻(xiàn),其中:Baseline 表示基線模型,在此基礎(chǔ)上進(jìn)行改進(jìn);PAN/Lpar表示僅使用人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型;PAN/Latt表示僅使用局部注意力網(wǎng)絡(luò)分支的模型;PAN/Lpar+Latt代表同時(shí)使用局部注意力網(wǎng)絡(luò)和人體語(yǔ)義解析網(wǎng)絡(luò)分支的模型。實(shí)驗(yàn)結(jié)果如表2 所示:聯(lián)合人體語(yǔ)義解析和局部注意力網(wǎng)絡(luò)可以提升3 個(gè)主流數(shù)據(jù)集的整體性能;PAN/Lpar和Baseline 模型相比可以發(fā)現(xiàn),Baseline 模型只是將圖像進(jìn)行分塊提取特征,當(dāng)出現(xiàn)姿態(tài)變化過(guò)大和高相似度外貌特征時(shí)并不能取得良好的實(shí)驗(yàn)結(jié)果;PAN/Latt和Baseline 模型相比可以發(fā)現(xiàn),局部注意力網(wǎng)絡(luò)在出現(xiàn)遮擋情況時(shí),顯示出了非行人部件上下文線索的重要性。
表2 行人再識(shí)別模型消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment for pedestrian re-identification models%
本文提出一種基于行人語(yǔ)義分割和局部注意力機(jī)制的行人再識(shí)別模型。使用行人語(yǔ)義分割模型對(duì)行人的局部特征進(jìn)行更精細(xì)的分割,避免了對(duì)圖像進(jìn)行分塊后局部特征不匹配現(xiàn)象的產(chǎn)生。利用局部注意力機(jī)制,解決了行人語(yǔ)義分割模型將非人體部件識(shí)別為圖像背景的問(wèn)題。通過(guò)行人部件信息和背景遮擋信息的互補(bǔ),增強(qiáng)了模型的可遷移性。實(shí)驗(yàn)結(jié)果表明,該模型能充分利用行人部件信息和局部視覺(jué)線索中隱藏的語(yǔ)義信息,有效解決了行人姿態(tài)變化過(guò)大、特征分塊后不對(duì)齊等問(wèn)題。后續(xù)將研究PAN 模型在基于視頻序列的行人再識(shí)別中的應(yīng)用,通過(guò)將視頻中的每一幀圖像進(jìn)行分割得到行人部件特征,根據(jù)行人部件特征之間的比對(duì)增加識(shí)別粒度,并設(shè)計(jì)圖卷積網(wǎng)絡(luò)挖掘視頻序列中行人潛在的語(yǔ)義信息,進(jìn)一步提高識(shí)別精度。