徐龍壯,彭 力,朱鳳增
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無(wú)錫 214122)
行人重識(shí)別是一項(xiàng)在多攝像頭采集的行人圖像庫(kù)中識(shí)別出特定行人的技術(shù),其廣泛應(yīng)用于智能監(jiān)控與安保領(lǐng)域,可在龐雜的視頻監(jiān)控圖像中快速鎖定并追蹤目標(biāo)行人。不同攝像頭通常無(wú)重疊視域且安裝位置與角度不同,受光照、視角、姿態(tài)與遮擋等因素影響,目標(biāo)行人在不同攝像頭拍攝的畫面中外觀存在差異[1],這增加了行人重識(shí)別難度。因此,行人重識(shí)別任務(wù)仍面臨較大挑戰(zhàn),成為近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。
研究人員最早利用紋理特征、邊緣特征、顏色直方圖和聯(lián)合特征等進(jìn)行行人重識(shí)別,然而上述特征識(shí)別度有限且重識(shí)別精度較低,無(wú)法應(yīng)用于大規(guī)模復(fù)雜的行人重識(shí)別任務(wù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,出現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的重識(shí)別方法,使行人重識(shí)別精度大幅提升,深度學(xué)習(xí)網(wǎng)絡(luò)在行人重識(shí)別領(lǐng)域得到廣泛應(yīng)用。文獻(xiàn)[2]提出一種基于視角信息嵌入的行人重識(shí)別模型,利用改進(jìn)的深度分離卷積提取視角單元特征,提高了網(wǎng)絡(luò)泛化能力。文獻(xiàn)[3]提出一種異常值標(biāo)簽平滑正則化方法,利用生成式對(duì)抗網(wǎng)絡(luò)形成圖像并與原數(shù)據(jù)集圖像共同訓(xùn)練,從而獲得魯棒性更好的特征。
上述方法均使用圖像全局特征,然而由于在復(fù)雜情況下圖像全局特征識(shí)別度有限,因此研究人員采用更易被識(shí)別的局部特征提升重識(shí)別精度。文獻(xiàn)[4]建立一種卷積基準(zhǔn)模型(PCB),將特征圖沿垂直方向平均切為6 個(gè)分塊預(yù)測(cè)行人身份,并使用精確部分池化(Refined Part Pooling,RPP)網(wǎng)絡(luò)使每塊特征圖精細(xì)化以提升其識(shí)別度,但該模型易忽略全局特征且丟失各分塊邊緣的局部信息。文獻(xiàn)[5]采用骨骼關(guān)鍵點(diǎn)定位模型對(duì)行人的頭部、上身和下身區(qū)域進(jìn)行定位,將這些區(qū)域與整張行人圖像一起輸入?yún)?shù)共享的卷積神經(jīng)網(wǎng)絡(luò),雖然能完整提取全局與局部特征,但對(duì)模型精度要求較高。文獻(xiàn)[6]提出一種將全局信息與各粒度局部信息結(jié)合的端到端特征學(xué)習(xí)網(wǎng)絡(luò)(包括一個(gè)全局分支和兩個(gè)局部分支),并聯(lián)合多個(gè)Softmax 損失函數(shù)和三元組(Triplet)損失函數(shù)獲取具有高識(shí)別度的特征,但其未考慮兩種損失函數(shù)約束同一個(gè)特征向量時(shí)存在目標(biāo)沖突,加大訓(xùn)練模型收斂難度。
針對(duì)上述問(wèn)題,本文提出一種多任務(wù)金字塔重疊匹配方法。獲取全局特征信息、多尺度局部特征信息以及各分塊之間的邊緣信息,使用Softmax 損失函數(shù)、三元組損失函數(shù)和中心損失函數(shù)聯(lián)合優(yōu)化網(wǎng)絡(luò),并設(shè)計(jì)特征歸一化(Feature Normalization,F(xiàn)N)層結(jié)構(gòu)減少損失函數(shù)在嵌入空間內(nèi)優(yōu)化目標(biāo)不一致的影響,獲取不同任務(wù)之間的互補(bǔ)特征。
本文網(wǎng)絡(luò)主要由特征提取網(wǎng)絡(luò)、金字塔重疊匹配網(wǎng)絡(luò)、特征歸一化層和全連接(FC)層構(gòu)成,其結(jié)構(gòu)如圖1 所示(D為特征向量維數(shù))。采用ResNet50網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),并對(duì)其進(jìn)行如下改進(jìn):1)移除ResNet50 網(wǎng)絡(luò)的全局平均池化(GAP)層和全連接層;2)將卷積(Conv)層Conv4_1 的步長(zhǎng)設(shè)定為2,使特征圖尺寸增大2 倍,以便下一步分塊提取局部信息。將特征圖沿垂直方向平均切為4 個(gè)基本塊,將相鄰基本塊進(jìn)行兩兩組合或三三組合直到形成完整的原特征圖,共得到10 個(gè)不同尺寸的分塊,從而形成金字塔重疊匹配網(wǎng)絡(luò)。將該網(wǎng)絡(luò)中上述分塊經(jīng)過(guò)全局平均池化轉(zhuǎn)變?yōu)?0 個(gè)包含多尺度局部特征的2 048 維特征向量,使用1×1 卷積核將上述特征向量分別降至512 維并進(jìn)行串聯(lián),采用三元組損失函數(shù)和中心(Center)損失函數(shù)對(duì)其進(jìn)行優(yōu)化,然后通過(guò)FN 層進(jìn)行向量特征歸一化后,分別送入不共享權(quán)重的全連接層,再使用Softmax 損失函數(shù)對(duì)其進(jìn)行優(yōu)化。在推理階段,將通過(guò)FN 層前的10 個(gè)512 維特征向量串聯(lián)為新特征向量,查詢圖像時(shí)使用新特征向量與圖庫(kù)中的圖像進(jìn)行相似性匹配以獲取更好的匹配結(jié)果。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of the proposed network
當(dāng)全局特征不能很好地表征復(fù)雜行人圖像樣本時(shí),如何有效提取局部特征成為提升重識(shí)別精度的關(guān)鍵。常用的局部特征提取方法包括圖像切塊方法、基于注意力機(jī)制的方法、響應(yīng)圖極值點(diǎn)方法[7]以及骨骼關(guān)鍵點(diǎn)定位方法等,其中圖像切塊方法較其他方法更簡(jiǎn)單有效,因此,本文基于傳統(tǒng)圖像切塊方法,同時(shí)受HPM[8]網(wǎng)絡(luò)由粗到精提取多種局部特征的啟發(fā),提出一種帶有重疊區(qū)域的水平金字塔匹配方法來(lái)匹配不同尺度的特征,如圖2(a)所示。
圖2 3 種方法的圖像切分效果Fig.2 Image segmentation effect of three methods
本文對(duì)行人圖像的切分方法具體如下:1)將特征圖沿水平方向切為4 個(gè)基本塊,每個(gè)基本塊大小為特征圖的1/4,這4 個(gè)基本塊作為金字塔第1 層;2)金字塔第2 層為第1 層相鄰2 個(gè)基本塊沿垂直方向合并得到的3 個(gè)分塊,每組相鄰分塊會(huì)重疊1 個(gè)基本塊區(qū)域;3)金字塔第3 層為第1 層相鄰3 個(gè)基本塊沿垂直方向合并得到的2 個(gè)分塊,相鄰分塊會(huì)重疊2 個(gè)基本塊區(qū)域;4)第4 層為第1 層4 個(gè)基本塊的合并,所得圖像與原始特征圖相同。第i層的第j個(gè)分塊表示為:
圖2(b)、圖2(c)分別為PCB、HPM 方法的圖像切分效果。可以看出,與PCB、HPM 方法相比,本文方法包含更多的全局信息、多種尺度局部信息以及分塊之間的邊緣信息。當(dāng)切分圖像邊緣存在識(shí)別度較高的細(xì)小特征(如圖2 中行人的書(shū)包)時(shí),采用本文方法能在很大程度上保留該特征的完整性,使各特征信息融合后所得總特征的識(shí)別度更高。PCB 方法是將特征圖切為6 個(gè)分塊,并使用RPP 網(wǎng)絡(luò)使一個(gè)分塊的邊緣特征劃分到與其相似的另一個(gè)分塊,該方法雖然考慮了分塊邊緣信息,但整個(gè)過(guò)程并非是端到端完成訓(xùn)練,操作過(guò)程較復(fù)雜。HPM 方法是將特征圖分別切分為2 等分、4 等分和8 等分,加上原始特征圖共有15 個(gè)分塊來(lái)識(shí)別行人身份。由于同一個(gè)行人的不同圖像之間常會(huì)出現(xiàn)身體部分錯(cuò)位及姿態(tài)變化的情況,因此切成過(guò)于細(xì)小的分塊會(huì)占用較多硬件資源與訓(xùn)練時(shí)間,且不能有效提升整體識(shí)別精度。本文采用大小適中的4 等分塊,不會(huì)占用較多硬件資源與訓(xùn)練時(shí)間。
多任務(wù)學(xué)習(xí)是指多種損失函數(shù)聯(lián)合訓(xùn)練和優(yōu)化網(wǎng)絡(luò)模型,其中每種損失函數(shù)使用的度量方法以及通過(guò)網(wǎng)絡(luò)提取的特征所包含信息均不同。目前行人重識(shí)別方法通常使用Softmax 損失函數(shù)與三元組損失函數(shù)聯(lián)合訓(xùn)練模型[6,9-10]以獲取泛化能力更強(qiáng)的特征,然而這兩個(gè)損失函數(shù)在嵌入空間中的目標(biāo)不一致,其樣本分布的二維可視化效果如圖3 所示。可以看出:Softmax 損失函數(shù)構(gòu)造出n個(gè)超平面將嵌入空間分為不同的子空間,每類特征分布在不同子空間內(nèi),并使用余弦距離作為度量距離;三元組損失函數(shù)在嵌入空間內(nèi)通過(guò)拉近正樣本對(duì)之間的距離與拉開(kāi)負(fù)樣本對(duì)之間的距離來(lái)增強(qiáng)類內(nèi)緊密性和類間分離性,并使用歐氏距離作為度量距離。
圖3 2 種損失函數(shù)的樣本分布二維可視化效果Fig.3 Two-dimensional visualization effect of sample distribution of two loss functions
在圖3 中,Softmax 損失函數(shù)用于優(yōu)化余弦距離,而三元組損失函數(shù)用于優(yōu)化歐氏距離,如果同時(shí)使用這兩種損失函數(shù)優(yōu)化網(wǎng)絡(luò)中同一個(gè)特征向量,則會(huì)產(chǎn)生目標(biāo)沖突,在訓(xùn)練過(guò)程中將出現(xiàn)損失不收斂及特征提取不準(zhǔn)確的情況。針對(duì)該問(wèn)題,本文設(shè)計(jì)出一種特征歸一化層結(jié)構(gòu),將其放在網(wǎng)絡(luò)中512 維特征向量后,歸一化后的512 維特征向量采用Softmax 損失函數(shù)計(jì)算損失,而歸一化前的512 維特征向量采用三元組損失函數(shù)和其他損失函數(shù)計(jì)算損失。
對(duì)于每一個(gè)輸入特征向量f,其特征歸一化計(jì)算公式為:
其中,m為輸入特征向量f的維數(shù)為歸一化后的輸出特征向量。特征歸一化可以平衡原特征向量的異常特征分布,加快Softmax 損失函數(shù)收斂,同時(shí)歸一化前后分布的變化,并減少Softmax 損失函數(shù)對(duì)原特征向量的約束,使三元組損失函數(shù)更易收斂。
除了Softmax 損失函數(shù)和三元組損失函數(shù),本文還引入中心損失函數(shù)[11]增強(qiáng)類內(nèi)距離約束,以抵消三元組損失函數(shù)對(duì)同類距離約束較弱的影響。中心損失函數(shù)會(huì)在網(wǎng)絡(luò)訓(xùn)練中學(xué)習(xí)每個(gè)類別的深度特征中心,并懲罰深度特征與其相應(yīng)類別中心之間的距離LCenter,計(jì)算公式如下:
其中,yj為最小批次中第j張圖像的標(biāo)簽為第yj類深度特征中心,N為所有批次圖像的總數(shù)目。中心損失函數(shù)可使同一類特征向內(nèi)聚集,從而增強(qiáng)類內(nèi)緊湊性。由于中心損失函數(shù)也是對(duì)歐氏距離進(jìn)行優(yōu)化,因此將其與三元組損失函數(shù)一起用于約束同一個(gè)特征向量。
本文總損失函數(shù)表達(dá)式為:
其中,M為局部向量的分支數(shù)目,λ為中心損失的平衡參數(shù),xik為最小批次中第i張圖像的第k個(gè)局部向量,yik為對(duì)應(yīng)于xik的圖像標(biāo)簽,W和b分別為xik對(duì)應(yīng)的最后內(nèi)積層的權(quán)重矩陣和偏置向量,da,p和da,n分別為三元組正樣本對(duì)與負(fù)樣本對(duì)的特征距離,α為控制距離邊緣的超參數(shù),[z]+=max(z,0)。
為驗(yàn)證本文方法的有效性,選擇常用的行人重識(shí)別數(shù)據(jù)集Market1501[12]、DukeMTMC-reID[13]和CUHK03[14]進(jìn)行實(shí)驗(yàn),并將本文方法與當(dāng)前流行的部分重識(shí)別方法進(jìn)行比較。
Market1501 數(shù)據(jù)集是通過(guò)DPM[15]行人檢測(cè)方法由6個(gè)攝像機(jī)采集獲得,共有32 668張圖像,包含1 501個(gè)行人。不同攝像機(jī)之間存在視圖重疊。本文將數(shù)據(jù)集中包含751 個(gè)行人的12 936 張圖像作為訓(xùn)練集,其他包含750 個(gè)行人的19 732 張圖像作為測(cè)試集,其中包括3 368 張查詢圖像和16 364 張圖庫(kù)圖像。
DukeMTMC-reID 數(shù)據(jù)集是DukeMTMC 數(shù)據(jù)集的1 個(gè)子集,專用于行人重識(shí)別。該數(shù)據(jù)集由8 個(gè)攝像機(jī)采集獲得,其中被2 個(gè)及以上攝像機(jī)同時(shí)拍攝到的行人有1 404 個(gè)。本文將其中702 個(gè)行人的16 522 張圖像作為訓(xùn)練集,將余下702 個(gè)行人的19 889 張圖像作為測(cè)試集,測(cè)試集中有2 228 張查詢圖像和17 661 張圖庫(kù)圖像。
CUHK03 數(shù)據(jù)集由5 對(duì)攝像機(jī)采集獲得,共有13 164 張圖像,包含1 467 個(gè)行人,每個(gè)行人都被2 個(gè)攝像機(jī)同時(shí)拍攝。該數(shù)據(jù)集提供含有人工標(biāo)注和DPM 兩種檢測(cè)框的圖像,本文使用含有DPM 檢測(cè)框的圖像。將數(shù)據(jù)集中包含767 個(gè)行人的6 880 張圖像作為訓(xùn)練集,將包含余下700 個(gè)行人的6 284 張圖像作為測(cè)試集。
在行人重識(shí)別方法中,目前通常使用首位命中率(Rank-1)和平均精度均值(mean Average Precision,mAP)來(lái)評(píng)價(jià)重識(shí)別精度,因此,本文將Rank-1 和mAP 作為行人重識(shí)別精度評(píng)價(jià)指標(biāo)。
本文實(shí)驗(yàn)選用ResNet50網(wǎng)絡(luò)作為提取圖像特征的主干網(wǎng)絡(luò),使用經(jīng)ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練過(guò)的權(quán)重對(duì)其進(jìn)行初始化。在訓(xùn)練過(guò)程中,行人圖像尺寸為384 像素×192 像素,訓(xùn)練批尺寸(B)為40(包含10 個(gè)行人,每個(gè)行人有4 張圖像)。使用Warmup 學(xué)習(xí)率策略激活網(wǎng)絡(luò),基本學(xué)習(xí)率設(shè)置為0.000 3,網(wǎng)絡(luò)共迭代訓(xùn)練120 次,在第40 次和第70 次進(jìn)行指數(shù)衰減,衰減系數(shù)為0.1。使用隨機(jī)梯度下降法優(yōu)化網(wǎng)絡(luò)模型,動(dòng)量值為0.9,權(quán)重衰減系數(shù)為0.000 5。網(wǎng)絡(luò)的損失為中心損失、Softmax 損失和三元組損失之和,中心損失函數(shù)的平衡參數(shù)為0.001 0,三元組損失函數(shù)的邊緣參數(shù)為0.3。在實(shí)驗(yàn)時(shí),將FN 層前10 個(gè)特征向量串聯(lián)得到的5 120 維特征向量進(jìn)行行人相互匹配,以歐氏距離作為度量距離。本文實(shí)驗(yàn)環(huán)境為:8 GB NVIDIA GTX 1070 GPU顯存,ubutu16.04 操作系統(tǒng),pytorch1.0.1 深度學(xué)習(xí)框架和python3.6 編程語(yǔ)言版本。
為驗(yàn)證多任務(wù)訓(xùn)練以及FN 層結(jié)構(gòu)的有效性,本文在Market1501 數(shù)據(jù)集上采用不同損失函數(shù)以及損失函數(shù)的組合對(duì)圖像全局特征進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表1 所示??梢钥闯觯篠oftmax 損失函數(shù)和三元組損失函數(shù)(以下稱為2 種損失函數(shù))聯(lián)合訓(xùn)練比各自單獨(dú)訓(xùn)練所得Rank-1 值分別提升1.9 個(gè)和4.4 個(gè)百分點(diǎn),mAP 值分別提升5.6 個(gè)和7.9 個(gè)百分點(diǎn);Softmax損失函數(shù)、三元組損失函數(shù)和中心損失函數(shù)(以下稱為3 種損失函數(shù))聯(lián)合訓(xùn)練比2 種損失函數(shù)聯(lián)合訓(xùn)練所得Rank-1 值和mAP 值分別提升0.8 個(gè)和2.1 個(gè)百分點(diǎn),說(shuō)明多任務(wù)聯(lián)合訓(xùn)練可增強(qiáng)特征的魯棒性,提升重識(shí)別精度;2 種損失函數(shù)和3 種損失函數(shù)在增加FN 層后與未增加FN 層時(shí)相比,其Rank-1 值均提升1.6 個(gè)百分點(diǎn),mAP 值分別提升2.5 個(gè)和0.9 個(gè)百分點(diǎn),說(shuō)明本文設(shè)計(jì)的FN 層結(jié)構(gòu)能有效消除多損失函數(shù)之間優(yōu)化目標(biāo)不一致的影響,提高行人重識(shí)別精度。
表1 不同損失函數(shù)在Market1501 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of different loss functions on Market1501 dataset %
為驗(yàn)證本文所提分塊策略的合理性,將使用Softmax 損失函數(shù)訓(xùn)練全局特征的方法定義為基準(zhǔn)(Baseline)方法,在此基礎(chǔ)上分別增加不同基本塊數(shù)量得到3 種金字塔重疊方法,并與未使用RPP 網(wǎng)絡(luò)的PCB 方法和最小4 等分塊的HPM 方法進(jìn)行對(duì)比,以上方法僅分塊網(wǎng)絡(luò)結(jié)構(gòu)不同,其他配置均相同。不同切塊方法在Market1501數(shù)據(jù)集和DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2、表3 所示(Baseblock-n表示切分為n個(gè)基本塊的金字塔重疊方法)。可以看出:使用局部特征的PCB、HPM 及Baseblock-n(n為4~6)方法的Rank-1 值和mAP 值比僅用全局特征的基準(zhǔn)方法有明顯提升,這是因?yàn)樵谟姓趽跫皬?fù)雜背景的環(huán)境下,局部特征比全局特征識(shí)別度更高;使用局部特征的PCB 方法的Rank-1 值和mAP 值最低,其原因在于小尺度局部特征在未對(duì)齊的行人樣本對(duì)中不能正確地相互對(duì)應(yīng);HPM 方法較本文提出的Baseblock-4方法在Market1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集上的Rank-1 值分別低1.0 個(gè)和1.2 個(gè)百分點(diǎn),mAP值分別低0.9 個(gè)和1.3 個(gè)百分點(diǎn),這是因?yàn)镠PM 方法未考慮分塊之間的邊緣特征信息;Baseblock-5 方法、Baseblock-6 方法的Rank-1 值和mAP值與Baseblock-4 方法相差很小,其原因在于小尺寸分塊更易受到行人錯(cuò)位、姿態(tài)變化等異常值的影響,對(duì)總體識(shí)別效果的增益較小。Baseblock-5 方法、Baseblock-6 方法的分支數(shù)目分別為15、21,訓(xùn)練過(guò)程中要占用較多訓(xùn)練資源,本文采用的Baseblock-4方法更精簡(jiǎn),占用訓(xùn)練資源較少。
表2 不同切塊方法在Market1501 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different cutting block methods on Market1501 dataset %
表3 不同切塊方法在DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different cutting block methods on DukeMTMC-reID dataset %
本文對(duì)網(wǎng)絡(luò)參數(shù)批尺寸和中心損失函數(shù)的平衡參數(shù)λ(中心損失占總損失的比例)分別取不同值進(jìn)行實(shí)驗(yàn),以分析其對(duì)行人重識(shí)別精度的影響,實(shí)驗(yàn)結(jié)果如表4、表5 所示。由表4 可以看出:隨著批尺寸的不斷增大,Rank-1 值和mAP 值升高,這是因?yàn)榇蟮呐叽缬兄谌M損失函數(shù)挖掘更好的難正樣本對(duì)和難負(fù)樣本對(duì)(更好的難正樣本對(duì)表示正樣本對(duì)中樣本差異較大,更好的難負(fù)樣本對(duì)表示負(fù)樣本對(duì)中樣本差異較?。?,以此增大不同類別特征之間的距離。本文受硬件資源限制,未能采用更大的批尺寸進(jìn)行實(shí)驗(yàn),但由于三元組損失函數(shù)在小型數(shù)據(jù)集上挖掘難正樣本對(duì)和難負(fù)樣本對(duì)會(huì)出現(xiàn)飽和狀態(tài),因此推測(cè)可知批尺寸對(duì)重識(shí)別精度的提升有限。由表5 可以看出,隨著平衡參數(shù)的不斷增大,Rank-1 值和mAP 值均先增大后減小,并在λ=0.001 0 時(shí)取得最大值。這是因?yàn)棣巳≈堤。瑫?huì)使中心損失函數(shù)對(duì)增強(qiáng)類內(nèi)距離的約束作用消失,λ取值太大,會(huì)使網(wǎng)絡(luò)過(guò)于關(guān)注類別中心特征的學(xué)習(xí),而減少不同類別樣本特征之間的距離優(yōu)化,造成識(shí)別效果較差。
表4 不同批尺寸下本文方法在Market1501數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the proposed method on Market1501 dataset with different batch sizes %
表5 不同λ值下本文方法在Market1501數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of the proposed method on Market1501 dataset with different λ values %
圖4 為本文方法在Market1501 測(cè)試集上對(duì)部分查詢圖像的重識(shí)別結(jié)果。左側(cè)虛線框內(nèi)為待查詢圖像,右側(cè)虛線框內(nèi)為采用本文方法在圖庫(kù)中得到的與被查詢圖像相似度最高的前10 張圖像,其中僅白框標(biāo)記的圖像匹配錯(cuò)誤,其他圖像均匹配正確。由此可見(jiàn),本文方法有很好的行人重識(shí)別能力。
圖4 本文方法在Market1501 數(shù)據(jù)集上部分查詢圖像的重識(shí)別效果Fig.4 The re-identification effect of the partial query images on the Market1501 dataset by the proposed method
為驗(yàn)證本文方法的先進(jìn)性,將本文方法與PSE[16]、MultiScale[17]、GLAD[15]、DaRe[18]、HA-CNN[19]、PCB+RPP、HSP[20]、MLFN[21]等主流方法在Market1501 數(shù)據(jù)集、DukeMTMC-reID 數(shù)據(jù)集和CUHK03 數(shù)據(jù)集上的行人重識(shí)別精度進(jìn)行對(duì)比,結(jié)果如表6~表8 所示??梢钥闯?,本文方法在3 個(gè)數(shù)據(jù)集上的Rank-1 值和mAP 值較其他方法更高,表明本文方法具有較高的重識(shí)別精度。此外,在本文方法的基礎(chǔ)上,通過(guò)在推理階段使用串聯(lián)得到的新特征向量與圖庫(kù)中圖像進(jìn)行相似性匹配,并在上述3個(gè)數(shù)據(jù)集上經(jīng)重新排序[22]后,能得到更高的Rank-1值和mAP 值。
表6 不同方法在Market1501 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of different methods on Market1501 dataset %
表7 不同方法在DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of different methods on DukeMTMC-reID dataset %
表8 不同方法在CUHK03數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 8 Experimental results of different methods on CUHK03 dataset %
本文針對(duì)行人姿態(tài)變化、遮擋和錯(cuò)位導(dǎo)致圖像特征提取精度較低的問(wèn)題,提出一種多任務(wù)金字塔重疊匹配的重識(shí)別方法。使用金字塔重疊網(wǎng)絡(luò)匹配全局特征和多尺度局部特征,并通過(guò)Softmax 損失函數(shù)、三元組損失函數(shù)和中心損失函數(shù)聯(lián)合訓(xùn)練網(wǎng)絡(luò),采用特征歸一化層減少各損失函數(shù)優(yōu)化目標(biāo)不一致的影響,獲取魯棒性更強(qiáng)的共享特征。實(shí)驗(yàn)結(jié)果表明,與PSE、MultiScale 等重識(shí)別方法相比,該方法可有效提升行人重識(shí)別精度。下一步將結(jié)合分塊局部特征與注意力機(jī)制,進(jìn)一步提升行人重識(shí)別精度。