姜國權(quán),肖禛禛,霍占強(qiáng)
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作 454000)
行人再識別(Re-Identification,ReID)技術(shù)是目前智能圖像檢索、視頻監(jiān)控等領(lǐng)域的熱門研究方向,由于該技術(shù)與社會公共安全密切相關(guān),因此可與目標(biāo)檢測與跟蹤等技術(shù)相結(jié)合應(yīng)用于疑犯追蹤、災(zāi)難預(yù)警和智能安防等任務(wù)中[1]。行人再識別要求在跨設(shè)備條件下對已知身份行人庫中的特定身份行人進(jìn)行搜索并找到與其匹配的所有結(jié)果[2],主要包括行人圖像預(yù)處理、特征提取和相似性計(jì)算3 個(gè)步驟,其中,圖像預(yù)處理包括圖像翻轉(zhuǎn)、裁剪、縮放及像素歸一化等操作,特征提取對算法性能起到?jīng)Q定性作用,相似性計(jì)算通過計(jì)算特征之間的歐式距離實(shí)現(xiàn)。
近年來,研究人員提出了大量行人再識別方法并取得了重要研究成果。現(xiàn)有方法可大致分為基于特征設(shè)計(jì)和基于多任務(wù)學(xué)習(xí)的行人再識別方法兩類?;谔卣髟O(shè)計(jì)的行人再識別方法的關(guān)鍵在于設(shè)計(jì)可靠且具有判別力的模型以提取行人圖像的魯棒特征。該模型可以是人工設(shè)計(jì)模型與基于端到端的深度學(xué)習(xí)模型,人工設(shè)計(jì)模型獲取的特征主要是HSV 顏色直方圖[3]、尺度不變局部三元模式描述符(SILTP)[4]等低層次特征。文獻(xiàn)[5]為每個(gè)圖像局部塊提取11 維顏色命名的描述符,并使用詞袋模型將其聚合為1 個(gè)全局向量。文獻(xiàn)[6]提出一種特征表示方法(LOMO),該方法分析局部特征水平并將其最大化后針對視點(diǎn)變化進(jìn)行穩(wěn)定表示。
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的發(fā)展[7],基于深度學(xué)習(xí)的特征設(shè)計(jì)方法不斷被提出。文獻(xiàn)[8]利用PCB 網(wǎng)絡(luò)將行人特征統(tǒng)一劃分為多個(gè)水平區(qū)域,并輸出由這些區(qū)域特征共同組成的卷積特征。文獻(xiàn)[9]設(shè)計(jì)一種多級因子分解網(wǎng)絡(luò)(MLFN),將人的視覺表象分解為多個(gè)語義層次因子,通過因子選擇模塊對輸入圖像內(nèi)容進(jìn)行解釋。文獻(xiàn)[10]提出區(qū)域?qū)R的行人再識別方法,通過定位行人身體節(jié)點(diǎn)劃分特征區(qū)域,并將各個(gè)特征區(qū)域融合得到特征表示。為學(xué)習(xí)更具判別力的特征,一些研究人員在特征提取過程中引入注意力機(jī)制[11-13],如文獻(xiàn)[12]提出Mancs 深層網(wǎng)絡(luò),該網(wǎng)絡(luò)利用注意力機(jī)制解決行人圖像的不對齊問題,從而獲得更穩(wěn)定的行人特征。這些深度學(xué)習(xí)模型通過設(shè)計(jì)網(wǎng)絡(luò)模型以獲取高層次的行人特征,此類特征一般比低層次特征具有更強(qiáng)的表征能力。
基于多任務(wù)學(xué)習(xí)的行人再識別方法通過結(jié)合行人屬性預(yù)測[14-16]、圖像分割[17-19]和圖像生成[20-22]等任務(wù)來增強(qiáng)算法性能。文獻(xiàn)[14]提出一種簡單的CNN 模型,其在學(xué)習(xí)行人表征的同時(shí)對行人屬性進(jìn)行預(yù)測,能有效提升ReID 算法性能。文獻(xiàn)[19]利用二值分割掩碼生成RGB-Mask 圖像對,然后設(shè)計(jì)掩碼引導(dǎo)的對比注意力模型(MGCAM)分別學(xué)習(xí)行人主體和背景區(qū)域的特征。為避免深度網(wǎng)絡(luò)模型訓(xùn)練過程中的過擬合現(xiàn)象,文獻(xiàn)[21]使用生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)生成訓(xùn)練數(shù)據(jù)并為這些數(shù)據(jù)分配統(tǒng)一的標(biāo)簽,然后與原始數(shù)據(jù)共同進(jìn)行模型訓(xùn)練。以上方法均是利用RGB 行人圖像提取特征,并未考慮顏色因素對ReID 算法的影響,但實(shí)際應(yīng)用場景中存在相同身份的行人圖像顏色不一致、不同身份行人圖像顏色相近、行人圖像分辨率不一及遮擋和背景雜亂等問題,使得整體識別性能受到較大影響。本文提出一種基于RGB 圖像特征與灰度圖像特征相融合的行人再識別方法,從圖像顏色角度出發(fā)提升行人再識別方法的平均精度均值(mean Average Precision,mAP)和首位命中率(Rank-1 accuracy)。
假設(shè)一組測試圖像被分為待查詢圖像集Query和候選行人圖像集Gallery,Query 表示為,Gallery 表示為,將Q與G對應(yīng)的特征向量分別用FQ和FG表示,表達(dá)式如式(1)和式(2)所示:
其中,m表示Query 包含的圖像個(gè)數(shù),n表示Gallery包含的圖像個(gè)數(shù),d表示圖像特征維度。Query 圖像qi和Gallery 圖像gi之間的距離為:
其中,fqi和fgj表示圖像qi和gi對應(yīng)的特征。行人再識別任務(wù)的目標(biāo)是使相同身份行人之間的距離更小,而不同身份行人之間的距離更大。根據(jù)式(3)得到的距離獲取Query 在Gallery 中的相似度排序結(jié)果。
1.2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
本文提出一種融合RGB 圖像和灰度圖像特征的雙分支殘差網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示。首先,將RGB 圖像和灰度圖像輸入網(wǎng)絡(luò),RGB 分支和灰度分支所使用的主干網(wǎng)絡(luò)均為在ImageNet 上預(yù)訓(xùn)練的ResNet-50,并去除其原有的全連接(Fully Connected,F(xiàn)C)層。受PCB 網(wǎng)絡(luò)結(jié)構(gòu)[8]的啟發(fā),在兩個(gè)分支中ResNet-50 最后一個(gè)卷積層的步長均由2 變?yōu)?,目的是使網(wǎng)絡(luò)能夠?qū)W習(xí)更多的細(xì)節(jié)信息。然后,使用全局均值池化(Global Average Pooling,GAP)和1×1卷積(1×1 Conv)對特征進(jìn)行降維。最后,使用FC 做行人身份預(yù)測,F(xiàn)C 的維度為對應(yīng)數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)所包含的不同行人身份數(shù)。為對RGB 圖像和灰度圖像特征進(jìn)行有效融合,將RGB 分支和灰度分支中最后一個(gè)卷積層輸出的特征沿通道方向進(jìn)行拼接得到融合特征。對融合特征采用統(tǒng)一水平劃分策略,將其劃分為多個(gè)水平條并分別使用GAP、1×1 Conv和FC 操作,之后將3 個(gè)分支中1×1 Conv 后的特征進(jìn)行拼接得到更魯棒的組合特征F,對組合特征F 也使用FC 進(jìn)行行人身份識別。
圖1 雙分支殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Double branch residual network structure
為更清晰地展示本文網(wǎng)絡(luò)模型中不同階段所獲得的特征尺寸以及分類向量維度,表1 給出輸入圖像在不同分支中經(jīng)過不同網(wǎng)絡(luò)階段后獲得的特征尺寸和分類向量維度,其中RGB 圖像和灰度圖像的輸入圖像原始尺寸均為3×384×128。由于在Market1501[5]、DukeMTMC-ReID(簡稱Duke)[23]和CUHK03[24]3 個(gè)數(shù)據(jù)集的訓(xùn)練集中包含不同身份的行人數(shù)目不同,因此在經(jīng)過FCs 后得到的表示分類結(jié)果的向量維度也不同(751/702/767)。由于組合特征F 是經(jīng)過3 個(gè)分支中1×1 Conv 后的特征拼接而成,因此其維度為2 048(256×8)維。
表1 3 個(gè)分支中不同網(wǎng)絡(luò)階段獲得的特征尺寸和分類向量維度Table 1 Feature sizes and classification vector dimensions obtained at different network stages of three branches
1.2.2 圖像特征提取
圖像特征提取步驟具體如下:
1)RGB圖像特征提取。RGB圖像特征是現(xiàn)有ReID算法中最常用的特征,與其他類型的視覺特征相比,RGB圖像特征不容易受圖像尺寸、旋轉(zhuǎn)和分辨率等因素的影響,能提供更具判別性的顏色信息。本文利用預(yù)訓(xùn)練的ResNet-50提取RGB行人圖像特征,然后使用GAP獲取全局均值向量,再利用1×1 Conv 降維,最后采用FC 獲取行人身份分類的結(jié)果向量。
2)灰度圖像特征提取。雖然使用RGB 圖像特征可以很好地表示顏色信息,但顏色不一致以及顏色相近問題也會給ReID 算法帶來不利影響,因此本文利用灰度圖像特征解決該問題,其原因?yàn)榛叶葓D像會在一定程度上過濾圖像的顏色信息,使模型避免受顏色信息的干擾。本文采用加權(quán)平均法獲取灰度圖像,其定義如式(4)所示:
其中,I(x,y)表示轉(zhuǎn)換得到的灰度圖像在(x,y)位置處的像素值,R(x,y)、G(x,y)和B(x,y)分別表示RGB 圖像三通道上對應(yīng)位置的像素值。為便于使用ResNet-50 提取灰度圖像特征,將式(4)得到的單一通道灰度圖像進(jìn)行三通道復(fù)制,然后輸入預(yù)訓(xùn)練的ResNet-50 提取特征并做后續(xù)處理。
3)融合特征提取。為提取更魯棒的行人圖像特征,RGB 圖像和灰度圖像經(jīng)過ResNet-50 最后一個(gè)卷積層提取特征后,將兩個(gè)特征按照特征維度方向進(jìn)行拼接得到融合特征,然后按照PCB 中統(tǒng)一水平劃分策略對該特征進(jìn)行學(xué)習(xí)。融合特征既包含豐富的顏色信息,又過濾了部分顏色的干擾信息,使模型在訓(xùn)練過程中能學(xué)習(xí)顏色信息與結(jié)構(gòu)、形態(tài)、紋理等重要信息。
4)特征組合。將上述3 個(gè)特征進(jìn)行水平方向的拼接,獲得用于行人再識別的最終特征表示。
行人再識別任務(wù)中常用的損失函數(shù)為:1)基于預(yù)測行人身份的分類損失函數(shù),如交叉熵?fù)p失函數(shù)[25];2)基于歐式距離的度量損失函數(shù),如對比損失函數(shù)[26]和三元組損失函數(shù)[27]等。本文網(wǎng)絡(luò)模型在訓(xùn)練過程中采用交叉熵?fù)p失函數(shù),該損失函數(shù)定義如式(5)所示:
其中:N表示訓(xùn)練批次的大?。籆表示訓(xùn)練集中不同身份的行人類別數(shù);p(c)由網(wǎng)絡(luò)模型中Softmax 函數(shù)計(jì)算得到,其表示輸入圖像被預(yù)測為類別c的概率,定義如式(6)所示;q(c)表示數(shù)據(jù)真實(shí)類別標(biāo)簽的分布,在訓(xùn)練集中每個(gè)樣本都只屬于一個(gè)真實(shí)的身份類別,若該類別用y表示,則q(c)可表示為式(7)的形式,此時(shí)式(5)則被重新定義為式(8)的形式,式(8)表示最小化Lcross,等價(jià)于最大化某個(gè)樣本被預(yù)測為真實(shí)標(biāo)簽類別的概率。
在本文方法中,每個(gè)特征都使用獨(dú)立的交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,RGB 特征、灰度特征以及融合特征的損失函數(shù)分別用LRGB、LGray和表示。為提高組合特征F 的魯棒性,對其使用全局分類損失函LGlobal進(jìn)行優(yōu)化,整個(gè)網(wǎng)絡(luò)模型的損失函數(shù)如式(9)所示:
2.1.1 數(shù)據(jù)集
本文在Market1501[5]、Duke[23]和CUHK03[24]3 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2 給出了數(shù)據(jù)集的統(tǒng)計(jì)信息,其中,IDs 表示數(shù)據(jù)集中行人所屬的不同身份數(shù)目,Cams 表示圖像采集時(shí)使用的攝像機(jī)數(shù)目,Images 表示數(shù)據(jù)集包含的行人圖像總數(shù),Identity Split 和Image Split 分別表示訓(xùn)練和測試階段分割得到的行人身份數(shù)目和圖像數(shù)目。
表2 數(shù)據(jù)集統(tǒng)計(jì)信息Table 2 Statistics of datasets
Market1501 數(shù)據(jù)集包含由6 臺攝像機(jī)(5 臺高分辨率攝像機(jī)和1 臺低分辨率攝像機(jī))采集的1 501 個(gè)不同身份的行人,共有32 668 張圖像,這些圖像由DPM 算法[28]檢測得到,其中:訓(xùn)練集有12 936 張圖像,包含751 個(gè)身份;Gallery 集有19 732 張圖像,包含750 個(gè)身份;Query 集有3 368 張圖像。Duke 數(shù)據(jù)集包含由8 臺攝像機(jī)采集的1 404 個(gè)身份的34 183 張圖像,訓(xùn)練集有16 522 張圖像,Query 集有2 228 張圖像,Gallery 集有17 661 張圖像,訓(xùn)練和測試過程中包含的行人身份數(shù)均為702。
CUHK03 數(shù)據(jù)集由手工標(biāo)記特征和DPM 算法檢測結(jié)果構(gòu)建而成,并分別命名為CUHK03-labeled和CUHK03-detected 數(shù)據(jù)集,該數(shù)據(jù)集包含由6 臺攝像機(jī)采集的1 467 個(gè)不同行人的13 164 張圖像,其中:訓(xùn)練集在CUHK03-labeled 和CUHK03-detected中分別有7 365 和7 368 張圖像,訓(xùn)練集和測試集的身份數(shù)分別為767 和700;Query 集有1 400 張圖像;Gallery 集有5 332 和5 328 張圖像。由于CUHK03-detected 數(shù)據(jù)集中圖像邊界框錯(cuò)位和背景雜波比較嚴(yán)重,對ReID 識別要求更高。以上3 個(gè)數(shù)據(jù)集在ReID 測試階段均使用單查詢設(shè)置,即將同一身份的單個(gè)待查詢圖像作為待查詢圖像。
2.1.2 評估指標(biāo)
行人再識別任務(wù)常用的評估指標(biāo)包括累積匹配特性(Cumulative Matching Characteristic,CMC)曲線和mAP。CMC 通常以Rank-k擊中率的形式表現(xiàn),表示在Query 集中的行人圖像與Gallery 集中相似度最高的k張圖像內(nèi)命中該行人的概率。給定一個(gè)Query 集圖像qi,假設(shè)其與Gallery 集中所有圖像的相似度降序排序結(jié)果為r=(r1,r2,…,rn),則該qi的Rank-k計(jì)算方式如式(10)所示:
mAP 表示算法在全部測試數(shù)據(jù)上的平均性能,其與準(zhǔn)確率(P)和召回率(R)有關(guān)。P指返回的樣本中正確匹配的樣本數(shù)占總樣本的比例,R指返回的正確匹配的樣本數(shù)占所有正確樣本的比例。給定一個(gè)待查詢圖像qi,其AP 計(jì)算方式如式(11)所示:AP 表示求對應(yīng)P-R曲線下面積,對Query 集中所有圖像的AP 值求均值即可得到mAP。
本文實(shí)驗(yàn)基于深度學(xué)習(xí)框架Pytorch 并在PCB網(wǎng)絡(luò)模型[8]的基礎(chǔ)上對PCB 方法進(jìn)行優(yōu)化,網(wǎng)絡(luò)模型的輸入數(shù)據(jù)大小被重新調(diào)整為384×128,數(shù)據(jù)預(yù)處理包括隨機(jī)水平翻轉(zhuǎn)和像素歸一化等方式。訓(xùn)練批次大小為64,使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法對PCB 網(wǎng)絡(luò)模型進(jìn)行改進(jìn),網(wǎng)絡(luò)訓(xùn)練周期數(shù)為100。初始學(xué)習(xí)率和預(yù)訓(xùn)練網(wǎng)絡(luò)層參數(shù)的學(xué)習(xí)率分別為0.1 和0.01,在第61 個(gè)和第81 個(gè)周期學(xué)習(xí)率分別下降為0.01、0.001 和0.001、0.000 1。在測試階段,利用已訓(xùn)練的模型提取特征,使用組合特征F 計(jì)算ReID 任務(wù)中的Rank-k 和mAP。在Market1501、Duke 和CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)均采用相同設(shè)置。
為證明融合特征的有效性,在Market1501 數(shù)據(jù)集上對以下3 組特征對進(jìn)行mAP 和Rank-1 實(shí)驗(yàn)驗(yàn)證:1)RGB 特征(RGB)及其與融合特征(Fusion)的拼接特征(RGB&Fusion);2)灰度特征(Gray)及其與融合特征的拼接特征(Gray&Fusion);3)RGB&Gray特征及RGB&Gray&Fusion 特征(組合特征F)。圖2分別給出了3 組特征對的mAP 和Rank-1 結(jié)果,可以看出:1)單獨(dú)灰度特征的mAP 和Rank-1 結(jié)果最差,但灰度特征和RGB 特征融合后可有效提高ReID 性能,證明了灰度特征能對RGB 特征進(jìn)行有效補(bǔ)充;2)RGB 特征、Gray 特征及RGB&Gray 特征與融合特征進(jìn)行拼接后,mAP 分別提升了4.4、23.6 和1.3 個(gè)百分點(diǎn),Rank-1 分別提升了2.4、13.5 和0.7 個(gè)百分點(diǎn),說明三者與融合特征結(jié)合后有助于提升識別準(zhǔn)確率,證明了融合特征的有效性。3)使用組合特征F可取得最優(yōu)的mAP 和Rank-1,進(jìn)一步證明了融合特征可提升識別性能。
圖2 Market1501 數(shù)據(jù)集上融合特征的實(shí)驗(yàn)結(jié)果Fig.2 Experimental results of fusion features on Market1501 dataset
在本文網(wǎng)絡(luò)模型訓(xùn)練過程中,各分支都采用獨(dú)立的交叉熵?fù)p失函數(shù),而組合特征F 也使用該損失函數(shù)作為網(wǎng)絡(luò)全局損失函數(shù)。為驗(yàn)證各分支損失與全局損失函數(shù)的重要性,通過分別移除RGB 分支、灰度分支、融合分支和組合特征F 的損失函數(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。表3 給出Market1501 數(shù)據(jù)集上移除各分支的損失函數(shù)后的mAP 和Rank-1 實(shí)驗(yàn)結(jié)果??梢钥闯?,移除任意一個(gè)分支的損失函數(shù)都會不同程度地降低算法性能,說明在訓(xùn)練過程中對每個(gè)分支都使用獨(dú)立損失函數(shù)的重要性和有效性,同時(shí)對組合特征F 使用全局損失函數(shù)也能提升算法性能,驗(yàn)證了全局損失函數(shù)對算法性能的促進(jìn)作用。
表3 Market1501 數(shù)據(jù)集上移除各分支損失函數(shù)后的mAP 和Rank-1 結(jié)果Table 3 mAP and Rank-1 results of removing the loss function of each branch on Market1501 dataset %
在Market1501 和Duke 數(shù)據(jù)集上得到本文行人再識別方法的mAP、Rank-1、Rank-5和Rank-10實(shí)驗(yàn)結(jié)果,在CUHK03 數(shù)據(jù)集上得到mAP 和Rank-1 實(shí)驗(yàn)結(jié)果,并與現(xiàn)有行人再識別方法進(jìn)行比較。表4 為本文方法與對比方法在Market1501數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中“—”表示原文獻(xiàn)中沒有該項(xiàng)實(shí)驗(yàn)結(jié)果。對比方法分為兩類:1)基于特征設(shè)計(jì)的行人再識別方法,包括BoW+Kissme[5]、SpindleNet[25]、SVDNet[29]、GLAD[30]、MLFN[9]、HACNN[11]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務(wù)學(xué)習(xí)的行人再識別方法,包括APR[14]、GAN[21]、Pose Transferrable[20]、MGCAM[19]、MaskReID[18]、CA3NeT[15]和SPReID[17]??梢钥闯觯疚姆椒ǖ膍AP 和Rank-1分別為82.3%和93.9%,優(yōu)于對比方法,比PCB 方法分別高出4.9 和1.6 個(gè)百分點(diǎn),說明融合圖像的RGB 特征和灰度特征能夠提升識別性能。
表4 在Market1501 數(shù)據(jù)集上不同行人再識別方法的性能比較Table 4 Performance comparison of different pedestrian re-identification methods on Market1501 dataset %
表5 為本文方法與對比方法在Duke 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中對比方法分為兩類:1)基于特征設(shè)計(jì)的行人再識別方法,包括BoW+Kissme[5]、LOMO[6]、SVDNet[29]、GLAD[30]、MLFN[9]、HA-CNN[11]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務(wù)學(xué)習(xí)的行人再識別方法,包括GAN[21]、Pose Transferrable[20]、APR[14]、MaskReID[18]、CA3NeT[15]和SPReID[17]??梢钥闯?,本文方法的mAP 和Rank-1 分別為71.3% 和84.7%,僅次于Mancs[12]方法,出現(xiàn)該結(jié)果的原因可能為Duke 數(shù)據(jù)集的相機(jī)視角更多變且場景更復(fù)雜,使得圖像融合特征未能提供較好的判別信息,但本文方法的mAP 和Rank-1 依然比PCB 方法高出5.2 和2.9 個(gè)百分點(diǎn)。
表5 在Duke數(shù)據(jù)集上不同行人再識別方法的性能比較Table 5 Performance comparison of different pedestrian re-identification methods on Duke dataset %
表6 為本文方法與對比方法在CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中對比方法分為兩類:1)基于特征設(shè)計(jì)的行人再識別方法,包括BoW+Kissme[5]、LOMO[6]、SVDNet[29]、HA-CNN[11]、MLFN[9]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務(wù)學(xué)習(xí)的行人再識別方法,包括Pose Transferrable[20]和MGCAM[19]。在CUHK03-labeled 和CUHK03-detected 數(shù)據(jù)集上,本文方法的mAP 和Rank-1 分別為64.1%、60.9%和69.3%、66.2%,優(yōu)于對比方法,在CUHK03-detected 數(shù)據(jù)集上,本文方法比PCB 方法的mAP 和Rank-1 分別高出6.7 和4.9 個(gè)百分點(diǎn),進(jìn)一步證明融合圖像的RGB 和灰度特征可以提升識別性能。
表6 在CUHK03 數(shù)據(jù)集上不同行人再識別方法的性能比較Table 6 Performance comparison of different pedestrian re-identification methods on CUHK03 dataset %
為更直觀地展示融合特征在行人再識別過程中能夠有效減少圖像顏色信息帶來的干擾,利用PCB方法和本文方法將Market1501 數(shù)據(jù)集中部分Query圖像在Gallery 中排名靠前的匹配結(jié)果進(jìn)行可視化。圖3 顯示排名前八但有錯(cuò)誤匹配的結(jié)果圖像,表明顏色相近對不同身份行人識別結(jié)果的影響。需要注意的是:在每組對比結(jié)果中每行的第1 張圖像表示Query 待查詢圖像,之后是匹配結(jié)果圖像;實(shí)線框表示與待查詢圖像的身份相同;虛線框表示與查詢圖像的身份不同;彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版。從圖3 可以看出,PCB 方法得到的匹配結(jié)果中匹配錯(cuò)誤的多數(shù)是與Query 顏色非常相近的圖像,說明不同身份行人圖像之間的相近顏色對識別結(jié)果造成了干擾。如圖3(a)所示,PCB 方法得到排名前八的結(jié)果中只有2 個(gè)正確匹配結(jié)果,而本文方法獲得了4 個(gè)正確匹配結(jié)果,具有更高的識別準(zhǔn)確率。
圖3 Market1501 數(shù)據(jù)集上的部分可視化結(jié)果(相近顏色干擾)Fig.3 Partial visualization results on Market1501 dataset(interference of similar colors)
圖4 顯示排名前十且均為正確匹配的結(jié)果圖像,表明顏色不一致對相同身份行人識別結(jié)果的影響。從圖4 可以看出,在排名前十的正確匹配結(jié)果中PCB 方法得到的匹配結(jié)果容易受顏色不一致的影響,與Query 顏色不一致的圖像排名較靠后。如圖4(c)所示,PCB 方法中與Query 顏色不一致的圖像排名為第十,而本文方法中該圖像的排名為第三,說明本文方法能夠有效減少顏色不一致問題所帶來的干擾,即使相同身份行人圖像之間存在較大的顏色差異,其排名也較靠前。
圖4 Market1501 數(shù)據(jù)集上的部分可視化結(jié)果(顏色不一致干擾)Fig.4 Partial visualization results on Market1501 dataset(interference of inconsistent colors)
本文基于雙分支殘差網(wǎng)絡(luò),提出一種結(jié)合RGB圖像特征與灰度圖像特征的行人再識別方法。該方法在提取RGB 圖像特征和灰度圖像特征的同時(shí),過濾掉了部分圖像顏色的干擾信息,通過將行人圖像的顏色特征與結(jié)構(gòu)、形態(tài)、紋理等特征進(jìn)行融合學(xué)習(xí),使得行人再識別模型能提取更具判別力的特征,從而提升行人再識別準(zhǔn)確率。在Market1501、DukeMTMC-ReID 和CUHK03 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法具有較高的mAP 和Rank-1 準(zhǔn)確率。后續(xù)將擴(kuò)展融合RGB 圖像特征與灰度圖像特征的行人再識別方法的應(yīng)用范圍,進(jìn)一步提高其適用性與魯棒性。