張玉康 譚 磊 陳靚影
近年來,隨著城市監(jiān)控網(wǎng)絡(luò)的不斷完善,行人重識別技術(shù)由于其巨大的應(yīng)用潛力而受到越來越多的關(guān)注.給定一個需要檢索的行人圖像,行人重識別的任務(wù)是檢索出一段時間內(nèi)由非重疊區(qū)域下的攝像機(jī)所拍攝到的所有該行人圖像,其在智能監(jiān)控、行人追蹤、行為分析等計(jì)算機(jī)視覺應(yīng)用及公共安全領(lǐng)域扮演著十分重要的角色[1-4].
當(dāng)前行人重識別研究方法大多都專注于解決在可見光條件下人體姿態(tài)、背景、光照等的問題.因此,此類方法主要采用行人特征提取、相似性判別或基于生成式[5-8]的方式來實(shí)現(xiàn)行人重識別.例如,Zhao等[5]提出了一種基于人體區(qū)域引導(dǎo)的多級特征分解和樹狀結(jié)構(gòu)競爭特征融合的Spindle-Net 網(wǎng)絡(luò),其主要用于對齊人體語義區(qū)域來解決行人重識別問題;Sun 等[6]提出采用基于注意力機(jī)制的方式,把行人水平均勻分割成六個子塊,并對其進(jìn)行局部調(diào)整對齊,極大地改善了行人重識別的效果;Hermans 等[7]提出了一種改進(jìn)的三元組損失函數(shù),其約束條件在于除要求行人類內(nèi)距離小于類間距離,還使其小于某個閾值來提升行人重識別的效果;PTGAN 算法[8]提出一種保持行人圖像前景不變而將背景遷移為目標(biāo)圖像背景的方法,極大地緩解了行人重識別研究所面臨的數(shù)據(jù)標(biāo)注困難的問題.
然而,在實(shí)際的監(jiān)控系統(tǒng)中,特別是在光照不足的條件下,攝像機(jī)通常需要從可見光模式切換到近紅外模式來應(yīng)對這種情況.因此,在將此類方法應(yīng)用于實(shí)際場景之前,有必要考慮可見光與近紅外跨模態(tài)下的行人重識別問題.
基于跨模態(tài)下的行人重識別已成為近兩年來業(yè)內(nèi)人士的一個重要關(guān)注點(diǎn).其研究目標(biāo)是對可見光狀態(tài)下(自然狀態(tài))和近紅外狀態(tài)下(攝像機(jī)所捕捉到行人不同光譜的狀態(tài))的行人進(jìn)行匹配[9-13].目前,該方向主要有兩種思路:一種是基于近紅外和可見光模態(tài)下的行人特征提取方法;另一種是基于生成式的方式(Generative adversarial networks,GANs)將兩種跨模態(tài)下的行人轉(zhuǎn)換成同一種模態(tài),以實(shí)現(xiàn)行人重識別過程.
針對前者,Wu 等[9]提出了一種基于深度零填充的方式將兩種模態(tài)以參數(shù)共享的方法進(jìn)行訓(xùn)練來解決行人重識別問題.Ye 等[10]提出了一種基于雙向雙約束Top-ranking 損失的雙路網(wǎng)絡(luò)來提取行人特征.此外,在其另一項(xiàng)工作中[11],他們提出了一個層級跨模態(tài)匹配模型來聯(lián)合優(yōu)化行人在特定模態(tài)和共享模態(tài)下的特征描述.對于后者,Dai 等[12]設(shè)計(jì)一個基于判別器的生成對抗訓(xùn)練模型,從不同的模態(tài)中學(xué)習(xí)具有判別力的特征.為了減少模態(tài)差異,Wang 等[13]提出一種將近紅外圖像和可見光圖像進(jìn)行相互轉(zhuǎn)換的方法,并提取相應(yīng)模態(tài)下的行人圖像特征.Wang 等[14]認(rèn)為灰度圖像比彩色圖像的識別效果高,將彩色圖像全部轉(zhuǎn)換為灰度圖像并用于行人重識別中.
上述提到的方法雖然在一定程度上提升了跨模態(tài)行人重識別的精度,但由于可見光圖像和近紅外圖像具有數(shù)據(jù)獨(dú)立且分布不同的特點(diǎn),導(dǎo)致其相互轉(zhuǎn)換的圖像與真實(shí)圖像之間存在數(shù)據(jù)差異.基于此,本文設(shè)計(jì)了一種新穎的中間模態(tài)生成器,通過將兩種模態(tài)分別進(jìn)行特征提取后,以自適應(yīng)的方式解碼在一個共享的潛在特征空間,進(jìn)而轉(zhuǎn)化為中間模態(tài)的圖像,利用其潛在的特征空間來實(shí)現(xiàn)可見光與近紅外之間的遷移,從而提升行人重識別的效果.實(shí)驗(yàn)表明,本文方法不僅可以減少跨模態(tài)行人重識別的模態(tài)差異,而且還能保持行人外貌特征的一致性,極大地提升了跨模態(tài)行人重識別的精度.
在此基礎(chǔ)上,為了保留生成圖像與真實(shí)圖像之間行人身份的一致性,本文提出特征約束模塊和圖像約束模塊,從特征層和圖像層分別對中間模態(tài)生成器進(jìn)行約束.
另外,在基于監(jiān)督的行人重識別中,數(shù)據(jù)集的標(biāo)注是一個耗時耗力的工作,而跨模態(tài)的數(shù)據(jù)集的標(biāo)注更加困難,加劇了行人重識別算法設(shè)計(jì)的復(fù)雜度.因此,本文提出了一個用于評估實(shí)際監(jiān)控場景下的跨模態(tài)行人重識別數(shù)據(jù)集,本數(shù)據(jù)集僅用于測試,而不用于訓(xùn)練,詳細(xì)見下文的第3.2 節(jié).
綜上所述,本文貢獻(xiàn)主要包括以下三個方面:
1)本文提出了一種新的中間模態(tài)生成器,用于解決近紅外與可見光狀態(tài)下的行人重識別過程中所存在模態(tài)差異性的問題.
2) 為了保持生成器在生成過程中行人身份的一致性,本文提出了一個特征約束模塊和圖像約束模塊,分別用于特征層和圖像層的聯(lián)合約束.
3) 針對跨模態(tài)行人重識別數(shù)據(jù)集的匱乏,本文提出了一個用于評估實(shí)際監(jiān)控場景下基于跨模態(tài)的行人重識別數(shù)據(jù)集.
實(shí)驗(yàn)結(jié)果證明了該方法的有效性,相對于當(dāng)前跨模態(tài)的行人重識別方法,本文所提出的算法取得了較大的性能優(yōu)勢.
在此小節(jié)中,將介紹本文所提出的基于圖像和特征聯(lián)合約束的中間模態(tài)行人重識別方法,如圖1所示,本文所提出的方法的完整結(jié)構(gòu)包括:中間模態(tài)生成器(Middle modality generator,MMG)、特征約束模塊(Feature constraint module,FCM)和圖像約束模塊(Image constraint module,ICM).MMG 模塊是為了解決跨模態(tài)行人重識別中由于圖像成像的變化而導(dǎo)致的模態(tài)差異問題,通過加入MMG 模塊,ICM 模塊可以更好地關(guān)注不同行人之間的距離;而ICM 模塊也可以反過來對MMG 模塊進(jìn)行約束,促進(jìn)MMG 模塊尋找更加合適的圖像和特征,因此本文所提出的MMG 模塊和ICM 模塊兩個可以相互促進(jìn)、共同優(yōu)化.
圖1 本文方法的總體框架Fig.1 The overall framework of this method
在訓(xùn)練階段,每個輸入圖像都被用于訓(xùn)練采用了生成對抗網(wǎng)絡(luò)的近紅外與可見光模態(tài)編碼器.同時,共享解碼器將利用這兩個編碼器中的中間特征來解碼到中間模態(tài)圖像,MMG 所生成的中間模態(tài)圖像作為了行人重識別(ICM)的輸入.由于MMG是一個獨(dú)立的模塊,該部分較容易地嵌入到一個設(shè)計(jì)良好的ICM 模塊中,并進(jìn)行端到端的訓(xùn)練.在這項(xiàng)工作中,本文采用基于ResNet-50 網(wǎng)絡(luò)[15]訓(xùn)練所提出的MMG.
本文所提出的基于圖像和特征聯(lián)合約束的跨模態(tài)行人重識別方法,在圖像層面通過行人重識別約束模塊(ICM)對生成對抗網(wǎng)絡(luò)的中間模態(tài)生成器模塊(MMG)所生成的中間模態(tài)圖像進(jìn)行約束,在特征層面通過特征約束模塊(FCM)對生成對抗網(wǎng)絡(luò)的中間模態(tài)生成器模塊(MMG)的編碼器進(jìn)行特征層面的約束.
盡管利用GAN 從近紅外和可見光圖像相互遷移在行人重識別的性能上取得了一定的進(jìn)展,但由于潛在傳輸空間巨大,瓶頸明顯.因此,本文試圖在普通GAN 的基礎(chǔ)上,在近紅外和可見光之間的遷移空間中找到一個潛在的中間模態(tài).受啟發(fā)于基于CycleGAN[16]的生成器的結(jié)構(gòu)可分為兩部分:編碼器和解碼器.根據(jù)這一結(jié)構(gòu),本文在近紅外和可見光的生成器中添加了另一個共享的解碼器,以從近紅外和可見光圖像中得到一種潛在的中間模態(tài)圖像.
在本文中,本文定義xvis表示來自于可見光模態(tài)Xvis的輸入圖像,xnir表示來自于近紅外模態(tài)Xnir的輸入圖像,本文采用了CycleGAN[12]的近紅外-可見光循環(huán)一致性結(jié)構(gòu)來建立本文的中間模態(tài)生成器MMG 模塊,在本文方法中,MMG 模塊包括近紅外和可見光兩個模態(tài)生成器用以促進(jìn)中間模態(tài)的生成,其中生成器Gvis和判別器Dvis用來從近紅外模態(tài)生成和判別可見光模態(tài)的圖像,生成器Gnir和判別器Dnir用來從可見光模態(tài)生成和判別近紅外模態(tài)圖像.因此,本文的MMG 模塊可以通過以下對抗損失來進(jìn)行訓(xùn)練:
其中,判別器Dvis和Dnir的作用是通過最大化上述等式來區(qū)分生成圖像和真實(shí)目標(biāo)圖像,生成器Gvis和Gnir的作用是通過最小化上述等式來生成更加真實(shí)的圖像.
此外,受到CycleGAN[12]循環(huán)一致性損失的啟發(fā),使得生成器Gvis(Gnir)所生成的可見光(近紅外) 圖像可以被生成器Gnir(Gvis) 還原為原始近紅外(可見光)圖像,本文通過Lcyc損失來約束MMG網(wǎng)絡(luò):
通過在MMG 模塊中使用可見光-近紅外生成器來促進(jìn)中間模態(tài)圖像的生成,進(jìn)一步緩解了模態(tài)間的差異性.
雖然循環(huán)一致性損失和對抗性損失有助于圖像在兩種模態(tài)之間進(jìn)行遷移,但在遷移過程中保持行人身份一致性也是必不可少的.以前的工作是大都利用基于Re-ID 骨干網(wǎng)的損失約束生成對抗網(wǎng)絡(luò)使其產(chǎn)生行人身份的一致性.目前最先進(jìn)的Re-ID方法是基于ResNet-50 網(wǎng)絡(luò)[15]的,它在特征提取方面顯示出強(qiáng)大的能力.盡管這種能力有助于解決許多計(jì)算機(jī)視覺任務(wù),但在可見光-近紅外識別問題中,需要一種更強(qiáng)的損失對行人身份進(jìn)行約束.受TP-GAN[17]的啟發(fā),本文提出了一種特征約束模塊(FCM),該模塊在編碼器之后采用身份損失來在圖像生成階段進(jìn)行特征級約束.如圖1 所示,FCM 模塊通過具有全連接層的平均池化來構(gòu)造,通過交叉熵?fù)p失進(jìn)行約束,該損失公式為:
其中,N表示輸入網(wǎng)絡(luò)的一個批次的圖像的數(shù)量,p(emid) 表示輸入編碼器特征emid的概率分布.綜上,本文所提出的MMG 模塊的損失函數(shù)表示如下:
其中,遵循最初的CycleGAN 參數(shù)配置,本文設(shè)定λ1和λ2分別為10 和1,設(shè)定λ3為0.5.
由于上文中MMG 模塊已經(jīng)將可見光和紅外圖像遷移到了潛在的中間模態(tài),因此跨模態(tài)的行人重識別問題已經(jīng)轉(zhuǎn)為為單模態(tài)的識別問題.由于基于ResNet-50 網(wǎng)絡(luò)[15]的可見光下Re-ID 方法在該領(lǐng)域取得了很大進(jìn)展,這里本文采用了相同的設(shè)定,以交叉熵?fù)p失和三元組損失為約束損失的ResNet-50 來完成最后一步:
其中,對于交叉熵?fù)p失,N是輸入網(wǎng)絡(luò)的每一批次的圖像數(shù)量,p(xmid) 是中間模態(tài)圖像的概率分布;對于三元組損失,表示來自于同一正樣本對的行人的中間模態(tài)的特征,表示來自于負(fù)樣本對的不同行人的中間模態(tài)的特征.D表示對特征向量計(jì)算其歐氏距離,ξ表示提前設(shè)定好的閾值,[z]+=max(z,0).
綜上所述,本文所提出的模型的總體損失表示如下:
本文按照經(jīng)驗(yàn)設(shè)定α1和α2分別為1 和1.
2.1.1 Parking-01 數(shù)據(jù)集介紹
如圖2 所示,本數(shù)據(jù)集采集于冬季下午某地一個路口拐彎處的9 個攝像機(jī)下.共103 個行人的2 008張圖像,其中可見光圖像為1 409 張,近紅外圖像為599 張.與現(xiàn)有SYSU-MM01 數(shù)據(jù)集[5]相比,本數(shù)據(jù)集主要有以下特點(diǎn):
圖2 數(shù)據(jù)集圖像示例Fig.2 Example of dataset images
1)由于受到光照等環(huán)境因素的影響,這9 個攝像機(jī)并非同一時間全部轉(zhuǎn)換模態(tài),而是有一定的時間差,這個時間差會對行人重識別的應(yīng)用產(chǎn)生較大影響,本數(shù)據(jù)集是第一個基于這個時間差構(gòu)建的跨模態(tài)行人重識別數(shù)據(jù)集.
2)數(shù)據(jù)集更能反映出現(xiàn)實(shí)世界中跨模態(tài)行人數(shù)據(jù)本身分布的特點(diǎn),對研究現(xiàn)實(shí)場景下的跨模態(tài)行人重識別問題具有重要意義;
3)基線方法在此數(shù)據(jù)集上的效果只有15.5 %,表明了本數(shù)據(jù)集具有較大的挑戰(zhàn)性,因此本數(shù)據(jù)集具有一定的研究意義和學(xué)術(shù)價(jià)值.
這里以圖像 “0001_c2_400_nir.jpg” 為例來介紹本數(shù)據(jù)集圖像的命名規(guī)則,“0001” 表示ID,“c2”表示該圖像來自于第二個攝像機(jī)下,“400” 表示這段視頻以1 s 時間采集時的幀率,“nir” 表示該圖像為近紅外圖像,如果是 “vis” 則表示該圖像為可見光圖像.本文將該數(shù)據(jù)集命名為Parking-01 數(shù)據(jù)集.
2.1.2 Parking-01 數(shù)據(jù)集評估協(xié)議
Parking-01 數(shù)據(jù)集僅用于網(wǎng)絡(luò)模型的測試評估,不用于訓(xùn)練網(wǎng)絡(luò).考慮到本數(shù)據(jù)集采集的特殊性,在測試過程中包括兩種測試模式,一種為可見光檢索近紅外模態(tài),另一種為近紅外檢索可見光模態(tài).在可見光檢索近紅外模式時,以可見光圖像為query 庫,近紅外圖像中每個ID 在每個攝像機(jī)下任取一張圖像為gallery 庫.在近紅外檢索可見光圖像時,以近紅外圖像為query 庫,可見光圖像中每個ID 在每個攝像機(jī)下任取一張圖像為gallery 庫.數(shù)據(jù)集最終測試結(jié)果為測試10 次求其平均值.
本研究在SYSU-MM01 數(shù)據(jù)集[9]上做了大量的評估實(shí)驗(yàn).SYSU-MM01 數(shù)據(jù)集是跨模態(tài)行人重識別的公認(rèn)權(quán)威數(shù)據(jù)集.包含由4 個可見光相機(jī)拍攝的287 628 張可見光圖像和2 個近紅外相機(jī)拍攝的15 792 張近紅外圖像,一共有491 個行人.SYSUMM01 數(shù)據(jù)集分為訓(xùn)練集和測試集,分別包含395個和96 個行人.根據(jù)其標(biāo)準(zhǔn)評估協(xié)議,數(shù)據(jù)集包括all-search 模式和indoor-search 檢索模式.對于allsearch 模式,可見光相機(jī)1、2、4 和5 用于gallery集,紅外相機(jī)3 和6 用于query 集.對于indoorsearch 模式,可見光攝像機(jī)1 和2 (不包括室外攝像機(jī)4 和5)用于gallery 集,紅外攝像機(jī)3 和6 用于query集.對于這兩種模式,本文都采用singleshot 和multi-shot 設(shè)置進(jìn)行測試.
本文提出了在SYSU-MM01 數(shù)據(jù)集進(jìn)行訓(xùn)練后,在Parking-01 數(shù)據(jù)集上按照2.1.2 的數(shù)據(jù)集評估協(xié)議進(jìn)行評估.
評估協(xié)議.以標(biāo)準(zhǔn)累積匹配特性(CMC)曲線和平均精度(mAP)作為性能評價(jià)指標(biāo).在測試階段,可見光相機(jī)的樣本用于gallery 集,近紅外相機(jī)的樣本用于query 集.
實(shí)驗(yàn)細(xì)節(jié).本方法中的訓(xùn)練圖像大小首先被設(shè)定為128×128,并且使用了水平翻轉(zhuǎn)的圖像增強(qiáng)方式,之后再輸入Re-ID 網(wǎng)絡(luò)時圖像大小調(diào)整為256×128.在本文中Re-ID 模塊所使用的ResNet-50 網(wǎng)絡(luò)模型是經(jīng)過ImageNet[18]預(yù)訓(xùn)練的,然后在SYSU-MM01 數(shù)據(jù)集進(jìn)行微調(diào).本方法輸入網(wǎng)絡(luò)的圖像批次為32.MMG 模塊的學(xué)習(xí)率為0.0002,FCM和Re-ID 模塊的學(xué)習(xí)率設(shè)定為0.1,經(jīng)過100 次的訓(xùn)練后,該學(xué)習(xí)率被衰減為0.01,模型一共訓(xùn)練150 次.MMG 模塊的優(yōu)化器采用的是Adam,其數(shù)值設(shè)定為(0.5,0.999).FCM 和ICM 模塊的優(yōu)化器是SGD.三元組損失的P和K值分別設(shè)定為8 和4.
本文提出的方法與SYSU-MM01 數(shù)據(jù)集上的13 種最新方法進(jìn)行了比較,包括HOG[19]、LOMO[20]、Two-Stream[9]、One-Stream[9]、Zero-Padding[9]、BCTR[10]、BDTR[10]、D-HSME[21]、MSR[22]、cmGAN[12]、ResNet-50、CMGN[23]、D2RL[13]和AlignGAN[14],其中ResNet-50*為本文所測出的結(jié)果.為了公平比較,上述方法分別在SYSU-MM01數(shù)據(jù)集上的all-search single-shot、indoor-search single-shot、all-search multi-shot 和indoor-search multi-shot 四種模式下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如下表1~4 所示,表中R1、R10、R20 分別代表Rank-1、Rank-10、Rank-20.其中,“*” 表示本文測出的結(jié)果.
表1 SYSU-MM01 數(shù)據(jù)集all-search single-shot模式實(shí)驗(yàn)結(jié)果Table 1 Experimental results in all-search single-shot mode on SYSU-MM01 dataset
從表1 可以看出,本文方法在SYSU-MM01 數(shù)據(jù)集上all-search single-shot 模式下達(dá)到了目前最好的效果,在Rank-1、Rank-10、Rank-20 以及mAP 上分別超過最排在第二位的D2RL 4.2 %、3.3 %、1.3 %、3.7 %.
從表2 可以看出,本文方法在SYSU-MM01 數(shù)據(jù)集上all-search multi-shot 模式下達(dá)到了較好的效果,其中在Rank-1 和mAP 上達(dá)到了最好的效果.
表2 SYSU-MM01 數(shù)據(jù)集all-search multi-shot模式實(shí)驗(yàn)結(jié)果Table 2 Experimental results in all-search multi-shot mode on SYSU-MM01 dataset
從表3 可以看出,本文方法在SYSU-MM01 數(shù)據(jù)集上indoor-search single-shot 模式下達(dá)到了較好的效果,其中在Rank10 上達(dá)到了最好的效果.
表3 SYSU-MM01 數(shù)據(jù)集indoor-search single-shot模式實(shí)驗(yàn)結(jié)果Table 3 Experimental results in indoor-search singleshot mode on SYSU-MM01 dataset
從表4 可以看出,本文方法在SYSU-MM01 數(shù)據(jù)集上indoor-search multi-shot 模式下達(dá)到了較好的效果.
表4 SYSU-MM01 數(shù)據(jù)集indoor-search multi-shot模式實(shí)驗(yàn)結(jié)果Table 4 Experimental results in indoor-search multishot mode on SYSU-MM01 dataset
如表3 和表4 所示,在SYSY-MM01 數(shù)據(jù)集的測試中本文發(fā)現(xiàn),在indoor-search 兩種模式下本方法略低于現(xiàn)有最好方法,這主要是由于對于中間模態(tài)的約束不佳,而造成生成結(jié)果反而比原始的圖像更加難以檢索.這在一定程度上是基于生成對抗網(wǎng)絡(luò)的跨模態(tài)行人重識別方法所存在的普遍問題.但是相比于其他方法,本文所提出的方法仍然在Rank1 和mAP 上處于領(lǐng)先的地位.
表5 和表6 為本文所提出的方法在所構(gòu)建的Parking-01 數(shù)據(jù)集上的實(shí)驗(yàn)效果,其中表5 為近紅外檢索可見光模式的實(shí)驗(yàn)結(jié)果,表6 位可見光檢索近紅外模式的實(shí)驗(yàn)結(jié)果.
表5 近紅外檢索可見光模式的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of near infrared retrieval visible mode
表6 可見光檢索近紅外模式的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of visible retrieval near infrared mode
從上述兩個表格可以看出一下問題:1) Rank-1和mAP 的效果較低,顯示出跨模態(tài)行人重識別在本文所構(gòu)建的Parking-01 數(shù)據(jù)集上具有很大的挑戰(zhàn),因此所構(gòu)建的數(shù)據(jù)集有著巨大的研究意義和研究價(jià)值;2)本文所提方法在近紅外檢索可見光模式下,比ResNet-50 網(wǎng)絡(luò)[11]的基準(zhǔn)線分別在Rank-1、Rank-10、Rank-20 以及mAP 上分別高出了10.4 %、14.1 %、10.9 %、10.4 %;在可見光檢索近紅外模式下,比ResNet-50 的基準(zhǔn)線分別在Rank-1、Rank-10、Rank-20 以及mAP 上分別高出了11.4 %、2.6 %、6.1 %、5.4 %,這個也證實(shí)了本文所提出方法的有效性.
3.3.1 不同模態(tài)轉(zhuǎn)換性能分析
為了與近紅外轉(zhuǎn)可見光模式、可見光轉(zhuǎn)近紅外模式兩種方法進(jìn)行比較,本文進(jìn)行將ResNet-50、轉(zhuǎn)近紅外模式、轉(zhuǎn)可見光模式與本文所提出的方法在SYSU-MM01 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,實(shí)驗(yàn)結(jié)果如表7 所示.從表7 的實(shí)驗(yàn)結(jié)果可以看出,本文所提出的中間模態(tài)轉(zhuǎn)換比轉(zhuǎn)到近紅外模式或者轉(zhuǎn)到可見光模式在Rank-1 上分別高出了2.3 %、3.5 %,顯示了本文所提方法有著較大的性能優(yōu)勢.
表7 不同模態(tài)轉(zhuǎn)換的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of different mode conversion
3.3.2 算法時間復(fù)雜度
本文的方法實(shí)施框架為Pytorch,算法在兩個GeForce 1080Ti GPU 上訓(xùn)練時間約為40 個小時.算法模型一共訓(xùn)練150 個epoch,一個epoch 時間為16 分鐘,一個epoch 訓(xùn)練的圖像張數(shù)為32 451張圖像,當(dāng)epoch=1 時,隨機(jī)選取100 張圖像進(jìn)行測試,單張圖像平均測試時間約為1.69 秒.
為了檢測算法中循環(huán)一致性損失的效果,本文在去掉了循環(huán)一致性損失并對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試,僅用和相同的判別網(wǎng)絡(luò)設(shè)置去約束近紅外和可見光圖片送入編碼器后解碼并輸入到圖像約束模塊,并且與本文所提出的中間模態(tài)方法進(jìn)行比較.從表8 的實(shí)驗(yàn)結(jié)果可以看出,本文所提出的中間模態(tài)轉(zhuǎn)換比沒有循環(huán)一致性損失在Rank-1 上高出了3.5 %,顯示了較大的優(yōu)勢.
表8 有無循環(huán)一致性損失的實(shí)驗(yàn)結(jié)果Table 8 Experimental results with or without loss of cycle consistency
為了更好地觀察實(shí)驗(yàn)中間模態(tài)的結(jié)果,本文將中間模式生成器生成的圖像以圖3 中的圖像形式可視化.從圖中可以看出,本文提出的方法可以通過潛在的特征空間將可見光和紅外模態(tài)轉(zhuǎn)換為一種模態(tài),減少了模態(tài)之間的差異,提高了行人重識別的效果.
圖3 中間模態(tài)生成器所生成的中間模態(tài)圖像Fig.3 Middle modality image generated by middle modality generator
本文針對近紅外和可見光之間數(shù)據(jù)分布存在差異性的問題,不同于以往使用生成對抗網(wǎng)絡(luò)進(jìn)行單向轉(zhuǎn)換為近紅外或者可見光的方法,提出了通過生成對抗網(wǎng)絡(luò)尋找一種在其相互轉(zhuǎn)換過程中潛在的中間模態(tài),以提升此種模態(tài)下的行人重識別效果.本文提出的特征約束模型和行人重識別約束模型對生成對抗網(wǎng)絡(luò)的中間模態(tài)生成器進(jìn)行約束,進(jìn)一步壓縮了可見光和近紅外圖像及特征間的轉(zhuǎn)換空間.此外,考慮到跨模態(tài)行人重識別數(shù)據(jù)集的稀缺性,本文還構(gòu)建了一個基于跨模態(tài)的行人重識別數(shù)據(jù)集,為進(jìn)一步開展此方向的研究提供了有效的評估策略和依據(jù).