陳坤峰,潘志松,王家寶,施 蕾,張 錦,焦珊珊
陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007
行人再識別是計算機(jī)視覺中的一項(xiàng)熱門技術(shù),其目的是實(shí)現(xiàn)多個不重疊攝像頭場景下的行人搜索[1-2]。得益于模式識別和深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,近年來研究者們提出一系列優(yōu)秀的行人再識別方法,并且在理想仿真條件下達(dá)到了較高的性能[3-5]。但是,目前大部分方法關(guān)注的是可見光攝像頭產(chǎn)生的圖像,而在實(shí)際應(yīng)用中可見光攝像頭只能滿足部分場景的需求。在夜間條件下,可見光攝像頭就無法完成對行人外貌的精準(zhǔn)描述。因此,為了更好地滿足夜間監(jiān)控的條件,可根據(jù)溫度成像的紅外攝像頭成為夜間監(jiān)控的首選,與日間監(jiān)控的可見光攝像頭一起形成全天候的監(jiān)控閉環(huán)。若要實(shí)現(xiàn)這樣一個全天候智能視頻監(jiān)控系統(tǒng),其中存在的主要問題就是如何將可見光模態(tài)下的行人圖像與紅外模態(tài)下的行人圖像進(jìn)行同身份匹配,即跨模態(tài)行人再識別。
跨模態(tài)行人再識別是一個多源細(xì)粒度圖像檢索任務(wù),兩種模態(tài)的行人圖像如圖1所示。該任務(wù)所要匹配的是日夜長時間跨度下紅外與可見光兩種不同模態(tài)的圖像,所以要比傳統(tǒng)單模態(tài)行人再識別的實(shí)現(xiàn)更加困難。這些困難主要體現(xiàn)在兩個方面:(1)類內(nèi)變化:首先,跨模態(tài)行人再識別任務(wù)也面臨單模態(tài)情況下光照、遮擋、姿態(tài)、視角等因素造成的同身份行人圖像類內(nèi)變化較大的現(xiàn)象;其次,紅外圖像和可見光圖像體現(xiàn)的信息量不對等,很可能出現(xiàn)類內(nèi)變化大于類間變化的情況。(2)模態(tài)差異:跨模態(tài)行人再識別要解決的是兩種異質(zhì)圖像的相互檢索,特征對齊是圖像正確匹配的基礎(chǔ)。然而,兩種圖像由于成像原理不同,二者在特征空間的分布有較大不同。所以,跨模態(tài)行人再識別需克服一項(xiàng)額外挑戰(zhàn)就是模態(tài)間存在差異的問題。
圖1 跨模態(tài)行人再識別所要處理的圖像示例
對于類內(nèi)變化問題,大部分工作常常使用圖像的整體特征作為最終的行人表示,也有文獻(xiàn)提到用水平方向平均分塊的策略。然而僅考慮整體特征或者某一特定尺度的局部特征,都是片面的。此外,現(xiàn)有工作只考慮了從特征提取器的網(wǎng)絡(luò)最深層提取出的高級特征,沒有考慮淺層網(wǎng)絡(luò)得到的低級特征。低級特征可以體現(xiàn)圖像的細(xì)節(jié)信息,對行人身份判別同樣有著重要意義。所以,若要得到更有判別能力的跨模態(tài)行人再識別模型,可考慮多尺度多層次的精細(xì)化特征提取策略。
對于模態(tài)差異問題,目前多數(shù)研究常采用共享網(wǎng)絡(luò)參數(shù)的方式將兩種圖像的特征映射到同一特征空間,以模態(tài)共有特征作為最終行人表示。但是,兩模態(tài)圖像的特征可以分為模態(tài)共有和特有特征,如果僅考慮共有特征,直接丟棄了特有特征,就沒有充分利用圖像中蘊(yùn)含的的所有信息。一些研究發(fā)現(xiàn)采用模態(tài)轉(zhuǎn)換的思路,識別率明顯優(yōu)于傳統(tǒng)的方法。其中GAN方法可以有效地利用風(fēng)格遷移等手段實(shí)現(xiàn)兩個模態(tài)之間的轉(zhuǎn)換,有效緩解模態(tài)間的差異。然而,GAN網(wǎng)絡(luò)對任務(wù)性能雖有一定提升,但這些方法在重建圖像或生成特征的過程中破壞了原始的空間結(jié)構(gòu)信息,引入了額外的噪聲。同時GAN帶來的較大計算量和難以收斂的訓(xùn)練難度也不容忽視。所以,在處理模態(tài)間差異的問題上,需要充分考慮同一人兩種模態(tài)來源圖像間的特征互補(bǔ)性,提高異質(zhì)信息利用率。盡量做到在縮小模態(tài)差異的過程中既不損失信息又不增加噪聲。
在跨模態(tài)行人再識別中,從同一行人的圖像中提取而來的各種特征盡管分布不同,但是共同體現(xiàn)了該行人的身份信息。這樣則可以借助協(xié)同學(xué)習(xí)方法把各特征間的互補(bǔ)性利用起來,通過信息融合來提高網(wǎng)絡(luò)的學(xué)習(xí)能力。因此,本文首次綜合考慮增強(qiáng)特征判別能力和提高多源異質(zhì)信息利用率兩個方面,使用了協(xié)同學(xué)習(xí)方法提出一個精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)。
本文的主要貢獻(xiàn)如下:
(1)為了增強(qiáng)特征的判別能力,本文提出了針對精細(xì)化特征的協(xié)同學(xué)習(xí)方法,即在設(shè)計用于提取特征的卷積神經(jīng)網(wǎng)絡(luò)時,綜合考慮多尺度和多層次的行人特征。實(shí)驗(yàn)表明,精細(xì)化特征協(xié)同學(xué)習(xí)是一個簡單而有效增強(qiáng)特征判別能力的方法。
(2)為了提高多源異質(zhì)信息的利用率,本文提出針對多源特征的協(xié)同學(xué)習(xí)方法。首先,鑒于可見光圖像和紅外圖像的異質(zhì)信息互補(bǔ)性,利用雙流網(wǎng)絡(luò)提取跨模態(tài)圖像共有特征和特有特征進(jìn)行協(xié)同學(xué)習(xí);其次,本文首次考慮將人體各部位相對位置關(guān)系的先驗(yàn)判別作為輔助任務(wù),提出一個人體語義自監(jiān)督方法;最后,在多個有針對性的損失函數(shù)聯(lián)合監(jiān)督下達(dá)到多源特征協(xié)同學(xué)習(xí)的目的。
(3)在跨模態(tài)行人再識別相關(guān)數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn)。驗(yàn)證了本文提出的精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)的性能優(yōu)于當(dāng)前最好的相關(guān)工作,具備較高的可靠性和先進(jìn)性。
一般來說單模態(tài)行人再識別是指僅考慮可見光模態(tài)的行人再識別,意即解決在不重疊的可見光攝像頭之間匹配行人圖像的問題[6-7]。該技術(shù)的關(guān)鍵挑戰(zhàn)主要在于攝像頭視角不同,行人姿態(tài)變化、光照強(qiáng)弱以及遮擋與否等因素引起的同身份行人圖像的類內(nèi)變化[8-13]?,F(xiàn)有的單模態(tài)行人再識別方法大致可分為表征學(xué)習(xí)方法和度量學(xué)習(xí)方法。表征學(xué)習(xí)方法主要是利用行人身份標(biāo)簽進(jìn)行判別性特征表示學(xué)習(xí)[14]。度量學(xué)習(xí)方法的目的通常是學(xué)習(xí)不同樣本特征間距離,進(jìn)而達(dá)到增大類間差異和減小類內(nèi)差異的效果[15]。早期的研究中常常利用人體測量學(xué)數(shù)據(jù)、空間時間數(shù)據(jù)、運(yùn)動學(xué)數(shù)據(jù)、動力學(xué)數(shù)據(jù)和視頻流數(shù)據(jù)等,采取特定方法描述行人特征[16]。最近,在深度卷積神經(jīng)網(wǎng)絡(luò)的幫助下,單模態(tài)行人再識別的工作取得了優(yōu)秀的成果[9],在一些廣泛應(yīng)用的公開數(shù)據(jù)集上甚至超過了人類的識別水平[3,17]。但是,現(xiàn)有的單模態(tài)行人再識別方法所處理的僅是白天光照良好條件下可見光攝像頭采集的行人圖像,在夜間跨模態(tài)行人再識別任務(wù)[18]中往往不能很好地應(yīng)用,限制了該技術(shù)面向?qū)嶋H全天候監(jiān)控場景的適用性。
跨模態(tài)行人再識別需解決的是不同成像源的行人圖像之間的匹配問題,本文研究的跨模態(tài)行人再識別即為可見光圖像和紅外圖像間的行人再識別[19-21]。Wu等[18]首次發(fā)布了一個大規(guī)??缒B(tài)行人再識別數(shù)據(jù)集SYSU-MM01,分析了三種不同的網(wǎng)絡(luò)結(jié)構(gòu)并提出一個Deep Zero-padding方法。Nguyen等[22]發(fā)布了另外一個相關(guān)數(shù)據(jù)集RegDB。Ye等[23]設(shè)計了一種雙流網(wǎng)絡(luò)來學(xué)習(xí)多模態(tài)共享特征,同時利用雙約束Top-Ranking損失來處理模態(tài)間和模態(tài)內(nèi)的變化。此外,cmGAN[24]首次使用生成對抗網(wǎng)絡(luò)(GAN)來實(shí)現(xiàn)跨模態(tài)行人再識別,取得了比之前更好的性能,也為后面的研究工作提供了新的思路[25-26]。后來,Zhu等[27]首次在跨模態(tài)行人再識別中考慮了人體局部特征,并且引入了異質(zhì)中心損失,大幅提升了識別精度。本文充分考慮了同身份行人圖像間的類內(nèi)變化和模態(tài)差異,提出了一個精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)。利用精細(xì)化特征協(xié)同學(xué)習(xí)方法增強(qiáng)特征判別能力,以應(yīng)對類內(nèi)變化。利用多源特征協(xié)同學(xué)習(xí)方法提高異質(zhì)信息利用率,以解決模態(tài)差異。而且,在SYSU-MM01和RegDB數(shù)據(jù)集上驗(yàn)證了該方法的有效性。
文獻(xiàn)[28]為解決分類問題引入了協(xié)同學(xué)習(xí)(Collaborative Learning)的方法理論。協(xié)同學(xué)習(xí)是指在同一批訓(xùn)練數(shù)據(jù)上訓(xùn)練出同一網(wǎng)絡(luò)的多個特征學(xué)習(xí)器。利用多種特征間的信息互補(bǔ)性進(jìn)行協(xié)同融合,在不增加推理成本的情況下提高模型的泛化能力和對標(biāo)簽噪聲的魯棒性,使網(wǎng)絡(luò)達(dá)到更優(yōu)的學(xué)習(xí)效果。協(xié)同學(xué)習(xí)具備輔助訓(xùn)練[29]、多任務(wù)學(xué)習(xí)[30-31]和知識蒸餾[32]等方法的優(yōu)點(diǎn),但不需增加過多的額外訓(xùn)練網(wǎng)絡(luò)且可以實(shí)現(xiàn)端到端訓(xùn)練,是一個值得探索的方法思路。本文針對跨模態(tài)行人再識別這一任務(wù),考慮深度卷積神經(jīng)網(wǎng)絡(luò)多尺度多層次特征的判別能力,以及多源異質(zhì)圖像數(shù)據(jù)的信息互補(bǔ)性,提出了針對精細(xì)化特征的協(xié)同學(xué)習(xí)方法和針對多源特征的協(xié)同學(xué)習(xí)方法。
圖2 本文方法的整體網(wǎng)絡(luò)架構(gòu)
設(shè)計了精細(xì)化多源特征協(xié)同網(wǎng)絡(luò),其整體網(wǎng)絡(luò)架構(gòu)如圖2所示。對于可見光和紅外這兩種模態(tài)的圖像,如何增強(qiáng)特征判別能力以及提高異質(zhì)信息利用率,進(jìn)而有效克服類內(nèi)變化和模態(tài)差異這兩大問題,是本文所提方法的研究目的。骨干網(wǎng)絡(luò)中兩個并聯(lián)的ResNet50[33]組成雙分支網(wǎng)絡(luò),分別作為可見光和紅外圖像的特征提取器。網(wǎng)絡(luò)的前面若干階段(Stage1至Stage4)用來提取各模態(tài)特有特征,后面若干階段采用共享網(wǎng)絡(luò)參數(shù)的方式提取跨模態(tài)共有特征。特別的是,本文設(shè)計的網(wǎng)絡(luò)中包含了精細(xì)化特征協(xié)同學(xué)習(xí)模塊(多尺度特征協(xié)同和多層次特征協(xié)同),以及多源特征協(xié)同學(xué)習(xí)模塊(模態(tài)共有與特有特征協(xié)同和人體語義自監(jiān)督)。以下各節(jié)對網(wǎng)絡(luò)的各個關(guān)鍵模塊展開詳細(xì)介紹。
2.1.1 多尺度特征協(xié)同
目前大部分跨模態(tài)行人再識別工作都是提取圖像的整體特征作為最終的行人表示[18,34-35]。然而,由于有些不同身份的行人之間外觀差異較小,或者受到遮擋以及跨模態(tài)圖像間其他噪聲影響,僅使用整體特征往往不能對行人身份進(jìn)行有效判別。最近,研究者們在單模態(tài)和跨模態(tài)行人再識別任務(wù)都證明了采用圖像水平分塊獲取局部特征的有效性[27]。不同位置的局部特征會關(guān)注不同的人體細(xì)節(jié),細(xì)節(jié)更具有區(qū)分性,使得模型能夠辨別不同的行人身份。然而,由于多樣化的行人姿態(tài)變化,攝像頭的距離和角度等因素,用水平均分方法有時候很難學(xué)習(xí)到對齊和魯棒的局部特征。所以,單獨(dú)使用整體特征或者特定尺度下的局部特征都是不周到的。
考慮到整體特征和局部特征各自的優(yōu)缺點(diǎn),本文提出了一個多尺度特征協(xié)同學(xué)習(xí)的策略,利用水平多尺度切分的做法來處理跨模態(tài)行人特征。如圖3所示,對ResNet50的第四階段得到的特征圖,采用多尺度分塊池化的方式獲得行人圖像的多尺度特征向量。為了在不增加較多計算量的前提下獲取合適尺度行人局部信息,則需要確定合理的分塊尺度。根據(jù)對人體關(guān)節(jié)構(gòu)造和穿衣習(xí)慣的認(rèn)知,以及實(shí)驗(yàn)的驗(yàn)證,本文選擇了整體、一分為二、一分為三這三種分塊方式,由此就可用多尺度特征協(xié)同學(xué)習(xí)的方式獲得更有判別力的行人信息。本文的工作是首次綜合考慮多個尺度下的整體和局部特征來解決跨模態(tài)行人再識別問題。
圖3 多尺度特征劃分方式
2.1.2 多層次特征協(xié)同
行人圖像輸入進(jìn)特征提取器后,在卷積神經(jīng)網(wǎng)絡(luò)由淺到深各個階段都可以學(xué)習(xí)到對應(yīng)級別的特征。為了直觀地反映卷積神經(jīng)網(wǎng)絡(luò)中各層特征的差異,以ResNet50作為特征提取器,可得網(wǎng)絡(luò)各階段特征分布熱力圖如圖4所示。在熱力圖中,不同顏色的分布代表特征顯著性的分布,紅色表示特征最顯著的區(qū)域,藍(lán)色表示特征最分散的區(qū)域。從圖4中可以發(fā)現(xiàn),隨著網(wǎng)絡(luò)不斷加深,不同階段的卷積層在學(xué)習(xí)過程中所關(guān)注的區(qū)域發(fā)生了明顯的變化。如圖Stage1中,第一階段卷積層的所關(guān)注最分散,主要從整個行人圖片中提取細(xì)節(jié)的特征;而在圖Stage4中,第四層卷積層的注意力則集中于具有區(qū)分性的區(qū)域,主要提取關(guān)鍵的語義信息。因此,從卷積神經(jīng)網(wǎng)絡(luò)的底層到高層,注意力越來越集中,且提取的信息從分散的空間結(jié)構(gòu)信息轉(zhuǎn)向集中的語義信息。
圖4 行人圖像在ResNet50中各層次特征分布熱力圖
目前流行的行人再識別模型通常使用卷積神經(jīng)網(wǎng)絡(luò)的深層特征來識別行人。但是,在學(xué)習(xí)深層特征時,由于在訓(xùn)練階段進(jìn)行了大量的填充和合并等操作,會丟失一些原本存在于淺層特征中的重要空間信息,如形狀、紋理等。此外,紅外圖像包含信息量較少,這就造成了同身份的兩個模態(tài)的圖像的語義表達(dá)能力的巨大差異。因此,僅使用深層特征實(shí)現(xiàn)跨模態(tài)行人再識別是不妥的,很有必要使用淺層網(wǎng)絡(luò)提取到的特征補(bǔ)充判別。所以,本文提出了多層次特征協(xié)同學(xué)習(xí)方法。為了避免增加較大的計算量和特征維度,對于淺層信息僅考慮了Stage3階段獲取的特征圖,使用1×1卷積將此特征圖的通道數(shù)從1 024提升至2 048,然后將此淺層特征與Stage4階段的深層特征級聯(lián)一起送入后面的網(wǎng)絡(luò)。利用這樣一個多層次特征協(xié)同的策略,可以有效使用到不同粒度的圖像特征,從而獲取更有判別力的行人表示。
2.2.1 模態(tài)共有與特有特征協(xié)同
跨模態(tài)行人再識別的目的是實(shí)現(xiàn)兩種模態(tài)圖像的相互檢索。由于不同模態(tài)存在差異,所以在跨模態(tài)圖像的特征學(xué)習(xí)過程中,行人表示的描述和使用是一項(xiàng)很具挑戰(zhàn)性的工作。為了解決這個問題,研究者們通常會利用共享網(wǎng)絡(luò)參數(shù)的方式得到兩種圖像共同體現(xiàn)的特征作為最終的行人表示。然而,一個人的兩種不同模態(tài)的圖像中包含有模態(tài)共有特征,也有模態(tài)特有特征。如圖5所示,模態(tài)共有特征可以用兩集合的交集表示。如果只考慮共有特征而忽略特有特征的話,就意味著圖像信息的不充分利用。文獻(xiàn)[36]提出了一個共享和特有特征遷移網(wǎng)絡(luò)(cross modality Shared-Specific Transfer Network,cm-SSTN),充分考慮了模態(tài)間共享特征和模態(tài)內(nèi)特有特征。他們的工作取得了當(dāng)前最好的識別效果,也以此驗(yàn)證了共享特征和特有特征的互補(bǔ)作用。但是cm-SSTN也有模型復(fù)雜和計算量較大等不足之處。
圖5 跨模態(tài)行人圖像特征關(guān)系圖
考慮跨模態(tài)圖像特征的異質(zhì)信息互補(bǔ)性,提出了一個簡單有效的模態(tài)共有與特有特征協(xié)同學(xué)習(xí)方法。在跨模態(tài)雙分支網(wǎng)絡(luò)的基礎(chǔ)上,利用參數(shù)共享的全連接層提取模態(tài)共有特征,同時通過參數(shù)不共享的全連接層提取模態(tài)特有特征。然后,在監(jiān)督學(xué)習(xí)中分別訓(xùn)練模態(tài)共享特征和模態(tài)特有特征,進(jìn)而達(dá)到異質(zhì)互補(bǔ)的效果,提高圖像信息的利用率。
2.2.2 人體語義自監(jiān)督
模態(tài)間的信息交互是減小模態(tài)差異的一個有效手段?,F(xiàn)有工作的做法通常是利用GAN網(wǎng)絡(luò)實(shí)現(xiàn)圖像的風(fēng)格遷移或特征遷移來實(shí)現(xiàn)模態(tài)間的信息交互。但是,GAN網(wǎng)絡(luò)基于生成的思路會有引入新的噪聲的可能,且會面臨訓(xùn)練時的收斂困難等局面。所以,如何在不引入噪聲且容易訓(xùn)練的情況下,學(xué)習(xí)到不受模態(tài)特點(diǎn)約束的知識,進(jìn)而實(shí)現(xiàn)模態(tài)間信息交互,是一個值得探索的思路。
本文提出了一個人體語義自監(jiān)督模塊,旨在采用人體結(jié)構(gòu)的語義信息作為先驗(yàn)知識,將兩個模態(tài)圖像在不利用身份標(biāo)簽的情況下一起送入共享參數(shù)的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),學(xué)習(xí)到一些不受模態(tài)和身份限制的人體基礎(chǔ)特征。也就是說,客觀視角下,無論行人圖像屬于哪個身份,來自哪種模態(tài),一張行人圖像中人體各個身體部位的相對位置都是確定的。換言之,每個人的圖像從上到下都是頭部、肩部、胸部、腹部、腿部和腳部等這樣的語義結(jié)構(gòu)。這些語義信息是行人圖像和其他自然圖像的一個明顯區(qū)別,也是重要的先驗(yàn)知識。恰好可以利用這個先驗(yàn)知識,設(shè)計了一個跨模態(tài)參數(shù)共享的人體語義自監(jiān)督模塊,具體做法如圖6所示。把不同模態(tài)的每張圖像中人體各部位分成小塊并打亂順序,然后在各個分塊位置標(biāo)簽的監(jiān)督下對分塊重新排序得到原始順序。這樣,可以利用人體各個部位的相對位置關(guān)系學(xué)習(xí)到與圖像的模態(tài)來源無關(guān)的人體基礎(chǔ)信息,達(dá)到縮小模態(tài)差異的效果。實(shí)驗(yàn)證實(shí)這個簡單的操作可以得到較好的效果提升。而且該自監(jiān)督模塊使用的是上文多尺度協(xié)同學(xué)習(xí)方法中提及的單張行人圖像的多尺度特征分塊,因此并沒有引入很多計算量。
以往的跨模態(tài)行人再識別網(wǎng)絡(luò)[34-35]常采用交叉熵?fù)p失(Cross Entropy Loss,CE Loss)和三元組損失(Triplet Loss)來監(jiān)督學(xué)習(xí)特征。交叉熵?fù)p失用于行人身份的分類,三元組損失是為了縮小類內(nèi)距離并且增大類間距離。后來,Zhu等[27]提出一個異質(zhì)中心損失(Hetero Center Loss,HC Loss),設(shè)計該損失函數(shù)的目的是縮小不同模態(tài)同類樣本之間的差異,該工作同時使用了異質(zhì)中心損失和交叉熵?fù)p失,實(shí)現(xiàn)了較好的效果。
圖6 人體語義自監(jiān)督模塊示意圖
本文方法中引入了一個混合模態(tài)三元組損失(mix-Modality Triplet Loss)[37],并將其結(jié)合交叉熵?fù)p失和異質(zhì)中心損失一起使用。文獻(xiàn)[38]證明了交叉熵?fù)p失和三元組損失作用在同一特征空間的情況下會出現(xiàn)收斂困難的狀況。同樣的道理,交叉熵?fù)p失和異質(zhì)中心損失之間也存在這樣的問題。因此,利用一個批標(biāo)準(zhǔn)化層(Batch Normalization Layer,BN Layer)層和一個全連接層(Fully Connected Layer,F(xiàn)C Layer)將特征向量映射到兩個特征空間上來解決沖突。
把輸入圖像的每個批次大小記為N,則N=2×P×K,意即每個批次的N張圖片里有P個行人身份,其中每個身份有K張可見光圖像和K張紅外圖像。對于模態(tài)共有特征,類似于文獻(xiàn)[27],以每張圖片的行人身份信息作為監(jiān)督標(biāo)簽,使用交叉熵?fù)p失和異質(zhì)中心損失的組合作用來學(xué)習(xí)每個特征分塊。每個特征分塊上的交叉熵?fù)p失計算方法為:
其中,x i指第i張圖像的某一特征分塊,p(x i)指的是期望輸出,即真實(shí)標(biāo)簽。q(x i)是網(wǎng)絡(luò)中每張?zhí)卣鞣謮K的提取到的特征向量經(jīng)Softmax層之后得到的預(yù)測標(biāo)簽。對每個特征分塊計算異質(zhì)中心損失如下:
所以,在共有特征上的損失函數(shù)計算方法如公式(3)所示:
其中,λ是平衡交叉熵?fù)p失和異質(zhì)中心損失的權(quán)重參數(shù)。f從1到7指的是計算7個特征分塊損失的總和,7個特征分塊即為淺層的一個特征分塊和深層的6個多尺度特征分塊。
對于模態(tài)特有特征,首先用交叉熵?fù)p失對每一個樣本做身份判別,如下:
這里用g i表示從單模態(tài)分支中取得的整體特征向量。此外,用三元組損失實(shí)現(xiàn)類內(nèi)差異縮小,類間差異增大。三元組損失在進(jìn)行計算時需要三張輸入圖像,分別為固定圖像(Anchor)a、正樣本圖像(Positive)p和負(fù)樣本圖像(Negative)n。圖像a和p是正樣本對,圖像a和n是負(fù)樣本對。考慮到網(wǎng)絡(luò)其他部分已經(jīng)起到了縮小模態(tài)差異的作用,在此使用的是一個混合模態(tài)三元組損失函數(shù),也就是將兩個模態(tài)樣本特征放在同一集合中進(jìn)行三元組采樣。那么一個批次里的圖片數(shù)量則為2PK張,記一個批次里所有圖片的集合為batch,固定圖像a的正樣本集為A,負(fù)樣本集為B。那么混合模態(tài)三元組損失的計算方法如公式(5)所示:
公式中的α指三元組損失的邊界值參數(shù),[]+的意思是方括號里的計算結(jié)果若小于0,就記為0。其中,A和B皆為batch的子集。
那么,應(yīng)用于模態(tài)特有特征的損失函數(shù)即為:
對于人體語義自監(jiān)督模塊,目的是在自監(jiān)督訓(xùn)練的過程中對打亂的分塊特征向量重建排序,具體做法是:對6個多尺度特征分塊打上位置標(biāo)簽,然后在訓(xùn)練的過程中預(yù)測標(biāo)簽,進(jìn)而學(xué)習(xí)到6個分塊特征向量的原始空間相對位置。所以,可用預(yù)測特征分塊標(biāo)簽的交叉熵?fù)p失函數(shù)作為自監(jiān)督學(xué)習(xí)的損失函數(shù),記S i,s為第i個樣本的第s個分塊,可得此自監(jiān)督學(xué)習(xí)模塊的損失函數(shù)計算如下:
公式中p(Si,s)為每個特征分塊的真實(shí)位置標(biāo)簽,q(S i,s)為每個特征分塊的預(yù)測標(biāo)簽。
綜上,此精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)在端到端訓(xùn)練過程中總的損失函數(shù)為:
3.1.1 數(shù)據(jù)集
目前有兩個公開的數(shù)據(jù)集(SYSU-MM01[18]和RegDB[22])可以用于測評跨模態(tài)行人再識別方法的實(shí)驗(yàn)結(jié)果,數(shù)據(jù)集中的圖像采集自可見光攝像頭和紅外(近紅外和遠(yuǎn)紅外)攝像頭。
SYSU-MM01數(shù)據(jù)集是由室外和室內(nèi)環(huán)境下6個不同攝像頭采集而來的大規(guī)模數(shù)據(jù)集,包含4個可見光攝像頭和2個近紅外攝像頭。該數(shù)據(jù)集包含395個行人身份的訓(xùn)練數(shù)據(jù),包括22 258張可見光圖像和11 909張近紅外圖像。測試集包含另外的95個行人身份的圖像,以及兩種測評模式和兩種測試集構(gòu)建方式。在兩種測評模式中,查詢集(Qurey set)是相同的,包含3 803張從兩個紅外攝像頭捕獲的圖像。在All-search模式下,圖庫集(Gallery set)包含了從所有4個可見光攝像頭捕獲的所有可見光圖像。在Indoor-search模式下,圖庫集只包含兩個室內(nèi)可見光攝像頭捕捉到的可見光圖像。一般來說,All-search比Indoor-search模式更具挑戰(zhàn)性。兩種測試集構(gòu)建方式分別為Single-shot和Multi-shot,二者的做法也就是在構(gòu)建圖庫集時隨機(jī)選取同一行人身份的1張或10張圖片。評估方案的詳細(xì)描述可以在文獻(xiàn)[17]中找到。使用最困難的實(shí)驗(yàn)設(shè)置,也就是All-search的測評模式和Single-shot的測試集構(gòu)建方式,進(jìn)行了10次測試并記錄了平均檢索性能。
RegDB數(shù)據(jù)集是一個由雙模攝像頭系統(tǒng)(一個可見光攝像頭和一個遠(yuǎn)紅外攝像頭)采集的小規(guī)模數(shù)據(jù)集。在RegDB數(shù)據(jù)集中可見圖像與紅外圖像輪廓非常相似,跨模態(tài)行人再識別難度較小。這個數(shù)據(jù)集總共包含412個行人身份,每個行人身份有10張可視圖像和10張紅外圖像。按照文獻(xiàn)[22]的評價協(xié)議,隨機(jī)選取206個身份(2 060張圖像)用于訓(xùn)練,其余206個身份(2 060張圖像)用于測試。評估了可見光圖像檢索紅外圖像(Visible to Thermal)、紅外圖像檢索可見光圖像(Thermal to Visible)這兩種不同檢索設(shè)置的性能,采用10次隨機(jī)分割訓(xùn)練集和測試集的方式記錄平均準(zhǔn)確度。
3.1.2 評價指標(biāo)
為公平起見,參照現(xiàn)有工作的做法,本文實(shí)驗(yàn)同樣以累積匹配特性(Cumulative Matching Characteristics,CMC)和平均精度均值(mean Average Precision,mAP)作為評價指標(biāo)。CMC中的Rank準(zhǔn)確率測量的是在前k個檢索結(jié)果中出現(xiàn)正確跨模態(tài)行人圖像的概率。mAP指標(biāo)可以體現(xiàn)方法的平均檢索性能。
3.1.3 實(shí)驗(yàn)設(shè)計細(xì)節(jié)
實(shí)驗(yàn)采用Pytorch框架實(shí)現(xiàn)工程代碼,在1塊NVIDIA GeForce 1080Ti GPU上進(jìn)行訓(xùn)練和測試。數(shù)據(jù)集中的行人圖像的大小被調(diào)整為384×128。在訓(xùn)練階段,隨機(jī)選擇4個行人身份,然后再每個行人身份隨機(jī)選擇8張可見光圖像和8張紅外圖像。因此在每一輪的訓(xùn)練中,batchsize為64。為了均衡交叉熵?fù)p失函數(shù)和異質(zhì)中心損失函數(shù)的作用,參照文獻(xiàn)[27]的公式(1)中異質(zhì)中心損失的權(quán)重被設(shè)置為0.5。三元組損失的邊界值被設(shè)置為0.3。訓(xùn)練過程采用動量為0.9的隨機(jī)梯度下降(SGD)優(yōu)化器。包括前10輪采用的熱身學(xué)習(xí)率(Warm Up Learning Rate)策略的訓(xùn)練過程,該精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)被訓(xùn)練了80輪。學(xué)習(xí)率lr(t)隨訓(xùn)練輪次t的變化如公式(9)所示:
此外,在訓(xùn)練過程中,利用模態(tài)共有和模態(tài)特有特征來優(yōu)化網(wǎng)絡(luò)。在測試推理時,僅使用模態(tài)共有特征來評價查詢圖像與圖庫圖像之間的相似性。原因首先是在模態(tài)特有特征的影響下,最終通過端到端協(xié)同學(xué)習(xí)完成訓(xùn)練后提取的模態(tài)共有特征能夠有效地描述圖像,這在本文的實(shí)驗(yàn)中得到了證明。另一個原因是,單獨(dú)使用共享特征可以加快測試過程特征推理速度。
3.2.1 與其他方法的對比分析
在SYSU-MM01和RegDB數(shù)據(jù)集上,將本文方法與當(dāng)前跨模態(tài)行人再識別任務(wù)的一些流行方法在同樣的實(shí)驗(yàn)設(shè)置方式下進(jìn)行了對比,這些方法包括Zero-Padding[18]、HCML[39]、cmGAN[24]、HSME[40]、D2RL[25]、AlignGAN[26]、HPILN[41]、eBDTR[23]、Hi-CMD[35]、JSIA[26]、MSR[42]、AGW[43]、XIV[44]、HAT[45]、SIM[46]、EDFL[47]、TSLFN+HC[27]和cm-SSFT[36]。實(shí)驗(yàn)結(jié)果如表1和表2所示。
表1 在SYSU-MM01數(shù)據(jù)集上本文方法與其他方法的對比%
在表1中,精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)與TSLFN+HC相似,但本文方法在Rank1指標(biāo)上領(lǐng)先了9.28個百分點(diǎn),在mAP上領(lǐng)先了10.45個百分點(diǎn)。此外,注意到cm-SSFT是所有對比方法中最好的一種。雖然cm-SSFT在Rank1和mAP中分別達(dá)到了61.60%和63.20%,但本文方法實(shí)驗(yàn)結(jié)果的Rank1和mAP比cm-SSFT分別高了4.64和2.20個百分點(diǎn)。而且,cm-SSFT具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),帶來了更多的參數(shù)和計算量。
表2 在RegDB數(shù)據(jù)集上本文方法與其他方法的對比
從表2中可見,本文所提方法在RegDB數(shù)據(jù)集上同樣具有競爭力,而且識別精度要比在SYSU-MM01數(shù)據(jù)集上的高。這很大程度上是因?yàn)镽egDB數(shù)據(jù)集的圖像采集自雙模攝像頭,得到的可見光圖像和紅外圖像中的行人的姿態(tài)輪廓類似,因此跨模態(tài)類內(nèi)差異較小。此外,表2中實(shí)驗(yàn)數(shù)據(jù)顯示可見光圖像檢索紅外圖像模式下的識別效果要比紅外圖像檢索可見光圖像模式的識別效果要高。這是由于紅外模態(tài)的行人圖像的信息量較小,對行人身份的判別能力不強(qiáng),該特點(diǎn)與前文所述的觀點(diǎn)也是一致的。
3.2.2 檢索結(jié)果可視化分析
為了直觀分析本文所提方法的再識別效果,選取了SYSU-MM01數(shù)據(jù)集中的若干樣本進(jìn)行了檢索結(jié)果可視化分析,如圖7所示。圖中的前三行是使用紅外圖像檢索可見光圖像的結(jié)果,后三行是使用可見光圖像檢索紅外圖像的結(jié)果。圖中的第1列為檢索目標(biāo)行人圖像。其余列為檢索結(jié)果中排名前10的行人圖像,圖片從左到右是根據(jù)模型計算所得的相似度從大到小的排序。圖中綠框?yàn)闄z索正確的樣本,紅框?yàn)闄z索錯誤的樣本。
如圖7所示,可見光行人圖像的上下身衣服顏色雖差異較大,在紅外模態(tài)中卻無明顯區(qū)別,如需正確配對這樣的樣本,則需要模型更加關(guān)注行人的動作,體型和一些細(xì)節(jié)紋理特征。從檢索結(jié)果可見,本文方法可有效提取精細(xì)化的行人特征。
圖7 本文方法在SYSU-MM01數(shù)據(jù)集上的再識別效果
從圖7中可見,模態(tài)間的共有特征,如包、衣服標(biāo)志依然會成為識別過程中信息匹配的關(guān)鍵,而這些模態(tài)共有特征可能對正確結(jié)果的判別有所幫助。所以,采取多源特征協(xié)同學(xué)習(xí)的方式,促進(jìn)模態(tài)間的信息交互,提取更有辨別力的特征十分重要。
此外,當(dāng)顏色無法為作為身份判別信息時,深度網(wǎng)絡(luò)便會學(xué)習(xí)到行人的體型,姿態(tài)等特征作為區(qū)別行人的重要依據(jù)。如圖7的第6行,盡管第1列和第2列、第4列是不同身份的行人,但由于他們都有交叉雙腿的體態(tài)動作,因而被誤判為同一人??梢?,提取可靠的辨別性特征,依然是一個重要挑戰(zhàn)。
為了驗(yàn)證本文所提的精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)各個模塊的有效性,對網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)。在SYSUMM01數(shù)據(jù)集上,以TSLFN+HC[27]方法作為基線模型,依次向網(wǎng)絡(luò)中加入本文提出的幾個模塊,由此則可以清晰地量化體現(xiàn)各個模塊對任務(wù)的提升效果。
可見,本文方法提出的各個模塊對于跨模態(tài)行人再識別任務(wù)都有一定的幫助。對于表3中的每一個實(shí)驗(yàn),在以下章節(jié)進(jìn)行了模塊設(shè)計分析。
3.3.1 多尺度特征協(xié)同
如表3中的實(shí)驗(yàn)2,通過幾種水平劃分策略得到不同尺度的局部特征,并將其與整體特征級聯(lián)在一起,即得到了本文所提的多尺度特征模塊。為了確定多尺度特征協(xié)同模塊的最佳尺度,比較了幾種不同級別的水平分塊組合策略。使用TSLFN+HC作為基線方法(Baseline)來分析模塊設(shè)計效果。也就是說,在此實(shí)驗(yàn)中只是更改了TSLFN+HC方法的特征水平六等分方式,其余網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)驗(yàn)設(shè)置均不變。采用的組合如下:Scale1(全局特征+2個水平等分塊),Scale2(全局特征+2個水平等分塊特征+3個水平等分塊特征),Scale3(全局特征+2個水平等分塊特征+3個水平等分塊特征+4個水平等分塊特征)。如圖8所示,最佳的特性是Scale2。而且根據(jù)客觀認(rèn)知,人體結(jié)構(gòu)水平均分為兩部分或者三部分,都可以理解為獨(dú)立的語義單元,所以Scale2適合于人稱表征。
表3 加入不同模塊后的性能對比
圖8 跨模態(tài)行人再識別所要處理的圖像示例
3.3.2 多層次特征協(xié)同
如表3中的實(shí)驗(yàn)3,在已經(jīng)選擇了最佳多尺度特征后,還進(jìn)行了實(shí)驗(yàn),以尋找最佳的多層次特征。提取不同層次的特征,分析不同的組合:Level2、Level3和Level2+Level3。Level2和Level3代表了基于Resnet50骨干網(wǎng)的Stage1和Stage2提取的不同特征圖。結(jié)果如表4所示,最好淺層特征的是Level3。注意,從Level2中提取的特征在任何組合中都會降低性能,例如Multi-Scale+
Level2的性能低于Multi-Scale,Multi-Scale+Level2+Level3的性能也低于Multi-Scale+Level3??梢奓evel2提取的特征信息層次過低,對語義分類沒有明顯貢獻(xiàn)。
表4 各種層次組合方法的性能分析%
3.3.3 模態(tài)共有與特有特征協(xié)同
如表3中的實(shí)驗(yàn)4,利用多尺度和多層次方法實(shí)現(xiàn)了精細(xì)化特征協(xié)同學(xué)習(xí)后,設(shè)計了模態(tài)共有與特有特征協(xié)同學(xué)習(xí)模塊?;旌夏B(tài)三元組損失函數(shù)是所提的模態(tài)共有與特有特征協(xié)同學(xué)習(xí)模塊的重要組成部分。之所以使用這樣一個損失函數(shù),是因?yàn)橐ㄟ^將一個訓(xùn)練批次中兩個模態(tài)圖像混合在一起進(jìn)行三元組采樣,這樣可以在進(jìn)行度量學(xué)習(xí)的過程中,更好地實(shí)現(xiàn)模態(tài)間信息交互。為了驗(yàn)證混合模態(tài)三元組損失函數(shù)的功能,以及相對于單模態(tài)三元組損失的優(yōu)勢,在網(wǎng)絡(luò)其他設(shè)計部分不變的情況下,對二者進(jìn)行了對比實(shí)驗(yàn),其結(jié)果如圖9所示。
圖9 不同條件下的三元組損失函數(shù)性能對比
3.3.4 人體語義自監(jiān)督
如表3中的實(shí)驗(yàn)5所設(shè)計的人體語義自監(jiān)督學(xué)習(xí)模塊對跨模態(tài)行人再識別任務(wù)性能有所提升。從邏輯上分析,該模塊的輸入數(shù)據(jù)為兩個模態(tài)的特征,可以實(shí)現(xiàn)克服模態(tài)差異的效果。但是,該模塊同樣可以起到局部特征學(xué)習(xí)的作用。所以,該模塊帶來的性能提升的原因是實(shí)現(xiàn)了克服模態(tài)差異還是實(shí)現(xiàn)了局部特征學(xué)習(xí),是下面要討論的問題。
首先進(jìn)行了相關(guān)對比實(shí)驗(yàn)。在網(wǎng)絡(luò)其他設(shè)計不變的前提下,用無自監(jiān)督、單模態(tài)自監(jiān)督、跨模態(tài)自監(jiān)督三種設(shè)置做了對比,如表5所示??梢姡缒B(tài)的人體語義自監(jiān)督不僅具有局部特征學(xué)習(xí)的作用,也可以很好地實(shí)現(xiàn)克服模態(tài)差異的效果。
表5 人體語義自監(jiān)督模塊性能分析%
本文綜合考慮了增強(qiáng)特征的判別能力和提高多源異質(zhì)信息的利用率,在協(xié)同學(xué)習(xí)方法的指導(dǎo)下,提出了精細(xì)化多源特征協(xié)同網(wǎng)絡(luò)。利用多尺度和多層次特征實(shí)現(xiàn)精細(xì)化特征協(xié)同學(xué)習(xí),并通過模態(tài)共有與特有特征協(xié)同和人體語義自監(jiān)督達(dá)到多源特征協(xié)同學(xué)習(xí)的目的。本文所提方法在兩個相關(guān)數(shù)據(jù)集上明顯優(yōu)于其他方法,并為本領(lǐng)域的進(jìn)一步研究提供了一個簡單而有效的思路。