馬瀟峰,程文剛,2*
1.華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,北京 102206;2.復(fù)雜能源系統(tǒng)智能計(jì)算教育部工程研究中心,保定 071003
跨模態(tài)行人再識(shí)別是指給定一種模態(tài)的行人圖像作為查詢,從另一種模態(tài)的候選集中檢索具有相同身份圖像的技術(shù)。本文針對(duì)可見光(RGB)模態(tài)和紅外(infrared,IR)模態(tài)進(jìn)行研究??缒B(tài)行人再識(shí)別廣泛應(yīng)用于智能監(jiān)控、安防和刑偵等領(lǐng)域,但由于存在較大的跨模態(tài)差異,準(zhǔn)確匹配行人圖像仍然很具有挑戰(zhàn)性。因此,跨模態(tài)行人再識(shí)別受到了工業(yè)界和學(xué)術(shù)界的共同關(guān)注。
除了在單模態(tài)行人再識(shí)別中已經(jīng)存在的模態(tài)內(nèi)變化外,跨模態(tài)行人再識(shí)別的一個(gè)關(guān)鍵問題在于如何縮小相同身份的可見光圖像和紅外圖像之間的模態(tài)差異。現(xiàn)有的工作主要采用模態(tài)共享特征學(xué)習(xí)或模態(tài)轉(zhuǎn)換的方法。模態(tài)共享特征學(xué)習(xí)方法致力于將可見光和紅外圖像投影到特定的公共嵌入空間,以實(shí)現(xiàn)跨模態(tài)特征對(duì)齊,可細(xì)分為全局特征學(xué)習(xí)(Wu等,2017;Ye 等,2020)和局部特征學(xué)習(xí)(Hao 等,2019b;Zhu 等,2020)。全局特征學(xué)習(xí)用一個(gè)特征向量表示行人圖像整體,而局部特征學(xué)習(xí)用基于部件或區(qū)域的特征向量集合表示該行人圖像。雙路卷積神經(jīng)網(wǎng)絡(luò)(two-stream convolutional neural network,two-stream CNN)結(jié)構(gòu)常應(yīng)用于這類方法,并配合損失函數(shù)(如身份損失、三元組損失等)進(jìn)行約束(Ye等,2022)。然而,現(xiàn)有的模態(tài)共享特征學(xué)習(xí)方法通常致力于發(fā)掘全局或局部特征表示,很少結(jié)合兩種特征的優(yōu)勢(shì)?;谀B(tài)轉(zhuǎn)換的方法旨在生成行人圖像對(duì)應(yīng)的跨模態(tài)圖像(Wang 等,2019a,b,2020)或中間模態(tài)圖像(Li 等,2020;Zhang 等,2021),將異構(gòu)模態(tài)圖像轉(zhuǎn)換到統(tǒng)一的模態(tài)中,從而減小模態(tài)間差異。這類方法通常采用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)和編碼器—解碼器(encoderdecoder)結(jié)構(gòu)。然而,紅外圖像到可見光圖像的轉(zhuǎn)換是不適定的,還可能引入附加噪聲,無法生成準(zhǔn)確、真實(shí)的可見光圖像,并且基于GAN 的模型存在難以收斂的問題。生成的中間模態(tài)試圖在特征分布上拉近異構(gòu)圖像的距離,但兩種模態(tài)仍存在著較大差異(Wei等,2021)。
不同的成像機(jī)制決定了可見光和紅外兩種圖像本質(zhì)上的差異??梢姽鈭D像由紅、綠、藍(lán)3 個(gè)顏色通道構(gòu)成,而紅外圖像只包含反映物體熱輻射的單通道,這導(dǎo)致顏色這一關(guān)鍵特征無法應(yīng)用于跨模態(tài)匹配。而輪廓是一種相對(duì)可靠的識(shí)別線索,事實(shí)上,人類通過視覺檢驗(yàn)紅外監(jiān)控進(jìn)行判斷時(shí),主要依靠的就是輪廓信息。紅外圖像丟失了顏色和紋理等特征,但輪廓、形狀等信息則仍然明確,如圖1 偽彩色紅外圖像所示。由圖1 可見,輪廓在可見光和紅外圖像間具有一定的跨模態(tài)不變性。
圖1 偽彩色紅外圖像的示例Fig.1 An example of pseudo-color IR images
基于CNN 的方法在行人再識(shí)別問題中取得了巨大成功,這歸因于其具有強(qiáng)大的深層判別特征表達(dá)能力。然而,由于每個(gè)卷積核都限制在局部區(qū)域(感受野)上,使其在特征學(xué)習(xí)過程中并沒有充分利用全局上下文信息(Wu 等,2021)。因此,計(jì)算機(jī)視覺研究引入了Non-local(Wang 等,2018)機(jī)制以建模長(zhǎng)距離關(guān)系,如各種視覺Transformer(Han 等,2022)通過自注意力機(jī)制捕捉全局信息。同時(shí),Geirhos 等人(2022)的研究表明,CNN 更傾向于提取紋理信息而非形狀信息。因此,輪廓這種圖像級(jí)全局特征的引入亦有助于彌補(bǔ)現(xiàn)有CNN方法的上述缺陷。
基于以上考慮,本文提出將輪廓信息引入到跨模態(tài)行人再識(shí)別研究中。然而,輪廓也存在變形和遮擋等問題,如何恰當(dāng)利用輪廓線索也非常具有挑戰(zhàn)性的。為此,本文將輪廓作為一種輔助模態(tài),希望借助深度網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力來縮小可見光和紅外的模態(tài)間差異。輪廓是行人的一種整體性而非局部性的特征描述,因此對(duì)全局特征進(jìn)行了輪廓增廣。同時(shí),受到局部特征具有良好判別能力的啟發(fā),期冀將輪廓與模態(tài)共享特征學(xué)習(xí)得到的局部特征進(jìn)一步融合,增強(qiáng)特征表達(dá)能力。相應(yīng)地,提出了一種輪廓引導(dǎo)下的雙粒度特征融合網(wǎng)絡(luò),如圖2 所示。該網(wǎng)絡(luò)包括兩種類型的融合,一種是圖像到輪廓的融合,在圖像級(jí)進(jìn)行,稱為全局粒度融合,輸出輪廓增廣特征;另一種是在輪廓增廣特征和局部特征之間進(jìn)行融合,由于涉及局部特征,稱為局部粒度融合。
本文的主要貢獻(xiàn)如下:1)將輪廓作為一種輔助模態(tài)引入到跨模態(tài)行人再識(shí)別模型中進(jìn)行特征嵌入。這是在跨模態(tài)行人再識(shí)別問題中利用顯式輪廓信息的首次嘗試。2)提出了一種輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò),在統(tǒng)一的端到端網(wǎng)絡(luò)中同時(shí)學(xué)習(xí)全局粒度和局部粒度特征。在兩個(gè)公開數(shù)據(jù)集SYSUMM01(Sun Yat-sen University multiple modality 01)和RegDB(Dongguk body-based person recognition database)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的有效性。
跨模態(tài)行人再識(shí)別不僅要面對(duì)遮擋、不同視角和行人姿勢(shì)造成的模態(tài)內(nèi)差異(史維東 等,2020),還要解決由于異構(gòu)圖像而形成的跨模態(tài)差異。其中,減小跨模態(tài)差異至關(guān)重要,因?yàn)槟B(tài)間差異也會(huì)加劇已經(jīng)存在的模態(tài)內(nèi)差異?,F(xiàn)有方法主要可以分為模態(tài)共享特征學(xué)習(xí)和模態(tài)轉(zhuǎn)換兩類。
模態(tài)共享特征學(xué)習(xí)旨在從異構(gòu)模態(tài)中學(xué)習(xí)具有判別力和魯棒性的特征。Wu 等人(2017)設(shè)計(jì)了一種深度零填充(zero-padding)結(jié)構(gòu),使單路網(wǎng)絡(luò)的節(jié)點(diǎn)自動(dòng)提取兩種模態(tài)的特征。Ye 等人(2018a)提出了一個(gè)結(jié)合特征學(xué)習(xí)和度量學(xué)習(xí)的兩階段框架,并通過后續(xù)工作逐步完善該框架,使雙路卷積神經(jīng)網(wǎng)絡(luò)成為目前跨模態(tài)行人再識(shí)別領(lǐng)域一個(gè)常用的基線模型(Ye 等,2022),其通常包括特定于模態(tài)的淺層結(jié)構(gòu)和模態(tài)共享的深層結(jié)構(gòu),最終將行人圖像映射到共享特征空間進(jìn)行相似度學(xué)習(xí)。雙路網(wǎng)絡(luò)主要采用身份損失(identity loss)和三元組損失(triplet loss)進(jìn)行約束。一些工作從優(yōu)化損失函數(shù)的角度出發(fā)增強(qiáng)其學(xué)習(xí)能力。Zhu 等人(2020)提出異質(zhì)中心損失(hetero-center loss),以縮小不同模態(tài)下同一行人圖像的中心距離。Liu 等人(2021)設(shè)計(jì)了異質(zhì)中心三元組損失(hetero-center triplet loss),試圖結(jié)合三元組損失和異質(zhì)中心損失的優(yōu)點(diǎn)。盡管基于CNN 的方法取得了巨大成功,但對(duì)長(zhǎng)距離依賴關(guān)系建模能力有限,使網(wǎng)絡(luò)偏向于識(shí)別紋理而非形狀(Geirhos等,2022)。輪廓是一種圖像級(jí)的特征,引入輪廓可以引導(dǎo)CNN 學(xué)習(xí)基于形狀的行人判別特征,并彌補(bǔ)其在長(zhǎng)距離關(guān)系建模上的不足。
模態(tài)轉(zhuǎn)換通常采用基于GAN 的方法和編碼器—解碼器結(jié)構(gòu)。Wang 等人(2020)提出的JSIAReID(joint set-level and instance-level alignment Re-ID)執(zhí)行集合級(jí)和實(shí)例級(jí)的對(duì)齊,以生成跨模態(tài)成對(duì)圖像。Li等人(2020)通過一個(gè)輕量級(jí)網(wǎng)絡(luò)引入了輔助X 模態(tài)圖像,并聯(lián)合優(yōu)化三種模態(tài)的特征。Zhang等人(2021)提出一種非線性中間模態(tài)生成器,采用編碼器—解碼器結(jié)構(gòu)生成M 模態(tài)圖像,使模態(tài)間特征分布盡可能接近。由于紅外模態(tài)到可見光模態(tài)的轉(zhuǎn)換是不適定的,生成的圖像可能包含額外的噪聲。而輪廓在紅外和可見光圖像中保持不變,是一種良好的模態(tài)共享特征。從這點(diǎn)上看,固有的輪廓比生成的圖像更加可靠,然而現(xiàn)有的跨模態(tài)行人再識(shí)別方法沒有關(guān)注到輪廓信息。Chen 等人(2019)在可見光單模態(tài)行人再識(shí)別中考慮了行人輪廓的影響,本文則深入探究輪廓在跨模態(tài)行人再識(shí)別的價(jià)值,并提出了一種雙粒度特征融合策略以實(shí)現(xiàn)更有效的特征學(xué)習(xí)。
全局特征學(xué)習(xí)為每幅行人圖像提取全局特征表示,跨模態(tài)行人再識(shí)別中的大多數(shù)方法都采用全局特征來描述行人。Ye 等人(2022)設(shè)計(jì)了一個(gè)簡(jiǎn)單但廣泛使用的基線模型,使用雙路網(wǎng)絡(luò)提取全局特征,由身份損失和三元組損失聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò)。因其易于實(shí)現(xiàn)且泛化能力強(qiáng),大部分特征學(xué)習(xí)相關(guān)方法(Wu 等,2017;Ye 等,2018b,2020;Dai 等,2018)和基于模態(tài)轉(zhuǎn)換的方法(Wang 等,2019a,b,2020;Li等,2020)都傾向于使用全局特征。局部特征學(xué)習(xí)能夠獲得部件或區(qū)域的特征,對(duì)行人圖像錯(cuò)位具有魯棒性。一些方法(Zhu 等,2020;Hao 等,2019b)側(cè)重于利用局部細(xì)粒度特征,將可見光和紅外圖像分成幾個(gè)水平部件,每個(gè)部件獨(dú)立預(yù)測(cè)行人身份。但目前的跨模態(tài)行人再識(shí)別模型通常只關(guān)注全局或局部特征學(xué)習(xí)方法,本文則在輪廓信息引導(dǎo)下,融合全局特征和局部特征,使其具有更強(qiáng)的判別能力。
在雙路網(wǎng)絡(luò)基礎(chǔ)上,本文設(shè)計(jì)了兩個(gè)特定的分支用于學(xué)習(xí)可見光圖像和紅外圖像所對(duì)應(yīng)輪廓的特征,將輪廓圖像作為輔助模態(tài)聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò),從而縮小模態(tài)間差異。
提出的輪廓引導(dǎo)下的雙粒度特征融合網(wǎng)絡(luò)架構(gòu)如圖2 所示,由4 個(gè)分支組成,分別對(duì)應(yīng)于可見光輪廓圖像、可見光圖像、紅外圖像和紅外輪廓圖像。為了便于敘述,從上到下將其依次命名為分支1、分支2、分支3 和分支4。選取ResNet50(50-layer residual network)作為每個(gè)分支的主干網(wǎng)絡(luò)。各分支的第1 個(gè)卷積層使用獨(dú)立的參數(shù)來捕獲特定于模態(tài)的信息,而剩余的殘差塊則共享權(quán)重以學(xué)習(xí)模態(tài)不變特征,即分支2 和分支3,分支1 和分支4 共享各自殘差塊Stage1—Stage4 的參數(shù)。此外,將分支2 與分支3 中的最后一個(gè)全局平均池化(global average pooling,GAP)層替換為用于局部特征提取的結(jié)構(gòu)。
網(wǎng)絡(luò)的輸入是一組可見光和紅外圖像,可見光圖像送入分支2,紅外圖像送入分支3。根據(jù)給定的圖像,輪廓檢測(cè)器相應(yīng)地生成其輪廓圖像。然后,將可見光輪廓圖像和紅外輪廓圖像(如圖2 所示)這兩種模態(tài)的輪廓圖像分別送入分支1 和分支4。通過這種方式,輪廓圖像作為輔助模態(tài)信息進(jìn)入網(wǎng)絡(luò)。
圖2 輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of contour-guided dual-granularity feature fusion network
全局粒度融合是指行人圖像到輪廓的融合,包括可見光—輪廓融合以及紅外—輪廓融合。經(jīng)過全局粒度融合后,由分支1和分支4的全局平均池化層分別生成可見光輪廓增廣特征和紅外輪廓增廣特征。同時(shí),分支2和分支3輸出可見光局部特征和紅外局部特征,局部特征是一組特征向量,具體數(shù)量由區(qū)域劃分相關(guān)參數(shù)決定。局部粒度融合負(fù)責(zé)連接輪廓增廣特征和相應(yīng)的局部特征。例如,通過局部粒度融合將紅外輪廓增廣特征和紅外局部特征拼接在一起,以獲得紅外圖像的表示。
2.2.1 全局粒度特征融合
全局粒度融合是指將行人圖像特征融合到其對(duì)應(yīng)的輪廓圖像中,借助輪廓作為先驗(yàn)知識(shí),增強(qiáng)輪廓的全局特征表達(dá)。以紅外圖像為例,其紅外—輪廓融合過程如圖3 所示。特征融合可以在不同的層次上分別開展,如圖3 中的箭頭所示,淺層網(wǎng)絡(luò)融合低層細(xì)節(jié)相關(guān)特征,而深層網(wǎng)絡(luò)則融合高層語義相關(guān)特征。實(shí)驗(yàn)檢驗(yàn)了各個(gè)不同融合位置的作用。
采用RCF(richer convolutional features)(Liu 等,2017)作為輪廓檢測(cè)器,其主干架構(gòu)是一個(gè)經(jīng)過預(yù)訓(xùn)練 的VGG16(Visual Geometry Group 16-layer network)網(wǎng)絡(luò)。輪廓特征提取的表達(dá)式為
式中,xk和表示原始圖像和生成的輪廓圖像,k∈{V,I}分別代表可見光模態(tài)或紅外模態(tài),φ(·)表示輪廓檢測(cè)器。
此外,本文探討了不同融合操作對(duì)實(shí)驗(yàn)的影響,包括按元素乘、按元素加和拼接。按元素乘旨在通過輪廓圖像特征對(duì)行人圖像特征進(jìn)行篩選過濾,保留行人輪廓信息而忽略其他區(qū)域的信息;按元素加則著重為輪廓圖像特征補(bǔ)充行人圖像相關(guān)的語義信息;拼接是在特征維度上擴(kuò)展,而不損失行人圖像和輪廓圖像各自的信息。本文模型在Conv1 后采用按元素加的方式對(duì)特征進(jìn)行融合。全局粒度融合的表達(dá)式為
式中,σ(x,y)指特征融合操作,σ∈{⊙,⊕,?}分別代表按元素乘、按元素加和拼接;,,,F(xiàn)分別表示經(jīng)過網(wǎng)絡(luò)的第i個(gè)殘差塊后,可見光圖像、紅外圖像、可見光輪廓和紅外輪廓各自對(duì)應(yīng)的特征圖;ugVC和ugIC分別表示可見光輪廓增廣特征圖和紅外輪廓增廣特征圖。
2.2.2 局部粒度特征細(xì)化與融合
局部粒度融合是指將輪廓增廣特征與基于部件的局部特征進(jìn)行融合,從而聯(lián)合全局特征和局部特征,得到具備更強(qiáng)判別能力的圖像表達(dá)。由于局部特征通常與特定的身體部位有關(guān),在不同的模態(tài)之間相對(duì)穩(wěn)定,從而有助于異構(gòu)模態(tài)下的對(duì)齊。
現(xiàn)有工作在提取局部特征時(shí)通常采用均勻分割法,首先將經(jīng)過主干網(wǎng)絡(luò)的特征圖平均劃分為幾個(gè)水平部件,每個(gè)部件的特征圖經(jīng)過全局平均池化層生成特征向量,隨后送入各自的分類器獨(dú)立地預(yù)測(cè)行人身份。為了提高識(shí)別準(zhǔn)確率,進(jìn)一步采用了軟分割方法(Sun 等,2018)細(xì)化局部粒度特征。具體而言,首先由區(qū)域分類器對(duì)原始特征圖的各個(gè)列向量進(jìn)行m分類,并得到區(qū)域劃分掩膜,每個(gè)區(qū)域劃分掩膜表示列向量屬于該部件區(qū)域的概率。區(qū)域分類器由全連接層和softmax 函數(shù)構(gòu)成。最后,將m個(gè)區(qū)域劃分掩膜分別與原始特征圖相乘,通過平均池化操作得到m個(gè)特征向量。軟分割法可以表達(dá)為
式中,ω(·)指區(qū)域分類器,g(·)指全局平均池化操作,softmax(·)指softmax 激活函數(shù),Wj為全連接層的權(quán)重矩陣,F(xiàn)k、u表示行人圖像經(jīng)過主干網(wǎng)絡(luò)輸出的特征圖和其中的每個(gè)列向量;和分別表示圖像第j個(gè)區(qū)域的劃分掩膜和特征向量,其中j∈{1,…,m}。
獲得局部特征后,將輪廓增廣特征向量和局部特征向量拼接,完成局部粒度融合。以可見光圖像為例,針對(duì)均勻分割和軟分割這兩種局部特征提取方法,局部特征融合過程如圖4 所示,該圖省略了全局特征融合的表示。局部粒度融合的表達(dá)為
圖4 局部粒度融合的示意圖Fig.4 Illustration of local-granularity fusion((a)fusion process;(b)uniform partition method;(c)soft partition method)
式中,fAugVC和fAugIC分別表示經(jīng)過全局平均池化層得到的可見光輪廓增廣特征向量和紅外輪廓增廣特征向量,fV和fI分別表示可見光行人圖像和紅外行人圖像最終的特征表示,Concat(·) 代表向量拼接操作。
為了優(yōu)化提出的模型,采用身份損失和三元組損失。身份損失將訓(xùn)練過程視為一個(gè)分類問題,使每幅行人圖像盡可能分類到正確的身份類別中,從而學(xué)習(xí)具有判別性的特征。三元組損失將訓(xùn)練視為一個(gè)檢索排序問題(趙才榮 等,2021),在特征空間拉近相同行人身份的圖像特征,推遠(yuǎn)不同行人身份的圖像特征。身份損失一般由交叉熵?fù)p失函數(shù)實(shí)現(xiàn),本文使用Liu 等人(2021)提出的異質(zhì)中心三元組損失替代傳統(tǒng)三元組損失。異質(zhì)中心三元組損失結(jié)合了傳統(tǒng)三元組損失和異質(zhì)中心損失(Zhu 等,2020)的優(yōu)點(diǎn),同時(shí)考慮了類內(nèi)的緊湊性和類間的可分離性??傮w的損失函數(shù)為
式中,Lid和Lhc_tri分別表示全局特征向量對(duì)應(yīng)的身份損失和異質(zhì)中心三元組損失,和c_tri分別表示第j個(gè)局部特征向量對(duì)應(yīng)的身份損失和異質(zhì)中心三元組損失。本文實(shí)驗(yàn)將權(quán)衡參數(shù)λ的值設(shè)置為1.0,異質(zhì)中心三元組損失的邊距值設(shè)置為0.3。
在可見光—紅外跨模態(tài)行人再識(shí)別的兩個(gè)公開數(shù)據(jù)集SYSU-MM01(Wu 等,2017)和RegDB(Nguyen等,2017)上對(duì)提出的方法進(jìn)行實(shí)驗(yàn)評(píng)估。通過與基線模型和一些近年來的SOTA(state-of-the-art)方法進(jìn)行性能比較,驗(yàn)證模型的有效性。
SYSU-MM01 數(shù)據(jù)集由4 個(gè)可見光攝像頭和2 個(gè)紅外攝像頭拍攝,包含491 個(gè)行人的287 628 幅可見光圖像和15 792幅紅外圖像。其中,訓(xùn)練集有395個(gè)行人,測(cè)試集有96 個(gè)行人。數(shù)據(jù)集有室內(nèi)搜索(indoor-search)和全搜索(all-search)兩種評(píng)估模式,前者不包括室外攝像頭拍攝的圖像,后者使用全部攝像頭拍攝的圖像。本文采用最具挑戰(zhàn)性的單次全搜索(single-shot all-search)模式評(píng)估提出的方法。
RegDB 數(shù)據(jù)集由可見光—紅外雙成像系統(tǒng)拍攝,包含412 個(gè)行人的8 240 幅圖像,每個(gè)行人都有10 幅不同的可見光圖像和10 幅不同的紅外圖像。其中,訓(xùn)練集和測(cè)試集各有206 個(gè)行人。沿用Ye 等人(2018a)提出的策略,本文通過10 次實(shí)驗(yàn)的結(jié)果評(píng)估模型,以獲得穩(wěn)定的結(jié)果。
實(shí)驗(yàn)參照現(xiàn)有的跨模態(tài)行人再識(shí)別中的評(píng)估標(biāo)準(zhǔn),采用累積匹配特征(cumulative matching characteristics,CMC)和平均精度均值(mean average precision,mAP)兩項(xiàng)指標(biāo)來評(píng)估方法的性能。其中,CMC-k(rank-k匹配準(zhǔn)確率)表示在排名前k的檢索結(jié)果中出現(xiàn)正確匹配的概率,而mAP 則度量具有多個(gè)正確匹配時(shí)的平均檢索性能。
使用深度學(xué)習(xí)框架Pytorch 來實(shí)現(xiàn)本文方法,硬件配置如下:GPU 為NVIDIA RTX 3090 24 GB,CPU為Intel(R)Core(TM)i7-11700 @ 2.50 GHz,內(nèi)存32 GB。
實(shí)驗(yàn)采用在ImageNet 上預(yù)先訓(xùn)練的ResNet50作為主干網(wǎng)絡(luò),且最后一個(gè)卷積層的stride 設(shè)置為1,以獲得更大空間尺寸的特征圖。參照Zhu 等人(2020)的實(shí)驗(yàn)設(shè)置,訓(xùn)練的batch size 設(shè)置為64,每個(gè)batch 隨機(jī)選取4 個(gè)行人,每個(gè)行人包括8 幅可見光圖像和8 幅紅外圖像。輸入圖像的大小統(tǒng)一調(diào)整為288 × 144 像素,并采用隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。局部特征的分割區(qū)域數(shù)量設(shè)置為6。
實(shí)驗(yàn)使用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化器,其中動(dòng)量設(shè)置為0.9。初始學(xué)習(xí)率設(shè)置為0.01,并采用warm up 策略調(diào)整學(xué)習(xí)率。具體來說,在前10 個(gè)epoch,學(xué)習(xí)率可以通過0.01×(epoch+1)來計(jì)算;在第10~20 個(gè)epoch 之間時(shí),學(xué)習(xí)率保持為0.01 不變;在第20 個(gè)epoch 和第50 個(gè)epoch 時(shí),學(xué)習(xí)率分別衰減為0.001 和0.000 1。經(jīng)過60 個(gè)epoch 后停止訓(xùn)練。此外,當(dāng)采用軟分割方法時(shí),還需對(duì)模型進(jìn)行另外20 個(gè)epoch 的微調(diào)。在這個(gè)過程中,首先固定其他組件,單獨(dú)訓(xùn)練區(qū)域分類器,然后聯(lián)合優(yōu)化整個(gè)網(wǎng)絡(luò)。
為了驗(yàn)證方法的有效性,在SYSU-MM01 和RegDB 兩個(gè)數(shù)據(jù)集上與經(jīng)典和SOTA 方法進(jìn)行對(duì)比實(shí)驗(yàn)。包括基于全局特征的方法Zero-Padding(Wu等,2017)、TONE(two-stream CNN network)+HCML(hierarchical cross-modality metric learning)(Ye 等,2018a)、HSME(hypersphere manifold embedding)(Hao 等,2019a)、cmGAN(cross-modality generative adversarial network)(Dai 等,2018)、BDTR (bidirectional dual-constrained top-ranking)(Ye 等,2018b)、AGW(attention generalized mean pooling with weighted triplet loss)(Ye 等,2022)、MACE (modalityaware collaborative ensemble)(Ye 等,2020)、Hi-CMD(hierarchical cross-modality disentanglement)(Choi等,2020)、NFS(neural feature search)(Chen 等,2021)、MSO(multi-feature space joint optimization)(Gao 等,2021)、基于局部特征的方法DFE (dualalignment feature embedding)(Hao 等,2019b)、TSLFN(two-stream local feature network)(Zhu 等,2020)、LBA(learning by aligning)(Park 等,2021),以及基于模態(tài)轉(zhuǎn)換的方法D2RL (dual-level discrepancy reduction learning)(Wang 等,2019b)、JSIA-ReID (joint set-level and instance-level alignment Re-ID)(Wang等,2020)、AlignGAN(alignment generative adversarial network)(Wang 等,2019a)、X-Modality(Li 等,2020)。
在SYSU-MM01 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表1 所示,輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò)在最具挑戰(zhàn)性的單次全搜索模式下的rank-1和mAP分別為62.42%和58.14%。結(jié)果表明,雙粒度特征融合有利于模型學(xué)習(xí)判別性特征,局部特征和全局特征相結(jié)合比單獨(dú)使用其中一種粒度的特征具有更好的性能。此外,本文方法的性能超過了基于GAN 的方法,模型更容易收斂并具有更快的訓(xùn)練速度,不會(huì)引入額外的噪聲。在RegDB 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示,本文方法的rank-1 和mAP 分別為84.42%和77.82%,相比于其他方法具有較高的識(shí)別準(zhǔn)確率。在兩個(gè)公開數(shù)據(jù)集SYSU-MM01 和RegDB上的對(duì)比實(shí)驗(yàn)結(jié)果證明了本方法的優(yōu)越性。
表1 不同方法在SYSU-MM01數(shù)據(jù)集上的比較結(jié)果Table 1 Comparison results of different methods on SYSU-MM01 dataset/%
表2 不同方法在RegDB數(shù)據(jù)集上的比較結(jié)果Table 2 Comparison results of different methods on RegDB dataset/%
為了驗(yàn)證輪廓增廣和模型各組成部分的有效性,并探究不同特征融合方法和權(quán)衡參數(shù)的影響,進(jìn)行消融實(shí)驗(yàn)。相比于RegDB 數(shù)據(jù)集,SYSU-MM01數(shù)據(jù)集的圖像數(shù)量更多,拍攝場(chǎng)景和相機(jī)視角也更加復(fù)雜多變。各種方法在SYSU-MM01 數(shù)據(jù)集上的性能遠(yuǎn)不如在RegDB 數(shù)據(jù)集上的性能,對(duì)其做更深入的探究是很有必要的。因此,消融實(shí)驗(yàn)在SYSU-MM01數(shù)據(jù)集上進(jìn)行。
3.4.1 組成部分的有效性
為了評(píng)估各組成部分的有效性,實(shí)驗(yàn)在基線模型上添加不同的組件,并對(duì)性能指標(biāo)進(jìn)行定量分析。實(shí)驗(yàn)1 使用雙路網(wǎng)絡(luò)作為基線,原始可見光圖像和紅外圖像作為輸入。實(shí)驗(yàn)2 和實(shí)驗(yàn)3 分別表示僅使用全局粒度輪廓特征或局部粒度部件特征作為行人的特征表示。實(shí)驗(yàn)4 表示將實(shí)驗(yàn)3 的均勻分割方法替換為軟分割方法。實(shí)驗(yàn)5 指融合兩種粒度的特征,這里在Conv1 后使用按元素加的方式完成全局融合操作。實(shí)驗(yàn)6 表示將實(shí)驗(yàn)5 的均勻分割方法替換為軟分割方法。
在SYSU-MM01 數(shù)據(jù)集上各組成部分的有效性如表3 所示。與實(shí)驗(yàn)1 相比,實(shí)驗(yàn)2 的rank-1 提升了7.76%,mAP 提升了6.60%;而實(shí)驗(yàn)3 對(duì)應(yīng)的提升值分別為6.90%和4.81%。實(shí)驗(yàn)2 的提升效果更顯著,表明了在本文提出的模型中,全局粒度輪廓特征比局部粒度部件特征更有效,同時(shí)也體現(xiàn)了輪廓是一種具有較強(qiáng)判別性的模態(tài)共享特征。與實(shí)驗(yàn)2 和實(shí)驗(yàn)3相比,實(shí)驗(yàn)5的結(jié)果證明了融合全局特征和局部特征的重要性。全局特征包含整體的語義信息,但可能會(huì)受到背景噪聲的干擾;局部特征是細(xì)粒度的,通常與行人身體部位相關(guān)。因此,為了盡可能減少模態(tài)差異,有必要將兩種粒度的特征結(jié)合起來。此外,與實(shí)驗(yàn)3和實(shí)驗(yàn)5相比,實(shí)驗(yàn)4和實(shí)驗(yàn)6表明,軟分割方法可以進(jìn)一步提高模型的識(shí)別準(zhǔn)確率。然而,由于可見光模態(tài)和紅外模態(tài)之間的巨大差異,其效果不如可見光單模態(tài)下的行人再識(shí)別(Sun等,2018)。
表3 各組成部分在SYSU-MM01數(shù)據(jù)集上的有效性Table 3 Effectiveness of each component on SYSU-MM01 dataset/%
3.4.2 融合方法的影響
為了研究全局粒度融合方法對(duì)性能的影響,實(shí)驗(yàn)嘗試了在不同位置使用不同操作進(jìn)行特征融合。在SYSU-MM01 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示。結(jié)果表明,在較淺層融合的性能優(yōu)于在較深層融合。因?yàn)镃NN 的淺層更傾向于提取圖像的形狀、邊緣和紋理特征,而深層則更偏向于學(xué)習(xí)抽象特征,且淺層生成的特征圖具有更大的空間尺寸。融合操作可以在淺層結(jié)合原始圖像和輪廓圖像各自的細(xì)節(jié)信息,以便于后續(xù)的網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),從而取得比在深層融合更好的效果。在各種特征融合方式中,拼接操作的性能整體上優(yōu)于其他方法,因?yàn)榕c按元素的乘或加相比,拼接不會(huì)損失信息。但由于拼接操作增加了特征圖維度,對(duì)計(jì)算資源的消耗大于其他兩種方法。綜合以上考慮,本文實(shí)驗(yàn)在Conv1 后采用按元素加的方式對(duì)特征進(jìn)行融合。
表4 不同融合方法在SYSU-MM01數(shù)據(jù)集上的性能Table 4 Performance of different fusion methods on SYSU-MM01 dataset/%
3.4.3 輪廓增廣的有效性
為了驗(yàn)證輪廓增廣的有效性,實(shí)驗(yàn)分別探究了在無輪廓增廣、局部特征輪廓增廣和全局特征輪廓增廣下雙粒度特征融合網(wǎng)絡(luò)的性能,表5 給出了在SYSU-MM01 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。數(shù)據(jù)表明,對(duì)局部特征或全局特征進(jìn)行輪廓增廣的結(jié)果好于沒有輪廓引導(dǎo)的結(jié)果,從而驗(yàn)證了輪廓增廣的有效性。同時(shí),可以發(fā)現(xiàn)采用全局特征輪廓增廣帶來的性能提升顯著高于局部特征的增廣。這是因?yàn)椋喞切腥说囊环N整體性而非局部性的特征描述,對(duì)全局特征進(jìn)行輪廓增廣可以引導(dǎo)模型學(xué)習(xí)基于形狀的行人判別特征,并彌補(bǔ)其在長(zhǎng)距離關(guān)系建模上的不足。而在局部特征輪廓增廣中,由于圖像會(huì)被劃分成不同的區(qū)域,整體性的輪廓將被分解為局部性的邊緣,導(dǎo)致模型無法感知圖像級(jí)的關(guān)聯(lián)信息。因此,本文所提出的模型僅對(duì)全局特征進(jìn)行了輪廓增廣。
表5 輪廓增廣在SYSU-MM01數(shù)據(jù)集上的有效性Table 5 Effectiveness of contour augmentation on SYSU-MM01 dataset/%
3.4.4 權(quán)衡參數(shù)的影響
為了探究全局特征損失和局部特征損失的比例系數(shù)對(duì)性能的影響,在SYSU-MM01數(shù)據(jù)集上采用不同的權(quán)衡參數(shù)λ進(jìn)行實(shí)驗(yàn),結(jié)果如表6 所示。結(jié)果表明,當(dāng)權(quán)衡參數(shù)λ介于1.0~1.5 時(shí),模型的性能較好。考慮到λ= 1.0 時(shí),rank-1 和mAP 性能突出,且rank-10 和rank-20 的值亦接近最優(yōu),本文實(shí)驗(yàn)將權(quán)衡參數(shù)λ的值設(shè)置為1.0。
表6 不同權(quán)衡參數(shù)在SYSU-MM01數(shù)據(jù)集上的性能Table 6 Performance of different trade-off parameters on SYSU-MM01 dataset/%
本文將顯式輪廓信息引入紅外—可見光跨模態(tài)行人再識(shí)別中,旨在減小模態(tài)間差異。為了充分利用輪廓特征,本文將輪廓作為輔助模態(tài),提出了一種輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò),用于跨模態(tài)行人再識(shí)別。全局粒度融合增強(qiáng)了原始圖像的輪廓特征表示,生成輪廓增廣特征。局部粒度融合進(jìn)一步融合基于行人部件的局部特征和輪廓增廣特征,從而得到具備更強(qiáng)判別能力的圖像表達(dá)。在兩個(gè)公開數(shù)據(jù)集SYSUMM01和RegDB上的實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的有效性。
本文模型驗(yàn)證了輪廓引導(dǎo)和雙粒度特征融合的有效性,然而模型的性能仍有待提高。后續(xù)工作將探索如何更有效地利用輪廓線索增強(qiáng)特征的表達(dá)能力。例如,嘗試其他的輪廓特征融合方法或設(shè)計(jì)相應(yīng)的損失函數(shù),進(jìn)一步提高識(shí)別準(zhǔn)確率。此外,將考慮采用隨機(jī)擦除、噪聲添加等數(shù)據(jù)擴(kuò)張技術(shù)提升模型的泛化能力,以適應(yīng)更加復(fù)雜多變的真實(shí)行人再識(shí)別場(chǎng)景。