朱松豪,呂址涵
(南京郵電大學 自動化學院、人工智能學院,江蘇 南京 210023)
隨著人工智能技術(shù)和深度神經(jīng)網(wǎng)絡的發(fā)展,視頻監(jiān)控技術(shù)已經(jīng)成為交通監(jiān)控、火災報警、犯罪檢測等社會保障系統(tǒng)的基本工具[1-3]。 行人重識別是視頻監(jiān)控中的一項具有挑戰(zhàn)性的任務,其目的是通過多個不重疊的監(jiān)控攝像頭檢索目標行人[4-5]。 由于其在智能視頻監(jiān)控中的廣泛應用,該任務近年來受到越來越多的關(guān)注[6]。 由于光照、拍攝角度、行人姿態(tài)、圖像分辨率和遮擋等復雜變化使得其在實際場景中的應用困難重重[7-8]。 現(xiàn)有的行人重識別方法主要針對RGB 攝相機拍攝的行人圖像,這些方法依賴于行人的外觀和色彩信息進行跨攝像頭匹配[9-11]。 然而,在某些情況下,過度依賴光照條件會降低精度。 例如,在夜間或光照不足的情況下,大多數(shù)RGB 攝像頭無法獲取清晰的圖像,這種情況下傳統(tǒng)的可見光?可見光行人重識別效果未能達到預期效果。 因此,紅外?可見光行人重識別研究日益獲得更多關(guān)注[12]。
紅外?可見光行人重識別用以匹配不同光譜相機拍攝的同一行人。 與傳統(tǒng)的僅包含類內(nèi)差異的可見光?可見光行人重識別相比,紅外?可見光行人重識別還包含不同光譜相機所導致的模態(tài)差異。 RGB圖像包含3 個通道信息,而紅外圖像只包含一個通道信息,因此紅外圖像也可以認為是異質(zhì)圖像。 由圖1 所示的跨模態(tài)行人重識別的示例圖片可知,RGB 圖像具有豐富的顏色信息,而紅外圖像缺乏關(guān)鍵的顏色信息,對行人匹配造成了極大的阻礙;同時,RGB 圖像中的行人姿態(tài)、衣著等易于識別,而紅外圖像只有模糊的行人輪廓,且衣著等信息大量流失;此外,紅外?可見光行人重識別也會出現(xiàn)傳統(tǒng)行人重識別中存在的光照、姿態(tài)和遮擋等問題[13-14]。
圖1 來自兩個紅外?可見光行人重識別數(shù)據(jù)集(SYSU?MM01 和RegDB)的示例圖像(其中每一列中的圖像來自同一個行人,第一排圖像為RGB 相機拍攝到的行人圖像,第二排圖像為紅外相機拍攝到的行人圖像)
近年來,有研究人員提出了許多方法用以解決跨模態(tài)間的差異[15-16]。 文獻[9]提出用于跨模態(tài)行人重識別的SYSU?MM01 數(shù)據(jù)集;同時還提出了深度補零的網(wǎng)絡訓練方法,提高了行人重識別效果。文獻[10]提出在RGB 和紅外兩條路徑中引入自監(jiān)督學習的圖像生成器,該圖像生成器可引導跨模態(tài)信息的交流,提升行人重識別效果。 文獻[11]提出了用于減少態(tài)差異和外觀差異的行人重識別方法:針對模態(tài)差異,該方法通過圖像級子網(wǎng)絡實現(xiàn)RGB和紅外圖像的模態(tài)轉(zhuǎn)換;針對外觀差異,該方法通過圖像級子網(wǎng)絡實現(xiàn)不同模態(tài)下行人特征的聯(lián)合表示。 文獻[17]提出了基于對稱網(wǎng)絡的跨模態(tài)行人重識別算法,該算法通過對稱網(wǎng)絡產(chǎn)生模態(tài)不變特征,從而達到模態(tài)混淆的目的;同時使用不同隱藏層的卷積特征構(gòu)造混合三元損失,提高網(wǎng)絡的特征表征能力。
本文提出了一個混合交叉雙路徑特征學習網(wǎng)絡,該網(wǎng)絡利用提出的整體約束和部分三元組?中心損失函數(shù)減少模態(tài)差異。 其中,混合交叉雙路徑特征學習網(wǎng)絡用于平衡不同模態(tài)對特定共有特征的模態(tài)表征,從而有效提高網(wǎng)絡模型的整體性能;整體約束和部分三元組?中心損失函數(shù)分別用于減少不同模態(tài)和同一模態(tài)的差異。 具體而言,混合交叉雙路徑特征學習網(wǎng)絡首先利用主干網(wǎng)絡均為ResNet50[18]的RGB 分支和紅外分支,分別提取不同模態(tài)下的行人信息,并利用平均池化層將提取到的特征從上到下均勻劃分為p條水平部件;然后,將水平切割特征投影至公共空間,并輸出模態(tài)特定特征和模態(tài)共有特征的聯(lián)合表示;最后,利用模態(tài)特定身份損失、交叉熵損失以及提出的整體約束和部分三元組?中心損失對聯(lián)合特征進行混合和交叉,通過模態(tài)距離約束獲得最佳識別性能。 提出的整體約束和部分三元組?中心損失旨在減少同一模態(tài)下的類間距離,擴大同一模態(tài)下的類內(nèi)距離,并同步不同模態(tài)下的類間距離。 該損失函數(shù)首先從整體上約束不同模態(tài)間的距離,從而減小RGB 和紅外模態(tài)間的差異;其次,該損失函數(shù)通過結(jié)合三元組損失和中心損失,分別學習RGB 模態(tài)和紅外模態(tài)的中心,以使同一類別樣本更為接近類別中心,同時遠離其他類別中心,從而改善模態(tài)類內(nèi)差異。 將這兩類損失相結(jié)合可有效減小模態(tài)差異,獲得滿意的識別性能。 本文方法的主要貢獻如下:
(1) 提出了一種新穎的混合交叉雙路徑特征學習網(wǎng)絡(HCDFL)結(jié)構(gòu),它從兩種不同的模態(tài)中深度提取局部行人特征。
(2) 提出了一種新穎的整體約束和部分三元組?中心損失,該函數(shù)分別從不同模態(tài)和同一模態(tài)兩方面改善了類間和類內(nèi)差異,提高了整體識別性能。
(3) 在兩個公開的紅外?可見光行人重識別數(shù)據(jù)集上進行了實驗,得到了優(yōu)良的性能。
可見光?可見光行人重識別主要解決不重疊視頻監(jiān)控攝像機間同一行人的檢索問題[19-20],該項任務的主要挑戰(zhàn)來自于視角、背景和照明帶來的類內(nèi)變化[21-23]。 特征表示學習、度量學習和深度學習是可見光-可見光行人重識別算法的主要方法[24-26],其中特征表示學習方法將行人重識別任務作為一個分類問題,而非直接考慮圖像間的相似性。 文獻[27]提出基于像素層次的特征描述子,該描述子可很好地表征像素特征的均值和協(xié)方差信息。 與特征表示學習不同,度量學習的目的是直接通過網(wǎng)絡學習兩幅圖像的相似度。 文獻[28]提出一種鏡像表示模式,該模式為特定視圖嵌入特征變換,并對同一行人的不同視圖的特征分布進行對齊。 深度學習是近年來研究的熱點,文獻[29]設計了一種新的三元組損失,同時對比分析了網(wǎng)絡模型的預訓練。 為解決背景偏置問題,文獻[30]提出了一種基于人體分析圖的人?區(qū)域引導的池化深度神經(jīng)網(wǎng)絡,以學習更多的判別特征,并利用隨機背景與人圖像增強來訓練數(shù)據(jù)。
紅外?可見光行人重識別問題匹配不同光譜相機捕獲的跨模態(tài)行人圖像,是傳統(tǒng)的行人重識別技術(shù)的擴展。 由于夜間頻發(fā)人口走失和其他犯罪事件,因此其在刑偵應用中非常重要。 Cai 等[5]提出了一種包含雙模態(tài)硬挖掘三中心點損失的雙路徑網(wǎng)絡框架,旨在優(yōu)化類間距離,學習判別特征表示。Ye 等[12]提出了一種無參數(shù)動態(tài)雙注意力聚集方法,該方法通過挖掘不同模態(tài)的類內(nèi)差異和跨通道上下文線索,從而避免了噪聲干擾導致模型性能不穩(wěn)的問題。 Chen 等[31]研究了一種結(jié)合雙層特征搜索和可微特征搜索的方法,該方法實現(xiàn)了特征選擇過程的自動化,大大提高了匹配精度。 陳琳等[32]提出了基于雙重屬性的跨模態(tài)行人重識別方法,該方法充分考慮了圖像和文本屬性,構(gòu)建了基于文本屬性和圖像屬性的雙重屬性空間,并通過構(gòu)建基于隱空間和屬性空間的跨模態(tài)行人重識別網(wǎng)絡,提高了所提取圖文屬性的可區(qū)分性和語義表達性。
在以往的行人重識別研究中,損失函數(shù)一直扮演著非常重要的角色。 許多研究對損失函數(shù)進行改進和創(chuàng)新,為解決行人重識別問題提供了極大的幫助。 文獻[33]將三元組損失應用于行人重識別任務,根據(jù)特征向量的歐氏距離確定相似度。 除此之外,論文通過對網(wǎng)絡的訓練過程行分析,提出了一種計算效率更高的模型訓練方法。 文獻[34]提出三元組?中心損失,選擇離樣本點最近的類內(nèi)中心和類間中心與樣本點形成一個三元組中心,提高了特征的區(qū)分度,使得網(wǎng)絡性能更為有效。 文獻[22]采用全批量三元組損失和余弦softmax 損失三重損失統(tǒng)一度量,用以提高模型性能。 文獻[35]基于跨模態(tài)行人重識別中存在的模態(tài)間變化及模態(tài)內(nèi)變化的問題,設計了模態(tài)間三元組損失、模態(tài)內(nèi)三元組損失以及全局三元組損失,進一步提高了識別精度。 文獻[36]引入了改進的三元組損失并結(jié)合中心損失,該損失函數(shù)使得不同類之間可以保持一定的距離并提高特征的區(qū)分度并且增強了對噪聲樣本的魯棒性。
本節(jié)首先描述提出的總體框架,其次詳細介紹提出的混合交叉雙路徑特征學習網(wǎng)絡,最后介紹提出的整體約束和部分三元組?中心損失。
本文提出了一種帶有整體約束和部分三元組?中心損失的混合交叉雙路徑特征學習網(wǎng)絡來解決紅外?可見光行人重識別任務。 該網(wǎng)絡模型包含RGB分支和紅外分支。 從處理過程來看,該網(wǎng)絡包含圖像輸入、主干網(wǎng)絡和特征嵌入3 個部分。 總體而言,該框架采用分區(qū)策略,有效提取圖像局部特征,提高特征表達粒度。
受文獻[37-38]的啟發(fā),本文選擇水平分割策略實現(xiàn)特征提取。 首先,每個分支以ResNet50 為主干,將得到的特征表示均勻地從上到下劃分為p個水平部件,并對每個部件進行平均池化,得到局部特征表示;其次,通過全連接層和批標準化對每個局部特征進行降維處理,便于后續(xù)的特征識別,同時在兩種模態(tài)間建立聯(lián)系,兩個模態(tài)下的全連接層共享參數(shù);最后,在特征嵌入階段,為每個模態(tài)添加特定的身份損失,以便更好區(qū)分不同模態(tài)下的行人特征,同時加入交叉熵損失函數(shù)進一步提高行人重識別精度。
此外,利用提出的整體約束和部分三元組?中心損失,結(jié)合不同模態(tài)下的特征。 總損失函數(shù)公式如下
對于紅外行人圖像而言,其特點為只包含一個不可見的電磁輻射通道,即僅包含語義結(jié)構(gòu)和形狀信息的單通道圖像。 相較于紅外行人圖像,RGB 行人圖像為多通道圖像,外觀信息和顏色信息通常占據(jù)高級語義信息的主導地位。 此外,由于RGB 相機和紅外相機的光譜差異,以及光線、拍攝角度等因素,RGB 和紅外圖像間存在巨大的模態(tài)差異。 因此,本文提出了混合交叉雙路徑特征學習網(wǎng)絡來學習共同的特征表示空間,以縮小兩種不同模態(tài)之間的差距。 紅外?可見光行人重識別數(shù)據(jù)集可以表示為D={V,I},其中V表示RGB 圖像,I表示紅外圖像。 由于跨模態(tài)數(shù)據(jù)包含模態(tài)特定和模態(tài)共享的信息,所以紅外?可見光行人重識別任務期望共享模態(tài)信息學習更多與身份識別相關(guān)的特征。 如圖2 所示,用于解決紅外?可見光行人重識別問題的經(jīng)典網(wǎng)絡有兩種,一種是單流結(jié)構(gòu),另一種是雙流結(jié)構(gòu)。 圖3 給出了包括骨干網(wǎng)絡和特征嵌入的混合交叉雙路徑特征學習網(wǎng)絡框架。
圖2 兩種典型的跨模態(tài)行人重識別網(wǎng)路
圖3 本文方法的框架示意圖
本文采用雙流結(jié)構(gòu)作為基本結(jié)構(gòu),主要原因是單流結(jié)構(gòu)采用共同的特征提取網(wǎng)絡,在此過程中無法準確提取RGB 和紅外圖像的特征;此外,由于單流結(jié)構(gòu)共享全局參數(shù),從而導致行人局部特征的嚴重忽略。 在雙流結(jié)構(gòu)中,淺層網(wǎng)絡參數(shù)是單獨針對每個模態(tài)的,而深度網(wǎng)絡參數(shù)是共享的,這樣既考慮了局部特征,又考慮了全局特征,提高了識別性能。
因此,本文采用的雙流結(jié)構(gòu)包括兩個分支:RGB分支和紅外分支,分別提取不同模態(tài)圖像特征。 由于紅外?可見光行人重識別任務的訓練數(shù)據(jù)有限,因此采用在大規(guī)模ImageNet 上預訓練方法對網(wǎng)絡模型參數(shù)進行初始化。 這里采用ResNet50 作為骨干網(wǎng)絡,給定不同模態(tài)下的輸入數(shù)據(jù)D={V,I},經(jīng)過骨干網(wǎng)絡ResNet50 特征提取后分別得到其對應的行人特征,去除最后的平均池化層及其后續(xù)結(jié)構(gòu)的網(wǎng)絡,從而達到擴大接收域面積、豐富特征粒度的目的。 特別是兩個分支均使用相同的網(wǎng)絡結(jié)構(gòu),這種設計會使得高層特征輸出更能表達高層語義,使特征的身份判別能力更強。 在特征嵌入階段,首先將行人特征水平地劃分為p個相同部件(本文p=6),用以學習兩種異構(gòu)模態(tài)間的低維嵌入空間;然后,在每個部件上使用全局池化層,得到p個2 048 維特征。 為了進一步降低特征維度,針對每個2 048 維的部件特征采用1×1 的卷積層進行降維操作,最終得到256 維的特征表達;同時,為避免梯度消失和計算內(nèi)部協(xié)變偏移,每個全連接層后面添加一個批標準化層;最后,共享層作為投影函數(shù),將兩種不同模態(tài)特征投影到共同嵌入空間,用以彌合兩種模態(tài)間的差異。 實驗結(jié)果表明,這種共享結(jié)構(gòu)在很大程度上提高了識別精度。
在訓練階段,結(jié)合模態(tài)特定身份損失、交叉熵損失以及提出的整體約束和部分三元組?中心損失對網(wǎng)絡模型進行訓練,以提高識別的準確性。 利用混合交叉訓練將RGB 分支和紅外分支的聯(lián)合表示特征分為3 組,分別為部分約束、整體約束和交叉熵損失,其中的部分約束和整體約束構(gòu)成了提出的整體約束和部分三元組?中心損失函數(shù)。 在測試階段,分別提取探測圖像和圖庫圖像的特征,然后連接高維圖像特征,形成最終的特征描述子。
傳統(tǒng)的雙路徑特征學習網(wǎng)絡通過骨干網(wǎng)絡分別提取行人特征后,通過權(quán)值共享模塊將特征融合起來直接輸出。 本文提出的網(wǎng)絡將行人特征交叉組合,形成多個不同的batch 組合并聯(lián)合多重損失函數(shù)共同協(xié)作。 利用如式(1)所示的聯(lián)合協(xié)作構(gòu)建多損失函數(shù),包括模態(tài)特定身份損失、交叉熵損失、整體約束損失和部分三元組?中心損失。 這里的模態(tài)特定損失函數(shù)直接利用模態(tài)信息,保留最原始的行人特征;交叉熵損失用于識別行人身份,提取RGB和紅外模態(tài)特征組合成一個batch;在同一batch 內(nèi),RGB 圖像與紅外圖像的特征具有一致性,因此利用部分約束和整體約束分別構(gòu)建成對的batch。
由于RGB 圖像和紅外圖像中的行人特征存在很大差異,因此使用不同網(wǎng)絡獲取不同模態(tài)下的特征表示。 Softmax 損失用于預測每個模態(tài)下的行人身份,其公式可表示為
為使不同模態(tài)下同一行人的特征表征具有相似性,引入如下所示的交叉熵損失函數(shù)
式中:yi表示第i個輸入圖像的真實標簽,即每張輸入圖像的p個部件特征共用該圖像的標簽信息。
(1) 三元組損失。 三元組損失函數(shù)常應用于人臉識別、行人重識別等領(lǐng)域[39]。 該損失函數(shù)不僅有縮短類內(nèi)距離的特性,并且有增大類間距離的特性;而對于紅外?可見光行人重識別任務,行人圖像不僅存在同一模態(tài)中的類間距離,同時存在不同模態(tài)的類間距離。 因此三元組損失更適合于紅外?可見光行人重識別任務[37]。 三元組損失函數(shù)公式如下
式中:xi為特征表示,yi為對應于xi的類別,cyi表示類別yi的中心,M表示最小批量,‖x‖22表示歐氏距離。 中心損失和softmax 原理如圖4(b)所示。 整體約束損失學習模態(tài)間特征的關(guān)鍵是縮小跨模態(tài)差異。 由于劇烈的視覺變化,跨模態(tài)差異可能是巨大的,這將極大降低行人重識別性能,因此需從整體上減少跨模態(tài)差異。
圖4 特征分布圖(其中的綠圓點表示第1 類樣本,紫圓點表示第2 類樣本,綠三角表示第1 類樣本的中心,紫三角表示第2 類樣本的中心,藍色箭頭表示“拉近”,紅色箭頭表示“推開”,橙色虛線表示類別邊界)
圖5 整體約束過程示意(①存在于不同子空間的形態(tài)特征;②③整體模態(tài)差異優(yōu)化過程;④優(yōu)化結(jié)果)
圖6 以紅外圖像為錨點的類內(nèi)部分三元組?中心損失的基本原理(其中的綠圓點表示第1 類RGB 樣本,紫圓點表示第2 類RGB 樣本,綠三角表示第1 類紅外樣本,紫三角表示第2 類紅外樣本,紅圓點表示紅外樣本的中心,紅三角表示RGB 樣本的中心,藍色箭頭表示“拉近”,紅色箭頭表示“推開”,橙色虛線表示類別邊界)
綜上所述,整體約束和部分三元組?中心損失函數(shù)可表示為
(1) 數(shù)據(jù)集
SYSU?MM01 數(shù)據(jù)集是Wu 等[9]提出的大規(guī)模紅外?可見光行人重識別數(shù)據(jù)集,該數(shù)據(jù)集包括6 臺攝像機拍攝的來自491 個行人的287 628 張RGB 圖像和15 792 張紅外圖像。 6 個攝像機中,Cam1、2、4、5 是RGB 攝像機,Cam3、6 是紅外攝像機。 訓練集包含來自395 個行人的22 258 張RGB 圖像和11 909 張紅外圖像,測試集包含來自96 個行人的3 803 張紅外圖像以及隨機抽取的301 張RGB 圖像圖像。 此外,該數(shù)據(jù)集采用兩種測試模式:全景搜索模式和室內(nèi)搜索模式,其中全景搜索模式使用RGB圖像作為圖庫集,而室內(nèi)搜索模式使用室內(nèi)的RGB圖像作為圖庫集。
RegDB 數(shù)據(jù)集包含412 個行人的8 240 張圖像,由一個RGB 攝像頭和一個紅外攝像頭拍攝而成。 該數(shù)據(jù)集為每個行人分別拍攝了10 張RGB 圖像和10 張紅外圖像。 根據(jù)文獻[27,40]中的評價協(xié)議,該數(shù)據(jù)集分為兩個部分:206 個行人的訓練集和206 個行人的測試集。 在默認情況下,將RGB 圖像視為測試圖像,用于檢索圖庫中對應的紅外圖像。整個測試過程重復10 次,最后計算平均性能,以獲得更穩(wěn)定的結(jié)果。
(2) 評估協(xié)議
本文遵循文獻[12]中紅外?可見光行人重識別的標準評價協(xié)議,即采用標準累積匹配特征曲線(CMC)和平均精度均值(mAP)衡量網(wǎng)絡模型性能。此外,為獲得穩(wěn)定結(jié)果,采用文獻[12]中的方法,使用隨機抽樣對圖庫集進行10 次試驗。
(3) 實現(xiàn)細節(jié)
實驗在PyTorch 框架下實現(xiàn),GPU 為NVIDIA 2070 Super。 和文獻[41]一樣,使用ResNet50 作為骨干網(wǎng)絡,并利用ImageNet 預訓練網(wǎng)絡參數(shù)。 將訓練集和測試集中的每幅圖像設置為144×288×3。 由于圖像數(shù)據(jù)量有限,采用隨機水平翻轉(zhuǎn)和隨機擦除增強數(shù)據(jù)。 對于每個batch size,隨機抽取4 個行人,并對每個所選行人隨機抽取8 張RGB 圖像和8張紅外圖像。 利用SGD 優(yōu)化器對網(wǎng)絡進行優(yōu)化,將動量參數(shù)設置為0.9。 初始學習率在RegDB 數(shù)據(jù)集上設置為0.001,在SYSU?MM01 數(shù)據(jù)集上設置為0.01,在訓練30 次后衰減至0.1,兩個數(shù)據(jù)集的訓練次數(shù)都設置為60。
本節(jié)將所提方法與其他方法比較,如傳統(tǒng)的特征提取方法(HOG[44]和LOMO[45]),3 種基本方法(One?stream,Two?stream 和Zero?padding[8]),基于度量 學 習 的 方 法(BDTR[40], D?HSME[16], IPVT +MSR[19]),基 于 生 成 對 抗 的 方 法(cmGAN[41],D2RL[11],Hi?CMD[46], JSIA?ReID[47],AlignGAN[15],X Modality[10]),基 于 特 征 共 享 的 方 法(DDAG[12],WIT[48])等方法。 由于之前在這兩個數(shù)據(jù)集上做了大量研究,因此,本文直接使用已發(fā)表論文的原始實驗結(jié)果。
(1) 在SYSU?MM01 上的比較結(jié)果。 由表1 可以看出,傳統(tǒng)特征提取方法(HOG 和LOMO)是基于本地像素塊進行特征直方圖提取的一種算法,識別精度較低,在紅外?可見光行人重識別任務中無論在全景搜索還是室內(nèi)搜索模式下的效果都無法令人滿意。 對于One?stream、Two?stream 和Zero?padding 這3 種方法是首次提出的基于深度學習方法,其識別性能較傳統(tǒng)特征識別方法提高了約10%。 此外,包括BDTR、D?HSME 和IPVT+MSR 在內(nèi)的深度學習方法都從模態(tài)差異出發(fā),使得模型性能有了較大提升, 以 及 cmGAN、 D2RL、 Hi?CMD、 JSIA?ReID、AlignGAN 和X Modality 在內(nèi)的生成對抗方法使得同一身份下不同模態(tài)行人之間的相似性增加,而不同身份且不同模態(tài)的行人之間的相似性會減小,大大提高了紅外?可見光行人重識別的性能,顯著降低了模態(tài)差異,提高了識別精度。 基于特征共享的DDAG、WIT 方法,其性能都優(yōu)于深度學習方法和生成對抗方法。 值得一提的是,在全景搜索的單次搜索這一最難的模式下,所提方法的rank?1(表中r1)和mAP 分別達到了58.91%和57.43%。 因此,本文提出的方法在很大程度上優(yōu)于其他方法。
表1 SYSU?MM01 數(shù)據(jù)集的實驗對比
(2) 在RegDB 上的比較結(jié)果。 如表2 所示,所提方法在visible2infrared 和infrared2visible 搜索模式下的準確性顯著提高。 具體而言, 在visible2infrared 搜索模式下的rank?1 和mAP 分別達到85.39%和73.6%,在infrared2visible 搜索模式下的rank?1 和mAP 分別達到80.78%和69.71%。 與目前性能最好的NFS 方法相比,所提方法在visible2infrared 搜索模式下的rank?1 和mAP 分別提高了4.85%和1.5%。
表2 RegDB 數(shù)據(jù)集的實驗對比
在兩個公開數(shù)據(jù)集上的實驗結(jié)果證明了本文最初的假設:(1) 所提出的方法可以有效地表征局部和全局特征表示;(2) 所提出的方法通過約束兩種模式之間的距離來有效地最小化模態(tài)差距。
(1) 各部分對性能的影響:為評估HCDFL 和WCPTL 是否有益于整個網(wǎng)絡,對兩個數(shù)據(jù)集進行了消融實驗。 實驗結(jié)果如表3 所示,其中“baseline”是指只存在交叉熵損失的網(wǎng)絡最基本的兩路IV?ReID網(wǎng)絡訓練。 HCDFL 是指所提出的p=6 的雙路徑特征學習網(wǎng)絡,即ResNet50 骨干網(wǎng)輸出的特征圖從上到下平均分成6 條水平條紋。 同時,為了研究損失函數(shù)對網(wǎng)絡的影響,將三元組損失、中心損失和WCPTL 分別整合到baseline 和HCDFL 中,形成不同的實驗組合。 這里將HCDFL 默認為包含softmax和交叉熵損失函數(shù)。
從表3 第1~4 行數(shù)據(jù)可以看出,三元組損失、中心損失和提出的WCPTL 對于baseline 是有效的。具體來說,在全搜索模式下,在SYSU?MM01 數(shù)據(jù)集上,所提出的WCPTL 將baseline 的rank?1 和mAP分別提高了5.84%和7.72%,這有力地證明了WCPTL 的有效性。
從表3 第1 ~ 5 行數(shù)據(jù)可以看出,在SYSU?MM01 數(shù)據(jù)集上,對比baseline,HCDFL 在全搜索模式下mAP 和rank?1 分別提高4.44%和10.40%,室內(nèi)搜索模式下rank?1 和mAP 分別提高10.75%和9.92%。 相應地,所提出的HCDFL 在RegDB 數(shù)據(jù)集上也對rank?1 和mAP 有較大的改善。
從表3 第5~8 行數(shù)據(jù)可以看出,在HCDFL 中分別加入三元組損失、中心損失和WCPTL 后,網(wǎng)絡性能得到了進一步的提高。 值得注意的是,所提出的WCPTL 使得網(wǎng)絡性能達到最佳。
表3 不同模塊在SYSU?MM01 和RegDB 數(shù)據(jù)集上的結(jié)果
(2) 各損失函數(shù)對性能的影響:為驗證各損失函數(shù)對網(wǎng)絡性能改善的影響,我們進行了Softmax 損失、交叉熵損失、三元組損失、中興損失和WCPTL 等不同損失函數(shù)的消融實驗,表4展示了消融實驗的結(jié)果。 由表4 可以看出,與Softmax 損失和交叉熵損失相比,三元組損失和中興損失可以獲得較好的性能,這也說明這兩種損失函數(shù)都有利于縮小模態(tài)之間的差異。 利用WCPTL 損失函數(shù)進一步提高了網(wǎng)絡性能,這也證明了所提出方法的優(yōu)越性。
表4 不同損失函數(shù)性能評估
上述兩種消融實驗結(jié)果表明,所提出的HCDFL 和WCPTL 在一定程度上提高了整體識別性能。 特別是,WCPTL 的使用減少了模態(tài)差距,提高了兩個公共數(shù)據(jù)集的網(wǎng)絡識別性能。 同時,通過比較不同的損失函數(shù)也可以看出WCPTL 的優(yōu)越性。
本節(jié)討論兩個重要參數(shù)λ和p對整個網(wǎng)絡性能的影響。 其中λ為式(1)中整體約束和部分三元組?中心損失的系數(shù),p為特征水平切割后的部件數(shù)。 對于λ參數(shù),這里選擇以0.1 為間隔,從0.1 增加至最大值1。 由圖7 可以看出,對于SYSU?MM01 和RegDB數(shù)據(jù)集,rank?1 和mAP 隨著λ的逐漸增大而增大;當λ等于0.5 時,rank?1 和mAP 是最優(yōu)的;當λ繼續(xù)增加時,rank?1 和mAP 開始振蕩甚至減小。
圖7 參數(shù)λ 對SYSU?MM01 和RegDB 的影響
在整個網(wǎng)絡框架中,對特征映射的水平切割也是十分重要的步驟。p值決定網(wǎng)絡模型的局部特征粒度,其在某種程度上極大影響網(wǎng)絡性能。 根據(jù)文獻[33]中的結(jié)論,圖像區(qū)域的分辨率越高,圖像特征表示的能力就越強,從而有效地提高識別性能。實驗結(jié)果如圖8 所示結(jié)果在p值變化下。
圖8 給出了p值變化對于網(wǎng)絡性能影響的趨勢,其中p從1 開始,依次增大至4、6、8,隨著p的增大,網(wǎng)絡的性能也發(fā)生了變化。 從圖示結(jié)果可以知道,當p值較小時,網(wǎng)絡性能較低,這是由于局部特征粒度較大;當p增至6 時,分割使局部特征粒度變小,此時可獲得更多細節(jié),網(wǎng)絡性能達到最佳;當p值增至8時,局部特征粒度過小,特征描述符的可識別性受到很大影響,網(wǎng)絡性能開始下降。 實驗結(jié)果表明:①切片粒度可以有效地改善局部特征表示;②切片粒度過小,大大降低了特征描述符的判別性。
圖8 參數(shù)p 對SYSU?MM01 和RegDB 的影響
(1) 檢索示例:圖9 為SYSU?MM01 數(shù)據(jù)集中隨機抽取的5 個查詢示例的前10 個檢索結(jié)果,其中圖9(a)為紅外圖像對RGB 圖像的檢索結(jié)果,圖9(b)為RGB 圖像對紅外圖像的檢索結(jié)果。 可以看出,圖9(a)的檢索準確度明顯低于圖9(b),這是由于紅外圖像中缺少重要的顏色信息,且行人的姿態(tài)難以區(qū)分,導致準確率較低。 相應地,RGB 圖像具有豐富的色彩信息和易于識別的姿態(tài)信息,所以在RGB 圖像對紅外圖像的檢索模式下,精確度相對較高。 因此,可以得出以下結(jié)論:由于RGB 圖像與紅外圖像之間存在較大的模態(tài)差異,人們很難用肉眼分辨出查詢示例中哪些匹配不正確,因此,紅外?可見光行人重識別在夜視監(jiān)控應用中發(fā)揮了重要作用。 即使在圖9 中,特別是圖9(a)中出現(xiàn)了一些錯誤的檢索結(jié)果,但匹配錯誤的圖像仍然顯示出與正確圖像相似的行人輪廓或紋理結(jié)構(gòu)。 因此,可視化結(jié)果表明了本文所提方法的優(yōu)越性。
圖9 在SYSU?MM01 數(shù)據(jù)集上的前10 個檢索結(jié)果示例(綠框表示正確的檢索結(jié)果,紅框表示錯誤的檢索結(jié)果)
(2) t?SNE 分析:利用t?SNE 對SYSU?MM01 數(shù)據(jù)集上隨機選取的10 個身份的內(nèi)部特征進行可視化,圖10 繪制了baseline 和本文所提方法的RGB 圖像和紅外圖像的特征分布圖。 從圖10(a)可以看出,來自同一模態(tài)的10 個行人的特征分布非常接近,很難區(qū)分。 從圖10(b)可以看出,對于同一身份,其RGB 特征能夠匹配對應的紅外特征,而對于不同身份,其特征分布距離較遠。 對比圖10(a)和10(b),可以看到,本文提出的方法有助于將兩個模式中每個行人的特征集中在學習的嵌入空間中,即不同模態(tài)的特征不相交聚類,同時保證不同模態(tài)的正向結(jié)果很好地聚集在一起。
圖10 在SYSU?MM01 數(shù)據(jù)集上隨機選取10 個行人身份t?SNE 可視化示意圖(其中不同顏色代表不同身份的特征,圓形代表RGB 特征,十字符號代表紅外特征)
在SYSU?MM01 數(shù)據(jù)集上進行特征表示的測試時間實驗,其中數(shù)據(jù)集提供包含3 803 個圖像的查詢集和包含301 個圖像的圖庫集圖像,測試時間僅包括特征提取后的檢索時間。 如表5 所示,可以看出,本文提出的對該數(shù)據(jù)集的網(wǎng)絡測試相對較快,滿足實際應用中相對快速測試的要求。 它包括特征提取后的檢索時間,以及所進行9 項實驗并達到所有測試的平均值。
表5 SYSU?MM01 數(shù)據(jù)集上的測試時間結(jié)果 s
本文提出了一種混合交叉雙路徑特征學習網(wǎng)絡,用于水平切割圖像的局部特征和全局特征,提升行人特征表征能力。 此外,提出了一種新穎的整體約束和部分三元組?中心損失函數(shù),用于改善模態(tài)差異,使同類別樣本更接近類別中心而遠離其他類別中心。 兩個公共數(shù)據(jù)集上的實驗結(jié)果表明本文所提方法能獲得優(yōu)良的識別性能。 雖然網(wǎng)絡性能得到了一定程度的提升,但在以下幾個方面還可以進一步提升。 將首先進一步改進基于雙流結(jié)構(gòu)的網(wǎng)絡框架,以獲得更好的性能。 其次,通過研究新的損失函數(shù),進一步提高網(wǎng)絡性能。 最后,將考慮在網(wǎng)絡中加入行人檢測和行人跟蹤算法,以豐富所提方法的應用場景。