董亞超,劉宏哲,徐 成
(北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101)
行人重識(shí)別指在不同的攝像頭視角中匹配同一個(gè)目標(biāo)人物的過(guò)程,在交通、公共安防和視頻監(jiān)控等領(lǐng)域發(fā)揮著重要作用。行人重識(shí)別的難點(diǎn)在于不同的攝像頭產(chǎn)生的視角和光照不同,且遮擋和背景復(fù)雜等不利因素導(dǎo)致行人的姿態(tài)和外觀存在巨大的差異,這些均會(huì)對(duì)行人重識(shí)別的準(zhǔn)確性產(chǎn)生影響。
通過(guò)深度學(xué)習(xí)方法解決行人重識(shí)別問(wèn)題的大致過(guò)程是先使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取每張圖片的特征,然后對(duì)所查詢行人圖片特征和底庫(kù)中的圖片特征逐一進(jìn)行距離相似性度量,根據(jù)距離遠(yuǎn)近排序出前K張與所查詢行人最為相似的圖片。目前,行人重識(shí)別方法主要分為基于表征學(xué)習(xí)、基于度量、基于局部特征學(xué)習(xí)和基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)造圖的四類方法[1]。
在基于表征學(xué)習(xí)的行人重識(shí)別方法中,文獻(xiàn)[2]用Classification Loss 和Verification Loss 來(lái)訓(xùn)練網(wǎng)絡(luò),通過(guò)分類網(wǎng)絡(luò)進(jìn)行ID 預(yù)測(cè),驗(yàn)證網(wǎng)絡(luò)從而判斷2 張圖片是否屬于同一個(gè)行人??紤]到僅靠行人ID信息學(xué)習(xí)得到的網(wǎng)絡(luò)表達(dá)能力有限,文獻(xiàn)[3]對(duì)行人圖片進(jìn)行屬性標(biāo)注,結(jié)合預(yù)測(cè)ID 信息和屬性信息完成判定。文獻(xiàn)[4]利用RGB 信息和灰度信息融合提取特征,以降低行人圖像顏色相近所帶來(lái)的干擾。
基于度量的學(xué)習(xí)方法在對(duì)2 張圖片進(jìn)行相似性度量時(shí),使得2 張圖片更加容易匹配或者區(qū)分開。常用的度量學(xué)習(xí)損失方法包括對(duì)比損失[5]、三元組損失[6]和四元組損失[7]等。文獻(xiàn)[8]提出的Cricle Loss 中每個(gè)相似性得分以不同的步調(diào)進(jìn)行學(xué)習(xí),使得收斂目標(biāo)更加明確。
為提高行人重識(shí)別方法的跨域能力、泛化能力以及克服姿態(tài)多變性問(wèn)題,文獻(xiàn)[9]使用GAN 生成8 個(gè)姿勢(shì)的圖像樣本,用以代表所有攝像頭視角下的行人姿勢(shì)。文獻(xiàn)[10]通過(guò)GAN 生成換衣數(shù)據(jù),以更換行人衣服的顏色。
為提取更加細(xì)節(jié)的局部特征信息,文獻(xiàn)[11]提出了分塊卷積(PCB),其將特征在垂直方向上均勻切分為6 塊并分別預(yù)測(cè)ID,通過(guò)這種方法可以提取更具魯棒性的特征,但是其分塊完后會(huì)出現(xiàn)圖像不對(duì)齊的情況。文獻(xiàn)[12]利用提取的人體關(guān)鍵點(diǎn)將圖片分為頭部、上身和下身3 個(gè)部分并分別進(jìn)行特征提取。文獻(xiàn)[13]先利用姿態(tài)估計(jì)模型估計(jì)行人關(guān)鍵點(diǎn),然后通過(guò)仿射變換使得相同的關(guān)鍵點(diǎn)對(duì)齊。文獻(xiàn)[14]提出多任務(wù)金字塔重疊匹配方法,以提取魯棒性的局部特征。文獻(xiàn)[15]提出多粒度網(wǎng)絡(luò),其將特征分成3 個(gè)分支,使用多個(gè)分類損失和三元組損失聯(lián)合學(xué)習(xí),最后整合所有特征。
上述切塊模型存在如下問(wèn)題:被切塊的每個(gè)局部特征塊享有相同的權(quán)重,導(dǎo)致模型不能聚焦到具有分辨力的特征塊上,如帽子、背包這些具有分辨力的特征塊不能被有效地凸顯;在特征切塊后,塊與塊之間的聯(lián)系被破壞,容易丟失全局特征信息。
本文提出一種基于顯著性多尺度特征協(xié)作融合的行人重識(shí)別方法SMC-ReID。在特征切塊前,利用顯著性檢測(cè)提取行人圖片的顯著特征圖,將其與全局特征進(jìn)行融合,以對(duì)切塊后的特征賦予不同的權(quán)重,增強(qiáng)具有區(qū)分力屬性特征的特征塊,抑制干擾網(wǎng)絡(luò)從而判斷背景特征塊的權(quán)重。為挖掘多層次的局部特征,對(duì)特征進(jìn)行多尺度切塊,與傳統(tǒng)切塊方法不同,在切塊后本文對(duì)每一部分的相鄰塊間再次進(jìn)行協(xié)作融合,以保持塊與塊之間的聯(lián)系和連續(xù)性。根據(jù)局部特征塊和全局特征塊的差異,本文采用3 種損失函數(shù)聯(lián)合學(xué)習(xí),以使全局和局部特征更加融合。最后在Market1501[16]、DukeMTMC-reID[17]和CUHK03[18]3 個(gè)公共數(shù)據(jù)集 上進(jìn)行實(shí)驗(yàn),以驗(yàn)證SMC-ReID 方法的行人重識(shí)別效果。
行人重識(shí)別中的一些特殊情況如圖1 所示。由于存在背景復(fù)雜(圖1(a)、圖1(b)和圖1(c))、姿態(tài)各異(圖1(c))等問(wèn)題,導(dǎo)致難以提取有效的特征。另外,行人圖片中一些額外的輔助信息,如圖1(b)、圖1(d)和圖1(e)中的背包、雨傘等特征,也可作為匹配2 個(gè)行人的有利因素。
圖1 行人重識(shí)別中的一些特殊情況Fig.1 Some special cases in person re-identification
顯著性目標(biāo)檢測(cè)通過(guò)人類視角檢測(cè)出圖片中具有區(qū)分力的醒目區(qū)域,目前,顯著性檢測(cè)已被應(yīng)用于多種視覺(jué)任務(wù)中。本文使用顯著性檢測(cè)提取圖片中具有區(qū)分力的顯著性區(qū)域,抑制復(fù)雜的背景信息。
文獻(xiàn)[19]將顯著性目標(biāo)檢測(cè)應(yīng)用于行人重識(shí)別領(lǐng)域,利用行人圖像之間成對(duì)顯著性區(qū)域的分布關(guān)系進(jìn)行計(jì)算與匹配。文獻(xiàn)[20]提出一種基于混合高階注意力模型的方法,其對(duì)圖像或特征圖不同部分的共同作用機(jī)制進(jìn)行注意力建模。與上述方法不同,本文不使用任何基于顯著性區(qū)域匹配的方法,而是提取更深層的特征以編碼行人特征。本文首先根據(jù)輸入圖像計(jì)算出顯著性目標(biāo)區(qū)域圖,然后使用該特征圖對(duì)中間層的CNN 網(wǎng)絡(luò)參數(shù)權(quán)重進(jìn)行加權(quán)。此外,本文的訓(xùn)練流程不包括顯著性檢測(cè)部分。
由于在真實(shí)場(chǎng)景中采集的行人圖片有嚴(yán)重遮擋、模糊甚至圖像缺失的現(xiàn)象,使得全局特征或者單一局部特征難以完全體現(xiàn)出圖片中的重要信息。文獻(xiàn)[11-15]均基于特征切塊進(jìn)行行人重識(shí)別,但是特征切塊容易造成特征塊的不連續(xù)性,導(dǎo)致特征信息間斷,從而對(duì)網(wǎng)絡(luò)模型判斷造成干擾。此外,在實(shí)際中需要根據(jù)特征切塊尺度的不同使用相應(yīng)的損失函數(shù),促使各個(gè)損失函數(shù)學(xué)習(xí)進(jìn)行相互作用。為此,本文將特征進(jìn)行多尺度切塊,切塊后實(shí)現(xiàn)協(xié)作式融和,一方面提取一些被遮擋或忽略的特征,另一方面避免特征塊的不連續(xù)問(wèn)題。
如圖2 所示,SMC-ReID 整體網(wǎng)絡(luò)框架由顯著性檢測(cè)、骨干網(wǎng)絡(luò)、降維層、全連接層(FC)和多損失函數(shù)構(gòu)成,圖中Reduce Dimension Operation 表示降維層,D表示特征向量的維數(shù),特征提取骨干網(wǎng)絡(luò)采用ResNet50,使用ImageNet 作為預(yù)訓(xùn)練模型。
圖2 SMC-ReID 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 SMC-ReID network structure
本文對(duì)ResNet50 網(wǎng)絡(luò)進(jìn)行如下改進(jìn):1)移除ResNet50 中l(wèi)ayer 4 后面的平均池化層和全連接層,改成相應(yīng)的不同分支的最大池化層和適應(yīng)不同尺度特征的全連接層;2)在ResNet50 中l(wèi)ayer3 的后面增加提煉層(Refined Layer),其不與layer4 連接,該層由ResNet 殘差結(jié)構(gòu)中的Bottleneck 構(gòu)成,一方面可以得到更大的特征圖,另一方面能夠統(tǒng)一特征維度,與Saliency Map 進(jìn)行更好地融合;3)在更改后的全連接層前面增加降維層,其由卷積核為2×1 的二維卷積、批歸一化處理和ReLU 激活函數(shù)構(gòu)成,目的是將不同尺度的特征塊降低到同一維度(512),既減少參數(shù)量的計(jì)算,又可以緩解網(wǎng)絡(luò)的過(guò)擬合問(wèn)題。
為了更清晰地展示圖像在輸入、特征提取、特征融合、特征切塊等操作中特征向量維度的變化,表1給出不同階段特征向量的變化過(guò)程。
表1 不同階段的特征向量維度尺寸Table 1 Dimension sizes of feature vectors at different stages
如圖1、表1 所示,將圖片輸入到CNN Backbone中,得到Global Feat 的維度為2 048×12×4,與此同時(shí),將經(jīng)過(guò)Refined Layer 的特征與經(jīng)過(guò)顯著性檢測(cè)得到的Saliency Map 進(jìn)行融合,得到SG-Feat,維度為2 048×1×1,然后將Global Feat 經(jīng)過(guò)最 大池化(Max Pooling)得到維度為2 048×1×1 的特征,將其與SG-Feat 沿通道方向進(jìn)行拼接融合得到Combo Feat,維度為4 096×1×1。Cut 操作中先將Combo Feat 進(jìn)行上采樣,得到特 征維度 為4 096×3×1 和4 096×4×1,對(duì)其進(jìn)行不同尺度的切塊,切塊后得到A1-A3 和B1-B4,將其進(jìn)行協(xié)作式融合,即A1 和A2協(xié)作融合得到A12,A2 和A3 協(xié)作融合得到A23,B1和B2 協(xié)作融合得到B12,B2 和B3 協(xié)作融合得到B23,B3 和B4 協(xié)作融合得到B34。在對(duì)上述進(jìn)行降維處理后,得到共計(jì)8 個(gè)維度為512 的特征向量,均進(jìn)行ID loss 和Label Smooth 分類學(xué)習(xí),其中,將3 個(gè)Global Feat(G1、G2 和G3)再次使 用Triplet Loss 和Center Loss 進(jìn)行聯(lián)合學(xué)習(xí),從而拉近正樣本間的距離并增大負(fù)樣本間的距離。
行人重識(shí)別中由于背景復(fù)雜,全局特征不足以成為判斷2 個(gè)人是否為同一個(gè)人的依據(jù),一方面因?yàn)槿痔卣鳑](méi)有有效地將具有區(qū)分力的局部特征塊凸顯出來(lái),另外一方面由于現(xiàn)有多數(shù)特征切塊方法將每個(gè)特征塊視為同一權(quán)重,導(dǎo)致如背包、帽子等重要的判斷依據(jù)被忽視。如圖3 所示,由于行人臉部不清晰,因此背包可作為重要的判斷依據(jù),現(xiàn)有的一些特征分塊方法賦予每個(gè)塊相同的權(quán)重,經(jīng)過(guò)顯著性特征圖后可以自適應(yīng)地賦予1、2、3 特征塊更大的權(quán)重,尤其是背包所在的第3 塊特征圖。
圖3 顯著性特征圖中的特征塊權(quán)重Fig.3 Feature blocks weight in saliency feature graph
目前,顯著性檢測(cè)算法日趨成熟,本文使用在行人重識(shí)別數(shù)據(jù)集中表現(xiàn)良好的F3Net 網(wǎng)絡(luò)[21]。考慮到行人重識(shí)別數(shù)據(jù)集中圖片像素較低導(dǎo)致識(shí)別效果不明顯的問(wèn)題,本文對(duì)圖片進(jìn)行預(yù)處理,采用雙線性插值法對(duì)其進(jìn)行上采樣以適應(yīng)行人重識(shí)別數(shù)據(jù)集。此外,本文不將顯著性特征圖直接輸入到網(wǎng)絡(luò)中,而是將其進(jìn)行灰度二值化,然后歸一化并以特征向量的形式存儲(chǔ),最后將這些特征計(jì)算圖與ResNet50 中間層layer3 進(jìn)行向量矩陣相乘融合,使得不會(huì)有太多抽象信息同時(shí)也自適應(yīng)地對(duì)原始特征圖進(jìn)行加權(quán)。
設(shè)一張圖片經(jīng)過(guò)layer3 計(jì)算后的特征圖為τ?Rh×w×c,一張顯著性計(jì)算圖為ω?Rh'×w',為了使兩者進(jìn)行融合,對(duì)τ上采樣將其轉(zhuǎn)換為ω′?Rh'×w'×c,然后通過(guò)特征向量矩陣相乘的方法使兩者逐個(gè)元素融合。圖4所示為顯著性檢測(cè)后的可視化圖,可以看出,復(fù)雜的背景信息被抑制,具有區(qū)分力的信息被凸顯。
圖4 顯著性檢測(cè)的可視化效果Fig.4 Visualization effect of saliency detection
局部特征可以捕獲到邊緣細(xì)節(jié)信息,常用的局部特征提取方法包括基于圖像切塊、基于語(yǔ)義分割、基于姿態(tài)關(guān)鍵點(diǎn)等方法,其中,圖像切塊是有效且最常用的一種方法,但是,單一粒度的特征切塊容易丟失結(jié)構(gòu)信息。受文獻(xiàn)[15]啟發(fā),本文采用多分支策略提取多尺度的局部特征。但與文獻(xiàn)[15]不同,本文在特征切塊前融合顯著性特征圖,使得每個(gè)特征塊的權(quán)重不同,此外,為解決特征分塊后丟失上下文信息的問(wèn)題,本文在特征分塊后再進(jìn)行協(xié)作式融合,以加強(qiáng)特征塊之間的連續(xù)性。如圖2 所示,Global Feat、Combo Feat 以及Combo Feat 經(jīng) 過(guò)Cut 操作后 的2 個(gè)特征分支尺度均不同,特征分塊后將A1 和A2 進(jìn)行通道連接得到A12,保留了A1 與A2 之間的連續(xù)性,其他特征塊同樣如此。
多尺度特征融合的重點(diǎn)在于損失函數(shù),需要根據(jù)不同尺度的特征應(yīng)用合適的損失函數(shù)。為此,本文聯(lián)合多種損失函數(shù)并將其應(yīng)用到多尺度特征塊上進(jìn)行數(shù)據(jù)集訓(xùn)練與網(wǎng)絡(luò)模型優(yōu)化。常用的行人重識(shí)別損失函數(shù)包括交叉熵?fù)p失(Cross-entropy loss)和Triplet loss 等。在Cross-entropy loss 中,本文以行人的ID 作為分類的類別。Cross-entropy loss 的作用是增大類間間距,其定義如式(1)所示:
其中,K為類別數(shù)目,即ID 數(shù)目,y為真值標(biāo)簽,pi為模型預(yù)測(cè)類別為i的概率值。
由于測(cè)試集中出現(xiàn)的ID 并未出現(xiàn)在訓(xùn)練集中,因此行人重識(shí)別是一項(xiàng)one-shot learning。如果訓(xùn)練好的分類網(wǎng)絡(luò)對(duì)所有新加入的ID 都粗略地以0 或1 進(jìn)行判斷,則容易造成過(guò)擬合問(wèn)題。因此,本文加入標(biāo)簽平滑(label smooth),其將式(1)中的qi改為:
其中,δ為設(shè)定的一個(gè)常數(shù),本文將其設(shè)置為0.1,防止訓(xùn)練的模型過(guò)于相信訓(xùn)練集。本文采用ID loss,結(jié)合式(1)和式(2)得到式(3):
Triplet loss 的作用是不僅增大類間距離,而且拉近類內(nèi)距離,因?yàn)門riplet loss 不能像ID loss 那樣能達(dá)到全局最優(yōu)約束,甚至使得類間距離小于類內(nèi)距離,因此本文將ID loss 與Triplet loss 相結(jié)合以訓(xùn)練模型,從而使得模型學(xué)習(xí)到更具辨別力的特征。Triplet loss 定義如式(4)所示:
其中,B是最小批次圖片數(shù)量,fj表示第j張圖片的特征向量,yj是第j個(gè)圖像的標(biāo)簽,為深度特征的第yj個(gè)類中心,其能有效描述類內(nèi)變化,提高類內(nèi)緊湊性。
根據(jù)不同尺度特征塊的特性,本文應(yīng)用不同的損失函數(shù)。對(duì)于全局特征塊G1~G3,本文利用Triplet loss 和Center loss 對(duì)其進(jìn)行優(yōu)化學(xué)習(xí),原因是全局特征塊更能拉近類間距離,另外局部特征塊不適用于Triplet loss,甚至?xí)绊懩P托阅?。?duì)于所有局部特征塊和全局特征塊,本文使用ID loss,這樣整個(gè)網(wǎng)絡(luò)模型的損失函數(shù)如式(6)所示:
其中,Gi表示全局特征塊,fi表示除3 個(gè)全局特征塊外 的8 個(gè) 局 部特征 快,λ是Triplet loss 的系數(shù),ε是 為了平衡Center loss 的權(quán)重,設(shè)為0.000 5。
3.1.1 行人重識(shí)別數(shù)據(jù)集
為驗(yàn)證SMC-ReID 方法的有效性,本文在Market1501、DukeMTMC-reID 和CUHK03 3 個(gè)公開且常用的數(shù)據(jù)集上進(jìn)行測(cè)試,3 個(gè)數(shù)據(jù)集的具體信息如表2 所示。
表2 Market1501、DukeMTMC-reID 和CUHK03 數(shù)據(jù)集的具體信息Table 2 Specific information of the Market1501,DukMTMC-reID and CUHK03 datasets
Market1501 是由5 個(gè)高清攝像頭和1 個(gè)低清攝像頭拍攝到的不同的1 501 個(gè)行人,共有32 668 個(gè)行人矩形框,訓(xùn)練集共有12 936 張圖像,包含751 個(gè)行人ID,平均每個(gè)人有17.2 張訓(xùn)練數(shù)據(jù),測(cè)試集有19 732 張圖像,包含750 個(gè)行人ID,平均每個(gè)人有26.3 張測(cè)試數(shù)據(jù),查詢集共有3 368 張圖像。
DukeMTMC-reID 共有36 411 張行人圖像框,包含1 404 個(gè)行人ID,訓(xùn)練集包含702 個(gè)行人ID,圖像數(shù)為16 522,測(cè)試集包含702 個(gè)行人身份,圖像數(shù)為17 661,查詢集包含的圖像數(shù)為2 228。
CUHK03 數(shù)據(jù)集由2 個(gè)部分組成,一是手工標(biāo)記的CUHK03-labeled,二是由DPM 算法檢測(cè)到的CUHK03-detected,共由6 個(gè)攝像頭拍攝而成。行人ID 數(shù)為1 467,包含14 097/14 096 個(gè)行人檢測(cè)框,訓(xùn)練集總數(shù)為7 365/7 368,行人ID 數(shù)為767,測(cè)試集總數(shù)為5 332/5 328,行人ID 數(shù)為700,查詢集包含1 400 張圖像。CUHK03 的測(cè)試協(xié)議有新舊2 種,本文采用新的測(cè)試協(xié)議。
3.1.2 行人重識(shí)別評(píng)估指標(biāo)
首位命中率(Rank-1)、平均準(zhǔn)確率均值(mean Average Precision,mAP)和累積匹配特征曲線(Cumulative Matching Curve,CMC)是行人重識(shí)別任務(wù)中常用的評(píng)估標(biāo)準(zhǔn),其中,CMC 常以Rank-k命中率的形式體現(xiàn),表示在底庫(kù)圖像集合中與所查詢圖像匹配相似度最高的前k張圖片命中查詢圖像的概率。mAP 的定義如式(7)所示:
其中,Q代表查詢集的數(shù)量,AP 定義為:
其中,k為預(yù)測(cè)圖片的排名,如果預(yù)測(cè)排名為k的圖片與查詢圖片是同一ID,則rel(k)為1;否則,rel(k)為0。p(k)定義為:
CMC 可視為Rank list 的可視化,定義為:
其中,r代表Rank-k,m(r)是指在前r個(gè)排名中包含所查詢圖片的數(shù)目。
本文實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Ubuntu 16.04,深度學(xué)習(xí)框架為Pytorch 1.1.0,編程語(yǔ)言版本為Python 3.6,硬件基礎(chǔ)為TITAN Xp GPU。
本文實(shí)驗(yàn)的骨干網(wǎng)絡(luò)用ResNet50,并在ImageNet上預(yù)訓(xùn)練以初始化網(wǎng)絡(luò)權(quán)重。為了得到更多的行人信息,本文將輸入圖片重新調(diào)整至384×128 大小,而顯著性特征圖的大小都重新調(diào)整至128×64。對(duì)圖片數(shù)據(jù)的預(yù)處理操作包括隨機(jī)翻轉(zhuǎn)和像素歸一化等。為應(yīng)用三元組損失,每個(gè)訓(xùn)練批次選取8 個(gè)行人身份,并從訓(xùn)練集中隨機(jī)為每個(gè)身份選取4 張圖片,即訓(xùn)練批次大小為32。三元組損失函數(shù)邊緣參數(shù)設(shè)置為1.2,中心損失權(quán)重值設(shè)為0.000 5。使用自適應(yīng)梯度優(yōu)化器(Adam)對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,動(dòng)量為0.9,權(quán)重衰減系數(shù)為0.000 5,初始學(xué)習(xí)率為0.000 2,在訓(xùn)練周期為320 和380 時(shí)對(duì)學(xué)習(xí)率進(jìn)行指數(shù)衰減,衰減系數(shù)為0.1,訓(xùn)練總批次為400。測(cè)試階段,將經(jīng)過(guò)FC 層后的8 個(gè)特征向量進(jìn)行通道連接組合,形成4 096 維向量并進(jìn)行相似度匹配。
為驗(yàn)證SMC-ReID 方法中多尺度特征協(xié)作式融合的有效性,本文在Market1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集上分別進(jìn)行對(duì)比實(shí)驗(yàn)。將基于單一尺度特征切塊的PCB 模型、增加了多尺度特征切塊方法的M-ReID 模型、在M-ReID 上使用協(xié)作式融合得到的MC-ReID 模型、在SM-ReID 上使用協(xié)作式融合得到的SMC-ReID 模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖5 和圖6 所示。
圖5 不同模型在Market1501 數(shù)據(jù)集上的性能對(duì)比結(jié)果Fig.5 Performance comparison results of different models on Market1501 dataset
圖6 不同模型在DukeMTMC-reID 數(shù)據(jù)集上的性能對(duì)比結(jié)果Fig.6 Performance comparison results of different models on DukeMTMC-reID dataset
從圖5 和圖6 可以看出:
1)在Market1501 數(shù)據(jù)集上,相較于PCB,MReID 的Rank-1 和mAP 精度分別提高1.8 和14 個(gè)百分點(diǎn),在DukeMTMC-reID 數(shù)據(jù)集上,分別提高3.1 和14 個(gè)百分點(diǎn),證明了多尺度特征切塊比單一尺度特征切塊更加有效。
2)在Market1501 數(shù)據(jù)集上,相對(duì)于M-ReID,MC-ReID 的Rank-1 和mAP 精度分別提高0.4 和0.5 個(gè)百分點(diǎn),即使在模型已經(jīng)基本收斂的情況下,多尺度特征協(xié)作融合也可有效提高行人重識(shí)別的精度。在DukeMTMC-reID 數(shù)據(jù)集上,相對(duì)于M-ReID,MC-ReID 的Rank 1 和mAP 精度分別提高0.9 和1.4 個(gè)百分點(diǎn),相對(duì)于Market1501 數(shù)據(jù)集增幅較高,原因是相比Market1501 數(shù)據(jù)集,DukeMTMC-reID 數(shù)據(jù)集的像素更高,多尺度協(xié)作融合方法更能提高特征塊之間的連續(xù)性。
3)在DukeMTMC-reID 數(shù)據(jù)集上,在SM-ReID的基礎(chǔ)上使用協(xié)作融和的方法后,Rank-1 和mAP 分別提高1.5 和3.3 個(gè)百分點(diǎn),相比在M-ReID 上使用協(xié)作融合方法的精度增幅高一點(diǎn),說(shuō)明特征協(xié)作融合方法和顯著性特征圖相結(jié)合更能發(fā)揮作用,驗(yàn)證了協(xié)作式特征融合能夠提升網(wǎng)絡(luò)模型的性能,因?yàn)閱我怀叨忍卣髑袎K的PCB 旨在解決由遮擋、姿態(tài)各異情況引起的特征信息提取不充分問(wèn)題,而M-ReID 和MC-ReID 的精度優(yōu)于PCB,因此也進(jìn)一步證明基于多尺度協(xié)作融合方法的M-ReID 和MC-ReID 網(wǎng)絡(luò)對(duì)于遮擋等情況具有有效性。
為驗(yàn)證顯著性特征圖的有效性,本文在Market1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集上分別進(jìn)行2 組實(shí)驗(yàn),第1 組在M-ReID 基礎(chǔ)上加入顯著性特征圖進(jìn)行實(shí)驗(yàn),第2 組在MC-ReID 基礎(chǔ)上加入顯著性特征圖進(jìn)行實(shí)驗(yàn),結(jié)果如圖5 和圖6 所示。從圖5 和圖6 可以看出,在第1 組實(shí)驗(yàn)中,在Market1501數(shù)據(jù)集上,相比于M-ReID,SM-ReID 的Rank-1 和mAP 精度分別提高1.0 和1.4 個(gè)百分點(diǎn),而在DukeMTMC-reID 數(shù)據(jù)集上,分別提高2.7 和3.7 個(gè)百分點(diǎn)。在另外一組實(shí)驗(yàn)中,相比于MC-ReID,SMCReID 在Market1501 數(shù)據(jù)集上的Rank-1 和mAP 精 度分別提升0.8 和1.1 個(gè)百分點(diǎn),在DukeMTMC-reID 數(shù)據(jù)集上分別提升3.3 和5.7 個(gè)百分點(diǎn)。上述結(jié)果一方面證明了增加顯著性特征圖的有效性,另外一方面可以看出第2 組實(shí)驗(yàn)的增幅較第1 組實(shí)驗(yàn)高一些,證明了加入顯著性特征圖和使用協(xié)作式多尺度特征融合的有效性,也進(jìn)一步體現(xiàn)了在背景信息冗余復(fù)雜的情況下,加入顯著性特征圖對(duì)于精度提升的有效性。由于DukeMTMC-reID 數(shù)據(jù)集的像素較高,因此加入顯著性特征圖后精度提升更加明顯。
根據(jù)不同尺度特征的特性,本文使用多損失函數(shù)進(jìn)行聯(lián)合學(xué)習(xí)。為證明多損失函數(shù)聯(lián)合學(xué)習(xí)的有效性,本文進(jìn)行定量和定性分析。定量分析結(jié)果如表3 所示,從表3 可以看出,在單一的ID loss 上使用Triplet loss 后,mAP 和Rank-1 分別提高5.9 和4.2 個(gè)百分點(diǎn),在此基礎(chǔ)上增加Center loss 后,mAP 和Rank-1 分別提高0.5 和0.2 個(gè)百分點(diǎn),證明了使用多損失函數(shù)聯(lián)合學(xué)習(xí)對(duì)網(wǎng)絡(luò)模型的有效性。進(jìn)一步將Triplet loss 的系數(shù)調(diào)整為2,mAP 和Rank-1 分別提高1.3 和0.4 個(gè)百分點(diǎn),一方面是因?yàn)門riplet loss 能夠緩解類內(nèi)間距大于類間間距的情況,從而使得類內(nèi)更加緊密,另一方面是因?yàn)樵撓禂?shù)平衡了多尺度特征塊中ID loss 和Triplet loss 在混合loss 中的占比。
表3 不同損失函數(shù)在Market1501數(shù)據(jù)集上的性能對(duì)比結(jié)果Table 3 Performance comparison results of different loss functions on Market1501 dataset %
圖7所示為使用ID loss后樣本分布的可視化效果,可以看出,類內(nèi)距離很大,并未完全學(xué)習(xí)到同一ID 的共同特征。如圖8 所示,在加入Triplet loss 后類內(nèi)距離減小,使得模型學(xué)習(xí)到更具魯棒性的特征。
圖7 使用ID loss 后的樣本分布可視化效果Fig.7 Visualization of samples distribution using ID loss
圖8 加入Triplet loss 后樣本分布變化的可視化效果Fig.8 Visualization of samples distribution change after adding Triple loss
表4 所示為不同方法在Market1501 數(shù)據(jù)集上的測(cè)試時(shí)間比較,測(cè)試集包含751 個(gè)人,共有19 732 張圖片,本次實(shí)驗(yàn)在相同的硬件條件下進(jìn)行。從表4可以看出,本文方法運(yùn)行速度處于居中水平,但是準(zhǔn)確率比其他方法高。在實(shí)際應(yīng)用中,存儲(chǔ)行人數(shù)據(jù)集的底庫(kù)數(shù)量是慢慢增加的,所以只需考慮新增的行人圖像,本文方法的單張圖片匹配計(jì)算時(shí)間為0.029 s,滿足了一般算法對(duì)實(shí)時(shí)性的要求。
表4 不同方法在Market1501 數(shù)據(jù)集上的測(cè)試時(shí)間比較Table 4 Test time comparison of different methods on Market1501 dataset s
為驗(yàn)證本文SMC-ReID 方法的有效性,在Market1501、DukeMTMC-reID 和CUHK03 3 個(gè)行人重識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中,在Market1501 和DukeMTMC-reID 2 個(gè)數(shù)據(jù) 集上以mAP、Rank-1、Rank-5 和Rank-10 作為評(píng)估指標(biāo),在CUHK03 數(shù)據(jù)集上以mAP 和Rank-1 作為評(píng)估指標(biāo)。對(duì)比方法包括Spindle[22]、SVDNet[23]、PDC[24]、PSE[25]、GLAD[12]、HA-C N N[26]、PCB[11]、PCB+RPP[11]、M ancs[27]、HPM[28]、MHN[20]和Pyramid[29]。對(duì)比結(jié)果如表5~表7 所示,其中,“—”表示原文獻(xiàn)沒(méi)有給出實(shí)驗(yàn)結(jié)果。
表5 Market1501 數(shù)據(jù)集上不同方法的性能比較結(jié)果Table 5 Performance comparison results of different methods on Market1501 dataset %
表6 DukeMTMC-reID數(shù)據(jù)集上不同方法的性能比較結(jié)果Table 6 Performance comparison results of different methods on DukeMTMC-reID dataset %
表7 CUHK03 數(shù)據(jù)集上不同方法的性能比較結(jié)果Table 7 Performance comparison results of different methods on CUHK03 dataset %
從表5 可以看出,在Market1501 數(shù)據(jù)集上,本文SMC-ReID 方法的mAP 精度達(dá)到93.0%,Rank-1 準(zhǔn)確率達(dá)到95.3%,相較PCB+RPP 分別提高11.4 和1.5 個(gè)百分點(diǎn),證明了顯著性特征圖和多尺度特征協(xié)作融合方法的有效性。
從表6 可以看出,在DukeMTMC-reID 數(shù)據(jù)集上,SMC-ReID 的mAP 精度達(dá)到88.4%,Rank-1 命中率達(dá)到90.6%,相較先進(jìn)的Pyramid 分別提高9.4 和1.6 個(gè)百分點(diǎn)。通過(guò)對(duì)比可以看出,SMC-ReID 在DukeMTMC-reID 數(shù)據(jù)集上的性能提升幅度高于Market1501 數(shù)據(jù)集,原因是圖片像素清晰時(shí)顯著性特征圖起到的作用更加明顯。
從表7 可以看出,SMC-ReID 在CUHK03-labeled和CUHK03-detected 上分別取得了84.0%、82.4%的mAP 精度和81.8%、80.5%的Rank-1 命中率,優(yōu)于多數(shù)方法,進(jìn)一步證明了SMC-ReID 方法的有效性。
為更加直觀地顯示SMC-ReID 在復(fù)雜情景下的重識(shí)別效果,本文在Market-1501、DukeMTMC-reID和CUHK03 3 個(gè)數(shù)據(jù)集上展示部分查詢結(jié)果的可視化效果,分別如圖9~圖12 所示,其中,虛線框?yàn)殄e(cuò)誤預(yù)測(cè)結(jié)果。
圖9 SMC-ReID 方法在特殊情況下的部分查詢結(jié)果可視化對(duì)比Fig.9 Visual comparison of some query results of SMC-ReID method in special cases
圖10 SMC-ReID 在Market1501 數(shù)據(jù)集上的部分查詢結(jié)果可視化對(duì)比Fig.10 Visual comparison of some query results of SMC-ReID on Market1501 dataset
圖11 SMC-ReID 在DukeMTMC-reID 數(shù)據(jù)集上的部分查詢結(jié)果可視化對(duì)比Fig.11 Visual comparison of some query results of SMC-ReID on DukeMTMC-reID dataset
圖12 SMC-ReID 在CUHK03 數(shù)據(jù)集上的部分查詢結(jié)果可視化對(duì)比Fig.12 Visual comparison of some query results of SMC-ReID on CUHK03 dataset
從圖9(a)的匹配結(jié)果可以看出,對(duì)于同一個(gè)人在圖片中的不同尺度,SMC-ReID 相較PCB 方法匹配準(zhǔn)確率較高,此外,PCB 方法排名前6 的正確結(jié)果均為相同尺度的圖像,而本文方法將尺度變化較大的圖像排在更前的位置,證明了多尺度特征協(xié)作融合方法的優(yōu)越性。從圖9(b)的匹配結(jié)果可以看出,PCB 方法匹配錯(cuò)誤的直觀原因是背景混雜對(duì)匹配結(jié)果造成了干擾,甚至難以區(qū)分行人的輪廓,而SMCReID 方法能正確地匹配出同一行人的圖像,證明了本文方法能有效減少背景冗余信息所帶來(lái)的影響。從圖9(c)的匹配結(jié)果可以看出,由于給出的查詢圖片被車輛、行人嚴(yán)重遮擋,導(dǎo)致PCB 方法難以提取魯棒性的特征,使得其匹配正確率降低,而SMC-ReID能通過(guò)提取更細(xì)節(jié)的局部特征,從而正確地匹配出同一個(gè)人。在PCB 和本文方法都只有一個(gè)圖片未成功匹配的情況下,本文方法出錯(cuò)位置排在Rank-9,而PCB 排在Rank-6。以上結(jié)果說(shuō)明SMC-ReID 在多數(shù)復(fù)雜情景下均有較好的識(shí)別性能。
從圖11可以看出,在姿態(tài)變化、行人相互遮擋、背景復(fù)雜的情況下,SMC-ReID 仍能準(zhǔn)確匹配到多數(shù)正確結(jié)果,在第2組查詢結(jié)果中,Rank-7由于該圖片的行人ID為后面幾乎完全被遮擋的人,而被遮擋的行人圖片信息較少,導(dǎo)致匹配錯(cuò)誤。圖12中給出行人背面,SMC-ReID也能準(zhǔn)確匹配到佩戴口罩的同一行人的ID 身份。
本文提出一種基于顯著性多尺度特征協(xié)作融合的行人重識(shí)別方法,通過(guò)顯著性檢測(cè)得到圖片中具有區(qū)分力的特征圖,對(duì)多尺度特征分塊后的權(quán)重進(jìn)行分配,以協(xié)作融合的方法解決特征塊不連續(xù)的問(wèn)題,從而提取更具顯著性和魯棒性的特征。實(shí)驗(yàn)結(jié)果表明,該方法能獲得較高的mAP 精度和Rank-1值,可有效提升行人重識(shí)別性能。下一步考慮將顯著性特征圖與原始特征圖進(jìn)行融合,以充分發(fā)揮顯著性特征圖的作用。