馮 欣,李永波,楊 武
(重慶理工大大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
行人重識(shí)別(person re-identification)是一項(xiàng)基礎(chǔ)但重要的圖像識(shí)別技術(shù),通過(guò)在大量候選行人圖像中找到與查詢目標(biāo)圖像最為接近的目標(biāo)來(lái)實(shí)現(xiàn)跨攝像頭等場(chǎng)景的目標(biāo)重識(shí)別任務(wù)[1],該技術(shù)廣泛應(yīng)用于目標(biāo)跟蹤,行為分析等領(lǐng)域。與人臉識(shí)別任務(wù)[2]類(lèi)似,行人重識(shí)別旨在提取行人目標(biāo)在不同視角、不同時(shí)間以及不同背景情況下的目標(biāo)的區(qū)別性特征嵌入表達(dá)(embedding),并利用度量函數(shù)衡量查詢圖像與候選目標(biāo)圖像之間特征嵌入的相似性。由于行人目標(biāo)圖像在跨攝像頭場(chǎng)景下呈現(xiàn)出的各方面差異,行人重識(shí)別任務(wù)面臨更大的挑戰(zhàn),如圖1所示,目標(biāo)由跨攝像頭造成的在不同視角下的特征差異、背景差異、目標(biāo)遮擋情況和行人姿態(tài)多樣等,都是行人重識(shí)別算法需要考慮的重要因素。
傳統(tǒng)的行人重識(shí)別方法主要采用人工設(shè)計(jì)的顏色或者梯度等可理解特征來(lái)對(duì)目標(biāo)圖像進(jìn)行特征表示。文獻(xiàn)[3]利用特定局部二值表示法(LBP)提取特征并進(jìn)行直方圖統(tǒng)計(jì),該直方圖被證明是一種非常強(qiáng)大的紋理表示。文獻(xiàn)[4]提出了一種尺度不變特征(SIFT)并且被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域,如圖像檢索、圖像拼接等任務(wù)。文獻(xiàn)[5]提出了一種用于表示局部梯度(HOG)統(tǒng)計(jì)表示的特征。然而單一統(tǒng)計(jì)特征無(wú)法應(yīng)用于行人重識(shí)別這樣的復(fù)雜圖像任務(wù)當(dāng)中,該任務(wù)往往涉及環(huán)境理解、尺度變換、圖像數(shù)據(jù)質(zhì)量不一致等困難。研究人員往往需要融合多種底層局部特征與全局特征來(lái)對(duì)目標(biāo)圖像進(jìn)行表征,并利用各種強(qiáng)大的分類(lèi)器去學(xué)習(xí)最佳分類(lèi)權(quán)重。文獻(xiàn)[6]采用傳統(tǒng)特征提取算子提取行人特征并進(jìn)行目標(biāo)跟蹤任務(wù),以獲取行人運(yùn)動(dòng)方向。該方法算力要求低,但是特征穩(wěn)定性不夠,跟蹤準(zhǔn)確度相對(duì)不足。
圖1 行人重識(shí)別任務(wù)挑戰(zhàn)示例
近年來(lái),為了生成用于區(qū)分行人的特征向量,有研究人員僅使用ResNet[7]作為訓(xùn)練行人重識(shí)別的基準(zhǔn)網(wǎng)絡(luò),并使用softmax及triplet等損失函數(shù)在Market1501等數(shù)據(jù)集上訓(xùn)練,得到了很好的準(zhǔn)確度。文獻(xiàn)[8]基于卷積層權(quán)重的相關(guān)性假設(shè),認(rèn)為數(shù)據(jù)分布的不確定性會(huì)造成區(qū)分性特征的冗余,削弱了可區(qū)分性特征,提出了通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重施加正交約束和奇異值分解的方法來(lái)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行去相關(guān)迭代訓(xùn)練。以此正交化權(quán)重學(xué)習(xí)以提升特征的可區(qū)分性。文獻(xiàn)[9]認(rèn)為行人重識(shí)別的遮擋,姿態(tài)變化問(wèn)題抑制了某些關(guān)鍵信息的學(xué)習(xí),提出了批量塊丟棄模塊,該模塊隨機(jī)丟棄特征圖某位置的子塊來(lái)去除部分信息。通過(guò)基分支及批量丟棄分支的特征圖拼接表征圖像特征來(lái)訓(xùn)練網(wǎng)絡(luò),加強(qiáng)關(guān)鍵特征的學(xué)習(xí)。文獻(xiàn)[10]在強(qiáng)基準(zhǔn)網(wǎng)絡(luò)ResNet上對(duì)圖像特征的提取分塊進(jìn)行,期望從局部特征的角度來(lái)改進(jìn)行人重識(shí)別任務(wù)。針對(duì)行人重識(shí)別任務(wù)提出基于塊的卷積神經(jīng)網(wǎng)絡(luò),加強(qiáng)圖像特征的分塊專注學(xué)習(xí),分塊精煉池化用于針對(duì)不同圖像調(diào)整解決特征分塊邊界與語(yǔ)義塊邊界不一致的問(wèn)題,進(jìn)一步提升了行人重識(shí)別網(wǎng)絡(luò)的性能。文獻(xiàn)[11]利用行人重識(shí)別任務(wù)進(jìn)行目標(biāo)跟蹤,得益于行人重識(shí)別框架及注意力機(jī)制特征提取的穩(wěn)定性,在公開(kāi)數(shù)據(jù)集MOT16上取得非常不錯(cuò)的效果。
現(xiàn)有的行人重識(shí)別工作都圍繞數(shù)據(jù)增強(qiáng)及普通的位置、通道注意力開(kāi)展可區(qū)分性特征的提取研究,卻忽略了通道結(jié)構(gòu)之間的關(guān)系信息對(duì)于結(jié)構(gòu)特征的學(xué)習(xí)提升潛力。本文提出結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊(structure-enhanced stackable module,SES)。該模塊能通過(guò)局部信息感受全局結(jié)構(gòu)信息來(lái)幫助神經(jīng)網(wǎng)絡(luò)建立目標(biāo)結(jié)構(gòu)特征之間的聯(lián)系,并強(qiáng)化結(jié)構(gòu)信息,以此提煉更加具有區(qū)分性的目標(biāo)結(jié)構(gòu)特征。SES模塊通過(guò)對(duì)通道結(jié)構(gòu)信息的請(qǐng)求向量與響應(yīng)向量的交互建模來(lái)挖掘關(guān)系結(jié)構(gòu)信息,再將結(jié)構(gòu)信息與自身代表向量進(jìn)行交互加強(qiáng)計(jì)算來(lái)強(qiáng)化結(jié)構(gòu)表征特征。最后對(duì)結(jié)構(gòu)表征特征進(jìn)行結(jié)構(gòu)分離卷積來(lái)獲得結(jié)構(gòu)加強(qiáng)因子,對(duì)原始特征進(jìn)行加強(qiáng),結(jié)構(gòu)特征有了更大的影響域,能抑制非結(jié)構(gòu)化的噪音,從而學(xué)習(xí)具備結(jié)構(gòu)加強(qiáng)信息的可區(qū)分性特征。本文通過(guò)大量消融實(shí)驗(yàn)驗(yàn)證了SES模塊尋找可區(qū)分性特征的有效性,并且通過(guò)對(duì)比實(shí)驗(yàn)展現(xiàn)了SES模塊加強(qiáng)的行人重識(shí)別網(wǎng)絡(luò)在Market1501[12],CUHK03[13]數(shù)據(jù)集上具有競(jìng)爭(zhēng)力的表現(xiàn)。
為了提取更具區(qū)分性的特征用于表征行人,本文設(shè)計(jì)了一種利用目標(biāo)結(jié)構(gòu)關(guān)系的結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊能在不同層級(jí)的特征圖中學(xué)習(xí)全局結(jié)構(gòu)信息用于加強(qiáng)行人表征向量,該模塊可輕易堆疊到任何網(wǎng)絡(luò)的特征圖之后用于增強(qiáng)該特征圖的特征表達(dá)。結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊主要由結(jié)構(gòu)增強(qiáng)向量學(xué)習(xí)模塊及結(jié)構(gòu)分離卷積模塊組成。其中,結(jié)構(gòu)增強(qiáng)向量學(xué)習(xí)模塊用于學(xué)習(xí)包含結(jié)構(gòu)注意力的嵌入向量,而結(jié)構(gòu)分離卷積模塊用于學(xué)習(xí)不同結(jié)構(gòu)所得到的結(jié)構(gòu)注意力嵌入向量的特定映射。
強(qiáng)基線網(wǎng)絡(luò)ResNet50具有很好的特征提取能力,在行人重識(shí)別任務(wù)中表現(xiàn)優(yōu)異[10]。本文在ResNet50的基礎(chǔ)上進(jìn)行結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊的研究。ResNet50可分為5個(gè)子模塊,由第一個(gè)低級(jí)特征學(xué)習(xí)模塊及后4個(gè)殘差堆疊模塊構(gòu)成。后4個(gè)殘差堆疊模塊逐級(jí)對(duì)特征進(jìn)行卷積計(jì)算,提取不同層級(jí)的語(yǔ)義特征用于具體圖像處理任務(wù)。分別對(duì)ResNet殘差堆疊模塊添加SES模塊來(lái)強(qiáng)化各層級(jí)特征,以通過(guò)結(jié)構(gòu)增強(qiáng)因子提升網(wǎng)絡(luò)學(xué)習(xí)可區(qū)分性特征的能力。整體網(wǎng)絡(luò)結(jié)構(gòu)(SESNet)如圖2所示,行人圖像經(jīng)過(guò)SES模塊強(qiáng)化的ResNet主干網(wǎng)絡(luò),得到1 024×16×8的特征圖,再經(jīng)過(guò)平均池化得到1 024維特征向量用于表征行人,最后通過(guò)該向量與其他行人表征向量計(jì)算度量距離。
圖2 SESNet整體網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)卷積核與特征圖的卷積計(jì)算學(xué)習(xí)不同層級(jí)的結(jié)構(gòu)特征構(gòu)成特征圖通道,不同的通道表示不同的結(jié)構(gòu)特征信息。文獻(xiàn)[14]通過(guò)神經(jīng)網(wǎng)絡(luò)特征圖的可視化技術(shù),觀察原圖像素在不同層級(jí)特征的影響度。低層模塊經(jīng)歷的卷積計(jì)算較少,負(fù)責(zé)學(xué)習(xí)低等級(jí)的語(yǔ)義結(jié)構(gòu)信息,如顏色、紋路、簡(jiǎn)單形狀信息,不能去除低等級(jí)的圖像噪音。高層模塊通過(guò)卷積計(jì)算的堆疊,從低等級(jí)特征提取更高等級(jí)特征,可得到更加豐富的語(yǔ)義結(jié)構(gòu)信息,比如不同姿態(tài)的手、腿等信息。高等級(jí)信息還能抑制低等級(jí)的環(huán)境信息及噪音。以往行人重識(shí)別研究多通過(guò)實(shí)驗(yàn)研究不同的網(wǎng)絡(luò)結(jié)構(gòu)所帶來(lái)的高等級(jí)信息學(xué)習(xí)能力,來(lái)學(xué)習(xí)強(qiáng)大的行人表征向量,卻極少關(guān)注不同層級(jí)結(jié)構(gòu)特征之間的交互關(guān)系對(duì)最終表征向量學(xué)習(xí)的影響。本文通過(guò)結(jié)構(gòu)增強(qiáng)可堆疊模塊來(lái)加強(qiáng)ResNet50對(duì)不同層級(jí)的結(jié)構(gòu)特征的學(xué)習(xí)能力,該模塊由結(jié)構(gòu)增強(qiáng)向量學(xué)習(xí)模塊及結(jié)構(gòu)分離卷積模塊組成,如圖3所示。
結(jié)構(gòu)增強(qiáng)向量學(xué)習(xí)模塊的輸入為ResNet某層級(jí)的特征圖X∈RC×H×W,該特征圖的各個(gè)通道學(xué)習(xí)到了特定的圖像結(jié)構(gòu)信息,通過(guò)建立不同通道之間的交互聯(lián)系來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)行人圖像結(jié)構(gòu)關(guān)系的挖掘,以強(qiáng)化網(wǎng)絡(luò)對(duì)可區(qū)分性特征的學(xué)習(xí)能力。X經(jīng)過(guò)元素重排(reshape)操作得到X∈RC×(H×W)×1的特征圖Xinput。Xinput經(jīng)過(guò)3次輸入維度為H×W、輸出維度分別為C1、C1、C2的1×1卷積、批量標(biāo)準(zhǔn)化(batch normalization)及ReLU激活函數(shù),進(jìn)一步得到請(qǐng)求(query)張量Q∈RC×C1×1、響應(yīng)(response)張量R∈RC×C1×1和表征自身信息的嵌入(embedding)張量E∈RC×C2×1。請(qǐng)求張量Q為
Q=ReLU(BN(WconvXinput))
(1)
響應(yīng)張量R和嵌入張量E可由式(1)類(lèi)似計(jì)算得出。表征某種結(jié)構(gòu)信息的請(qǐng)求向量qi(qi∈Q)分別與所有響應(yīng)rj(rj∈R)向量做對(duì)應(yīng)元素相乘,再對(duì)其進(jìn)行1×1卷積得到第i個(gè)通道的關(guān)系響應(yīng)向量。為了最大化關(guān)系信息的挖掘潛力,本文考慮表征結(jié)構(gòu)信息的特定通道與其他通道雙向的關(guān)系,即將某通道的主動(dòng)響應(yīng)向量及其被動(dòng)響應(yīng)向量堆疊作為通道i的結(jié)構(gòu)關(guān)系表征向量Si,結(jié)構(gòu)關(guān)系向量S可由式(2)得。
(2)
式中Φ(qi,rj)=Conv (qi×rj),是qi,rj對(duì)應(yīng)元素相乘,Conv是卷積核為1×1的卷積計(jì)算。此時(shí),S是C×(2C)×1維度的張量。S再經(jīng)過(guò)輸入通道為2×C,輸出通道為C2的1×1卷積、批量標(biāo)準(zhǔn)化及ReLU激活函數(shù)得到結(jié)構(gòu)向量。結(jié)構(gòu)向量與嵌入向量E做對(duì)應(yīng)元素相乘,得到強(qiáng)化之后的嵌入向量
E′=(ReLU (BN (WconvS)))×E
(3)
卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大之處在于它能通過(guò)卷積核與特征圖像素進(jìn)行乘加運(yùn)算來(lái)提取對(duì)應(yīng)像素的某種語(yǔ)義特征,并且該特征通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)來(lái)適應(yīng)性調(diào)節(jié)到最適合的抽象特征提取器。如圖4所示,卷積計(jì)算通過(guò)卷積核逐步依次向右、向下移動(dòng)掃描提取原圖的特征得到新的特征圖。該特征圖表示與卷積核存在相似結(jié)構(gòu)的強(qiáng)度。當(dāng)卷積核提取原圖左上角的特征時(shí),該位置特征與卷積核形狀完全一致,得到最大響應(yīng)值3;當(dāng)卷積核提取圖像中間特征時(shí),由于存在相似結(jié)構(gòu),得到響應(yīng)值2;當(dāng)卷積核提取圖像右下角特征時(shí),只有極少部分特征相似,得到響應(yīng)值1;其余位置均不存在相似結(jié)構(gòu),均得到響應(yīng)值0??芍?,卷積計(jì)算用于提取圖像中的某種共性特征以生成表征更高層級(jí)信息的特征圖。實(shí)際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)樣本推理結(jié)果與標(biāo)簽的差異度量進(jìn)行反向傳播,進(jìn)而調(diào)節(jié)卷積核以使卷積核適應(yīng)性學(xué)習(xí)到具體的某種結(jié)構(gòu)信息響應(yīng)圖來(lái)完成對(duì)圖像特征的提取。經(jīng)過(guò)網(wǎng)絡(luò)的學(xué)習(xí)、推理之后,卷積神經(jīng)網(wǎng)絡(luò)每個(gè)通道都存儲(chǔ)了圖像的某種語(yǔ)義結(jié)構(gòu)信息。
圖4 卷積特征提取
由于行人重識(shí)別的輸入圖像都是行人,因此圖像語(yǔ)義都有著相似的結(jié)構(gòu)信息。每張圖的目標(biāo)數(shù)量、目標(biāo)形態(tài)及背景信息都不一樣,目標(biāo)檢測(cè)網(wǎng)絡(luò)每層通道所學(xué)習(xí)到的結(jié)構(gòu)信息存在結(jié)構(gòu)不一致性,是針對(duì)特定圖像的不同結(jié)構(gòu)的響應(yīng)信息。針對(duì)行人重識(shí)別任務(wù)輸入的結(jié)構(gòu)一致性,特征圖每一層的響應(yīng)存在相似性,本文認(rèn)為通道結(jié)構(gòu)信息之間的聯(lián)系存在結(jié)構(gòu)關(guān)系穩(wěn)定性與關(guān)系映射差異性。
結(jié)構(gòu)關(guān)系穩(wěn)定性是指每個(gè)通道與其他通道之間的關(guān)系在輸入不同時(shí)也存在結(jié)構(gòu)關(guān)系穩(wěn)定性。關(guān)系映射差異性是指每個(gè)通道與其他通道的關(guān)系嵌入向量在統(tǒng)一性衡量為強(qiáng)化因子時(shí)存在映射差異性。卷積計(jì)算用于提取特征圖的共性特征,然而本文認(rèn)為結(jié)構(gòu)關(guān)系信息衡量存在差異性?;诖?,設(shè)計(jì)結(jié)構(gòu)分離卷積模塊對(duì)表征各通道特定結(jié)構(gòu)關(guān)系信息的強(qiáng)化嵌入向量E′進(jìn)行分離映射。圖5展示了結(jié)構(gòu)分離卷積模塊結(jié)構(gòu)。針對(duì)C維度的特征圖,采用C個(gè)卷積核Wi,i∈C去分別學(xué)習(xí)每個(gè)通道的強(qiáng)化嵌入向量到注意力強(qiáng)化因子的映射關(guān)系,該映射專屬于某通道中結(jié)構(gòu)關(guān)系信息強(qiáng)化嵌入向量的專屬映射,而不是對(duì)強(qiáng)化嵌入向量進(jìn)行統(tǒng)一性衡量。
(4)
圖5 結(jié)構(gòu)分離卷積
盡管行人重識(shí)別數(shù)據(jù)集中行人類(lèi)別數(shù)確定,針對(duì)數(shù)據(jù)集能使用標(biāo)簽平滑交叉熵?fù)p失[15]滿足訓(xùn)練要求。但行人重識(shí)別任務(wù)往往針對(duì)開(kāi)放世界的行人檢測(cè)任務(wù)。為此,本文使用標(biāo)簽平滑交叉熵?fù)p失(label smoothed cross entropy)聯(lián)和三元組損失(triplet loss)[16]來(lái)訓(xùn)練模型。三元組損失通過(guò)最大間隔因子Margin使表征同目標(biāo)的向量之間的距離更近,表征不同目標(biāo)的向量之間的距離更遠(yuǎn),以此來(lái)強(qiáng)化神經(jīng)網(wǎng)絡(luò)對(duì)區(qū)分性特征向量的學(xué)習(xí)能力。聯(lián)和損失函數(shù)可為:
Lloss=Ltriplet+LLSCE
(5)
Ltriplet=max(d (a,p)-d (a,n)+margin,0)
(6)
(7)
式中,函數(shù)d為距離度量函數(shù)歐氏距離度量;a、p、n分別為查詢、匹配、不匹配圖像表征向量;batch為一次訓(xùn)練的批次;class為數(shù)據(jù)集中包含的行人數(shù);y_pred為網(wǎng)絡(luò)預(yù)測(cè)的二維向量;y_predij為第i個(gè)樣本屬于j類(lèi)的概率;qj為平滑因子;λ為平滑度,取0.1;y_labeli為第i個(gè)樣本所屬類(lèi)別。
為了在訓(xùn)練初期能夠找到合適的搜索空間以保證模型穩(wěn)定性,在訓(xùn)練初期采用warmup[7]的訓(xùn)練方式。隨著批次的增加,學(xué)習(xí)率逐漸進(jìn)行指數(shù)衰減,衰減速率為每50個(gè)對(duì)數(shù)據(jù)集的完整迭代訓(xùn)練衰減為之前的一半。實(shí)驗(yàn)設(shè)置隨機(jī)數(shù)種子,保證初始化參數(shù)一致。實(shí)驗(yàn)結(jié)果為5次實(shí)驗(yàn)取均值所得,盡量排除隨機(jī)性結(jié)果。
為驗(yàn)證重識(shí)別模型的魯棒性,本文在經(jīng)典行人重識(shí)別數(shù)據(jù)集Market1501[12]和CUHK03[13]上對(duì)所提出網(wǎng)絡(luò)結(jié)構(gòu)的區(qū)分性特征學(xué)習(xí)能力進(jìn)行驗(yàn)證。上述2個(gè)經(jīng)典數(shù)據(jù)集都具有不同圖像質(zhì)量的樣本,樣本中行人姿態(tài)多樣、背景多樣、大小不一,很好地反應(yīng)了真實(shí)世界中行人圖像樣本的多樣性。Matket1501數(shù)據(jù)集是由清華大學(xué)在夏天采集。該數(shù)據(jù)集拍攝了1 501位行人,每位行人都被不同的攝像頭拍攝,總計(jì)32 668個(gè)檢測(cè)框?qū)⑿腥丝蜻x標(biāo)識(shí)。該數(shù)據(jù)集訓(xùn)練集包含751位行人共計(jì)12 936張圖像,測(cè)試集包含750位行人共計(jì)19 732張圖像。CUHK03數(shù)據(jù)集是由香港中文大學(xué)在校園采集。該數(shù)據(jù)集分為detected、labeled和testsets數(shù)據(jù)集。其中,detected數(shù)據(jù)集中的行人框是由檢測(cè)器檢測(cè),labeled數(shù)據(jù)集中的行人框是由人工標(biāo)注。實(shí)驗(yàn)在labeled數(shù)據(jù)集(CUHK03L)共計(jì)14 096張行人圖像上進(jìn)行,每位行人都由不同攝像頭拍攝,訓(xùn)練集包含767位行人共計(jì)7 368張圖像,測(cè)試機(jī)包含700位行人共計(jì)6 728張圖像。圖6展示了數(shù)據(jù)集樣例圖。表1展示了Market1501及CUHK03L數(shù)據(jù)集的樣本分布。
圖6 樣例數(shù)據(jù)
表1 Market1501及CUHK03L數(shù)據(jù)集
算法在PyTorch(V1.7.0)深度學(xué)習(xí)框架下實(shí)現(xiàn),操作系統(tǒng)為ubuntu16.04。硬件配置如下:CPU為Intel Core i7-7700 @3.6 GHz×8,GPU為NVIDIA GTX10-80Ti×2,內(nèi)存32 GB。推理批次為64,迭代次數(shù)為500。使用隨機(jī)梯度下降(SGD)優(yōu)化算法進(jìn)行模型訓(xùn)練,基礎(chǔ)學(xué)習(xí)率為0.000 8,并隨具體批次執(zhí)行warmup或者衰減策略進(jìn)行改變。
實(shí)驗(yàn)采用平均精度均值指標(biāo)mAP(mean average precision)及累計(jì)匹配特征指標(biāo)CMC(cumulative matching characteristics)的rank-1等級(jí)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。測(cè)試時(shí)指定測(cè)試集內(nèi)的查詢圖像與候選圖像,對(duì)測(cè)試集所有樣本進(jìn)行特征提取。將查詢圖像特征與所有候選圖像進(jìn)行相似度衡量。累計(jì)匹配特征rank-n指與查詢圖像相似度排名前n的圖像中有正確樣本的準(zhǔn)確率。平均精度均值指計(jì)算所有樣本準(zhǔn)確率(precision)-召回率(recall)曲線下代表類(lèi)別精度均值的面積(average-precision)的均值。準(zhǔn)確率(Pre)及召回率(Rec)為
(8)
(9)
式中:TP代表真正樣本(TruePosition);FP代表假正樣本(FalsePositive);FN代表假負(fù)樣本(FalseNegative)。
本文方法在Market1501及CUHK03L數(shù)據(jù)集上進(jìn)行驗(yàn)證。圖7展示了隨機(jī)樣本的rank-5查詢結(jié)果。藍(lán)色框圖代表查詢圖,紅色實(shí)線框圖代表查詢正確的結(jié)果,黃色虛線框圖代表查詢錯(cuò)誤的結(jié)果。從圖中可以看出,SESNet能準(zhǔn)確找到與查詢圖對(duì)應(yīng)的行人樣本,盡管圖例存在錯(cuò)誤匹配樣本,但該樣本的外觀及姿態(tài)都與查詢圖像極為相似,這也從側(cè)面反映了SESNet查找特征的準(zhǔn)確性及該任務(wù)存在的巨大挑戰(zhàn)。
圖7 SESNet Top-5查詢結(jié)果
本文分別對(duì)SES模塊的2部分子模塊進(jìn)行了消融實(shí)驗(yàn)以驗(yàn)證SES模塊的有效性,并且對(duì)比了強(qiáng)基線(baseline)網(wǎng)絡(luò)ResNet50構(gòu)建的特征學(xué)習(xí)網(wǎng)絡(luò)的性能表現(xiàn)。實(shí)驗(yàn)結(jié)果如表2所示,其中,SES-代表無(wú)結(jié)構(gòu)分離卷積的SES模塊。
表2 SES模塊消融實(shí)驗(yàn)
由表2可知,當(dāng)SES模塊未采用結(jié)構(gòu)分離卷積時(shí),SES-仍通過(guò)結(jié)構(gòu)增強(qiáng)向量模塊及普通1×1卷積成功建立了目標(biāo)結(jié)構(gòu)之間的關(guān)系,使得網(wǎng)絡(luò)學(xué)習(xí)到了注意力加強(qiáng)因子,準(zhǔn)確度得到很大提升。由于SES-沒(méi)有對(duì)不同結(jié)構(gòu)的增強(qiáng)向量進(jìn)行單獨(dú)映射,不能最大程度挖掘結(jié)構(gòu)間的關(guān)系,因此準(zhǔn)確率略遜于SES。對(duì)SES-模塊采用結(jié)構(gòu)分離卷積,即SES模塊,則經(jīng)過(guò)SES模塊對(duì)行人特征結(jié)構(gòu)的增強(qiáng),準(zhǔn)確率再次得到提升。最終,Baseline在CUHK03L數(shù)據(jù)集上mAP提升3.5%,rank-1準(zhǔn)確率提升4.0%。在Market1501數(shù)據(jù)集上mAP準(zhǔn)確率提升4.5%,rank-1提升2.0%。
表3對(duì)比了不同行人重識(shí)別方法在Market1501數(shù)據(jù)集及CUHK03L數(shù)據(jù)集上的表現(xiàn)。對(duì)比基于融合全局特征與局部特征的細(xì)粒度特征方法[11,17,21],SESNet通過(guò)注意力增強(qiáng)因子加強(qiáng)了用于行人重識(shí)別任務(wù)的重要特征,從而不再通過(guò)其他的分支網(wǎng)絡(luò)來(lái)生成局部特征表示,也不會(huì)出現(xiàn)特征不對(duì)齊的問(wèn)題[22]。
表3 SESNet與先前方法在Market1501及CUHK03L的指標(biāo)
對(duì)比其他基于注意力的方法[18-19],SESNet具備更加細(xì)粒度的結(jié)構(gòu)關(guān)系及不同結(jié)構(gòu)特征之間的特定關(guān)系語(yǔ)義。對(duì)比采用二進(jìn)制編碼及自蒸餾模型的方法[20],SESNet采用連續(xù)的數(shù)值編碼來(lái)學(xué)習(xí)行人特征的細(xì)微差異,更利于對(duì)相似行人進(jìn)行判別。因此,SESNet通過(guò)多方面的設(shè)計(jì)改進(jìn),使得網(wǎng)絡(luò)提取的行人表征特征更具備區(qū)分性。
為了進(jìn)一步驗(yàn)證SESNet的特征提取效果,本文使用Grad-CAM[23]可視化方法增強(qiáng)神經(jīng)網(wǎng)絡(luò)的可解釋性,對(duì)基線網(wǎng)絡(luò)ResNet及結(jié)構(gòu)增強(qiáng)注意力網(wǎng)絡(luò)SESNet高層特征圖進(jìn)行了特征可視化。圖8展示了ResNet及SESNet對(duì)樣本特征的感興趣區(qū)域熱圖(heatmap of interest,HOI)。由圖8可見(jiàn),ResNet感興趣區(qū)域隨姿態(tài)變化而變化,且難以理解。然而,即使人物呈現(xiàn)不同的姿態(tài),SESNet仍然能穩(wěn)定注意到區(qū)分性部位,且抑制了不相關(guān)區(qū)域的影響。
圖8 ResNet和SESNet對(duì)樣本特征的感興趣區(qū)域熱圖
為了使神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)到更具備區(qū)分性的表征向量,提出了結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊強(qiáng)化強(qiáng)基線網(wǎng)絡(luò)ResNet50的特征學(xué)習(xí)能力。結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊通過(guò)學(xué)習(xí)更加細(xì)粒度的注意力增強(qiáng)向量強(qiáng)化結(jié)構(gòu)表征向量,并且使用結(jié)構(gòu)分離卷積對(duì)不同的增強(qiáng)結(jié)構(gòu)向量進(jìn)行分離映射,得到結(jié)構(gòu)專屬的增強(qiáng)因子增強(qiáng)ResNet50網(wǎng)絡(luò)學(xué)習(xí)到的不同等級(jí)的特征。通過(guò)大量對(duì)比實(shí)驗(yàn)及神經(jīng)網(wǎng)絡(luò)可視化技術(shù),在行人重識(shí)別通用數(shù)據(jù)集CUHK03L及Market1501上對(duì)結(jié)構(gòu)增強(qiáng)可堆疊注意力模塊的強(qiáng)化特征學(xué)習(xí)能力進(jìn)行了驗(yàn)證,在CUHK03L及Market1501數(shù)據(jù)集上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能表現(xiàn)。最終在CUHK03L數(shù)據(jù)集上達(dá)到了78.0%的平均精度均值及81.3%的rank-1準(zhǔn)確率,在Market1501數(shù)據(jù)集上實(shí)現(xiàn)了88.2%的平均精度均值及96.2%的rank-1準(zhǔn)確率。