融合空間相關(guān)性和局部特征轉(zhuǎn)換器的遮擋行人重識(shí)別

2022-11-23 01:35:32朱松豪趙云斌

南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年5期

朱松豪，趙云斌，焦淼

(1.南京郵電大學(xué)自動(dòng)化學(xué)院、人工智能學(xué)院，江蘇南京 210023 2.山東魯能泰山電纜有限公司特變電工，山東新泰 271219)

行人重識(shí)別旨在連接不同攝像頭中的目標(biāo)行人，廣泛應(yīng)用于安全、監(jiān)控等領(lǐng)域［1］。近年來(lái)，人們已經(jīng)提出了大量解決重識(shí)別問(wèn)題的方法［2－6］。這些方法大多利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人體特征的提取，在公開(kāi)的實(shí)驗(yàn)數(shù)據(jù)集上都取得了很好的識(shí)別效果。具體而言，基于局部分塊的行人重識(shí)別方法，通過(guò)引入圖片切塊、注意力機(jī)制［7］、多分支結(jié)構(gòu)［8］等行人的局部特征，用以提高行人重識(shí)別準(zhǔn)確率；基于細(xì)粒度信息的行人重識(shí)別方法，通過(guò)引入姿態(tài)估計(jì)、關(guān)鍵點(diǎn)模型提取行人的細(xì)粒度特征，從而提升行人重識(shí)別性能；利用對(duì)抗生成式網(wǎng)絡(luò)生成行人圖片，從而補(bǔ)全圖片、豐富訓(xùn)練樣本，提高模型訓(xùn)練效果。然而，現(xiàn)實(shí)生活中經(jīng)常會(huì)遇到諸如物體遮擋、行人圖像不完整、背景雜亂等情形。在這類情形下，大多數(shù)行人重識(shí)別方法則很難獲得令人滿意的識(shí)別精度。

由于卷積神經(jīng)網(wǎng)絡(luò)感受野服從高斯分布［9］，因此，感受野被限制在一個(gè)小區(qū)域內(nèi)。由于行人遮擋、背景信息或其他噪聲的大量存在，使得較小的感受野容易接收錯(cuò)誤的特征信息；同時(shí)，下采樣操作會(huì)降低特征表征的分辨率，從而導(dǎo)致較小感受野識(shí)別遮擋行人的精度下降［10－11］。因此，即使采用特征對(duì)齊方法［12］或引入注意機(jī)制［13－16］，也很難完全解決遮擋行人重識(shí)別問(wèn)題的挑戰(zhàn)。

文獻(xiàn)［17］已經(jīng)證明視覺(jué)轉(zhuǎn)換器模型（Vision Transformer，ViT）可用于圖像分類，其效果不亞于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法。ViT以多頭自注意機(jī)制為核心，摒棄了卷積和下采樣操作［18］。具體來(lái)說(shuō)，ViT首先將原始圖像切割成一系列的圖像塊；然后，將這些圖像塊序列輸入到網(wǎng)絡(luò)中，并對(duì)這些圖像塊序列做分類編碼和位置編碼嵌入；最后，對(duì)這些圖像塊序列做自注意力操作。近年來(lái)，ViT被引入至行人重識(shí)別領(lǐng)域，憑借其捕捉全局特征的能力和更好的自注意機(jī)制，它超越了卷積神經(jīng)網(wǎng)絡(luò)方法，取得了很好的效果。

由于ViT對(duì)長(zhǎng)序列具有良好的長(zhǎng)距離相關(guān)性，因此在行人重識(shí)別方面取得了良好的效果。但是，當(dāng)人物被大面積遮擋或背景與人物特征相似時(shí)，網(wǎng)絡(luò)也容易出現(xiàn)誤判，這是因?yàn)閂iT不善捕捉目標(biāo)的局部特征，因而導(dǎo)致其魯棒性較差［19］。因此，本文在ViT的基礎(chǔ)上提出了擁有3個(gè)模塊的局部特征視覺(jué)轉(zhuǎn)換器模型，用以改善圖像塊序列的短距離相關(guān)性并提取未被遮擋部分的局部特征。從圖1所示的熱力圖可以知道，相較于原始的視覺(jué)轉(zhuǎn)換器模型，本文所提的基于空間相關(guān)性和局部特征視覺(jué)轉(zhuǎn)換器模型更為關(guān)注局部特征，且具有更大的感受范圍。

圖1 基于不同視覺(jué)轉(zhuǎn)換器模型的注意力熱力圖

首先，本文提出了一個(gè)圖像塊序列融合重建模塊。該融合重建模塊首先將非目標(biāo)行人的噪聲圖像塊或背景圖像塊等非主體圖像塊與行人主體圖像塊進(jìn)行融合，用以減少噪聲或遮擋信息對(duì)整個(gè)圖像塊的影響；然后，重構(gòu)整個(gè)圖像塊序列。這樣，重構(gòu)后的圖像塊序列的感受野就可以獲得更多的局部特征，因?yàn)槿诤喜僮饔兄跀U(kuò)大目標(biāo)行人特征在全局特征中的比例。

其次，為了提高網(wǎng)絡(luò)模型在圖像分類領(lǐng)域的泛化性和魯棒性，本文提出了圖像塊序列的空間切割模塊，在視覺(jué)轉(zhuǎn)換器的最后一層對(duì)圖像塊序列切片分組。作為具有圖像塊序列空間相關(guān)性的全局分支，該模塊可以拉長(zhǎng)細(xì)類之間的距離，提高圖像塊序列的空間相關(guān)性，進(jìn)而提高圖像塊序列的短程相關(guān)性，使得網(wǎng)絡(luò)模型更為關(guān)注局部特征，進(jìn)一步提升網(wǎng)絡(luò)模型的泛化能力。

最后，很多學(xué)者都關(guān)注到圖像塊序列在網(wǎng)絡(luò)模型中的流動(dòng)，但卻忽略了圖像塊序列本身的可增強(qiáng)性。因此，本文在圖像塊序列生成階段引入全維度增強(qiáng)編碼。該編碼是一個(gè)可學(xué)習(xí)的張量，可以減少圖像中的噪聲，提取更多被遮擋行人的可辨別特征。因此，全維度增強(qiáng)編碼的引入有助于降低輸入圖像中的噪聲和可辨別特征提取的難度。

本文的主要?jiǎng)?chuàng)新點(diǎn)概括如下：

（1）設(shè)計(jì)了圖像塊序列的圖像塊全維度增強(qiáng)模塊，在合理范圍內(nèi)增加細(xì)類間的距離，豐富訓(xùn)練樣本的多樣性，弱化噪聲信息，突出圖像中的可辨別特征。

（2）提出了圖像塊序列的融合與重構(gòu)模塊，以擴(kuò)大細(xì)類之間特征表示的差異，提高圖像塊序列中目標(biāo)行人可辨別特征的比例，提高目標(biāo)重識(shí)別的精度。

（3）空間切割模塊旨在從空間方向提取圖像塊序列的可區(qū)分特征。此外，該模塊將輸入圖像的空間相關(guān)性整合到圖像塊序列中，用以改善圖像塊序列的短程相關(guān)性，從而使得網(wǎng)絡(luò)模型對(duì)于重識(shí)別目標(biāo)的局部特征信息更為敏感，有助于提取被遮擋人的綜合局部特征，進(jìn)而提高網(wǎng)絡(luò)模型在不同遮擋情況下的泛化性能。

1 相關(guān)工作

大多數(shù)關(guān)于行人重識(shí)別的研究主要依賴于行人的完整形象，較少考慮被遮擋的情況。然而，在現(xiàn)實(shí)生活中，尤其是在擁擠的場(chǎng)景中，完整的行人圖像很難獲得，因此，遮擋情況下的行人重識(shí)別是一個(gè)不容忽視的情況。

現(xiàn)有的用于遮擋行人重識(shí)別的深度學(xué)習(xí)方法主要基于卷積神經(jīng)網(wǎng)絡(luò)。這類方法的主要設(shè)計(jì)思想是特征對(duì)齊或引入高階語(yǔ)義信息（姿態(tài)引導(dǎo)信息），然后通過(guò)關(guān)鍵點(diǎn)估計(jì)模型，對(duì)人體關(guān)鍵點(diǎn)進(jìn)行估計(jì)，最后利用姿態(tài)識(shí)別被遮擋人。文獻(xiàn)［20］提出層聯(lián)合學(xué)習(xí)和嵌入局部特征的姿態(tài)引導(dǎo)信息，并直接預(yù)測(cè)相似性得分，該方法的主要特點(diǎn)是通過(guò)魯棒的圖形軟匹配實(shí)現(xiàn)特征對(duì)齊。文獻(xiàn)［21］提出了一種姿態(tài)引導(dǎo)的部分匹配方法，該方法使用姿態(tài)引導(dǎo)的注意機(jī)制實(shí)現(xiàn)特征表征，并在端到端的框架中引入自挖掘部件的可見(jiàn)性。雖然姿態(tài)引導(dǎo)信息的引入使得模型具有更高的識(shí)別率，但引入的關(guān)鍵點(diǎn)估計(jì)模型使得整個(gè)網(wǎng)絡(luò)模型略顯臃腫，降低了網(wǎng)絡(luò)模型的運(yùn)行速度。

視覺(jué)轉(zhuǎn)換器模型是自然語(yǔ)言處理領(lǐng)域一種常用的模型［22－23］，文獻(xiàn)［24］提出了多頭主動(dòng)注意機(jī)制，完全拋棄了循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)結(jié)構(gòu)，僅將主動(dòng)注意用于機(jī)器翻譯任務(wù)，取得了良好的效果。谷歌將轉(zhuǎn)換器模型引入圖像分類領(lǐng)域，并提出了視覺(jué)轉(zhuǎn)換器模型，將圖像分割成圖像塊序列并輸入轉(zhuǎn)換器編碼器，最大限度地保留了轉(zhuǎn)換器的原始結(jié)構(gòu)，取得了很好的效果。視覺(jué)轉(zhuǎn)換器模塊需要大量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，以獲得類似于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果。因此，文獻(xiàn)［25］提出了Deit框架，并利用師生策略對(duì)問(wèn)題進(jìn)行優(yōu)化。最近，文獻(xiàn)［26］提出了TransReId模型，并將ViT應(yīng)用于行人重識(shí)別領(lǐng)域；同時(shí)，該文獻(xiàn)還提出利用JPM模塊對(duì)網(wǎng)絡(luò)最后一層特征進(jìn)行分類，然后分別計(jì)算它們的損失，進(jìn)一步增強(qiáng) TransReId模型的魯棒性。然而，TransReId模型仍側(cè)重表征全局特征，而局部遮擋特征和短程相關(guān)性的問(wèn)題尚未得到很好的解決。

2 所提方法

為提高局部特征的自動(dòng)調(diào)整能力和增強(qiáng)短程相關(guān)性，本文在圖像塊編碼階段設(shè)計(jì)了一個(gè)圖像塊全維嵌入模塊優(yōu)化圖像塊編碼操作。同時(shí)，本文還提出了圖像塊融合與重構(gòu)模塊和空間切割模塊來(lái)融合局部特征，提取空間方向上特征圖的局部特征，增強(qiáng)了特征學(xué)習(xí)的魯棒性。

2.1 圖像塊全維度增強(qiáng)

本文提出一種可學(xué)習(xí)的全維度編碼用以增強(qiáng)圖像塊序列的表征能力，如圖2所示。給定的輸入圖片x∈RH×W×C，其中 H、W 和C分別表示輸入圖像的高度、寬度和通道尺寸。實(shí)驗(yàn)中圖像大小為256×128，且在嵌入操作之后，將圖像劃分為大小相同的N個(gè)圖像塊。此時(shí)，輸入從batchsize×H×W×C更改為batchsize×N×D，即，將三維圖片轉(zhuǎn)換為二維的序列，只是序列內(nèi)容是圖像塊特征信息。

圖2 本文所提空間相關(guān)性和局部特征轉(zhuǎn)換器框架

由于輸入圖像的分辨率較低，且存在卷積運(yùn)算平移不變性的因素，因此圖像原始語(yǔ)義關(guān)鍵信息出現(xiàn)偏移，從而影響原始輸入圖像的通道信息。因此，本文構(gòu)造了一個(gè)與卷積運(yùn)算后的圖像塊序列大小相同的可學(xué)習(xí)圖像塊增強(qiáng)編碼GLPDE＝N×D，其中的N表示圖像塊的數(shù)量，D為面上每個(gè)圖像塊片的維數(shù)。本文還設(shè)置了一個(gè)初始化學(xué)習(xí)參數(shù)β，用以實(shí)現(xiàn)可學(xué)習(xí)編碼GLPDE針對(duì)不同分類問(wèn)題進(jìn)行微調(diào)。輸入圖像塊序列fin，H和W表示輸入圖像的高度和寬度，P表示每個(gè)圖像塊的邊長(zhǎng)，S表示步長(zhǎng)。利用式（1）將圖像分割為N個(gè)圖像塊。

如圖2所示，輸入圖像經(jīng)過(guò)扁平圖像塊的線性投影后得到圖像塊序列 fin，其中，f1、f2、…、fN分別表示第1個(gè)圖像塊張量到第N個(gè)圖像塊張量；接著，圖像塊全維度增強(qiáng)模塊構(gòu)造出一個(gè)與圖像塊序列fin大小、尺寸完全相同的可學(xué)習(xí)編碼GLPDE；然后，計(jì)算GLPDE和圖像塊序列fin的哈達(dá)瑪乘積（張量中的每個(gè)對(duì)應(yīng)元素相乘），實(shí)現(xiàn)LPDE編碼全維度地嵌入圖像塊序列fin，從而得到如式（2）所示的輸出圖像塊序列fout。

這里，構(gòu)建的可學(xué)習(xí)編碼GLPDE為張量形式，初始值設(shè)為1，且通過(guò)哈達(dá)瑪乘積運(yùn)算嵌入到輸入圖像塊序列中。這樣，可在訓(xùn)練過(guò)程增強(qiáng)輸入圖像塊序列在圖像塊維度方向上的特征表征能力。利用Imagenet大型分類數(shù)據(jù)集獲得的預(yù)訓(xùn)練模型權(quán)重，可以加快本文提出的SCLFT網(wǎng)絡(luò)的收斂速度，而此時(shí)自學(xué)習(xí)編碼LPDE的收斂速度遠(yuǎn)低于SCLFT網(wǎng)絡(luò)的收斂速度，所以，在網(wǎng)絡(luò)性能接近最優(yōu)時(shí)，嵌入到圖像塊序列的LPDE編碼可利用其自學(xué)習(xí)能力優(yōu)化自身參數(shù)，進(jìn)而進(jìn)一步優(yōu)化網(wǎng)絡(luò)整體性能。因此，圖像塊全維度增強(qiáng)模塊不僅不會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生負(fù)影響，反而能在一定范圍內(nèi)提升網(wǎng)絡(luò)性能。由于圖像塊全維度增強(qiáng)模塊位于Transformer編碼器之前，因此，該模塊可優(yōu)化圖像塊序列fout。所以，在輸入圖像的分辨率較低的情況下，該模塊可在訓(xùn)練過(guò)程中隨機(jī)引入額外的特征信息，達(dá)到豐富訓(xùn)練樣本多樣性的目的?？蓪W(xué)習(xí)張量LPDE的自學(xué)習(xí)能力可在訓(xùn)練過(guò)程中提高網(wǎng)絡(luò)的收斂精度，優(yōu)化輸入圖像的特征表示，加強(qiáng)被遮擋目標(biāo)的上下文線索，淡化遮擋信息。

2.2 圖像塊序列融合與重構(gòu)

視覺(jué)轉(zhuǎn)換器模型可以很好地利用全局特征提高目標(biāo)識(shí)別的性能，但對(duì)遮擋行人重識(shí)別而言，關(guān)鍵特征信息的提取通常更多地依賴局部特征。由于在遮擋重識(shí)別任務(wù)中存在大量的背景、遮擋、環(huán)境或其他干擾信息，因此，具有更多遮擋特征信息的圖像塊被認(rèn)為是圖像塊序列中更重要的圖像塊。

圖像塊序列融合與重構(gòu)模塊在如圖3所示的Transformer編碼器之后接入網(wǎng)絡(luò)，此時(shí)經(jīng)過(guò)多頭自注意力編碼的圖像塊序列建立了全局特征聯(lián)系。通過(guò)構(gòu)建全局相關(guān)性和自注意力，從而使網(wǎng)絡(luò)擁有對(duì)行人目標(biāo)的分類能力。但是，通過(guò)計(jì)算圖像塊序列的余弦相似度可以發(fā)現(xiàn)，與被遮擋人相關(guān)的信息主要集中在序列的中間位置，這是因?yàn)殚_(kāi)頭部分和最后一部分的圖像塊與全局圖像塊間的相似度很低。即使偶爾出現(xiàn)高相似度的頻率也很低，這表明這兩部分圖像塊特征與全局可辨別特征的相關(guān)性不高，即這兩部分包含的特征信息均為非可辨別特征，因此，圖像塊序列自身的特征魯棒性仍可提升。為驗(yàn)證及解決這個(gè)問(wèn)題，本文在視覺(jué)轉(zhuǎn)換器模型的最后一層添加圖像塊序列融合與重構(gòu)模塊。具體操作過(guò)程如圖4所示。

圖3 圖像塊序列融合與重構(gòu)示例

圖4 Transformer編碼器結(jié)構(gòu)示意圖

（1）分割。首先，對(duì)圖像塊序列為Zin＝［c；z1；z2；z3；z4；…；zN］進(jìn)行切割，得到分類編碼 class；然后，得到圖像塊序列 F ＝［z1；z2；z3；z4；…；zN］。

（2）分組。將N組圖像塊序列依次劃分為4組長(zhǎng)度相同的子圖像塊序列F1、F2、F3、F4

（3）融合。經(jīng)過(guò)研究發(fā)現(xiàn)雖然圖像塊序列中頭部和尾部的圖像塊具有較低的相關(guān)性和依賴性，但不想完全丟棄這些特征信息，因?yàn)轭^部和尾部的圖像塊有時(shí)也會(huì)包含一些輔助辨別特征（如頭部，帽子，雨傘等），因此通過(guò)融合頭部和尾部圖像塊的特征，并對(duì)其進(jìn)行替換以期獲取更好的表征，從而得到新的頭部和尾部圖像塊FNew1與FNew4：

（4）重構(gòu)。在獲得 FNew1和 FNew4的基礎(chǔ)上，將FNew1、F2、F3、FNew4四個(gè)圖像塊序列與分類編碼按照原始順序拼接成原始大小的圖像塊序列

經(jīng)過(guò)以上一系列操作后，圖像塊序列保留了F2和F3的主體可辨別特征，同時(shí)并未簡(jiǎn)單地直接去除與主體可辨別特征相關(guān)性較小的圖像塊序列F1和F4，而是利用（F1，F(xiàn)2）和（F3，F(xiàn)4）構(gòu)建新的圖像塊序列FNew1和FNew4。 FNew1與FNew4在降低原始F1和F4所占比例的基礎(chǔ)上，分別融合了F2和F3的特征信息，從而構(gòu)建了更加魯棒的特征表征，并有效提高了這4部分圖像塊序列的特征相關(guān)性。因此，相較于原始圖像塊序列，最終拼接生成的圖像塊序列Zout包含更為豐富完整的可辨別特征信息，占比更小的干擾特征信息，更為適合用以解決遮擋行人重識(shí)別問(wèn)題。

2.3 空間切割模塊

視覺(jué)變換器模型主要是從線性角度關(guān)注全局特征，構(gòu)建圖像塊序列從而獲得圖像塊之間的全局相關(guān)性。從圖像處理的角度來(lái)看，一張輸入圖像也可以理解為二維圖像塊序列的組合，因此，圖像塊序列除了上下文線索相關(guān)外也具有空間方向上的相關(guān)性。也就是說(shuō)，不僅是連續(xù)的圖像塊間有著很強(qiáng)的空間相關(guān)性，即使是前后相隔很遠(yuǎn)的圖像塊也可能包含很強(qiáng)的空間相關(guān)性。因此，本文嘗試探索圖像塊序列的空間相關(guān)性，以彌補(bǔ)圖像塊序列的短程相關(guān)性，確保模型感受野更加關(guān)注局部特征。

受文獻(xiàn)［26］的啟發(fā)，本文沿用其在視覺(jué)轉(zhuǎn)換器模塊最后一層派生分支的結(jié)構(gòu)，并引入如圖5所示的本文設(shè)計(jì)的空間切割模塊，以提取圖像塊序列的空間相關(guān)特征。利用圖像塊序列融合與重構(gòu)模塊得到融合了全局特征和局部特征的圖像塊序列Zout，并將其作為空間切割模塊的輸入。由于圖像塊序列是通過(guò)對(duì)輸入圖像進(jìn)行切割并線性投影至二維空間得到的，因此，圖像塊序列中的每一部分仍保留原始三維圖像塊的空間關(guān)系。如圖5所示，從空間方向上切割圖像塊序列，并拼接重組得到包含局部特征的3組圖像塊序列；接下來(lái)，通過(guò)融合整個(gè)圖像塊序列，得到包含全局特征信息的融合特征，這里的融合操作可最大范圍擴(kuò)大相似行人間的細(xì)類距離；然后，計(jì)算3組局部圖像塊序列的特征損失，鎖定遮擋行人可辨別特征，同時(shí)計(jì)算融合特征的損失，用以區(qū)分相似行人的可辨別特征，最后對(duì)這兩類損失加權(quán)得到更加準(zhǔn)確的結(jié)果。

圖5 空間切割模塊結(jié)構(gòu)示意

模塊的具體操作如下：首先，通過(guò)分割操作將包含圖像特征的圖像塊序列與分類編碼分離開(kāi)，然后利用式（3）將圖像塊序列分為長(zhǎng)度相等的4組。

（1）空間切割。將得到的4組圖像塊序列從空間方向切片兩次至相同長(zhǎng)度，這樣，總共生成12組不同的局部圖像塊序列τg；然后，分別給12組圖像塊序列編上對(duì)應(yīng)數(shù)字，如式（6）所示。

（2）空間分組。按照以下原則針對(duì)獲得的12組圖像塊序列進(jìn)行分組：編號(hào)為1、4、7、10的圖像塊拼接成左側(cè)圖像塊序列，編號(hào)為2、5、8、11的圖像塊拼接成中間圖像塊序列，編號(hào)為3、6、9、12的圖像塊拼接成右側(cè)圖像塊序列空間分組。

（3）融合。將最初的4組圖像塊序列的特征融合，得到新的圖像塊序列：融合特征。融合后的融合特征具有全局特征信息；同時(shí)，融合特征拉大了不同目標(biāo)間的距離。

（4）拼接。將初始分割出的類別編碼與左、中、右和融合特征分別拼接，融合特征擁有全局和局部特征（Global and Local Features，GLF）

最后，該模輸出了4個(gè)新的圖像塊序列，即左、中、右和GGLF

3 實(shí)驗(yàn)

針對(duì)提出的基于局部特征視覺(jué)轉(zhuǎn)換器模型的遮擋行人重識(shí)別方法進(jìn)行綜合實(shí)驗(yàn)，以測(cè)試其在遮擋行人重識(shí)別問(wèn)題中增強(qiáng)圖像塊序列的短程相關(guān)性和長(zhǎng)程相關(guān)性的有效性。

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文在5個(gè)公開(kāi)數(shù)據(jù)集上評(píng)估了所提方法的性能，分別是文獻(xiàn)［10］中提到的 Occluded?ReID，文獻(xiàn)［12］中提到的 Occluded?Duke，文獻(xiàn)［27］中提到的Market?1501，文獻(xiàn)［28］中提到的 DukeMTMC?ReID，文獻(xiàn)［11］中提到的 Partial?ReID 和文獻(xiàn)［29］中提到的 Partial?iLIDS。

Occluded?ReID：該數(shù)據(jù)集來(lái)自 200個(gè)行人，其中每個(gè)行人拍攝5張全身圖像以及5張各種遮擋情況的圖像。

Occluded?Duke：該數(shù)據(jù)集是迄今為止最大的遮擋行人重識(shí)別數(shù)據(jù)集，包含15 618個(gè)訓(xùn)練圖像、17 661個(gè)驗(yàn)證圖像以及2 210個(gè)查詢圖像。

Market?1501：該數(shù)據(jù)集共有來(lái)自1 501個(gè)行人的32 668張圖像組，其中包含來(lái)自751個(gè)行人的12 936張圖像的訓(xùn)練集，以及來(lái)自包含750個(gè)行人的19 732張圖像的測(cè)試集。

DukeMTMC?ReID：該數(shù)據(jù)集共有來(lái)自1 812個(gè)行人的36 411張圖像，其中隨機(jī)選取702行人的16 522張圖像作為訓(xùn)練集，以及2 228張驗(yàn)證圖像和17 661張測(cè)試圖像。

Partial?ReID：該數(shù)據(jù)集是第一個(gè)行人重識(shí)別的數(shù)據(jù)集，共有來(lái)自60個(gè)行人的900張圖像，其中每個(gè)行人拍攝5張全身圖像、5張局部圖像和5張遮擋圖像。

Partial?iLIDS：該數(shù)據(jù)集是一個(gè)基于iLIDS的模擬的部分人員的重識(shí)別數(shù)據(jù)集。它總共有476張119人的照片。

3.2 實(shí)驗(yàn)設(shè)置

主干網(wǎng)絡(luò)。本文使用視覺(jué)轉(zhuǎn)換器模型作為基礎(chǔ)主干網(wǎng)絡(luò)：首先，將輸入圖像切割為圖像塊序列；然后，通過(guò)附加類標(biāo)記和位置嵌入進(jìn)行圖像分類；最后，加入本文設(shè)計(jì)的模塊，形成新的視覺(jué)轉(zhuǎn)換器模型結(jié)構(gòu)，本文稱之為局部特征轉(zhuǎn)換器模型。

訓(xùn)練細(xì)節(jié)。通過(guò)pytorch 1.8.1實(shí)現(xiàn)本文的框架網(wǎng)絡(luò)；將輸入圖像統(tǒng)一調(diào)整為256×128，且利用隨機(jī)水平、翻轉(zhuǎn)、填充、隨機(jī)剪切和隨機(jī)擦除等方法對(duì)輸入圖像進(jìn)行增強(qiáng)［30］；批處理大小設(shè)置為48；使用SGD優(yōu)化器，動(dòng)量為0.9，1e－4的權(quán)重衰減，學(xué)習(xí)率初始化為0.008，以余弦優(yōu)化進(jìn)行學(xué)習(xí)率衰減；訓(xùn)練顯卡使用的是英偉達(dá)1080Ti。

評(píng)價(jià)指標(biāo)。使用累積匹配特征（CMC）曲線和平均精度（mAP），評(píng)估不同行人重識(shí)別模型的性能。所有實(shí)驗(yàn)均為單一查詢?cè)O(shè)置下進(jìn)行。

3.3 實(shí)驗(yàn)結(jié)果

Occluded?Duke數(shù)據(jù)集性能驗(yàn)證：表 1給出了Occluded Duke數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。

表1 Occluded?Duke數(shù)據(jù)集上的性能驗(yàn)證 %

本文比較了4種主流的行人重識(shí)別方法。它們是純整體重識(shí) 別方法（PCB［19］、 Part Aligned［31］、Adver occluded［32］）、使用外部或者高階語(yǔ)義信息的遮擋重識(shí)別方法（PGFA［12］、Part Bilinear［33］、 FD?GAN［34］、HONet［35］）、特征部分匹配方法（DSR［29］、SFR［36］、MoS［37］）以及基于視覺(jué)轉(zhuǎn)換器模型的方法?？梢钥闯觯谝曈X(jué)轉(zhuǎn)換器的長(zhǎng)序列行人重識(shí)別本質(zhì)上是基于全局特征相關(guān)性，而圖像塊序列的局部特征相關(guān)性在視覺(jué)轉(zhuǎn)換器網(wǎng)絡(luò)中沒(méi)有得到很好的利用。所以，本文通過(guò)提高長(zhǎng)序列中短序列的相關(guān)性，從而使本文提出的局部特征轉(zhuǎn)換器模型能夠更加關(guān)注局部特征，最后獲得了69.8%的rank?1和60.8%的mAP，這在Occluded?Duke數(shù)據(jù)集上的現(xiàn)有先進(jìn)方法中表現(xiàn)最好。

Occluded?REID 和 Partial－REID 數(shù)據(jù)集性能驗(yàn)證：由于Occluded?REID數(shù)據(jù)集中被遮擋的行人圖像遠(yuǎn)遠(yuǎn)少于Occluded?Duke數(shù)據(jù)集，因此，很多研究人員首先使用market1501數(shù)據(jù)集進(jìn)行模型的預(yù)訓(xùn)練，然后在Occluded?ReID數(shù)據(jù)集上進(jìn)行性能測(cè)試，從而達(dá)到更加收斂的效果。但是，本文選擇直接針對(duì) Occluded?Duke數(shù)據(jù)集進(jìn)行訓(xùn)練，同時(shí)使用Market1501數(shù)據(jù)集作為Partial?REID數(shù)據(jù)集的預(yù)訓(xùn)練集，這是因?yàn)镺ccluded?REID數(shù)據(jù)集更偏向遮擋類型。所以，使用遮擋數(shù)據(jù)集進(jìn)行訓(xùn)練，更容易達(dá)到更好的效果，如表2所示的實(shí)驗(yàn)結(jié)果也驗(yàn)證了這一假設(shè)。

表2 Occluded?REID與Partial－REID數(shù)據(jù)集的性能驗(yàn)證 %

Partial?REID 數(shù)據(jù)集與 Occluded?REID 數(shù)據(jù)集的區(qū)別在于前者更為側(cè)重部分人體的識(shí)別（比如胳膊、上半身、左半身等），很少包含遮擋信息、背景信息或者噪聲信息。Occluded?REID數(shù)據(jù)集與Occluded?Duke數(shù)據(jù)集類似，其圖片包含更多的被遮擋對(duì)象以及其他噪聲信息。從表2可以看出，局部特征視覺(jué)轉(zhuǎn)換器模型SCLFT更適合解決遮擋重識(shí)別問(wèn)題，其mAP遠(yuǎn)高于整體識(shí)別法（PCB）和外部信息法（HOREID）。此外，SCLFT的 rank?1也達(dá)到了目前的最高，比最高方法 HOREID高出了2.7%。SCLFT在Partial?REID數(shù)據(jù)集上也表現(xiàn)出了良好的性能，充分發(fā)揮出視覺(jué)轉(zhuǎn)換器模型的優(yōu)勢(shì)，整體識(shí)別精度高，因此大大提高了mAP。

整體數(shù)據(jù)集的結(jié)果：視覺(jué)轉(zhuǎn)換器展示了其在行人重識(shí)別領(lǐng)域的強(qiáng)大性能。因此，本文希望提出的局部特征轉(zhuǎn)換器不僅能對(duì)遮擋目標(biāo)有很好的性能，而且能在整體數(shù)據(jù)集中也表現(xiàn)出很強(qiáng)的泛化能力和魯棒性，實(shí)驗(yàn)結(jié)果如表3所示。

表3 Market?1501和DukeMTMC數(shù)據(jù)集上的性能驗(yàn)證 %

根據(jù)主干網(wǎng)絡(luò)的不同，將其分為兩類：卷積神經(jīng)網(wǎng)絡(luò)模型（PCB、PGFA、VPM、MGCAN、SPReID、OSNet、HOReID、ISP）和視覺(jué)轉(zhuǎn)換器模型（TransReID、DRL Net）。從表3可以看出，基于視覺(jué)轉(zhuǎn)換器模型的方法更易在整體行人重識(shí)別數(shù)據(jù)集上取得良好效果。本文提出的用于遮擋行人重識(shí)別人的局部特征轉(zhuǎn)換器，在面對(duì)傳統(tǒng)的整體行人重識(shí)別問(wèn)題時(shí)也很有效：Market?1501 數(shù)據(jù)集上的 Rank?1和mAP得分，分別比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)方法HONet提高1.3%和4.1%；與專注于整體行人重識(shí)別的TransReID方法相比，性能接近。以上結(jié)論表明本文提出的局部特征轉(zhuǎn)換器模型，可以處理各類行人重識(shí)別問(wèn)題。

Partial?iLIDS 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果：Partial?iLIDS 基于iLIDS數(shù)據(jù)集，包含由多個(gè)非重疊攝像頭拍攝的119人共238張圖片，并手動(dòng)裁剪其遮擋區(qū)域。由于Partial?iLIDS數(shù)據(jù)集太小，包含的圖片太少，選擇其他主流數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。這里選擇Occluded?Duke數(shù)據(jù)集作訓(xùn)練集，實(shí)驗(yàn)結(jié)果如表4所示。在Partial?iLIDS數(shù)據(jù)集上，本文模型SCLFT達(dá)到了75.2%的Rank?1精度，這一結(jié)果接近目前最先進(jìn)的方法。Baseline僅僅使用ViT作為網(wǎng)絡(luò)結(jié)構(gòu)，也達(dá)到了不錯(cuò)的性能，接近HOReID方法。SCLFT在ViT的基礎(chǔ)上性能有了顯著提高，可以看出，SCLFT針對(duì)遮擋問(wèn)題的性能明顯優(yōu)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和ViT網(wǎng)絡(luò)。

表4 Partial?iLIDS數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比 %

經(jīng)過(guò)thop庫(kù)的代碼計(jì)算分析可知，本文所提的融合空間相關(guān)性和局部特征轉(zhuǎn)換器的遮擋行人重識(shí)別網(wǎng)絡(luò)模型的參數(shù)量為92.7×106，浮點(diǎn)數(shù)計(jì)算量為22.93×109。

3.4 消融學(xué)習(xí)

本節(jié)將研究所提出的局部特征轉(zhuǎn)換器中每個(gè)模塊的有效性，以視覺(jué)轉(zhuǎn)換器為基礎(chǔ)，進(jìn)行了圖像塊全維度增強(qiáng)模塊、圖像塊融合重構(gòu)模塊和空間切割模塊的消融實(shí)驗(yàn)。如表5所示的Occluded?Duke數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果，驗(yàn)證了各模塊在遮擋行人重識(shí)別的有效性。

表5 Occluded?Duke數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果 %

圖像塊全維度增強(qiáng)模塊的有效性：首先，本文在視覺(jué)轉(zhuǎn)換器的基礎(chǔ)上僅添加圖像塊全維度增強(qiáng)模塊。通過(guò)這種方式，該模塊可以最大限度地優(yōu)化視覺(jué)轉(zhuǎn)換網(wǎng)絡(luò)中圖像塊序列的構(gòu)建并提取可辨別特征。此外，通過(guò)深層次嵌入可學(xué)習(xí)張量，可以豐富訓(xùn)練樣本的多樣性，提高數(shù)據(jù)樣本的區(qū)分度，合理范圍內(nèi)拉大不同類別間的距離，防止陷入局部最優(yōu)。如表5的索引2所示，與視覺(jué)轉(zhuǎn)換器網(wǎng)絡(luò)相比，當(dāng)僅使用全維增強(qiáng)模塊時(shí)，Rank?1得分提高了2.2%。這表明圖像塊全維度增強(qiáng)模塊，確實(shí)在具有復(fù)雜特征信息的遮擋問(wèn)題中發(fā)揮了作用。

為了驗(yàn)證圖像塊全維度增強(qiáng)模塊的泛化能力，本文比較了B＋F＋S和B＋F＋S＋P。這兩種網(wǎng)絡(luò)在視覺(jué)轉(zhuǎn)換器的基礎(chǔ)上加入其他兩個(gè)模塊，網(wǎng)絡(luò)中數(shù)據(jù)的流通更加復(fù)雜。對(duì)比表5中的索引4和索引6，可以發(fā)現(xiàn)在索引4的實(shí)驗(yàn)基礎(chǔ)上，加入圖像塊全維度增強(qiáng)模塊后，索引6的Rank?1得分顯著提高了2.5%，換言之，該模塊對(duì)圖像塊序列的增強(qiáng)效果是實(shí)際存在的。在復(fù)雜視覺(jué)轉(zhuǎn)換器和原始視覺(jué)轉(zhuǎn)換器等不同情況下，圖像塊全維度增強(qiáng)模塊都可提高遮擋行人重識(shí)別效率，而不會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生負(fù)面影響，具有良好的泛化性能。

圖像塊融合與重構(gòu)模塊的有效性：圖像塊融合與重構(gòu)模塊側(cè)重于對(duì)圖像塊序列的重建，因此它可以方便添加至視覺(jué)轉(zhuǎn)換器網(wǎng)絡(luò)中。通過(guò)索引2和索引3的比較可知，在添加圖像塊的融合與重構(gòu)模塊后，Rank?1和mAP分別提高了3%和2%。通過(guò)索引5和6的比較可知，在添加空間切割模塊后，圖像塊融合與重構(gòu)模塊的加入仍然顯示了其在解決遮擋信息方面的有效性，且將Rank?1和mAP又分別提高了2%和1.6%。

通過(guò)以上兩組消融實(shí)驗(yàn)結(jié)果可以知道，圖像塊融合與重構(gòu)模塊能夠有效處理遮擋行人重識(shí)別中出現(xiàn)的噪聲信息和遮擋信息。在弱化遮擋特征信息的同時(shí)，它引入的被遮擋目標(biāo)的身體特征增加了可辨別特征信息在整個(gè)新構(gòu)造的特征序列中的比例。也就是，圖像塊序列經(jīng)過(guò)該模塊后，輸出的圖像塊序列中將會(huì)包含更多的與被遮擋人相關(guān)的特征信息，這對(duì)于擅長(zhǎng)整體識(shí)別的ViT網(wǎng)絡(luò)來(lái)說(shuō)，無(wú)疑是有助于進(jìn)一步提升其網(wǎng)絡(luò)性能的。

空間切割模塊的有效性：空間切割模塊可以將輸入圖像的空間相關(guān)性集成到圖像塊序列中，從而提高圖像塊序列的短程相關(guān)性，進(jìn)而增強(qiáng)網(wǎng)絡(luò)提取被遮擋人的局部特征的能力。

在索引 3中，Baseline＋P＋F的 Rank?1達(dá)到64.6%，mAP達(dá)到56.9%。在索引6中，本文在索引3的基礎(chǔ)上增加了空間切割模塊。實(shí)驗(yàn)效果有了很大的提高。Rank?1增加了 5.2%，mAP提升了3.9%。

觀察索引4、5和6這3組實(shí)驗(yàn)，可以發(fā)現(xiàn)，只要增加空間切割模塊，網(wǎng)絡(luò)對(duì)遮擋重識(shí)別的效果就會(huì)產(chǎn)生大幅度提高，這說(shuō)明了卷積神經(jīng)網(wǎng)絡(luò)中的空間相關(guān)性也存在于視覺(jué)轉(zhuǎn)換器的圖像塊序列中。所以利用輸入圖片的空間相關(guān)性，將圖像塊中的部分特征信息提取出來(lái)，做人員損失加權(quán)，可以有效地提高視覺(jué)轉(zhuǎn)換器網(wǎng)絡(luò)對(duì)于局部特征的關(guān)注，在從整體相關(guān)性對(duì)目標(biāo)進(jìn)行識(shí)別分類的時(shí)候，融入的空間相關(guān)性可以拉大相似目標(biāo)間的距離。這對(duì)復(fù)雜的細(xì)類分類問(wèn)題是有效的。

3.5 初始強(qiáng)化系數(shù)分析

本文進(jìn)行了幾組對(duì)比實(shí)驗(yàn)，以評(píng)估初始強(qiáng)化系數(shù)對(duì)全維度增強(qiáng)模塊性能的影響。

首先，將可學(xué)習(xí)增強(qiáng)編碼初始化為高斯分布、均勻分布、拉普拉斯分布和指數(shù)分布。實(shí)驗(yàn)結(jié)果表明，不同的分布會(huì)不同程度地改變圖像的原始特征分布。僅通過(guò)一層圖像塊全維度增強(qiáng)模塊很難將特征偏差校正回原始分布，這將導(dǎo)致網(wǎng)絡(luò)陷入局部?jī)?yōu)化。因此，本文決定將可學(xué)習(xí)圖像塊編碼初始化為全一張量，即一開(kāi)始不調(diào)整圖像特征分布。但是，通過(guò)調(diào)整初始增強(qiáng)系數(shù)β，同樣可以改變網(wǎng)絡(luò)的收斂速度和收斂精度，即不同的初始強(qiáng)化系數(shù)會(huì)影響行人重識(shí)別效果。

如圖6和圖7所示的實(shí)驗(yàn)結(jié)果可以清楚看到，行人重識(shí)別效果隨著初始增強(qiáng)系數(shù)β的變化而變化。只有當(dāng)β為1.0時(shí)，行人重識(shí)別性能達(dá)到最佳，這表明該模塊在一定范圍內(nèi)具有優(yōu)化網(wǎng)絡(luò)的能力。一旦β值取在［0.95～1.05］區(qū)間之外，圖像特征信息就會(huì)發(fā)生較大變化，改變了圖像和圖像塊序列原有的內(nèi)在關(guān)聯(lián)，網(wǎng)絡(luò)的性能就會(huì)出現(xiàn)較大波動(dòng)，模塊就很難發(fā)揮其優(yōu)化能力。

圖6 強(qiáng)化系數(shù)β在occluded?duke數(shù)據(jù)集的mAP

圖7 強(qiáng)化系數(shù)β在occluded?duke數(shù)據(jù)集的rank?1

根據(jù)實(shí)驗(yàn)結(jié)果還可以得到以下結(jié)論：當(dāng)圖像的原始特征分布變化較大時(shí)，局部特征轉(zhuǎn)換器模型SCLFT依舊能夠保持良好的性能，并且Rank?1和mAP都可保持在較高的水平。這充分說(shuō)明了本文提出的局部特征轉(zhuǎn)換器模型和全維度增強(qiáng)模塊對(duì)各種輸入圖像，以及對(duì)于各種情況下的行人重識(shí)別問(wèn)題的有效性。

4 結(jié)束語(yǔ)

本文提出了一種基于空間相關(guān)性和局部特征轉(zhuǎn)換器模型，其中包括本文設(shè)計(jì)的3個(gè)新模塊?？臻g相關(guān)性和局部特征轉(zhuǎn)換器模型中的空間切割模塊可充分利用輸入圖像的空間相關(guān)性，將其融入到圖像塊序列中，從而提高圖像塊序列的短程相關(guān)性，使網(wǎng)絡(luò)模型聚焦被遮擋人的局部可辨別特征。圖像塊序列全維度增強(qiáng)模塊可豐富輸入數(shù)據(jù)的多樣性，優(yōu)化特征圖的分布，從而提高網(wǎng)絡(luò)的泛化能力和魯棒性。圖像塊融合和重構(gòu)模塊則更關(guān)注遮擋問(wèn)題，突出被遮擋人的可區(qū)分特征，淡化整體特征信息里的干擾信息。最后，本文提出的局部特征轉(zhuǎn)換器網(wǎng)絡(luò)模型SCLFT在遮擋、部分和整體行人重識(shí)別數(shù)據(jù)集中都取得了良好的實(shí)驗(yàn)效果。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放