寇旗旗,黃績(jī),程德強(qiáng),李云龍,張劍英
(1.中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;2.中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇 徐州 221116)
行人重識(shí)別[1-2]任務(wù)的目標(biāo)是在同一區(qū)域內(nèi)的多個(gè)攝像機(jī)視角中識(shí)別并匹配具有相同身份的人,它在智能監(jiān)控系統(tǒng)中發(fā)揮著重要作用。該任務(wù)可以分為有監(jiān)督和無(wú)監(jiān)督2 種情況,近年來(lái),有監(jiān)督重識(shí)別任務(wù)所取得的優(yōu)異成果給學(xué)術(shù)界留下了深刻印象,但由于訓(xùn)練數(shù)據(jù)集包含標(biāo)簽,不僅標(biāo)注成本巨大,而且在實(shí)際測(cè)試時(shí)不具備實(shí)時(shí)獲取目標(biāo)域標(biāo)簽的能力,導(dǎo)致監(jiān)督行人重識(shí)別難以滿足實(shí)際應(yīng)用的需求[3]。此時(shí),無(wú)監(jiān)督訓(xùn)練的優(yōu)勢(shì)便體現(xiàn)出來(lái),利用有標(biāo)簽的源域數(shù)據(jù)集訓(xùn)練出具有較強(qiáng)泛化性的網(wǎng)絡(luò),應(yīng)用于無(wú)行人標(biāo)簽的目標(biāo)域,這類網(wǎng)絡(luò)稱為無(wú)監(jiān)督跨域行人重識(shí)別網(wǎng)絡(luò)。
在網(wǎng)絡(luò)跨域訓(xùn)練過(guò)程中,為了解決標(biāo)簽問(wèn)題,通常采用聚類的方式為行人分配偽標(biāo)簽,節(jié)省了人工標(biāo)注的成本。深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)堆疊卷積層和池化層來(lái)學(xué)習(xí)判別特征,由于輸入行人圖片情況各異,如行人身體錯(cuò)位和區(qū)域比例不一致等,導(dǎo)致識(shí)別的準(zhǔn)確率受影響。其中,身體錯(cuò)位一般有2 種情況:1) 人在行走時(shí)被相機(jī)抓拍導(dǎo)致姿態(tài)不同;2) 由于檢測(cè)不完善,導(dǎo)致同一行人在不同圖像中的身體部位出現(xiàn)區(qū)域比例不一致問(wèn)題。在網(wǎng)絡(luò)對(duì)特征向量進(jìn)行聚類時(shí),上述問(wèn)題產(chǎn)生的噪聲會(huì)直接影響聚類結(jié)果的準(zhǔn)確性。
此外,在域自適應(yīng)過(guò)程中不同數(shù)據(jù)域相機(jī)風(fēng)格或背景風(fēng)格等存在差異性,這種差異性對(duì)網(wǎng)絡(luò)的泛化能力是一種巨大的考驗(yàn)。為了縮小這種差異,目前有2 種主流方法:1) 通過(guò)增強(qiáng)數(shù)據(jù)集或網(wǎng)絡(luò)重新生成數(shù)據(jù)集的方式,加大訓(xùn)練樣本的數(shù)量來(lái)提高網(wǎng)絡(luò)識(shí)別性能[4-5];2) 基于生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)將圖像外觀從源域轉(zhuǎn)換到目標(biāo)域,從而增加2 個(gè)域的相關(guān)性[6-7]。上述針對(duì)數(shù)據(jù)集操作的方法均是對(duì)源域和目標(biāo)域之間相關(guān)性的考慮,目標(biāo)域內(nèi)訓(xùn)練樣本中存在的相似性并未被進(jìn)一步挖掘,且在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中增加了額外計(jì)算成本。
針對(duì)圖像身體錯(cuò)位等因素導(dǎo)致聚類結(jié)果不準(zhǔn)確的問(wèn)題,本文提出一種簡(jiǎn)潔高效的基于語(yǔ)義融合的域內(nèi)相似性分組網(wǎng)絡(luò)。本文的主要貢獻(xiàn)如下。
1) 本文網(wǎng)絡(luò)在Baseline 網(wǎng)絡(luò)的基礎(chǔ)上創(chuàng)新性地添加了兩層語(yǔ)義融合層,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)中間特征圖的細(xì)化處理,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)提取特征的辨識(shí)度,其中,本文提出的語(yǔ)義融合層包含空間語(yǔ)義融合(SSF,spatial semantic fusion)和通道語(yǔ)義融合(CSF,channel semantic fusion)2 個(gè)模塊。
2) 在不增加額外計(jì)算成本的前提下,本文利用域內(nèi)行人的細(xì)粒度相似性特征,將網(wǎng)絡(luò)的輸出特征圖水平分割為兩部分,通過(guò)聚類的方法根據(jù)全局和局部各自的域內(nèi)相似性對(duì)行人進(jìn)行分類,使同一行人被分配多個(gè)偽標(biāo)簽,構(gòu)成新的數(shù)據(jù)集。被分配相同偽標(biāo)簽的不同行人圖片具有許多相似性,通過(guò)新的數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)來(lái)迭代挖掘更精確的行人分類信息。
3) 與近年會(huì)議中提出的算法相比較,本文算法在DukeMTMC-ReID、Market1501和MSMT17這3 個(gè)公共數(shù)據(jù)集上的跨域識(shí)別率得到顯著提升,算法的直接效果通過(guò)熱圖以及檢索排序等方式進(jìn)行展示。
最近,眾多學(xué)者密切關(guān)注跨域行人重識(shí)別算法,利用在源域中訓(xùn)練的重識(shí)別模型以提高對(duì)未標(biāo)記目標(biāo)域行人的識(shí)別性能,跨域行人重識(shí)別也稱作無(wú)監(jiān)督域自適應(yīng)行人重識(shí)別,它解決了不同域間差異性的挑戰(zhàn)。但是,由于源域訓(xùn)練的模型對(duì)目標(biāo)域中特征變化很敏感,在使用預(yù)訓(xùn)練模型適應(yīng)目標(biāo)域時(shí)必須考慮到圖像的變化,當(dāng)前無(wú)監(jiān)督域自適應(yīng)行人重識(shí)別的解決方案可以分為三類:圖像風(fēng)格遷移、中間特征對(duì)齊和基于聚類的方法[8]。
在圖像風(fēng)格遷移方法中使用基于生成對(duì)抗網(wǎng)絡(luò)[9]是當(dāng)下流行的方法。ECN(exemplar-cameraneighborhood)[10]利用遷移學(xué)習(xí)并使用示例記憶最小化目標(biāo)不變性來(lái)學(xué)習(xí)不變特征;多視圖生成網(wǎng)絡(luò)CR-GAN(context rendering GAN)[6]著眼于背景風(fēng)格,通過(guò)掩蓋目標(biāo)域圖像中的行人以保留背景雜波,疊加源域中行人和目標(biāo)域背景作為輸入圖像來(lái)訓(xùn)練模型。但是,GAN的訓(xùn)練過(guò)程復(fù)雜,而且會(huì)引入額外的計(jì)算成本,因此不適用于實(shí)際場(chǎng)景。
中間特征對(duì)齊方法旨在減少域間特征和圖像級(jí)別的差距,假設(shè)源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集共享一個(gè)共同的中間特征空間,該共同中間特征可以用于跨域推斷人員身份。D-MMD 損失(dissimilaritybased maximum mean discrepancy loss)[11]通過(guò)使用小批量來(lái)關(guān)閉成對(duì)距離,實(shí)現(xiàn)特征對(duì)齊;基于補(bǔ)丁的無(wú)監(jiān)督學(xué)習(xí)(PAUL,patch-based unsupervised learning)[12]框架假設(shè)如果兩幅圖像相似,那么圖像間存在相似的局部補(bǔ)??;PAUL[12]并不學(xué)習(xí)圖像全局級(jí)別特征,而是為行人識(shí)別提供局部細(xì)節(jié)級(jí)別特征。
基于聚類的方法通常根據(jù)聚類結(jié)果生成硬偽標(biāo)簽或軟偽標(biāo)簽,然后根據(jù)帶有偽標(biāo)簽的圖像訓(xùn)練模型和交替迭代這2 個(gè)步驟使模型達(dá)到最優(yōu)。深度軟多標(biāo)簽參考學(xué)習(xí)模型MAR[13]根據(jù)特征相似性和分類概率之間的差異挖掘潛在的成對(duì)關(guān)系,然后使用對(duì)比損失加強(qiáng)挖掘的成對(duì)關(guān)系;UDAP(unsupervised domain adaptive person re-identification)[4]計(jì)算重排序的距離后對(duì)目標(biāo)圖像進(jìn)行聚類,然后根據(jù)聚類結(jié)果生成偽標(biāo)簽;SAL(self-supervised agent learning)[14]算法通過(guò)利用一組代理作為橋梁來(lái)減少源域和目標(biāo)域之間的差異。
上述3 種域自適應(yīng)行人重識(shí)別方法在訓(xùn)練時(shí)通過(guò)縮小源域和目標(biāo)域之間的差距從而提高模型的泛化能力,然而忽略了目標(biāo)域內(nèi)同一行人自身存在一定的相似性。利用這一特性,本文對(duì)目標(biāo)域行人特征進(jìn)行上下分塊,聚焦于行人圖像上下部分的非顯著性特征,用聚類的方法將兩部分特征進(jìn)行聚類,為行人共分配3 種偽標(biāo)簽。
針對(duì)公共數(shù)據(jù)集內(nèi)存在的圖像尺寸和人物比例不一致的問(wèn)題,近年已有研究增強(qiáng)對(duì)尺寸和比例變化的特征表示能力。傳統(tǒng)方法一般采用尺寸不變的特征變換,如 SIFT(scale invariant feature transform)[15]和ORB(oriented FAST and rotated BRIEF)[16];對(duì)于卷積神經(jīng)網(wǎng)絡(luò),通過(guò)圖像對(duì)稱、尺度變換和旋轉(zhuǎn)等操作對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。然而,此類方法采用固定尺寸的卷積核進(jìn)行操作,導(dǎo)致其對(duì)于未知的轉(zhuǎn)換任務(wù)存在局限性。此外,一些其他方法自適應(yīng)地從數(shù)據(jù)域中學(xué)習(xí)空間轉(zhuǎn)換:STN(spatial transformer network)[17]通過(guò)全局參數(shù)變換來(lái)扭曲特征圖;DCN(deformable convolutional network)[18]用偏移量增加了卷積中的采樣位置,并通過(guò)端到端的反向傳播來(lái)學(xué)習(xí)偏移量。
上述方法均通過(guò)對(duì)網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)量的訓(xùn)練來(lái)得到圖像變換參數(shù),這對(duì)于數(shù)據(jù)量有限的行人識(shí)別任務(wù)來(lái)說(shuō)并不合適。本文提出的空間語(yǔ)義融合模塊計(jì)算空間語(yǔ)義相似度,對(duì)相同身體部位信息進(jìn)行聚集,無(wú)須進(jìn)行參數(shù)訓(xùn)練。而且,在語(yǔ)義融合層中的通道語(yǔ)義融合模塊通過(guò)建模計(jì)算通道之間存在的相關(guān)性,顯著增強(qiáng)了特征的表示能力。
參照現(xiàn)有的大多數(shù)跨域識(shí)別網(wǎng)絡(luò)在源域數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練的方式,本文利用在ImageNet[19]上預(yù)訓(xùn) 練好的 ResNet50[20]作 為Baseline 網(wǎng)絡(luò)。如圖1 所示,在Baseline 網(wǎng)絡(luò)layer2和layer3后分別添加語(yǔ)義融合層(虛線框內(nèi)2 個(gè)深灰色層)作為主干網(wǎng),為中間特征圖融合更多語(yǔ)義信息。將原網(wǎng)絡(luò)最后的全連接(FC,fully connected)層替換為兩層維度分別為2 048和源域身份數(shù)的全連接層。將網(wǎng)絡(luò)輸出的特征圖F水平切分為上下兩塊Fup和Fdn,由此可以獲取更多的細(xì)粒度特征。分別對(duì)特征圖F、Fup和Fdn進(jìn)行全局平均池化(GAP,global average pooling)操作得到特征向量。然后將不同行人圖像的特征向量分組并分配偽標(biāo)簽。通過(guò)最小化每組偽標(biāo)簽的三元組損失Ltri來(lái)迭代更新模型。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)
語(yǔ)義融合層依次對(duì)空間和通道信息進(jìn)行融合??臻g語(yǔ)義融合模塊根據(jù)輸入行人圖像的姿態(tài)和尺度自適應(yīng)地確定感受野。給定來(lái)自卷積神經(jīng)網(wǎng)絡(luò)的中間特征圖,利用相似特征和相鄰特征之間的高相關(guān)性特點(diǎn),自適應(yīng)地定位各種姿勢(shì)和不同比例的身體部位,以此來(lái)更新特征圖。將更新后的特征圖經(jīng)過(guò)批量歸一化(CBN,batch normalization)層與原特征圖構(gòu)成殘差結(jié)構(gòu),再將結(jié)果進(jìn)行通道語(yǔ)義融合。通道語(yǔ)義融合模塊是通道之間的相關(guān)語(yǔ)義融合,實(shí)現(xiàn)小規(guī)模視覺(jué)線索的保留。圖2 為語(yǔ)義融合層的網(wǎng)絡(luò)結(jié)構(gòu),殘差結(jié)構(gòu)可以使融合層保持良好的性能。
圖2 語(yǔ)義融合層的網(wǎng)絡(luò)結(jié)構(gòu)
2.1.1 空間語(yǔ)義融合模塊
受限于卷積神經(jīng)網(wǎng)絡(luò)的固定網(wǎng)絡(luò)結(jié)構(gòu),卷積層在固定位置對(duì)特征圖進(jìn)行采樣,池化層以固定比例降低空間分辨率。由于特征圖感受野一般為矩形,導(dǎo)致感受野對(duì)行人不同姿態(tài)適應(yīng)性較差。此外,固定大小的感受野對(duì)于不同尺寸的身體部位進(jìn)行編碼是不合適的。為了解決這個(gè)問(wèn)題,本文對(duì)中間特征圖進(jìn)行空間語(yǔ)義融合,通過(guò)建??臻g特征的相互依賴關(guān)系,自適應(yīng)地確定每個(gè)特征的感受野,從而提高特征對(duì)身體姿勢(shì)和比例變化的穩(wěn)健性。
空間語(yǔ)義融合模塊如圖3 所示。假設(shè)給定一個(gè)特征圖F∈RC×H×W,其中C、H和W分別表示通道數(shù)、特征圖高度和寬度。首先,將F重塑為F∈RC×M,其中M為空間特征的數(shù)量(M=H×W);然后,從特征圖的外觀關(guān)系和位置關(guān)系兩方面對(duì)空間特征進(jìn)行依賴性建模,生成語(yǔ)義關(guān)系圖S;最后,融合特征圖F和語(yǔ)義關(guān)系圖S,生成新的融合特征圖。
圖3 空間語(yǔ)義融合模塊
對(duì)于外觀關(guān)系,通過(guò)測(cè)量輸入特征圖中任意兩位置之間的外觀相似性來(lái)生成外觀關(guān)系映射圖。Du等[21]提到在相鄰空間位置的局部特征具有重疊的感受野,所以它們之間有較高的相關(guān)性。因此涉及相鄰位置的感受野可以獲得更精細(xì)的外觀。假設(shè)fi,fj∈RC表示特征圖F中第i個(gè)和第j個(gè)空間位置的特征,分別選取i和j位置周圍大小為E×E的感受野,然后通過(guò)累加相應(yīng)位置特征之間的點(diǎn)積,使用SoftMax 函數(shù)對(duì)F中的所有空間位置進(jìn)行歸一化處理得到外觀相似性,計(jì)算式為
其中,pi,e和pj,e分別表示感受野大小為e的i和j位置上的特征,表示感受野大小為E對(duì)應(yīng)的外觀關(guān)系圖。
根據(jù)式(2)融合不同尺寸E的感受野,得到對(duì)身體部位更穩(wěn)健的關(guān)系圖。SoftMax 函數(shù)可以抑制不同部位較小的相似度,通過(guò)式(2)可以得到外觀關(guān)系圖S1。
其中,G為具有元素乘積的融合函數(shù),Q為不同尺度感受野的數(shù)量。
對(duì)于位置關(guān)系,行人圖像對(duì)應(yīng)于相同的身體部位特征在空間上相近,通過(guò)二維高斯函數(shù)可以計(jì)算空間特征fi和fj之間的位置關(guān)系,即
其中,(xi,yi)和(xj,yj)分別為fi和fj的位置坐標(biāo),(σ1,σ2)為二維高斯函數(shù)的標(biāo)準(zhǔn)差。通過(guò)式(4)規(guī)范化lij,使其關(guān)系值之和為1,記位置關(guān)系圖為S2。
最后,根據(jù)式(5)將外觀關(guān)系圖和位置關(guān)系圖進(jìn)行融合,得到空間語(yǔ)義關(guān)系圖S。
為了在原特征圖內(nèi)融入空間特征,通過(guò)兩者相乘的方式得到融合特征圖Fs,計(jì)算式為
2.1.2 通道語(yǔ)義融合模塊
通常,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)下采樣處理后會(huì)丟失很多細(xì)節(jié)信息,然而這些細(xì)粒度信息對(duì)于行人的區(qū)分往往起到重要的作用,比如在困難樣本對(duì)中,通過(guò)利用衣服紋理或背包等細(xì)節(jié)信息,可以區(qū)分2 個(gè)不同的身份。根據(jù)Zhang 等[22]提到的大多數(shù)高級(jí)特征的通道圖對(duì)特定部分會(huì)表現(xiàn)出不同反應(yīng),融合不同通道中的相似特征,也可以增強(qiáng)行人獨(dú)有的特征。
通道語(yǔ)義融合模塊如圖4 所示。同空間語(yǔ)義融合一樣,重塑特征圖為F∈RC×M,將得到的F和自身轉(zhuǎn)置矩陣FT相乘,并將結(jié)果進(jìn)行歸一化處理得到通道關(guān)系圖C∈RC×C,計(jì)算式為
圖4 通道語(yǔ)義融合模塊
其中,fm和fn分別表示F的第m和第n通道中的特征。通過(guò)式(8)將通道關(guān)系圖和原特征圖進(jìn)行融合得到新的融合特征圖Fc。
受到Wang 等[23]提出的監(jiān)督訓(xùn)練分割方法的啟發(fā),即從細(xì)粒度中可以提取出更多有用的信息??紤]到目標(biāo)數(shù)據(jù)集中行人特征從全局到局部存在潛在的相似性,本文利用密度聚類方法[24]對(duì)全局和局部特征進(jìn)行聚類,結(jié)合這兩部分信息能夠獲得更穩(wěn)健和有辨識(shí)度的行人特征表示。網(wǎng)絡(luò)中語(yǔ)義融合層很大程度降低了可能因數(shù)據(jù)集產(chǎn)生的聚類噪音。
對(duì)于式(9)中的每組特征向量,利用密度聚類算法得到相應(yīng)的偽標(biāo)簽組,即每個(gè)身份根據(jù)它所屬的組分配一個(gè)偽標(biāo)簽。經(jīng)過(guò)主干網(wǎng)后,每張圖像xi對(duì)應(yīng)3 個(gè)偽標(biāo)簽,分別表示為因此,可以基于3 個(gè)特征向量分組結(jié)果組成一個(gè)有標(biāo)簽的數(shù)據(jù)集X,如式(10)所示。此外,如圖1 所示,特征向量fi通過(guò)一個(gè)維度為2 048的全連接層,旨在獲取一個(gè)全局嵌入向量其偽標(biāo)簽與特征向量fi共享。
為了學(xué)習(xí)到更具判別力的特征,本文在預(yù)訓(xùn)練網(wǎng)絡(luò)損失函數(shù)上聯(lián)合使用難樣本挖掘的三元組損失和SoftMax 交叉熵?fù)p失。為每個(gè)小批量隨機(jī)采樣P個(gè)身份和K個(gè)實(shí)例,以滿足難樣本三元組損失的要求。三元組損失函數(shù)為
對(duì)于Baseline 網(wǎng)絡(luò)的訓(xùn)練,利用SoftMax 交叉熵?fù)p失提高網(wǎng)絡(luò)判別學(xué)習(xí)能力,其計(jì)算式為
其中,ya,i為第i個(gè)身份的K張圖像中第a張圖像的真實(shí)標(biāo)簽,H為身份的數(shù)量。通過(guò)式(13)將2 種損失函數(shù)進(jìn)行組合,從而實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)的更新。
對(duì)于域遷移網(wǎng)絡(luò)的訓(xùn)練,目標(biāo)域圖片輸入網(wǎng)絡(luò)后,將聚類生成的偽標(biāo)簽作為監(jiān)督信息,使用三元組損失對(duì)預(yù)訓(xùn)練模型進(jìn)行跨域自適應(yīng)微調(diào)。損失函數(shù)包含全局、上分塊、下分塊、全局嵌入4 個(gè)部分,計(jì)算式為
實(shí)驗(yàn)主要在3 個(gè)行人數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)估,包括Market1501[25]、DukeMTMC-ReID[26]和MSMT17[27]。
Market1501[25]數(shù)據(jù)集圖像由6 臺(tái)相機(jī)捕捉,共包含身份1501 個(gè),總圖像數(shù)量達(dá)到32 668 張。其中,訓(xùn)練集身份有751 個(gè),圖像有12 936 張;query 圖像共有3 368 張,身份有750 個(gè);gallery 圖像共有15 913張;身份有751 個(gè)。
DukeMTMC-ReID[26]數(shù)據(jù)集是由8 臺(tái)相機(jī)捕捉的包含1 812 個(gè)不同行人的重識(shí)別公開數(shù)據(jù)集,其中有1 404 個(gè)身份同時(shí)出現(xiàn)在2 臺(tái)及以上的相機(jī)中,其余408 個(gè)身份用作干擾項(xiàng)。數(shù)據(jù)集包含訓(xùn)練集圖像共有16 522 張,身份有702 個(gè);query 圖像共有2 228 張,身份有702 個(gè);gallery 圖像共有17 661 張,身份有1 110 個(gè)。
MSMT17[27]數(shù)據(jù)集是一個(gè)接近真實(shí)場(chǎng)景的大型數(shù)據(jù)集,由15 個(gè)相機(jī)捕捉圖像共有126 441 張,身份有4 101 個(gè)。其中訓(xùn)練集圖像有30 248 張,身份有1 041 個(gè);query 圖像有11 659 張,身份3 060 個(gè);gallery 圖像共有82 161 張,身份有3 060 個(gè)。
如第1 節(jié)所述,首先對(duì)Baseline 用源域數(shù)據(jù)集進(jìn)行訓(xùn)練,采用Zhong 等[32]使用的方法進(jìn)行訓(xùn)練。將輸入圖片的大小調(diào)整為256×128,采用隨機(jī)裁剪、翻轉(zhuǎn)和隨機(jī)擦除對(duì)數(shù)據(jù)進(jìn)行增強(qiáng);為滿足難樣本三元組損失的要求,將每個(gè)mini-batch 用隨機(jī)選擇的P=16個(gè)身份進(jìn)行采樣,并從訓(xùn)練集中為每個(gè)身份隨機(jī)采樣K=8張圖片,得到mini-batch 為128 張,將三元組損失的邊緣參數(shù)α設(shè)置為0.5??臻g語(yǔ)義融合模塊中感受野的數(shù)量Q設(shè)置為3(如式(2))。由于ResNet[20]不同階段特征圖空間大小不同,因此本文采用不同的標(biāo)準(zhǔn)差(如式(3)),添加到layer2后的語(yǔ)義融合層σ1和σ2設(shè)置為10和20,添加到layer3后的語(yǔ)義融合層σ1和σ2設(shè)置為5和10。在訓(xùn)練中使用權(quán)重衰減為0.000 5的Adam[33]優(yōu)化器來(lái)優(yōu)化70個(gè)epoch的參數(shù)。初始學(xué)習(xí)率設(shè)置為 6 × 10?5,在7個(gè)epoch 后將學(xué)習(xí)率調(diào)整為 1.8 × 10?5,再經(jīng)過(guò)7 個(gè)epoch 學(xué)習(xí)率調(diào)整為 1.8 × 10?6,一直訓(xùn)練到結(jié)束。
在3 個(gè)公共數(shù)據(jù)集上,將本文算法與近年頂級(jí)會(huì)議文章所提出的算法進(jìn)行比較。將行人重識(shí)別任務(wù)通用的累積匹配特性中的Rank 識(shí)別準(zhǔn)確率(R-1、R-5、R-10)和均值平均精度(mAP,mean average precision)作為評(píng)價(jià)指標(biāo),評(píng)價(jià)模型在數(shù)據(jù)集上的性能。比較結(jié)果如表1和表2 所示,所有數(shù)據(jù)均不經(jīng)過(guò)重排序處理。
表1 不同算法在DukeMTMC-ReID和Market1501的實(shí)驗(yàn)結(jié)果
表2 不同算法在MSMT17的實(shí)驗(yàn)結(jié)果
不同算法在MSMT17的實(shí)驗(yàn)結(jié)果如表1 所示,包括8 種通過(guò)聚類形成偽標(biāo)簽的算法UDAP[4]、MAR[13]、ECN[10]、CDS[29]、UCDA[5]、SAL[14]、DCJ[31]和NSSA[30];2 種通過(guò)域風(fēng)格遷移的算法CR-GAN[6]和PDA-Net[7];3種特征對(duì)齊算法ARN[28]、D-MMD[11]和PAUL[12]。其中,CR-GAN[6]在DukeMTMC-ReID泛化到Market1501的mAP和R-1 表現(xiàn)最好,本文算法在網(wǎng)絡(luò)復(fù)雜度上遠(yuǎn)低于CR-GAN[6],而且mAP提高2.3%,R-1 提高0.9%。在數(shù)據(jù)集Market1501泛化到DukeMTMC-ReID的結(jié)果中,本文算法表現(xiàn)更好,和上述算法中表現(xiàn)最好的DCJ[31]相比mAP 提高了1.5%,R-1 提高了3.4%。
表2為DukeMTMC-ReID和Market1501 分別泛化到MSMT17的實(shí)驗(yàn)結(jié)果。MSMT17 數(shù)據(jù)集包含的身份更多且攝像頭視角更多,數(shù)據(jù)集包含較多存在身體錯(cuò)位和遮擋等問(wèn)題的圖片,更接近現(xiàn)實(shí)場(chǎng)景,難度較大。與表2 中性能最優(yōu)的MMCL[35]算法相比,本文算法在DukeMTMC→MSMT17 上mAP提高 1.2%,R-1 提高 1.7%;在 Market1501→MSMT17 上mAP 提高0.8%,R-1 提高1.4%。
本節(jié)首先將模型在DukeMTMC-ReID 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在Market1501 數(shù)據(jù)集上進(jìn)行消融研究,最后通過(guò)實(shí)驗(yàn)分別驗(yàn)證語(yǔ)義融合層中各部分和特征細(xì)粒度分塊的有效性。
在添加的語(yǔ)義融合層內(nèi),空間語(yǔ)義融合模塊中感受野尺寸E(如式(1))的選擇對(duì)識(shí)別準(zhǔn)確率有較大影響。如表3 所示,不同尺寸E的感受野較Baseline 識(shí)別準(zhǔn)確率均有所提高,但當(dāng)E進(jìn)一步增大到5 時(shí),準(zhǔn)確率開始下降。感受野的不斷增大會(huì)忽略一些關(guān)鍵身份信息。本文在式(2)中對(duì)不同感受野對(duì)應(yīng)的關(guān)系圖進(jìn)行融合時(shí),選取感受野數(shù)量Q=3得到最優(yōu)的實(shí)驗(yàn)結(jié)果。
表3 不同感受野尺寸E的感受野對(duì)實(shí)驗(yàn)結(jié)果的影響
對(duì)于融合函數(shù)G的選取,本文實(shí)驗(yàn)將逐元素求最大值、累加以及相乘3 種函數(shù)作比較,實(shí)驗(yàn)數(shù)據(jù)如表4 所示。在Q=3的情況下,融合函數(shù)對(duì)經(jīng)過(guò)尺度分別為1、2、3的感受野所獲得的外觀相似圖進(jìn)行融合,從表4 中可知,對(duì)應(yīng)位置逐元素求最大值、累加和相乘的融合函數(shù)較Baseline 網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率均有所提升,其中逐元素相乘的融合函數(shù)對(duì)結(jié)果提升最為顯著。
表4 融合函數(shù)G 對(duì)實(shí)驗(yàn)結(jié)果的影響
對(duì)于網(wǎng)絡(luò)的整體結(jié)構(gòu),本節(jié)分別對(duì)語(yǔ)義融合層中空間語(yǔ)義融合和通道語(yǔ)義融合模塊進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。通過(guò)分析,Baseline 網(wǎng)絡(luò)分別添加空間語(yǔ)義融合和通道語(yǔ)義融合模塊對(duì)識(shí)別準(zhǔn)確率均有所提升。將二者按先空間后通道的方式串聯(lián)到一起,組合成語(yǔ)義融合層添加到Baseline 網(wǎng)絡(luò)中,對(duì)識(shí)別準(zhǔn)確率的提升最大:mAP 提高4%,R-1 提高3.1%。由此可見,添加語(yǔ)義融合層可以獲取更多有效的行人特征信息,從而提高識(shí)別準(zhǔn)確率。
表5 不同語(yǔ)義模塊對(duì)實(shí)驗(yàn)結(jié)果的影響
對(duì)于網(wǎng)絡(luò)輸出特征圖,本節(jié)在水平分塊的數(shù)目上進(jìn)行了消融實(shí)驗(yàn)。通過(guò)表6 可知,將網(wǎng)絡(luò)輸出特征圖分為上下兩部分能得到最佳識(shí)別準(zhǔn)確率。通過(guò)分析可知,當(dāng)不進(jìn)行分塊時(shí),特征圖丟失了有用的細(xì)粒度信息;當(dāng)分塊較多時(shí),由于數(shù)據(jù)集圖像內(nèi)存在一些身體錯(cuò)位和被遮擋的圖像,導(dǎo)致在經(jīng)過(guò)密度聚類時(shí)會(huì)產(chǎn)生較多噪聲信息和較差的相似性挖掘以及匹配。因此,本文對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)時(shí)將分塊數(shù)確定為2。
表6 不同分塊數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
為了更直觀地體現(xiàn)網(wǎng)絡(luò)在Baseline 上的改進(jìn),本節(jié)使用DukeMTMC-ReID 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,使用Market1501 數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,使用熱圖[36]和檢索排序?qū)?shí)驗(yàn)結(jié)果進(jìn)行可視化分析。
熱圖共有4 組圖片,如圖5 所示。每組圖中,第一張圖像為Market1501 數(shù)據(jù)集行人圖片,第二張為經(jīng)過(guò)Baseline 網(wǎng)絡(luò)的熱圖,第三張為經(jīng)過(guò)本文網(wǎng)絡(luò)的熱圖。從圖5 中可以看出,Baseline 網(wǎng)絡(luò)由于固定感受野,所以只關(guān)注行人的局部信息,當(dāng)圖像整體色調(diào)相近時(shí)(如圖5(a)所示),Baseline 網(wǎng)絡(luò)對(duì)行人的關(guān)注會(huì)被背景所干擾,本文方法將不同尺寸的感受野進(jìn)行融合,實(shí)現(xiàn)了更關(guān)注行人主體的效果;當(dāng)背景較為復(fù)雜時(shí)(如圖5(d)所示),Baseline網(wǎng)絡(luò)的關(guān)注完全偏離了人物,而本文的改進(jìn)網(wǎng)絡(luò)表現(xiàn)依舊穩(wěn)定。
圖5 熱圖
圖6 分別展示了Baseline 網(wǎng)絡(luò)和本文網(wǎng)絡(luò)在Market1501 數(shù)據(jù)集上識(shí)別實(shí)例的檢索排序結(jié)果。每張行人圖像上方的“√”和“×”分別表示查詢結(jié)果的正確與否。可以看到經(jīng)過(guò)本文網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果在R-1、R-5 上的識(shí)別準(zhǔn)確率都較高且穩(wěn)定。其中,第二組行人的衣著相似難以辨認(rèn),Baseline 網(wǎng)絡(luò)在第二位置識(shí)別錯(cuò)誤的行人圖像在本文網(wǎng)絡(luò)的識(shí)別結(jié)果排序中排第八位,且本文網(wǎng)絡(luò)未出現(xiàn)其他識(shí)別錯(cuò)誤圖像。由此可見,在面對(duì)特征相似的行人圖像時(shí),本文網(wǎng)絡(luò)依舊可以得到很好的識(shí)別效果。
圖6 檢索排序結(jié)果
本文提出了一種基于語(yǔ)義融合的域內(nèi)相似性分組網(wǎng)絡(luò)。語(yǔ)義融合層對(duì)于行人圖片自適應(yīng)生成不同尺度的感受野,增強(qiáng)了空間特征之間的相互依賴關(guān)系,通過(guò)融合通道信息進(jìn)一步提高了網(wǎng)絡(luò)的表示能力。實(shí)驗(yàn)結(jié)果表明,相比于未添加語(yǔ)義融合層前的網(wǎng)絡(luò),本文網(wǎng)絡(luò)的mAP 提高4.0%。此外,本文提出的網(wǎng)絡(luò)采用分塊的方式對(duì)目標(biāo)域內(nèi)細(xì)粒度相似性信息進(jìn)行挖掘,得到更精確的行人分類信息。實(shí)驗(yàn)數(shù)據(jù)表明,分塊聚類相比于未進(jìn)行分塊處理的網(wǎng)絡(luò)mAP 提高5.0%。為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)在現(xiàn)實(shí)環(huán)境中的泛化性,在后續(xù)的工作中本文將采用不同光照和塵霧環(huán)境的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。對(duì)于行人被遮擋的情況,本文會(huì)為網(wǎng)絡(luò)添加行人遮擋模塊使網(wǎng)絡(luò)具備一定的抗遮擋能力。