秦昌輝,李小霞,劉曉蓉
(1.西南科技大學(xué) 信息工程學(xué)院,綿陽(yáng) 621010;2.特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,綿陽(yáng) 621010)
行人重識(shí)別[1]是廣泛應(yīng)用于跨攝像頭監(jiān)控系統(tǒng)的圖像檢索技術(shù),其核心內(nèi)容是特征提取和距離度量,已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。由于行人姿態(tài)和視角變化、遮擋、攝像頭拍攝環(huán)境復(fù)雜多變等因素的影響,研究出性能優(yōu)良的行人重識(shí)別方法還是一項(xiàng)巨大的挑戰(zhàn),吸引了眾多研究人員進(jìn)行了大量的研究。
傳統(tǒng)的行人重識(shí)別技術(shù)依靠人工設(shè)計(jì)的特征來(lái)表征行人目標(biāo),包括顏色、紋理、HOG(Histogram of oriented gradient)[2]、SIFT(Scale invariant feature transform)[3]等特征及其它們的組合。然而人工設(shè)計(jì)的特征表征能力有限,難以滿足復(fù)雜監(jiān)控場(chǎng)景的行人重識(shí)別任務(wù)。由于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,能夠自適應(yīng)調(diào)節(jié)不同類別間的分界面,可以通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)出一個(gè)判別性強(qiáng)的特征空間,然后通過(guò)距離度量函數(shù)計(jì)算特征空間中樣本的距離,取得了顯著的效果。文獻(xiàn)[4]提出了一種融合分類與驗(yàn)證任務(wù)的孿生網(wǎng)絡(luò)模型,該模型以圖片對(duì)為輸入,以行人身份和圖片對(duì)中的行人是否為同一身份為監(jiān)督信息,通過(guò)交叉熵?fù)p失和驗(yàn)證損失來(lái)優(yōu)化模型,能夠同時(shí)學(xué)習(xí)出一個(gè)具有判別性的特征空間和相似性度量方法。相較于單一的身份分類模型,該方法充分利用了數(shù)據(jù)集中不同圖片之間的關(guān)系,取得了不錯(cuò)的識(shí)別效果。但是該方法僅使用圖像的一個(gè)全局特征,難以適應(yīng)行人部分遮擋和姿態(tài)變化等情況,因此出現(xiàn)了利用行人身體各個(gè)部位提供的細(xì)粒度信息來(lái)描述行人的方法。文獻(xiàn)[5]引入人體骨骼關(guān)鍵點(diǎn)檢測(cè)方法來(lái)獲得行人身體部位的14個(gè)關(guān)鍵點(diǎn)并劃分行人部位,然后對(duì)整個(gè)行人和各個(gè)部位提取特征,并且在多個(gè)尺度上連接各部位特征,最后融合全局特征和各部位特征。該方法通過(guò)關(guān)鍵點(diǎn)檢測(cè)模型實(shí)現(xiàn)了行人各部位的語(yǔ)義對(duì)齊,但是增加了額外的計(jì)算負(fù)擔(dān)。文獻(xiàn)[6]依據(jù)行人身體的各個(gè)部位具有一致的語(yǔ)義信息,將主干網(wǎng)絡(luò)得到的全局特征水平切分為六個(gè)局部特征,并通過(guò)精細(xì)局部池化(refined part pooling RPP)方法修正統(tǒng)一切分造成的局部區(qū)域內(nèi)語(yǔ)義不一致的問(wèn)題,優(yōu)化六個(gè)局部特征的損失之和得到判別性高的模型。文獻(xiàn)[7]構(gòu)建了一個(gè)包含全局特征分支和特征丟棄分支的模型,該模型通過(guò)隨機(jī)丟棄一個(gè)批次內(nèi)同一區(qū)域的特征能夠加強(qiáng)對(duì)局部區(qū)域顯著特征的學(xué)習(xí),連接兩個(gè)分支的特征可獲得更全面的行人特征表達(dá)。
上述方法都致力于提取全局特征和局部特征來(lái)獲得具有判別性的行人特征表達(dá),但是多數(shù)方法只用了高層特征來(lái)學(xué)習(xí)特征空間,在特征提取過(guò)程中對(duì)不同位置信息的重要程度未作區(qū)分。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)自身的特性,低層卷積學(xué)習(xí)圖像的局部特征,包含較多的細(xì)節(jié)信息,高層卷積學(xué)習(xí)圖像的全局特征,表達(dá)出較強(qiáng)的語(yǔ)義信息。因此這些方法提取的特征會(huì)損失部分細(xì)節(jié)信息,具有判別性的顯著特征得不到加強(qiáng),影響了行人重識(shí)別的精度。
本文提出一種結(jié)合上下文信息和融合表征的行人重識(shí)別方法,該方法使用上下文殘差模塊構(gòu)建主干網(wǎng)絡(luò)提取圖像特征,使特征圖每個(gè)位置的特征與整個(gè)特征圖產(chǎn)生長(zhǎng)距離依賴關(guān)系,擁有全局感受野,提取的特征信息更加充分。主干網(wǎng)絡(luò)提取的高低層特征輸入三個(gè)并行分支進(jìn)行身份識(shí)別和度量學(xué)習(xí),使用Softmax損失、三元組損失和中心損失聯(lián)合優(yōu)化模型,可以獲得一個(gè)類內(nèi)緊致、類間分離的特征空間。模型推理階段將三個(gè)分支歸一化后的特征融合,使用更加豐富的特征來(lái)表征行人,獲得更高的行人重識(shí)別精度。
為了獲得更具判別性的行人特征,本文提出了一種結(jié)合上下文信息和融合表征的行人重識(shí)別方法,其網(wǎng)絡(luò)模型如圖1所示。主干網(wǎng)絡(luò)包括1個(gè)卷積層、1個(gè)池化層和4個(gè)上下文殘差模塊(Context Residual Module,CRM)。CRM_3和CRM_4提取的特征圖分別通過(guò)三條分支網(wǎng)絡(luò)。每條分支網(wǎng)絡(luò)由1個(gè)廣義平均池化(Generalized Mean Pooling,Gempool)層、1個(gè)歸一化模塊(Normalize block)和1個(gè)全連接(Fully Connection,F(xiàn)C)層構(gòu)成。在模型的訓(xùn)練階段,Gempool層提取的特征用于計(jì)算三元組損失和中心損失,全連接層提取的特征用于計(jì)算Softmax損失。在模型的推理階段,以通道堆疊(Concatenate)的方式融合歸一化模塊輸出的低層特征f1和高層特征f2、f3,得到更豐富的特征表達(dá)。
圖1 行人重識(shí)別網(wǎng)絡(luò)模型
上下文信息是圖像中每個(gè)像素與其它像素之間的依賴關(guān)系,有利于更加全面地理解圖片所表達(dá)的場(chǎng)景信息,減輕遮擋對(duì)行人重識(shí)別的影響。在標(biāo)準(zhǔn)的卷積網(wǎng)絡(luò)中,卷積層在較小的鄰域內(nèi)建立像素之間的局部依賴關(guān)系,通過(guò)堆疊卷積層的方式獲得更大范圍內(nèi)的依賴關(guān)系,這種方式會(huì)增加模型的計(jì)算量和優(yōu)化難度。為了避免上述問(wèn)題,本文設(shè)計(jì)了一個(gè)上下文殘差模塊,該模塊利用自注意力機(jī)制學(xué)習(xí)像素的全局注意力權(quán)重,通過(guò)全局注意力權(quán)重對(duì)特征圖加權(quán)求得到全局上下文信息。本文設(shè)計(jì)的上下文殘差模塊如圖2所示,由n個(gè)殘差單元和一個(gè)上下文建模單元串聯(lián)組成,本文主干網(wǎng)絡(luò)中使用了4個(gè)上下文殘差模塊,n的取值依次是3,4,6,3。
圖2 上下文殘差模塊
上下文殘差模塊中的殘差單元結(jié)構(gòu)如圖3所示,輸入特征X一路經(jīng)過(guò)卷積、歸一化和激活層前向傳播得到F(X),另一路通過(guò)恒等映射與F(X)相加,再通過(guò)激活層輸出特征。使用殘差結(jié)構(gòu)可以防止深層網(wǎng)絡(luò)引起的模型性能退化,有利于模型優(yōu)化。
圖3 殘差單元結(jié)構(gòu)
本文使用的上下文建模單元如圖4所示,輸入特征圖經(jīng)過(guò)1×1的卷積變換和Sigmoid函數(shù)激活后學(xué)習(xí)到空間注意力權(quán)重的概率分布,依賴關(guān)系強(qiáng)的位置擁有更高的概率,關(guān)系弱的位置概率低,從而達(dá)到增強(qiáng)有用特征、抑制無(wú)關(guān)特征的目的,輸入特征與概率分布相乘得到空間上下文信息。再經(jīng)過(guò)1×1的卷積、歸一化、Mish激活函數(shù)和1×1的卷積捕獲通道之間的依賴關(guān)系,最終獲得具有全局依賴關(guān)系的上下文信息。其中r是通道壓縮率,本文設(shè)置為8,可以減少模型的參數(shù)量。最后通過(guò)相加的操作將上下文信息聚合到輸入特征的每個(gè)位置。上下文建模單元定義為式(1)所示:
圖4 上下文建模單元
式(1)中i,j,k表示特征圖的空間位置,N是空間位置的總個(gè)數(shù),W1,W2,W3是1×1卷積核的參數(shù),σ是Mish激活函數(shù),X為輸入特征,Z為輸出特征。
為了緩解最大池化或平均池化特征圖造成信息缺失,導(dǎo)致特征的魯棒性和判別性降低的問(wèn)題,本文使用廣義平均池化對(duì)主干網(wǎng)絡(luò)提取的特征圖進(jìn)行池化處理,融合三個(gè)分支網(wǎng)絡(luò)歸一化后的特征f1、f2和f3得到豐富的行人特征表達(dá)。廣義平均池化的輸入為X,輸出為f,計(jì)算公式定義如式(2)所示:
式(2)中K為特征圖通道的維數(shù),Xk是特征圖第k個(gè)通道的特征,pk是池化參數(shù),因?yàn)槭?2)的池化操作可微,所以pk可以通過(guò)學(xué)習(xí)得到。當(dāng)pk趨于無(wú)窮時(shí),式(2)就變化為最大池化,當(dāng)pk=1時(shí),式(2)就變化為平均池化。
在嵌入空間中,Softmax損失主要優(yōu)化圖像對(duì)之間的余弦距離,而三元組損失則是優(yōu)化圖像對(duì)之間的歐式距離,兩種損失函數(shù)組合使用時(shí)優(yōu)化目標(biāo)可能會(huì)出現(xiàn)不一致的現(xiàn)象,導(dǎo)致兩種損失不能同時(shí)收斂,為了解決這個(gè)問(wèn)題,本文設(shè)計(jì)了一個(gè)歸一化模塊將特征向量歸一化到一個(gè)單位超球面附近,使兩種損失函數(shù)能夠向一致的方向收斂,歸一化網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 歸一化網(wǎng)絡(luò)模塊
在模型推理階段以通道堆疊(Concatenate)的方式融合圖1中的f1、f2和f3得到豐富的行人特征,其中f1是低層特征,包含更多的細(xì)節(jié)信息,f2和f3是高層特征,具有更強(qiáng)的語(yǔ)義信息,融合高低層特征來(lái)表征行人可以有效地降低因卷積和池化造成的信息丟失的影響,增強(qiáng)特征的判別性。
為了使模型學(xué)習(xí)到一個(gè)類內(nèi)更緊致、類間更分離的特征空間,增強(qiáng)特征的判別性,本文使用Softmax損失、三元組損失和中心損失聯(lián)合優(yōu)化模型,損失函數(shù)定義如式(3)所示:
總的損失函數(shù)是Softmax損失、三元組損失和中心損失之和,式中i為模型的第i個(gè)分支,總共三個(gè)分支,λ1、λ2和λ3分別是各個(gè)損失的權(quán)重。Softmax損失可以引導(dǎo)模型學(xué)習(xí)到一個(gè)各個(gè)類別之間具有有效分界面的特征空間,具有很好的分類性質(zhì),其定義如式(4)所示:
式(4)中的n為一個(gè)訓(xùn)練批次中的圖片數(shù)量,C為總的類別數(shù),pj為第i張圖片的預(yù)測(cè)概率向量,pi是第i張圖片真實(shí)類別對(duì)應(yīng)的概率值。三元組損失引導(dǎo)模型向增大類間距離、減小類內(nèi)距離的優(yōu)化方向收斂。隨機(jī)選擇P個(gè)身份,每個(gè)身份K個(gè)樣本構(gòu)成一個(gè)訓(xùn)練批次,經(jīng)過(guò)模型提取特征后,使用困難樣本挖掘技術(shù)產(chǎn)生困難三元組計(jì)算損失,α是邊際控制量,三元組損失函數(shù)定義如式(5)所示:
式(5)中α取值為0.3,xa,xp和xn分別是模型提取的錨點(diǎn)、正樣本和負(fù)樣本的特征。為了增強(qiáng)特征的聚類性能,縮小類內(nèi)距離,使用中心損失引導(dǎo)特征向各自的類中心靠攏,中心損失定義如式(6)所示:
式(6)中Cyi是一個(gè)批次內(nèi)第i張圖片對(duì)應(yīng)的類別中心,m是一個(gè)批次中圖片的數(shù)量。
本文實(shí)驗(yàn)使用的計(jì)算平臺(tái)是Windows10操作系統(tǒng),NVIDIA RTX2070 GPU,使用Pytorch深度學(xué)習(xí)框架構(gòu)建模型,Adam優(yōu)化器優(yōu)化模型參數(shù),Adam的初始學(xué)習(xí)率設(shè)置為3.5×10-4,權(quán)重衰減率設(shè)置為5×10-4。在訓(xùn)練模型時(shí),輸入圖片的分辨率設(shè)置為256×128,批次大小為32,其中包含8個(gè)不同的人,每個(gè)人采樣4張圖片,迭代次數(shù)為120。損失函數(shù)的權(quán)重λ1、λ2設(shè)置為1,λ3設(shè)置為0.0005。
本文在Market1501[8]和DukeMTMC-reID[9]兩個(gè)行人重識(shí)別數(shù)據(jù)集上采用首位命中率(Rank-1)和平均準(zhǔn)確度(mean Average Precision mAP)兩個(gè)指標(biāo)衡量本文方法的有效性。Market1501數(shù)據(jù)集包含1501個(gè)身份的32668張行人圖片,采集自清華大學(xué)校園中的6個(gè)相機(jī)。訓(xùn)練集包含751個(gè)身份的12936張圖片,測(cè)試集包含750個(gè)身份的19732張圖片,訓(xùn)練集和測(cè)試集中包含的人身份不同。DukeMTMC-reID數(shù)據(jù)集的圖像采集于杜克大學(xué)校園內(nèi)8個(gè)不同的攝像頭,訓(xùn)練集包含702個(gè)身份的16522張圖像,另外702個(gè)身份的2228張作為檢索圖片,1110個(gè)身份的17661張圖片作為被檢索圖片集。
為了豐富數(shù)據(jù)的多樣性,提高模型的泛化能力,本文使用了數(shù)據(jù)增強(qiáng)策略,包括標(biāo)準(zhǔn)化、隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)擦除,圖6是輸入圖片經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的效果。
圖6 數(shù)據(jù)增強(qiáng)效果
為驗(yàn)證本文方法的有效性,在Market1501和DukeMTMC-reID數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示,其中Base方法是以Resnet50為主干網(wǎng)絡(luò)提取特征,特征經(jīng)過(guò)如圖1所示的三條分支網(wǎng)絡(luò)計(jì)算損失,測(cè)試時(shí)只用f2特征作為行人表征,F(xiàn)是融合f1、f2和f3作為行人表征。由表1中的數(shù)據(jù)分析可知,本文方法在兩個(gè)數(shù)據(jù)集上Rank-1和mAP指標(biāo)均有不同程度的提升,其中上下文殘差模塊CRM的使用對(duì)于mAP的影響十分顯著,在Market1501和DukeMTMC-reID數(shù)據(jù)集上分別提高了1.7%和2.6%,圖像的上下文信息可以有效地提高行人在特征空間中的判別性。
表1 不同方法組合的實(shí)驗(yàn)結(jié)果(%)
表2是本文方法與目前先進(jìn)方法在Market1501和DukeMTMC-reID數(shù)據(jù)集上指標(biāo)的比較。在所對(duì)比的先進(jìn)方法中,本文方法在兩個(gè)數(shù)據(jù)集上均獲得了最高的Rank-1和mAP。在mAP指標(biāo)上取得了更顯著的優(yōu)勢(shì),相較于2019年的BFE方法,在兩個(gè)數(shù)據(jù)集上分別獲得了2.4%和2.8%的提升,驗(yàn)證了本文方法的有效性。
表2 Market1501和DukeMTMC-reID數(shù)據(jù)集上不同算法的指標(biāo)對(duì)比(%)
在實(shí)際應(yīng)用環(huán)境中,卷積神經(jīng)網(wǎng)絡(luò)提取的特征會(huì)因行人圖像存在遮擋、姿態(tài)和視角變化等復(fù)雜因素的影響而降低判別性,針對(duì)此問(wèn)題本文提出一種結(jié)合上下文和融合表征的行人重識(shí)別方法。首先通過(guò)上下文殘差模塊以全局的感受野提取圖像的上下文信息,增強(qiáng)了特征的判別性和魯棒性;然后使用三個(gè)損失函數(shù)聯(lián)合優(yōu)化模型,使模型收斂到一個(gè)類內(nèi)緊致、類間分離的特征空間;最后融合高低層特征表征行人,使行人特征更加豐富。在Market1501和DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法提取到了判別性更強(qiáng)的行人特征,有效地提高了行人重識(shí)別的準(zhǔn)確率。