廖光鍇,張 正,牛一博,宋治國
(1.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南 吉首 416000;2.吉首大學(xué)物理與機(jī)電工程學(xué)院,湖南 吉首416000)
車輛重識別(Vehicle Re-identification)也稱為車輛再識別,是繼行人重識別后的又一個研究熱點(diǎn),屬于圖像檢索的子問題.車輛重識別是指在一個大型圖庫中檢索特定車輛身份的所有圖像,這些圖像由不同方向、不同時間和不同地點(diǎn)拍攝的車輛圖像組成,在智能交通、跨攝像頭跟蹤、城市監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用[1-4].但是由于外界環(huán)境的復(fù)雜性,攝像頭拍攝的圖片會出現(xiàn)低分辨率、任意視點(diǎn)、運(yùn)用模糊、遮擋、光照條件差等問題,使得車輛重識別的準(zhǔn)確率受到了限制[5-10].在實際應(yīng)用中,車輛重識別存在2個主要問題:首先,由于拍攝環(huán)境不同,車輛在運(yùn)動過程中拍攝車輛圖片模糊,多視角等因素導(dǎo)致了同一車輛前后外觀差異很大;其次,由于現(xiàn)在出現(xiàn)了很多的高仿車輛,還有一定的光照、遮擋等問題造成了不同車輛外觀有較大的相似性.解決這2個問題的關(guān)鍵在于提取具有高度辨識力的特征.類比于行人重識別(Person Re-identification),但行人重識別的模型可以學(xué)習(xí)基于服飾和配飾的辨識性特征,還可以按照人的高度劃分頭部、軀干、腿部和腳,來實現(xiàn)檢索行人圖片[11-13].然而,車輛重識別是一個全新的檢索任務(wù),比行人重識別更具有挑戰(zhàn)性.不同的車輛可能有相似的顏色和形狀,尤其是來自同一個制造商的特定型號、裝飾和年份的車輛[14-17].因此,如何有效地提取具有辨識力的局部細(xì)粒度特征成為能否正確識別特定車輛的關(guān)鍵.考慮到在車輛重識別中,大多數(shù)方法都側(cè)重于在單一尺度下提取原始車輛圖像特征,而忽略了不同尺度下各特征的互補(bǔ)性.大尺度下的特征一般包括車輛的顏色、車的外形,通過這些特征能有效地區(qū)分外觀相似性不同的車輛;而小尺度下的特征則屬于局部細(xì)粒度特征,可以用來區(qū)別外觀相似的車輛.因此,在不同的尺度下提取車輛的特征,對于解決車輛外觀相似性模糊問題具有重要意義.針對這個問題,筆者設(shè)計了一種基于多尺度的車輛重識別方法.該方法以ResNet-50網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),使用多尺度階梯網(wǎng)絡(luò)融合不同尺度的特征,在該網(wǎng)絡(luò)中嵌入一種小波空間注意力機(jī)制模塊,不僅能提取車輛圖像的表面、紋理、垂直、水平和對角邊緣特征,減少細(xì)粒度信息缺失,還能通過空間注意力加強(qiáng)任務(wù)相關(guān)特征表達(dá)能力,減弱背景和噪聲影響.
多尺度小波注意力網(wǎng)絡(luò)(Multiscale wavelet attention network,MWAN)由3個部分組成,即ResNet-50[8]骨干網(wǎng)絡(luò)、小波空間注意力模塊和多尺度階梯融合網(wǎng)絡(luò),如圖1所示.考慮到網(wǎng)絡(luò)結(jié)構(gòu)加深,依然能有好的特征表現(xiàn)能力,抑制梯度消失和梯度爆炸問題,MWAN選擇了ResNet-50作為骨干網(wǎng)絡(luò).為了獲得目標(biāo)任務(wù)特征通道權(quán)重,降低無用特征通道權(quán)重,提出的網(wǎng)絡(luò)模型在骨干網(wǎng)絡(luò)中嵌入了通道注意力模塊;多尺度階梯網(wǎng)絡(luò)融合用于提取多尺度圖片特征,該網(wǎng)絡(luò)通過嵌入小波注意力模塊,使得網(wǎng)絡(luò)能夠獲得同一尺度下的不同頻率特征信息;最后再把全局特征F1和多尺度特征F2拼接起來,從而得到整體網(wǎng)絡(luò)特征F.
圖1 MWAN框架
本研究依賴于不同網(wǎng)絡(luò)層所得到的多尺度特征圖來提取車輛特征,多尺度的特征圖包含了淺層屬性和深層語義特征.通過淺層和深層特征的融合,可以使車輛的特征更具有辨識力.在淺層特征圖中,網(wǎng)絡(luò)所提取的使車輛的顏色、車窗、車頂?shù)葴\層屬性.而在深層的特征圖中,網(wǎng)絡(luò)提取的是車輛特征圖的抽象的語義特征.因此,只利用深層特征,會忽視車輛的外觀屬性特征,不利于不同車輛之間的區(qū)分,從而影響車輛重識別的性能.ResNet-50有4個殘差塊,在每一個殘差塊前面加入通道注意力模塊,對每一個通道進(jìn)行差異化處理,可以增大車輛具有辨識力的特征通道權(quán)重,降低無用特征的通道權(quán)重,最終生成4個尺度的特征圖,即C1,C2,C3和C4.在骨干網(wǎng)絡(luò)中,將第4個卷積塊Conv_4步長設(shè)置為1,使C4圖片尺度等于C3圖片尺度,不減小C4尺度,是為了獲得更多深層語義特征.
1.3.1 圖像的小波變換 小波變換具有良好的時頻局部化特性,它可對信號的頻域和時域進(jìn)行局部化分析,在處理信號時很少出現(xiàn)信息的丟失和冗余問題,具有較好的細(xì)節(jié)特征保持能力[18].基于小波函數(shù)的這些優(yōu)點(diǎn),本研究在注意力模型中采用Haar小波作為多尺度階梯網(wǎng)絡(luò)的下采樣部分,MWAN包含4個固定的卷積濾波器,低通濾波器捕捉平滑的表面和紋理,而3個高通濾波器提取到垂直、水平和對角邊緣類信息,即低通濾波器fLL和高通濾波器fLH,fHL,fHH,分別定義為
將圖像I分解成低頻子帶、水平子帶、垂直子帶和對角子帶,即ILL,ILH,IHL和IHH。
在DWT分解過程中,濾波器被視為4個2×2卷積核,其權(quán)值固定,步長為2。DWT分解定義為
ILL=(fLL?I)↓2,ILH=(fLH?I)↓2,
IHL=(fHL?I)↓2,IHH=(fHH?I)↓2,
其中?表示卷積算符,↓2表示因子為2的標(biāo)準(zhǔn)下采樣算子。圖2展示了一層分解后的各分量。
圖2 小波二維分解濾波器
1.3.2 空間注意力機(jī)制模塊 空間注意力機(jī)制是對每個通道特征進(jìn)行平均的一個操作,使主網(wǎng)絡(luò)學(xué)習(xí)到所有通道特征的整體分布。得到整體的平均權(quán)值之后,將該平均權(quán)值共享給特征權(quán)值較弱的區(qū)域,從而增強(qiáng)較弱區(qū)域特征的表示能力.空間注意力模塊[19]通過最大池化(Maxpooling,MAX)和平均池化(Averagepooling,AVG)提取特征,再將2個特征圖拼接在一起,通過卷積來融合特征,得到空間注意力權(quán)重.MWAN結(jié)構(gòu)如圖3所示.
圖3 空間注意力機(jī)制
假定模型的輸入是大小為H×W×C的特征F.首先,對特征F分別進(jìn)行一個列通道維度的平均池化和最大池化,產(chǎn)生2個通道信息,得到2個H×W×1的權(quán)重,并將它們基于通道拼接;然后,對這個特征用一個7×7的卷積核進(jìn)行卷積,得到一個新的特征;最后,對這個新的特征使用sigmoid函數(shù)激活,將空間注意力權(quán)重的范圍映射到[0,1],得到最終的空間注意力權(quán)重M.空間注意力公式為
M(F)=σ(Conv([AvgPool(F),MaxPool(F)]))=σ(Conv([Favg;Fmax])).
1.3.3 小波空間注意力模塊 受到小波變換具有較好的細(xì)節(jié)特征保持能力的啟發(fā),筆者結(jié)合小波變換和空間注意機(jī)制對卷積進(jìn)行擴(kuò)展,設(shè)計了小波空間注意模塊(Spatial Attention Module,SAM),如圖4所示.該模塊不僅提取特征圖的空間信息,還能將空間信息權(quán)重共享到經(jīng)小波變換分解出的特征權(quán)重較弱的區(qū)域.它可以自適應(yīng)地學(xué)習(xí)每個部分的重要性,從而將更多的注意力放在最具有辨識力的語義和位置信息,抑制信息含量較低的部分,可以有效地區(qū)分語義特征的表示.通過訓(xùn)練一個緊湊的注意力模塊來預(yù)測目標(biāo)權(quán)重,使卷積網(wǎng)絡(luò)提取到更具有代表性的特征.
圖4 小波空間注意力模塊
將圖像特征F∈RH×W×C作為網(wǎng)絡(luò)的輸入,其中H,W,C分別表示語義圖的高度、寬度和通道的大小.在小波變換分支中,對語義特征F∈RH×W×C進(jìn)行轉(zhuǎn)換,得到小波特征圖Y∈RH/2×W/2×4C.具體運(yùn)算過程為,先利用小波變換將F分解為4個子帶圖像,DWT(F)=(FLL,FHL,FLH,FHH)∈RH/2×W/2×4C,再將它們拼接在一起,通過1×1卷積和ReLu函數(shù)從DWT(F)中提取到各種頻率特征Y∈RH/2×W/2×4C.在空間注意力分支中,首先進(jìn)行平均池化和最大池化操作,分別得到一個H×W×1的像素權(quán)重,并將它們基于通道拼接;然后通過7×7卷積進(jìn)行特征提取;最后經(jīng)過sigmoid函數(shù),得到空間注意力圖M∈R1×H/2×W/2.小波空間注意力機(jī)制公式如下:
Y=σ(Conv(DWT(F))),
M=σ(Conv([Favg;Fmax])),
P=B⊕σ(Y?M).
為了擴(kuò)展主網(wǎng)絡(luò)的表現(xiàn)能力,筆者設(shè)計了一種新的特征融合網(wǎng)絡(luò)——多尺度階梯融合網(wǎng)絡(luò)(圖1).為了控制計算量和參數(shù)量,在不影響網(wǎng)絡(luò)性能的情況下,引入了InceptionV2模塊[20],對多尺度的細(xì)節(jié)特征進(jìn)行提取,通過融合不同層的尺度信息達(dá)到對特征信息的整合,從而獲得全局上下文特征信息.設(shè)計的多尺度階梯融合網(wǎng)絡(luò)有4層,每層都包含了2個InceptionV2模塊.該網(wǎng)絡(luò)有4條支路,采用從ResNet-50網(wǎng)絡(luò)輸出的4個尺度特征56×56,28×28,14×14,14×14分別作為其網(wǎng)絡(luò)的每條支路輸入.56×56尺度大小特征圖先經(jīng)過一個小波空間注意力模塊,得到4個相同尺度不同頻域信息的特征圖,同時空間注意力將空間信息權(quán)重共享到DWT分解出特征權(quán)重較弱的區(qū)域,從而得到該尺度的增強(qiáng)特征信息,然后通過2個InceptionV2提取該尺度的特征信息.同理,在28×28尺度下,將上一尺度特征與該尺度特征進(jìn)行融合,經(jīng)上面同樣步驟,得到該尺度特征信息.最后將2個14×14尺度與上一層特征融合,經(jīng)過InceptionV2提取特征f1,f1∈R1×1×2 048.本研究中的多尺度階梯融合結(jié)構(gòu),不僅可以增強(qiáng)相同尺度的特征信息,還將不同尺度的語義特征信息進(jìn)行融合提取,從而學(xué)習(xí)到更多的上下文信息,獲得更多具有辨識力的細(xì)粒度特征.InceptionV2網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.
圖5 InceptionV2的網(wǎng)絡(luò)結(jié)構(gòu)
本實驗是在GeForce GTX1080Ti GPU,輸入圖片像素224×224,批大小為32,使用隨機(jī)梯度下降法訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)置為0.001,進(jìn)行110次訓(xùn)練.經(jīng)實驗驗證,λc=λf=1,λ1=0.5.
2.2.1 消融實驗 MWAN在提取特征時融合了全局特征和多尺度特征,其中全局特征是在嵌入了通道注意力機(jī)制下進(jìn)行特征提取,多尺度特征是在小波空間注意力模塊下融合了表面和紋理、垂直、水平、對角邊緣多個局部信息.在第一部分實驗中,主要分析網(wǎng)絡(luò)模型在不同模塊的組合對車輛重識別精度的影響.只包含提取單一的全局特征模型記為Baseline,在MWAN模型的基礎(chǔ)上嵌入通道注意力機(jī)制記為MWAN+CA,嵌入小波空間注意力機(jī)制記為MWAN+DS,MWAN記為MWAN+CA+DS.各模型的精度見表1.
表1 VeRi數(shù)據(jù)集上幾種網(wǎng)絡(luò)結(jié)構(gòu)的消融實驗比較
由表1可知:基準(zhǔn)網(wǎng)絡(luò)單獨(dú)嵌入通道注意力模型和小波空間注意力模型時,相比基準(zhǔn)模型,平均精度均值(mAP)分別提高了3.5%和3.4%,Rank-1分別提高了3%和2.8%;同時增加2個模塊,mAP達(dá)到73.9%,Rank-1達(dá)到94.7%.
2.2.2 對比實驗 為了驗證MWAN的優(yōu)越性,分別在VeRi和VehicleID[19]數(shù)據(jù)集上,將其與近年來的主流模型(LOMO[1],BOW-CN[2],F(xiàn)ACT[9],PROVID[20],MLL+MLSR[21],AAVER[22],QD-DLF[23],MSA[24],DDFL[25],BS[26],SLSR[27])進(jìn)行了比較,表2展示了在VeRi數(shù)據(jù)集上測試的評價指標(biāo)對比結(jié)果.
表2 VeRi數(shù)據(jù)集上多尺度小波注意力網(wǎng)絡(luò)與其他方法的比較結(jié)果
由表2可知,MWAN模型取得比其他大部分模型更高的mAP.其中,LOMO,BOW-CN,F(xiàn)ACT,PROVID,MLL+MLSR和AAVER取得的mAP分別為9.64%,12.20%,18.49%,53.42%,57.03%和58.50%,遠(yuǎn)低于MWAN采用的ResNet-50骨干模型的準(zhǔn)確率72.40%.其中,LOMO,BOW-CN和FACT采用的是手工特征方法,可以看出遠(yuǎn)沒有深度學(xué)習(xí)方法準(zhǔn)確率高.PROVID是一種漸進(jìn)式車輛搜索框架,它融合了傳統(tǒng)手工特征、車牌信息和時空線索,但是提升了基礎(chǔ)網(wǎng)絡(luò)的計算復(fù)雜度.AAVER是一種雙路徑自適應(yīng)注意力模型,包含了全局特征和車輛零件的外觀特征,但生成的關(guān)鍵點(diǎn)信息與真實的多角度下的關(guān)鍵信息還是存在一定差異,效果不是很明顯.QD-DLF是一種將深度語義特征映射壓縮為水平、垂直、對角線和反對角線方向的特征圖,最后歸一化得到多維的特征,但是他忽略了車輛的多屬性特征.MSA是一個多尺度注意力網(wǎng)絡(luò),通過三路徑殘差網(wǎng)絡(luò)來獲得多尺度特征,雖然得到了多尺度特征,但是大大的提高了計算復(fù)雜度.BS用三元損失和交叉熵?fù)p失進(jìn)行聯(lián)合訓(xùn)練網(wǎng)絡(luò),比單個損失函數(shù)訓(xùn)練效果要好,但是整體效果不明顯.
MWAN與LOMO[1],BOW-CN[2],F(xiàn)ACT[9],ResNet[8],EALN[28],SLSR[28],AAVER[22],NuFACT[20],MLL+MLSR[21],QD-DLF[23]在VehicleID車輛數(shù)據(jù)集上測試的評價指標(biāo)對比結(jié)果見表3.
表3 VehicleID數(shù)據(jù)集上多尺度小波注意力網(wǎng)絡(luò)與其他方法的比較結(jié)果
從表3可知,MWAN與其他算法相比,在VehicleID數(shù)據(jù)集中取得了最好的效果.它與LOMO[1],BOW-CN[2],F(xiàn)ACT[9]采用的是手工特征方法比較,不管是在小數(shù)據(jù)集或大數(shù)據(jù)集中都取得非常好的效果,由此可知深度學(xué)習(xí)算法更加適合車輛重識別.MWAN與其他深度學(xué)習(xí)算法的比較中也取得了不錯的效果:與AAVER[22]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的準(zhǔn)確度分別提高了1.11%,4.68%,6.76%;與多尺度算法SLSR[27]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的準(zhǔn)確度分別提高了0.7%,1.5%,1.6%.
2.2.3可視化結(jié)果 如圖6所示,在VeRi數(shù)據(jù)集下,隨機(jī)選取5個不同車輛,其中錯誤的檢索結(jié)果由方框標(biāo)出.
圖6 查詢可視化結(jié)果
由圖6不難發(fā)現(xiàn),MWAN嵌入注意力機(jī)制模塊增強(qiáng)了細(xì)粒度特征提取,進(jìn)一步優(yōu)化了檢索排序結(jié)果,提高了識別準(zhǔn)確性.
為了獲得不同尺度下的車輛圖片特征,常采用雙線插值的方法將車輛圖片轉(zhuǎn)換為不同尺度的大小,再經(jīng)過一個特征提取網(wǎng)絡(luò)來提取各尺度下的圖片特征.但是,雙線性插值法會使圖像的細(xì)節(jié)特征退化,從而影響車輛特征的提取與分析,且多一個特征提取網(wǎng)絡(luò)會增加整個網(wǎng)絡(luò)的計算復(fù)雜度.針對此問題,筆者設(shè)計了一個多尺度階梯融合網(wǎng)絡(luò),來提取不同尺度下的車輛圖片特征,并在該網(wǎng)絡(luò)中嵌入了小波空間注意力機(jī)制來平衡局部特征信息,防止細(xì)節(jié)特征的退化;為了更好地挖掘全局特征信息,在骨干網(wǎng)絡(luò)嵌入了通道注意力機(jī)制;最后,將全局特征信息與多尺度特征信息進(jìn)行結(jié)合,獲得具有辨識力的特征.接下來,需要對車輛的小目標(biāo)檢測作進(jìn)一步研究,小目標(biāo)檢測也是車輛重識別中的一大難點(diǎn).