亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度和小波空間注意力的車輛重識別*

        2021-03-04 08:27:40廖光鍇牛一博宋治國
        關(guān)鍵詞:尺度注意力卷積

        廖光鍇,張 正,牛一博,宋治國

        (1.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南 吉首 416000;2.吉首大學(xué)物理與機(jī)電工程學(xué)院,湖南 吉首416000)

        車輛重識別(Vehicle Re-identification)也稱為車輛再識別,是繼行人重識別后的又一個研究熱點(diǎn),屬于圖像檢索的子問題.車輛重識別是指在一個大型圖庫中檢索特定車輛身份的所有圖像,這些圖像由不同方向、不同時間和不同地點(diǎn)拍攝的車輛圖像組成,在智能交通、跨攝像頭跟蹤、城市監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用[1-4].但是由于外界環(huán)境的復(fù)雜性,攝像頭拍攝的圖片會出現(xiàn)低分辨率、任意視點(diǎn)、運(yùn)用模糊、遮擋、光照條件差等問題,使得車輛重識別的準(zhǔn)確率受到了限制[5-10].在實際應(yīng)用中,車輛重識別存在2個主要問題:首先,由于拍攝環(huán)境不同,車輛在運(yùn)動過程中拍攝車輛圖片模糊,多視角等因素導(dǎo)致了同一車輛前后外觀差異很大;其次,由于現(xiàn)在出現(xiàn)了很多的高仿車輛,還有一定的光照、遮擋等問題造成了不同車輛外觀有較大的相似性.解決這2個問題的關(guān)鍵在于提取具有高度辨識力的特征.類比于行人重識別(Person Re-identification),但行人重識別的模型可以學(xué)習(xí)基于服飾和配飾的辨識性特征,還可以按照人的高度劃分頭部、軀干、腿部和腳,來實現(xiàn)檢索行人圖片[11-13].然而,車輛重識別是一個全新的檢索任務(wù),比行人重識別更具有挑戰(zhàn)性.不同的車輛可能有相似的顏色和形狀,尤其是來自同一個制造商的特定型號、裝飾和年份的車輛[14-17].因此,如何有效地提取具有辨識力的局部細(xì)粒度特征成為能否正確識別特定車輛的關(guān)鍵.考慮到在車輛重識別中,大多數(shù)方法都側(cè)重于在單一尺度下提取原始車輛圖像特征,而忽略了不同尺度下各特征的互補(bǔ)性.大尺度下的特征一般包括車輛的顏色、車的外形,通過這些特征能有效地區(qū)分外觀相似性不同的車輛;而小尺度下的特征則屬于局部細(xì)粒度特征,可以用來區(qū)別外觀相似的車輛.因此,在不同的尺度下提取車輛的特征,對于解決車輛外觀相似性模糊問題具有重要意義.針對這個問題,筆者設(shè)計了一種基于多尺度的車輛重識別方法.該方法以ResNet-50網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),使用多尺度階梯網(wǎng)絡(luò)融合不同尺度的特征,在該網(wǎng)絡(luò)中嵌入一種小波空間注意力機(jī)制模塊,不僅能提取車輛圖像的表面、紋理、垂直、水平和對角邊緣特征,減少細(xì)粒度信息缺失,還能通過空間注意力加強(qiáng)任務(wù)相關(guān)特征表達(dá)能力,減弱背景和噪聲影響.

        1 基于多尺度和小波注意力機(jī)制的卷積網(wǎng)絡(luò)結(jié)構(gòu)

        1.1 整體框架

        多尺度小波注意力網(wǎng)絡(luò)(Multiscale wavelet attention network,MWAN)由3個部分組成,即ResNet-50[8]骨干網(wǎng)絡(luò)、小波空間注意力模塊和多尺度階梯融合網(wǎng)絡(luò),如圖1所示.考慮到網(wǎng)絡(luò)結(jié)構(gòu)加深,依然能有好的特征表現(xiàn)能力,抑制梯度消失和梯度爆炸問題,MWAN選擇了ResNet-50作為骨干網(wǎng)絡(luò).為了獲得目標(biāo)任務(wù)特征通道權(quán)重,降低無用特征通道權(quán)重,提出的網(wǎng)絡(luò)模型在骨干網(wǎng)絡(luò)中嵌入了通道注意力模塊;多尺度階梯網(wǎng)絡(luò)融合用于提取多尺度圖片特征,該網(wǎng)絡(luò)通過嵌入小波注意力模塊,使得網(wǎng)絡(luò)能夠獲得同一尺度下的不同頻率特征信息;最后再把全局特征F1和多尺度特征F2拼接起來,從而得到整體網(wǎng)絡(luò)特征F.

        圖1 MWAN框架

        1.2 骨干網(wǎng)絡(luò)結(jié)構(gòu)

        本研究依賴于不同網(wǎng)絡(luò)層所得到的多尺度特征圖來提取車輛特征,多尺度的特征圖包含了淺層屬性和深層語義特征.通過淺層和深層特征的融合,可以使車輛的特征更具有辨識力.在淺層特征圖中,網(wǎng)絡(luò)所提取的使車輛的顏色、車窗、車頂?shù)葴\層屬性.而在深層的特征圖中,網(wǎng)絡(luò)提取的是車輛特征圖的抽象的語義特征.因此,只利用深層特征,會忽視車輛的外觀屬性特征,不利于不同車輛之間的區(qū)分,從而影響車輛重識別的性能.ResNet-50有4個殘差塊,在每一個殘差塊前面加入通道注意力模塊,對每一個通道進(jìn)行差異化處理,可以增大車輛具有辨識力的特征通道權(quán)重,降低無用特征的通道權(quán)重,最終生成4個尺度的特征圖,即C1,C2,C3和C4.在骨干網(wǎng)絡(luò)中,將第4個卷積塊Conv_4步長設(shè)置為1,使C4圖片尺度等于C3圖片尺度,不減小C4尺度,是為了獲得更多深層語義特征.

        1.3 注意力模塊

        1.3.1 圖像的小波變換 小波變換具有良好的時頻局部化特性,它可對信號的頻域和時域進(jìn)行局部化分析,在處理信號時很少出現(xiàn)信息的丟失和冗余問題,具有較好的細(xì)節(jié)特征保持能力[18].基于小波函數(shù)的這些優(yōu)點(diǎn),本研究在注意力模型中采用Haar小波作為多尺度階梯網(wǎng)絡(luò)的下采樣部分,MWAN包含4個固定的卷積濾波器,低通濾波器捕捉平滑的表面和紋理,而3個高通濾波器提取到垂直、水平和對角邊緣類信息,即低通濾波器fLL和高通濾波器fLH,fHL,fHH,分別定義為

        將圖像I分解成低頻子帶、水平子帶、垂直子帶和對角子帶,即ILL,ILH,IHL和IHH。

        在DWT分解過程中,濾波器被視為4個2×2卷積核,其權(quán)值固定,步長為2。DWT分解定義為

        ILL=(fLL?I)↓2,ILH=(fLH?I)↓2,

        IHL=(fHL?I)↓2,IHH=(fHH?I)↓2,

        其中?表示卷積算符,↓2表示因子為2的標(biāo)準(zhǔn)下采樣算子。圖2展示了一層分解后的各分量。

        圖2 小波二維分解濾波器

        1.3.2 空間注意力機(jī)制模塊 空間注意力機(jī)制是對每個通道特征進(jìn)行平均的一個操作,使主網(wǎng)絡(luò)學(xué)習(xí)到所有通道特征的整體分布。得到整體的平均權(quán)值之后,將該平均權(quán)值共享給特征權(quán)值較弱的區(qū)域,從而增強(qiáng)較弱區(qū)域特征的表示能力.空間注意力模塊[19]通過最大池化(Maxpooling,MAX)和平均池化(Averagepooling,AVG)提取特征,再將2個特征圖拼接在一起,通過卷積來融合特征,得到空間注意力權(quán)重.MWAN結(jié)構(gòu)如圖3所示.

        圖3 空間注意力機(jī)制

        假定模型的輸入是大小為H×W×C的特征F.首先,對特征F分別進(jìn)行一個列通道維度的平均池化和最大池化,產(chǎn)生2個通道信息,得到2個H×W×1的權(quán)重,并將它們基于通道拼接;然后,對這個特征用一個7×7的卷積核進(jìn)行卷積,得到一個新的特征;最后,對這個新的特征使用sigmoid函數(shù)激活,將空間注意力權(quán)重的范圍映射到[0,1],得到最終的空間注意力權(quán)重M.空間注意力公式為

        M(F)=σ(Conv([AvgPool(F),MaxPool(F)]))=σ(Conv([Favg;Fmax])).

        1.3.3 小波空間注意力模塊 受到小波變換具有較好的細(xì)節(jié)特征保持能力的啟發(fā),筆者結(jié)合小波變換和空間注意機(jī)制對卷積進(jìn)行擴(kuò)展,設(shè)計了小波空間注意模塊(Spatial Attention Module,SAM),如圖4所示.該模塊不僅提取特征圖的空間信息,還能將空間信息權(quán)重共享到經(jīng)小波變換分解出的特征權(quán)重較弱的區(qū)域.它可以自適應(yīng)地學(xué)習(xí)每個部分的重要性,從而將更多的注意力放在最具有辨識力的語義和位置信息,抑制信息含量較低的部分,可以有效地區(qū)分語義特征的表示.通過訓(xùn)練一個緊湊的注意力模塊來預(yù)測目標(biāo)權(quán)重,使卷積網(wǎng)絡(luò)提取到更具有代表性的特征.

        圖4 小波空間注意力模塊

        將圖像特征F∈RH×W×C作為網(wǎng)絡(luò)的輸入,其中H,W,C分別表示語義圖的高度、寬度和通道的大小.在小波變換分支中,對語義特征F∈RH×W×C進(jìn)行轉(zhuǎn)換,得到小波特征圖Y∈RH/2×W/2×4C.具體運(yùn)算過程為,先利用小波變換將F分解為4個子帶圖像,DWT(F)=(FLL,FHL,FLH,FHH)∈RH/2×W/2×4C,再將它們拼接在一起,通過1×1卷積和ReLu函數(shù)從DWT(F)中提取到各種頻率特征Y∈RH/2×W/2×4C.在空間注意力分支中,首先進(jìn)行平均池化和最大池化操作,分別得到一個H×W×1的像素權(quán)重,并將它們基于通道拼接;然后通過7×7卷積進(jìn)行特征提取;最后經(jīng)過sigmoid函數(shù),得到空間注意力圖M∈R1×H/2×W/2.小波空間注意力機(jī)制公式如下:

        Y=σ(Conv(DWT(F))),

        M=σ(Conv([Favg;Fmax])),

        P=B⊕σ(Y?M).

        1.4 多尺度階梯融合網(wǎng)絡(luò)

        為了擴(kuò)展主網(wǎng)絡(luò)的表現(xiàn)能力,筆者設(shè)計了一種新的特征融合網(wǎng)絡(luò)——多尺度階梯融合網(wǎng)絡(luò)(圖1).為了控制計算量和參數(shù)量,在不影響網(wǎng)絡(luò)性能的情況下,引入了InceptionV2模塊[20],對多尺度的細(xì)節(jié)特征進(jìn)行提取,通過融合不同層的尺度信息達(dá)到對特征信息的整合,從而獲得全局上下文特征信息.設(shè)計的多尺度階梯融合網(wǎng)絡(luò)有4層,每層都包含了2個InceptionV2模塊.該網(wǎng)絡(luò)有4條支路,采用從ResNet-50網(wǎng)絡(luò)輸出的4個尺度特征56×56,28×28,14×14,14×14分別作為其網(wǎng)絡(luò)的每條支路輸入.56×56尺度大小特征圖先經(jīng)過一個小波空間注意力模塊,得到4個相同尺度不同頻域信息的特征圖,同時空間注意力將空間信息權(quán)重共享到DWT分解出特征權(quán)重較弱的區(qū)域,從而得到該尺度的增強(qiáng)特征信息,然后通過2個InceptionV2提取該尺度的特征信息.同理,在28×28尺度下,將上一尺度特征與該尺度特征進(jìn)行融合,經(jīng)上面同樣步驟,得到該尺度特征信息.最后將2個14×14尺度與上一層特征融合,經(jīng)過InceptionV2提取特征f1,f1∈R1×1×2 048.本研究中的多尺度階梯融合結(jié)構(gòu),不僅可以增強(qiáng)相同尺度的特征信息,還將不同尺度的語義特征信息進(jìn)行融合提取,從而學(xué)習(xí)到更多的上下文信息,獲得更多具有辨識力的細(xì)粒度特征.InceptionV2網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.

        圖5 InceptionV2的網(wǎng)絡(luò)結(jié)構(gòu)

        2 實驗部分

        2.1 實驗參數(shù)設(shè)置

        本實驗是在GeForce GTX1080Ti GPU,輸入圖片像素224×224,批大小為32,使用隨機(jī)梯度下降法訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)置為0.001,進(jìn)行110次訓(xùn)練.經(jīng)實驗驗證,λc=λf=1,λ1=0.5.

        2.2 實驗結(jié)果與討論

        2.2.1 消融實驗 MWAN在提取特征時融合了全局特征和多尺度特征,其中全局特征是在嵌入了通道注意力機(jī)制下進(jìn)行特征提取,多尺度特征是在小波空間注意力模塊下融合了表面和紋理、垂直、水平、對角邊緣多個局部信息.在第一部分實驗中,主要分析網(wǎng)絡(luò)模型在不同模塊的組合對車輛重識別精度的影響.只包含提取單一的全局特征模型記為Baseline,在MWAN模型的基礎(chǔ)上嵌入通道注意力機(jī)制記為MWAN+CA,嵌入小波空間注意力機(jī)制記為MWAN+DS,MWAN記為MWAN+CA+DS.各模型的精度見表1.

        表1 VeRi數(shù)據(jù)集上幾種網(wǎng)絡(luò)結(jié)構(gòu)的消融實驗比較

        由表1可知:基準(zhǔn)網(wǎng)絡(luò)單獨(dú)嵌入通道注意力模型和小波空間注意力模型時,相比基準(zhǔn)模型,平均精度均值(mAP)分別提高了3.5%和3.4%,Rank-1分別提高了3%和2.8%;同時增加2個模塊,mAP達(dá)到73.9%,Rank-1達(dá)到94.7%.

        2.2.2 對比實驗 為了驗證MWAN的優(yōu)越性,分別在VeRi和VehicleID[19]數(shù)據(jù)集上,將其與近年來的主流模型(LOMO[1],BOW-CN[2],F(xiàn)ACT[9],PROVID[20],MLL+MLSR[21],AAVER[22],QD-DLF[23],MSA[24],DDFL[25],BS[26],SLSR[27])進(jìn)行了比較,表2展示了在VeRi數(shù)據(jù)集上測試的評價指標(biāo)對比結(jié)果.

        表2 VeRi數(shù)據(jù)集上多尺度小波注意力網(wǎng)絡(luò)與其他方法的比較結(jié)果

        由表2可知,MWAN模型取得比其他大部分模型更高的mAP.其中,LOMO,BOW-CN,F(xiàn)ACT,PROVID,MLL+MLSR和AAVER取得的mAP分別為9.64%,12.20%,18.49%,53.42%,57.03%和58.50%,遠(yuǎn)低于MWAN采用的ResNet-50骨干模型的準(zhǔn)確率72.40%.其中,LOMO,BOW-CN和FACT采用的是手工特征方法,可以看出遠(yuǎn)沒有深度學(xué)習(xí)方法準(zhǔn)確率高.PROVID是一種漸進(jìn)式車輛搜索框架,它融合了傳統(tǒng)手工特征、車牌信息和時空線索,但是提升了基礎(chǔ)網(wǎng)絡(luò)的計算復(fù)雜度.AAVER是一種雙路徑自適應(yīng)注意力模型,包含了全局特征和車輛零件的外觀特征,但生成的關(guān)鍵點(diǎn)信息與真實的多角度下的關(guān)鍵信息還是存在一定差異,效果不是很明顯.QD-DLF是一種將深度語義特征映射壓縮為水平、垂直、對角線和反對角線方向的特征圖,最后歸一化得到多維的特征,但是他忽略了車輛的多屬性特征.MSA是一個多尺度注意力網(wǎng)絡(luò),通過三路徑殘差網(wǎng)絡(luò)來獲得多尺度特征,雖然得到了多尺度特征,但是大大的提高了計算復(fù)雜度.BS用三元損失和交叉熵?fù)p失進(jìn)行聯(lián)合訓(xùn)練網(wǎng)絡(luò),比單個損失函數(shù)訓(xùn)練效果要好,但是整體效果不明顯.

        MWAN與LOMO[1],BOW-CN[2],F(xiàn)ACT[9],ResNet[8],EALN[28],SLSR[28],AAVER[22],NuFACT[20],MLL+MLSR[21],QD-DLF[23]在VehicleID車輛數(shù)據(jù)集上測試的評價指標(biāo)對比結(jié)果見表3.

        表3 VehicleID數(shù)據(jù)集上多尺度小波注意力網(wǎng)絡(luò)與其他方法的比較結(jié)果

        從表3可知,MWAN與其他算法相比,在VehicleID數(shù)據(jù)集中取得了最好的效果.它與LOMO[1],BOW-CN[2],F(xiàn)ACT[9]采用的是手工特征方法比較,不管是在小數(shù)據(jù)集或大數(shù)據(jù)集中都取得非常好的效果,由此可知深度學(xué)習(xí)算法更加適合車輛重識別.MWAN與其他深度學(xué)習(xí)算法的比較中也取得了不錯的效果:與AAVER[22]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的準(zhǔn)確度分別提高了1.11%,4.68%,6.76%;與多尺度算法SLSR[27]相比,MWAN在第Test800,Test1600,Test2400的Rank-1的準(zhǔn)確度分別提高了0.7%,1.5%,1.6%.

        2.2.3可視化結(jié)果 如圖6所示,在VeRi數(shù)據(jù)集下,隨機(jī)選取5個不同車輛,其中錯誤的檢索結(jié)果由方框標(biāo)出.

        圖6 查詢可視化結(jié)果

        由圖6不難發(fā)現(xiàn),MWAN嵌入注意力機(jī)制模塊增強(qiáng)了細(xì)粒度特征提取,進(jìn)一步優(yōu)化了檢索排序結(jié)果,提高了識別準(zhǔn)確性.

        3 結(jié)語

        為了獲得不同尺度下的車輛圖片特征,常采用雙線插值的方法將車輛圖片轉(zhuǎn)換為不同尺度的大小,再經(jīng)過一個特征提取網(wǎng)絡(luò)來提取各尺度下的圖片特征.但是,雙線性插值法會使圖像的細(xì)節(jié)特征退化,從而影響車輛特征的提取與分析,且多一個特征提取網(wǎng)絡(luò)會增加整個網(wǎng)絡(luò)的計算復(fù)雜度.針對此問題,筆者設(shè)計了一個多尺度階梯融合網(wǎng)絡(luò),來提取不同尺度下的車輛圖片特征,并在該網(wǎng)絡(luò)中嵌入了小波空間注意力機(jī)制來平衡局部特征信息,防止細(xì)節(jié)特征的退化;為了更好地挖掘全局特征信息,在骨干網(wǎng)絡(luò)嵌入了通道注意力機(jī)制;最后,將全局特征信息與多尺度特征信息進(jìn)行結(jié)合,獲得具有辨識力的特征.接下來,需要對車輛的小目標(biāo)檢測作進(jìn)一步研究,小目標(biāo)檢測也是車輛重識別中的一大難點(diǎn).

        猜你喜歡
        尺度注意力卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        財產(chǎn)的五大尺度和五重應(yīng)對
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        亚洲午夜狼人综合影院| 久久久久久久尹人综合网亚洲 | 欧洲日韩视频二区在线| 手机在线免费av网址| 国产午夜在线视频观看| 日本三级欧美三级人妇视频黑白配| 在线综合网| 亚洲中文字幕第二十三页| 国产精品国产三级国产在线观 | 色婷婷综合激情| 国产一区二区毛片视频| 国产青青草在线观看视频| 人人妻人人爽人人澡人人| 亚洲精品欧美二区三区中文字幕 | 久久亚洲AV成人一二三区| 中国av一区二区三区四区| 无码专区人妻系列日韩精品| 真实单亲乱l仑对白视频| 99久久精品一区二区三区蜜臀| 亚洲第一女优在线观看| 人人妻人人澡人人爽国产一区| 午夜福利视频合集1000| 大陆啪啪福利视频| 日本在线观看不卡一区二区| 国产网红主播无码精品| 手机看片福利盒子久久青| 亚洲成生人免费av毛片| 女人的精水喷出来视频| 亚洲av无码专区国产乱码不卡| 亚洲熟妇中文字幕日产无码| 中文字幕一二三四五六七区| 中国女人内谢69xxxx免费视频| 五月天国产精品| 国内精品少妇久久精品| 中文字幕在线日亚州9| 学生妹亚洲一区二区| av网址不卡免费在线观看| 国产亚洲一区二区在线观看| 成人无码免费一区二区三区 | 精品人体无码一区二区三区| 女人一级特黄大片国产精品|