袁 曉 肖 云 江 波,3 湯 進
顯著目標檢測(Salient Object Detection, SOD)[1-3]是從視覺圖像中定位最顯著目標(或區(qū)域)的方法之一.SOD可作為許多其它視覺任務的預處理步驟,如目標追蹤[4]、語義分割[5]、行人重識別[6]等.近年來,研究者們提出很多顯著目標檢測模型[7-8],性能具有大幅提升.但由于背景雜亂、場景復雜、光照條件不同等因素,像素被錯誤分類,因此SOD目前仍是一個具有挑戰(zhàn)性的問題.
近年來,基于RGB-D的顯著目標檢測越來越受到人們的關注,但如何合理、充分利用兩種模態(tài)的信息仍是一個巨大的挑戰(zhàn).為了結(jié)合RGB信息和深度(Depth)信息進行RGB-D顯著目標檢測,之前的一些工作主要集中在研究融合策略[9],包括早期融合、特征級融合和后期結(jié)果融合.
在早期融合模型中,直接融合RGB信息和Depth信息的原始數(shù)據(jù)或低層特征,并輸入一個統(tǒng)一的模型中.Qu等[10]使用卷積神經(jīng)網(wǎng)絡(Convolu-tional Neural Network, CNN)融合RGB圖像特征和Depth圖像特征,并使用拉普拉斯傳播得到最終的預測結(jié)果.然而,由于兩種模態(tài)的分布差異,這種統(tǒng)一的模型很難進一步融合兩種模態(tài)下的數(shù)據(jù).
后期融合方法首先生成兩種模態(tài)的顯著性預測圖,再融合兩個顯著性結(jié)果.Han等[11]提出CTMF(Cross-View Transfer and Multiview Fusion),先利用CNN學習RGB圖像和Depth圖像的高級特征表示,再通過全連接層融合多視圖特征.
特征級融合方法[2,7,12]首先使用2個CNN分別提取RGB圖像特征和Depth圖像特征,再學習跨模態(tài)交互,并融入特征學習網(wǎng)絡中,得到最終的顯著性預測圖.Chen等[12]引入通道注意力機制,解決多模態(tài)跨級別融合問題.Piao等[13]提出DMRANet(Depth-Induced Multi-scale Recurrent Attention Network),分別提取RGB圖像特征和Depth圖像特征,再輸入深度細化模塊進行集成.Chen等[14]提出PCA(Progre-ssively Complementarity-Aware Fusion Network),采用特征級融合策略,設計互補感知融合模塊,用于融合多模態(tài)和多尺度特征.此方法避免分布差異問題,融合多模態(tài)-多尺度特征和交互信息.
自注意力網(wǎng)絡模型[15-16]和局部關系網(wǎng)絡模型[17-18]廣泛應用于計算機視覺領域.Wang等[19]將非局部思想引入視頻分類任務,將所有位置對某個位置的特征加權和作為該位置的響應值,以此利用視頻中的長距離信息.Huang等[20]提出CCNet(Criss-Cross Network),多次計算當前位置與其同行或同列特征的關系,逐步傳播到全局,大幅降低非局部模型的計算開銷和內(nèi)存占用.Zhang等[21]在空間和通道上進行非局部操作,獲得2個維度的長距離依賴關系.Liu等[22]提出生成對抗網(wǎng)絡模型,并引入自注意力機制,用于生成器網(wǎng)絡的解碼過程和判別器網(wǎng)絡的判別過程.
綜上所述,RGB-D顯著目標檢測現(xiàn)已快速發(fā)展,并且在性能上取得大幅提升.使用自注意力網(wǎng)絡模型解決計算機視覺任務也越來越受到研究者們的關注.由于引入全局信息,能獲得更大的感受野,有助于學習到更結(jié)構化的特征表示,但是目前自注意力網(wǎng)絡模型在RGB-D顯著目標檢測任務中的應用很少.Liu等[2]提出S2MA(Selective Self-Mutual Attention)模塊,融合RGB圖像特征和Depth圖像特征,集成自注意力和相互注意力以傳播上下文信息.S2MA可提供來自另一個模態(tài)的補充信息,克服僅使用單一模態(tài)的局限性.為了降低低質(zhì)量Depth線索的影響,S2MA進一步使用選擇機制,重新加權相互注意力,過濾不準確信息.但是,S2MA中的自注意力機制采用非局部操作,首先計算每個位置的一組空間注意力,再使用這些空間注意力聚合所有位置的特征.由于非局部操作是一種空間上與距離無關的操作,傾向于學習全局的上下文信息,因此缺乏對局部空間約束的考慮.Gu等[23]采用約束的自注意力機制關注目標的局部運動,捕獲單模態(tài)視頻幀中的運動線索.
鑒于上述情況,本文采用特征級融合策略,進一步考慮空間約束,提出空間約束自相互注意力模塊(Spatial Constrained Self-Mutual Attention, CSMA),實現(xiàn)RGB-D不同模態(tài)間有效的信息融合.與非局部操作在全局范圍內(nèi)學習密集的成對關系不同,CSMA關注查詢位置周圍區(qū)域中的成對關系,獲得局部的特征表示.相比非局部操作,CSMA減少內(nèi)存占用和計算開銷.與文獻[23]不同,CSMA模塊利用多模態(tài)的補充信息,實現(xiàn)不同模態(tài)間的信息融合,在獲得局部特征表示的同時,考慮多模態(tài)數(shù)據(jù)的一致性和互補性.
此外,擴大感受野在視覺任務中應用廣泛且有效,同時在不同的空間約束下獲得的感受野并不一樣.因此本文進一步提出金字塔結(jié)構的空間約束自相互注意力模塊(Pyramid Spatial Constrained Self-Mutual Attention, PSMA),整合這些不同空間約束下的信息,得到局部和全局的特征表達,實現(xiàn)多尺度的特征融合.在雙分支CNN網(wǎng)絡中引入PSMA,提出RGB-D顯著目標檢測方法,融合2個模態(tài)的信息,完成RGB-D顯著目標檢測任務.實驗表明,本文方法具有較優(yōu)性能.
通用的非局部操作[19]主要包括3步:線性轉(zhuǎn)換、相似度計算、上下文聚合.將提取的特征X∈RH×W×C作為輸入,特征的通道數(shù)為C,尺寸(高、寬)為H×W.
在線性轉(zhuǎn)換中,分別使用3個線性轉(zhuǎn)換公式:
θ(X)=XWθ,φ(X)=XWφ,g(X)=XWg,
得到嵌入特征,其中,Wθ∈RC×C1,Wφ∈RC×C1,Wg∈RC×C1,均為可學習的權重矩陣.線性轉(zhuǎn)換使用1×1卷積.在相似度計算中,非局部操作使用二元函數(shù)f計算θ和φ中元素之間的相似性.文獻[15]提出f函數(shù)的幾種形式,這里采用點乘形式獲得相似度矩陣:
A=f(X)=θ(X)φ(X)T,
(1)
其中,f(X)∈RHW×HW,元素fi,j表示X中第i個特征和第j個特征的相似度.在上下文聚合中,g中的特征通過加權求和進行聚合[19],即
Y=Ag(X)∈RHW×C1,
并且進一步重塑為H×W×C1塊.
為了可以在任何預訓練網(wǎng)絡中插入非局部模塊,而不破壞它原始的特征,通用的做法是使用殘差連接[19]:
Z=YWZ+X,
其中,WZ∈RC1×C,是一個可學習的參數(shù),初始化為0.
如式(1)所示,非局部模塊中的注意力是由原始特征進行線性轉(zhuǎn)換后相乘得到的.對于多模態(tài)任務,如RGB-D顯著目標檢測,可利用多模態(tài)特征獲得更互補的信息.然而,非局部模塊傾向于學習與距離無關的全局上下文信息,基于文獻[2]和文獻[23],本文進一步考慮空間約束,提出空間約束自相互注意力模塊(CSMA),適用于多模態(tài)數(shù)據(jù).CSMA結(jié)構如圖1所示.
圖1 CSMA結(jié)構圖Fig.1 Structure of CSMA
對于來自RGB模態(tài)和Depth模態(tài)的特征Xr∈RH×W×C和Xd∈RH×W×C,和非局部模塊一樣,先使用線性轉(zhuǎn)換公式得到嵌入特征.在此基礎上,查詢θ(X)中特征元素xi時,利用φ中xi周圍區(qū)域的特征元素Nk,d(i)計算相似度,k表示xi周圍區(qū)域特征采樣數(shù),d表示空洞率.對于RGB圖像特征,相似度矩陣
同理,對于Depth圖像特征,相似度矩陣
這2個相似度矩陣僅由各自模態(tài)的特征計算得到.由于一些低質(zhì)量的Depth圖像是有噪聲且不準確的,為了融合不同模態(tài)的特征且抑制模態(tài)中不準確的信息,本文計算每個位置的選擇注意權重,重新加權相互注意力,進行上下文的傳播[2].首先將Xr和Xd在通道維度上拼接,再使用1×1卷積和softmax激活函數(shù)計算選擇注意力:
α=softmax(Conv([Xr,Xd]))∈RH×W×2,
最后,通過殘差連接分別得到2個模態(tài)特定的輸出:
(2)
在各種視覺任務中,如檢測和分割,學習局部和全局感受野的特征表示對于模型性能非常重要.為了保持一個較大的感受野,同時減少計算量和內(nèi)存占用,將金字塔的結(jié)構[23]應用在CSMA中,提出金字塔結(jié)構的空間約束自相互注意力模塊(PSMA).
本文整合一組具有不同空洞率d=(d1,d2,…,dn)和周圍區(qū)域特征采樣數(shù)k的CSMA{CSMA-di,i=1,2,…,n},構成PSMA,可表示為
(3)
與式(2)相似,利用得到的特征Yr和Yd,通過殘差連接改進原始特征Xr和Xd,得到最終輸出:
固定周圍區(qū)域特征采樣數(shù)k和空洞率d的單個CSMA對不同目標有一定限制.相比單個CSMA,PSMA綜合不同感受野的信息(式(3)),得到局部和全局的特征表示,保留單個CSMA的局部信息或長距離信息.
基于PSMA模塊,本文提出RGB-D顯著目標檢測方法,整體結(jié)構如圖2所示.
本文網(wǎng)絡整體為通用的編碼器-解碼器架構[24-25],總體上由骨干編碼器、交互編碼器、RGB解碼器、Depth解碼器組成.
具體地,采用ResNet50[26]作為骨干網(wǎng)絡.給定一對RGB模態(tài)和Depth模態(tài)的輸入圖像,分別得到不同尺度的特征.為了減少參數(shù)和提高網(wǎng)絡性能,采用1×1卷積,通道降維到64.分別將這些特征表示為
在得到2個分支的輸出特征之后,為了更好地挖掘不同模態(tài)的共同特征,使用交互編碼器促進2個模態(tài)之間的信息交換.與文獻[27]類似,交互編碼器將RGB解碼器和Depth解碼器的拼接特征作為輸入,疊加多個卷積,提取多層次交互特征,再分別使用不同的卷積,得到適用于RGB解碼器和Depth解碼器的交互信息(如圖2中I).將融合交互特征和主干編碼器的特征直接相加,充分利用不同模態(tài)的特征.在本文方法中,特征交互由多次迭代組成.在第1次迭代中,RGB解碼器和Depth解碼器這2個分支在不交換信息時輸出融合特征,從第2次迭代開始,將前一次迭代后的拼接特征作為交互編碼器的輸入,從而實現(xiàn)2個分支之間的交互融合.
圖2 RGB-D顯著目標檢測網(wǎng)絡模型的整體結(jié)構Fig.2 Architecture of RGB-D salient object detection network
類似于文獻[27],定義損失函數(shù)為所有迭代輸出的總和:
其中,l(k)表示第k次迭代的損失,K表示迭代總數(shù).實驗中每次迭代得到3個輸出:RGB預測圖、Depth預測圖、分割預測圖.每個輸出對應一個損失,l(k)定義為如下3種損失的組合:
實驗選擇如下4個公開的RGB-D基準數(shù)據(jù)集:NJU2K數(shù)據(jù)集[29](包含1 985個樣本)、NLPR數(shù)據(jù)集[30](包含1 000個樣本)、STERE數(shù)據(jù)集[31](包含1 000個樣本)、SIP數(shù)據(jù)集[32](包含929個樣本).和之前的一些工作[27-28]一樣,從NLPR、NJU2K數(shù)據(jù)集上分別選取700幅和1 500幅圖像訓練本文方法.NJU2K、NLPR數(shù)據(jù)集剩下的圖像及整個STERE、SIP數(shù)據(jù)集上圖像用于測試.
本文使用如下5個廣泛使用的評估指標:準確率-召回率曲線(Precision-Recall, PR)[33], S-mea-sure(Sm)[34], maximum F-measure(Fm)[35], maxi-mum E-measure(Em)[36]和平均絕對誤差(Mean Absolute Error, MAE)[33,37].
準確率和召回率定義為
其中,TP表示真正率,FP表示假正率,F(xiàn)N表示假負率.
Sm計算預測的顯著性結(jié)果和真值圖之間的結(jié)構相似性[34],綜合考慮對象結(jié)構和區(qū)域結(jié)構的相似性:
Sm=αSobject+(1-α)Sregion,
其中α根據(jù)經(jīng)驗設置為0.5.
Fm計算平均精度和召回率的調(diào)和平均值[35],定義為
其中,β2如文獻[32]設置為0.3.
Em捕獲顯著性圖的全局綜合信息和局部像素匹配信息以評估顯著性二值圖.
MAE測量所有像素的顯著性預測圖和真值圖之間絕對誤差的平均值[37]:
在單個NVIDIA 1080Ti GPU上用Pytorch實現(xiàn)并訓練本文方法.ImageNet[38]上的預訓練模型用于初始化主干模型ResNet50[26]的參數(shù),同時去掉最后的池化層和全連接層.其它參數(shù)隨機初始化.將Res-Net50[26]主干網(wǎng)絡的最大學習速率設置為0.005,其它部分的最大學習速率設置為0.05.網(wǎng)絡的特征交互迭代次數(shù)設置為2.整個網(wǎng)絡通過隨機梯度下降(Stochastic Gradient Descent, SGD)進行端到端訓練,動量設置為0.9,權重衰減設置為0.000 5.所有圖像統(tǒng)一調(diào)整為352×352,再輸入相應的主干網(wǎng)絡提取特征.所有的訓練圖像使用隨機翻轉(zhuǎn)、旋轉(zhuǎn)和邊界裁減進行數(shù)據(jù)增強.
本文設置批次大小為32,訓練模型200輪,大約需要10 h.
為了驗證本文方法的有效性,選擇如下13種RGB-D顯著性方法作為對比方法:S2MA[2]、MMCI(Multi-scale Multi-path Fusion Network with Cross-Modal Interactions)[7]、CTMF[11]、TANet(Three-Stream Attention-Aware Network)[12]、DMRANet[13]、PCA[14]、UC-Net(Uncertainty Network)[24]、SSF(Select, Supple-ment and Focus)[25]、CPFP(Contrast Prior and Fluid Pyramid Integration)[28]、D3Net(Deep Depth-Depura-tor Network)[32]、A2dele(Adaptive and Attentive Depth Distiller)[39]、cmMF(Cross-Modality Feature Modula-tion)[40]、DANet(Depth-Enhanced Attention)[41].
各方法在4個數(shù)據(jù)集上的指標值對比如表1所示.在4個基準數(shù)據(jù)集上,相比S2MA,本文方法取得更好的檢測結(jié)果,相比其它方法,也獲得更好結(jié)果,這進一步表明本文方法的有效性.
表1 各方法在4個數(shù)據(jù)集上的指標值對比Table 1 Index value comparison of different methods on 4 datasets
各方法在4個數(shù)據(jù)集上的PR曲線對比如圖3所示.由圖可知,本文方法準確率最高.各方法的可視化結(jié)果如圖4所示.由圖可看出,本文方法能有效抑制背景干擾,檢測更完整的目標.綜上所述,本文方法可精確定位和分割顯著物體,而其它方法在這些復雜的場景中會受到嚴重干擾.
(a)NLPR (b)NJU2K
(a)RGB圖像 (b)深度圖像(a)RGB images (b)Depth images
本文方法主要包含2個模塊:CSMA和PSMA.為了驗證這兩個模塊的有效性,本節(jié)進行消融實驗.選取2.1節(jié)中不帶PSMA模塊的編碼-解碼架構作為本文的基準方法(baseline).本文將PSMA模塊(k=8,d={0,1,2})、S2MA模塊和單一的CSMA模塊在4個數(shù)據(jù)集上進行對比,其中S2MA模塊采用非局部操作.還對比在CSMA操作中使用相同周圍區(qū)域采樣(k=8) 和不同空洞率d,具體結(jié)果如表2所示,表中黑體數(shù)字表示最優(yōu)值.由表可知,添加CSMA模塊時,隨著空洞率d的增加,各項指標值無明顯提升.d較小時,更能關注局部信息,但缺少長距離信息;d較大時,可擴大感受野,得到長距離關系,但是會缺失周圍鄰居的信息.PSMA(k=8,d={0,1,2})集成不同空間約束下的信息,在擴大感受野的同時也能關注局部,得到更互補的信息,因此性能優(yōu)于單一CSMA操作.
表2 增加不同模塊時各方法在4個數(shù)據(jù)集上的指標值對比Table 2 Index value comparison of different models on 4 datasets
4結(jié) 束 語
本文提出空間約束下自相互注意力的RGB-D顯著目標檢測方法.引入金字塔結(jié)構的空間約束自相互注意力模塊(PSMA),學習多模態(tài)圖像的空間上下文和多模態(tài)感知特征表示.PSMA可嵌入任何多模態(tài)任務的學習框架.PSMA由一組空間約束自相互注意力模塊(CSMA)組成,學習查詢位置周圍區(qū)域中的成對關系,充分利用多模態(tài)特征在空間上的互補信息,金字塔結(jié)構可整合一組CSMA特征,適應不同空間約束下的特征.實驗表明,本文方法具有較優(yōu)性能.今后將進一步研究多模態(tài)特征融合方法.Transformer模型具有建立長距離依賴關系的優(yōu)勢,可考慮用于多模態(tài)特征融合,進一步提升RGB-D顯著性檢測性能.