李元貞,趙俊松
(1.河北工業(yè)大學人工智能與數(shù)據(jù)科學學院,天津 300401;2.中國民航大學信息網(wǎng)絡中心,天津 300300)
2081059521@qq.com;xmbdhyq@163.com
圖像顯著性目標檢測旨在模擬人類視覺機制,識別并分割出場景中人類感興趣的部分,常被作為其他視覺領域的預處理階段,應用于風格遷移[1]等。早期,基于深度學習的顯著性目標檢測為多層感知機的形式,造成卷積后的特征輸出時再次經(jīng)過全連接層,不適用于像素級別的顯著性任務。為此,大量研究者開始利用全卷積網(wǎng)絡去除全連接層,從而獲得更加精確的結果。然而,全卷積網(wǎng)絡仍然存在顯著目標檢測邊緣缺失、定位有誤等問題。因此,本文總結了不同問題的針對性解決方法及各自的作用原理,從深度學習的網(wǎng)絡框架入手,探究應用于上述網(wǎng)絡的各類深度學習策略的優(yōu)點和缺點,分析目前深度學習方法在圖像顯著性目標檢測領域的評價結果,并總結提出基于深度學習的圖像顯著性目標檢測任務亟待解決的問題。
單流單層輸出結構在網(wǎng)絡最深層輸出預測結果,該種架構簡單,但是對網(wǎng)絡最后一層的特征樣式依賴性較強,隨著網(wǎng)絡層級的傳遞,較淺層的一些細節(jié)信息會缺失,預測的結果將變成一個模糊的顯著區(qū)域,而不是精準的顯著目標。為此,演變出一種單流多層融合輸出的結構,利用跳層連接的方式[2],打破特征在網(wǎng)絡層級間的串聯(lián)傳遞,融合各層級的特征和性能,可以使最終的預測結果兼顧細節(jié)與整體,很多基于多層級特征融合的策略,都源于此。多流網(wǎng)絡則是利用多個分支,不同分支關注圖像中不同類型的特征,特征間互為補充,以此兼顧多種特征性能,如邊緣檢測[3]或RGB-D深度圖[4]。與多流網(wǎng)絡不同,“U”形結構僅有一個輸入,但是分為上采樣階段和下采樣階段,該網(wǎng)絡架構的可擴展性強,是目前應用最廣的架構,如特征金字塔網(wǎng)絡(Feature Pyramid Networks,FPN)[5],結合網(wǎng)絡深淺層特征的同時,適應圖像中目標的尺度變化。細化網(wǎng)絡[6]則是“U”形網(wǎng)絡的進一步演變,通過堆疊多個上采樣與下采樣,逐漸優(yōu)化網(wǎng)絡學習過程中的特征表達,該種方法也適用于優(yōu)化顯著目標的邊緣細節(jié),但是需要多次嘗試,選出最優(yōu)的迭代次數(shù),并且網(wǎng)絡的規(guī)模也相對較大。對應網(wǎng)絡架構所適用的深度學習策略,詳見表1。
表1 顯著性目標檢測經(jīng)典架構Tab.1 Classic architectures of salient object detection
圖像顯著性目標檢測任務期待獲取定位準確、邊緣細節(jié)完整及內(nèi)部均勻、高亮的目標。因此,通常利用邊緣檢測分支、細節(jié)優(yōu)化網(wǎng)絡或條件隨機場(Conditional Random Field,CRF)對目標進行邊緣特征增強;利用多尺度或多層級的特征融合策略,適應不同感受野范圍的特征圖像;利用通道注意力、空間注意力等注意力機制,加強顯著目標的定位能力。除此之外,考慮設計更適用于顯著性目標檢測任務的損失函數(shù),需要加強對網(wǎng)絡訓練過程中的監(jiān)督,優(yōu)化預測結果。
基于深度學習的圖像顯著性目標檢測方法,隨著卷積神經(jīng)網(wǎng)絡的層級加深,特征圖尺寸會不斷縮小,造成顯著目標所包含的邊緣細節(jié)缺失。為此,SU等[7]基于選擇性和不變性分析,將邊緣檢測和顯著性定位問題拆分解決,用邊緣分支彌補顯著分支的邊緣細節(jié)。SONG等[8]提出顯著性檢測的分層邊緣細化網(wǎng)絡,利用改進的“U”形結構粗略檢測顯著目標的區(qū)域,然后利用空間金字塔池化檢測顯著目標的邊緣,一對一分層監(jiān)督整個網(wǎng)絡的不同輸出。WANG等[9]提出利用金字塔增強模塊和顯著性邊緣檢測模塊獲取邊緣增強的顯著性結果,通過進一步結合條件隨機場,有效提升預測精度。雖然利用邊緣檢測分支、細化網(wǎng)絡、條件隨機場的方法能夠緩解深度學習中網(wǎng)絡細節(jié)信息缺失的問題,但是上述方法最大的弊端在于網(wǎng)絡模型的運行規(guī)模過大,并且在復雜紋理場景下容易造成過度分割,使顯著目標內(nèi)部的均勻性受到影響。
深度學習網(wǎng)絡中不同層級的特征具有不同的特性,較深層的特征圖分辨率較低,可以用來定位顯著目標,較淺層的特征圖分辨率較高,可以保留一些局部細節(jié)。因此,融合多個層級的特征有利于優(yōu)化顯著性檢測結果。DAKHIA等[10]提出通過結合不同層級局部信息和全局金字塔池實現(xiàn)多個特征的集成,有效聚合全局上下文信息,提高預測圖質量。除了利用不同層之間的特征融合,還進一步延伸出單一層級的多尺度特征融合,以此適應不同感受野范圍的顯著目標。陳琴等[11]提出利用FPN網(wǎng)絡獲取不同層級的特征,與此同時利用擴張卷積建立中心鄰域金字塔,捕獲不同級別的對比度信息。王正文等[12]提出基于語義引導特征聚合的顯著性目標檢測網(wǎng)絡,設計了包含不同空洞率的空洞卷積模塊,以此得到不同尺寸大小的特征,融合它們增強語義信息;同時,設計多層級聚合模塊,以級聯(lián)的方式不斷提取特征中的顯著部分,細化顯著物體的邊緣細節(jié)。不同尺度和不同層級的特征融合,在某種程度上增強了特征的表達。然而,融合的特征是否被需要,融合特征之間的差異性是否較大的問題仍然存在,不經(jīng)過信息篩選的特征堆疊,反而會引入噪聲。
視覺注意力機制在圖像領域有著廣泛的應用,很多顯著性檢測方法也通過加入注意力模塊抑制背景噪聲,突出顯著目標。陳維婧等[13]提出將改進的通道注意力機制與空間注意力機制并行結合,輸出的兩個注意力特征加權融合再反饋至通道-空間聯(lián)合注意力機制中,從而得到細粒度更高的顯著圖。LIANG等[14]提出雙重注意中間表示模塊和高級通道注意模塊,前者使用兩個分支自適應地整合中間層特征的空間和語義信息,后者通過兩種不同的通道操作獲得高層的語義特征,從而針對不同層級提取不同的注意力。王凱誠等[15]提出了注意力精煉模塊,對通道維度整合的注意力進行非局部的空間操作,并且用顯著真值監(jiān)督空間操作后的特征,增強預測位置的準確性。作為顯著性目標檢測任務的重要策略,注意力機制可以有效定位顯著目標,但是針對低對比度、前景背景雜亂等復雜場景,則容易受到干擾。此外,注意力機制往往包含大量參數(shù),會造成網(wǎng)絡運行規(guī)模較大。
圖像顯著性目標檢測任務中主要采用交叉熵損失函數(shù),如公式(1)所示。利用顯著性真值圖像與預測圖像計算得到,預測結果與真值越相近,損失值越小。
但是,傳統(tǒng)的交叉熵損失函數(shù)對圖像中的每一個像素點是同等看待的,而針對顯著性問題,前景目標及邊緣區(qū)域應當受到更多的關注。為此,F(xiàn)ENG等[16]提出帶邊緣權重的交叉熵損失函數(shù),使處于目標邊緣位置的像素特征更具判別性;WEI等[17]在利用邊緣權重損失函數(shù)的同時,提出區(qū)分前景目標與背景區(qū)域,從而關注顯著目標,抑制背景噪聲。盡管如此,交叉熵損失還是逐像素級別的損失計算,不符合人類從整體結構角度觀察物體的習慣。為此,LIU等[18]提出結合交并比(Intersection over Union,IoU)損失關注顯著目標的結構特性,如公式(2)所示。
目前,大多數(shù)圖像顯著性監(jiān)督都是在交叉熵損失與IoU損失的基礎上,設計各類權重,區(qū)分前景與背景,通過整合得到一個新的損失。除此之外,研究者對監(jiān)督方式的選擇也有所不同。CHEN等[19]對網(wǎng)絡不同層級的特征采取同時監(jiān)督。WU等[20]提出下采樣階段對淺層網(wǎng)絡采取邊緣真值的監(jiān)督,對深層網(wǎng)絡采取顯著性真值的監(jiān)督,此外利用上述兩種真值對上采樣階段的特征采取一種損失交替的監(jiān)督方式,突出前景輪廓檢測且產(chǎn)生均勻高亮的顯著圖。與上述兩種類型對多個特征進行監(jiān)督不同,陳家禎等[21]僅對網(wǎng)絡輸出層的結果進行監(jiān)督,從總體上看,多個損失監(jiān)督的方式相比僅對結果監(jiān)督的方式,可以在一定程度上提升訓練結果的性能。但是,某些特定屬性的數(shù)據(jù)集真值監(jiān)督,對于現(xiàn)實生活場景的復雜性與多樣性的滿足程度遠遠不夠,為了推進圖像顯著性在實際生活中的應用,也有考慮用弱監(jiān)督的方式作用于顯著性任務,ZHANG等[22]就提出利用輔助的邊緣檢測任務及門控結構的感知損失構造出偽標簽,將標簽交替迭代地用于網(wǎng)絡訓練中,即一邊訓練網(wǎng)絡完成預測,一邊用預測結果作為新的真值訓練網(wǎng)絡。
為了進一步了解基于深度學習的顯著性目標檢測研究現(xiàn)狀,本文利用柱狀圖對前文提及的代表性研究方法加以示意,詳見圖1,縱坐標的數(shù)值表示F度量值的大小,取值范圍為0.000—1.000,并且數(shù)值越大,表明預測效果越好,不同灰度柱狀圖的對應研究方法名稱在圖下方標注,其中BANet和ITBINet是利用邊緣檢測分支和細化網(wǎng)絡的邊緣增強策略,MAFNet和GCPANet是利用特征融合策略,PAGE是重點利用注意力機制,MLM為關注損失的策略,F(xiàn)3Net則同時兼顧邊緣增強、特征融合與損失。本文展示了DUTS-TE、ECSSD、HKU-IS和PASCAL-S四個廣泛使用的顯著性數(shù)據(jù)集結果,首先單獨觀察每個子圖的數(shù)據(jù)集,柱狀條的高度較為平均且數(shù)值均在0.800—0.950,表明目前基于深度學習的顯著性目標檢測的研究水平趨于一致且均能達到一定的效果,有利于顯著目標的準確定位與邊緣完整性。其次通過橫向對比不同數(shù)據(jù)集的F度量值發(fā)現(xiàn),DUTS-TE和PASCAL-S數(shù)據(jù)集的整體指標值要略低于其他兩個數(shù)據(jù)集,這是因為DUTS-TE和PASCAL-S數(shù)據(jù)集相較于其他數(shù)據(jù)集包含更加復雜的前景和背景,對顯著目標的識別具有一定的挑戰(zhàn)性。因此,基于深度學習的顯著性目標檢測目前主要面臨的問題是復雜自然場景下的目標識別。此外,F(xiàn)3Net方法在多個數(shù)據(jù)集上都能取得優(yōu)秀的表現(xiàn),表明在網(wǎng)絡特征提取的不同階段,綜合使用相應的深度學習策略,可以有效增強特征表達,提升預測結果的精準性。
圖1 4 個數(shù)據(jù)集的F度量值柱狀圖Fig.1 Histograms of F-measure on 4 datasets
本文圍繞深度學習,對20余種顯著性目標檢測方法展開了研究論述。首先,歸納了5 種深度學習框架;其次,探究依托于深度學習架構上的4 種深度學習策略,分析各自的作用原理與優(yōu)點、缺點。研究表明,兼顧整體與細節(jié)的方法更能滿足定位準確、邊緣完整的顯著性目標檢測要求。通過進一步分析在DUTS-TE、ECSSD、HKU-IS和PASCAL-S數(shù)據(jù)集上的F度量指標發(fā)現(xiàn),目前的深度學習方法對紋理清晰、目標單一的顯著性數(shù)據(jù)集已經(jīng)取得了較好的檢測效果,但是針對包含復雜前景背景的數(shù)據(jù)集,檢測會受到一定的干擾。未來將重點解決復雜場景下的顯著目標識別,構建自然場景下的復雜圖像數(shù)據(jù)集,并且加強在復雜數(shù)據(jù)集上的深度學習訓練。