張嘉偉, 劉曉晨, 趙東花, 王晨光, 申 沖 , 唐 軍, 劉 俊
(1. 中北大學 儀器科學與動態(tài)測試教育部重點實驗室, 山西 太原 030051;2. 中北大學 量子傳感與精密測量儀器山西省重點實驗室(201905D121001), 山西 太原 030051;3. 東南大學 儀器科學與工程學院, 江蘇 南京 210096; 4. 中北大學 信息與通信工程學, 山西 太原 030051)
長期以來, 模糊場景下獲取的輸入圖像嚴重影響了計算機視覺任務的性能表現(xiàn). 當環(huán)境受到諸如煙霧、 霧霾、 灰塵等大氣中漂浮顆粒物的影響時, 人類在自然界的活動就會受到嚴重的影響, 甚至因為能見度的缺乏而威脅到自身人身安全. 戶外拍攝的照片往往會出現(xiàn)對比度下降等問題, 其中包括顏色和結構細節(jié)的退化. 因此, 單幅圖像去霧逐漸成為一項重要的研究課題, 其目的是有效地從受損輸入圖像中恢復清晰圖像的基本信息. 這可以被用作許多領域的高級視覺任務的預先準備工作, 例如實時目標檢測、 遙感和自動無人運輸?shù)鹊? 而其他的一些最初受到霧中環(huán)境影響的計算機視覺應用, 也有機會得以完成.
一般來講, 霧天圖像的生成可以通過經(jīng)典的大氣散射模型來描述, 在物理大氣散射模型的基礎上, 早期研究中大多數(shù)去霧方法的提出依賴于物理學的先驗知識和各種假設[1-2]. 如He等[1]提出的暗通道先驗算法(DCP)就是其中最具代表性的算法, 這種方法在圖像去霧方面取得了一定的成績, 但其假設并不能準確地反映出圖像的內(nèi)在屬性. 因此, 這些技術的性能通常是極為有限的.
隨著近年來深度學習技術的興起與發(fā)展, 其逐漸被應用到一些簡單的計算機視覺任務中, 比如目標識別和圖像重建等等. 與傳統(tǒng)方法相比, 深度學習方法具有非凡的去霧能力和魯棒性. 此外, 隨著卷積神經(jīng)網(wǎng)絡(CNN)技術在圖像去霧方面取得的顯著成就, 越來越多的研究團隊傾向于使用類似的方法來估計大氣光以及傳輸圖, 利用外部數(shù)據(jù)以達到預期的效果. 例如, 在文獻[3]中, 采用端到端的方式來預估傳輸圖. 而在之后的研究中[4-6], 各種新技術逐漸被加入到這一領域來加強網(wǎng)絡的去霧效果. 由于深度學習網(wǎng)絡具有較強的表達性, 這些端到端的網(wǎng)絡模型往往能夠獲得比以往研究更好的去霧效果. 但是, 通?,F(xiàn)實中的霧比計算機模擬的霧要復雜得多, 這也使得這些方法更難處理現(xiàn)實的霧天圖像. 另一方面, 它們都不可避免地需要巨額成本來支持計算. 以往的研究過多地集中于通過大幅度增加模型的深度或?qū)挾群褪褂么罅康挠柧殔?shù)來提高網(wǎng)絡的去霧性能[5,7-8]. 但它們并沒有合理地考慮時間消耗、 內(nèi)存消耗或計算消耗, 這也使得這些模型不能應用于資源有限的環(huán)境中(如移動端設備).
本文提出了一種基于多步融合的端到端自適應特征注意去霧網(wǎng)絡用于單幅圖像去霧. 以往基于卷積神經(jīng)網(wǎng)絡的圖像去霧網(wǎng)絡通常采用固定形狀的卷積核, 導致無法有效利用特征空間中的結構線索. 而本文提出的自適應特征注意模塊可以在訓練過程中自適應調(diào)整可變形卷積核來獲取和處理空間中的關鍵結構信息. 此外, 多步融合模塊的應用能夠使網(wǎng)絡中不同層次、 不同步驟間的特征有效地結合在一起. 該網(wǎng)絡結構簡化而緊湊, 不僅降低了計算消耗, 而且在多個數(shù)據(jù)集和真實霧天圖像上皆顯示了良好的視覺效果. 大量的實驗結果表明, 本文的去霧網(wǎng)絡具有較高的有效性和實用性.
受文獻[7]中FA模塊的啟發(fā), 本文提出了一個新的自適應特征注意模塊作為本網(wǎng)絡的基本模塊, 并且只需要5個該模塊用于網(wǎng)絡的主要架構. 與此同時, 每個自適應特征注意模塊之間采用多步融合模塊來實現(xiàn)不同步驟之間的特征融合, 極大程度降低了計算所需的內(nèi)存(相比于原始網(wǎng)絡[7]中的57個特征注意模塊). 如圖 1 所示, 本文的網(wǎng)絡首先應用下采樣操作(如一個步長為1的卷積層和一個步長為2的卷積層,其后是各自的ReLU函數(shù))為使后續(xù)模塊獲得學習低分辨率域特征表示的能力. 在經(jīng)過連續(xù)的自適應特征注意模塊和多步融合模塊后, 最終使用相關的上采樣操作生成恢復的無霧圖像. 一般來說, 隨著網(wǎng)絡深度的增加, 邊緣等淺層特征會在訓練過程中逐漸丟失. 包括文獻[7,9]在內(nèi)的一些研究, 會通過多跳連接的操作將淺層特征和深層特征結合起來形成輸出.
圖1 基于多步融合的自適應特征注意網(wǎng)絡體系結構
在早期的研究中[5,7,10], 通常采用圖 2 右上方所示的固定網(wǎng)絡卷積核, 這導致了接受域的局限性, 使其無法有效地探索特征空間中的結構化線索. 因此, 為了解決這個問題, 調(diào)整接受域的形狀至關重要. 如圖 2 右下方所示, 由于可變形卷積核的靈活性, 它能夠自適應地獲取更關鍵的結構信息.
圖2 可變形卷積原理Fig.2 Principle of deformable convolution
空間不變的卷積核通常會導致圖像紋理的破壞, 這在之前的研究中已經(jīng)得到證實. 作為本文自適應特征注意模塊的核心要素, 在原始像素注意模塊[11]中引入2個具有可變形2D核的可變形卷積層, 如圖 3 所示.
該方法實現(xiàn)了感受野的自適應擴展, 提高了模型在聚焦于濃霧像素和高頻圖像區(qū)域計算時的轉換能力. 對網(wǎng)格的無約束變形進行采樣的能力也使網(wǎng)絡能夠自適應地整合更多的空間結構信息, 以達到更好的去霧效果. 此外, 在每個自適應特征注意模塊中, 深層部署時的可變形卷積效果優(yōu)于淺層部署時的可變形卷積效果. 因此, 該過程可以定義為
PA=Fin?
σ(DfConv(DfConv(Conv(δ((Conv(Fin))))))),
(1)
式中:DfConv代表可變形卷積運算;σ為sigmoid函數(shù). 自適應特征注意模塊的其余部分基本保持了特征注意模塊[7]的網(wǎng)絡結構.
圖3 自適應特征注意模塊的基本架構Fig.3 The basic architecture of the self-adaptation featureattention module
一般情況下, 包括邊緣等局部信息在內(nèi)的低級特征通常很容易被提取出來. 隨著感受野的提升, 網(wǎng)絡可以通過高級特征獲得全局范圍的語義. 在諸多例如目標檢測、 圖像恢復等基于CNN任務的情況下, 應用不同層次的特征提取與融合方法取得了顯著的效果. 然而, 在圖像去霧領域, 現(xiàn)有的特征融合方法沒有充分考慮不同層次的特征融合. 通常, 只使用高級特征會導致圖像缺乏局部細節(jié); 而只應用低級特征雖然保留了細節(jié), 但并不能有效地在全局級別恢復語義. 為了充分利用該方法的優(yōu)點, 本文在去霧網(wǎng)絡加入了多步特征融合模塊. 如圖 1 所示, 從左到右共有4個融合模塊. 第1個模塊將來自步驟1和步驟2的特征進行融合, 得到的融合特征1將被作為低級特征繼續(xù)與第2個融合模塊中步驟3的高級特征進行融合, 生成融合特征2. 同樣地, 步驟4之后生成的融合特征3也被用于步驟5后的最終特征融合模塊.
對于每個特征融合模塊, 通常分別存在一個低級特征和一個高級特征. 它們在融合之前都要經(jīng)過一個卷積層, 然后通過一個元素積來完成融合操作. 融合特征將兩個不同的特征組合在一起, 經(jīng)過卷積層和ReLU層, 然后依次由下一個融合模塊進行處理. 各融合模塊的高級特征和低級特征分別表示為Fh和Fl,δ表示ReLU函數(shù),F(xiàn)out表示整個模塊的最終輸出. 最后, 這個過程可表示為
Fout=δ(Conv(Conv(Fh)?Conv(Fl))).
(2)
由于采集真實的霧天圖像及其對照難度較大, 本文首先從RESIDE標準數(shù)據(jù)集[12]中選擇戶外訓練集(OTS)和合成目標測試集(SOTS)分別作為訓練目標和測試目標. 該數(shù)據(jù)集包含了豐富的合成霧天室內(nèi)外圖像以及與之相關的清晰圖像(即真值). 在基于CNN的圖像去霧領域, 其一直被研究者作為一個評估網(wǎng)絡性能的基準. 為了進一步評估本模型在現(xiàn)實場景中的綜合去霧能力, 本文還采用了Dense-Haze數(shù)據(jù)集[13]和NH-HAZE數(shù)據(jù)集[14], 這兩個數(shù)據(jù)集分別包含了來自各種室內(nèi)外場景的均勻和不均勻濃霧及其對應真值的55對圖像. 本文采用峰值信噪比(PSNR)和結構相似性指數(shù)(SSIM)作為評估部分的度量, 這些也是在去霧任務中用于比較圖像質(zhì)量的最常用標準.
首先, 本文利用合成數(shù)據(jù)集SOTS, 根據(jù)視覺效果和定量精度對所提網(wǎng)絡進行測試. 將本文所提方法恢復圖像的視覺效果與其他先進技術進行比較, 結果如圖 4 所示, 可以清楚地看到, 雖然使用了文獻[1]和文獻[5]方法的圖像成功地消除了霧霾, 但也造成了顏色失真、 亮度過高等問題. 相比之下, 利用文獻[6]和文獻[7]的方法獲得了相對較好的輸出結果, 但圖像的局部區(qū)域中仍存在著少量霧霾.
圖4 SOTS數(shù)據(jù)集圖像的視覺結果比較
此外, 本方法還與文獻[1]、 文獻[5]、 文獻[6] 和文獻[7]等方法進行了實驗比較, 測試集的定量結果如表 1 所示.
表 1 在SOTS數(shù)據(jù)集上與其它先進技術結果的定量比較Tab.1 Quantitative comparisons of results with SOTAtechniques on SOTS dataset
通過與表1中文獻[7]方法比較可以看出, 本文的自適應特征注意網(wǎng)絡實現(xiàn)了0.15 dB PSNR的性能提高, 雖然SSIM略微下降了0.007 5, 但由本文方法生成的圖像更加自然.
本文方法在文獻[13]和文獻[14]兩個數(shù)據(jù)集的測試結果與使用其他先進方法的結果進行了充分比較. 由于這兩者的濃霧密度都遠遠超出RESIDE數(shù)據(jù)集[12], 導致霧的去除難度更大. 從圖 5 和圖 6 可以看出, 無論是文獻[1]、 文獻[6]還是文獻[5]方法, 對于消除圖片中濃霧的視覺效果都是極其有限的, 在處理后的圖像中仍然存在大部分霧. 而利用文獻[7]方法去霧后的圖像中仍存在紋理丟失和顏色退化等特殊問題(盡管該算法的綜合性能相對前幾種較好). 通過視覺效果的比較, 本文方法在保留原圖像細節(jié)和結構的同時, 恢復出的圖像顯然比其他方法更加清晰.
圖5 Dense-Haze數(shù)據(jù)集上圖像的視覺效果比較
圖6 NH-HAZE數(shù)據(jù)集上圖像的視覺效果比較Fig.6 Visual results comparison of images on NH-HAZE dataset
如表 2 和表 3 所示, 在得到16.23 dB PSNR和0.521 3 SSIM的情況下, 本文的自適應特征注意網(wǎng)絡在Dense-Haze數(shù)據(jù)集[13]上的性能遠遠優(yōu)于其它方法. 此外, 其在NH-HAZE數(shù)據(jù)集[14]上獲得的PSNR和SSIM也是令人滿意的, 分別為21.38 dB和0.714 4.
表 2 在Dense-Haze數(shù)據(jù)集上與其它先進技術結果的定量比較Tab.2 Quantitative comparisons of results with SOTA techniqueson Dense-Haze dataset
此外, 通過在相同平臺上進行的實驗對比, 從表 3 的第3行與第4行中不難發(fā)現(xiàn), 本文提出的網(wǎng)絡在相對較少參數(shù)的情況下取得了較好的結果, 在計算參數(shù)和圖像恢復指標之間實現(xiàn)了較好的權衡, 同時, 也有效地降低了計算時間與損耗.
表 3 在NH-HAZE數(shù)據(jù)集上與其它先進技術結果的定量比較Tab.3 Quantitative comparisons of results with SOTA techniqueson NH-HAZE dataset
為了測試網(wǎng)絡在真實霧天照片上的去霧效果, 本文對從RTTS[12]數(shù)據(jù)集中獲得的大量真實霧天照片以及作者在大學校園內(nèi)收集的部分霧天圖像進行了測試和比較, 可視結果如圖 7 所示.
圖7 真實霧天照片的視覺效果比較Fig.7 Visual results comparison of real photographs with haze
可以看出, 雖然文獻[6]、 文獻[5]和文獻[7]方法在人工數(shù)據(jù)集上表現(xiàn)很好, 但它們對該類真實圖像的去霧效果并不十分令人滿意. 另外, 相對有效的文獻[1]方法容易產(chǎn)生顏色失真, 使圖像受到過度增強. 在某些情況下, 文獻[6]方法結果出現(xiàn)了浮動陰影, 而經(jīng)過文獻[5]方法處理后的圖像亮度相對變低. 總體而言, 本文模型在保持圖像整體亮度的同時, 在圖像細節(jié)恢復方面取得了較為出色的視覺效果, 重構出的圖像清晰、 無霧且感知質(zhì)量良好.
本文提出了一種端到端的去霧網(wǎng)絡, 該網(wǎng)絡主要由自適應特征注意模塊和多步融合模塊組成. 其中前者能夠自適應地提取帶霧圖像的細節(jié)特征, 從而擴大了處理復雜信息的范圍, 顯著提高了網(wǎng)絡的轉換能力. 后者使用來自多個步驟的特征并從它們的融合中獲得增益. 通過在不同數(shù)據(jù)集上進行的大量實驗, 并與幾種不同類型算法的結果進行比較, 本文方法均取得了較好的效果, 證明了該網(wǎng)絡結構在圖像細節(jié)恢復方面的明顯優(yōu)勢. 此外, 由于網(wǎng)絡的深度與設計的復雜性降低, 更緊湊的網(wǎng)絡顯著減少了算力功耗和操作所需的時間.