羅傳未,張子慧,賀子婷,周孟穎,馬 健
(安徽大學 互聯網學院,安徽 合肥 2 300001)
隨著雙目成像技術的發(fā)展,雙目相機和雙目攝像頭在手機和自動駕駛上的應用越發(fā)流行,立體圖像超分辨(Stereo Image Super-Resolution)領域逐漸被人們關注。立體圖像應用發(fā)展的同時,立體圖像超分辨任務也面臨著涉及圖像處理、計算機視覺、立體視覺等領域的基本問題。
基于現有的圖像超分辨率研究成果,領域內學者從不同角度對其進行了總結[1-3]。JEON等[4]提出一種基于視差先驗的立體圖像超分辨重建算法。該算法將右圖水平移動不同像素,生成64張副本圖像,將其與左圖級聯后送入網絡重建。WANG等[5]提出基于視差注意力機制的立體圖像超分辨算法,將self-attention引入到雙目視覺中,并通過設計valid mask解決左右圖遮擋問題。ZHANG等[6]提出用于立體圖像超分辨率的循環(huán)交互網絡(RISSRnet)來學習視圖間依賴關系。YING等[7]提出一個通用的立體注意力模塊(Stereo Attention Module,SAM),將其安插至預訓練好的單圖超分辨率(Single-Image-Super-Resolution,SISR)網絡中(如SRCNN[8])并在雙目圖像數據集Flickr1024上進行微調,結合左右圖互補信息的同時保持對單圖信息的充分利用,進一步提升了超分辨性能。ZHU等[9]提出了一種基于交叉視點信息捕獲的立體圖像超分辨算法。DAI等[10]提出一種基于視差估計的反饋網絡,可同時進行立體圖像超分辨重建和視差估計。
(1)雙目圖像中,視差的巨大變化使得左右圖互補信息難以被充分捕捉;
(2)在捕捉到左右圖的關聯后,如何充分利用雙目圖像提供的信息也具有挑戰(zhàn)性;
(3)雙目圖像超分辨在結合左右圖的互補信息的同時,還要充分利用一幅圖內的信息。
基于以上問題,本文主要研究了基于立體注意力機制的立體圖像超分辨方法。為獲得更好的立體圖像超分辨重建效果,本文對單圖超分辨率模型提出進一步改進,在模型的損失函數中加入平滑損失項,使模型在立體圖像對中獲得更好的一致性。通過對改進前后的算法進行實驗結果比較,驗證了改進策略的有效性。改進策略明顯提高了立體圖像超分辨重建后的圖像質量。
基于注意力機制的立體圖像超分辨算法的總體框架如圖1所示。首先,將立體圖像對(包括左視角圖像和右視角圖像)送入兩個SISR網絡中,提取左右圖的特征,并生成特征矩陣。其次,在兩個SISR網絡之間插入立體注意力模塊。該模塊將兩個SISR網絡提取的左右視角信息進行交互,通過卷積的方式,將單個視角圖像內部的信息與不同視角間的互補信息充分融合。最后,通過雙路的SISR網絡耦合重建高分辨率的立體圖像。
圖1 基于立體注意力機制的立體圖像超分辨算法網絡總體框架
SISR網絡會對輸入的左右視角圖像進行特征提取。經過立體注意力模塊時,立體注意力模塊將SISR網絡產生的這些立體特征作為輸入,捕獲立體對應關系,在立體圖像超分辨過程的多個階段交互圖像對的左右視角信息。該算法中的立體注意力模塊結構如圖2所示。
6.3 后期管護(1)用手輕推樹干,看苗木根系與土壤是否結合良好,若有明顯的裂縫或松動,則說明栽植不到位,應及時補救。(2)觀察樹坑。土壤疏松有利于根系的萌發(fā),為此,一方面看樹坑有無積水,另一方面看澆水后是否松土、有無裂縫要處理。
圖2 立體注意力模塊的內部結構
該算法網絡可看作一個多任務網絡,既可學習立體圖像間的立體對應,也可學習圖像的超分辨。在多個任務中,使用共享的圖像特征來學習不同任務。輸入的左右視角特征和C分別為特征圖的高度、寬度和通道數)先輸入過渡殘差塊Hresidual中,以避免多任務學習產生的訓練沖突,然后分別經過處理對應視角的1×1卷積層Hθ和Hγ生成對應的特征映射Fm1和Fmr(Fm1,Fmr∈RH×W×C)。
為了生成立體注意力圖,先將Fmr轉置為在與Fm1之間執(zhí)行批量的矩陣乘法,生成初始的注意力得分圖G∈RH×W×C。然后應用softmax分類,對G和GT進行歸一化處理,將多分類的輸出結果轉化為0到1之間的概率分布,分別生成Aright→left和Aleft→right的立體注意力圖。
為了將特征信息從一個視角轉移到另一個視角,并得到經過交互的對應視角特征,分別用生成的立體注意力圖Aright→left和Aleft→right乘上輸入模塊初始視角特征,構造視角信息經過交互后的特征Fleft→right和Fright→left(Fleft→right,Fright→left∈RH×W×C)。這一過程的具體表示如下:
式中:?表示批處理的矩陣乘法。
由于在遮擋區(qū)域中立體圖像間相對應區(qū)域的左右一致性不成立,被遮擋區(qū)域無法從另一側視角圖像中獲得額外信息。為處理遮擋問題,使用遮擋檢測的方法來生成有效的掩膜(Mask),引導特征的融合。觀察到遮擋區(qū)域中的像素通常有較小的權重,可用如下計算方法獲取該注意力模塊的上部分分支的有效掩膜Mleft→right:
式中:W是立體圖像的寬度,τ為閾值,根據實驗經驗設為0.1。因為左視角圖像中的被遮擋像素無法在右視角圖像中搜索到它們的對應,所以它們的Mleft→right(i,j)值通常較低,于是該網絡將這些區(qū)域作為遮擋區(qū)域。左視角圖像中的遮擋區(qū)域無法從右視角圖像中獲得附加的場景信息,因此有效的掩膜Mleft→right(i,j)可以進一步用于引導圖像特征的融合。同理,使用類似的方法生成該注意力模塊的下部分分支的有效的掩膜Mright→left。
為了將交互的不同視角間的互補信息與單個視角下圖像內部的信息整合起來,該模塊將輸入的左視角特征和經視角間對應交互得到的右視角特征Fright→left以及有效掩膜Mleft→right三者相級聯,通過一個卷積層整合,得到特征即為該模塊輸出到網絡中的左視角特征。輸出的右視角特征也用相似的方法生成。這一過程可表示如下:
式中:cas(·,·,·)表示級聯操作,Hψ和Hξ分別表示對應的視角處理線路上的卷積操作,該操作將交互后的視角特征信息與原輸入特征信息以及有效掩膜整合到一起。
該算法主要使用了兩項損失來訓練網絡,分別是超分辨損失和光度一致性損失。網絡的總損失函數定義為
式中:μ為正則化權值,根據經驗設置為0.01;n為網絡中注意力模塊的個數。LSR表示超分辨損失,定義為超分辨重建后的左視角圖像與左視角圖像高分辨率主觀值之間的均方誤差(Mean Square Error,MSE):
Lphotometric表示光度一致性損失,*表示同階矩陣乘法,Ileft和Iright分別表示輸入的左視角圖像和右視角圖像。該損失定義為
本小節(jié)在加入立體注意力機制的SISR方法基礎上,對本文的算法網絡做出一個改進,以實現更好的立體圖像超分辨性能。
在本算法中,如果立體注意力圖更加平滑,梯度更小,則可以獲得更好的立體圖像超分辨效果。在當前損失函數的基礎上,本節(jié)引入平滑損失(Smoothness Loss)函數,將平滑損失定義在立體注意力圖Aleft→right和Aright→left上,具體定義如下:
式(9)的第一項用于實現圖像垂直方向的注意一致性,第二項用于實現水平方向的注意一致性。加入該平滑損失,可以在弱紋理區(qū)域中產生更加準確且具有一致性的注意力,對圖像起到平滑的作用。
加入平滑損失后,該算法網絡的總損失函數定義如下:
式中:λ經過多次實驗測試得出設置為0.002 5的效果最好,此處設置為0.002 5;n為網絡中立體注意力模塊的個數,其他項詳見第2.3節(jié)中對于損失函數的描述。
本節(jié)首先介紹了數據集和實驗設置,然后對改進前后的基于立體注意力機制的立體圖像超分辨算法進行對比實驗和分析。
本文使用Flickr1024數據集[11]作為訓練集。在實驗中,考慮到計算資源的有限,本文僅選擇Flickr1024數據集中的400張圖像進行網絡模型的訓練,同時對該數據集進行了訓練數據的增強。
在對模型的測試中,本實驗使用來自Middlebury數據集[12]的5對立體圖像,來自KITTI 2012數據集[13]的20對立體圖像和來自KITTI 2015數據集[14]的20對立體圖像作為測試數據集,用于檢驗和選擇出最好的模型。此外,還從該數據集中選擇了另外50對立體圖像作為驗證集,以挑選出最優(yōu)的模型結構。
在算法改進的對比實驗設置上,本文選擇合適的SISR網絡,對改進前后的基于立體注意力機制的立體圖像超分辨算法進行對比實驗和分析,以探究此項改進的有效性。
本文僅針對4倍的超分辨網絡應用此項平滑損失的改進。首先對比了SRCNN模型和SRResNet模型改進前后的4倍超分辨結果。其中,“SA_smooth”表示使用該注意力模塊且加入平滑損失的算法。實驗結果如表1所示。引入平滑損失后,SRCNN和SRResNet模型的峰值信噪比(Peak Signal to Noise Ratio,PSNR)值和結構相似性(Structural Similarity,SSIM)值總體比之前有所提高,其中SRResNet模型的改進較多,PSNR的平均值增益有0.103 dB。由此可得,本節(jié)對于算法網絡的損失函數的改進加強了對圖像中信息的利用,增進了其超分辨效果。
表1 改進前后SRCNN和SRResNet模型的4倍超分辨效果對比
由于此改進策略在SRResNet模型上的表現效果較好,本文繼續(xù)在該網絡上深入分析所提出改進的作用。圖3展示了Flickr1024數據集的圖像塊0543_001的兩張立體注意力圖的灰度圖可視化。圖3(a)由無平滑損失的網絡生成,圖3(b)由加入平滑損失的網絡生成。從圖3的紅框區(qū)域可以看出,圖3(a)存在梯度不均勻的情況,不加平滑損失的網絡梯度較大。而加入該項損失后,得出的圖3(b)的梯度明顯更加均勻,這使得重建后的立體圖像更加光滑,具有更好的質量。
圖3 改進前后訓練樣本0543_001的注意力圖的灰度圖可視化
梯度流向圖可以清晰直觀地呈現模型網絡中的梯度流向,反映出梯度下降的情況,對于調整模型網絡具有重要意義。圖4展示了訓練樣本圖像塊0001_001在兩個網絡中的梯度流向圖。其中,圖4(a)是不使用平滑損失生成的流向圖,圖4(b)是加入平滑損失生成的流向圖。觀察改進前后生成的流向圖可以看到,加入平滑損失后,梯度顯著減小了,說明其立體注意力圖更加光滑,證明平滑損失對于圖像質量提升有重要的作用。
圖4 改進前后訓練樣本0001_001的梯度流向圖
本文還分別計算了改進前后SRResNet網絡的L1loss,以探究此項改進對梯度定量值的影響。隨機選擇訓練集中的10個圖像塊,分別計算它們在未引入平滑損失和引入平滑損失后訓練時的L1loss,結果記錄在表2中。如表2數據顯示,加入平滑損失后,L1loss的數值均比之前減小了,加快了收斂的速度。由于L1loss容易受極端值影響,導致梯度方向偏離正常水平的點,因此可以用來衡量圖像的光滑程度。改進后L1loss變小,也說明加入平滑損失可以賦予梯度更合理的懲罰權重,視覺效果也會更加自然。
表2 改進前后SRResNet網絡處理部分圖像塊的L1loss
通過上述對加入了注意力機制的SRResNet模型上平滑損失的影響的深入分析,可以證明加入平滑損失后,立體注意力圖的光滑性會增強。當然,由于映射關系,重建后的立體圖像也會更加光滑,這是提升圖像質量的一個部分。同時,平滑損失函數相當于訓練的正則項,加入之后可以有效地避免一些過擬合問題的產生。因此,平滑損失函數的加入是有必要的,本文對于該基于立體注意力機制的立體圖像超算法損失函數部分的改進具有一定的有效性和必要性。
本文提出了一種基于立體注意力機制的立體圖像超分辨重建改進算法。通過在損失函數中引入平滑項,實驗驗證了改進前后高分辨率立體圖像質量得到了明顯的提高。同時,現有的立體圖像數據集總體質量處于弱勢,限制了立體圖像的重建算法發(fā)揮更好的作用。未來的研究中可以考慮構建圖像數量更多、場景更為豐富、圖像質量更好的立體圖像數據集,訓練出更高效的立體圖像超分辨模型。