吳笑天,楊 航,孫興龍
(1.長春理工大學光電工程學院,吉林 長春130022;2.中國科學院 長春光學精密機械與物理研究所,吉林 長春130033)
計算成像技術是視覺技術不斷發(fā)展演進中與時俱進形成的新興交叉學科,一般泛指在成像全鏈路過程中涉及計算的成像技術。計算成像技術通過全成像鏈路環(huán)節(jié)的定向分析及聯(lián)合優(yōu)化,主動或被動的形成目標場景和觀測圖像之間的調制或變換模型,并基于該模型通過數(shù)學上逆問題求解反演解算生成所需圖像的過程。因此,計算手段的求逆過程是計算成像中的核心問題。圖像清晰化技術是計算機視覺領域的熱點問題[1-2],近年來隨著計算成像技術的普及深入,也促進著該技術在計算成像領域的發(fā)展及應用。本文針對波前編碼、單透鏡計算成像等計算成像領域的全局一致模糊計算復原背景需求,開展圖像清晰化理論方法的研究。
在上述計算成像的子課題領域,波前編碼[3]計算成像過程通過添加相位掩模板實現(xiàn)光學調制的過程從而實現(xiàn)成像系統(tǒng)景深的延拓;單透鏡計算成像過程[4]則通過帶有菲涅爾結構條紋的單透鏡實現(xiàn)光學調制的過程,并最終實現(xiàn)單透鏡大視場的輕巧成像。該調制過程在圖像傳感器層面上相當于實施了全局一致模糊化降質的過程,光學調制的引入需要“計算解調”過程實現(xiàn)圖像復原處理。因此,一種穩(wěn)定可靠的全局一致模糊復原算法成為上述領域研究的關鍵問題。
全局一致模糊化降質的過程,可以建模為清晰圖像L與模糊核k的卷積,其數(shù)學表達式如公式(1)所示:
其中:O為觀察到的模糊圖像,L為清晰圖像,k為全局一致模糊核,n是加性噪聲,“?”表示卷積算子。圖像去模糊過程其實質是在已知模糊圖像O而未知的清晰圖像L和模糊核k條件下,實施清晰圖像L的估計。該問題為全局一致的盲復原問題,在數(shù)學上是一個經(jīng)典的病態(tài)問題。
盲復原問題的求解通常通過構建目標函數(shù)及添加先驗約束以實現(xiàn)病態(tài)問題中模糊核估計的可解化,并由此將盲復原問題轉化為非盲反卷積問題,從而實現(xiàn)清晰圖像L的求解。在這種情況下,模糊核估計的精度直接決定并影響著復原圖像的效果。傳統(tǒng)優(yōu)化方法一般通過添加先驗約束實施,易出現(xiàn)先驗約束失效的情形;通過構建端到端的深度學習復原網(wǎng)絡能夠獲得很好的復原效果,但是實現(xiàn)效果依賴訓練過程,限制了該方法的實際使用與普及推廣。
為了解決上述問題,本文提出了一種基于區(qū)域選擇網(wǎng)絡的圖像去模糊方法。該方法是傳統(tǒng)模糊復原與深度學習理論方法的結合。該方法最大的特點在于在傳統(tǒng)復原方法的主體基礎上,引入了區(qū)域選擇網(wǎng)絡,該網(wǎng)絡不直接參與圖像端到端的復原,而是對于模糊復原問題中關鍵因素——模糊求取區(qū)域選擇進行干預,能夠在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,自動選取最適宜求解模糊核的區(qū)域,從而規(guī)避了基于優(yōu)化復原方法先驗失效的弊端。
本文方法的實現(xiàn)思路不同于多數(shù)深度學習端到端的圖像復原方法。本論文所設計的網(wǎng)絡雖然需要數(shù)據(jù)集的預訓練,但數(shù)據(jù)集的制備不依賴波前編碼、單透鏡計算成像等應用場景的針對性訓練,所提出的網(wǎng)絡不直接用于圖像端至端的生成,規(guī)避了其他深度學習方法依賴訓練數(shù)據(jù)的弊端。
試驗結果表明,本文提出的方法能夠適應全局一致模糊復原任務,區(qū)域選擇網(wǎng)絡魯棒性較好,能夠獲得良好的模糊核估計,整體復原結果清晰可靠。
計算成像強調面向成像背景需求的定向化、定制化設計,具有明顯的問題導向性特點。目前缺乏統(tǒng)一的數(shù)學模型表述。波前編碼和單透鏡計算成像為計算成像領域的兩個子分支。
波前編碼成像技術[3,5]是指在在光學成像系統(tǒng)中引入相位掩模板,從而使得像面上的光線不再匯聚為一點,而是變成在一定離焦范圍內均勻的細光束。雖然這樣的設計會導致探測器直接獲取的圖像變得模糊,但是這種模糊是計算可逆的,并且能在較長焦深范圍內實施這種計算重構,最終擴展的焦深范圍可達傳統(tǒng)鏡頭的10倍。圖1為文獻[5]所示的實現(xiàn)結果,該文的計算解調圖像復原算法基于傳統(tǒng)的優(yōu)化方法實現(xiàn)。
圖1 計算衍射成像及其圖像復原效果Fig.1 Diffractive computational imaging and its restora?tion
單透鏡計算成像領域旨在解決系統(tǒng)成像的輕巧化設計[6]。設計者通過單一透鏡取代傳統(tǒng)成像系統(tǒng)的多層鏡片光學結構,并將單一透鏡的像差優(yōu)化交付給計算軟件,實現(xiàn)清晰圖像的恢復。最新的單透鏡成像方式由斯坦福大學在2019年提出,該文實現(xiàn)了一種基于菲涅爾結構條紋的單透鏡的大視場計算成像方法[4],該方法在光學設計上在單凸透鏡表面利用菲涅爾結構條紋,實現(xiàn)的光學系統(tǒng)像差不隨入射角變化,全視場范圍內光學系統(tǒng)的點擴散函數(shù)(Point Spread Function,PSF)近乎一致但顯示出較大的光斑尺寸,便于計算復原的實施與開展,如圖2所示。
圖2 單透鏡計算成像及其復原效果Fig.2 Single-lens computational imaging and its restora?tion
該文的計算解調圖像復原算法基于生成對抗網(wǎng)絡[7]實現(xiàn)端至端的圖像復原,數(shù)據(jù)訓練過程較為復雜,需要基于實驗室條件下的采集回顯系統(tǒng)實現(xiàn)訓練數(shù)據(jù)的制備。
上述兩者雖然應用場景有著很大的區(qū)別,但是計算成像“光學調制”的過程均體現(xiàn)在探測器直接獲取的圖像表現(xiàn)為明顯的全局一致的成像模糊。計算解調的實施均依賴穩(wěn)定可靠的全局一致模糊圖像的復原算法。
對于2.1節(jié)所述的全局一致模糊的圖像復原需求,全局一致模糊核估計是其中的關鍵環(huán)節(jié),而區(qū)域選擇又是模糊核估計的關鍵步驟。文獻[8]指出從圖像中選擇最優(yōu)區(qū)域而不是整幅圖像,實現(xiàn)模糊核的估計,不僅在成像效果提升上有顯著意義,同時還能夠降低復原計算的時間復雜度,提升運算效率。
為了證明模糊核求取區(qū)域選擇對整體復原效果有著直接的影響,本文針對性地做了一組實驗,如圖3所示。
圖3 不同的區(qū)域的模糊核估計及其復原效果Fig.3 Different patches lead to different kernel estima?tions and different deblurred results.
圖3(a)為原始降質模糊圖像,在該降質模糊圖像中分別選取藍色、綠色及紅色圖塊區(qū)域為模糊核求取區(qū)域,使用同樣的復原方法[9]獲得模糊核估計及整體復原效果分別如圖3(b)、圖3(c)、圖3(d)所示。試驗結果表明,圖3(d)所示復原效果最優(yōu),圖3(c)所示的復原效果有少許振鈴,圖3(b)所示的復原效果則完全失效。由此可見,模糊核求取區(qū)域選擇對整體復原效果有著直接的影響(彩圖見期刊電子版)。
區(qū)域選擇需要充分利用模糊圖像中各類結構信息。然而,并不是所有的模糊圖像像素都對模糊核估計有積極的影響。文獻[9]指出具有強邊緣的區(qū)域可以產(chǎn)生較好的去模糊效果。Fer?gus等人[10]選擇方差大、飽和度低的圖像塊進行模糊核估計。文獻[11]基于一維信號證明了短長度的邊緣對模糊求取會產(chǎn)生有不利的影響,模糊核的尺度相對大于目標時,即使具有較強的邊緣信息的區(qū)域也不能改善模糊核估計的效果。文獻[12-14]中提出了多種基于梯度的方法,其試驗結果均表明具有特殊梯度模式的顯著邊緣有利于模糊核估計。Bae等人[15]提出了一種基于非直線度和邊緣尺寸的像素級度量來選擇圖像區(qū)域來估計模糊核的方法。Hu等人[8]利用Ga?bor濾波器組構造圖像特征,并學習二元分類器在條件隨機場(CRF)框架內選擇好的去模糊區(qū)域。CRF模型雖然取得了良好的效果,但由于圖像特征的人為設計和計算復雜度的提高,使其應用范圍受到了很大的限制。
計算成像領域的圖像復原需求雖然與運動模糊復原有著本質的區(qū)別,但是計算成像采用的復原方法多數(shù)源自運動模糊復原領域。一般的運動模糊復原方法主體上可分為兩類:基于優(yōu)化的方法和基于學習的方法。
基于優(yōu)化的方法側重于探索圖像的各類先驗模型。Fergus等人[10]提出了自然圖像的稀疏梯度先驗。Cho和Lee[13]在多尺度框架中利用圖像梯度先驗進行圖像去模糊處理。Xu等人[11]提出了一種兩階段算法來改進模糊核的估計。Levin等人[9]通過優(yōu)化最大后驗概率(MAP)模型來估計模糊核。Gong等人[16]利用梯度激活方法選擇梯度子集進行模糊核估計,而不是使用圖像中的強邊緣。這些圖像去模糊方法對大部分的自然模糊圖像是有效的,但是對于特殊類型的圖像,如低照度圖像、文本圖像和人臉圖像等等,這些方法都會遇到困難。
為了解決這些問題,學者們提出了許多更加具體的圖像先驗模型[17-21]。Lai等人[17]利用顏色線來復原圖像的邊緣。對于文本圖像,Pan等人[19]在圖像強度和梯度上均引入了L 0正則化先驗,提出了一種用于去模糊圖像的暗通道先驗算法,該算法對低照度圖像、文本圖像和人臉圖像都有很好的復原效果。然而,當圖像中以亮度高的像素為主時,暗通道先驗就無法有效的估計模糊核。針對暗通道先驗算法的缺點,Yan等人[20]進一步提出了一種結合暗通道先驗和亮通道先驗的極端信道先驗,提高了去模糊方法的魯棒性。Chang等人[21]提出了一種局部最大梯度(LMG)先驗,它可以處理各種特殊的圖像場景。
隨著深度學習在高層次視覺領域的成功應用[22-23],出現(xiàn)了許多基于深度卷積網(wǎng)絡的圖像去模糊方法。Schuler等人[24]使用訓練好的深度網(wǎng)絡估計模糊核,然后使用傳統(tǒng)的非盲反卷積方法復原清晰圖像。Hradis等人[25]在不假設任何模糊類型的情況下,通過訓練深度網(wǎng)絡直接重構出清晰的文本圖像。Yan等人[26]提出了一個深層卷積網(wǎng)絡和一個一般回歸網(wǎng)絡來分類模糊核的類型并估計其參數(shù)。Li在文[27]中利用二元分類網(wǎng)絡訓練優(yōu)化模型框架下的先驗信息,取得良好的實現(xiàn)效果;Nah[28]提出了一種多尺度卷積神經(jīng)網(wǎng)絡,以端到端(End to End)的方式實現(xiàn)模糊圖像的清晰化復原,同時該文發(fā)布了GOPRO數(shù)據(jù)集,廣泛用于后續(xù)的模糊圖像復原的各種對比研究。但此處需要指出的是,該數(shù)據(jù)集用于研究全局非均勻一致的模糊復原討論,與本文應用限定的全局一致模糊前提不一致,因此本文后續(xù)的研究中沒有在該數(shù)據(jù)集的基礎上開展討論;Zhang在文[29]中提出將RNN的特征提取優(yōu)勢與CNN的權重學習特性相結合,提出了一種可用于非均勻運動模糊端至端的復原神經(jīng)網(wǎng)絡;Kupyn等人在文[7,30]提出用于去圖像運動模糊的端到端生成對 抗 網(wǎng) 絡(Generative Adversarial Networks,GAN)。
大量的圖像去模糊研究致力于利用圖像先驗假設來提高模糊核估計效果和改進復原圖像的視覺質量,而圖像結構特征對模糊核估計的影響研究較少。Li在文[27]中雖然同樣提出使用二元分類網(wǎng)絡,但該文方法使用網(wǎng)絡學習的手段實現(xiàn)先驗信息的替代。本文方法是通過訓練深度二元分類的區(qū)域選擇網(wǎng)絡找出有用的圖像結構以進行模糊核估計,進而復原出清晰圖像。
基于區(qū)域選擇網(wǎng)絡的圖像復原方法主要包括區(qū)域選擇網(wǎng)絡、模糊核估計、非盲圖像復原及基于光學衰減模型的圖像增強過程,其主要流程參見圖4所示。
圖4 基于區(qū)域選擇網(wǎng)絡的圖像復原方法的流程示意圖Fig.4 Flow chart of image restoring method based on region selection network
3.1.1 區(qū)域選擇網(wǎng)絡
區(qū)域選擇網(wǎng)絡的主要作用在于對傳統(tǒng)方法中模糊核求取區(qū)域的選擇進行干預,通過構建的深度二元分類網(wǎng)絡,能夠自動在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,并選取最優(yōu)的用于模糊核求取的圖塊區(qū)域;區(qū)域選擇網(wǎng)絡的詳細介紹參見3.2節(jié)所述。經(jīng)過區(qū)域選擇網(wǎng)絡的遍歷后,區(qū)域選擇網(wǎng)絡會依據(jù)圖塊的輸入自動輸出最佳的區(qū)域選擇位置及相應圖塊B。
3.1.2 模糊核估計
依據(jù)該區(qū)域選擇位置,我們采用文[19]的方法實現(xiàn)該區(qū)域的模糊核估計,優(yōu)化函數(shù)如公式(2)所示:
其中:B為區(qū)域選擇網(wǎng)絡推薦的圖塊,L為推薦圖塊對應的估計值;項使得估計值圖塊L與模糊核k的卷積應盡量趨近于觀測圖塊B;為卷積核的正則化項用于促使復原圖塊L盡量保持梯度稀疏性為該文提出的用于測量暗通道先驗稀疏性的正則化項;γ,μ,λ為正則項參數(shù)。
3.1.3 非盲圖像復原
在已知模糊核估計的基礎上,利用文獻[18]的方法,實現(xiàn)全局模糊圖像的非盲復原過程,該過程首先使用Laplacian先驗估計目標圖像L l,然后再采用公式(3)所述的迭代過程得到另一個結果LTV。
然后計算二者的差值:L diff=L l-L TV,該差值圖像中包含振鈴,因此采用雙邊濾波對其中的振鈴進行濾除,得到結果BF(Ldiff),最后,用L l減去BF(Ldiff)得到最終的去模糊圖像O?(x)。
3.1.4 圖像清晰化
從文獻[4-5]采集的計算成像系統(tǒng)的試驗數(shù)據(jù)可知,這些計算成像的前端除了引入全局一致圖像模糊外,由于光學系統(tǒng)的“不完善”還引入一定程度的衰減。光學系統(tǒng)的衰減雖然在成像鏈條上與大氣衰減不同,但是成像衰減模型是相同的。因此,我們在后端加入基于光學衰減模型的圖像增強過程。試驗結果表明,基于光學衰減模型的圖像增強過程能夠良好的改善圖像對比度,有利于保持成像系統(tǒng)的顏色恒常性。成像衰減模型如公式(4)所示:
其中:O(x)為經(jīng)過模糊化消除后的觀測圖像,J(x)為待恢復的場景圖像,t(x)為傳輸參數(shù),A為背景光參數(shù)。
在該衰減模型的基礎上,我們使用基于暗通道先驗[31]及圖像引導濾波[32]的圖像清晰化方法實現(xiàn)圖像增強過程,如公式(5)所示,暗通道先驗及引導濾波的相關原理參見相關文獻所述[31-32]:
其 中:Guided(minΩ(x)(O?(x)))表 征 在 引 導 濾 波優(yōu)化下的暗通道圖像的獲取,c為顏色空間,w為防止圖像過增強而引入的固定參數(shù),設置為0.9。
在已知傳輸參數(shù)圖像的基礎上,通過公式(6)實現(xiàn)圖像的復原處理。
其中:max(t(x),t0)為防止圖像過增強而引入的限值操作,t0為固定參數(shù),設置為0.1。
受文獻[27]利用二元分類網(wǎng)絡實現(xiàn)模糊先驗評判的啟發(fā),本文同樣選擇二元分類網(wǎng)絡作為模糊區(qū)域的推薦網(wǎng)絡的主體架構。在實際部署應用時,該網(wǎng)絡能夠對輸入圖像以步長為5執(zhí)行全局遍歷圖塊過程,每一個圖塊均被輸入進網(wǎng)絡,網(wǎng)絡輸出為一個概率值,表征這個圖塊能夠用來估計模糊核的可能性有多大。例如如果輸出為0.95,則表明該圖像塊能夠估計出好的模糊核的可能性高達95%。最終選擇所有輸出中概率值最高的圖塊作為最優(yōu)的模糊核求取區(qū)域推薦。
為了實現(xiàn)這樣的二元分類網(wǎng)絡,本文基于ResNet34[33]要作為網(wǎng)絡架構的主體,合理設計了該網(wǎng)絡的損失函數(shù)及參數(shù)配置,構建了該網(wǎng)絡的訓練數(shù)據(jù)集,本文后續(xù)章節(jié)將詳細介紹上述內容。
3.2.1 網(wǎng)絡結構
分類問題是機器學習的基本問題。深度學習理論方法對于分類領域有著成功的應用。比較經(jīng)典的深度學習分類方法包括VGGNet,In?ceptionNet, ResNet, DenseNet, Inception?ResNet等。
考慮后續(xù)算法的工業(yè)化移植部署,權衡效果、效率、資源依賴等因素,本文選擇ResNet34[33]作為本文網(wǎng)絡實現(xiàn)架構的主體。
部署ResNet34網(wǎng)絡的主要目的在于實現(xiàn)輸入圖塊是否適宜作為圖像模糊核估計區(qū)域的判定,即二元判定。以+1作為適宜模糊核估計的區(qū)域,以0作為非適宜模糊核估計的區(qū)域。
對于ResNet34網(wǎng)絡的直接部署不適宜本文的應用場景。常規(guī)的神經(jīng)網(wǎng)絡以“分類”作為主要目的,希望強化平移不變性,以期實現(xiàn)對于目標的穩(wěn)定分類。但是本文的網(wǎng)絡結構在于圖像模糊核估計區(qū)域選擇,因此希望弱化網(wǎng)絡結構的平移不變性。事實上,如圖5所示,對于圖5(a)圖塊平移少量像素確實導致核相似度的顯著變化。
圖5 移動子窗口的不同模糊核估計Fig.5 Estimated kernels from shifting sub-windows
為了弱化網(wǎng)絡的平移不變性,同時也為了保證網(wǎng)絡訓練的泛化性能和準確性,我們對ResNet34進行改進,將其中的池化層用大步長的卷積層替代,以此來提高網(wǎng)絡的分類性能。如此改動的依據(jù)來自文獻[34],該文指出深度卷積網(wǎng)絡的平移不變性主要來自于池化層。
3.2.2 損失函數(shù)
本文對輸入圖像塊及其標簽分別用x和y表示,網(wǎng)絡參數(shù)用θ表示。訓練CNNs的目的是要學習訓練出公式7所示的映射函數(shù)預測出x被分類為y的概率。
使用二元交叉熵損失函數(shù)對深度網(wǎng)絡進行優(yōu)化:
其中:N表示樣本的個數(shù),=f(x;θ),表示網(wǎng)絡的輸出,本文設置y=1表示有利于模糊核估計的區(qū)域,y=0表示對模糊核估計無作用的區(qū)域。
3.2.3 數(shù)據(jù)準備
為了證明本文方法遷移應用的有效性,本文沒有在波前編碼系統(tǒng)[5]及單透鏡的成像系統(tǒng)[4]中實施針對場景部署的數(shù)據(jù)訓練。本文使用運動模糊數(shù)據(jù)庫及相應的模糊圖像生成技術實現(xiàn)數(shù)據(jù)庫的構建。使用運動數(shù)據(jù)庫的意義有兩點,一則證明本文方法的遷移應用的有效性,二則方便后文與其他的運動模糊方法做對比。
3.2.3.1 圖塊制備
本文訓練數(shù)據(jù)集主要源自Hu的文獻[8],本文選擇了其中30個清晰的圖像,包括自然場景、人造場景、文本和人臉圖像,以及32個大小、類型不同的模糊核,其尺度從11×11到55×55。采用文獻[9]中的方法生成960個模糊圖像以供訓練,并獲取了960個模糊核的真值數(shù)據(jù)。然后,利用清晰圖像和模糊核的卷積,同時加入高斯噪聲合成模糊圖像,其中噪聲的方差為4.0。
在上述960個帶有真值模糊核的模糊圖像中截取圖塊作為網(wǎng)絡訓練的樣本。對于每個圖像,構造一個尺寸大小為228×228個像素的圖像子塊集合,其方法如下:從圖像的左上點為起始,每次取228×228大小的圖像塊作為集合中的一個元素,然后再向右平移20個像素,采集下一個圖像塊,當一行掃描結束后,回到最左側并向下移動20行作為新的起始點,并按照第一行的方式獲取圖像子塊。實驗發(fā)現(xiàn),當模糊核的尺寸小于55×55個像素時,本文設置的圖像塊的大小足以用來估計模糊核。在給定這些參數(shù)的情況下,對于一幅450×450大小的圖像,可以獲得121個圖像塊作為訓練樣本。最終獲取了約3萬個訓練圖塊。
3.2.3.2 數(shù)據(jù)標定
在獲取的3萬個訓練圖塊的基礎上,對數(shù)據(jù)圖塊進行標定,將數(shù)據(jù)圖塊進行正類(+1)和負類(0)的標識,正類表示這些區(qū)域可以很好地估計模糊核,而負標記圖像區(qū)域不能用來估計模糊核。正類和負類的標定依據(jù)文[7]中提出的估計模糊核與相應的真值間的相似性方法。
對于從每個圖像塊使用Yang等人[35]的方法來估計每個圖像塊的模糊核,使用文[8]方法評估真值相似性。如果相似度大于閾值λ,則將圖像區(qū)域標記為1,否則將圖像區(qū)域標記為0。為了便于訓練和網(wǎng)絡的泛化能力,使正負樣本的比例接近1∶1,同時也為了保證模糊核估計的準確性,將閾值λ=0.75。
3.2.4 參數(shù)設置
對于模型訓練,利用隨機梯度下降法(SGD)對網(wǎng)絡進行優(yōu)化。本文使用的批量大小為32,動量設置為0.9,學習率設置為0.001。使用ResNet34的預訓練參數(shù)作為初始化參數(shù),對網(wǎng)絡中被替換的卷積層、第三層、第四層和全連接層進行微調。根據(jù)本文實驗,20次迭代可以達到收斂。
文獻[5]提供了幾組利用該文波前編碼成像系統(tǒng)采集試驗數(shù)據(jù)。本文在未使用該文數(shù)據(jù)庫參與試驗訓練的基礎上,利用本文所述的方法獲得的試驗效果如圖6所示。從圖中可以看出,本文方法在細節(jié)恢復及顏色對比度方面略優(yōu)于文獻[5]的方法。
圖6 單透鏡計算成像及其復原效果Fig.6 Diffractive computational imaging and its restora?tion
文獻[4]實現(xiàn)了基于菲涅爾條紋結構的單透鏡成像系統(tǒng),并提供了幾組試驗數(shù)據(jù)。本文同樣在未使用該文數(shù)據(jù)庫參與數(shù)據(jù)訓練的基礎上,利用本文所述的方法獲得的試驗效果如圖7所示。試驗結果表明,本文的方法在圖像復原處理效果上與文獻[4]的方法接近,但是細節(jié)對比處發(fā)現(xiàn),文獻[4]的方法在平坦區(qū)域形成明顯的噪聲。
圖7 單透鏡計算成像及其復原效果Fig.7 Single lens computational imaging and its restora?tion
此外,文獻[4]的方法實現(xiàn)了良好的顏色白平衡效果,這是端至端的匹配訓練過程中由訓練數(shù)據(jù)“驅動”實現(xiàn)的效果,這是該類深度學習復原方法的優(yōu)勢;但同時也是其潛在的劣勢。如文獻[4]所述,該文需要部署專用的采集回顯系統(tǒng)做針對性的訓練數(shù)據(jù)采集,不僅造成了系統(tǒng)批量使用中的諸多不便,也增加了實際使用中由于場景變化而導致的潛在的成像不確定性。
本文提出方法,算法主體沿用傳統(tǒng)模糊復原圖像清晰化理論方法;所引入的區(qū)域選擇網(wǎng)絡,不直接參與圖像端到端的復原,而僅對模糊復原中關鍵因素模糊區(qū)域選擇進行干預,以此優(yōu)化模糊核估計這一關鍵參數(shù)。所涉及的網(wǎng)絡雖然需要數(shù)據(jù)集的預訓練,但數(shù)據(jù)集的制備不依賴場景的針對性訓練。從圖6~圖7的成像復原效果可知,本文方法在場景成像數(shù)據(jù)未參與訓練的基礎上,在上述兩種計算成像場景中均實現(xiàn)了較好的復原效果,具有良好的復原穩(wěn)定性優(yōu)勢。
據(jù)調研,在2.1節(jié)所述的計算成像領域內基于區(qū)域選擇網(wǎng)絡實施的圖像去模糊方法,本文尚屬首例,上述領域相關數(shù)據(jù)試驗集的發(fā)布也較少,且無真值參考圖像,不利于開展對比試驗。因此,本文選擇在運動模糊復原領域開展基于本文方法的對比試驗。
4.2.1 人工及其他區(qū)域選擇方法的對比試驗
現(xiàn)有的區(qū)域選擇方法主要包括Fergus的文獻[10],Xu的文獻[11],及Hu的文獻[8],及人工交互式的方法。在與人工交互方法的對比中,隨機選擇幾位計算機專業(yè)的學生作為試驗用戶實現(xiàn)人工的區(qū)域選擇的試驗。
對比試驗結果如圖8所示。人工用戶在進行交互式的去模糊區(qū)域選擇時,傾向于選擇具有顯著邊緣的區(qū)域,但人為對于邊緣信息的理解并不等同于最適宜區(qū)域對圖像邊緣的預期。Fergus的區(qū)域選擇算法會因為小邊緣的負面影響而導致結果不理想。Xu及Hu的方法在主觀復原效果上有輕微的振鈴效果。此外需要指出的是,雖然Hu的方法在個別試驗數(shù)據(jù)上選擇的結果與本文結果臨近,但從復原效果上不及本文方法,這也從另一個角度證明了本文在網(wǎng)絡結構設計中充分考量弱化平移不變性而對網(wǎng)絡結構的調整而帶來的優(yōu)勢。實驗結果表明,本文方法的去模糊效果優(yōu)于其他三種區(qū)域選擇方法。
圖8 不同去模糊區(qū)域選擇方法的比較-1Fig.8 Comparison on different region selection approaches for deblurring-1.
4.2.2 與整幅模糊估計方法的對比試驗
本文還將算法結果與基于整幅圖像的模糊核估計方法[19]進行了比較,如圖9所示。與全幅圖像的去模糊結果相比,本文方法得到了更好的模糊核估計和復原圖像。此外,從圖9中,我們發(fā)現(xiàn)即使訓練集不包括飽和圖像樣本,本文方法仍呈現(xiàn)出良好的復原效果。該實驗例表明,本文設計的網(wǎng)絡具有良好的泛化能力。
圖9 不同去模糊區(qū)域選擇方法的比較-2Fig.9 Comparison on different region selection approaches for deblurring-2
4.2.3 客觀數(shù)據(jù)對比
為了進行定量對比,使用640張具有挑戰(zhàn)性的測試圖像進行比較,并展示它們的累積誤差直方圖。該數(shù)據(jù)集由文獻[36]提供,其中包括來自文獻[9]的80幅清晰圖像和8個模糊核,定量對比的客觀指標為復原誤差度量。復原誤差度量由文獻[9]提出。該度量是用估計的模糊核復原整幅圖像的誤差和用真實的模糊核復原整幅圖像的誤差之間的比率,其數(shù)學表達式為:
其中:Ie表示用估計出的模糊核復原出的圖像,Ikg表示用真實的模糊核復原出的圖像,Ig是真實圖像。利用該復原誤差率的累積直方圖來評價該方法的有效性。
此外,將本文方法與區(qū)域選擇方法[8,10]和全局估計方法[19],以及基于深度學習的復原方法[27,37]進行了比較。測量每個算法的復原誤差率,繪制結果如圖10中所示。
圖10 重建誤差率成功率Fig.10 Success rate of reconstructed error ratio
從圖10可以發(fā)現(xiàn),本文算法優(yōu)于其他方法。本文方法在ER>1.5時,成功率一直穩(wěn)定在90%以上,而區(qū)域選擇算法[10]在ER=4.0時,成功率也僅僅只有81.4%,另一個區(qū)域選擇算法[8]的成功率也一直低于90%。而利用整幅圖像進行模糊 核 估 計 的 方 法 中,Pan[19]和Li[27]的 方 法 獲 得 的曲線和本文方法很接近,但是也略低于本文曲線。
本文同時使用自然圖像數(shù)據(jù)集[38]對算法進行了評估,該數(shù)據(jù)集包含4幅清晰圖像和12個模糊核。將本文方法與Pan[19]和其他三種區(qū)域選擇方法Fergus[10],Xu[11],Hu[8]進行了比較。通過比較每個去模糊圖像和沿著相同攝像機運動軌跡拍攝的清晰圖像來計算PSNR。如圖11所示,本文算法的平均峰值信噪比最高。本文平均PSNR可以達到30.05 d B,這也是五個算法中最高的。
圖11 PSNR定量比較試驗(橫軸下的數(shù)字表示圖像索引,所有圖像的平均PSNR值顯示在最右邊的列中)Fig.11 Quantitative comparison of PSNR(The numbers below the horizontal axis denote the image index,the average PSNR values of all the images are shown on the rightmost column)
本文針對計算成像中波前編碼、單透鏡計算成像領域的均勻一致模糊復原的成像背景,提出了一種基于區(qū)域選擇網(wǎng)絡的圖像去模糊方法。該方法主體基于傳統(tǒng)的圖像復原及清晰化方法,但是對于復原中核心的模糊核求取問題引入了區(qū)域選擇網(wǎng)絡。該網(wǎng)絡不直接參與圖像端到端的復原,而是對于模糊復原中的關鍵因素——模糊區(qū)域選擇進行干預。該網(wǎng)絡能夠在全局圖像中剔除平坦過曝、短小紋理等區(qū)域,自動選取最適宜區(qū)域求解模糊核估計。因此,本文所述方法既保有了傳統(tǒng)優(yōu)化方法穩(wěn)定可靠的優(yōu)勢,又規(guī)避了主流深度學習端至端圖像復原方法的訓練繁瑣、成像潛在不穩(wěn)定性的弊端。
試驗結果表明,本文所述方法在計算成像場景數(shù)據(jù)不直接參與訓練的前提下,能夠獲得邊緣良好且復原穩(wěn)定的處理效果。本文方法較比同類均勻一致運動模糊的復原方法具有一定的優(yōu)勢,客觀數(shù)據(jù)對比試驗表明,本文所述方法復原成功率較現(xiàn)有方法至少提升了2.1%,同時平均PNSR至少提高0.5 d B。
在計算成像領域中,均勻一致性模糊復原能夠降低計算復原算法的實施難度,但是更為普遍的計算成像場景需求是非均勻一致性的復原問題。因此,在后續(xù)的研究中,課題團隊將著重在此方向開展后續(xù)的算法及理論研究。