葉皓,王麓懿,吳雪煒* ,張勇
(1.固體微結(jié)構(gòu)物理國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京大學(xué)物理學(xué)院,南京,210093;2.南京大學(xué)現(xiàn)代工程與應(yīng)用科學(xué)學(xué)院,南京,210023)
圖像重建在圖像處理領(lǐng)域是一項(xiàng)具有挑戰(zhàn)性的熱門課題,對(duì)圖像頻率域采樣是常見的方法之一,通過頻譜濾波得到頻率域的每個(gè)階次分量,由此實(shí)現(xiàn)對(duì)圖像全局信息的操控,例如平滑、銳化、去模糊等[1].頻譜采樣率決定圖像像素的高低,對(duì)高像素?cái)?shù)圖像或復(fù)雜圖像的重建,實(shí)現(xiàn)頻譜完全采樣通常較困難,其對(duì)探測(cè)器要求較高且極其耗時(shí).考慮到低頻信息分量占頻譜的主要成分,采用犧牲采樣率的低通頻譜濾波與壓縮感知等方法[2-3]雖然可以重建下采樣的圖像,但不可避免會(huì)造成圖像信息較大損失.近年來,深度學(xué)習(xí)算法因其強(qiáng)大的學(xué)習(xí)能力和適應(yīng)性,在圖像恢復(fù)任務(wù)中表現(xiàn)出獨(dú)特的優(yōu)勢(shì)[4],與傳統(tǒng)模型和算法相比,能從海量數(shù)據(jù)中通過先驗(yàn)學(xué)習(xí)到特征訓(xùn)練網(wǎng)絡(luò)模型,圖像處理能力更優(yōu)異,甚至可以在低采樣條件下大幅提高圖像重建質(zhì)量[5].
拉蓋爾高斯(Laguerre-Gaussian,LG)模式是激光諧振器腔內(nèi)的一種本征模式,在柱坐標(biāo)下對(duì)亥姆赫茲方程做傍軸近似[6],其解析解可以表示如下:
式(1)為L(zhǎng)G 光束在傳播距離為0 處的橫向分布,其中l(wèi)為角向指數(shù),取任意整數(shù);p為徑向指數(shù),取大于0 的整數(shù);為拉蓋爾多項(xiàng)式;ω0為束腰半徑.可將LG 光束描述為徑向分布LGl,p(r)與角向分布exp(ilφ)之積,其中角向指數(shù)l與徑向指數(shù)p的任意組合形成不同的LG 模式,所有LG模式構(gòu)成一組完備正交基底.傅里葉基底構(gòu)成的變換域?yàn)閳D像頻譜,而相應(yīng)LG 基底構(gòu)成的變換域?yàn)閳D像LG 譜[7].LG 譜采樣是一種頻譜采樣手段,具有較高的采樣效率.此外,由于LG 模式具有的圓對(duì)稱橫向空間分布,在空間上具有旋轉(zhuǎn)不變的特性[8],其在角向探測(cè)方面具有獨(dú)特優(yōu)勢(shì),廣泛應(yīng)用于小角度測(cè)量、對(duì)稱性物體識(shí)別、動(dòng)態(tài)旋轉(zhuǎn)物體成像等領(lǐng)域[9].
在單像素成像過程,通過投影一定數(shù)量的LG 模式,可得到圖像的下采樣LG 譜[10].如圖1a所示,入射光經(jīng)過一臺(tái)數(shù)字微鏡(DMD),其具有像素級(jí)編碼與高幀率刷新功能,用于加載并切換產(chǎn)生LG 模式的全息圖.產(chǎn)生的LG 模式經(jīng)過透鏡成像系統(tǒng)投影至目標(biāo)物體,目標(biāo)物體的反射光經(jīng)聚焦透鏡匯聚并由一臺(tái)單點(diǎn)探測(cè)器采集.單點(diǎn)探測(cè)器采集到的信號(hào)強(qiáng)度可以表示為:
圖1 LG 譜采樣的單像素成像系統(tǒng)(a);不同的LG 模式截止階數(shù)及其對(duì)應(yīng)的重建圖像:(b~c) l25 p25,(d~e) l50 p50和(f~g) l75 p75Fig.1 Single-pixel imaging system of LG spectrum sampling (a),different ranges of LG spectrum and the reconstructed images:(b~c) l25 p25,(d~e) l50 p50 and (f~g) l75 p75
通過數(shù)字微鏡器件(Digital Micromirror Devices,DMD)切換大量不同的LG 模式,即可計(jì)算得到物像的LG 譜.圖1b,1d 和1f 是截止階數(shù)分別為25,50 和75 的下采樣LG 譜,其中橫坐標(biāo)為角向指數(shù)l,縱坐標(biāo)為徑向指數(shù)p,圖1c,1e 和1g 分別為對(duì)應(yīng)的重建圖像.由圖可見,當(dāng)采樣率較低、LG 模式截止階數(shù)較小時(shí),重建圖像的視場(chǎng)較小,清晰度較差,隨著截止階數(shù)的增大,重建圖像的細(xì)節(jié)恢復(fù)變好,圖像噪聲也變?nèi)?并且,由于LG 模式具有獨(dú)特的徑向參量,截止階數(shù)較小,重建圖像在徑向具有明顯的噪聲.因此,在低采樣率下提升單像素LG 譜下采樣的成像質(zhì)量具有實(shí)際的研究?jī)r(jià)值.
此外,當(dāng)相機(jī)拍攝高速旋轉(zhuǎn)的物體時(shí),由于相機(jī)的響應(yīng)速度有限,拍攝的圖像會(huì)有一定的旋轉(zhuǎn)運(yùn)動(dòng)模糊.把高速旋轉(zhuǎn)物體在某一時(shí)刻t的光場(chǎng)表示為:
其中,Ω(τ)為物體在任意時(shí)刻的轉(zhuǎn)速.相機(jī)快門控制的曝光時(shí)間為T,則最終拍攝得到的圖像為物體的光場(chǎng)分布在曝光時(shí)間內(nèi)的積分,即:
可見,相機(jī)拍攝得到的旋轉(zhuǎn)模糊圖像由物體的轉(zhuǎn)速和相機(jī)的曝光時(shí)間決定.在勻轉(zhuǎn)速時(shí),曝光時(shí)間與物體旋轉(zhuǎn)角頻率之積為物體在相機(jī)曝光時(shí)間內(nèi)的旋轉(zhuǎn)模糊角度.圖2a 為靜止原圖像,圖2b~d 分別為5°,15°和25°時(shí)的旋轉(zhuǎn)模糊角度圖像.由圖可見,隨著旋轉(zhuǎn)模糊角度的增大,圖像的不同空間位置混疊導(dǎo)致的失真越來越明顯,在遠(yuǎn)離中心位置處的圖像信息尤甚.
圖2 靜止原圖(a)和旋轉(zhuǎn)運(yùn)動(dòng)模糊圖像,模糊角分別為5°(b),15° (c)和25° (d)Fig.2 The original image (a) and the rotational motion blurred images with blurred angles of 5° (b),15° (c) and 25°(d)
針對(duì)上述LG 模式下采樣單像素成像與旋轉(zhuǎn)模糊成像過程中的問題,應(yīng)用條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Nets,cGAN)模型來重建失真圖像.對(duì)Kaggle 人像數(shù)據(jù)集[11]在1.87%的LG 譜采樣率下,下采樣單像素成像的結(jié)構(gòu)相似性(Structural Similarity,SSIM)指數(shù)的平均值由約0.55 提升至約0.88,旋轉(zhuǎn)模糊成像的SSIM指數(shù)的平均值由約0.30 提升至約0.84,和中值濾波(Median Filtering,MF)[12]、非局部均值濾波(Non-Local Means,NLM)[13]與降噪自編碼器(Denoising Autoencoder,DAE)[14]算法相比,重建圖像質(zhì)量得到了顯著優(yōu)化.
利用cGAN 對(duì)LG 譜下采樣恢復(fù)的圖像進(jìn)行優(yōu)化重建.近年來,生成對(duì)抗網(wǎng)絡(luò)(GAN)方法已占據(jù)主導(dǎo)地位[15-16],其通過生成器和鑒別器的相互對(duì)抗學(xué)習(xí),將隨機(jī)噪聲擬合為原始圖像的分布[17],但經(jīng)典GAN 常出現(xiàn)結(jié)果無法收斂的問題,訓(xùn)練時(shí)不穩(wěn)定[18].cGAN 在GAN 的基礎(chǔ)上加入條件概率分布的信息,有利于數(shù)據(jù)增強(qiáng)[19],讓生成的模型更容易受控[20-21].
cGAN 模型是原始GAN 的拓展模型,原始GAN 的目標(biāo)函數(shù)可以表示為[15]:
其中,G代表生成器,D代表判別器,z代表分布為Pz的隨機(jī)噪聲,x代表分布為Pdata的目標(biāo)數(shù)據(jù).cGAN 的目標(biāo)函數(shù)可以表示為[20]:
與式(6)不同的是,式(7)多了一項(xiàng)y,代表?xiàng)l件信息.其中,G試圖最小化V(D,G),而D則試圖最大化V(D,G),最后兩者在相互博弈中達(dá)到納什均衡,此時(shí)認(rèn)為生成器生成的圖像就是需要的目標(biāo)圖像.
cGAN 的生成器基于U-Net 結(jié)構(gòu),由編碼器和解碼器組成,結(jié)構(gòu)如圖3 所示.編碼器用一系列卷積動(dòng)作連續(xù)下采樣來提取特征,在此過程中信息被壓縮了.解碼器進(jìn)行的是反卷積動(dòng)作,需要對(duì)原本較少的信息進(jìn)行擴(kuò)充,在此過程中空間信息丟失,難免出現(xiàn)類似求解欠定方程的情形,不能得到精確解.因此U-Net 網(wǎng)絡(luò)通過跳躍連接將編碼器相同結(jié)構(gòu)的層作為輸入連接到解碼器,補(bǔ)償下采樣過程中的信息損失.cGAN 的判別器為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),將生成圖像和真實(shí)圖像拼接成的圖像對(duì)作為判別器的輸入,判別器不斷對(duì)圖像進(jìn)行卷積和池化操作,最終得到判別器認(rèn)為生成圖像是真實(shí)圖像的概率.若判別器認(rèn)為生成圖像為真實(shí)圖像則輸出1,虛假圖像則輸出0.
圖3 cGAN 模型的結(jié)構(gòu)圖Fig.3 The structure of cGAN model
利用Kaggle 平臺(tái)的公開人像數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn).為了減少LG 模式的分解和逆變換的計(jì)算量,預(yù)先對(duì)其進(jìn)行二值化處理,使用插值算法將圖像尺寸調(diào)整至256×256 并對(duì)這些圖像進(jìn)行LG 模式的分解和逆變換重建.隨機(jī)抽取1200 張逆變換的圖像作為訓(xùn)練集,剩余的圖像為測(cè)試集.在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,將選取的圖像尺寸擴(kuò)大至286×286 并隨機(jī)裁剪,以提高算法的魯棒性.在TensorFlow 平臺(tái)上進(jìn)行網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練過程單次傳遞用來訓(xùn)練的樣本數(shù)為1,利用Adam 算法[22]計(jì)算梯度,學(xué)習(xí)率設(shè)為0.002,動(dòng)量值設(shè)為0.5,最終得到訓(xùn)練好的網(wǎng)絡(luò).
分別將LG 變換的下采樣單像素成像圖像和旋轉(zhuǎn)運(yùn)動(dòng)模糊圖像的LG 變換的下采樣圖像輸入已訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行測(cè)試,使用的LG 模式范圍為l0p0~l34p34,共1225 個(gè)模式,圖像大小為256×256,則此時(shí)采樣率僅為1.87%.重建圖像與原圖真值對(duì)比,以SSIM作為評(píng)價(jià)標(biāo)準(zhǔn),從亮度、對(duì)比度和結(jié)構(gòu)三個(gè)方面判斷兩張圖片的相似性,范圍為0~1,數(shù)值越大,重建效果越好.
對(duì)于測(cè)試的失真圖像,使用較有代表性的圖像去噪聲算法處理進(jìn)行對(duì)比,包括MF,NLM 和DAE.MF 是一種局部濾波方法,選取圖像數(shù)字矩陣中相鄰的奇數(shù)個(gè)像素點(diǎn)數(shù)值的中間值替代原來的像素值,以此來消除噪聲點(diǎn).NLM 理論上可以在整個(gè)圖像中計(jì)算像素的相似度,考慮效率問題,也可以設(shè)置一個(gè)相對(duì)較大的搜索窗口和一個(gè)相對(duì)較小的鄰域窗口,根據(jù)鄰域間的相似度確定具體的像素值.DAE 是一種無監(jiān)督的學(xué)習(xí)方法,可通過訓(xùn)練數(shù)據(jù)的自編碼器來學(xué)習(xí)信號(hào)的特征[23-24],然后再使用這些特征去除噪聲.
圖4 為測(cè)試集部分人像圖像的LG 譜下采樣的MF,NLM,DAE,cGAN 方法重建效果的對(duì)比圖.從LG 變換后的下采樣圖像可以看出,因截止階數(shù)較小,欠采樣率較大,LG 模式重建圖像的徑向噪聲較明顯.雖然以往的工作證明MF 算法在對(duì)抗椒鹽噪聲的場(chǎng)景下有較好的效果,但對(duì)全局都存在的背景噪聲幾乎不起作用;NLM 算法雖然能對(duì)整個(gè)圖像進(jìn)行濾波,但對(duì)全圖大范圍存在的背景噪聲缺乏識(shí)別能力,只能將背景噪聲平均分配到整張圖像中;DAE 算法的表現(xiàn)優(yōu)于濾波算法,但整體降噪效果遜色于cGAN.圖5 還展示了對(duì)15°旋轉(zhuǎn)模糊角度的LG 譜下采樣的人像圖像重建效果對(duì)比.
圖4 人像圖像LG 譜下采樣條件下使用MF,NLM,DAE 和cGAN 算法的重建效果Fig.4 Images reconstructed by MF,NLM,DAE and cGAN with LG spectrum down-sampling
圖5 15°旋轉(zhuǎn)模糊人像圖像在LG 譜下采樣條件下使用MF,NLM,DAE,cGAN 算法的重建效果Fig.5 Images reconstructed by MF,NLM,DAE and cGAN with LG spectrum down-sampling of 15° rotational motion blurred images
表1 與表2 分別列出了不同處理方法處理常規(guī)和15°旋轉(zhuǎn)模糊的人像圖像對(duì)應(yīng)的SSIM.由表可見,和其他三種算法相比,cGAN 生成的圖像與真實(shí)圖像之間的SSIM較高.和常規(guī)人像圖像相比,15°旋轉(zhuǎn)模糊的人像圖像經(jīng)過LG 變換后的下采樣圖像的SSIM更低,僅為0.3 左右,但由cGAN 重建后的圖像的SSIM均達(dá)到0.8 以上.
表1 人像圖像LG 譜下采樣的MF,NLM,DAE,cGAN方法重建圖像的SSIMTable 1 SSIM of images reconstructed by MF,NLM,DAE and cGAN with LG spectrum down-sampling
表2 15°旋轉(zhuǎn)模糊人像圖像LG 譜下采樣的MF,NLM,DAE,cGAN 方法重建圖像的SSIMTable 2 SSIM of images reconstructed by MF,NLM,DAE and cGAN methods with LG spectrum down-sampling of 15° rotational motion blurred images
MF 與NLM 算法,重建每張圖片的運(yùn)算時(shí)間短于0.02 s;DAE 算法以及本文提出的基于cGAN 的圖像重建算法,將網(wǎng)絡(luò)模型訓(xùn)練好之后,重建每張圖像的運(yùn)算時(shí)間短于0.1 s.
綜上,基于cGAN 的圖像重建方法,在LG 譜的低采樣率情形下表現(xiàn)出較強(qiáng)的圖像恢復(fù)能力,并且對(duì)旋轉(zhuǎn)模糊圖像有較好的重建效果,魯棒性也較強(qiáng).
本文提出一種基于條件生成對(duì)抗網(wǎng)絡(luò)的LG譜圖像重建方法,通過生成器與鑒別器的相互對(duì)抗學(xué)習(xí),將輸入的失真圖像擬合為與原圖相似度較高的圖像.研究證明,在LG 譜的低采樣率情形下,本文提出的算法實(shí)現(xiàn)了與原圖結(jié)構(gòu)相似度較高的圖像重建,優(yōu)于經(jīng)典的圖像去噪聲算法.此外,在相同采樣率下,該方法對(duì)旋轉(zhuǎn)模糊圖像同樣具有較好的重建效果,魯棒性較強(qiáng).該方法在下采樣LG 譜成像過程中明顯提升了圖像重建精度,為單像素成像、模糊圖像復(fù)原提供了一個(gè)可行的方案.