張鵬程,何明霞,陳 碩,張洪楨,張欣欣
(1.天津大學 測試計量技術(shù)及儀器國家重點實驗室,天津 300072;2.天津大學 天津大學精密儀器與光電子工程學院,天津 300072)
太赫茲成像是一種利用太赫茲波作為信號源的成像技術(shù)[1-2],與X 射線相比,太赫茲波對生物體沒有電離輻射,所以非常適用于安檢、無損檢測等非接觸式成像應用。由于成像過程中激光器功率的波動以及其他因素的影響,如今的太赫茲成像系統(tǒng)得到的圖像分辨率、對比度都比較低。通過改進硬件設備來提高成像質(zhì)量成本比較高昂,而利用圖像處理技術(shù)來提高成像質(zhì)量已經(jīng)成為一種高效實用的方法[3]。
目前,太赫茲圖像的降噪增強算法還停留在傳統(tǒng)算法階段,如經(jīng)常使用的小波變換、非局部均值濾波[4]、雙邊濾波[5]等算法。這些傳統(tǒng)算法雖有一定的效果,但缺點也比較明顯。如經(jīng)小波變換處理后的圖像灰度級會偏離原始圖像的灰度級,會造成邊界模糊和噪聲放大;雙邊濾波僅考慮了圖像的局部信息,處理后的圖像整體效果欠佳;非局部均值濾波雖考慮了圖像的整體信息,但不能根據(jù)具體情況自適應調(diào)節(jié)濾波參數(shù)。
隨著深度學習領(lǐng)域的快速發(fā)展,利用神經(jīng)網(wǎng)絡進行圖像處理已經(jīng)成為了研究熱點。Dong 等人于2014年提出了一個基于卷積神經(jīng)網(wǎng)絡的圖像超分辨率框架 SRCNN(super-resolution convolutional neural network),該框架通過學習低分辨率圖像到高分辨率圖像之間的映射關(guān)系,可有效提高圖像的分辨率[6]。Christian Ledig 等人通過優(yōu)化損失函數(shù)于2017年提出了超分辨率生成式對抗網(wǎng)絡框架SRGAN (super-resolution generative adversarial network),該框架采用了小卷積核和較深的網(wǎng)絡結(jié)構(gòu),使生成圖像的分辨率達到更高水平[7]。
由于神經(jīng)網(wǎng)絡需要大量圖像進行訓練,對于太赫茲圖像來說,由于成像速度和儀器的限制,太赫茲圖像數(shù)據(jù)量相對不足[8],因此上述神經(jīng)網(wǎng)絡框架更多地應用在可見光圖像上,利用神經(jīng)網(wǎng)絡處理太赫茲圖像卻鮮有報道。本文提出了一種利用SRGAN網(wǎng)絡對THz圖像進行增強的算法,根據(jù)太赫茲圖像對比度低、模糊不清的特點,建立偽THz圖像庫,使其具備真實THz圖像的特點。通過訓練,得到模糊圖像到清晰圖像的映射關(guān)系,并將其應用在真實THz圖像上,這為太赫茲圖像的增強處理提供了新思路。
生成對抗網(wǎng)絡 GAN(generative adversarial network)的核心思想源于博弈論中的納什均衡,其由兩部分組成:生成器G(Generator)和判別器D(Discriminator)。生成器的目的是盡量使生成的數(shù)據(jù)符合真實數(shù)據(jù)分布,判別器的作用是判斷輸入數(shù)據(jù)是來自于真實數(shù)據(jù)還是生成器的數(shù)據(jù)。生成器和判別器不斷迭代優(yōu)化自己的生成能力和判別能力,直到二者達到一個納什平衡。GAN的計算流程如圖1所示。
在圖1中,我們用可微分函數(shù)G和D分別表示生成器和判別器。假設真實數(shù)據(jù)分布為Pdata,隨機噪聲z通過生成器生成盡量符合分布Pdata的樣本G(z)。對于判別器而言,當輸入數(shù)據(jù)來自于真實數(shù)據(jù)時,輸出為1;當輸入數(shù)據(jù)來自于G(z)時,輸出為0。判別器D的目標是對輸入數(shù)據(jù)做出正確判斷,生成器G的目標是使自己生成的數(shù)據(jù)無限趨近于真實數(shù)據(jù)分布,D和G相互對抗并迭代優(yōu)化使得二者性能不斷提升,最終當D的判別能力達到一定程度,且無法準確判斷數(shù)據(jù)來源時,認為生成器G已經(jīng)學到了真實的數(shù)據(jù)分布。
GAN的目標函數(shù)描述如下:
式中:E(.)表示期望值的計算;Pdata(x)表示真實數(shù)據(jù)分布;x為真實樣本;D(x)表示x被D判斷為真實樣本的概率;Pz(z)代表先驗分布,z為采樣于該分布的噪聲;G(z)表示噪聲z通過G后生成的樣本;D(G(z))表示生成樣本被D 判斷為真實樣本的概率。在GAN中,生成器的目的是使生成樣本盡可能的接近真實樣本,即D(G(z))越趨近于1越好,此時V(D,G)會變?。慌袆e器的目的是準確分辨出生成樣本和真實樣本,即D(x)趨近于1,而D(G(z))趨近于0,此時V(D,G)會增大。
在GAN的訓練過程中,我們需要訓練判別器D,使其判斷數(shù)據(jù)來源的準確率達到最大;同時,需要訓練生成器G使lg(1-D(G(z)))最小。整個訓練過程可以采用交替優(yōu)化的方法:先固定生成器G,訓練判別器D,使D的判別準確率達到最大;然后固定判別器D,訓練生成器G,使D的判別準確率達到最小,當且僅當Pdata=Pg(由G生成的數(shù)據(jù)分布)時可得到全局最優(yōu)解。實際訓練時,一般對判別器的參數(shù)更新k次再對生成器的參數(shù)更新一次。
圖1 GAN流程圖Fig.1 Flow chart of GAN
本文使用了SRGAN 網(wǎng)絡結(jié)構(gòu),在該網(wǎng)絡中采用了較深的網(wǎng)絡結(jié)構(gòu)和小卷積核,使圖像的重建效果達到較高的水平。在以往的研究中,該框架更多的應用于可見光圖像的超分辨率重建,我們將其應用在太赫茲圖像中,也得到了不錯的效果。其網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 SRGAN網(wǎng)絡框架結(jié)構(gòu)Fig.2 Framework of SRGAN
為了解決深層神經(jīng)網(wǎng)絡在訓練過程中梯度爆炸等問題,在生成器網(wǎng)絡中引入了殘差模塊[9-10]。輸入圖像經(jīng)過卷積層和激活函數(shù)后,進入殘差模塊中。圖中每一個殘差模塊都采用了兩層卷積層,每層有64個卷積核,每個卷積核大小為3×3,卷積層之后利用BN層(Batch Normalization)和激活函數(shù)對輸出進行處理。在生成器最后,采用了兩個經(jīng)過訓練的子像素卷積層來提高輸入圖像的分辨率[11]。
為了區(qū)分真實圖像和生成圖像,本文訓練了一個判別網(wǎng)絡,體系結(jié)構(gòu)如圖2(b)所示。該網(wǎng)絡參考了Radford 等人總結(jié)的神經(jīng)網(wǎng)絡構(gòu)建建議[12],并使用了LeakyReLu 作為激活函數(shù)。該判別網(wǎng)絡包含8個卷積層,每個卷積層使用的卷積核尺寸均為3×3。和VGG 網(wǎng)絡中一樣[13],卷積核數(shù)量不斷增加,直到從64 增加到512個。每當卷積核數(shù)量增加一倍時,都使用跨步卷積來降低圖像分辨率。在得到512個特征圖之后,通過兩個全連接層和一個最終的S 型激活函數(shù),獲得樣本分類的概率。
損失函數(shù)的定義對于網(wǎng)絡性能至關(guān)重要,該神經(jīng)網(wǎng)絡的損失函數(shù)主要由兩部分組成:內(nèi)容損失和對抗性損失[14]。其數(shù)學表達式如下:
式中:L1表示內(nèi)容損失;L2表示對抗性損失。
對于內(nèi)容損失來說,目前大多數(shù)方法通過計算圖像的均方誤差得到,這樣重建圖像具有較高的PSNR,但缺點是圖像高頻信息缺失嚴重,整體過于平滑,視覺體驗一般。SRGAN 采用了與視覺體驗更吻合的內(nèi)容損失函數(shù)[15],表達式如下:
式中:Gθ(ILR)表示生成圖像;IHR表示真實圖像;Wi,j和Hi,j代表各個特征圖的尺寸。
為了使判別網(wǎng)絡適用于風格不同的圖像,除了內(nèi)容損失以外,還引入了對抗性損失。對抗性損失L2是基于判別器D在所有訓練樣本上的概率定義的:
式中:Dθ(Gθ(ILR))表示重建圖像Gθ(ILR)是真實圖像的概率[16]。
由于受到太赫茲儀器設備和成像速度的限制,截止到目前并沒有足量的數(shù)據(jù)實現(xiàn)神經(jīng)網(wǎng)絡的訓練。本文利用圖像處理技術(shù)創(chuàng)建了一個圖像集,使其具備THz圖像分辨率低、對比度低的特點。我們利用手機拍攝了25 張高清樣品照片,通過翻轉(zhuǎn)、縮放、裁剪以及不同角度的旋轉(zhuǎn)將數(shù)據(jù)擴增40倍,這1000 張圖片構(gòu)成了標簽圖像集。
為了生成對應的訓練集,且使訓練集具備真實太赫茲圖像對比度低等特點,對標簽圖像進行了如下處理生成訓練集圖像:
1)對數(shù)變換,太赫茲圖像一般亮度較暗,對比度較低,通過對標簽圖像進行對數(shù)變換,使其亮度更接近真實太赫茲圖像;
2)高通濾波,太赫茲圖像一般含有高頻噪聲,對太赫茲圖像進行高通濾波,將提取出來的噪聲疊加到標簽圖像上,使其具備太赫茲圖像的噪聲特點;
3)模糊處理,由于掃描成像過程中設備的移動和抖動,太赫茲圖像會帶有模糊,因此需要在標簽圖像上加上運動模糊和高斯模糊。
經(jīng)過以上處理,生成的訓練圖像示例如圖3(a)所示,該圖像對比度和分辨率較低,這與THz圖像的基本特點吻合。但值得注意的是,由于不同的成像系統(tǒng)各有特點,生成的圖像也有差別,為了提高本算法的普適性,本文并未對THz圖像和生成訓練圖像的相似性進行定量評估。圖3(b)為標簽圖像示例,本文采用監(jiān)督學習的方式,學習訓練圖像到標簽圖像的映射關(guān)系。
圖3 圖像數(shù)據(jù)集示例Fig.3 Image dataset example
本文神經(jīng)網(wǎng)絡的訓練過程基于64位Windows 10 操作系統(tǒng),使用Python 語言和Tensor flow 深度學習框架,在Google Colab 云計算平臺進行訓練,該平臺配置了NVIDIA Tesla K80 GPU 加速運算。首先,訓練基于MSE的SRResnet 網(wǎng)絡,學習率設置為10-3,迭代次數(shù)為5×104次。然后在訓練SRGAN時,將訓練好的SRResnet 網(wǎng)絡參數(shù)作為SRGAN 網(wǎng)絡的初始化參數(shù),以避免訓練過程中出現(xiàn)不必要的局部最優(yōu)解,學習率設置為10-3,迭代次數(shù)同樣為5×104次。訓練過程中,對生成器和判別器網(wǎng)絡進行交替更新,參考Goodfellow 等人的工作[16],使用的k值為1。
以上整個訓練過程持續(xù)了20 h,并利用Tensor board 監(jiān)測了圖像PSNR值和網(wǎng)絡損失函數(shù)變化曲線,如圖4所示。
從圖4可以看出,隨著訓練次數(shù)的增加,在宏觀上,圖像的PSNR值呈現(xiàn)出逐漸變大的趨勢,這說明在訓練過程中,生成器生成的圖像質(zhì)量逐漸提高;網(wǎng)絡的損失函數(shù)隨著訓練次數(shù)的增加呈現(xiàn)出遞減的趨勢,說明該網(wǎng)絡結(jié)構(gòu)及參數(shù)配置較好,網(wǎng)絡收斂效果顯著。
為了更直觀地突出本文算法的有效性,我們將訓練好的網(wǎng)絡應用在真實的太赫茲圖像上,并與傳統(tǒng)算法處理結(jié)果進行比較,效果如圖5所示。本文的實驗對象是一枚經(jīng)過太赫茲反射成像的硬幣,在成像過程中,由于激光器功率波動和儀器設備的振動,原始圖像存在一定的噪聲和模糊,且對比度較低。經(jīng)傳統(tǒng)算法處理后的圖像,可以濾除部分噪聲,但圖像視覺體驗依舊模糊,且對比度提升不明顯,圖像細節(jié)也沒有得到有效改善。而經(jīng)本文算法處理后的圖像,濾波效果顯著,對比度明顯提高,且圖像清晰度得到改善,具有更豐富的局部細節(jié)。
為了客觀評價本文算法的效果,本文以原始圖像為參考圖像,計算了圖5中各個圖像的峰值信噪比(peak signal to noise ratio,PSNR),并利用中心像素與周圍四近鄰像素的灰度值計算了各個圖像的對比度,結(jié)果如表1所示。對于PSNR 來說,由于本文算法在圖像細節(jié)上改變更多,且計算時以原始圖像作為參考圖像,再加上本文損失函數(shù)定義并未以均方誤差為基礎(chǔ),所以PSNR 會偏低。根據(jù)以往經(jīng)驗,PSNR 有時與人眼視覺體驗并不相符,所以低PSNR 并不影響視覺效果。從對比度角度來說,本文算法與傳統(tǒng)算法相比,對于提高圖像對比度效果非常顯著,該結(jié)果在圖5中也有直觀體現(xiàn),這剛好符合本實驗室項目的實際需求。
圖4 訓練過程中曲線變化Fig.4 Variation curves change during training
圖5 不同算法實驗結(jié)果比較Fig.5 Comparison of experimental results of different algorithms
表1 不同方法PSNR、對比度計算結(jié)果Table1 PSNR and contrast calculation results by different methods
本文基于前人提出的GAN 原理,利用自己建立的圖像庫,成功訓練了SRGAN 網(wǎng)絡,并將其應用于太赫茲圖像增強處理上。通過進行對照實驗,將本文算法與幾種傳統(tǒng)算法相比,實驗結(jié)果表明,本文算法在解決太赫茲圖像數(shù)據(jù)量不足的基礎(chǔ)上,可以顯著提高太赫茲圖像的對比度,且處理后的圖像細節(jié)更加豐富,圖像質(zhì)量及視覺體驗比傳統(tǒng)算法更加優(yōu)越。為了提高算法的普適性,本文對THz圖像和生成的訓練圖像之間的相似性只做了定性評價,這也是今后工作有待改進的地方。
基于深度學習的圖像處理算法雖起步較晚,但與傳統(tǒng)算法相比優(yōu)點突出,能彌補傳統(tǒng)算法的很多不足,隨著人工智能技術(shù)的發(fā)展,該領(lǐng)域也將進一步成為研究熱點。