亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進生成式對抗網(wǎng)絡的圖像去霧算法研究

2021-04-29 13:23:48王銘姜淑華吳杰王春陽

長春理工大學學報(自然科學版) 2021年2期

關鍵詞：模型

王銘，姜淑華，吳杰，王春陽

（長春理工大學電子信息工程學院，長春 130022）

戶外環(huán)境下采集到的圖像往往都會受到不同程度的霧氣的干擾，即使是在晴朗的天氣下，圖像也有可能被薄霧干擾，在一些高精度要求的科研任務中，這將造成十分不利的影響[1]。所以，如何有效地去除圖像中的霧氣，在不丟失圖像細節(jié)信息、不引入額外干擾信息的前提下，盡可能地還原圖像的色彩、對比度等，提高圖像的使用價值，這些研究都具有十分重要的研究意義與現(xiàn)實意義，是當今圖像處理領域一大熱點問題。

霧氣一般可分為兩種：一種是自然形成的霧，空氣中的小水珠同空氣中的塵埃結合或是進一步凝聚，在無風的情況下，形成了彌漫在空氣中的小水滴，大量的小水滴便形成了會對視野造成干擾的霧；另一種是由于城市中工廠、汽車排放所產(chǎn)生的霧，這種霧氣是由于排放廢氣中含有大量的煙塵小顆粒，散布在空氣中形成了霧。兩者都會對光線產(chǎn)生吸收、散射，進而影響被觀測物體傳輸?shù)讲杉O備鏡頭的光線，形成了帶有霧的、低質(zhì)量的圖像[2]。

從圖像去霧的原理來分，把圖像去霧方法分為基于圖像增強的去霧方法和基于模型的去霧方法[3]?；趫D像增強的去霧方法是不考慮霧天圖像成像模型的去霧方法，該方法從結果出發(fā)，忽略霧天圖像的形成機制，僅從霧天圖像自身具有的低亮度和低對比度的特征，根據(jù)實際任務的不同，對圖像中需要的部分信息進行修飾和增強，最終改善和提高圖像的質(zhì)量[4]。但是基于圖像增強的方法都只是通過對圖像本身進行操作，一味地試圖通過增強色彩或者增強對比度的方式實現(xiàn)圖像的去霧操作，這種去霧方式?jīng)]有考慮到具體的霧天圖像形成機制，在處理方式上沒有基于霧天圖像特點的理論指導，去霧后的圖像容易產(chǎn)生增強過度等問題，反而降低了圖像的清晰度，故此類方法實際應用有限。另一種基于模型的圖像去霧方法包括基于場景深度已知的去霧算法，基于輔助信息求解場景深度信息的去霧算法，基于先驗條件的去霧方法[5]。然而該類算法仍然存在顏色退化、透射率估計不足等問題。

針對當前去霧方法人工設計模型提取特征不完備的特點，基于生成對抗網(wǎng)絡提出了新的圖像去霧方法，該方法利用生成對抗網(wǎng)絡的生成器，以有霧圖像為基礎，生成盡可能真實的去霧后圖像[6]。本文提出的方法從網(wǎng)絡結構上調(diào)整圖像的輸入方式，降低了模型的計算參數(shù)，減少訓練模型的時間，同時使用局部顏色直方圖匹配，有效防止了顏色的退化，使去霧圖像更加清晰。

1 Pix2pix與cycleGAN網(wǎng)絡模型

Pix2pix是GAN的一種改進模型，相比于從前的單圖片的圖像去霧，它成功地實現(xiàn)了批量圖片的去霧應用[7]。這一章分別從兩個模型的結構和損失函數(shù)進行分析，在這之前，首先介紹一下GAN的概念。

1.1 使用GAN進行圖像合成

GAN（Generative Adversarial Networks），意為對抗生成網(wǎng)絡，它是一種無監(jiān)督的學習方法，它巧妙的利用“對抗”的思想來學習數(shù)據(jù)并生成全新的樣本[8]。GAN 主要由生成器 G（Generater）和鑒別器D（Discriminator）兩部分組成：其中生成器G負責生成圖片，它通過接收到的一個隨機噪聲z來生成的圖片記為G（z）；鑒別器D負責判別一張圖片是不是“真實的”，設它的輸入x為一張圖片，輸出D（x）表示x為真實圖片的概率，若輸出為1，代表是真實圖片的概率為100%，若輸出為0，代表不可能是真實的圖片[9]。在訓練的過程中生成網(wǎng)絡G的目標是盡量生成真實的圖片去欺騙鑒別網(wǎng)絡D。而D的目標是盡量把G生成的圖片和真實的圖片區(qū)分開來，這相當于網(wǎng)絡G與網(wǎng)絡D之間的一場“博弈”，最后的結果是使網(wǎng)絡D生成的圖片最可能接近真實圖片。這場“博弈”其實就是GAN的對抗損失函數(shù)的優(yōu)化過程。

1.2 GAN的對抗損失函數(shù)

整個損失函數(shù)的式子由兩部分構成。x表示用于訓練的真實圖片的訓練集，pdata表示圖片分布，G代表通過訓練得到的生成器，pz代表噪聲，其中pz是已知量，pdata是未知量。根據(jù)交叉熵損失GAN構造了公式（1）的損失函數(shù)：

其中，Ex～Pdata(x)指在直接訓練時用到的樣本真實輸入；Ez～pz(z)是指從已知的噪聲中提取的樣本；G希望生成器生成的圖片接近真實為好，此時V（D，G）越小，D希望V（D，G）越大越好，二者進行通過梯度下降的方法，相互博弈，交替優(yōu)化，當訓練結束時，就可以從Pz(z)中隨機取一個噪聲，經(jīng)過G運算后生成新的樣本[10]。

1.3 Pix2pix的損失函數(shù)

與GAN的目標函數(shù)相比在Pix2pix的優(yōu)化目標中，只需要加入條件y即可，具體損失函數(shù)如公式（2）所示：

式中，G的輸入為一個Y類圖像y；輸出為生成圖像G(y)；D的輸入為一個X類圖像x，一個Y類圖像y。D要判斷x圖像是否是真正的y對應的圖像，并輸出一個概率。這里噪聲z對輸出結果影響很小，所以舍去z以達到模型的簡化。此時由于數(shù)據(jù)集不是成對的，可能導致映射F將所有x都映射為Y空間中的同一張圖片，從而導致訓練的無效化。對此提出了循環(huán)一致?lián)p失的概念，并提出了CycleGAN模型來對數(shù)據(jù)集圖片進行整體去霧[11]。

1.4 CycleGAN的雙射映射原理

若將對抗性損失應用于兩種映射，需要再假設一個映射G來實現(xiàn)Y空間的圖片y轉換為X中的圖片G(y)[12]。CycleGAN 同時學習F和G的兩個映射，實現(xiàn)把一個X空間內(nèi)的圖片風格轉到Y空間域的圖片，也可以把Y空間域的圖片風格轉換到X空間域。數(shù)學表達式要求F(G(y))=y，G(G(x))=x。循環(huán)一致?lián)p失函數(shù)定義為：

這里為鑒別器G引入了一個鑒別器DX，用來判別反向映射的圖片真假。最后的目標函數(shù)對如下：

參數(shù)λ是用來權衡兩種損失函數(shù)之前的相對重要性的。λ越大，訓練得到的模型循環(huán)一致性越好；λ越小，生成的圖片與目標域圖片的差距越小[13]。因此，CycleGAN模型可以看作是公式（5）所表示的優(yōu)化問題：

F和G的目標是最小化該目標函數(shù)，而DX和DY的目標是最大化該目標函數(shù)。

CycleGAN的主要應用是具有不同風格圖像之間的相互轉換，相較于Pix2pix模型，其最大的貢獻在于循環(huán)一致性損失的引入[14]。使其能夠利用非成對數(shù)據(jù)（unpaired data）進行訓練，可擴展性及應用性更廣。圖1為CycleGAN的網(wǎng)絡型。

圖1 CycleGAN結構示意圖

圖2的模型延續(xù)使用了GAN的對抗損失函數(shù)，同時能在X，Y雙域進行相互映射。它的生成網(wǎng)絡在參數(shù)優(yōu)化上存在一定改進空間。

圖2 使用不同尺寸的patchGAN生成的圖像

2 基于CycleGAN去霧網(wǎng)絡的改進

CycleGAN在去霧方面已經(jīng)達到易獲得圖像集、成像質(zhì)量高的要求，但是由于鑒別器和生成器的天生網(wǎng)絡結構不足，則可以通過調(diào)整鑒別器輸入方式，使整個網(wǎng)絡訓練的參數(shù)變少，加快模型收斂。同時對數(shù)據(jù)集進行顏色直方圖匹配過程，利用改進后的數(shù)據(jù)集可以生成顏色域更加豐富的圖片。

2.1 基于patch的鑒別器的改進

CycleGAN中對鑒別器的要求不是很高，一般的GAN是只需要輸出一個true or fasle的矢量，這是對整張圖像的評價，則在鑒別器輸入端就不必以一整張圖作為輸入，只需對通過卷積層逐次疊加而最終生成的N×N的一個圖像patch進行判別就可以了，其中的每一個元素，實際上代表著原圖中的一個比較大的感受野，也就是對應著原圖中的一個patch。

圖2比較了patch和整張圖進行計算的效果。最左邊不使用GAN而使用L1損失，最右邊依次為 1×1，16×16，70×70，256×256的 patchGAN（patch尺寸為在去霧訓練集下實驗的各個實驗尺寸聚類得到），由于輸入圖片尺寸是256，所以最右邊的256×256的patchGAN相當于對整張圖進行計算，這里引入圖像質(zhì)量評價指標FCN，對數(shù)據(jù)集中去霧圖片進行各個尺寸的patch輸出圖像評估，F(xiàn)CN是一種評價圖像性能的指標，它由像素準確度、平均準確度和Class IOU三個衡量因素組成。FCN是對圖像進行像素級分類，表1為 patch取 1×1，16×16，70×70，256×256四種不同尺寸下的輸出圖像FCN的指標值。

表1 四種不同尺寸patch方式下的FCN指標

從圖中可以看出，使用1×1和16×16的patch?GAN產(chǎn)生的圖片效果不算很好，原因在于patch取的太小了，但是70×70的patchGAN產(chǎn)生的圖片已經(jīng)和整體計算幾乎沒有區(qū)別，因此本實驗選擇對圖片每個70×70的patch進行計算概率，這樣做可以加快計算速度以及加快收斂。

圖中L1是一種正則化，設下（x，y）是一個真實的圖片對。G生成的是G(y)，那么G(y)應該接近真實的圖像x，因此可以在G(y)和x之間定義L1損失如下：

它可以在損失函數(shù)中給每個參數(shù)加上權重，引入模型復雜度指標，從而抑制模型噪聲，減小過擬合，同時加快模型收斂并提高生成圖像的精度。

該部分的網(wǎng)絡結構圖如圖3所示。

圖3 鑒別器網(wǎng)絡圖

與圖像分類任務不同，圖像風格鑒別任務依賴于圖像的局部特征。所以，鑒別器網(wǎng)絡D被設計的較淺。圖中經(jīng)過4個過濾器個數(shù)依次為64，128，266，512的卷積層，卷積核大小為4 × 4，移動步長為2，經(jīng)計算原1×256×256×3的圖片經(jīng)過這四個卷積層后輸出尺度為1×16×16×512。在平層之后，網(wǎng)絡經(jīng)用一個3×3卷積層最終輸出尺度為1×16×16×1，此尺度在降低了分辨率編碼后可用于基本局部特征的分類，并獲得分類返回。

為防止加深網(wǎng)絡深度帶來梯度彌散或梯度爆炸，在每層卷積層加上一個BN（batch normal?ization），加速網(wǎng)絡收斂的同時縮小輸入空間，從而降低調(diào)參難度。每層卷積層的輸出要通過一個激活函數(shù)，以防止訓練模型的過擬合，原網(wǎng)絡中采用的激活函數(shù)是Relu，函數(shù)圖像如圖4所示。

圖4 Relu函數(shù)曲線

當x>0時，梯度成函數(shù)趨勢，不會隨著訓練輪數(shù)的增加而達到飽和，但考慮到原激活函數(shù)Relu對學習率的大小比較敏感，選擇采取Leaky?Relu形式的激活函數(shù)。函數(shù)圖像如圖5所示。

圖5 LeakyRelu函數(shù)曲線

LeakyRelu函數(shù)是Relu函數(shù)的變體，對輸入小于0部分的反應有所變化，減輕了Relu函數(shù)的稀疏性，可以設置“negative_slop”這個系數(shù)保證在輸入小于0的時候有微弱的輸出。本實驗采用α=0.2的LeakyRelu。

2.2 局部顏色直方圖匹配

基于GAN去霧后的圖像顏色存在一定退化，圖片的色調(diào)變成了暗黃色，失去了原來色彩豐富、對比明顯的特點，影響現(xiàn)實感。因此，本文使用局部顏色直方圖匹配的方法來解決這一類的問題，對去霧后的圖片進行進一步增強。局部顏色直方圖匹配，是指在全局顏色直方圖匹配的基礎上，將圖片劃分為面積相等的m×n塊。如圖6所示，將源圖像S劃分為m×n個小塊：

圖6 局部顏色直方圖匹配原理圖

將目標圖像C劃分為m×n個小塊：

分別對每個對應塊進行直方圖匹配，得到每個塊的源圖像S和目標圖像C概率分布函數(shù)：

再分別求得每個對應分塊的逆映射：

將經(jīng)過匹配后的每個小塊ti(i=1,2,...,m×n)按編號順序拼合，則可得到經(jīng)過匹配后的圖像T：

3 實驗結果

實驗環(huán)境為ubuntu16.04系統(tǒng)，深度學習框架tensorflow，python2.7編程語言。實驗采用的數(shù)據(jù)集均為海康威視彩色相機拍攝，其中1 500張戶外晴朗場景圖作為trainA，1 000張霧天下的場景圖作為trainB，采用改進后的Defog-GAN網(wǎng)絡進行訓練，設置學習率為0.000 1，迭代次數(shù)為9 000輪，每1 000輪保存一次模型。

3.1 評價指標

（1）均值

均值是指就整個圖像而言，所有像素的平均值，越大的均值代表了圖像整體亮度越高，其圖像質(zhì)量越好，其計算公式為：

（2）標準差

標準差是指相對于均值，圖像像素灰度值的離散程度。越大的標準差表示圖像的像素的灰度級分布越分散，圖像整體越平衡，其計算公式為：

（3）熵

熵用來描述圖像的平均信息量，熵值越大表示圖像包含信息越多，通常意味著圖像質(zhì)量越好，計算公式為：

式中，P(l)是一個概率，表示了灰度值為l的像素值在圖像中出現(xiàn)的概率，可通過頻數(shù)計算。

3.2 去霧算法比較

本文選取傳統(tǒng)去霧效果較好的DCP、NLID算法作為本次實驗的對比進行實驗。得到如圖7所示的三個算法結果對比圖。

圖7 DCP、NLID與本文算法結果圖

表2為三種算法去霧前后效果圖的數(shù)值評價指標，從數(shù)值角度上分析，本文方法在亮度、信息量、像素分布情況與其它三種方法近似或略優(yōu)，生成去霧圖像整體亮度高于DCP、NLID算法，圖像整體均衡程度和包含色彩信息優(yōu)于其他算法，然而提供的圖像邊緣信息略顯不足，沒有增強景物之間的對比度，優(yōu)點是保證了去霧前后沒有色彩的失真。

表2 去霧前后圖像效果評價

在相同數(shù)據(jù)集和配置文件下將兩個模型訓練10個周期，共做了五組實驗，如表2所示。

表3 相同條件下改進前后訓練10周期的時間/（單位：h）

實驗表明改進鑒別器輸入方式后的網(wǎng)絡模型訓練中有效的節(jié)省了計算量，使模型訓練模型的平均時間要比之前快6.07%。

4 結論

通過實驗表明本文提出的基于生成式對抗網(wǎng)絡的Defog-GAN算法在去霧效果上優(yōu)于傳統(tǒng)算法，去霧后的圖像整體亮度、整體均衡程度偏高，色彩信息豐富。通過對去霧后的圖像進行局部顏色直方圖匹配，有效地解決了顏色退化的問題。改進網(wǎng)絡鑒別器的輸入方式，大大降低了參數(shù)計算量，縮短了模型的訓練時間。