亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GAN 和U-Net 的低光照圖像增強算法①

        2022-06-27 03:54:38李晨曦
        計算機系統(tǒng)應用 2022年5期
        關鍵詞:特征

        李晨曦, 李 健

        1(中國科學院 計算機網絡信息中心, 北京 100190)

        2(中國科學院大學, 北京 100049)

        目前, 基于深度學習的計算機視覺算法通過強大的圖像特征學習能力, 在圖像識別、目標檢測等領域取得巨大成功. 深度卷積神經網絡能夠很好的提取圖像中的關鍵信息, 理解圖像語義, 但這依靠于高質量的圖像數(shù)據. 光線不足的環(huán)境下產生的圖像數(shù)據, 往往存在亮度和對比度低、細節(jié)丟失、噪聲多等現(xiàn)象[1], 這類低光照圖像不但影響人類的主觀感受, 而且對上游的視覺算法任務造成阻礙. 所以, 不依賴于昂貴的圖像采集設備的圖像增強算法[2]具有非常重要的研究意義和應用價值. 本文著手于提高低光照圖像的亮度、對比度, 改善圖像感知質量, 展開相關算法研究, 共分為6 個章節(jié): 第1 節(jié)對相關工作展開調研和分析. 第2 節(jié)介紹生成對抗網絡算法基本原理. 第3 節(jié)提出了一種基于生成對抗網絡的增強算法, 設計了帶有混合注意力模塊的U-Net 作為生成器, 基于PatchGAN 的全卷積網絡作為判別器. 第4 節(jié)通過大量實驗來證明所提出模型的有效性. 第5 節(jié)通過消融實驗證明本文所提出的模型組件和加權融合損失函數(shù)對提高圖像質量有積極的影響. 第6 節(jié)總結本文的工作, 展望未來的工作方向.

        1 相關工作

        低光照圖像增強方法分為傳統(tǒng)圖像處理方法和基于深度學習的圖像增強方法. 傳統(tǒng)方法中直方圖均衡化[3]方法通過均勻拉伸灰度直方圖, 擴展圖像灰度級的動態(tài)范圍, 來增加對比度. 限制對比度自適應直方圖均衡化[4]算法把圖像劃分為多個不重疊區(qū)域, 并對區(qū)域內灰度直方圖最大值進行限定, 超出最大值的像素均勻分配到其余灰度級, 之后再進行直方圖均衡化,能夠有效抑制區(qū)域內噪聲放大和局部區(qū)域過度增強,但仍不能有效處理噪聲, 恢復圖像細節(jié). Retinex 理論[5]模擬人類視網膜成像原理, 將圖像分解為入射分量和反射分量, 入射分量決定了像素的動態(tài)范圍, 反射分量則反映了圖像中物體的本質內容. 通過估計兩種分量, 去除入射分量, 只保留圖像中物體的反射屬性, 得到不受光照影響的圖像內容, 從而實現(xiàn)圖像增強. 根據這一理論出現(xiàn)了單尺度Retinex (SSR)[5], 多尺度Retinex(MSR)[6]等方法. SSR 用高斯函數(shù)與圖像進行卷積, 近似估計入射分量, 從而求得反射分量. MSR 使用不同尺度的高斯核函數(shù), 可以看作多個不同尺度的單尺度Retinex 線性加權求和. 帶彩色恢復的多尺度Retinex算法(MSRCR)[6]引入顏色恢復因子, 彌補圖像局部區(qū)域對比度增強而導致的圖像顏色失真的缺陷. 此外,NPE[7]利用亮度濾波分解圖像將反射分量限制在[0, 1],并結合log 雙邊轉換平衡光照分量對細節(jié)和自然度的增強, 避免過度增強. LIME[8]首先估計亮度圖, 再根據Retinex 公式反推出反射分量, 同時使用BM3D 算法進行去噪. BIMEF[9]引入相機響應模型加強圖像曝光度, 并通過光照估計加權融合得到增強圖像.

        近年來, 深度學習憑借強大的圖像理解能力在一些低級的圖像視覺任務, 如超分辨率, 去噪去霧等中獲得成功, LLNet[10]將深度學習引入低光照圖像增強任務, 構建了堆疊稀疏去噪自編碼器, 并人工合成低光照數(shù)據, 模擬低光照環(huán)境, 對低光照有噪聲圖像進行增強和去噪. 相比傳統(tǒng)算法增強圖像質量明顯提升, 但模型結構簡單, 沒有完全利用深度學習的優(yōu)勢, 仍有巨大的進步空間. MBLLEN[11]提出多分支網絡, 分別對應圖像增強中亮度增強、對比度增強、去噪去偽影等多種功能需求, 并對不同層次的特征進行融合, 達到多方面提高圖像質量的效果. ALIE[12]提出了一種注意力機制引導的增強方法和多分支網絡結合的體系結構, 通過生成注意力圖和噪聲圖來引導區(qū)域自適應性的弱光增強和去噪. Wang 等[13]將Retinex 理論和神經網絡相結合, 通過卷積神經網絡估計光照分量, 調整曝光程度,得到期望的正常曝光圖像, 并加入平滑損失提高對比度、三通道顏色損失提高鮮艷程度. EnlightenGAN[14]首創(chuàng)地在低光領域使用GAN 技術, 即使不成對的數(shù)據也能進行訓練學習, 并利用局部和全局判別器處理局部和全局的光照條件. 基于深度學習的方法通過改變網絡結構、學習不同類型特征以及優(yōu)化損失函數(shù)等多元化的手段可以顯著提高增強效果, 但對于圖像質量和細節(jié)的恢復還有很大提升空間.

        2 生成對抗網絡原理

        本文針對傳統(tǒng)增強方法的不足和現(xiàn)有基于深度學習算法的特點, 提出使用生成對抗網絡作為模型框架進行低光照圖像增強的方法. 本節(jié)介紹生成對抗網絡的基本原理, 及目前主流的PatchGAN 思想.

        2.1 生成器和判別器

        生成對抗網絡由生成器G和判別器D[2]組成, 生成器學習真實數(shù)據的潛在分布, 產生生成數(shù)據. 判別器本質是一個二分類器, 判斷輸入數(shù)據是生成數(shù)據還是真實數(shù)據. 兩個模型訓練過程中相互博弈, 使得生成器的生成數(shù)據不斷接近真實數(shù)據, 判別器無法判斷其真假, 最終達到生成器和判別器的動態(tài)平衡. GAN 的優(yōu)化屬于極大極小博弈問題[2], 其目標函數(shù)公式如下.

        算法1. GAN 算法的訓練流程for number of training epochs do for k steps do抽樣m 個來自噪聲分布的樣本 ;{x1,x2,···,xm}{z1,z2,···,zm}抽樣m 個來自真實分布的樣本 ;D(G(zi))噪聲樣本經過生成器和判別器得到輸出 ;D(yi)真實樣本經過判別器得到輸出 ;Ld計算判別器損失函數(shù) :Ld= 1 m∑m i=1[-logD(yi)-log(1-D(G(zi)))]通過Adam 梯度下降算法優(yōu)化判別器的參數(shù):θd=Adam(?θd(Ld),θd)計算生成器損失函數(shù) :Lg= 1 Lg m∑m i=1[log(1-D(G(zi)))]通過Adam 梯度下降算法優(yōu)化判別器的參數(shù):θg=Adam(?θg(Lg),θg)end for end for

        2.2 PatchGAN 方法

        普通二分類判別器采用基于CNN 的分類模型, 將輸入數(shù)據映射為二維向量, 表示該數(shù)據為真實數(shù)據和生成數(shù)據的概率, 研究表明該方法在低光照圖像增強領域并不適用, 因為圖像增強不僅是一個整體的二分類問題, 而且還需要對圖像中不同區(qū)域進行調整. Patch-GAN 是一種關注局部圖像特征的判別器框架[15], 思想是使用全卷積網絡提取高級圖像特征, 輸出為一個N×N的矩陣, 其中每一個元素表示一個感受野, 能夠表示出原圖像中對應區(qū)域的圖像特征.

        3 主要方法

        本文提出的模型基于GAN 架構, 生成器采用帶有混合注意力機制的U-Net, 輸入為低光照圖像, 輸出為同尺寸的增強圖像. 判別器借鑒PatchGAN 的思想, 采用全卷積網絡, 輸出為矩陣張量. 具體結構如圖1 所示.

        圖1 GAN 框架模型圖

        3.1 生成器網絡結構

        生成器是GAN 的核心, 主要作用是進行圖像增強、去噪和細節(jié)恢復. U-Net[16]在圖像分割領域應用廣泛, 是由編碼器、解碼器和跳躍連接[17]組成的卷積神經網絡. 編碼器使用3 次最大池化層縮小特征圖尺寸,獲得感受野更大的特征圖. 解碼器使用3 次反卷積從高級語義特征恢復到高分辨率圖像, 跳躍連接將編碼器和解碼器對應層次的特征圖進行疊加, 避免了網絡深度加深造成的淺層特征丟失, 同時聚合多層特征合成高質量圖像. 本文提出的生成器網絡在U-Net 的基礎上進行改進, 在網絡頭部提取注意力圖, 在編碼器部分加入混合注意力模塊MixAttBlock, 在解碼器部分加入注意力卷積模塊ConvAttBlock, 提高網絡的特征表示能力, 有助于恢復圖像細節(jié). 生成器網絡具體結構如圖2所示.

        圖2 生成器網絡結構圖

        注意力卷積模塊: SENet[18]提出的通道注意力機制, 通過全局平均池化獲得每個通道的代表值, 再使用全連接層及激活函數(shù)學習通道間的關系, 獲得通道的權值. 注意力機制能夠引導網絡關注更重要的特征, UNet 的解碼器階段特征圖通道數(shù)逐層減少, 直至恢復至三通道, 我們在此引入通道注意力, 形成注意力卷積模塊(ConvAttBlock), 在通道恢復時有助于保留重要特征, 其網絡結構如圖3 所示.

        圖3 ConvAttBlock 結構圖

        非對稱的non-local 模塊: 卷積層只在局部像素范圍進行卷積運算, 因此需要堆疊大量卷積層才能獲得較大感受野, 同時也增加了網絡參數(shù)和網絡優(yōu)化難度.Non-local[19]旨在通過計算特征圖任意像素位置之間的遠程依賴的方式代替堆疊大量卷積層, 來提高感受野.

        其通用公式為式(2), 其中,xi表 示特征圖上任意位置,f是相似度函數(shù),g是映射函數(shù), 將點映射成向量, 即求任意位置的特征表示,C(x)表示歸一化. Non-local的具體網絡結構如圖4(a)所示, 其中, θ 和 φ 兩個卷積用于壓縮通道數(shù), 矩陣乘法用于計算相似度, Softmax 進行歸一化, γ卷積即為映射函數(shù).

        圖4 Non-local 和ANN 模塊結構圖

        Non-local 引導網絡利用更大范圍的信息這一特性, 使得低光照圖像增強時能夠保留更豐富的信息. 同時, 該模塊計算過程中會產生的大型的矩陣張量, 導致內存占用量和計算量激增. 為進一步優(yōu)化網絡性能, 我們采用了非對稱的non-local 模塊(asymmetric nonlocal, ANN)[20], 在 φ 和 γ卷積后面引入金字塔池化層, 結構如圖4(c)所示. 多尺度的池化可以在減小特征圖尺寸的同時, 不會丟失過多的特征信息. ANN 的具體結構如圖4(b)所示, 其中,N=H×W, 且S?N.

        表1 Non-local 與ANN 內存和乘加計算量對比

        圖5 MixAttBlock 結構圖

        3.2 判別器網絡結構

        本文的判別器采用13 層全卷積網絡, 均使用3×3 的卷積核, 除最后的卷積層外, 其余卷積層后均使用LeakReLU 激活函數(shù). 全卷積網絡提取高層圖像特征, 并輸出一個1×4×4 的矩陣張量, 充分考慮圖像不同區(qū)域的影響, 注重圖像全局質量和局部細節(jié)的提升. 網絡結構如圖6 所示.

        圖6 判別器網絡結構圖

        3.3 損失函數(shù)

        3.3.1 生成器損失函數(shù)

        這類損失只能使生成圖像與對應的標簽圖像像素值絕對誤差減小, 沒有考慮圖像的內容相關性. 為了能夠更好的恢復圖像細節(jié), 我們采用了多損失加權融合的方法, 加入對抗損失、結構損失和感知損失, 構造新的生成器損失函數(shù), 公式如下:

        對抗損失: 該損失基于生成器和判別器的對抗機制[17], 引導生成器網絡學習正常光照圖像的亮度、對比度、紋理等特征. 對抗損失定義為生成圖像輸入判別器得到結果矩陣, 與相同尺寸的全1 矩陣張量的均方誤差值(mean square error,MSE). 當結果矩陣每個元素都接近1, 則判別器不能判斷其是否為生成圖像, 從而達到生成器和判別器的動態(tài)平衡. 計算公式如式(7),其中,G表示生成器網絡輸出,D表示判別器網絡輸出,Ione表示全1 矩陣張量.

        結構損失[22]: 該損失旨在通過衡量生成圖像和標簽圖像的結構差異性, 提高生成圖像的整體視覺質量.該損失根據常用的圖像質量評估指標結構相似性(structural similarity, SSIM)[23]和多尺度結構相似性(multi-scale structural similarity, MS-SSIM)[24]構成.SSIM 從亮度、對比度、結構3 方面度量圖像相似性,計算公式如式(8)所示. 亮度、對比度、結構度量函數(shù)表達式分別為式(9)、式(10)、式(11). 其中, μx和 μy分別表示圖像x和y的均值, σx和 σy分別表示圖像x和y的方差, σxy表 示圖像x和y的協(xié)方差,C1、C2和C3是常數(shù). 實際計算時, 使用高斯加權滑動窗口將圖像劃分為多個局部區(qū)域, 整張圖像的SSIM取所有區(qū)域的均值.

        感知損失:Lpix、Lstr等指標只關注了圖像中的底層信息, 而沒有考慮高層特征信息. 我們認為越相似的圖像, 通過通用特征提取器獲得的特征圖也越相似, 而高層特征圖也是提高圖像視覺質量的重要標準, 這在SRGAN[25]中定義為感知損失. 由于VGG19 網絡在圖像特征提取上有著良好的表現(xiàn), 我們采用ImageNet 上預訓練的VGG19 模型作為特征提取器[1], 提取其第2 和第5 個池化層的輸出構成特征圖, 計算特征圖的均方誤差作為感知損失, 通用公式如下,

        3.3.2 判別器損失函數(shù)

        生成圖像和正常光照圖像輸入判別器時, 生成圖像應該判別為假, 而正常光照圖像應該判別為真, 又由于判別器的輸出為1×4×4 的矩陣張量, 則使用全0 和全1 矩陣張量分別與生成圖像和正常光照圖像的輸出矩陣計算MSE, 損失函數(shù)定義為:

        4 實驗分析

        4.1 實驗環(huán)境

        本文實驗環(huán)境為Ubuntu 18.04, Intel Xeon E5-2630@ 2.20 GHz, 32 GB RAM, TITAN RTX 24 GB, PyTorch深度學習框架.

        4.2 數(shù)據集

        真實環(huán)境下很難捕捉到成對的低光照和正常光照圖像, 根據之前的研究, 本文采用MBLLEN 提供的基于PASCAL VOC 圖像數(shù)據集的合成數(shù)據集[11], 該數(shù)據集通過對每個通道隨機伽馬非線性調整產生低光照圖像, 公式表達為:

        4.3 實驗指標

        圖像增強通常采用峰值信噪比(peak signal to noise ratio,PSNR)和結構相似性 (SSIM)作為定量指標[26].PSNR通過評估生成增強圖像與正常光照圖像間像素差異來衡量整體增強效果, 單位是分貝(dB), 公式如下:

        4.4 參數(shù)細節(jié)

        本文采用 Adam 優(yōu)化器, 初始學習率為 1E-3, 并使用學習率衰減, 每個epoch 衰減1%. 網絡訓練的epoch設置為100, batch-size 設置為16. 采用隨機裁剪、旋轉和翻轉擴充數(shù)據, 并指定輸入尺寸為256×256. 金字塔池化層輸出尺寸設置為[2, 6, 8], 損失函數(shù)權值(λ1,λ2,λ3,λ4)設置為(0.006, 0.85, 0.14, 0.004).

        4.5 實驗評估

        實驗網絡模型訓練損失隨迭代的收斂曲線如圖7所示, 其中, 圖7(a)是生成器訓練損失曲線, 圖7(b)是判別器訓練損失曲線. 可以看出, 模型在100 epoch 后接近收斂.

        圖7 訓練損失曲線

        本文提出的模型與一些經典算法在VocDark 測試集上的對比結果如表2 所示. 其中, 加粗字體表示最高值, 下劃線表示次高值. 實驗通過客觀指標對比證明本文算法要優(yōu)于其他算法, 說明基于U-Net 的生成對抗網絡在低光照圖像增強任務中具有比較明顯的優(yōu)勢.

        表2 與經典算法的對比結果

        測試集的直觀增強效果如圖8 所示, MSRCR 算法的結果存在顏色失真, 曝光過度的問題. NPE 算法一定程度上緩解了顏色失真的問題, 但亮度提升不足, 且局部區(qū)域模糊. LIME 算法的結果色彩不自然, 亮度、對比度過高, 如Image 1 中沙發(fā)偏藍, Image 2 中狗的毛色過亮. BIMEF 算法結果偏暗, 如Image 4 和Image 5 整體亮度增強效果不明顯. MBLLEN 算法的效果較好,但局部區(qū)域較暗, 且與自然光照圖像存在偏差, 如Image4中羊腿下的區(qū)域和Image 5 中車底的區(qū)域較暗. 本文算法的結果與自然光照圖像非常接近, 并且本文算法在增強整體的亮度、對比度的同時, 細節(jié)恢復上也更加出色, 如Image 1 中地面光線輪廓更真實, Image 2 中地面、Image 4 中羊嘴和Image 5 中車牌的細節(jié)更加明顯. 從人眼視覺感知效果上可以看出, 本文算法的增強圖像質量高于其他算法.

        圖8 測試集效果對比

        5 消融實驗

        本文通過消融實驗驗證提出的網絡模型中每個組件的有效性. 實驗通過逐步添加各類組件來比較指標的變化. 在這些實驗中, 均保持訓練過程中的超參數(shù)設置不變, 將所有網絡訓練100 epoch 達到收斂狀態(tài), 選擇PSNR、SSIM作為衡量不同模塊對網絡性能影響的指標.

        首先選擇U-Net 作為骨干網絡, 分別加入ConvAtt-Block、MixAttBlock 以及其組合, 結果如表3 所示, 說明本文所提模塊組合后能夠取得最佳效果.

        表3 不同模塊組合結果對比

        圖9 展示了添加不同模塊的效果, 通過視覺對比可以發(fā)現(xiàn), U-Net 作為骨干網絡在低光照圖像增強中能取得較好的效果, 但仍存在亮度、對比度提升不足, 邊緣細節(jié)模糊的問題. 加入ConvAttBlock 后增強效果不明顯, 加入MixAttBlock 后局部區(qū)域提升明顯, 如Image 1中羊毛顏色和細節(jié)得到恢復, Image 5 中人臉細節(jié)更加明顯. 本文所提方法產生的增強圖像視覺效果最好, 說明這些模塊有助于恢復低光圖像各方面屬性, 使其成為清晰真實的自然光照圖像.

        圖9 模塊消融實驗效果對比

        其次, 本文對多種損失的組合進行對比, 測試集結果如表4 所示, 其中, *號表示選中該損失參與加權融合, 組成新的生成器損失函數(shù). 可以看出同時使用Lpix和Lstr能夠顯著增強圖像的PSNR, 說明該損失能夠正確引導網絡學習低光照圖像到自然光照圖像的映射關系. 并且Lp的加入有助于提高增強圖像質量.

        表4 不同損失組合結果對比

        6 總結

        本文針對低光照圖像增強的問題, 提出了一種基于U-Net 生成對抗網絡的低光照圖像增強算法. 生成器采用帶有混合注意力的U-Net 網絡, 該方法利用非對稱的non-local 模塊減少網絡復雜度的同時提高感受野, 與通道注意力結合, 獲得更豐富的特征表示. 判別器借鑒PatchGAN 的思想, 從普通的二分類網絡改為輸出為矩陣的全卷積網絡, 以考慮圖像局部區(qū)域差異,提高生成器的增強效果. 實驗證明本文的方法能夠獲得高對比度、高亮度、噪聲和顏色失真較小、細節(jié)更顯著的增強圖像. 并且, 通過在公開數(shù)據集上對PSNR、SSIM等評價指標的客觀比較, 證明本文所提方法具有更好的效果. 最后, 通過消融實驗證明本文提出的算法及參數(shù)配置能夠取得最佳的效果. 在今后的工作中, 我們將從兩個方向繼續(xù)探索和應用低光照圖像增強技術:一是結合圖像分類、目標檢測等上游任務, 提高其在低光照領域的可行性和準確性; 二是進一步優(yōu)化網絡結構和訓練方法, 解決GAN 難訓練, 容易出現(xiàn)梯度消失和梯度爆炸的問題.

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機變量的分布列與數(shù)字特征
        具有兩個P’維非線性不可約特征標的非可解群
        月震特征及與地震的對比
        如何表達“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        詈語的文化蘊含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        中文字幕人妻少妇引诱隔壁| 日韩一区二区中文天堂| 自拍偷自拍亚洲一区二区| 亚洲精品www久久久久久| 亚洲综合av在线在线播放| 美女熟妇67194免费入口| 久亚洲一线产区二线产区三线麻豆| 欧美性猛交aaaa片黑人| 天天躁狠狠躁狠狠躁夜夜躁| 97中文字幕在线观看| 长腿丝袜在线观看国产| 日本边添边摸边做边爱| 久久人妻一区二区三区免费| 久久不见久久见免费影院国语| 欧美精品免费观看二区| AV无码系列一区二区三区| 一道之本加勒比热东京| 天堂网www资源在线| 亚洲V日韩V精品v无码专区小说| 久热香蕉av在线爽青青| 白浆高潮国产免费一区二区三区| 日本伊人精品一区二区三区| 夜夜欢性恔免费视频| 亚洲成在人网av天堂| 免费看片的网站国产亚洲| 亚洲va欧美va日韩va成人网| 国产av日韩a∨亚洲av电影 | 亚洲成a人片在线观看天堂无码| 国产呦系列视频网站在线观看| 亚洲精品久久蜜桃av| 人妻体体内射精一区二区| 亚洲аv天堂无码| 精品中文字幕久久久人妻| 日韩国产人妻一区二区三区| 国产麻无矿码直接观看| 91亚洲精品久久久蜜桃| 公厕偷拍一区二区三区四区五区| 精品国产sm捆绑最大网免费站| 国产精品系列亚洲第一| 久久99国产综合精品女同| 天天爽天天爽夜夜爽毛片|