亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合輕量級ViT與CNN的廣范圍紅外圖像超分辨率重建

        2023-03-08 10:56:56沈愷濤閔天悅胡德敏
        軟件導(dǎo)刊 2023年2期
        關(guān)鍵詞:模型

        沈愷濤,閔天悅,胡德敏

        (1.上海理工大學(xué) 信息化辦公室;2.上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)

        0 引言

        圖像超分辨率重建是指根據(jù)低分辨率圖像(Low Resolution,LR)通過一定方法重新構(gòu)建成為高分辨率圖像(High Resolution,HR)?;谏疃葘W(xué)習(xí)的超分辨率重建方法采用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建LR 至HR 的端到端模型,重建效果比傳統(tǒng)的重建方法更佳。以街景路況為主的遠紅外圖像像素分布均勻、目標物較少,需要重建的原始分辨率較低,在超分辨率模型中采用注意力機制可根據(jù)不同特征圖的貢獻度賦予權(quán)重以輔助重建,而更復(fù)雜的紅外圖像,如近紅外圖像細節(jié)紋理更豐富,原圖尺寸較大,因此降質(zhì)退化更復(fù)雜,進行超分辨率上采樣時解空間更廣。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)模型的注意力機制感受野過小,難以捕捉全局像素注意力關(guān)聯(lián)信息。紅外圖像的超分辨率重建本身受限于高分辨率紋理在退化過程中的復(fù)雜降質(zhì),可能導(dǎo)致生成圖像模糊、缺乏細節(jié)紋理,基于生 成對抗網(wǎng)絡(luò)[1](Generative Adversarial Networks,GANs)的圖像重建方法[2]可以緩解此問題,但產(chǎn)生的偽影無法徹底解決,導(dǎo)致客觀評價指標偏低。

        圖像超分辨率重建是根據(jù)現(xiàn)有的稀疏像素預(yù)測出密集像素的問題。例如,Dong 等[3]將CNN 應(yīng)用于圖像超分辨率重建中,并提出3 層SRCNN(Super Resolution Convolutional Neural Network)模型結(jié)構(gòu);Shi 等[4]采用亞像素卷積層進行上采樣,改進了雙三次插值法以及反卷積的上采樣效果。此外,淺的CNN 性能有限,而單純加深模型易出現(xiàn)梯度消失和梯度爆炸的問題,自ResNet[5]和DenseNet[6]被提出后,許多模型采用殘差連接或密集連接構(gòu)建深層網(wǎng)絡(luò)進行重建;TTSR(Texture Transformer Network for ImageSuper-Resolution)[7]模型采用Transformer[8]的自注意力機制捕獲圖像不同區(qū)域的長距離相關(guān)性,雖然取得了優(yōu)異的重建效果,但訓(xùn)練時需要大量先驗參考圖像。

        目前,通用的超分辨率方法常直接應(yīng)用于紅外圖像的重建。例如,Choi等[9]將SRCNN 用于紅外圖像的超分辨率重建,但與傳統(tǒng)的插值方法相比峰值信噪比提升幅度有限;Du 等[10]將RGB 與紅外特征圖融合輸入模型進行重建,但需要大量一一對應(yīng)的紅外與RGB 圖像對;Yang 等[11]通過特征空間的相互依賴自適應(yīng)調(diào)整空間區(qū)域的權(quán)重,混合使用通道和空間注意力機制,使得紅外圖像的重建過程中保留了更多結(jié)構(gòu)信息,取得了較高的結(jié)構(gòu)相似度;邵保泰等[12]考慮到SRGAN(Super Resolution Generative Adversarial Network)能夠改善視覺效果的特性,將其應(yīng)用于以街景路況為主的熱紅外圖像重建,適應(yīng)了4 倍放大倍率下的細節(jié)修復(fù),但該模型損失函數(shù)出現(xiàn)震蕩,需要改進訓(xùn)練策略;邢志勇等[13]通過引入殘差中的殘差塊和特征判別器減少了偽影的產(chǎn)生,有效改善了紅外圖像的重建質(zhì)量。筆者先前提出的LI-SRGAN 模型[14]雖然改進了上述方法,融合了輕量級注意力機制,在街景路況紅外圖像的重建上取得了較好效果,但對于波長范圍廣的紅外圖像,例如降質(zhì)退化更復(fù)雜、上采樣時解空間更廣的近紅外圖像,CNN 的注意力機制只能聚焦于圖像局部特征,難以捕獲全局注意力信息。

        針對上述問題,本文提出一種重建廣范圍紅外圖像的超分辨率模型LI-SRViT(Lightweight Infrared Image Super-Resolution using Vision Transformer),結(jié)合無批量歸一化層的輕量級殘差塊和輕量級視覺Transformer 塊(Vision Transformer,ViT)構(gòu)建全局自注意力機制模型,學(xué)習(xí)不同特征圖區(qū)域之間的長距離注意力依賴關(guān)系以輔助重建,約束解空間;采用Huber 損失函數(shù)使模型穩(wěn)定收斂;采用迭代上下采樣的結(jié)構(gòu)學(xué)習(xí)HR 與LR 圖像對的深層變換關(guān)系。

        1 模型構(gòu)建

        基于深度學(xué)習(xí)的超分辨率上采樣重建方法得到的超分辨率圖像為真實高分辨率圖像IHR的近似估計ISR,超分辨率重建方法為:

        式中,F(xiàn)為超分辨率模型,θ為模型參數(shù),L為損失函數(shù),λ為懲罰系數(shù),Φ(θ)為正則項。

        LI-SRViT 模型架構(gòu)如圖1 所示,其采用迭代上下采樣結(jié)構(gòu),以學(xué)習(xí)高低分辨率圖像之間的深層關(guān)系。

        Fig.1 Structure of LI-SRViT圖1 LI-SRViT模型結(jié)構(gòu)

        當(dāng)前基于視覺Transformer 架構(gòu)的模型雖然在許多計算機視覺任務(wù)性能上得到了提升[15],但要達到類似SOTA的CNN 模型效果需要堆疊更多Transformer 塊[16],耗費大量算力資源。本文模型考慮將Transformer 的自注意力機制計算融入CNN 模型,并實現(xiàn)輕量化。該模型首先通過一個基本3×3 卷積層進行低頻特征提取,然后通過3 個輕量級殘差塊(Lightweight Residual Block,LRB)進行殘差特征提取。模型經(jīng)過輕量級視覺Transformer 塊(Lightweight ViT Block,LViTB)進行全局自注意力特征計算,加強圖像不同部分之間的注意力關(guān)系以輔助重建,在模型中間首先進行圖像尺寸的兩倍上采樣后縮小,然后通過兩個LViTB和上采樣模塊(Up Sample)完成重建。

        1.1 LRB

        LI-SRViT 模型通過LRB 進行初步特征提取,其首先在深度可分離卷積層(Depthwise Separable Convolution,DS Conv)中間進行通道收縮,使用更適合重建的Swish 激活函數(shù)[17]激活后進行通道擴張。Swish激活函數(shù)表示為:

        相較于ReLU 激活函數(shù),Swish 激活函數(shù)可使輸出均值接近于0 而不是將負值全部舍棄,可有效利用全局參數(shù)[18]。

        1.2 LViTB

        LI-SRViT 模型經(jīng)過LRB 進行初步特征提取后,通過LViTB 進行全局自注意力機制計算,以增強圖像整體語義表達。LViTB 結(jié)構(gòu)如圖2 所示,其由MobileViT[19]改進而來,在特征融合階段引入紅外特征圖線性灰度變換(Linear Grayscale Transform,LGT)以適應(yīng)紅外圖像的重建。

        Fig.2 Lightweight vision transformer block structure圖2 輕量級視覺Transformer塊結(jié)構(gòu)

        LViTB 的核心在于將每張單通道圖像的二維矩陣平鋪轉(zhuǎn)換為一維向量,原始Tranformer 的最大序列長度為512[8],若將圖像以像素形式平鋪為一維則計算量非常大,因此在該模型中以中間通道的小尺寸特征圖進行Transformer 自注意力計算,并截取特征圖特定尺寸的補?。≒atch)轉(zhuǎn)換成一維向量。

        LViTB 使用較少的參數(shù)量對輸入特征圖張量的局部與全局特征信息進行統(tǒng)一建模。給定一個輸入張量X,表示為:

        式中,H、W分別為特征圖的高和寬,H為通道數(shù)。

        LViTB 首先使用1 個3×3 標準卷積和1 個1×1 卷積產(chǎn)生特征,表示為:

        其中,3×3 標準卷積用于編碼圖像局部信息,1×1 卷積用于學(xué)習(xí)輸入通道的線性組合后將此張量投影到高維空間,d為高維度。

        LViTB 將特征XL展開為N個非重疊扁平圖像特征Patch 形成XU,表示為:

        采用Transformer 自注意力機制編碼Patch 之間的關(guān)系形成XG,LViTB 在該步驟中類似原始Transformer 進行位置編碼,保證不丟失Patch 的順序,表示為:

        式中,p為單個Patch,P為單個Patch 的面積,N為Patch個數(shù)。將XG進一步折疊得到XF,通過1×1 卷積投影到低維空間后,采用紅外特征線性灰度變換和Concat 操作與X結(jié)合,線性灰度變換表示為:

        式中,i為通道編號,fmapout和fmapin分別表示輸出特征圖和輸入特征圖,a和b分別為對比度的調(diào)節(jié)因子和亮度的調(diào)節(jié)因子。

        在該模塊中輸入特征圖的每個像素區(qū)域均可以對其他區(qū)域信息進行編碼,整體有效接收域為H×W,可獲得比CNN 更大的感受野。

        在LViTB 中,嵌入向量為每個Patch 及其后面通道數(shù)所組成的向量,Transformer 則為Self-Attention 計算模塊。在Self-Attention 的計算過程中(見圖3),尺寸為d×N×P的特征圖Patches 向量分別通過1×1 的卷積運算3 組Patches向量,表示為:

        式中,Q、K和V分別為Query、Key和Value。

        當(dāng)處理某1 個Patch 向量時,該向量會用自己的Query與當(dāng)前序列中其他Patch 向量的Key進行逐一比對,完成后得到一個相似向量,該向量維度與當(dāng)前序列的Patch 向量個數(shù)相同,其中每個元素代表對應(yīng)Patch 向量與發(fā)出Query向量之間的相似度,值的大小與相似度正相關(guān)。得到相似度后可對每個Patch 向量的值Value加權(quán)求和,最終得到一個融入所有相關(guān)Patch 向量信息的新向量。

        注意力特征圖Ωj,i由Softmax 函數(shù)計算得到,表示為:

        式中,ri,j表示合成第j個向量與第i個向量之間的自注意力關(guān)聯(lián)度。自注意力輸出特征圖Patches(oj)表示為:

        Fig.3 Computation of Self-Attention圖3 Self-Attention計算

        1.3 上采樣重建模塊

        上采樣重建模塊結(jié)構(gòu)如圖1 的Up Sample 模塊所示,采用亞像素卷積層進行整數(shù)倍的放大,進一步經(jīng)過一個卷積層和Tanh函數(shù)激活,以輸出高分辨率圖像。

        1.4 損失函數(shù)

        主流的圖像超分辨率模型優(yōu)先考慮使用L2 損失函數(shù)(即MSE 損失函數(shù))和L1 損失函數(shù)(即MAE 損失函數(shù)),前者與客觀評價指標峰值信噪比(Peak Signal to Noise Ratio,PSNR)有直接相關(guān)性,后者能使模型在訓(xùn)練后期階段有較快的收斂趨勢。然而L1 用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練會使梯度始終處在局部較大的位置,雖能較快收斂模型,但在訓(xùn)練結(jié)束時容易遺漏局部最小值。而L2 損失函數(shù)對異常值有較大的懲罰力度,在梯度下降過程中接近最小值時收斂較為緩慢。本文綜合兩者優(yōu)勢,采用Huber 損失函數(shù)(即Smooth L1損失函數(shù)),如式(13)所示,其圍繞的最小值范圍可以逐步平滑地進行梯度下降,對異常值更魯棒。此外,其含有的可學(xué)習(xí)參數(shù)δ可根據(jù)當(dāng)前訓(xùn)練梯度自適應(yīng)調(diào)節(jié)更趨近于L1或L2損失函數(shù)。

        式中,W、H分別表示圖像的寬和高。

        2 實驗方法與結(jié)果

        2.1 數(shù)據(jù)集與實驗細節(jié)

        本文模型首先在大規(guī)模圖像數(shù)據(jù)集ImageNet-1K 進行預(yù)訓(xùn)練,使Transformer 結(jié)構(gòu)學(xué)習(xí)不同物體的注意力特征結(jié)構(gòu),然后在紅外圖像數(shù)據(jù)集NIR、CVC-09/14 上進一步訓(xùn)練100 個epoch。實驗在服務(wù)器上進行,操作系統(tǒng)為Ubuntu 20.04,使用CUDA 加速的PyTorch 1.7 深度學(xué)習(xí)框架,IDE為PyCharm;硬件采用英特爾Core i78700 CPU,內(nèi)存16GB,GPU 為英偉達GeForce RTX 3070,顯存8GB。訓(xùn)練模型時使用Adam 優(yōu)化器,設(shè)置初始學(xué)習(xí)率α為0.0001,衰減率β為0.9。受顯存大小限制,2 倍放大倍率的模型批量大小Batch Size 設(shè)置為128,隨機裁剪分辨率為96×96 的HR 圖像通過雙三次插值下采樣至48×48 的LR 圖像作為圖像對;4 倍放大倍率模型Batch Size 為64,隨機裁剪192×192 下采樣至48×48 作為圖像對,模型中間通道數(shù)為64。為防止模型過擬合,增強魯棒性,隨機將訓(xùn)練集圖像進行翻轉(zhuǎn)和鏡像。模型測試時選取9 張NIR 數(shù)據(jù)集的近紅外圖像作為評價測試集Test1,選取100 張來自CVC-09/14 和TNO 數(shù)據(jù)集的遠紅外圖像作為測試集Test2。

        2.2 評價指標

        使用PSNR 和結(jié)構(gòu)相似度(Structural Similarity Index,SSIM)作為客觀評價指標,計算方式如式(14)和(15)所示,其中PSNR 與SR 和HR 圖像之間的灰度值均方誤差相關(guān);SSIM 體現(xiàn)了HR 圖像與SR 圖像的亮度、對比度等相似關(guān)系。

        式中,H、W分別為圖像的高和寬,(x,y)表示各個像素點在圖像中的坐標位置,μ為灰度平均值,σ為方差,C1和C2為維持等式有效性的常數(shù)。

        2.3 預(yù)訓(xùn)練和損失函數(shù)影響實驗

        雖然當(dāng)前Transformer 在各類計算機視覺任務(wù)中表現(xiàn)優(yōu)異,但由于其缺乏空間歸納偏差,需要大量數(shù)據(jù)進行預(yù)訓(xùn)練以保證精確度[16],因此本文模型同樣先在ImageNet-1K 數(shù)據(jù)集進行預(yù)訓(xùn)練。大多數(shù)重建模型采用L2 損失或L1 損失函數(shù),以下比較預(yù)訓(xùn)練、未預(yù)訓(xùn)練以及采用不同損失函數(shù)之間的差異。

        采用Model A(已預(yù)訓(xùn)練+Huber 損失)、Model B(未預(yù)訓(xùn)練+Huber 損失)、Model C(已預(yù)訓(xùn)練+L2 損失)Model D(已預(yù)訓(xùn)練+L1 損失)在紅外圖像數(shù)據(jù)集上訓(xùn)練100 個epoch 的PSNR 變化和損失函數(shù)收斂情況如圖4 和圖5 所示。模型在得到預(yù)訓(xùn)練后,第20 個epoch 開始逐步收斂,可以清晰看出未經(jīng)過預(yù)訓(xùn)練的模型PSNR 變化曲線峰值沒有經(jīng)過預(yù)訓(xùn)練的高,PSNR 變化不穩(wěn)定,損失函數(shù)的震蕩也更明顯。采用L2 損失和Huber 損失的模型PSNR 峰值更高且損失值更小,采用L1 損失的模型能夠更平穩(wěn)收斂,但PSNR不占優(yōu)勢。

        Model A、Model B、Model C、Model D 在本文測試數(shù)據(jù)集Test1 比較2 倍放大倍率下的PSNR 和SSIM 指標如表1所示,可以看出采用Transformer 的模型得到預(yù)訓(xùn)練后在重建指標方面提升顯著;采用Huber 損失的模型在SSIM 上比L2 損失有明顯提升,PSNR 的提升不大;采用L1 損失的模型在SSIM 方面最有優(yōu)勢,但PSNR 偏低,因此綜合比較來看本文選擇Huber損失函數(shù)。

        Fig.4 Comparison of PSNR change during model training圖4 模型訓(xùn)練時PSNR變化比較

        Fig.5 Comparison of loss function change of models圖5 模型損失函數(shù)值變化比較

        Table 1 Comparison results of pre-training effect表1 預(yù)訓(xùn)練影響比較結(jié)果

        2.4 消融實驗

        為驗證本文模型所采用的各個模塊對實驗結(jié)果的影響,設(shè)計消融實驗進行4 種模型結(jié)構(gòu)比較,結(jié)果如表2 所示。分別訓(xùn)練50 個epoch,在近紅外測試數(shù)據(jù)集Test1 和遠紅外測試數(shù)據(jù)集Test2 上比較2 倍放大倍率下的PSNR 指標。根據(jù)模型A(本文模型LI-SRViT)和模型B 的比較結(jié)果,采用沙漏型LRB 的效果優(yōu)于原始MobileViT 中采用的MobileNet V2[20]殘差塊;根據(jù)模型A 和C 的比較結(jié)果,將DS Conv 替換為常規(guī)卷積(Normal Conv)的提升效果不明顯,使用深度可分離卷積可極大減少冗余參數(shù);根據(jù)模型A 和D 的比較結(jié)果,使用Transformer 的自注意力計算可以顯著提升模型效果。

        Table 2 Results of the ablation experiment表2 消融實驗結(jié)果

        2.5 算法比較實驗

        將本文模型與當(dāng)前經(jīng)典的雙三次插值算法Bicubic[21]、SRGAN[2]的生成器網(wǎng)絡(luò)模型SRResNet、經(jīng)典的重量級超分辨率算法EDSR[22]和經(jīng)典的輕量級超分辨率算法CARN[23]和IMDN[24]進行比較,比較其2 倍放大倍率下的模型參數(shù)量(Params)、PSNR 和SSIM。同時將本文模型LISRViT 與筆者先前提出的模型LI-SRGAN 進行比較,可以得出視覺Transformer 的全局自注意力機制使近紅外圖像的重建效果取得改善,峰值信噪比和結(jié)構(gòu)相似度均有提高。

        重建對比評價指標結(jié)果如表3 和表4 所示,可以看出本文模型在近紅外圖像測試集PSNR 指標上以較少的參數(shù)數(shù)量1031K 超越了參數(shù)較大的SRResNet 和CARN 模型,也超越了基于信息蒸餾網(wǎng)絡(luò)的IMDN 模型。EDSR 的PSNR 指標最佳,本文模型綜合評價指標接近EDSR,在Test1 的2 倍放大倍率下本文模型SSIM 指標略高于EDSR。如圖6 所示,LI-SRViT 模型對遠紅外圖像能重建出清晰的效果,LI-SRGAN 重建的遠紅外圖像物體邊緣細節(jié)處更加銳利。如圖7 所示,在近紅外圖像的測試上,本文模型重建的測試示例中的文字細膩度和窗格更接近HR 圖像,而LI-SRGAN 有輕微的偽影現(xiàn)象。

        Table 3 Comparison results of LI-SRViT and six other methods on the self-built infrared image dataset at 2x magnification表3 2倍放大倍率下LI-SRViT與其他6種方法在自建紅外圖像測試集的比較結(jié)果

        2.6 注意力可視化實驗

        為進一步體現(xiàn)本文模型的優(yōu)勢,采用CVPR 2021 收錄的視覺Transformer 注意力可視化方法[25]對訓(xùn)練得到的模型進行注意力相關(guān)性顯示。該方法通過深度泰勒分解原理分配局部相關(guān)性,然后將相關(guān)性傳播到各層形成全局相關(guān)性,采用迭代消除負面影響整合到注意力圖中。如圖8所示,LI-SRViT 模型能夠?qū)W習(xí)到圖像中的主要物體特征分布,采用Transformer 的全局自注意力能夠輔助完成優(yōu)質(zhì)重建。

        Table 4 Comparison results of LI-SRViT and six other methods on the self-built infrared image dataset at 4x magnification表4 4倍放大倍率下LI-SRViT與其他6種方法在自建紅外圖像測試集的比較結(jié)果

        Fig.6 Test results on far infrared images圖6 遠紅外圖像測試結(jié)果

        Fig.7 Test results of near infrared images圖7 近紅外圖像測試結(jié)果

        Fig.8 Attention visualization of ViT圖8 ViT注意力可視化

        3 結(jié)語

        本文通過結(jié)合深度可分離卷積、輕量級視覺Transformer 塊的全局自注意力機制和迭代上下采樣結(jié)構(gòu),構(gòu)建了一個適用于重建波長范圍廣的紅外圖像的超分辨率模型,該模型參數(shù)量較小,且重建效果優(yōu)于當(dāng)前數(shù)個經(jīng)典模型。真實的紅外圖像降質(zhì)更加復(fù)雜,下一步將研究如何結(jié)合圖像降噪算法完成優(yōu)質(zhì)重建。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        日本在线一区二区三区视频| 最新国产一区二区精品久久| 99亚洲乱人伦精品| 国产又大大紧一区二区三区| 一边摸一边抽搐一进一出口述 | 人妻暴雨中被强制侵犯在线| 无码午夜剧场| 97久久久一区二区少妇| 国产精品黄色片在线看| 色噜噜狠狠一区二区三区果冻| 大陆国产乱人伦| 一区二区黄色素人黄色| 亚洲最新无码中文字幕久久| 免费看泡妞视频app| 精品91精品91精品国产片| 日本女同视频一区二区三区| 欧美黑人又大又粗xxxxx| 精品人妻系列无码一区二区三区| 精品视频在线观看一区二区三区| 国产精品又湿又黄九九九久久嫩草| 亚洲欧美日韩精品久久| 欧美人与动人物牲交免费观看| 亚洲双色视频在线观看| 91九色最新国产在线观看 | 99精品视频在线观看免费| bbbbbxxxxx欧美性| 黄片视频大全在线免费播放| 精品亚洲成a人片在线观看| 成人国产精品一区二区网站| 手机在线观看成年人视频| 人妻丰满熟妇aⅴ无码| 久久婷婷香蕉热狠狠综合 | 国产精品永久在线观看| 午夜无码片在线观看影院| 亚洲啊啊啊一区二区三区| 成人偷拍自拍视频在线观看| 欧美成人午夜精品久久久| 日本专区一区二区三区| 亚洲成人av大片在线观看| 久久久久久亚洲av成人无码国产 | 国产亚洲午夜高清国产拍精品|