亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學習的圖像超分辨率重建技術綜述

        2022-09-15 10:27:30楊才東李承陽李忠博謝永強孫方偉
        計算機與生活 2022年9期
        關鍵詞:方法模型

        楊才東,李承陽,2,李忠博+,謝永強,孫方偉,齊 錦

        1.軍事科學院 系統(tǒng)工程研究院,北京 100141

        2.北京大學 信息科學與技術學院,北京 100871

        圖像超分辨率重建技術(super-resolution reconstruction,SR)是將輸入的模糊、包含信息較少的低分辨率(low-resolution,LR)圖像重建為清晰、包含更多信息的高分辨率(high-resolution,HR)圖像,是計算機視覺領域的一個重要方向。生成圖像還可以為下游的計算機視覺相關任務提供服務,如目標檢測、目標定位等,可以增強任務效果,提高識別正確率。在現(xiàn)實生活中,圖像超分辨率重建應用前景十分廣泛,如醫(yī)學成像、安全監(jiān)測、圖像壓縮等領域。

        傳統(tǒng)的圖像超分辨率重建方法主要有以下三種:基于插值的超分算法,如雙三次插值、最近鄰插值等;基于退化模型的超分算法,如迭代反投影法、凸集投影法和最大后驗概率法等;基于學習的超分算法,包括流形學習、稀疏編碼方法等。傳統(tǒng)的超分算法已經取得了很大的成功,但是隨著尺度因子的放大,從×2 到×4、×8,用于超分重建所需要的信息越來越多,人為定義的先驗知識已經不能滿足需求,很難實現(xiàn)重建高質量圖像的目的。

        隨著深度學習在計算機視覺領域取得了巨大成功,2014 年Dong 等人首次將深度學習方法引入圖像超分重建任務,借助神經網絡強大的學習能力,取得了優(yōu)于傳統(tǒng)方法的成績。隨后研究者們提出了一系列不斷優(yōu)化的算法模型,從最早的基于卷積神經網絡的SRCNN(super-resolution convolutional neural network)模型,到基于生成對抗網絡的SRGAN(superresolution generative adversarial network)模型,再到基于最新的Transformer的TTSR(texture transformer network for SR)模型,基于深度學習的圖像超分重建技術不斷取得新的突破,并且已經提出了很多適用于超分領域研究的專有數(shù)據(jù)集。

        本文從輸入圖像數(shù)量的角度,將基于深度學習的圖像超分辨率重建方法分為兩種,分別是僅輸入一張圖像的單圖像超分辨率重建方法(single image super-resolution reconstruction,SISR)和輸入多張圖像的基于參考的圖像超分辨率重建方法(referencebased super-resolution reconstruction,RefSR)。

        1 單圖像超分辨率重建方法

        SISR 方法輸入一張低分辨率圖像,利用深度神經網絡學習LR-HR 圖像對之間的映射關系,最終將LR 圖像重建為一張高分辨率圖像。SISR 方法的經典模型發(fā)展如圖1 所示。最早基于深度學習的SISR方法模型是2014 年提出的SRCNN 模型,利用卷積神經網絡來學習LR 圖像到HR 圖像之間的映射關系,得到了比傳統(tǒng)方法更高的峰值信噪比(peak signal-tonoise ratio,PSNR)和結構相似度(structure similarity index measure,SSIM)指標。這個階段的SISR 方法的改進方向主要以增加神經網絡的深度,從而提高PSNR和SSIM 指標為導向。2017年提出的SRGAN模型中,首次提出要提高圖像的感官質量,引入了感知損失函數(shù)。隨后提出的模型開始以優(yōu)化重建圖像紋理細節(jié)為目標,不斷推動著圖像超分領域的發(fā)展。

        圖1 典型的SISR 模型Fig.1 Typical SISR model

        目前已經提出了很多性能較好的SISR 模型,盡管各模型之間存在一定的差異,但本質依然是在超分框架的基礎上,對一系列組件進行改進和組合,得到一個新的超分模型。這些組件包括上采樣模塊、非線性映射學習模塊以及損失函數(shù)等,本文分別對超分框架及各組件進行介紹和分析。

        1.1 超分框架

        SISR 方法的框架由兩部分構成,分別是非線性映射學習模塊和實現(xiàn)圖像放大的上采樣模塊。非線性映射學習模塊負責完成低分辨率圖像到高分辨率圖像的映射,這個過程中利用損失函數(shù)來進行引導和監(jiān)督學習的進程;上采樣模塊實現(xiàn)重建圖像的放大。兩個模塊共同協(xié)作,最終完成輸入圖像的超分辨率重建。根據(jù)上采樣模塊的位置不同,可以將SISR 方法總結為以下四種超分框架:

        (1)前端上采樣超分框架:這種框架最早被采用,如圖2 所示。前端上采樣可以避免在低維空間上進行低維到高維的映射學習,降低了學習難度,是一種簡單易行的方法。但是同時噪聲和模糊等也被增強,并且在高維空間進行卷積運算將會增加模型計算量,消耗更多的計算資源。

        圖2 前端上采樣框架Fig.2 Pre-upsampling framework

        (2)后端上采樣超分框架:如圖3 所示,針對前端上采樣超分框架存在的問題,提高計算資源利用效率,研究者提出了后端上采樣超分框架,將上采樣模塊放置在網絡后面部分。該框架下的大部分卷積計算在低維空間進行,最后再利用端到端可學習的上采樣層,如轉置卷積和亞像素卷積,進行上采樣放大。這樣的好處是進一步釋放了卷積的計算能力,降低模型復雜度。

        圖3 后端上采樣框架Fig.3 Post-upsampling framework

        (3)漸進式上采樣超分框架:隨著超分的發(fā)展,超分尺度不斷增大,常規(guī)的上采樣模型已經不能滿足要求。在這樣的需求下,漸進式上采樣超分框架被提出,如圖4所示。在該框架中,圖像放大是逐級進行的,中途生成的圖像繼續(xù)輸入后續(xù)模塊,直到達到目標分辨率。常用方法是采用卷積級聯(lián)或者Laplace金字塔的方式,再結合多級監(jiān)督等學習策略,就能完成大的超分倍增系數(shù)下的超分重建任務。

        圖4 漸進式上采樣框架Fig.4 Progressive upsampling framework

        (4)升降采樣迭代式超分框架:Timofte 等人借鑒了反向投影的思想,提出了升降采樣迭代式超分框架,具體如圖5所示。隨后Haris等人采用了這種超分框架,在DBPN(deep back-projection networks)中交替使用上、下采樣,結合得到的所有特征圖來完成低分辨率圖像的重建。這種方法通過反復進行LRHR 的映射學習,能充分學習出兩者之間的映射關系。但是目前這種超分框架的結構復雜,設計標準也不明確,仍需要進一步地探索。

        圖5 升降采樣迭代式框架Fig.5 Iterative up-and-down sampling framework

        1.2 上采樣方法

        在神經網絡占據(jù)主導地位的情況下,部分傳統(tǒng)的上采樣方式因其可解釋性以及容易實現(xiàn),在深度學習的超分模型中經常見到,并且取得了讓人滿意的效果。本節(jié)主要介紹基于插值的傳統(tǒng)上采樣方法和端到端可學習的上采樣方法。

        (1)基于插值法的上采樣方法

        插值法的原理就是利用一定的數(shù)學策略,從相關點中計算出待擴展點的像素值,這在數(shù)學上很容易實現(xiàn),因此在超分重建領域最早采用插值法進行。但是因為插值函數(shù)本身的連續(xù)性,導致了重建圖像較為平滑而模糊。圖像紋理處常常是各種突變,這與函數(shù)的連續(xù)性互為矛盾,這正是基于插值的方法的局限性以及本質問題所在。

        (2)端到端可學習的上采樣方法

        為了解決基于插值法的上采樣方法存在的問題,研究者們提出了端到端可學習的上采樣方法:轉置卷積和亞像素卷積。

        轉置卷積又稱為逆卷積,即卷積過程的逆過程。轉置卷積通過卷積學習來增大圖像分辨率,實現(xiàn)了端到端的放大,避免了人工設計帶來的干擾,并且可以與卷積神經網絡保持很好的兼容,因此被廣泛應用在圖像超分辨率重建領域中。

        亞像素卷積又稱為像素清洗。成像系統(tǒng)在利用感光元件對現(xiàn)實連續(xù)的世界離散化表示的過程中,每一個像素點之間比像素更小一級的存在,這就是“亞像素”。

        亞像素卷積具體過程就是利用卷積計算對圖像進行特征提取,再對不同通道間的特征圖進行重組,從而得到更高分辨率的特征圖。由于每個像素的擴展都是通過卷積完成,相應的參數(shù)都需要學習產生,解決了插值方法中存在的人工痕跡問題,更好地擬合了像素之間的關系。

        目前,端到端可學習的放大方法已經被廣泛使用,尤其是在網絡模型的后端進行上采樣,將大部分的數(shù)據(jù)計算工作在低維空間進行,大大提高了模型的計算速度,空間復雜度也大幅降低。

        1.3 非線性映射學習模塊

        非線性映射學習模塊在訓練過程中利用LR-HR圖像對學習,使模型獲得從低分辨率圖像到高分辨率圖像的映射能力。在重建過程中,低分辨率圖像在該模塊完成分辨率的映射變換,再結合上采樣模塊實現(xiàn)超分辨率重建。

        根據(jù)該模塊結構的不同分為以下四種:基于卷積神經網絡的模型、基于生成對抗網絡的模型、基于強化學習的網絡模型以及基于Transformer 的網絡模型。網絡結構如圖6 所示。

        圖6 四種不同網絡結構Fig.6 Four different network structures

        (1)基于卷積神經網絡的SR 方法

        卷積神經網絡早在1989 年就被提出,但直到近幾年隨著計算機技術的發(fā)展以及訓練樣本的增加,CNN 網絡在計算機視覺領域廣泛使用。

        2014 年Dong 等人提出SRCNN算法,第一個將卷積神經網絡網絡模型引入到超分辨率重建領域,如圖7 所示。

        圖7 SRCNN 結構圖Fig.7 SRCNN structure

        SRCNN 先對圖片進行下采樣預處理得到低分辨率圖像,利用雙三次插值放大到目標分辨率,再用卷積核大小分別為9×9、1×1、5×5 的三個卷積層,分別進行特征提取,擬合LR-HR 圖像對之間的非線性映射以及將網絡模型的輸出結果進行重建,得到最后的高分辨率圖像。SRCNN 雖然結構簡單,但是依托于對大樣本數(shù)據(jù)的學習,重建效果超過了傳統(tǒng)算法,從而掀起了深度學習在超分領域的研究熱潮。

        隨后Dong等人繼續(xù)對SRCNN 進行改進,提出了FSRCNN(fast super-resolution convolutional neural network)。與SRCNN 相比,F(xiàn)SRCNN 主要有三點改進:(1)直接用LR 圖像作為輸入,降低特征維度;(2)使用比SRCNN 更小的濾波器,網絡結構加深;(3)采用后端上采樣超分框架,在網絡最后加入反卷積層來將圖像放大至目標分辨率。FSRCNN采用更小的卷積核、更深的網絡層數(shù),訓練速度提高,重建的HR 圖像質量效果進一步得到提高。

        此時基于卷積神經網絡的模型的主要改進方向在卷積層的層數(shù)上,理論上來說,增加模型深度,可以提取到更高級的特征,提供更好的表達能力。2014 年VGGNet算法層數(shù)達到19 層時,取得了當時最先進的結果。但是隨著模型深度的繼續(xù)增加,算法會出現(xiàn)模型退化、難以訓練等問題。這個問題直到2015 年何愷明提出ResNet算法后,才得到真正解決。隨后提出的VDSR(very deep convolutional networks)、EDSR(enhanced deep residual networks for SR)、DBPN以及RCAN(residual channel attention networks)等模型,不斷加深了網絡深度,進一步提高了模型的性能。

        (2)基于生成對抗網絡的SR 方法

        隨著圖像超分辨率重建技術的發(fā)展,研究者們發(fā)現(xiàn),盡管重建出來的高分辨率圖像的PSNR/SSIM指標越來越高,但是生成的圖像過于平滑,高頻紋理信息丟失,重建圖像缺乏人眼感官上的照片真實感,并且在工業(yè)界的實際使用效果依然很差。為了解決這個問題,研究者們將生成對抗網絡引入超分領域,重建出了令人滿意的紋理細節(jié)。

        2017 年Ledig 等人首次將生成對抗網絡引 入超分重建領域,最早開始將超分研究的注意力從PSNR/SSIM 指標上轉移到圖像感知質量上,并提出了SRGAN算法。Ledig等人利用生成對抗網絡來對照片進行重建,同時摒棄了像素級的均方誤差(mean square error,MSE)損失,利用VGG 網絡提取出來的特征計算損失函數(shù)作為內容損失,使得生成的圖片具有更多的紋理信息,更具有人眼感官上的真實感。內容損失加上對抗網絡本身的對抗損失,共同構成了感知損失函數(shù)。

        基于生成對抗網絡的超分模型已經取得了很好的性能,但是依然存在幾個嚴重的問題。首先,生成對抗網絡的訓練很不穩(wěn)定,訓練過程中很容易崩潰;其次,生成的圖像缺乏多樣性?;谏蓪咕W絡結構的超分方法訓練難度大,設備要求高。

        (3)基于深度強化學習的SR 方法

        深度強化學習是將深度學習與強化學習結合,從而實現(xiàn)從環(huán)境感知到行為映射的端到端可學習的一種算法。強化學習在現(xiàn)有數(shù)據(jù)的基礎上,循環(huán)利用學習得到的新的數(shù)據(jù),不斷提高模型的學習能力。該方法已經被證明在不監(jiān)督每一步的情況下對序列模型進行全局優(yōu)化的有效性。

        在圖像超分領域早期,利用深度學習算法學習LR 圖像到HR 圖像所有塊之間的映射時,沒有考慮到塊與塊之間的相關性。2017 年Cao 等人受人類感知過程的啟發(fā),從整體圖像開始,對不同區(qū)域的相關關系進行建模,并按照各個區(qū)域的關聯(lián)線索進行融合,探索具有注意力轉移機制的區(qū)域序列,結合深度學習強大的學習能力,提出了基于深度強化學習的注意感知人臉超分方法。

        (4)基于Transformer的SR 方法

        循環(huán)神經網絡使得模型記憶能力,用以往的記憶和當前的輸入來共同生成下一步的輸出,但是因為其計算過程被限制為順序的,循環(huán)神經模型的并行能力受到了制約。當信息跨度比較大時,在序列計算過程中會出現(xiàn)信息丟失。2017 年Vaswani 等人提出了Transformer,利用注意力機制打破RNN 計算順序限制,將序列中的任意位置距離縮小,可以很好地進行并行處理上的優(yōu)化。

        2020 年Yang 等人最早將Transformer 引入圖像超分領域,提出了基于Transformer 網絡結構的TTSR超分算法。為了充分利用參考圖像的紋理信息,Yang等人在TTSR中提出了特征融合機制,利用上采樣方式實現(xiàn)不同層級間的特征互相融合。大量的實驗表明,TTSR在客觀和主觀評價方面都取得了顯著的進步。

        1.4 損失函數(shù)

        損失函數(shù)在非線性映射學習模塊的學習過程中,指導著超分模型向著預期的方向學習和前進,通過損失函數(shù)的變化可以知道當前模型的訓練與預期之間的差距,同時調控模型學習方向。

        (1)像素損失函數(shù)

        像素損失函數(shù)包括MSE 損失函數(shù)、像素L1 損失函數(shù),它們表示的都是重建圖像與目標圖像之間像素的損失。

        將深度學習引入超分領域的初始階段,都是采用MSE 作為損失函數(shù)。MSE 損失函數(shù)表達式如下:

        MSE 損失函數(shù)(L2 loss)中,當誤差較小時,MSE會進一步對誤差進行縮小,因此對較小的誤差無能為力;當誤差大于1 時,MSE 會將誤差進一步放大,導致模型對這種誤差更為敏感,即使是一些異常值,模型也會進行調整以適應,這就使得最終重建圖像更為平滑、模糊,缺乏高頻的紋理細節(jié)。為了提高模型的重建效果,陸續(xù)改用L1 損失。

        L1 損失函數(shù)即平均絕對誤差,表達式如下:

        在實踐中,L1 損失函數(shù)的實際效果要比MSE 更好,更能提高模型性能,得到更高的指標。

        (2)內容損失

        為了提升圖像的感知質量,引入了內容損失函數(shù)。相對像素損失來說,內容損失不再要求像素層面上的精確,而是追求人眼感官層面的相似。為了提升感知質量,利用神經網絡中生成的圖像特征與真實圖像特征之間的距離來進行計算,表達式如下:

        (3)對抗損失

        對抗損失來源于具有強大學習能力的生成對抗網絡。2017 年Ledig 等人提出了圖像超分領域的經典模型SRGAN,生成的圖像包含更多高頻信息,在感官上更符合人眼的要求。對抗損失在SRGAN中的定義如下:

        其中,()是基于交叉熵得到的生成器的損失函數(shù),(,)是鑒別器的損失函數(shù),()表示生成器生成的圖像是自然圖像的概率。

        但是,使用這個損失函數(shù)時網絡難以訓練且容易崩潰。為了解決這個問題,在WGAN(Wasserstein generative adversarial network)模型中對該函數(shù)進行了改進,在輸出層中去掉了sigmoid 或softmax 層,將權值限定在一定的范圍內,定義如下所示:

        在WAGN-GP中,研究者認為將權值進行限定不合理,將限定去掉后使用梯度懲罰對鑒別器進行約束,如下所示:

        (4)感知損失

        感知損失通過衡量提取的特征之間的距離來進行優(yōu)化,可以很好地改進圖像的感知質量,使得超分重建的圖像更加符合人眼的感官感受。在SRGAN 中將感知函數(shù)定義成內容損失和對抗損失的加權和:

        其中,為感知損失,為內容損失,()為對抗損失。

        2 基于參考的圖像超分辨率重建

        RefSR 方法借助引入的參考圖像,將相似度最高的參考圖像中的信息轉移到低分辨率圖像中并進行兩者的信息融合,從而重建出紋理細節(jié)更清晰的高分辨率圖像。目前的參考圖像可以從視頻幀圖像、Web 檢索圖像、數(shù)據(jù)庫以及不同視角的照片中來獲取。RefSR 在重建圖片紋理細節(jié)方面有著很大的優(yōu)越性,近幾年來受到越來越多的關注。

        RefSR 方法可以分為兩步:第一步將參考圖像中有用的信息與輸入圖像中的信息進行匹配,能準確對應兩者的信息是重建令人滿意的細節(jié)紋理的關鍵。第二步將匹配到的信息進行提取,并與輸入圖像進行融合,進而重建出滿意的圖像。因此,RefSR方法性能好壞的決定性因素就是LR 圖像與高分辨率參考圖像之間的匹配和融合的準確性。

        本文根據(jù)紋理細節(jié)在神經網絡中的匹配方式,將RefSR方法分為像素對齊和Patch匹配兩類,如圖8所示。

        圖8 典型的RefSR 模型Fig.8 Typical RefSR model

        2.1 像素對齊

        利用額外的高分辨率參考圖像來輔助LR 圖像的超分重建過程,這就要求兩者圖片具有一定的相似性,如具有相同或相似的事物,或者是兩者的拍攝角度改變,同一事物但背景不同等。圖像對齊是實現(xiàn)利用參考圖像輔助重建的前提條件,先從LR 圖像中檢測稀疏的特征,再在參考圖像中進行特征匹配,最后基于這些匹配特征將原LR 圖像映射到另一個圖像中,從而實現(xiàn)圖像對齊。

        在早期的工作中,Landmark提出了檢索相關網絡圖像作為參考圖像的方法。如圖9 所示,為了解決檢索出來的參考圖像的HR細節(jié)的不確定性,Landmark通過全局配準來將參考圖像與上采樣后的LR 圖像進行對齊,從而識別出這些圖像中各自對應的區(qū)域,減少失配或錯配的情況。最后通過求解能量最小化問題來將匹配的HR 細節(jié)信息與輸入圖像進行混合,以恢復期望的SR 圖像。

        圖9 Landmark 結構圖Fig.9 Landmark structure

        引入參考圖像來促進低分辨率圖像的超分重建過程,盡管參考圖像與LR 圖像具有相似的細節(jié)信息,但是兩者的分辨率差距較大,有時達到了8 倍甚至更大的差距。同時因為之前的方法通常是采用級聯(lián)方式連接,往往是具有獨立定義的目標函數(shù)的合成流水線,從而導致生成圖像發(fā)生塊間錯位、網格效應等問題。

        為了解決這個問題,2018 年Zheng 等人提出了CrossNet模型,模型結構如圖10 所示。CrossNet 模型是一種端到端的完全卷積的深度神經網絡,通過預測光流量來進行跨尺度變換,包括了圖像編碼器、跨尺度變換層以及融合解碼層。其中跨尺度變換層負責將編碼層提取的參考特征圖與LR 特征圖在空間上對齊,有了參考圖像的特征互補,有效緩解了參考圖像中巨大的分辨率差距問題。由于使用了跨尺度變換,CrossNet網絡能夠以端到端的方式在像素級上實現(xiàn)對齊。

        圖10 CrossNet結構圖Fig.10 CrossNet structure

        2018年Zhao等人提出了高頻補償超分辨率(highfrequency compensation super-resolution,HCSR)模型。該模型引入了SISR 圖像的中間視圖,得到與HR 圖像分辨率相同的LR 圖像,此LR 圖像在該分辨率下缺失的高頻細節(jié)在SISR方法下無法得到,僅僅將其中的信息作為需要超分重建過程中的低頻信息。HCSR為了解決跨尺度輸入之間的顯著分辨率之差引起的變換問題,需要計算從參考圖像到所有LR 光場圖像的多個視圖差,然后利用混合策略對精化的視差圖進行融合,最后得到高質量的超分圖像。

        利用光流預測的方法僅限于小視差的條件,盡管在光場數(shù)據(jù)集上可以達到很高的精度,但處理大視差情況的效果迅速下降。這些采用像素對準的RefSR 方法在很大程度上依賴于LR 和HR 基準之間的像素級對準質量。

        2020 年Shim 等人在堆疊的可變性卷積的基礎上提出了可實現(xiàn)端到端的新穎高效的參考圖像特征提取模塊——相似性搜索與提取網絡(similairity search and extraction network,SSEN),可以從參考圖像中提取對齊的相關特征,并且可以插入到任何現(xiàn)有的超分辨率網絡中。Shim 等人使用非局部塊作為偏移量估計來積極地搜索相似度,可以以多尺度的方式執(zhí)行像素對齊。與使用暴力搜索或光流估計的方法相比,SSEN 無需任何額外的監(jiān)督或繁重的計算,只需要一次網絡操作就可以預測最佳匹配,極大地提高了RefSR 方法的魯棒性。

        2.2 Patch 匹配

        Patch 匹配是一種紋理合成的方法,利用自身圖片或參考圖片中其他區(qū)域來恢復目標圖片的邊緣區(qū)域,這與RefSR 的目的完全吻合。

        2017 年Zheng 等人利用Patch 匹配的方法,提出了SS-Net 模型。具體來說,SS-Net 首先設計了一個跨尺度對應網絡來表示參考圖像和低分辨率圖像之間的跨尺度Patch 匹配。這個跨尺度對應網絡就是一個分類網絡,它從搜索范圍內的候選Patch中預測正確的匹配,再利用擴張卷積,有效地實現(xiàn)了訓練以及特征圖的生成??绯叨葘W絡選擇了需要的Patch之后,在多個尺度上對低分辨率圖像的Patch與參考圖像的Patch進行融合,最終合成HR圖像并輸出。

        利用參考圖像促進LR 圖像有效超分重建的前提是兩者需要具有一定的相似度,這直接關系到重建圖像質量的高低。當相似度很低時,生成圖像質量急劇下降。

        為了解決這個問題,增強模型的魯棒性,2019 年Zheng 等人提出了端到端可學習的SRNTT(superresolution by neural texture transfer)網絡模型,模型結構如圖11 所示。Zheng 等人將RefSR 問題表述為神經紋理轉移問題,模型根據(jù)紋理相似度自適應地完成紋理轉換,豐富了HR 紋理細節(jié)。與原始像素空間進行匹配不同,SRNTT 對預先訓練的VGG 中提取的參考特征與LR 特征在自然空間中進行多級匹配,促進了多尺度神經傳輸,這樣模型就可以從相關的參考紋理中獲得更多的收益,并且即使在參考圖像極不相關的情況下,模型性能也只會降低到SISR的性能。

        圖11 SRNTT 結構圖Fig.11 SRNTT structure

        2020 年Yang 等人進一步將Transformer架構引入RefSR 任務,提出了TTSR 模型。如圖12 所示,TTSR 以跨尺度的方式堆疊紋理轉換器以融合多層信息,Transformer中的硬注意和軟注意有助于更精準地傳遞參考圖像中的紋理特征。TTSR 總共有四個模塊,分別是可學習的DNN(deep neural networks)紋理提取器、相關嵌入模塊、用于紋理轉移的硬注意力模塊和用于紋理合成的軟注意力模塊。通過這樣的設計,硬注意力模塊可以發(fā)現(xiàn)深層的特征并完成對應,準確地將紋理特征傳遞到軟注意力模塊實現(xiàn)紋理合成,完成跨越不同圖像的特征聯(lián)合學習。整個模型可以通過跨尺度的方式進行堆疊,滿足不同放大尺度的超分重建的同時得到令人滿意的恢復紋理。

        圖12 TTSR 結構圖Fig.12 TTSR structure

        SRNTT 和TTSR 結合深度學習框架和Patch 匹配,獲得令人滿意的視覺效果的同時,進一步擴展了在沒有視圖約束的情況下對高分辨率圖像的參考。SRNTT 將RefSR 問題重新考慮為神經紋理轉移問題,以風格轉移的方式對預訓練的VGG 特征進行合成。TTSR 設計了一個充分利用注意力機制來完成Patch 匹配和信息合成的紋理轉換器。SRNTT 和TTSR 都需要對提取的Patch進行徹底的比較,當紋理較少或圖像區(qū)域重復時,兩者都不能很好地處理,這就導致兩者的Patch 匹配方法計算成本很高。

        現(xiàn)有的RefSR 方法普遍存在一個問題,當?shù)头直媛蕡D像和高分辨率參考圖像的分辨率差異較大時,如兩者相差8 倍,很難實現(xiàn)高保真超分辨率。

        針對這個問題,2021 年Zhou 等人從解決實際多尺度相機系統(tǒng)中的RefSR 問題出發(fā),受到多平面圖像(multiplane image,MPI)表示的啟發(fā),提出了一個端到端可學習的RefSR 網絡模型——Cross-MPI 模型。Cross-MPI 模型由平面感知MPI 機制、多尺度引導的采樣模塊以及超分辨率融合模塊三部分組成。模型中提出的平面感知MPI 機制充分利用了場景結構進行有效的基于注意機制的對應搜索,不需要進行跨尺度立體圖像之間的直接匹配或窮舉匹配。在此基礎上,Cross-MPI 進一步結合從粗到精的引導上采樣策略,實現(xiàn)了精準的細節(jié)傳輸,同時增強了模型的穩(wěn)定性。

        利用高分辨率參考圖像來恢復低分辨率圖像的高頻紋理細節(jié),實現(xiàn)高質量的匹配成為生成圖像質量好壞的關鍵。除此之外,現(xiàn)有方法忽略了參考圖像和低分辨率圖像在分布上存在巨大的差異,這對信息的有效性產生了一定的影響。

        針對這些問題,2021 年Lu 等人提出了MASA(matching acceleration and spatial adaptation)模型。MASA模型中設計了兩個新的模塊來解決上述問題,分別是特征匹配與提取模塊和空間自適應模型。特征匹配與提取模塊在保持高質量匹配的同時,通過由粗到精的對應匹配方案,利用自然圖像的局部相關性,針對LR 圖像特征圖中的每個Patch,將其搜索空間從整個參考圖像特征圖縮小到一個特點的參考塊,顯著降低了計算成本。空間自適應模塊學習低分辨率圖像和參考圖像之間的分布差異,有效處理兩者在顏色、亮度等分布上存在較大差異的情況,并以空間自適應的方式將參考圖像特征的分布重新映射到低分辨率圖像特征的分布中。有了這些設計,參考圖像中真正有用的信息可以更有效地轉移和利用。最后提出了雙殘差聚合模塊(dual residual aggregation module,DRAM)來完成參考圖像特征和LR 圖像特征的融合。

        紋理傳輸?shù)年P鍵步驟就是找到低分辨率圖像和參考圖像之間的對應關系。常見的RefSR 方法都是基于內容和外觀相似度進行計算的,這忽略了高分辨率參考圖像與低分辨率圖像之間的底層轉換關系,如縮放和轉換等,盡管有著相同的對象或者相似的紋理,當發(fā)生底層轉換時往往會導致外觀發(fā)生變化。再加上分辨率上的差距,這在真實情況下將很難準確計算兩者之間的對應關系,此時僅僅利用外觀去計算對應關系是不準確的。除此之外,高分辨率參考圖像在進行下采樣時也不可避免地丟失信息,這阻礙了網絡對紋理精細區(qū)域的搜索。上述原因導致的最終結果是參考圖像的有用信息不能得到充分利用,紋理傳輸不理想。

        為了解決上述問題,2021 年Jiang 等人提出了C-Matching 模型。C-Matching 模型由三個模塊組成,分別是對比網絡模塊、教師-學生蒸餾模塊以及動態(tài)聚合模塊。對比網絡模塊解決了底層變換之間的差距,利用輸入圖像的增強視圖來學習底層變換之后的對應關系,增強模型魯棒性。師生相關蒸餾模塊用于解決分辨率差距問題,從HR-HR的匹配中提取知識來指導不明確的LR-HR 匹配。動態(tài)融合模塊用來解決潛在的錯位問題。大量實驗表明,C-Matching模型的性能顯著優(yōu)于現(xiàn)有技術1 dB以上,同時對大尺度和旋轉變換具有較強的魯棒性。

        已經證明,在恢復圖像細節(jié)紋理方面,RefSR利用參考圖像信息來補償?shù)头直媛蕡D像中丟失的細節(jié)信息,比SISR 具有更大的優(yōu)勢,可以生成更真實的令人視覺滿意的紋理。即使兩者圖像紋理相似度很低,RefSR也可以達到同等程度的SISR的效果。

        但是RefSR 的網絡模型結構比較復雜,需要消耗更大的計算資源,同時RefSR 網絡模型的性能取決于信息的對齊和匹配,因此探索更好的對齊方法和匹配準則,是該領域的研究熱點也是難點。除此之外,引入的參考圖像與輸入低分辨率圖像的相關程度也會對最終生成圖像的質量產生相應影響。

        3 超分數(shù)據(jù)集和圖像質量評估

        3.1 常用數(shù)據(jù)集

        benchmark 數(shù)據(jù)集是同一領域內的對比標準,表1 主要列舉了該領域的benchmark 測試數(shù)據(jù)集,即Set5、Set14、BSD100、Urban100 以及DIV2K 數(shù)據(jù)集。除此之外,F(xiàn)lickr2K 也是超分領域主流的訓練數(shù)據(jù)集,以及后續(xù)提出的具有LR-HR 圖像對的真實數(shù)據(jù)集City100、RealSR、DRealSR。

        表1 benchmark 數(shù)據(jù)集介紹Table 1 Introduction to benchmark datasets

        3.2 圖像質量評估

        為了更好地對圖像超分辨率重建結果進行評估,需要引入圖像質量評估指標。目前的評估主要分為客觀評估和主觀評估兩種??陀^評估是對超分重建結果的定量評價,直接定量地反映圖像質量,從數(shù)據(jù)上可以直接得出結果的好壞。主觀評價是對超分重建結果的定性評價,是以人為主體,邀請受訪者對重建的圖像質量進行對比和評估,這種評價方法依賴于人的判斷。目前來說,主觀評價和客觀評價的結果往往是不同的,客觀評價是從數(shù)學角度出發(fā),并沒有考慮到人的感官感受,這使得客觀評估指標較好但又不符合人眼的感官感受,因此還存在一定的爭議。

        (1)峰值信噪比

        峰值信噪比(PSNR)是圖像進行有損變換時最常用的度量指標之一,也是目前超分領域使用最廣泛的客觀評價指標。PSNR由圖像的最大像素值和均方誤差(MSE)來定義,如式(11)所示:

        其中,為均方誤差,MAX指表示圖像點顏色的最大數(shù)值,圖像的最大像素值由二進制位數(shù)決定,如8 位二進制表示的圖像的最大像素值就是255。

        由于PSNR 與MSE 有關,沒有考慮到人的視覺感知,雖然模型能達到比較高的PSNR 指標,但在真實場景中的實際效果依然不能使人滿意。盡管如此,由于缺乏更為準確的感知評價指標,PSNR 依然被研究者廣泛使用。

        (2)結構相似度

        結構相似性(SSIM)也是目前圖像超分領域被廣泛使用的性能指標之一。SSIM從人類視覺系統(tǒng)中獲得靈感,將圖像的組成分為亮度、對比度以及結構三部分,并用均值作為亮度的估計,標準差作為對比度估計,協(xié)方差作為結構相似程度估計,數(shù)學表達式如下:

        其中,(,)表示圖像的亮度比較,(,)表示圖像的對比度比較,(,)表示圖像的結構比較,代表均值,表示標準差,σ表示協(xié)方差,為常數(shù),避免出現(xiàn)分母為0 導致系統(tǒng)錯誤。在工程中,常常令===1,=/2,得到簡化后的SSIM:

        (3)平均意見評分

        平均意見評分(mean opinion score,MOS)是一種常用的主觀圖像質量評估的方法,通過邀請接受過訓練的普通人以及未接受過訓練的普通人來對重建的圖像進行評分,并且兩者人數(shù)大致均衡。通過給重建圖像打分,再對最后的得分進行平均,在視覺感知方面遠遠優(yōu)于其他評價指標,可以準確測量圖像感知質量。

        目前普遍采用PSNR/SSIM 作為圖像質量指標,這也導致模型以刷新PSNR/SSIM 指標為目的,忽略了圖像超分辨率重建最初的目標,即重建出包含更多細節(jié)、更為清晰的圖像?,F(xiàn)在的研究者們發(fā)現(xiàn)采用PSNR/SSIM 作為唯一評價指標帶來的問題,盡管該評價指標達到了一定的高度,但重建出來的圖像變得平滑、模糊,不符合人眼感官。研究者們開始注重圖像感官質量,提出了主觀圖像質量評價指標。但是到目前為止,除了耗時耗力的人為主觀評分,仍然沒有被該領域統(tǒng)一公認的指標出現(xiàn),因此這也是目前該領域需要取得突破的方向之一。

        4 模型分析

        4.1 SOTA 模型統(tǒng)計

        表2 對SISR 中具有代表性的模型進行了統(tǒng)計,表3 對RefSR 中具有代表性的模型進行了統(tǒng)計。

        表2 SISR 模型統(tǒng)計Table 2 SISR model statistics

        表3 RefSR 模型統(tǒng)計Table 3 RefSR model statistics

        4.2 模型性能分析

        本節(jié)對具有典型代表性的超分模型進行性能對比,利用PSNR/SSIM 指標來進行性能評估,表4 和表5 分別是SISR 方法和RefSR 方法的性能對比。表中數(shù)據(jù)來自相關文獻中的實驗數(shù)據(jù)。

        表4 SISR 算法性能評估Table 4 Algorithm performance evaluation of SISR

        結合表2和表4來看,目前SISR方法性能的提升除了增加模型深度和寬度外,主要集中在以下幾個方面:

        (1)更復雜的損失函數(shù)。從最早的MSE 損失,到L1 損失,再到后來的對抗損失、梯度加權損失、內容損失、感知損失以及重構損失等,越來越復雜的損失函數(shù)不僅僅可以在指標上提升模型性能,更能提高重建圖像的紋理細節(jié)。

        (2)多種網絡模型的結合。最早的SRCNN 模型直接進行CNN 卷積直連,獲得了超過傳統(tǒng)算法的結果。隨著神經網絡的發(fā)展,性能越來越好的網絡結構被提出,殘差網絡、稠密網絡以及注意力機制網絡等模型逐漸應用到了超分領域,多種網絡結構的結合,越來越復雜的超分模型,大大增強了超分算法模型的性能。

        (3)充分利用圖像全局特征。神經網絡通過感受野來獲取相應范圍內的圖像特征,增加模型深度可以增大感受野范圍。雖然通過殘差可以在一定程度上解決模型的訓練問題,但是仍不可避免地帶來巨大的計算量以及龐大的模型結構。RCAN、SAN(secondorder attention network)、CDC(component divide-andconquer)以及HAN(holistic attention network)和DFCAN(deep Fourier channel attention network)等模型通過結合殘差網絡和注意力機制,使得模型可以充分利用全局特征進行學習和重建。并且從超分的實現(xiàn)來說,對所有對象一視同仁不利于計算資源的充分利用,也不符合實際,一張圖像中不同區(qū)域學習超分重建的難度也不相同。

        (4)增強特征信息流的流動和融合。全局特征、局部特征、不同層之間的特征以及不同通道之間的特征都有利于超分圖像的重建。HAN 模型通過注意力模塊實現(xiàn)了對不同層、通道以及位置之間的特征關系的學習,增強了特征表達能力。SAN 通過二階注意力通道模塊來學習中間層特征之間的關系,結合非局部操作來提取圖像的上下文信息,大大提高了模型性能。多尺度信息提取也大大增強了模型對特征的利用效率。

        結合表3 和表5,對RefSR 方法進行如下總結:

        表5 RefSR 算法性能評估(4 倍放大)Table 5 Algorithm performance evaluation of RefSR(×4)

        解決參考圖像與輸入圖像的對應關系,是RefSR方法面臨的關鍵問題,這在很大程度上決定了RefSR模型的性能。早期的主要是通過圖像對齊的方式完成兩者的對齊,因為參考圖像與輸入圖像之間較大的分辨率差距,影響了模型的學習能力。CrossNet方法利用融合解碼層來解決分辨率差距的問題,但是也只能用于小視差的條件。除了圖像對齊,還可以通過Patch 匹配來獲得與輸入圖像紋理相似的參考圖像紋理,再對兩者進行融合進而生成紋理清晰的圖像。與圖像對齊相比,基于Patch 匹配的模型擁有更好的性能,PSNR/SSIM 指標上也獲得了很大的提升。但是這就要求輸入圖像與參考圖像的紋理具有一定的相似度。在SRNTT 中,模型在特征空間進行多級匹配,促進了多尺度神經傳輸,使得模型即使在參考圖像與輸入圖像不相關的條件下也只是降低到相應的SISR 級別。

        如圖13 所示,雖然RefSR 方法可以重建出令人滿意的紋理細節(jié),但是其結構復雜,需要消耗大量的計算機資源。單圖像超分辨率重建問題本身的不適應性決定了解決該問題的難度,但是同時SISR方法在輸入僅為一張低分辨率圖像的情況下自動生成高分辨率圖像,具有很強的實用性和很高的研究價值。

        圖13 兩種方法對比Fig.13 Comparison of two methods

        4.3 改進方向

        通過上述總結,可以得到以下超分模型的改進和提升方向:

        (1)提出更加復雜的損失函數(shù)。最早在SRCNN模型中采用像素損失函數(shù)MSE 和L1 損失函數(shù),雖然很輕松就提高了圖像的PSNR/SSIM 指標,且易于實現(xiàn),但是重建的圖像平滑而模糊,不符合人眼感官。在SRGAN 中,首次采用VGG 網絡中的特征信息作為內容損失,再結合GAN 網絡中的對抗損失,提出了感知損失函數(shù),大幅提升了重建圖像的感知質量,重建了圖像中的部分細節(jié)紋理,取得了質的發(fā)展。隨后的網絡中,損失函數(shù)越來越復雜,在感知損失的基礎上,加入了重構損失、內部監(jiān)督損失等函數(shù),進一步提升了圖像的感知質量。

        (2)實現(xiàn)任意尺度下的超分重建。在圖像重建過程中,放大倍數(shù)越大,需要重建的細節(jié)信息就越多,同時重建所需的信息也更多,困難程度也隨之增大。早期的模型方法只能實現(xiàn)×2、×3 以及×4 的倍數(shù)放大,在2017 年提出的LapSRN模型中,采用了漸進式上采樣超分框架,利用前向推理過程中生成的圖像繼續(xù)進行重建,實現(xiàn)了×8 的放大,并且一次前向推理便可以得到×2、×4 以及×8 的放大圖像。后續(xù)提出的模型大多都能實現(xiàn)×8的放大,但是隨著尺度因子的增加,重建效果變得不太理想。在2021 年提出的LIIT模型中,通過連續(xù)表達學習,最終實現(xiàn)了×30的放大??梢?,實現(xiàn)大尺度重建是目前的研究趨勢之一。

        (3)提升模型性能的同時,追求模型的輕量化。直接增加模型深度,增加模型參數(shù)數(shù)量,可以更好地對數(shù)據(jù)進行擬合,進而重建出更好的圖像。但是這樣也會導致網絡結構規(guī)模過大,需要巨大的算力,不符合實際使用情況,只能在實驗室算力條件下才能進行。在2016 年提出的DRCN(deeply-recursive convolutional network)模型中,將遞歸學習引入超分模型中,利用遞歸結構參數(shù)共享的特點,可以在增加模型深度的同時不增加參數(shù)。隨后的DRRN(deep recursive residual network)、MemNet等模型中,都加入了遞歸結構,DSRN(dual-state recurrent network)、SPFlow等模型不僅僅加入了遞歸結構,還加入了自注意機制,能夠實現(xiàn)對有用信息的放大和無用信息的抑制,進一步輕量化超分模型。

        (4)多種網絡模塊的有效組合。在最早的SRCNN 中僅僅用了三層卷積層,在VDSR 中加入了殘差塊,加深了網絡模型;在SRResNet中直接加入了殘差網絡,大大增加了模型的深度,同時網絡性能也得到很大提高,PSNR/SSIM 指標達到了當時最高。SRDenseNet模型結合了殘差網絡和稠密網絡,RCAN模型中結合了殘差網絡和注意力機制網絡,多種網絡的組合使得模型性能進一步提升。基于參考的圖像超分辨率重建技術可以重建出令人滿意的紋理細節(jié),但是因為本身網絡結構復雜,占據(jù)大量的計算資源,如果能解決模型的輕量化問題,模型的實用性將會得到大大提高。

        (5)采用降質方式更加復雜的數(shù)據(jù)集進行訓練,利用相機獲得同一場景下不同分辨率的圖像,這也更符合圖像超分的實際需要。深度學習在訓練過程中需要大量包含LR-HR 圖像對的訓練樣本,通過下采樣這種方式獲取低分辨率圖像本身就決定了降質方式的單一。然而,現(xiàn)實中的低分辨率圖像的產生方式多種多樣,如風霜雨雪霧等天氣原因以及物理采集設備造成的目標不清晰等,這也是超分重建技術實際需要解決的問題。2018 年的Learning to Zoom中,Zhang 等人利用相機制作了真實場景下具有LRHR 圖像對的數(shù)據(jù)集Raw Data,讓模型自己學習如何縮放。隨后提出的RealSR 和DRealSR 數(shù)據(jù)集也都是具有LR-HR 圖像對的真實場景數(shù)據(jù)集,且內容更多樣化,覆蓋面更廣。目前,針對于已知退化模型的超分方法研究,盲超分作為解決未知退化模型問題的方法,成為當前比較熱的研究方向。

        5 總結展望

        本文對基于深度學習的圖像超分辨率重建技術進行了綜述,包括單圖像超分辨率重建技術和基于參考的圖像超分辨率重建技術,分別對兩者進行分析和論述,總結了目前該領域的研究現(xiàn)狀。最后對圖像超分領域研究的未來進行展望,總結了以下幾點發(fā)展趨勢:

        (1)真實場景下的圖像超分重建

        深度學習在訓練過程中需要大量的數(shù)據(jù)集作為樣本進行訓練,訓練樣本的質量高低在很大程度上會對模型的性能產生影響。自然條件下低分辨率圖像的獲取和收集存在一定難度,目前大多數(shù)模型都是通過降采樣獲取,雖然這解決了訓練樣本有無的問題,但是同時也大大減弱了模型對真實場景的圖像的重建能力。在接下來的研究中,真實場景下的低分辨率圖像的獲取和收集會成為該領域的研究熱點,針對真實場景的超分重建研究將大大提高圖像超分的實際應用價值。

        (2)無監(jiān)督超分辨率重建

        有監(jiān)督的圖像超分辨率重建需要LR-HR 圖像對作為數(shù)據(jù)集,在模型中需要設計降質模塊來對HR 圖像進行降質。這種降質方式固定且單一,與實際復雜多變的降質情況不符,嚴重影響了圖像超分的發(fā)展和應用價值。無監(jiān)督圖像超分不需要成對的訓練樣本,降低了訓練樣本的要求,更符合實際情況的超分需要,但是這也對模型的學習能力提出了更高的要求。因此,如何實現(xiàn)無監(jiān)督的超分辨率重建,即在不需要構建LR-HR 圖像對的情況下進行超分辨率重建,是未來很有發(fā)展前景的方向。

        (3)特殊領域的超分重建研究

        目前大多數(shù)的圖像超分重建研究都是針對自然圖像,雖然具有普適性,但是從專業(yè)和實用的角度來說,這大大減弱了超分的研究價值。不同應用場景下的圖像之間的特征差距十分明顯,甚至不同場景下的圖像特征會對模型正確的特征表達產生反向抑制的效果。從視頻監(jiān)控、衛(wèi)星遙感到醫(yī)學成像、刑偵分析等,對特殊領域的超分研究,將使模型變得簡單而專業(yè),可以充分滿足該領域的實際需求。

        (4)交叉模態(tài)信息下的超分研究

        不同模態(tài)的信息在超分重建過程中能提供不同的信息,如在人臉超分重建的過程中,目標的性別、身份以及其他屬性信息也能對重建過程產生幫助,甚至還可以利用聲音信息來引導重建。除了音頻信息之外,深度、近紅外光譜信息也可以用于超分重建。多模態(tài)信息融合下的超分研究將會成為該領域的研究方向之一。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        精品国产高清a毛片| 亚洲综合新区一区二区| 日韩精品视频高清在线| 麻豆蜜桃av蜜臀av色欲av| 一边摸一边做爽的视频17国产| 精品久久香蕉国产线看观看亚洲| 乌克兰粉嫩xxx极品hd| 精品国产AⅤ一区二区三区4区| 激情视频在线观看免费播放| 高清中文字幕一区二区| 大肉大捧一进一出好爽视频| 国产乱人视频在线看| 亚洲av粉嫩性色av| 亚洲国产一区一区毛片a| 国产成人高清在线观看视频| 各种少妇正面着bbw撒尿视频| 精品国产一区二区三区久久久狼| 亚洲区精品久久一区二区三区女同| 中文字幕一区二区三区四区| 亚洲人成人无码www| 黑人玩弄漂亮少妇高潮大叫| 91超碰在线观看免费| 亚洲综合久久中文字幕专区一区| 风情韵味人妻hd| 日韩精品无码久久久久久| 无码成人AV在线一区二区| 国产视频激情在线观看| 亚洲精品国产suv一区88| 波多野吉衣av无码| 国产一级黄色录像| 亚洲国产日韩综合天堂| 婷婷综合另类小说色区| 夜夜揉揉日日人人| 国产美女自拍国语对白| 亚洲精品午夜久久久九九 | 亚洲一区二区日韩精品在线| 天堂а√在线最新版中文在线| 亚洲综合免费| 亚洲国产精品久久性色av| 亚洲av无码一区二区三区网址 | 玩中年熟妇让你爽视频|