摘" 要: 基于參考圖像的圖像超分辨率(Ref?SR)技術將高分辨率(HR)參考圖像導入單輸入圖像超分辨率(SISR)方法中,利用參考圖像中轉(zhuǎn)移的紋理緩解了此方法中長期存在的不適定問題。盡管定量和定性結果的顯著提升已經(jīng)驗證了Ref?SR方法的優(yōu)越性,但在紋理轉(zhuǎn)移之前存在的不對齊問題表明該方法中還有進一步提高性能的空間。現(xiàn)有方法忽視了在對齊特征時細節(jié)的重要性,因此沒有充分利用低分辨率(LR)圖像中包含的信息。文中提出一種基于細節(jié)增強框架(DEF)的參考圖像超分辨率方法,該方法引入擴散模型來生成和增強LR圖像中的潛在細節(jié)。如果參考圖像中存在對應部分,設計方法可以使得圖像特征的對齊更為準確;在參考圖像缺少對應部分的情況下,LR圖像中的細節(jié)仍然得到了增強,同時避免了參考圖像轉(zhuǎn)移錯誤紋理的影響。大量實驗表明,提出的方法相比于以往方法在數(shù)值結果相仿的前提下取得了優(yōu)越的視覺效果。
關鍵詞: 圖像超分辨率; 參考圖像; 不適定問題; 相關對齊; 紋理轉(zhuǎn)移; 擴散模型
中圖分類號: TN911.73?34" " " " " " " " " " nbsp; " " 文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)19?0087?07
Image super?resolution algorithm based on detail?enhancing framework
WANG Zihan1, 2, YUAN Xiaobing1, 2
(1. Shanghai Institute of Microsystem and Information Technology, University of Chinese Academy of Sciences, Shanghai 201210, China;
2. School of Information Science and Technology, ShanghaiTech University, Shanghai 200050, China)
Abstract: In the technology of the reference?based image super?resolution (Ref?SR), the high?resolution (HR) reference images are imported into the single?input image super?resolution (SISR) approach, and the long?standing ill?posed issue of the very method has been alleviated with the assistance of texture transferred from reference images. Although the significant improvement in quantitative and qualitative results has verified the superiority of Ref?SR methods, the presence of misalignment before texture transfer indicates room for further performance improvement. Existing methods tend to neglect the significance of details in the context of comparison, so they fail to leverage the information contained within low?resolution (LR) images. In view of the above, a reference?based image super?resolution method on the basis of detail?enhancing framework (DEF), which introduces the diffusion model to generate and enhance the underlying detail in LR images, is proposed. If corresponding parts are present in the reference images, the proposed method can facilitate rigorous alignment. In cases where the reference images lack corresponding parts, the details in the LR images are still enhanced, and the influence of the wrong texture transferred from the reference images is avoided. Extensive experiments demonstrate that the proposed method achieves superior visual results while maintaining comparable numerical results in comparison with the existing methods.
Keywords: image super?resolution; reference image; ill?posed issue; correlation alignment; texture transfer; diffusion model
0" 引" 言
單圖像輸入的超分辨率(SISR)是一種計算成像技術,旨在增強單個低分辨率(LR)圖像的分辨率和細節(jié)水平,通常通過估計像素值從而生成相應的高分辨率(HR)圖像來實現(xiàn)。SISR的本質(zhì)在于從單個輸入圖像中存在的信息中預測所需額外像素的像素值。受到SISR不適定本質(zhì)的限制,單個LR圖像可能生成多個不同的HR圖像。而這與真實圖像(GT)的唯一性對立,從而導致最終輸出中出現(xiàn)偽影和幻覺。為了確保超分辨率(SR)結果的真實性,可以借助參考圖像在圖像SR中補充信息。參考圖像中存在的語義信息,包括內(nèi)容和紋理,在恢復輸入圖像方面至關重要。此外,獲取相似的HR參考圖像比獲取嚴格對應的HR真實圖像更為可行??傊瑢⑾嚓P但不同的HR參考圖像中的HR紋理轉(zhuǎn)移到LR輸入圖像有利于恢復出可靠的結果,這形成了基于參考圖像的圖像超分辨率(Ref?SR)的理念。
Ref?SR的網(wǎng)絡架構通常包括以下四個部分:特征提取、特征對齊、紋理轉(zhuǎn)移和紋理聚合。其中,在特征對齊過程中,匹配LR圖像與參考圖像之間的對應關系是最關鍵的步驟。然而,由于LR圖像和參考圖像分辨率不同,難以獲得準確的對應關系。為了解決對齊不準確的問題,最近在這一領域中的研究將空間對齊的研究重點從逐像素點匹配[1?2]轉(zhuǎn)移到了圖像塊匹配[3?11],以提高匹配精度。除此之外,為了補齊圖像之間分辨率的差距并獲得分辨率一致的圖像對,先前的方法傾向于簡單地將輸入LR圖像調(diào)整到與相應參考圖像相同的分辨率,例如使用雙三次插值方法。文獻[6]選擇將參考圖像進行下采樣以適應匹配過程并降低計算復雜度。雖然這種方法在一定程度上可以減輕對齊不準確的問題,但它忽視了細節(jié)的增強,而這可能會破壞后續(xù)圖像恢復結果。使用插值方法調(diào)整LR圖像的大小僅依賴于原像素周圍的像素值來預測目標像素值,而由此產(chǎn)生的感受野不足以全面利用原有信息。因此,在參考圖像中存在相應特征時,由于缺乏豐富的細節(jié),圖像對之間的某些對應特征無法準確對齊。除此之外,某些情況下LR圖像內(nèi)的特定特征在參考圖像中缺乏對應部分,使其無法識別對齊的圖像塊。這些未對齊的特征在雙三次插值后保持不變,由于缺乏細節(jié)而影響輸出的視覺質(zhì)量。因此,由于在對齊過程中缺乏細節(jié)增強,LR圖像的預處理仍然有改進空間。
一個自然的想法是,在對齊之前使用生成式模型增強LR圖像的細節(jié)。在SR領域內(nèi),普遍存在的生成式模型主要包括兩種范式:生成對抗網(wǎng)絡(GAN)和擴散模型。與基于GAN的模型相比,擴散模型更穩(wěn)定、更能夠應對各種圖像分布的不確定性。盡管擴散模型在生成細節(jié)方面表現(xiàn)出理想的性能,但由于SR的不適定性、擴散模型固有的隨機性以及泛化能力的不足,它容易產(chǎn)生偽影。
為了一并解決不對齊和偽影問題,首先采用理論分析來闡明在圖像超分辨率任務中細節(jié)的重要性和定位。然后,提出了一種新的框架,稱之為細節(jié)增強框架(DEF),用于基于參考的方法,該方法用預訓練的擴散模型替換了LR圖像的調(diào)整大小。模型結構的修改從以下兩個方面補償了固有的局限性:對于基于參考的模型而言,引入擴散模型豐富了LR圖像中的細節(jié)信息,從而有利于LR圖像和參考圖像之間的對齊;與此同時,為了去除偽影,參考圖像中的真實紋理信息指導了擴散模型中細節(jié)的生成,減少了偽影的產(chǎn)生。在五個基準數(shù)據(jù)集上進行了實驗,包括CUFED5[12]、Manga109[13]、Urban100[14]、Sun80[15]和WR?SR[5]。結果表明,提出的框架在視覺質(zhì)量上取得了更好的表現(xiàn),與最先進的方法在定量上表現(xiàn)相當。
本文的主要貢獻有:對Ref?SR中細節(jié)增強的重要性進行了深入調(diào)查,而這一方面在以往的方法中往往被忽視;提出了細節(jié)增強框架(DEF),將擴散模型引入Ref?SR模型中,這不僅有助于更精確的對齊,而且在對齊后減少了生成圖像的偽影。實驗結果表明,本文提出的方法在保持可比數(shù)值保真度的同時,實現(xiàn)了領先的視覺性能。
1" 圖像超分辨率模型分析
1.1" 零值域分解
評估圖像超分辨率結果的視覺質(zhì)量長期以來一直是一個棘手的問題,因為提出一個被廣泛接受的度量來有意識地評估或改進它太復雜了。大多數(shù)方法傾向于縮小像素值之間的差距,導致輸出具有細節(jié)不足、過度平滑,并且視覺呈現(xiàn)對人類感知不利。
受到相關工作[16?17]的啟發(fā),圖像可以分解為符合數(shù)據(jù)一致性的值域空間和代表真實性的零域空間。具體來說,數(shù)據(jù)一致性表示圖像的結構特征,而真實性傾向于反映圖像中固有的更細微的細節(jié)。給定一個無噪聲的圖像超分辨率模型如下:
[y=Ax] (1)
式中:[x∈RD×1]、[A∈Rd×D]和[y∈Rd×1]分別代表真實圖像(GT)、線性退化因子和退化后的圖像。為了從輸入圖像[y]中得到SR圖像[x],需要設置兩個約束來保證SR圖像的視覺效果。
[Ax≡y] (2)
[x~q(x)] (3)
式中[q(x)]代表真實圖像的分布。式(2)代表數(shù)據(jù)一致性的約束,式(3)則代表真實性的約束。通過對[A]做奇異值分解,可以得到它的偽逆[A?]的矩陣形式,而它的偽逆[A?]可以用于把真實圖像[x]投影到值域,因為有:
[AA?Ax=Ax] (4)
同樣地,[(I-A?A)]可以把[x]投影到零域,因為有:
[A(I-A?A)x=0] (5)
需要注意的是,任意圖像[x]都可以被投影到值域和零域,因為有:
[x≡A?Ax+(I-A?A)x] (6)
1.2" 對于以往模型的分析
由于基于PSNR的模型[3?4,6,9]取得了巨大成功,現(xiàn)有的基于參考的超分辨率方法往往專注于保持圖像的數(shù)據(jù)一致性。這與輸入和輸出之間的均方誤差密切相關,而不是從圖像細節(jié)的角度考慮真實性。對細節(jié)生成的忽視通常會導致結果過于平滑。為了研究這個問題,重新訓練了TTSR[4]模型,以評估是否可以通過現(xiàn)有兩種模型的聚合來增強細節(jié)。
基于參考的模型:當前基于參考的算法大致可以分為特征提取、匹配和融合三個部分,其中融合可以進一步分解為紋理轉(zhuǎn)移和紋理聚合。通過在參考圖像和LR圖像之間匹配最相關的圖像塊,紋理可以直接從HR圖像轉(zhuǎn)移到LR圖像。這種操作保證了已經(jīng)轉(zhuǎn)移的紋理的數(shù)據(jù)一致性,但仍然存在一些缺點,包括紋理誤匹配和紋理欠匹配。
在基于參考的數(shù)據(jù)集中,相似但略有不同的紋理可能會在參考圖像中出現(xiàn)多次。當試圖在參考圖像和輸入圖像之間精確匹配正確的紋理時,這可能會帶來挑戰(zhàn)。另一方面,參考圖像和輸入圖像的亮度、對比度和色調(diào)等參數(shù)可能不同。在沒有任何基本調(diào)整的情況下轉(zhuǎn)移紋理,可能會對最終輸出的感知質(zhì)量產(chǎn)生毀滅性的影響。紋理誤匹配可能在這兩種情況下發(fā)生。
即使在存在多個參考圖像的情況下,參考圖像可能也無法涵蓋需要轉(zhuǎn)移到輸入圖像的所有紋理。因此,可能會存在一定數(shù)量的不匹配紋理,導致紋理欠匹配。
基于生成的模型:生成模型,尤其是最近的去噪擴散概率模型(DDPMs),以其再現(xiàn)高頻細節(jié)的能力而聞名。此外,就重建質(zhì)量而言,已觀察到DDPMs相對于基于回歸的方法在主觀感知質(zhì)量方面表現(xiàn)出更好的性能,這對于迭代地在零域中完善輸入圖像非常理想。通過應用通用的預訓練權重,可以大大降低計算復雜度并獲得穩(wěn)定的輸出。然而,正如上面提到的,每幅圖像都具有其獨特的分布,這不是完全可以由通用的預訓練權重預測的。在這種情況下,生成模型容易生成偽影。
總之,基于參考的模型利用相似的參考圖像來指導LR圖像的恢復,但是對應匹配中的細節(jié)不足降低了對齊準確率。相比之下,擴散模型完全有能力生成細節(jié),但是由于缺少具體的先驗信息,導致輸出中出現(xiàn)偽影。通過聚合基于參考的模型和擴散模型,后者生成的細節(jié)可以用于增強對應關系圖并彌補缺失的細節(jié)。
2" 細節(jié)增強算法框架
2.1" 總" 覽
為了解決細節(jié)增強問題,本文提出了一個新的框架如圖1所示,該框架繼承了基于參考的模型的主要結構,同時引入了擴散模型。整個細節(jié)增強問題可以分解為兩個子任務:細節(jié)生成和細節(jié)傳遞。首先,輸入圖像經(jīng)過擴散模型的反向過程增強了細節(jié)。然而由于其低可信度,生成的細節(jié)將按比例替換為參考圖像的相應部分,而其余未被替換的部分可以解決上述的欠匹配問題。
對于細節(jié)生成任務,不直接應用下采樣的輸入圖像,因為這嚴重破壞了先驗信息,而是通過預訓練的擴散模型對輸入圖像進行上采樣,獲得細節(jié)增強的輸入圖像。
至于細節(jié)傳遞任務,遵循傳統(tǒng)的基于參考的超分辨率過程。首先,對細節(jié)增強圖像和參考圖像進行特征提?。?/p>
[FTexture=FTE(IRef,IDE)] (7)
式中:[FTexture]、[FTE]、[IRef]和[IDE]分別代表紋理特征、特征提取模塊、參考圖像以及細節(jié)增強后的輸入圖像。
當涉及到對齊時,利用細節(jié)增強的輸入圖像來計算參考圖像和輸入圖像之間的相似性。通過用細節(jié)增強的輸入圖像替換細節(jié)不足的輸入圖像,有效地解決了準確計算對應關系圖所面臨的挑戰(zhàn)。最后,使用多尺度聚合模塊[FMSA]從經(jīng)過轉(zhuǎn)移的圖像特征[FDE]和參考圖像特征[FRef]中獲取最終結果[ISR]。
[ISR=FMSA(FRef,F(xiàn)DE)] (8)
2.2" 細節(jié)增強模塊
在傳統(tǒng)的基于參考的超分辨率框架中,對LR圖像和參考圖像的特征提取是同時開始的。而DEF引入了一種新的范式,在增強過程中將擴散模型作為初始步驟進行整合。將考慮的圖像分解為不同的值域部分和零域部分,如式(9)所示,本文方法通過將主要注意力引向零域部分來優(yōu)先增強圖像細節(jié)。使用簡單的下采樣操作符[A]來提取零空間信息[(I-A?A)x]。需要注意的是,提取的信息受到公式(2)中提到的數(shù)據(jù)一致性的約束:
[Ax=AA?y+A(I-A?A)xn=y+(A-A)xn=y] (9)
式中[xn]指圖像中提取到的零域信息。
與其他生成模型不同,擴散模型的輸出受到嚴格的圖像大小約束。為了在具有任意圖像大小的數(shù)據(jù)集上評估本文方法,受到分塊方法的啟發(fā),將圖像切分成滿足圖像大小限制要求的圖像塊,并將它們輸入到擴散模型中。一種合理的方法是將圖像分割成不同的圖像塊,然后在后處理階段將它們連接起來。例如,如果有一個尺寸為128×256的圖像,可以將其切成兩個滿足擴散模型輸入需求的128×128的部分。
2.3" 特征提取和對齊模塊
為了在輸入圖像和參考圖像之間實現(xiàn)精準對齊,需要提取兩者的特征。通過將預訓練的分類模型分成多個部分,得到了細節(jié)增強圖像[IDE]和參考圖像[IRef]的多尺度特征,即對圖像進行多尺度特征提?。?/p>
[FsDE=FTE(IDE)," " "FsRef=FTE(IRef)] (10)
式中[FsDE]和[FsRef]是圖像在第[s]個尺度上提取到的特征。先前的方法傾向于通過降采樣然后上采樣來預處理參考圖像以匹配分辨率。由于擴散模型已經(jīng)彌補了分辨率差距并在低分辨率圖像中生成了豐富的細節(jié),因此上采樣是不必要的。
對齊的準確性在于計算相應圖像塊之間的相似度。余弦相似度是最常用的度量標準。首先將[FsDE]和[FsRef]分割成圖像塊[Fs'DE=[q1,q2,…,qHW]]和[Fs'Ref=[k1,k2,…,kH'W']],然后通過計算[Fs'DE]和[Fs'Ref]中元素的內(nèi)積來評估相關度[ri,j]:
[ri,j=qiqi,kjkj] (11)
關于[Fs'DE]中的第[i]個元素,可以通過以下方式獲得索引映射矩陣[Pi]和置信度映射矩陣[Ci]:
[Pi=argmaxjri,j," " "Ci=maxjri,j] (12)
式中:[Pi]代表在參考圖像中需要進行轉(zhuǎn)移的位置;[Ci]則代表二者的相關度。
2.4" 紋理轉(zhuǎn)移與聚合
現(xiàn)有的Ref?SR方法面臨1.2節(jié)中討論的紋理不匹配的問題時,在性能上往往會有明顯下降。導致這個問題的原因不僅包括對齊過程中的錯位,還包括卷積傳統(tǒng)設計中的固有缺陷。與常規(guī)卷積核不同,待轉(zhuǎn)移的紋理形狀可能不是固定的,這使得映射并不準確。為了解決這個問題,采用了可調(diào)整感受野的可變卷積網(wǎng)絡[18](Deformable Convolution Network, DCN)。給定輸入圖像中的位置[pi],可以利用對齊過程中獲取的索引映射[Pi]中的對應位置[pki]和在置信度映射[Ci]中獲取的傳輸紋理的置信度[cki],來計算該位置上的第[l]個尺度特征[Til]。
[Til=ckijwjFlRef(pki+pc+Δpj)mj] (13)
式中:[wj]表示卷積核權重;[pc∈{(-1,1),(-1,0),…,(1,1)}];[Δpj]和[mj]分別表示第[j]個可學習的偏移和可學習的掩碼。在對[FlRef]和第[l]個尺度的索引映射[Pl]進行變形后,變形結果為[wl],然后通過對[wl]和從[IDE]提取的第[l]個尺度特征[FlDE]實施卷積來學習[Δpj]和[mj]。
最后,需要集成多尺度轉(zhuǎn)移特征模塊以輸出SR圖像。在這里,繼承TTSR[4]提出的跨尺度集成模塊,該模塊逐步從較低尺度聚合紋理到較高尺度。具體來說,這個模塊在信息利用方面表現(xiàn)出理想的性能,符合本文要求。
2.5" 實施細節(jié)
網(wǎng)絡概述可以分解為兩個部分:擴散模型和Ref?SR架構。前者負責SISR子任務,后者則包括紋理提取和轉(zhuǎn)移。
1) 數(shù)據(jù)集預處理
通過隨機旋轉(zhuǎn)圖像(旋轉(zhuǎn)角度在0~360°之間,間隔為90°)和隨機水平和垂直翻轉(zhuǎn)圖像來增強數(shù)據(jù)集。
2) 擴散模型的實現(xiàn)
使用雙三次下采樣器作為退化算子以確保公平比較。至于噪聲計劃和輸入圖像約束,選擇線性噪聲計劃和256×256的預訓練模型。為了在訓練期間實現(xiàn)細粒度的擴散過程,將時間步長設置為1 000。避免了其他時間步驟的評估,因為它們會影響可比性。線性噪聲計劃的端點為[1-α0=10-6]和[1-αT=10-2]。
3) 紋理轉(zhuǎn)移網(wǎng)絡的訓練
為了公平比較,在4倍尺度上訓練DEF,特征提取器共享相同的架構。具體來說,使用Adam優(yōu)化器訓練網(wǎng)絡,參數(shù)[β1=0.9]和[β2=0.999]。學習率設置為1×10-4,批量大小為9,每批包含9個LR、HR和參考圖像。需要注意的是,給定提取器的權重應該固定,因為后續(xù)的比較需要穩(wěn)定性,可變的提取器可能會影響對應關系匹配的性能。
4) 損失函數(shù)
鑒于本文方法的重點是增強重建圖像的視覺質(zhì)量,同時通過利用圖像的空間結構和語義信息來保留復雜細節(jié),引入重建損失以指導訓練過程是至關重要的。為了增強SR圖像的細節(jié),還引入了感知損失和對抗損失,因此整體損失函數(shù)如下所示:
[?=?rec+λ1?per+λ2?adv] (14)
為了更加重視細節(jié),將[?rec]、[?per]和[?adv]的權重系數(shù)分別設置為1、1×10-2和1×10-4。重建損失是前兩個時期訓練過程中唯一涉及的損失,用于預熱網(wǎng)絡,而感知損失和對抗損失則在后續(xù)過程中添加,直到結束訓練。
3" 實" 驗
3.1" 數(shù)據(jù)集和衡量指標
1) 訓練數(shù)據(jù)集
本文模型的整個訓練過程在CUFED5數(shù)據(jù)集上完成,該數(shù)據(jù)集包括11 871對圖像,每對圖像包括一個輸入圖像和一個參考圖像。由于輸入和參考圖像的分辨率均為160×160,將輸入圖像分辨率大小調(diào)整為40×40,以進行后續(xù)的4倍超分辨率。
2) 測試數(shù)據(jù)集
為了展示本文網(wǎng)絡的泛化能力,采用了五個測試集,包括CUFED5、Sun80、Urban100、Manga109和WR?SR。CUFED5的測試集包含126張圖像,每張圖像都有4個不同相似度尺度的參考圖像。WR?SR有150組圖像,每組圖像包括一張輸入圖像和多張參考圖像。Sun80有80張自然圖像,每張圖像都與多個參考圖像配對。Urban100有100張建筑圖像,而Manga109有109張漫畫圖像,其中大部分圖像共享相同的風格。它們是沒有參考圖像的SISR數(shù)據(jù)集,因此遵循設置:Urban100采用其LR圖像作為參考圖像,而在Manga109中隨機選擇另一張HR圖像作為其參考圖像。
3) 評估指標
通過PSNR和SSIM指標來評估本文提出的方法和其他方法取得的結果。具體來說,這些指標是在YCrCb色彩空間的亮度通道上計算的。
3.2" 與最先進方法的對比
將本文方法與先前最先進的SISR方法和單參考Ref?SR方法進行了比較。SISR方法包括SRCNN、EDSR、ESRGAN和RankSRGAN,本文選擇其中一半的方法是基于GAN的,因為它們具有生成豐富細節(jié)的強大能力。單參考Ref?SR方法包括SRNTT、TTSR、MASA和C2?matching。
1) 定量比較
為了公平比較,在CUFED5數(shù)據(jù)集上訓練所有方法,并在CUFED5、Manga109、Sun80、Urban100和WR?SR的測試集上進行評估,結果如表1所示。
所有提到的方法的尺度因子均為×4。表1表明,本文方法勝過大多數(shù)先前的方法,并在WR?SR數(shù)據(jù)集上與C2?matching取得了相仿的表現(xiàn),這凸顯了在特征對齊和聚合過程中提出的獨特細節(jié)生成結構的優(yōu)越性。
2) 定性評估
定性評估給出了本文方法、一個SISR方法和先前最先進的Ref?SR方法的視覺結果。將本文方法與ESRGAN、TTSR、MASA和C2?matching進行了比較,結果如圖2所示。
通過比較來自相同輸入LR圖像的選定部分的結果,很明顯本文方法可以在各個方面恢復更準確的細節(jié)。圖2的第一行專注于合成自然人臉,而第二行和第三行的焦點是字母和物體紋理的恢復。ESRGAN無法充分利用參考圖像中的信息,導致無法生成可靠的細節(jié)。TTSR、MASA和C2?matching由于輸入LR圖像與參考圖像之間的細節(jié)差距而無法充分利用參考圖像中的信息,進而妨礙了對齊和傳遞過程。對于基于參考的方法,細節(jié)增強的輸入圖像平滑了物體的邊緣,在特征域中使對齊更準確,從而優(yōu)化了紋理傳輸和集成過程,最終呈現(xiàn)出更高視覺質(zhì)量的圖像。
3.3" 消融實驗
在本節(jié)中,進行消融實驗以驗證本文對Baseline的改進的有效性,包括細節(jié)增強框架和可變卷積網(wǎng)絡。
與簡單地調(diào)整輸入LR圖像大小不同,本文的細節(jié)增強框架通過在特征提取之前應用擴散模型來縮小分辨率差距。重新訓練了TTSR作為本文的Baseline。消融實驗結果如表2所示。
表2顯示,本文方法的PSNR和SSIM值均顯著增加,其中,對Baseline的改進方法相比Baseline在PSNR指標上均提高了2 dB。先前的方法通常通過雙三次插值將LR圖像上采樣,利用周圍的16個像素來生成目標像素值,從而匹配輸入圖像和參考圖像之間的分辨率。雖然基本的對齊要求已得到滿足,但過度平滑的圖像往往會在最終輸出中產(chǎn)生偽影。結果表明,DEF在對齊和傳輸部分的細節(jié)增強任務中遠遠優(yōu)于Baseline。
由于對參考圖像進行預處理以獲得與LR圖像分辨率相同圖像,Baseline采用了transformer結果進行對齊。為了保留參考圖像中的細節(jié),保留了原始參考圖像,因此transformer結構是不必要的。本文采用相關嵌入來獲取索引圖,然后根據(jù)索引,將卷積網(wǎng)絡升級為可變形卷積網(wǎng)絡,增強其對不規(guī)則紋理轉(zhuǎn)移的魯棒性。表2中的統(tǒng)計數(shù)據(jù)顯示了PSNR指標的顯著提高。由于在參考圖像的預處理過程中細節(jié)已經(jīng)受損,因此SSIM的提升有限。
4" 結" 語
本文提出了一種新穎的細節(jié)增強框架,以緩解SR的不適定本質(zhì)對重建質(zhì)量的影響。基于理論分析,在理想的SR模型中設置了兩個約束,以確保SR圖像的真實性和數(shù)據(jù)一致性。具體而言,在DEF中,借助擴散模型對圖像進行分解,并迭代地優(yōu)化部分內(nèi)容。通過應用新框架,在LR圖像中生成豐富的細節(jié),并解決特征對齊階段的紋理不匹配問題。此外,利用可變形卷積網(wǎng)絡實現(xiàn)了細節(jié)增強的LR圖像與參考圖像之間更精確的特征轉(zhuǎn)移。實驗結果,尤其是定性結果,證明了本文提出的框架在優(yōu)化當前Ref?SR結構方面的可行性。
參考文獻
[1] ZHENG H T, JI M Q, WANG H Q, et al. CrossNet: An end?to?end reference?based super resolution network using cross?scale war?ping [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 87?104.
[2] SHIM G, PARK J, KWEON I S. Robust reference?based super?resolution with similarity?aware deformable convolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 8422?8431.
[3] ZHANG Z F, WANG Z W, LIN Z L, et al. Image super?resolution by neural texture transfer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7982?7991.
[4] YANG F Z, YANG H, FU J L, et al. Learning texture transformer network for image super?resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5790?5799.
[5] JIANG Y M, CHAN K C K, WANG X T, et al. Robust reference?based super?resolution via C2?matching [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 2103?2112.
[6] LU L Y, LI W B, TAO X, et al. MASA?SR: Matching acceleration and spatial adaptation for reference?based image super?resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 6368?6377.
[7] CAO J Z, LIANG J Y, ZHANG K, et al. Reference?based image super?resolution with deformable attention transformer [C]// 17th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 325?342.
[8] HUANG Y X, ZHANG X Y, FU Y, et al. Task decoupled framework for reference?based super?resolution [C]// Procee?dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 5921?5930.
[9] XIA B, TIAN Y, HANG Y, et al. Coarse?to?fine embedded PatchMatch and multi?scale dynamic aggregation for reference?based super?resolution [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2022: 2768?2776.
[10] ZHANG L, LI X, HE D L, et al. RRSR: Reciprocal reference?based image super?resolution with progressive feature alignment and selection [C]// 17th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 648?664.
[11] ZHANG L, LI X, HE D L, et al. LMR: A large?scale multi?re?ference dataset for reference?based super?resolution [EB/OL]. [2024?02?27]. https://doi.org/10.48550/arXiv.2303.04970.
[12] WANG Y F, LIN Z, SHEN X H, et al. Event?specific image importance [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 4810?4819.
[13] MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch?based manga retrieval using manga109 dataset [J]. Multimedia tools and applications, 2017, 76(20): 21811?21838.
[14] HUANG J B, SINGH A, AHUJA N. Single image super?resolution from transformed self?exemplars [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 5197?5206.
[15] SUN L, HAYS J. Super?resolution from internet?scale scene matching [C]// 2012 IEEE International Conference on Computational Photography (ICCP). New York: IEEE, 2012: 1?12.
[16] SCHWAB J, ANTHOLZER S, HALTMEIER M. Deep 1 space learning for inverse problems: Convergence analysis and rates [J]. Inverse problems, 2019, 35(2): 025008.
[17] WANG Y H, HU Y J, YU J W, et al. GAN prior based 1?space learning for consistent super?resolution [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2023: 2724?2732.
[18] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks [C]// Proceedings of the IEEE International Con?ference on Computer Vision. New York: IEEE, 2017: 764?773.
作者簡介:王子涵(1997—),男,湖北武漢人,在讀碩士研究生,研究方向為圖像超分辨率。
袁曉兵(1969—),男,吉林長春人,博士研究生,研究員,研究方向為無線傳感器網(wǎng)絡、物聯(lián)網(wǎng)核心技術與行業(yè)應用等。
收稿日期:2024?03?25" " " " " "修回日期:2024?04?16
基金項目:微系統(tǒng)技術實驗室基金項目(6142804230103)