摘要:由于現(xiàn)行方法在圖像超分辨率重建中應用效果較差,重建圖像峰值信噪比和結構相似性指數(shù)比較低,圖像質(zhì)量較差,失真程度較高,無法達到預期的重建效果。為此,文章提出結合全局自注意力與加權層級聚合的圖像超分辨率重建方法。該方法利用卷積神經(jīng)網(wǎng)絡對低分辨率圖像多尺度卷積操作,提取低分辨率圖像特征;引入全局自注意力機制提取圖像深度全局特征,通過對圖像全局特征加權層級聚合,重建超分辨率圖像,實現(xiàn)結合全局自注意力與加權層級聚合的圖像超分辨率重建。實驗證明,設計方法重建圖像峰值信噪比平均值為76.53 dB,結構相似性指數(shù)在0.7以上,能夠?qū)崿F(xiàn)圖像超分辨率高精度、高質(zhì)量重建。
關鍵詞:全局自注意力;加權層級聚合;超分辨率;重建;峰值信噪比;結構相似性指數(shù)
中圖分類號:TP391.41
文獻標志碼:A
0 引言
圖像超分辨率重建技術作為圖像處理領域的一項重要技術,從低分辨率圖像中恢復出高分辨率圖像,以提高圖像的清晰度[1]。隨著計算能力的增強和數(shù)字圖像處理技術的發(fā)展,圖像超分辨率重建技術逐漸擴展到更廣泛的領域,如醫(yī)學成像、視頻監(jiān)控、顯微鏡圖像分析以及消費電子產(chǎn)品的圖像顯示等。在現(xiàn)代社會中,高質(zhì)量的圖像對于各種應用場景都至關重要。例如,在公共安全領域,高分辨率的監(jiān)控圖像可以提供更多的紋理和細節(jié)信息,有助于警方獲取高質(zhì)量的證據(jù)。在國內(nèi),圖像超分辨率重建技術的研究比較活躍。多所高校和研究機構在這一領域取得了顯著成果。
黃俊煬等[2]提出了多域字符距離感知的重建方法,通過分析文本圖像中字符間的距離與布局特征,結合深度學習實現(xiàn)對圖像超分辨率重建。陳書理等[3]提出了聯(lián)合圖像—頻率監(jiān)督的重建方法,通過同時考慮圖像的空間域和頻率域信息,利用深度學習網(wǎng)絡進行監(jiān)督學習,重建高分辨率圖像。
盡管圖像超分辨率重建技術研究取得了一定的成果,但是現(xiàn)行方法仍然存在局限性,重建圖像質(zhì)量較差并且失真程度比較高。為此,文章提出結合全局自注意力與加權層級聚合的圖像超分辨率重建方法。
1 圖像超分辨率重建框架設計
文章提出的圖像超分辨率重建框架采納一種循序漸進的策略,從粗略到精細地優(yōu)化低分辨率圖像精度,進而提升圖像質(zhì)量,特別是在邊緣重建與紋理細節(jié)呈現(xiàn)方面。圖像超分辨率重建框架分為2個重建階段,具體結構如圖1所示。
在第一階段中,該方法直接采納原始的低分辨率圖像作為輸入,省略傳統(tǒng)方法中必要的插值放大預處理步驟,減輕計算負擔。文章提出一種基于10個殘差元的卷積神經(jīng)網(wǎng)絡,該模型中包含2個3×3卷積核卷積神經(jīng)網(wǎng)絡,各層可產(chǎn)生64幅特征圖譜,通過改進的線性元作為激勵函數(shù),提高神經(jīng)網(wǎng)絡的非線性表達能力[4]。經(jīng)過特征提取與變換后,利用一個核大小為5×5的反卷積層執(zhí)行上采樣操作,通過調(diào)整步長,實現(xiàn)不同尺度的圖像放大,最后,得到一張粗略的、具有較高分辨率特征圖像。
第二階段,該方法以前一階段的輸出作為起點,引入全局自注意力模塊進行圖像的進一步精細化處理。該過程中,將輸入的圖像引入主干支路,將其引入全局自注意力分支。在主干支路中,利用殘差單元對圖像進行深度提取,在此基礎上,采用卷積網(wǎng)絡對圖像進行降維處理,形成具有自主注意力的矩陣法。該矩陣法能夠模擬和捕獲圖像中任意2個像素點間的對應關系。通過矩陣乘法運算,將注意力機制與原始特征相結合,生成一個融合全局上下文信息的特征表示。最后,將主干支路與自注意力支路的高層特征進行加權聚合,利用全局自注意力特征增強圖像的細節(jié)恢復能力,特別是高頻成分的重建,從而重建超分辨率圖像。
2 結合全局自注意力與加權層級聚合的圖像超分辨率重建
2.1 圖像多尺度卷積
本節(jié)利用卷積神經(jīng)網(wǎng)絡對低分辨率圖像多尺度卷積操作,提取低分辨率圖像特征。在特征提取的過程中,來自上一層的特征圖分別經(jīng)過3種不同尺寸的卷積核進行處理:首先是1×1的卷積層,對特征線性變換和跨通道信息整合;然后輸入3×3的卷積層,捕捉圖像中的局部空間特征;最后輸入5×5的卷積層,捕捉更為廣泛的空間上下文信息[5]。除卷積操作外,特征圖經(jīng)過一個3×3的最大池化層,降低特征圖的分辨率,保留最重要的特征信息,具體如圖2所示。
如圖2所示,給定低分辨率圖像X,輸入卷積神經(jīng)網(wǎng)絡,卷積操作公式如下:
O=∑i=1X(x,y)*K(1)
式中,O表示卷積操作輸出低分辨率圖像特征圖;i表示卷積核數(shù)量;X(x,y)表示像素位置(x,y)處的圖像像素值;K表示卷積核權重值。利用以上公式將低分辨率圖像多層卷積,將輸出特征圖輸入最大池化層進行池化操作,用公式表示為:
k=(1/HM)∑H/j=1∑M/n=1O(j,n)(2)
式中,k表示最大池化輸出;H表示特征圖高度;M表示特征圖寬度;O(j,n)表示卷積提取特征圖上第j行、第n列的像素值。經(jīng)過以上處理后,得到的多個特征圖并不會立即被丟棄或簡單相加,采用堆疊的方式合并起來,得到低分辨率圖像特征集k={k1,k2,…,kc},為后續(xù)基于全局自注意力的圖像深層特征提取奠定基礎。
2.2 基于全局自注意力的圖像深層特征提取
本文提出一種全局自我注意機制,以實現(xiàn)對復雜情境依存關系的建模,進一步豐富特征表達的內(nèi)涵。該方法利用自注意力支路對圖像中的上下文信息進行局部化編碼,提高圖像的整體性,增強圖像的表達能力。自注意力支路接收來自第一階段輸出的特征k={k1,k2,…,kc}然后,將這些特性輸入一個1×1的卷積網(wǎng)絡并用 ReLU激活功能對其進行處理,得到3張新的特征圖k(x)、k(y)、k(z),隨后,利用轉置矩陣將k(x)與k(y)進行矩陣乘法運算,應用softmax層,計算出注意力特征。這一過程的數(shù)學表達式為:
Ej,n=exp[k(x)j,k(y)n]/∑L/j=1exp[k(x)j,k(y)n](3)
式中,Ej,n表示特征圖注意力特征,即特征圖中第j行對第n列位置的影響;L表示整個位置空間。當2個位置的特征越相似時,Ej,n值便越大,意味著它們之間的關聯(lián)性也更為緊密。本文將特征k(z)與轉置后的注意力特征Ej,n進行矩陣乘法運算,從而得到自注意力支路的最終輸出:
P=Ej,nk(z)(4)
式中,P表示低分辨率圖像特征圖的自注意力特征。按照以上步驟提取所有特征圖的自注意力特征,以此提取到低分辨率圖像全局自注意力特征。
2.3 基于加權層級聚合的圖像超分辨率重建
在此基礎上,本節(jié)引入加權層級聚合機制,對提取的各層級的低分辨率圖像全局特征加權聚合,實現(xiàn)圖像超分辨率重建[6]。加權層級聚合融合2個ReLU激活函數(shù)以及2個卷積層,2個卷積層均采用3×3的卷積核大小,將提取的低分辨率圖像全局自注意力特征輸入卷積層,對其加權聚合,公式表示如下:
U=V[Pd,?d]+Pd(5)
式中,U表示重建后的超分辨率圖像;V表示激活函數(shù);Pd表示第d層級圖像自注意力特征;?d表示該層級權重系數(shù)。設計方法依賴于卷積層和激活函數(shù)的組合,共同協(xié)作捕捉輸入自注意力特征圖中的高頻信息,從而生成更加精確的超分辨率圖像,以此實現(xiàn)結合全局自注意力與加權層級聚合的圖像超分辨率重建。
3 實驗論證
為了驗證結合全局自注意力與加權層級聚合的圖像超分辨率重建方法的可行性與可靠性,本文開展對比實驗。實驗使用HJHGF數(shù)據(jù)集,該數(shù)據(jù)集由800個低分辨率圖像組成,圖像大小為40×40。文章方法基于Pytorch平臺搭建,實驗在Linux系統(tǒng)Inter Core i8 CPU環(huán)境下進行,配置16 GB內(nèi)存,128 GB固態(tài)硬盤。
為了使此次研究具有一定的參考性和學術性價值,本文在實驗中設置2組對照組,分別為黃俊煬等[2]提出的多域字符距離感知的重建方法、陳書理等[3]提出的聯(lián)合圖像—頻率監(jiān)督的重建方法,用對照組1和對照組2表示。
特征提取通道數(shù)設定為48,卷積核數(shù)量設為10,步長設定為0.1,學習率設為0.01,權重為0.256,最大迭代次數(shù)設定為100000次。隨機選取一個圖像樣本,重建前后如圖3所示。
重建后圖像清晰度遠遠高于重建前,說明設計方法可以完成圖像超分辨率重建。為了進一步本文驗證方法圖像超分辨率重建的效果,選擇圖像峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結構相似性指數(shù)(Structural Similarity Index,SSIM)作為指標。PSNR是圖像中最大可能的信號功率和具有破壞性的噪聲功率的比值,是圖像質(zhì)量評估領域中的一個重要指標,其計算公式為:
PSNR=10lg(255×255/Mse)(6)
式中,PSNR表示圖像峰值信噪比;Mse表示圖像均方誤差。PSNR取值范圍在20到80 dB之間。數(shù)值越高,表示圖像質(zhì)量越高,即重建圖像與參考圖像的差異越小。SSIM量化評估2幅圖像之間的視覺相似性,其計算公式為:
SSIM=((2εaεb+l)(2σab+l)/(εa+εb+l)(σab+l))(7)
式中,SSIM表示重建后圖像與原始圖像的結構相似性指數(shù);εa、εb分別表示重建后圖像a與原始圖像b的平均值;σab表示重建后圖像a與原始圖像b的協(xié)方差。SSIM是一個無量綱的指標,其取值范圍通常在0到1之間。數(shù)值越接近1,表明2幅圖像在視覺上的相似性越高,重建后圖像失真程度越低。通過對比3種方法重建圖像峰值信噪比和結構相似性指數(shù),評價文章方法對圖像超分辨率重建質(zhì)量。
從圖4可以看出,在圖像超分辨率重建場景中,本文設計方法重建后圖像峰值信噪比遠高于其余2種方法,峰值信噪比平均值為76.53 dB,說明本文設計方法重建圖像質(zhì)量較高;從圖5可以看出,本文設計方法重建圖像結構相似性指數(shù)在0.7以上,平均值為0.81,遠高于其余2種方法,說明重建的圖像失真程度非常低,結構與原始圖像基本一致。因此,通過以上對比證明,本文設計方法更適用于圖像超分辨率重建,重建圖像質(zhì)量良好。
4 結語
本文提出的結合全局自注意力與加權層級聚合的圖像超分辨率重建方法,通過引入全局自注意力機制捕捉圖像中的長距離依賴關系,利用加權層級聚合策略有效融合不同層級的特征信息,顯著提升了圖像超分辨率重建的質(zhì)量和效率。實驗結果表明,該方法在多個基準數(shù)據(jù)集上均取得了優(yōu)異的性能,有效還原了圖像的高頻細節(jié),同時保持了良好的圖像結構和紋理信息。未來,仍有多個潛在的研究方向值得探索。一方面,進一步深入研究全局自注意力機制的實現(xiàn)方式和優(yōu)化策略,以提高其計算效率和泛化能力。另一方面,探索將該方法應用于更廣泛的圖像處理和計算機視覺任務中。此外,還可以結合最新的深度學習技術和硬件加速技術,進一步提升圖像超分辨率重建的實時性和實用性。
參考文獻
[1]易見兵,陳俊寬,曹鋒,等.輕量級重參數(shù)化的遙感圖像超分辨率重建網(wǎng)絡設計[J].光學精密工程,2024(2):268-285.
[2]黃俊煬,陳宏輝,王嘉寶,等.多域字符距離感知的場景文本圖像超分辨率重建[J].電子學報,2024(7):2262-2270.
[3]陳書理,張書貴,趙展.聯(lián)合圖像—頻率監(jiān)督的圖像超分辨率重建算法[J].計算機應用研究,2023(2):623-627.
[4]蘆焱琦,陳明惠,秦楷博,等.基于金字塔長程Transformer的OCT圖像超分辨率重建[J].中國激光,2023(15):61-72.
[5]賈世杰,楊真杰,孫萬鑫.基于雙分支融合網(wǎng)絡的圖像超分辨率重建與增強[J].大連交通大學學報,2024(3):114-120.
[6]唐述,曾琬凌,楊書麗,等.基于Transformer的塊內(nèi)塊間雙聚合的單圖像超分辨率重建網(wǎng)絡[J].計算機學報,2024(12):2783-2802.
(編輯 王雪芬)
Image super-resolution reconstruction methods combining global self-attention with weighted hierarchical aggregation
WANG Danyang, TANG Man
(Nanyang Institute of Technology, Nanyang 473004, China)
Abstract:Due to the poor application effect of current methods in image super-resolution reconstruction, the peak signal-to-noise ratio of the reconstructed image is low, and the structural similarity index is also relatively low. The image quality is poor, the degree of distortion is high, and the expected reconstruction effect cannot be achieved. Therefore, the article proposes an image super-resolution reconstruction method that combines global self-attention and weighted hierarchical aggregation. This method utilizes convolutional neural networks to perform multi-scale convolution operations on low resolution images and extract features from them; Introducing a global self-attention mechanism to extract deep global features from images, reconstructing super-resolution images by weighted hierarchical aggregation of global features, and achieving image super-resolution reconstruction that combines global self-attention and weighted hierarchical aggregation. Experimental results have shown that the average peak signal-to-noise ratio of the reconstructed image using the design method is 76.53 dB, and the structural similarity index is above 0.7, which can achieve high-precision and high-quality image super-resolution reconstruction.
Key words:global self-attention; weighted hierarchical aggregation; super-resolution; reconstruction; peak signal-to-noise ratio; structural similarity index