劉南艷,馬圣祥,魏鴻飛
西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710699
超分辨率重建是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向之一,受到國(guó)內(nèi)外研究者的廣泛關(guān)注。圖像超分辨率(super resolution,SR)重建技術(shù)是將一幅模糊的低分辨率(low resolution,LR)圖像通過(guò)一定的算法轉(zhuǎn)換成一幅高分辨率(high resolution,HR)圖像的過(guò)程。隨著社會(huì)發(fā)展和人們對(duì)于獲得高質(zhì)量圖像需求的不斷提高,超分辨率重建技術(shù)在生產(chǎn)生活的各個(gè)領(lǐng)域得到廣泛應(yīng)用,如:醫(yī)學(xué)影像[1-4]、人臉識(shí)別[5-8]和衛(wèi)星成像[9-12]等領(lǐng)域,其中醫(yī)學(xué)影像中有大量相似的小細(xì)胞結(jié)構(gòu),人臉中有許多相同的器官,衛(wèi)星圖像中存在相同的建筑設(shè)施,圖像中重復(fù)的結(jié)構(gòu)都能使用跨尺度來(lái)進(jìn)行重建。目前超分辨率算法主要分為基于單幀圖像的超分辨率重建算法[13-18]和基于視頻的超分辨率重建算法[19-22],本文主要研究基于單幀圖像的超分辨率算法。
圖像超分辨率重建技術(shù)最早可以追溯到1964年提出的頻譜外推法,隨后由Tsai 和Huang[23]最先提出運(yùn)用基于重構(gòu)方法中的頻域法來(lái)解決超分辨率重建問(wèn)題,將低分辨率圖像和高分辨圖像進(jìn)行傅里葉變換,使其在頻域之間建立線性關(guān)系來(lái)完成圖像重建,之后此類問(wèn)題受到研究人員的廣泛關(guān)注。2002年,首次提出基于樣例方法的圖像自相似性超分辨率重建,揭開(kāi)了樣例方法在超分辨率重建中的應(yīng)用。然而傳統(tǒng)基于重構(gòu)和樣例學(xué)習(xí)的方法計(jì)算復(fù)雜而且不能有效恢復(fù)出原始圖像的信息,目前應(yīng)用最廣的深度學(xué)習(xí)方法取得了不錯(cuò)的結(jié)果,與傳統(tǒng)超分辨率重建技術(shù)相比,深度學(xué)習(xí)方法對(duì)于重建出來(lái)的圖像具有更好的視覺(jué)效果。
2014 年,Chao 等[24]提出了一種超分辨率卷積神經(jīng)網(wǎng)絡(luò)(super-resolution convolutional neural network,SRCNN)模型,該方法僅僅使用了三層卷積層,通過(guò)9×9的卷積核來(lái)提取一組特征映射,1×1的卷積核進(jìn)行特征非線性映射和5×5 的卷積核結(jié)合空間鄰域內(nèi)預(yù)測(cè)來(lái)生成最終的高分辨率圖像。作為深度學(xué)習(xí)方法在SR技術(shù)中的開(kāi)山之作,為圖像超分辨重建技術(shù)在深度學(xué)習(xí)方面應(yīng)用奠定了基礎(chǔ)。為了解決之前SRCNN中重建時(shí)計(jì)算開(kāi)銷大的問(wèn)題,Chao 等[25]又在SRCNN 的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種加速超分辨率卷積神經(jīng)網(wǎng)絡(luò)(fast superresolution convolutional neural network,F(xiàn)SRCNN),雖然SRCNN 在超分辨率重建中取得了不錯(cuò)的結(jié)果,但由于其大量的計(jì)算開(kāi)銷阻礙實(shí)際應(yīng)用,為此原來(lái)的研究團(tuán)隊(duì)以卷積核大小和映射層數(shù)量互換,用卷積核減小換取映射層增多。這樣相較于之前提出的SRCNN雖然在效果上沒(méi)有得到很大提升,但是大幅度節(jié)省了計(jì)算開(kāi)銷,實(shí)現(xiàn)超過(guò)40 倍的最終加速度,在不損失恢復(fù)圖像質(zhì)量的前提下實(shí)現(xiàn)模型更高訓(xùn)練速度。為了解決之前方法重建之后圖像的效果與原圖像存在較大差距,Kim等[26]提出了一種高精度單圖像超分辨率(accurate image super-resolution using very deep convolutional network,VDSR)方法,借助VGG網(wǎng)絡(luò)的靈感,將網(wǎng)絡(luò)層數(shù)加深到20層,確實(shí)也取得了不錯(cuò)的效果,但是隨著網(wǎng)絡(luò)層數(shù)的加深,收斂速度隨之受到制約,為此其引入殘差結(jié)構(gòu)[27]很好地避免了此問(wèn)題,在計(jì)算開(kāi)銷和視覺(jué)效果面均取得了不錯(cuò)的成績(jī),但是在基準(zhǔn)數(shù)據(jù)集上的性能仍有一定的提升空間。隨后,Lim等[28]提出了增強(qiáng)的深度超分辨率網(wǎng)絡(luò)(enhanced deep residual network for single image super-resolution,EDSR),去除了SRResNet 中的批量歸一化(batch normalization,BN)層,從而可以通過(guò)加大模型結(jié)構(gòu)來(lái)提升性能。從SRCNN至今各種基于卷積網(wǎng)絡(luò)的重建算法層出不窮,隨著網(wǎng)絡(luò)結(jié)構(gòu)向著更深、更寬、更復(fù)雜方向發(fā)展,網(wǎng)絡(luò)模型對(duì)于圖像特征信息提取更加全面、具有更大的感受野,利用更多的特征信息也會(huì)得到更好的圖像質(zhì)量和視覺(jué)效果,但是正因?yàn)楫?dāng)前網(wǎng)絡(luò)過(guò)于復(fù)雜的結(jié)構(gòu)導(dǎo)致其計(jì)算開(kāi)銷較高。
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[29-30]提出以后廣泛應(yīng)用于圖像處理、模式識(shí)別等各個(gè)領(lǐng)域。該網(wǎng)絡(luò)將零和博弈的思想運(yùn)用到訓(xùn)練神經(jīng)網(wǎng)絡(luò)中,生成器根據(jù)隨機(jī)數(shù)來(lái)不斷創(chuàng)造出新的數(shù)據(jù),進(jìn)而生成一幅圖像去交給鑒別器,鑒別器嘗試去判斷生成器所發(fā)來(lái)數(shù)據(jù)的真實(shí)性,二者相互博弈,最后不斷優(yōu)化提升達(dá)到納什均衡。Ledig 等[31]首次提出將GAN 網(wǎng)絡(luò)運(yùn)用于SR 技術(shù)中,其使用16 塊深度ResNet 針對(duì)MSE進(jìn)行優(yōu)化,通過(guò)VGG 網(wǎng)絡(luò)特征圖上的計(jì)算損失替換MSE 內(nèi)容損失,同時(shí)提出了一種平均意見(jiàn)得分(mean opinion score,MOS)評(píng)價(jià)指標(biāo),在MOS 上取得了不錯(cuò)的成績(jī),為之后的研究者在SR 技術(shù)上開(kāi)辟了另一條道路,但是對(duì)于標(biāo)準(zhǔn)的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM)評(píng)價(jià)指標(biāo),其重建結(jié)果并不如之前模型。為了解決SRGAN網(wǎng)絡(luò)在圖像重建過(guò)程中產(chǎn)生的偽影問(wèn)題,Wang等[32]在SRGAN 網(wǎng)絡(luò)的基礎(chǔ)上提出了一種增強(qiáng)的超分辨生成對(duì)抗網(wǎng)絡(luò)(enhanced super-resolution generative adversarial network,ESRGAN),由于殘差密集塊具有易于訓(xùn)練和更高容量的特點(diǎn),因此將其引入原始SRGAN 網(wǎng)絡(luò)中,同時(shí)刪除了原有結(jié)構(gòu)中的BN 層,使得改進(jìn)的網(wǎng)絡(luò)對(duì)于重建后的圖像具有更銳利的邊緣和更少的偽影,但是其對(duì)于圖像細(xì)節(jié)部分的重建質(zhì)量仍然不夠理想。
針對(duì)網(wǎng)絡(luò)模型計(jì)算復(fù)雜度高的問(wèn)題,Ahn等[33]提出了一種級(jí)聯(lián)殘差網(wǎng)絡(luò)(fast,accurate,and lightweight super-resolution with cascading residual network,CARN)更加輕量化,然而該網(wǎng)絡(luò)的重建結(jié)果不夠理想。EDSR網(wǎng)絡(luò)因?yàn)槠渖顚哟蔚木W(wǎng)絡(luò)結(jié)構(gòu)重建效果相對(duì)理想,然而巨大的計(jì)算開(kāi)銷成為了該網(wǎng)絡(luò)的主要問(wèn)題。為此本文提出了一種跨尺度多分支的超分辨率重建算法,在Urban100和Manga109公共數(shù)據(jù)集上優(yōu)于目前的重建模型,主要工作如下:
(1)構(gòu)建了一種跨尺度模塊,該模塊可以利用圖像中相似區(qū)域的相關(guān)性,通過(guò)圖像內(nèi)部的高分辨率區(qū)域來(lái)輔助重建圖像中相似的低分辨率區(qū)域,從而加強(qiáng)恢復(fù)圖像細(xì)節(jié)信息,提高圖像整體質(zhì)量,獲得更好的視覺(jué)效果。
(2)構(gòu)建了一個(gè)多分支網(wǎng)絡(luò)結(jié)構(gòu),依據(jù)圖像自身具有的結(jié)構(gòu)特性,將不同復(fù)雜度的子圖像分別用不同網(wǎng)絡(luò)重建,來(lái)降低重建時(shí)的計(jì)算開(kāi)銷。
(3)在Urban100 和Manga109 測(cè)試集上驗(yàn)證該網(wǎng)絡(luò)的有效性。
圖像內(nèi)部包含大量的資源信息,觀察圖像可以發(fā)現(xiàn)每張圖像中都有許多相似的邊角結(jié)構(gòu)。如圖1所示,建筑物圖像上有很多相同的窗戶,雖然這些窗戶在圖像中的遠(yuǎn)近高低各不相同,但它們都有著相似的結(jié)構(gòu)。在超分辨率重建時(shí)可以考慮圖像中長(zhǎng)距離特征的相似性,以加強(qiáng)恢復(fù)細(xì)小結(jié)構(gòu)的紋理信息。
圖1 圖像相似信息示意圖Fig.1 Information schematic of image similarity
卷積層可以對(duì)圖像中的特征進(jìn)行提取,但是它提取了圖像中的全部特征,這樣大尺度區(qū)域與小尺度區(qū)域以同樣的方式被對(duì)待,導(dǎo)致圖像小尺度區(qū)域重建效果不理想,引入該模塊后可以利用提取到的大尺度區(qū)域特征輔助重建小尺度區(qū)域的紋理,為紋理信息分配更多的內(nèi)容,進(jìn)而使得超分辨率重建之后的高清圖像在細(xì)節(jié)方面有更好的視覺(jué)效果,如圖2所示能看出卷積只是簡(jiǎn)單提取出圖像中的特征信息,跨尺度模塊可以利用這些特征信息中的重復(fù)結(jié)構(gòu)來(lái)提升重建效果。
圖2 跨尺度模塊和卷積特征圖Fig.2 Feature maps of cross-scale modules and convolutional
非局部相關(guān)性可以通過(guò)總結(jié)整個(gè)圖像的相關(guān)特征來(lái)探索自我范式。在形式上,給定圖像特征映射X,非局部相關(guān)性定義為:
因此本文研究跨尺度相關(guān)性方法,把上面非局部相關(guān)性公式擴(kuò)展到跨尺度相關(guān)性,首先尋找LR 圖像中小尺度區(qū)域和大尺素區(qū)域之間的相關(guān)性,然后學(xué)習(xí)大尺度區(qū)域與小尺度區(qū)域的映射關(guān)系來(lái)輔助重建圖像中小尺度區(qū)域。圖像重建的上采樣因子為s,給定一個(gè)大小為(W,H)的特征圖X,將特征圖X通過(guò)雙線性插值方式進(jìn)行s倍下采樣得到新的特征圖Y,然后將X中p×p的小塊與下采樣后的Y中同樣大小的p×p小塊通過(guò)匹配函數(shù)進(jìn)行匹配。再將所有X中提取到大小為(sp,sp)的特征塊進(jìn)行加權(quán)相加,得到大小為(sW,sH)的特征塊Z輔助X進(jìn)行重建,跨尺度重建公式為:
如圖3所示為跨尺度模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖,其中藍(lán)色的框內(nèi)主要用于跨尺度相似性匹配,藍(lán)色框上面的分支是從LR 圖像中提取原始的大尺度特征塊,由于空間維度的差異性,使用特征相似性的度量方式是不可行的,需要將X進(jìn)行下采樣得到對(duì)應(yīng)的低分辨率圖像Y,在Y中搜尋多個(gè)與X特征相似的特征塊,利用該特征的信息就能找到需要輔助重建的大尺度特征塊。
圖3 跨尺度模塊結(jié)構(gòu)Fig.3 Module structure of cross-scale
圖像通過(guò)跨尺度模塊提取特征之后,將輸出結(jié)果擴(kuò)大到對(duì)應(yīng)上采樣倍數(shù)的圖像尺寸,實(shí)現(xiàn)由小尺度到大尺度的映射操作。
如圖4 所示,在不同上采樣因子下,將卷積生成的r2個(gè)小尺度特征圖重新排列組合,重構(gòu)放大后得到的SR圖像。該算子可以描述為:
圖4 小尺度與大尺度映射關(guān)系Fig.4 Mapping relationships of small-scale and large-scale
其中ISR是小尺度SR 后的空間張量。XL為小尺度特征圖,w和b是可學(xué)習(xí)的網(wǎng)絡(luò)權(quán)值和偏差。PS()· 是一個(gè)周期變換算子,它將一個(gè)形狀為h×w×c·r2的張量重新排列成形狀為hr×wr×c的張量,以實(shí)現(xiàn)上采樣。
本文使用L1損失函數(shù)來(lái)計(jì)算重建后的小尺度區(qū)域與大尺度區(qū)域之間的誤差,公式可以表示為:
其中IL為上文中大尺度特征Z的空間張量,N為樣本點(diǎn)個(gè)數(shù)。
通過(guò)觀察可以發(fā)現(xiàn)每幅圖像都包含復(fù)雜的紋理區(qū)域和稀疏的平滑區(qū)域,對(duì)于超分辨率重建而言,平滑區(qū)域比復(fù)雜區(qū)域更容易處理,利用這一特性,可以在重建一整幅大圖像時(shí)采用適當(dāng)?shù)腟R網(wǎng)絡(luò)來(lái)處理不同區(qū)域的子圖像。如圖5 所示,簡(jiǎn)單的網(wǎng)絡(luò)處理平滑區(qū)域(綠色),復(fù)雜的網(wǎng)絡(luò)處理紋理區(qū)域(紅色),黃色區(qū)域復(fù)雜度介于前兩者之間。
圖5 圖像分區(qū)域示意圖Fig.5 Area schematic of image division
如圖7所示,分別展示了3種分支的網(wǎng)絡(luò)結(jié)構(gòu),輕量級(jí)網(wǎng)絡(luò)CARN 通過(guò)在局部和全局中使用級(jí)聯(lián)機(jī)制集成多個(gè)網(wǎng)絡(luò)層的特性,以cascading block作為網(wǎng)絡(luò)的主要結(jié)構(gòu),來(lái)反映不同級(jí)別的輸入表示,以便于接收更多的信息。
圖6 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Overall network structure
圖7 CARN、EDSR和CSSR這3種重建分支網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Three reconstructed branch network structures of CARN,EDSR and CSSR
EDSR 網(wǎng)絡(luò)將原始?xì)埐罱Y(jié)構(gòu)進(jìn)行改進(jìn),得到該網(wǎng)絡(luò)的ResBlock 結(jié)構(gòu),通過(guò)堆疊16 層ResBlock 結(jié)構(gòu)來(lái)加強(qiáng)圖像的對(duì)比度信息,提升網(wǎng)絡(luò)輸出質(zhì)量。
針對(duì)于紋理細(xì)節(jié)信息的恢復(fù)本文提出在EDSR 網(wǎng)絡(luò)的殘差結(jié)構(gòu)中引入跨尺度模塊(cross-scale block,CSBlock),專門(mén)處理復(fù)雜子圖像中的相似邊、角等結(jié)構(gòu),得到CSSR 網(wǎng)絡(luò)的主要結(jié)構(gòu)跨尺度殘差塊(cross-scale residual block,CS ResBlock)。
為了加強(qiáng)網(wǎng)絡(luò)對(duì)于細(xì)節(jié)信息的捕獲能力,提升網(wǎng)絡(luò)超分辨率后圖像的質(zhì)量,本文在EDSR中每個(gè)ResBlock內(nèi)部的卷積層提取完特征之后引入CS Block,該模塊針對(duì)細(xì)節(jié)部分提供更多的信息輔助重建,防止圖像中細(xì)節(jié)信息丟失,提升特征對(duì)于高頻信息的表達(dá)能力,加強(qiáng)圖像重建后的視覺(jué)效果。相比CARN、EDSR 在殘差內(nèi)部結(jié)構(gòu)的改進(jìn)有所不同,如圖8 是3 種網(wǎng)絡(luò)的殘差結(jié)構(gòu)內(nèi)部進(jìn)行對(duì)比,從圖中可以看出CARN 方法將原始?xì)埐罱Y(jié)構(gòu)內(nèi)部的深度卷積替換成了分組卷積,選擇適合的分組大小來(lái)降低參數(shù)得到該網(wǎng)絡(luò)的殘差結(jié)構(gòu),隨后EDSR將傳統(tǒng)方法中的BN層去除,因?yàn)锽N層對(duì)于網(wǎng)絡(luò)特征的規(guī)范限制了網(wǎng)絡(luò)的靈活性,本文將CS Block 與ResBlock相結(jié)合,得到用圖像自身相似結(jié)構(gòu)來(lái)重建圖像的CS ResBlock,提升圖像中細(xì)節(jié)信息的重建能力。
圖8 本文方法與傳統(tǒng)方法殘差結(jié)構(gòu)對(duì)比Fig.8 Comparison of residual structure of proposed method and traditional method
為了獲得更高質(zhì)量的重建圖像,本文采用DIV2K[34]數(shù)據(jù)集對(duì)該網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,該數(shù)據(jù)集中總共包含1 000 張約2 000 像素分辨率的RGB 三通道圖像,選用其中的800張圖像用于訓(xùn)練,同時(shí)為了便于與經(jīng)典網(wǎng)絡(luò)模型在峰值信噪比和結(jié)構(gòu)相似度評(píng)價(jià)指標(biāo)上進(jìn)行對(duì)比,本實(shí)驗(yàn)網(wǎng)絡(luò)模型選用Urban100 測(cè)試集和Manga109測(cè)試集中進(jìn)行測(cè)試,其中Urban100 測(cè)試集主要以建筑為主,包含各類相似結(jié)構(gòu)的建筑設(shè)施圖像數(shù)據(jù)集,Manga109數(shù)據(jù)集是以動(dòng)漫為主要圖像的數(shù)據(jù)集。
本次實(shí)驗(yàn)首先對(duì)訓(xùn)練圖像進(jìn)行預(yù)處理,將DIV2K數(shù)據(jù)集中的高分辨率圖像通過(guò)Bicubic 算法進(jìn)行0.6、0.7、0.8 和0.9 倍的下采樣生成更多的HR 圖像,以增大訓(xùn)練時(shí)的數(shù)據(jù)量,對(duì)這些圖像進(jìn)行進(jìn)一步的下采樣生成LR 圖像,然后從LR 圖像中裁剪尺寸為32×32 的子圖像,接下來(lái)輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中的批量大小設(shè)置為16,使用L1損失函數(shù)和Adam 優(yōu)化器進(jìn)行訓(xùn)練,其中β1=0.9,β2=0.999,通過(guò)余弦退火策略來(lái)調(diào)整訓(xùn)練速率,初始學(xué)習(xí)速率設(shè)置為10-3,最小的學(xué)習(xí)速率設(shè)置在10-7。在測(cè)試過(guò)程中,將LR 圖像裁剪成32×32 的子圖像,步長(zhǎng)為28,通過(guò)將4 個(gè)像素點(diǎn)的重疊區(qū)域進(jìn)行平均,以免重建后的圖像出現(xiàn)明顯分割痕跡。
PSNR 作為重建圖像的評(píng)價(jià)標(biāo)準(zhǔn),一方面可以看出圖像的重建難度,另一方面可以反映圖像紋理結(jié)構(gòu)的復(fù)雜程度。如圖9所示,通常PSNR值高的圖像比較平滑,PSNR 值低的圖像具有復(fù)雜的紋理,本文通過(guò)大量實(shí)驗(yàn)后選用PSNR 值為27.16dB 和35.15dB 作為分割子圖像的依據(jù),從圖中可以看出取得了不錯(cuò)的效果。
圖9 子圖像分類示意圖Fig.9 Classification schematic of sub-image
為了保證實(shí)驗(yàn)質(zhì)量,本次實(shí)驗(yàn)均采用統(tǒng)一的硬件配置,其中操作系統(tǒng)為Ubuntu 系統(tǒng),處理器為AMD EPYC 7642 48-Core Processor,顯卡為NVIDIA GeForce RTX3090,并在Python3.6.13、CUDA11.0 環(huán)境配置下運(yùn)行,選用Pytorch1.7.0作為深度學(xué)習(xí)框架。
通常圖像在放大或壓縮前后會(huì)出現(xiàn)不同程度的誤差,為了客觀地展現(xiàn)出超分辨后的圖像與原始圖像之間存在的差距,比較不同超分辨模型之間重建圖像質(zhì)量的區(qū)別,本文通過(guò)主觀和客觀兩種不同方式對(duì)重建圖像的質(zhì)量進(jìn)行評(píng)價(jià)。首先采用峰值信噪比和結(jié)構(gòu)相似度對(duì)生成的圖像進(jìn)行客觀評(píng)估,這兩種方式是目前超分辨率重建方式中最普遍和廣泛使用的客觀評(píng)價(jià)指標(biāo),同時(shí)為了驗(yàn)證該模型良好的計(jì)算效率,本文使用浮點(diǎn)計(jì)算數(shù)來(lái)衡量模型計(jì)算的復(fù)雜度,對(duì)比突出多分支方法與以往單一分支方法計(jì)算復(fù)雜度的不同。
峰值信噪比是通過(guò)對(duì)比處理前后圖像中對(duì)應(yīng)像素點(diǎn)之間的差距進(jìn)行計(jì)算來(lái)評(píng)估圖像重建后的質(zhì)量,其計(jì)算表達(dá)式為:
其中,n為每像素之間的比特?cái)?shù),一般圖像灰階數(shù)為256,因此n通常取8,MSE為超分辨率重建前后圖像的均方誤差。由公式可以看出,重建前后圖像的峰值信噪比越大,說(shuō)明圖像失真越少,PSNR單位為dB。
與峰值信噪比不同,結(jié)構(gòu)相似度是從圖像亮度、對(duì)比度和結(jié)構(gòu)三個(gè)方面來(lái)判斷輸出圖像與原始圖像之間的相似性,其計(jì)算表達(dá)式為:
其中,ux、uy表示圖像x、y的均值,σx、σy表示圖像x、y的方差,σxy表示圖像x、y的協(xié)方差,C1、C2、C3為常數(shù)。
標(biāo)準(zhǔn)的客觀評(píng)價(jià)指標(biāo)雖然可以計(jì)算出圖像重建前后的失真情況,但是其并沒(méi)有考慮到人眼觀察圖像的視覺(jué)感受,往往人眼對(duì)于圖像中像素點(diǎn)之間的差異敏感度較高,會(huì)出現(xiàn)客觀評(píng)價(jià)指標(biāo)與人眼主觀感受不一致的情況。為此本文中新增加主觀評(píng)價(jià)指標(biāo),任意尋找50 名參與者,從其他模型和本文模型的實(shí)驗(yàn)結(jié)果中各選取3幅重建圖像,參與者在不被告知模型的情況下根據(jù)自己主觀感受對(duì)比不同模型重建后的圖像與原始圖像進(jìn)行打分,最終計(jì)算出參與者對(duì)于每張圖像的平均分進(jìn)行對(duì)比。
圖像超分辨率重建技術(shù)除了衡量圖像質(zhì)量以外,其計(jì)算效率也是重要的衡量指標(biāo)之一,高效、準(zhǔn)確地重建出目標(biāo)圖像是當(dāng)前該領(lǐng)域的重要目標(biāo),所以不僅僅要追求更好的視覺(jué)效果,對(duì)于批量處理圖像時(shí)計(jì)算效率也是應(yīng)當(dāng)考慮的因素。因此本文采用浮點(diǎn)計(jì)算數(shù)(floating point operations,F(xiàn)LOPs)作為衡量模型重建圖像計(jì)算復(fù)雜度的標(biāo)準(zhǔn),F(xiàn)LOPs的計(jì)算公式如下:
其中,HW代表輸出圖像特征圖的大小,Cin代表輸入圖像的通道數(shù),Cout為輸出圖像的通道數(shù),K代表卷積核的大小。
3.3.1 客觀評(píng)價(jià)
為了驗(yàn)證平滑區(qū)域圖像使用輕量級(jí)網(wǎng)絡(luò)CARN、較復(fù)雜區(qū)域圖像使用EDSR 網(wǎng)絡(luò)與使用單一跨尺度網(wǎng)絡(luò)重建之間可以獲得大致相同的效果,選用3種不同分類的子圖像分別放入CARN、EDSR 和CSSR 網(wǎng)絡(luò)進(jìn)行重建,再將3類子圖像全部放入CSSR網(wǎng)絡(luò)進(jìn)行重建,對(duì)比重建后的峰值信噪比。
如表1 所示,可以發(fā)現(xiàn)CARN 和CSSR 網(wǎng)絡(luò)重建平滑子圖像幾乎沒(méi)有差異,在較復(fù)雜子圖像上,EDSR 與CSSR網(wǎng)絡(luò)同樣獲得大致相同的性能。因此說(shuō)明了通過(guò)多分支網(wǎng)絡(luò)分區(qū)域重建圖像來(lái)節(jié)約計(jì)算成本的有效性,且產(chǎn)生圖像的質(zhì)量大致相同。
表1 不同子圖像在3種分支下的PSNR對(duì)比Table 1 Comparison of PSNR of different sub-images under three branches單位:dB
為了進(jìn)一步驗(yàn)證實(shí)驗(yàn)的有效性,本文將文中方法與當(dāng)前的經(jīng)典網(wǎng)絡(luò)重建圖像效果進(jìn)行對(duì)比,其中包括:Bicubic、SRCNN、VDSR、CARN、SRGAN、EDSR。同時(shí)將本文中提出的跨尺度單分支網(wǎng)絡(luò)(CSSR)與跨尺度多分支網(wǎng)絡(luò)(M-CSSR)也進(jìn)行了比較,在Urban100數(shù)據(jù)集和Manga109 數(shù)據(jù)集上分別對(duì)2 倍、3 倍和4 倍放大因子超分辨率重建對(duì)比峰值信噪比和結(jié)構(gòu)相似度,結(jié)果如表2 和表3 所示,其中粗體字顯示為當(dāng)前比較中的最優(yōu)結(jié)果。
表2 不同算法在Urban100和Manga109數(shù)據(jù)集上PSNR測(cè)試結(jié)果Table 2 PSNR test results of different algorithms on Urban100 and Manga109 datasets單位:dB
表3 不同算法在Urban100和Manga109數(shù)據(jù)集上SSMI測(cè)試結(jié)果Table 3 SSMI test results of different algorithms on Urban100 and Manga109 datasets
從表中可以看出文中方法與其他方法相比具有更高的PSNR和SSMI,其中客觀結(jié)果表明SRCNN算法作為最初應(yīng)用于深度學(xué)習(xí)領(lǐng)域的超分辨率算法,其理論是開(kāi)創(chuàng)性的,但是重建效果不夠理想,隨后出現(xiàn)的深度學(xué)習(xí)超分辨率重建的在網(wǎng)絡(luò)深度和寬度上都有一定程度的提升,VDSR、CARN和EDSR通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化和對(duì)網(wǎng)絡(luò)層數(shù)的加深,使得它們?cè)诳陀^評(píng)價(jià)指標(biāo)上均有一定的提高,SRGAN 通過(guò)使用生成對(duì)抗網(wǎng)絡(luò)完成重建使性能得到一定提升,同時(shí)也為超分辨重建開(kāi)辟了一種新的思路。
相較于前幾種方法,文中算法在Urban100 和Manga109數(shù)據(jù)集上,PSNR和SSMI兩種客觀評(píng)價(jià)指標(biāo)中都取得了不錯(cuò)的結(jié)果。本文也將單一的跨尺度網(wǎng)絡(luò)與跨尺度多分支網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了比較,從結(jié)果中可以看出多分支結(jié)構(gòu)與其單分支結(jié)構(gòu)在峰值信噪比和結(jié)構(gòu)相似度上略有差距,但是其差距并不明顯,這兩種數(shù)據(jù)集包含了豐富的重復(fù)塊,例如一些邊、小角,證明跨尺度非局部模塊可以利用圖像的內(nèi)部信息提升重建效果,從而表明關(guān)注內(nèi)部資源輔助重建是有效的。
傳統(tǒng)的重建方法旨在通過(guò)更深的網(wǎng)絡(luò)結(jié)構(gòu)、更寬的網(wǎng)絡(luò)寬度來(lái)得到更好的視覺(jué)效果,這種考慮方式不夠全面,良好的視覺(jué)效果往往承受著巨大的計(jì)算代價(jià)。因此在考慮圖像峰值信噪比和結(jié)構(gòu)相似度的提升時(shí),還應(yīng)當(dāng)將計(jì)算開(kāi)銷作為重要的關(guān)注點(diǎn),這樣可以更全面的衡量模型的重建性能。本文用Urban100 和Manga109 測(cè)試集中圖像重建的浮點(diǎn)計(jì)算數(shù)、實(shí)時(shí)性和模型參數(shù)量3個(gè)方面衡量模型的性能,如表4所示。從表中可以看出本文方法CSSR在EDSR的ResBlock中構(gòu)建了CS Block,因此CSSR網(wǎng)絡(luò)相較于EDSR網(wǎng)絡(luò)在參數(shù)上增加了0.6×106,實(shí)時(shí)性略微降低,重建時(shí)間增加了0.12 s。然而多分支結(jié)構(gòu)的M-CSSR 網(wǎng)絡(luò)重建圖像的實(shí)時(shí)性大幅度提升,單幅圖像重建時(shí)間比CSSR 減少了0.28 s,比EDSR減少了0.16 s??傮w來(lái)說(shuō),本文方法從參數(shù)、浮點(diǎn)計(jì)算數(shù)和實(shí)時(shí)性方面整體優(yōu)于EDSR方法。同時(shí)可以看出,子圖像劃分的數(shù)量對(duì)計(jì)算開(kāi)銷也有一定的影響,Manga109測(cè)試集中存在的平滑區(qū)域比Urban100 測(cè)試集相對(duì)多,因此在劃分子圖像時(shí)Manga109測(cè)試集被劃分到簡(jiǎn)單類別的子圖像更多,重建時(shí)僅需要原來(lái)浮點(diǎn)計(jì)算數(shù)的53%,而Urban100測(cè)試集浮點(diǎn)計(jì)算數(shù)只減少為原來(lái)的56%。
表4 不同模型性能對(duì)比結(jié)果Table 4 Performance comparison results of different models
3.3.2 主觀評(píng)價(jià)
為了更好地體現(xiàn)不同峰值信噪比和結(jié)構(gòu)相似度在圖像中呈現(xiàn)出來(lái)的差距,本文從實(shí)驗(yàn)結(jié)果中選取3張高清圖像,通過(guò)對(duì)于圖像中的局部區(qū)域進(jìn)行放大,對(duì)比不同方法在這三張圖像的重建效果。高頻信息是圖像中顏色變化快的區(qū)域,例如圖10 中建筑物的窗戶與墻面之間的邊緣部分??梢詮膱D中看出Bicubic重建出的圖像相對(duì)模糊,重建效果與HR圖像差距較大,對(duì)于低頻信息與高頻信息的捕獲能力均不夠理想。雖然CARN 方法相較于Bicubic 方法有所改進(jìn),但是其整體重建效果仍然模糊。隨后提出的EDSR 方法挖掘低頻信息能力方面有所改進(jìn),從圖中可以看出對(duì)于整體墻面的重建效果相對(duì)理想,但是圖像中沒(méi)有很好地利用內(nèi)部信息對(duì)細(xì)小的結(jié)構(gòu)進(jìn)行輔助重建,仍然無(wú)法挖掘到顏色變化快的高頻區(qū)域,如圖中窗戶與墻面之間的窗臺(tái)區(qū)域,導(dǎo)致圖像看上不夠自然。因此,本文方法中的CS block 利用圖像中內(nèi)部資源的跨尺度相關(guān)性,主要針對(duì)前幾種經(jīng)典方法中挖掘高頻信息不足,紋理細(xì)節(jié)區(qū)域重建效果不理想等問(wèn)題進(jìn)行改善,同時(shí)使圖像變得更加自然和真實(shí),可以看出本文方法在圖像中墻面與窗戶等相關(guān)邊界區(qū)域呈現(xiàn)出更多的信息??傮w來(lái)看,本文方法從視覺(jué)效果上比以往方法更具有優(yōu)勢(shì)。
圖10 不同模型重建結(jié)果Fig.10 Reconstruction results of different models
同時(shí),本文針對(duì)以上3幅圖像采用主觀打分的方式進(jìn)行評(píng)價(jià),將以上3幅圖像中對(duì)應(yīng)的放大區(qū)域進(jìn)行隨機(jī)排列且不被告知圖像模型名稱,讓參與者僅憑借其主觀感受,對(duì)不同模型從1 至10 分中進(jìn)行打分,最終計(jì)算出50位參與者在不同模型上的平均得分來(lái)進(jìn)行比較,如表5所示。
本文主要針對(duì)當(dāng)前超分辨率模型紋理結(jié)構(gòu)不清晰、細(xì)節(jié)信息不明顯和網(wǎng)絡(luò)過(guò)深導(dǎo)致重建計(jì)算成本過(guò)高的問(wèn)題進(jìn)行研究,提出了一種跨尺度多分支網(wǎng)絡(luò)的單幀圖像超分辨率重建方法。該模型依據(jù)不同區(qū)域圖像重建難度不同,通過(guò)多分支網(wǎng)絡(luò)的方式解決深度模型重建圖像時(shí)計(jì)算成本過(guò)高的問(wèn)題。此外在殘差結(jié)構(gòu)內(nèi)部通過(guò)跨尺度模塊,利用圖像內(nèi)部信息輔助重建圖像中大量的細(xì)節(jié)區(qū)域,能使圖像看起來(lái)更加真實(shí)自然、紋理細(xì)節(jié)更加清晰。
為了體現(xiàn)本文的超分辨率模型相比于以往超分辨率模型的優(yōu)勢(shì),采用客觀評(píng)價(jià)與主觀評(píng)價(jià)相結(jié)合的方式對(duì)不同模型進(jìn)行比較,在兩個(gè)公開(kāi)數(shù)據(jù)集上對(duì)它們之間峰值信噪比和結(jié)構(gòu)相似度進(jìn)行比較,同時(shí)采用主觀評(píng)分的方式對(duì)模型重建圖像的視覺(jué)效果進(jìn)行評(píng)價(jià)。為了體現(xiàn)多分支結(jié)構(gòu)可以降低模型的計(jì)算成本,本文采用浮點(diǎn)計(jì)算數(shù)對(duì)模型的復(fù)雜程度進(jìn)行了比較,最終對(duì)比表明本文模型不僅能夠有效恢復(fù)超分辨率圖像的紋理細(xì)節(jié)部分,使圖像重建后更加真實(shí)自然,具有更好的復(fù)原效果,而且模型計(jì)算復(fù)雜度相比于經(jīng)典方法有所減少。
計(jì)算機(jī)工程與應(yīng)用2022年19期