王新歡,任 超,何小海,王正勇,李興龍
(四川大學(xué) 電子信息學(xué)院,四川 成都 610065)
圖像作為主要的信息載體之一,因其具有直觀生動(dòng)的特征,在人類的生產(chǎn)和生活中有著極為重要的地位?,F(xiàn)階段,隨著圖像信息量呈爆炸式增長(zhǎng),通常都會(huì)對(duì)圖像進(jìn)行一定倍數(shù)的壓縮以節(jié)省存儲(chǔ)空間和帶寬資源。JPEG壓縮由于其壓縮率高、快速有效等優(yōu)點(diǎn),已成為目前最常用的圖像壓縮方法之一。JPEG壓縮是對(duì)圖像進(jìn)行分塊后,量化其DCT系數(shù),從而減少圖像高頻分量,降低圖像數(shù)據(jù)量。然而,這種操作會(huì)使壓縮后的圖像存在壓縮偽影,即塊效應(yīng)。同時(shí),隨著壓縮率的提高,圖像的失真也越來(lái)越嚴(yán)重,造成圖像的高頻細(xì)節(jié)信息過(guò)度丟失,影響圖像在社會(huì)生活中的應(yīng)用。壓縮圖像的去壓縮效應(yīng)算法作為一種獨(dú)立于編解碼器的后處理算法,具有成本低、實(shí)用性強(qiáng)的特點(diǎn),可以高效地消除壓縮圖像中的偽影、塊效應(yīng)等,從而提升壓縮圖像的質(zhì)量。
壓縮圖像的去壓縮效應(yīng)算法一般包括基于重建的算法和基于學(xué)習(xí)的算法。基于重建的方法通常利用壓縮圖像的自身先驗(yàn)信息,在建立的模型中加入正則項(xiàng)來(lái)去除壓縮噪聲。例如,YANG Y等人[1-2]提出了使用傳統(tǒng)的凸集投影算法(Projection Onto Convex Sets,POCS)去解決壓縮圖像的去壓縮效應(yīng)算法。ZHANG X等人[3-4]提出利用圖像的自相似性模型先驗(yàn),估計(jì)非局部圖像塊中重疊塊的變換系數(shù)以減少壓縮圖像中的壓縮偽影。這種在變換域?qū)D像進(jìn)行處理的算法首先將圖像轉(zhuǎn)換到變換域中,進(jìn)行相應(yīng)處理后進(jìn)行逆變換,得到最終的結(jié)果圖像。基于學(xué)習(xí)的算法依賴于大量圖像訓(xùn)練集建立字典,通過(guò)學(xué)習(xí)原始圖像與壓縮圖像間的映射關(guān)系,恢復(fù)壓縮圖像中丟失的細(xì)節(jié)信息。文獻(xiàn)[5]和文獻(xiàn)[6]提出使用稀疏表示算法來(lái)實(shí)現(xiàn)壓縮圖像中壓縮效應(yīng)的去除。針對(duì)JPEG壓縮圖像,為了從壓縮失真的本質(zhì)出發(fā),LIU X等人[7]提出了一種在DCT域和像素域聯(lián)合進(jìn)行稀疏編碼的方法,以同時(shí)利用JPEG碼流的冗余信息和圖像的稀疏性。近段時(shí)間,還有一些研究工作[8-9]致力于提升壓縮圖像的感知質(zhì)量,使得生成的圖像主觀視覺(jué)效果更逼真,但是基于生成對(duì)抗網(wǎng)絡(luò)的去壓縮效應(yīng)算法會(huì)使得處理后的圖像中存在偽細(xì)節(jié),使得其難以應(yīng)用于某些對(duì)圖像真實(shí)性需求較高的場(chǎng)景。
為了提高壓縮圖像的視覺(jué)效果,本文針對(duì)JPEG壓縮圖像,提出一種基于雙域?qū)W習(xí)的JPEG壓縮圖像去壓縮效應(yīng)算法。該算法利用卷積神經(jīng)網(wǎng)絡(luò),分別在DCT域和像素域?qū)W習(xí)圖像細(xì)節(jié)特征,并將學(xué)習(xí)結(jié)果進(jìn)行有效融合,以去除JPEG壓縮圖像中的壓縮噪聲,使圖像獲得更好的主客觀效果;在構(gòu)建的網(wǎng)絡(luò)中以寬激活殘差塊作為基本結(jié)構(gòu)單元,在不增加網(wǎng)絡(luò)參數(shù)量的同時(shí)有效提升網(wǎng)絡(luò)性能。
本文的網(wǎng)絡(luò)能在參數(shù)量和網(wǎng)絡(luò)復(fù)雜度不變的情況下,獲取更好的去壓縮效應(yīng)效果,具有較好的理論研究意義和實(shí)際應(yīng)用前景。
本文提出的基于雙域?qū)W習(xí)的JPEG壓縮圖像去壓縮效應(yīng)算法網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該框架以寬激活殘差塊為基本結(jié)構(gòu)單元,利用卷積神經(jīng)網(wǎng)絡(luò)提升壓縮圖像的質(zhì)量。該網(wǎng)絡(luò)框架主要由像素域分支、DCT域分支和加權(quán)平均融合三部分組成。DCT域分支通過(guò)在DCT域預(yù)測(cè)圖像未壓縮前的DCT系數(shù)來(lái)減少量化噪聲,恢復(fù)圖像高頻信息;像素域分支通過(guò)利用圖像在像素域中結(jié)構(gòu)信息間的相關(guān)性,實(shí)現(xiàn)壓縮效應(yīng)的去除;加權(quán)平均部分通過(guò)對(duì)雙域的預(yù)測(cè)結(jié)果進(jìn)行有效融合,實(shí)現(xiàn)更好的去壓縮效應(yīng)效果,同時(shí)輸出最后的去壓縮結(jié)果圖像。
圖1 基于雙域?qū)W習(xí)的去壓縮效應(yīng)算法網(wǎng)絡(luò)結(jié)構(gòu)示意圖
本文提出的聯(lián)合DCT域和像素域的去壓縮效應(yīng)算法一方面充分利用壓縮圖像像素間剩余的冗余信息,在像素域中學(xué)習(xí)壓縮圖像和原始未壓縮圖像間的映射關(guān)系,另一方面從JPEG壓縮圖像產(chǎn)生失真的本質(zhì)出發(fā),設(shè)計(jì)DCT域深度學(xué)習(xí)網(wǎng)絡(luò),從而有效地去除壓縮圖像塊效應(yīng)。網(wǎng)絡(luò)中使用寬激活殘差塊作為基本單元,能在有效提升網(wǎng)絡(luò)預(yù)測(cè)性能的同時(shí),不引入更多的網(wǎng)絡(luò)參數(shù)和計(jì)算量。因此經(jīng)過(guò)本文框架重建的JPEG壓縮圖像有更好的信息連貫性,并且能得到更豐富的圖像細(xì)節(jié)信息。
在文獻(xiàn)[10]中,提出了一種深度殘差網(wǎng)絡(luò)(Residual Network,ResNet)結(jié)構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)中的殘差塊如圖2 (a)所示。LIM B等人[11]提出了增強(qiáng)殘差網(wǎng)絡(luò)結(jié)構(gòu)EDSR,其結(jié)構(gòu)如圖2(b)所示,該結(jié)構(gòu)去除了ResNet網(wǎng)絡(luò)中的批歸一化層,即BN層,且只使用了一次ReLU激活函數(shù),增大了網(wǎng)絡(luò)的靈活性,能夠有效地實(shí)現(xiàn)圖像超分辨率重建任務(wù)。此時(shí)網(wǎng)絡(luò)的映射關(guān)系可表示為:
H(Il)=F(Il)+Il
(1)
其中,Il表示第l層網(wǎng)絡(luò)的輸入,H(Il)表示第l層網(wǎng)絡(luò)的映射輸出,F(xiàn)(Il)表示殘差結(jié)構(gòu)的內(nèi)部輸出。
因此,殘差塊對(duì)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果為:
Il+1=F(Il,{Wl})+Il
(2)
式中,Il和Il+1分別表示第l層殘差結(jié)構(gòu)的輸入和輸出,F(xiàn)表示待學(xué)習(xí)的殘差映射關(guān)系,Wl表示網(wǎng)絡(luò)權(quán)重參數(shù)。
圖2 不同類型殘差塊結(jié)構(gòu)對(duì)比
因此,本文采用寬激活殘差塊作為網(wǎng)絡(luò)的基本結(jié)構(gòu)單元,分別構(gòu)建DCT域和像素域的寬激活殘差網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,在參數(shù)量和網(wǎng)絡(luò)復(fù)雜度一定的情況下,這種寬激活殘差網(wǎng)絡(luò)能夠?qū)崿F(xiàn)更好的去壓縮效應(yīng)效果,有效提升JPEG壓縮圖像的質(zhì)量。
JPEG壓縮方法作為一種快速有效的圖像壓縮方法,其主要原理為對(duì)編碼圖像進(jìn)行非重疊分塊,隨后對(duì)每個(gè)圖像塊進(jìn)行獨(dú)立的DCT變換,并將其DCT系數(shù)按照量化表加以量化。在此過(guò)程中,圖像的高頻信息丟失,并且由于分塊量化,壓縮后的圖像存在塊效應(yīng)。鑒于此,本文從JPEG壓縮失真的本質(zhì)出發(fā),將圖像變換到DCT域,學(xué)習(xí)原始未壓縮DCT系數(shù)與壓縮后DCT系數(shù)的映射關(guān)系,從而恢復(fù)壓縮過(guò)程中丟失的信息。然而,由于量化過(guò)程的不可逆性,僅從DCT域?qū)W習(xí)不能完全恢復(fù)圖像細(xì)節(jié),因此,本文搭建像素域?qū)W習(xí)網(wǎng)絡(luò)與DCT域形成互補(bǔ),最后對(duì)二者的學(xué)習(xí)結(jié)果進(jìn)行有效融合。這種基于雙域的學(xué)習(xí)方式,可以在充分利用JPEG壓縮在DCT域中全局信息的同時(shí),充分利用像素域中圖像結(jié)構(gòu)信息間的相關(guān)性。
針對(duì)JPEG壓縮圖像的特點(diǎn),為了學(xué)習(xí)壓縮圖像DCT系數(shù)和原始未壓縮圖像DCT系數(shù)間的非線性映射關(guān)系,本文提出的DCT域分支的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 DCT域分支的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
給定JPEG壓縮圖像,首先對(duì)其進(jìn)行DCT變換,得到圖像的DCT系數(shù);將DCT域信息進(jìn)行特征提取,輸入到搭建的寬激活殘差網(wǎng)絡(luò)中,以學(xué)習(xí)前述的非線性映射關(guān)系;將網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果與輸入的DCT系數(shù)相加構(gòu)成全局殘差,再將結(jié)果做IDCT變換以變換到像素域,得到最終的DCT域去壓縮效應(yīng)結(jié)果圖像。
像素域中的網(wǎng)絡(luò)分支與DCT域分支類似,同樣采用有效的寬激活殘差結(jié)構(gòu)單元,并將其串聯(lián)成一種直連網(wǎng)絡(luò)。與DCT域分支不同的是,DCT域分支網(wǎng)絡(luò)的輸入是圖像的DCT系數(shù),而像素域分支網(wǎng)絡(luò)的輸入是圖像在像素域的像素值。故網(wǎng)絡(luò)前后不再需要DCT變換和IDCT變換,寬激活殘差網(wǎng)絡(luò)的輸出直接與網(wǎng)絡(luò)的輸入相加后,可得到像素域分支的去壓縮效應(yīng)結(jié)果圖像。
由于DCT域和像素域分支是在不同的空間對(duì)圖像信息進(jìn)行預(yù)測(cè),網(wǎng)絡(luò)學(xué)習(xí)結(jié)果具有不同的特性,因此可實(shí)現(xiàn)預(yù)測(cè)信息的互補(bǔ)。通過(guò)對(duì)雙域信息進(jìn)行有效融合,可以使網(wǎng)絡(luò)的去壓縮效應(yīng)結(jié)果有較大的提升。在本文中,采用簡(jiǎn)單有效的加權(quán)平均方式將DCT域和像素域的輸出進(jìn)行結(jié)合,該過(guò)程可以表示為:
(3)
(4)
其中,N表示一次前向預(yù)測(cè)時(shí)輸入的訓(xùn)練樣本對(duì)個(gè)數(shù),在網(wǎng)絡(luò)訓(xùn)練時(shí)代表批尺寸(Batch Size)的大??;ΘAR表示去壓縮效應(yīng)網(wǎng)絡(luò)中的可訓(xùn)練參數(shù);fAR(·)為去壓縮效應(yīng)網(wǎng)絡(luò)的映射函數(shù);lAR(·)為去壓縮效應(yīng)過(guò)程中的損失函數(shù)。
在本文搭建的網(wǎng)絡(luò)中,卷積層中濾波器的尺寸均設(shè)置為3×3。在寬激活殘差塊中,設(shè)置其主干道通道數(shù)為32,激活函數(shù)前的通道數(shù)為128,即參數(shù)c和r分別設(shè)置為32和4。且在DCT域和像素域分支中,寬激活殘差塊的數(shù)目均為18,以達(dá)到網(wǎng)絡(luò)性能和網(wǎng)絡(luò)復(fù)雜度的平衡。在雙域融合部分,由大量實(shí)驗(yàn)統(tǒng)計(jì)得出,當(dāng)λ=0.489時(shí),DCT域的預(yù)測(cè)結(jié)果和像素域的預(yù)測(cè)結(jié)果能夠獲得最優(yōu)的融合性能。
本文中使用pytorch[14]深度學(xué)習(xí)框架與GTX1080Ti顯卡來(lái)搭建和訓(xùn)練提出的去壓縮效應(yīng)網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練的Batch Size設(shè)置為64。在訓(xùn)練過(guò)程中使用ADAM優(yōu)化算子來(lái)優(yōu)化提出的去壓縮效應(yīng)算法網(wǎng)絡(luò),其中參數(shù)β1、β2和ε分別設(shè)置為0.9,0.999和10-8。初始的學(xué)習(xí)率設(shè)置為0.000 1,并且每10個(gè)epoch學(xué)習(xí)率降低1倍。
在數(shù)字圖像處理領(lǐng)域中,常用到的客觀評(píng)價(jià)標(biāo)準(zhǔn)為峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似性索引測(cè)度(Structure Similarity Index,SSIM)。因此,為了充分驗(yàn)證去壓縮效應(yīng)算法的有效性,本文將同時(shí)采用這兩個(gè)客觀評(píng)價(jià)標(biāo)準(zhǔn)。選取去壓縮領(lǐng)域常用的數(shù)據(jù)集Classic5和LIVE1作為測(cè)試集,并分別測(cè)試QF為20、30和40三種壓縮質(zhì)量下的實(shí)驗(yàn)效果。對(duì)于LIVE1數(shù)據(jù)集中的彩色圖像,先將其轉(zhuǎn)換至YCbCr空間后再提取亮度通道Y進(jìn)行實(shí)驗(yàn)測(cè)試。
本文的對(duì)比算法為CONCOLOR[15]、SSRQC[16]、ARCNN[17]、DnCNN-3[18]、D2SD[19],將JPEG壓縮圖像作為對(duì)比基準(zhǔn)。其中,CONCOLOR、D2SD和SSRQC是基于非深度學(xué)習(xí)的傳統(tǒng)方法,ARCNN和DnCNN-3和本文一樣采用深度學(xué)習(xí)的方法。下文主要從各個(gè)算法結(jié)果圖像的主客觀效果來(lái)驗(yàn)證本文算法的有效性。表1中給出了不同去壓縮效應(yīng)算法在Classic5和LIVE1上的PSNR和SSIM客觀參數(shù)值。從表中可以看出,在Classic5數(shù)據(jù)集上,在QF=20時(shí),提出的算法比對(duì)比算法中效果最好的DnCNN-3的PSNR值高出0.37 dB,SSIM值高出0.005 4;在LIVE1數(shù)據(jù)集上,在QF=40時(shí),提出的算法比對(duì)比算法中效果最好的DnCNN-3的PSNR值高出0.34 dB,SSIM值高出0.003 3。說(shuō)明無(wú)論壓縮程度高低,提出的算法都能有效去除圖像中的壓縮效應(yīng),獲得較好的重建結(jié)果。
在圖像復(fù)原領(lǐng)域,除了算法結(jié)果的客觀參數(shù)外,結(jié)果圖像的主觀視覺(jué)質(zhì)量是另一至關(guān)重要的評(píng)價(jià)指標(biāo)。圖4~圖6分別給出了圖像Barbara、Lighthouse3和Peppers在QF=20的壓縮情況下,各個(gè)對(duì)比算法對(duì)其處理后的主觀視覺(jué)效果。從對(duì)比圖可以看出,JPEG壓縮后的圖像存在嚴(yán)重的壓縮噪聲,圖像視覺(jué)效果較差;DnCNN-3得到的重建圖像質(zhì)量有一定的提升,但是邊緣部分不太清晰,對(duì)于壓縮受損嚴(yán)重的細(xì)節(jié)部分也修復(fù)得不夠完整;本文算法重建的圖像邊緣輪廓更加清晰,且能相對(duì)完整地恢復(fù)出圖像的細(xì)節(jié)信息,與對(duì)比算法相比獲得了更好的視覺(jué)效果。
表1 不同去壓縮效應(yīng)算法結(jié)果的PSNR(dB)/SSIM值比較
圖4 圖像Barbara在QF=20的主觀視覺(jué)效果對(duì)比
圖5 圖像Lighthouse3在QF=20的主觀視覺(jué)效果對(duì)比
圖6 圖像Peppers在QF=20的主觀視覺(jué)效果對(duì)比
本文針對(duì)JPEG壓縮圖像,從其失真本質(zhì)出發(fā),提出了一種聯(lián)合DCT域和像素域的雙域?qū)W習(xí)去壓縮效應(yīng)算法。所提出的算法一方面可以在DCT域預(yù)測(cè)壓縮圖像未壓縮前的DCT系數(shù)以恢復(fù)高頻信息,去除塊效應(yīng),另一方面可以在像素域利用圖像的局部結(jié)構(gòu)信息,實(shí)現(xiàn)壓縮效應(yīng)的有效去除。通過(guò)雙域有效融合,極大限度地去除了JPEG圖像中的壓縮偽影,保留更多圖像細(xì)節(jié)信息。網(wǎng)絡(luò)中采用寬激活殘差塊作為基本結(jié)構(gòu)單元,可以在不提高網(wǎng)絡(luò)復(fù)雜度的同時(shí),實(shí)現(xiàn)網(wǎng)絡(luò)性能的有效提升。實(shí)驗(yàn)表明,本文提出的去壓縮效應(yīng)算法能有效地去除壓縮圖像中的壓縮效應(yīng),對(duì)于不同壓縮質(zhì)量因子壓縮的圖像,均能取得良好的實(shí)驗(yàn)效果,在客觀參數(shù)和主觀視覺(jué)效果上均獲得了較好的結(jié)果。