摘 要: 針對(duì)當(dāng)前逆半色調(diào)方法恢復(fù)的圖像存在細(xì)節(jié)不清晰甚至丟失的問(wèn)題,提出了一種基于注意力編解碼器及多殘差網(wǎng)絡(luò)(Encoder-decoder with attention and multi-residual network, EDAMRNet)的逆半色調(diào)方法。首先,設(shè)計(jì)融合注意力機(jī)制的編解碼器結(jié)構(gòu),在其跳躍連接處添加非對(duì)稱(chēng)特征融合模塊,以有效提取圖像上下文信息;然后,構(gòu)造多殘差網(wǎng)絡(luò),捕獲并保留圖像空間細(xì)節(jié)信息;最后,應(yīng)用監(jiān)督注意力模塊對(duì)圖像上下文信息進(jìn)行加強(qiáng),再傳遞到多殘差網(wǎng)絡(luò),以恢復(fù)出高質(zhì)量的連續(xù)色調(diào)圖像。實(shí)驗(yàn)結(jié)果表明:該方法與現(xiàn)有最優(yōu)方法相比,在Urban100和Manga109數(shù)據(jù)集下的峰值信噪比平均值均提高了0.1 dB,結(jié)構(gòu)相似性平均值分別提高了0.0010和0.0005。該方法能夠在提取圖像上下文信息的同時(shí)保留圖像空間細(xì)節(jié)信息,可更好地恢復(fù)圖像紋理信息,提高圖像清晰度,為圖像逆半色調(diào)方法研究提供了一種新的方案。
關(guān)鍵詞: 逆半色調(diào);圖像恢復(fù);注意力機(jī)制;編解碼器;多殘差網(wǎng)絡(luò);清晰度
中圖分類(lèi)號(hào): TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1673-3851 (2024) 05-0369-09
引文格式:鄔凡,楊俊,桂江生. 基于注意力編解碼器及多殘差網(wǎng)絡(luò)的逆半色調(diào)方法[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)),2024,51(3):369-377.
Reference Format: WU Fan, YANG Jun, GUI Jiangsheng. An inverse halftoning method based on encoder-decoder with attention and multi-residual network[J]. Journal of Zhejiang Sci-Tech University,2024,51(3):369-377.
An inverse halftoning method based on encoder-decoder with attention and multi-residual network
WU Fan1,2, YANG Jun2, GUI Jiangsheng1
(1.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China; 2.College of Information Science and Engineering, Jiaxing University, Jiaxing 314001, China)
Abstract:" An inverse halftoning method based on encoder-decoder with attention and multi-residual network (EDAMRNet) was proposed to address the issue of unclear or even lost details in image restoration using current reverse halftone methods. Firstly, the encoder-decoder structure with attention was designed, and the asymmetric feature fusion modules were added at its skip connections to effectively capture image context information. Then, the multi-residual network was constructed to capture and retain spatial details of the image. Finally, the supervised attention module was applied to enhance the image context information, which was then transmitted to multi-residual network to restore high-quality continuous-tone images. The experimental results showed that compared to the existing optimal method, the proposed method improved the average peak signal-to-noise ratio by 0.1 dB and the average structural similarity by 0.0010 and 0.0005, respectively on the Urban100 and Manga109 datasets. The method can extract image context information while preserving spatial details, better restoring image texture information and improving image clarity. It provides a new scheme for the study of image inverse halftoning.
Key words: inverse halftoning; image restoration; attention mechanism; encoder-decoder; multi-residual network; clarity
0 引 言
半色調(diào)方法是將連續(xù)色調(diào)圖像轉(zhuǎn)換為二值圖像,使得轉(zhuǎn)換后的圖像在一定距離的視覺(jué)效果與連續(xù)色調(diào)圖像相似;有序抖動(dòng)和誤差擴(kuò)散是兩種有效的半色調(diào)方法[1]。由于半色調(diào)圖像所需存儲(chǔ)空間小,傳輸速度較快,被廣泛應(yīng)用于印刷和打印等領(lǐng)域。經(jīng)半色調(diào)方法生成的圖像丟失了色調(diào)和細(xì)節(jié)等信息,導(dǎo)致圖像質(zhì)量降低,若直接對(duì)半色調(diào)圖像進(jìn)行縮放、旋轉(zhuǎn)和識(shí)別等處理,會(huì)產(chǎn)生圖像失真、識(shí)別精度低等問(wèn)題。逆半色調(diào)方法是半色調(diào)方法的逆過(guò)程,即將二值圖像轉(zhuǎn)換為連續(xù)色調(diào)圖像。然而,通過(guò)部分已有信息恢復(fù)全部未知信息,是一個(gè)不適定問(wèn)題。因此,在逆半色調(diào)處理過(guò)程中,如何恢復(fù)出高質(zhì)量的連續(xù)色調(diào)圖像是一個(gè)具有挑戰(zhàn)性的任務(wù)。
傳統(tǒng)的逆半色調(diào)方法包括濾波法[2]和查找表法[3]兩類(lèi)。Xiong等[4]提出了一種基于小波的逆半色調(diào)方法,該方法利用小波變換的多分辨率特性,分離出半色調(diào)圖像的高頻信息與低頻信息,然后在圖像的高頻信號(hào)中實(shí)現(xiàn)去噪功能,低頻信號(hào)中完成保留邊緣信息處理,最后通過(guò)小波逆變換使圖像從頻域轉(zhuǎn)換到空間域,恢復(fù)出連續(xù)色調(diào)圖像;該方法雖然比簡(jiǎn)單的濾波方法能有效提高恢復(fù)圖像質(zhì)量,但其計(jì)算速度慢,所需計(jì)算資源高。Mese等[5]提出了一種基于查找表的逆半色調(diào)方法,首先建立半色調(diào)圖像值與連續(xù)色調(diào)圖像值之間的查找表,然后通過(guò)查表的方法恢復(fù)出連續(xù)色調(diào)圖像;這種方法能快速地恢復(fù)連續(xù)色調(diào)圖像,然而恢復(fù)的圖像在平緩區(qū)域存在噪聲。
近年來(lái),隨著人工智能技術(shù)在不同領(lǐng)域廣泛應(yīng)用,深度學(xué)習(xí)方法在超分辨率、圖像恢復(fù)等領(lǐng)域已經(jīng)取得了非凡的成績(jī),為克服傳統(tǒng)逆半色調(diào)方法存在的缺陷提供了新的思路。Hou等[6]提出了一種基于U-Net的逆半色調(diào)方法,該方法的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練時(shí)間短,但恢復(fù)的連續(xù)色調(diào)圖像細(xì)節(jié)不清晰。Xiao等[7]提出了一種梯度引導(dǎo)網(wǎng)絡(luò),通過(guò)輸入的半色調(diào)圖像來(lái)預(yù)測(cè)梯度圖,將獲得的梯度圖與半色調(diào)圖像融合,恢復(fù)出連續(xù)色調(diào)圖像。在Xiao等[7]的基礎(chǔ)上,Yuan等[8]提出了一種梯度殘差引導(dǎo)網(wǎng)絡(luò),通過(guò)引入殘差更好地恢復(fù)出連續(xù)色調(diào)圖像細(xì)節(jié)。Xia等[9]提出了一種漸進(jìn)殘差學(xué)習(xí)網(wǎng)絡(luò),首先使用內(nèi)容聚合模塊抑制半色調(diào)噪聲,恢復(fù)初步的連續(xù)色調(diào)圖像,然后使用細(xì)節(jié)增強(qiáng)模塊提取圖像的細(xì)節(jié)信息,最后將細(xì)節(jié)信息與連續(xù)色調(diào)圖像融合,恢復(fù)出連續(xù)色調(diào)圖像。Son等[10]提出了一種結(jié)構(gòu)感知深度神經(jīng)網(wǎng)絡(luò),抑制半色調(diào)圖像在平緩區(qū)域的噪聲,恢復(fù)出連續(xù)色調(diào)圖像的紋理細(xì)節(jié)。Shao等[11]提出了一種融合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),使用注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)抑制半色調(diào)噪聲,并通過(guò)多階段損失函數(shù)加速網(wǎng)絡(luò)優(yōu)化,恢復(fù)出連續(xù)色調(diào)圖像。李梅等[12]提出了一種融合注意力機(jī)制的多尺度殘差網(wǎng)絡(luò),從不同尺度抑制半色調(diào)噪聲,提高了連續(xù)色調(diào)圖像在平滑區(qū)域和紋理細(xì)節(jié)上的質(zhì)量。Li等[13]提出了一種漸進(jìn)式多尺度殘差網(wǎng)絡(luò),融合不同階段提取的特征信息,提升了連續(xù)色調(diào)圖像的質(zhì)量。上述逆半色調(diào)方法[6-13]雖取得一定效果,但存在恢復(fù)出的連續(xù)色調(diào)圖像不夠清晰、空間細(xì)節(jié)丟失等問(wèn)題。
為提升恢復(fù)的連續(xù)色調(diào)圖像清晰度,保留更多的空間細(xì)節(jié)信息,本文提出了一種基于注意力編解碼器及多殘差網(wǎng)絡(luò)(Encoder-decoder with attention and multi-residual network, EDAMRNet)的逆半色調(diào)方法??紤]到注意力機(jī)制能夠有選擇地處理圖像特征信息,編解碼器的層次化結(jié)構(gòu)能夠提取圖像上下文信息,本文設(shè)計(jì)了融合注意力機(jī)制的編解碼器,對(duì)連續(xù)色調(diào)圖像的上下文信息進(jìn)行提??;由于殘差網(wǎng)絡(luò)能夠捕獲圖像的空間細(xì)節(jié)信息,本文構(gòu)造了多殘差網(wǎng)絡(luò),提取連續(xù)色調(diào)圖像的空間細(xì)節(jié)信息。在Urban100、Manga109、Set5、Set14和Place365公開(kāi)數(shù)據(jù)集上對(duì)本文提出的方法與其他方法進(jìn)行對(duì)比,以驗(yàn)證該方法的有效性。本文構(gòu)建了EDAMRNet模型,為圖像逆半色調(diào)的網(wǎng)絡(luò)模型研究提供了新的角度和思路,增加該領(lǐng)域研究的多樣性,為學(xué)者進(jìn)一步深入研究逆半色調(diào)網(wǎng)絡(luò)模型提供參考和基礎(chǔ)。
1 方法設(shè)計(jì)
本文提出了一種端到端的基于EDAMRNet的逆半色調(diào)方法,在編碼階段使用殘差塊對(duì)下采樣圖像進(jìn)行特征提取,提取圖像的深層特征;在解碼階段通過(guò)特征注意力模塊(Feature attention module, FAM)[14]調(diào)整圖像特征信息的權(quán)重,提升模型對(duì)有用特征信息的關(guān)注度;在編解碼器的跳躍連接處添加非對(duì)稱(chēng)特征融合模塊(Asymmetric feature fusion module, AFFM)[14],融合不同層級(jí)輸出的特征,使模型提取到豐富的圖像上下文信息。然后,使用多殘差網(wǎng)絡(luò)提取并保留圖像空間細(xì)節(jié)信息。最后,采用監(jiān)督注意力模塊(Supervised attention module, SAM)[15]對(duì)圖像上下文信息進(jìn)行加強(qiáng),再傳遞到多殘差網(wǎng)絡(luò),以端到端的方式恢復(fù)出連續(xù)色調(diào)圖像。
1.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的EDAMRNet結(jié)構(gòu)示意圖如圖1所示。圖像的高、寬和通道數(shù)分別為H、W和C。輸入的半色調(diào)圖像I∈RH×W×1經(jīng)過(guò)卷積層和殘差塊,得到圖像淺層特征Fs∈RH×W×C。淺層特征計(jì)算過(guò)程可由式(1)表示:
Fs=MRBJ3×3I(1)
其中:J3×3表示卷積核為3×3的卷積操作,MRB表示殘差操作。淺層特征輸入到編解碼器,得到圖像上下文信息T∈RH×W×C。圖像上下文信息計(jì)算過(guò)程可由式(2)表示:
T=EED(Fs)(2)
其中:EED表示編解碼操作。圖像上下文信息和半色調(diào)圖像同時(shí)輸入到SAM,得到注意力特征Fout∈RH×W×C。注意力特征計(jì)算過(guò)程可由式(3)表示:
Fout=SSAM(T,I)(3)
其中:SSAM表示應(yīng)用監(jiān)督注意力機(jī)制。注意力特征和淺層特征拼接后,經(jīng)過(guò)殘差塊和卷積層,得到殘差圖像X∈RH×W×1。殘差圖像與半色調(diào)圖像相加,得到恢復(fù)的連續(xù)色調(diào)圖像I~。上述計(jì)算過(guò)程可由式(4)—(5)表示:
X=J3×3(MRB(Pconcat(Fout,F(xiàn)s)))(4)
I~=XI(5)
其中:Pconcat表示特征拼接操作;表示按元素相加。
1.2 融合注意力機(jī)制的編解碼器結(jié)構(gòu)
圖像上下文信息是指圖像中單個(gè)像素與其周?chē)袼刂g相互關(guān)聯(lián)的信息。在逆半色調(diào)處理過(guò)程中,模型通過(guò)學(xué)習(xí)圖像中像素之間的關(guān)系,從而獲得更準(zhǔn)確的語(yǔ)義表達(dá)。編解碼器的層次化結(jié)構(gòu)有利于提取圖像上下文信息;通過(guò)注意力機(jī)制為圖像上下文信息中的元素賦予不同權(quán)重,可使圖像上下文信息被充分利用。因此,本文設(shè)計(jì)了融合注意力機(jī)制的編解碼器。首先,在編碼階段使用像素重組的方式[16]進(jìn)行下采樣,以降低圖像分辨率,擴(kuò)大感受野,接著使用殘差塊對(duì)下采樣圖像進(jìn)行特征提取,獲取圖像的深層特征信息;然后,在解碼階段還原圖像的淺層特征時(shí),使用反卷積增大圖像分辨率,容易產(chǎn)生棋盤(pán)偽影,因此采用像素重組的方式進(jìn)行上采樣,上采樣圖像再經(jīng)過(guò)FAM,使模型關(guān)注有價(jià)值的特征信息;最后,不同于直接連接上下采樣層,本文使用跳躍連接,將編解碼器中相同維度的層級(jí)連接起來(lái),融合圖像的深層特征和淺層特征。為進(jìn)一步提升融合效果,在跳躍連接處添加AFFM,將編碼器中不同層級(jí)提取的特征進(jìn)行融合。融合編碼器融合的特征與解碼器還原的特征,使特征信息在整個(gè)編解碼器中流動(dòng),有助于提取圖像上下文信息。
1.2.1 AFFM
在傳統(tǒng)的編解碼器結(jié)構(gòu)中,特征信息都是自上而下地流動(dòng),信息流動(dòng)性受限。為加強(qiáng)特征信息在各個(gè)層級(jí)之間的流動(dòng)性,在編解碼器的跳躍連接處添加AFFM。AFFM將不同層級(jí)輸出的特征信息進(jìn)行融合,使模型提取豐富的圖像上下文信息。同時(shí),通過(guò)AFFM融合不同層級(jí)輸出的特征,可有效減少圖像信息丟失。AFFM結(jié)構(gòu)示意圖如圖3所示,其中:Boutn表示編碼器第n(n=1,2,3)層殘差塊輸出的特征,Resize表示對(duì)特征進(jìn)行放大或縮小。為確保相同大小的特征進(jìn)行拼接,將編碼器中不同層級(jí)殘差塊輸出的特征分別進(jìn)行放大或縮小。然后進(jìn)行拼接,再經(jīng)過(guò)2個(gè)卷積層,得到融合后的特征Aoutn。上述計(jì)算過(guò)程可由式(6)—(7)表示:
Aout1=J3×3(J1×1(Pconcat(Bout1,Bout2,u,Bout3,u)))(6)
Aout2=J3×3(J1×1(Pconcat(Bout1,d,Bout2,Bout3,u)))(7)
其中:Boutn,u表示編碼器中第n(n=2,3)層殘差塊輸出的放大后的特征;Boutn,d表示編碼器中第n(n=1)層殘差塊輸出的縮小后的特征;J1×1表示卷積核為1×1的卷積操作;Aoutn表示第n(n=1,2)個(gè)AFFM輸出的特征。
1.2.2 FAM
通過(guò)注意力機(jī)制可以增加模型對(duì)圖像有用特征的關(guān)注度。為有效利用圖像恢復(fù)所需的關(guān)鍵特征信息,在上采樣之后添加FAM。FAM為圖像上下文"" 信息中的元素分配不同權(quán)重,使圖像上下文信息被充分利用。FAM結(jié)構(gòu)示意圖如圖4所示。上采樣輸出的特征Fu與AFFM輸出的特征Aoutn進(jìn)行相乘,然后輸入到3×3卷積層,再與Aoutn進(jìn)行相加,得到有效的特征Fm。上述計(jì)算過(guò)程可由式(8)表示:
Fm=J3×3(Aoutn Fu)Aoutn(8)
其中: 表示按元素相乘。
1.3 多殘差網(wǎng)絡(luò)
傳統(tǒng)網(wǎng)絡(luò)直接學(xué)習(xí)輸入圖像和目標(biāo)圖像之間的映射關(guān)系,但在網(wǎng)絡(luò)較深時(shí)存在梯度消失和信息丟失問(wèn)題。殘差網(wǎng)絡(luò)通過(guò)引入跳躍連接,緩解了梯度消失,使模型更容易地捕捉圖像空間細(xì)節(jié)信息。使用跳躍連接還可以直接傳遞梯度,優(yōu)化梯度在網(wǎng)絡(luò)中的傳播,加速網(wǎng)絡(luò)收斂。
本文通過(guò)殘差塊組成的多殘差網(wǎng)絡(luò)處理半色調(diào)圖像,提取并保留圖像空間細(xì)節(jié)信息。多殘差網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示。半色調(diào)圖像I∈RH×W×1經(jīng)過(guò)卷積層和殘差塊,得到淺層特征Fs∈RH×W×C。淺層特征再經(jīng)過(guò)殘差塊和卷積層,得到殘差圖像X∈RH×W×1。為保留豐富的高分辨率圖像特征,上述過(guò)程不對(duì)圖像進(jìn)行上下采樣。最后將殘差圖像和半色調(diào)圖像相加,得到恢復(fù)的連續(xù)色調(diào)圖像I~。上述計(jì)算過(guò)程可由式(9)—(11)表示:
Fs=MRB(J3×3(I))(9)
X=J3×3(MRB(Fs))(10)
I~=XI(11)
1.4 SAM
本文在編解碼器和多殘差網(wǎng)絡(luò)之間添加SAM,SAM引入真實(shí)圖像作為監(jiān)督信號(hào),抑制信息量較少的特征,選擇對(duì)圖像恢復(fù)有用的特征傳遞到多殘差網(wǎng)絡(luò),以更準(zhǔn)確地恢復(fù)出連續(xù)色調(diào)圖像。SAM結(jié)構(gòu)示意圖如圖6所示。首先,特征Fin∈RH×W×C經(jīng)過(guò)1×1卷積層生成的圖像,與半色調(diào)圖像I相加,得到初步的連續(xù)色調(diào)圖像N∈RH×W×1。然后,圖像N經(jīng)過(guò)1×1卷積層,再通過(guò)Sigmoid激活函數(shù)自適應(yīng)分配權(quán)重,得到特征權(quán)重圖Q∈RH×W×C。最后,將特征權(quán)重圖Q和經(jīng)過(guò)1×1卷積層的特征Fin相乘,再與特征Fin相加,得到注意力特征Fout∈RH×W×C。上述計(jì)算過(guò)程可由式(12)—(14)表示:
N=J1×1(Fin)I(12)
Q=σ(J1×1(N))(13)
Fout=(Q J1×1(Fin))Fin(14)
其中:σ表示Sigmoid激活函數(shù)。
1.5 損失函數(shù)
損失函數(shù)是衡量預(yù)測(cè)值與真實(shí)值之間的差異,數(shù)值越小說(shuō)明網(wǎng)絡(luò)模型的性能更優(yōu)。由于L1損失可以防止?jié)撛诘奶荻缺?,因此與均方差損失相比較,L1損失對(duì)異常值更加魯棒。L1損失提供了真實(shí)連續(xù)色調(diào)圖像與恢復(fù)的連續(xù)色調(diào)圖像之間的差異度量,計(jì)算可由式(15)表示:
L1=1K∑Kk=1‖I~-Y‖1(15)
其中:Y表示真實(shí)圖像;k表示訓(xùn)練集中的第幾個(gè)樣本;K表示訓(xùn)練集的樣本總數(shù)。
圖像頻域包含圖像的不同頻率分量,通過(guò)快速傅里葉變換(Fast Fourier transform, FFT)[17]可將圖像從空間域轉(zhuǎn)換為頻域表示,其高頻分量對(duì)應(yīng)圖像的紋理和空間細(xì)節(jié)信息。LFFT損失提供了真實(shí)連續(xù)色調(diào)圖像與恢復(fù)的連續(xù)色調(diào)圖像在頻域上的差異度量,有助于恢復(fù)圖像的高頻分量。LFFT損失計(jì)算可由式(16)表示:
LFFT=1K∑Kk=1‖VFFTI~-VFFTY‖1(16)
其中:VFFT表示將圖像從空間域轉(zhuǎn)換到頻域表示。
為綜合考慮圖像空間域和頻域的信息,本文采用的損失函數(shù)Ltotal,計(jì)算如式(17)所示:
Ltotal=L1+λLFFT(17)
其中:λ為超參數(shù),取值為0.1。
2 結(jié)果與討論
2.1 數(shù)據(jù)集
本文使用在圖像恢復(fù)任務(wù)中被廣泛使用的公開(kāi)數(shù)據(jù)集VOC2012[18]。該數(shù)據(jù)集包括20個(gè)不同類(lèi)別的圖像,隨機(jī)挑選13841張圖像作為訓(xùn)練集,3000張圖像作為驗(yàn)證集。訓(xùn)練前使用誤差擴(kuò)散法生成對(duì)應(yīng)的半色調(diào)圖像,形成訓(xùn)練集和驗(yàn)證集。訓(xùn)練集和驗(yàn)證集被裁剪成大小為128×128像素,通道數(shù)為1,每張圖像通過(guò)隨機(jī)水平或垂直旋轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。本文選擇公開(kāi)數(shù)據(jù)集Urban100、Manga109、Set5、Set14和Place365作為測(cè)試集。
2.2 實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)設(shè)備和配置如下,硬件使用Intel(R) Core(TM) i9-10900X CPU@3.70 GHz處理器和 GeForce RTX 3090Ti顯卡,實(shí)驗(yàn)環(huán)境使用64位Ubuntu系統(tǒng)、Python 3.8.0、PyTorch 1.11.0和CUDA 11.3。在實(shí)驗(yàn)中,EDAMRNet中編解碼器和多殘差網(wǎng)絡(luò)中殘差塊的個(gè)數(shù)分別設(shè)為4和8,提取淺層特征時(shí)殘差塊的個(gè)數(shù)設(shè)為8。訓(xùn)練過(guò)程中采用AdamW優(yōu)化器,批量大小設(shè)置為16,訓(xùn)練輪數(shù)約460輪,初始學(xué)習(xí)率為2×10-4,使用余弦退火策略?xún)?yōu)化學(xué)習(xí)率。
2.3 實(shí)驗(yàn)結(jié)果和對(duì)比分析
為驗(yàn)證本文方法的有效性,選擇逆半色調(diào)方法PRL[9]、MSPRL[13]和其他基于卷積神經(jīng)網(wǎng)絡(luò)的圖像恢復(fù)方法[14-15,19-20]進(jìn)行比較。在這些圖像恢復(fù)方法中,Lim等[19]提出了增強(qiáng)深度超分辨率網(wǎng)絡(luò)(EDSR),通過(guò)移除批量歸一化提升了網(wǎng)絡(luò)性能;Cho等[14]提出了單圖像去模糊網(wǎng)絡(luò)(MIMOUNet),采用由粗到細(xì)的策略,具有多輸入多輸出的U-Net結(jié)構(gòu),可快速和高效地實(shí)現(xiàn)圖像去模糊;Zamir等[15]提出了多階段漸進(jìn)式圖像恢復(fù)網(wǎng)絡(luò)(MPRNet),通過(guò)逐步恢復(fù)每階段退化的圖像,提升了圖像恢復(fù)效果;Chen等[20]提出了非線性無(wú)激活網(wǎng)絡(luò)(NAFNet),網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且計(jì)算量低,實(shí)現(xiàn)了圖像去噪和圖像去模糊。這些方法可擴(kuò)展用于逆半色調(diào)任務(wù)。為準(zhǔn)確評(píng)價(jià)實(shí)驗(yàn)結(jié)果,以上方法與本文方法使用相同數(shù)據(jù)集進(jìn)行訓(xùn)練,本文從客觀評(píng)價(jià)、主觀評(píng)價(jià)和訓(xùn)練性能對(duì)恢復(fù)的連續(xù)色調(diào)圖像質(zhì)量進(jìn)行評(píng)估。
2.3.1 客觀評(píng)價(jià)
本文采用峰值信噪比(Peak signal-to-noise ratio, PSNR)和結(jié)構(gòu)相似性(Structural similarity, SSIM)為量化指標(biāo),對(duì)不同的逆半色調(diào)方法進(jìn)行客觀評(píng)估。PSNR可以量化恢復(fù)的連續(xù)色調(diào)圖像與真實(shí)連續(xù)色調(diào)圖像之間的差異程度,其值越高,表明圖像失真越少,質(zhì)量越高。SSIM可以評(píng)估恢復(fù)的連續(xù)色調(diào)圖像與真實(shí)連續(xù)色調(diào)圖像之間的結(jié)構(gòu)相似程度,考慮了圖像對(duì)比度和結(jié)構(gòu)等因素,其值越高,表明兩幅圖像越相似。本文方法與其他方法在5個(gè)基準(zhǔn)數(shù)據(jù)集上的PSNR和SSIM平均值見(jiàn)表1,從表中可以看出:本文方法相比目前最優(yōu)的逆半色調(diào)方法MSPRL[13],PSNR平均值提高0.02~0.10 dB,SSIM平均值提高0.0001~0.0010;本文方法與最優(yōu)的圖像恢復(fù)方法MPRNet[15]相比,PSNR平均值提高0.03~0.48 dB,SSIM平均值提高0.0006~0.0008。與其他方法相比,本文方法恢復(fù)的連續(xù)色調(diào)圖像與真實(shí)連續(xù)色調(diào)圖像之間差異最小,并且結(jié)構(gòu)上更加相似。
2.3.2 主觀評(píng)價(jià)
通過(guò)本文方法與其他方法恢復(fù)的連續(xù)色調(diào)圖像相比較,對(duì)圖像恢復(fù)效果進(jìn)行主觀視覺(jué)評(píng)價(jià)。本文方法與其他方法恢復(fù)的連續(xù)色調(diào)圖像Urban026(Urban100數(shù)據(jù)集)和ARMS(Manga109數(shù)據(jù)集)見(jiàn)圖7和圖8。圖像中的小矩形框表示圖像的局部區(qū)域,大矩形框表示放大后的局部區(qū)域。從圖7前兩行可以看出:在Urban026圖像中,EDSR[19]、PRL[9]、NAFNet[20]和MIMOUNet[14]方法恢復(fù)的圖像整體上不清晰,紋理和細(xì)節(jié)較模糊;MSPRL[13]方法能夠恢復(fù)圖像的部分紋理信息,本文方法能夠恢復(fù)圖像的整體紋理信息,去除半色調(diào)噪聲更徹底。從圖8前兩行可以看出:在ARMS圖像中,EDSR[19]和PRL[9]方法恢復(fù)效果較差,部分線條之間存在黏連現(xiàn)象;NAFNet[20]、MIMOUNet[14]和MSPRL[13]方法恢復(fù)效果較好,但從大矩形框中可以看出,線條附近均出現(xiàn)偽影且邊緣較模糊。通過(guò)觀察對(duì)比圖可以發(fā)現(xiàn),本文方法恢復(fù)的連續(xù)色調(diào)圖像具有最優(yōu)的視覺(jué)效果,整體上更加清晰,且不存在偽影,保留更多的空間細(xì)節(jié)信息。
2.3.3 訓(xùn)練性能
為驗(yàn)證本文網(wǎng)絡(luò)模型的訓(xùn)練性能,將本文方法與基于MIMOUNet[14]、MPRNet[15]和NAFNet[20]網(wǎng)絡(luò)模型的方法進(jìn)行對(duì)比分析。在訓(xùn)練過(guò)程中,PSNR平均值隨訓(xùn)練輪數(shù)的變化見(jiàn)圖9,從圖9中可以看出:NAFNet[20]模型收斂速度較慢,PSNR平均值較低;MIMOUNet[14]、MPRNet[15]和EDAMRNet模型均在350輪之后基本保持穩(wěn)定。上述結(jié)果說(shuō)明本文網(wǎng)絡(luò)模型在訓(xùn)練時(shí)具有較好的穩(wěn)定性,PSNR平均值最高,整體性能最好。
2.4 消融實(shí)驗(yàn)
本文網(wǎng)絡(luò)模型主要由編解碼器、多殘差網(wǎng)絡(luò)和SAM組成。為驗(yàn)證該網(wǎng)絡(luò)模型設(shè)計(jì)的合理性及有效性,在訓(xùn)練中,使用Urban100作為測(cè)試數(shù)據(jù)集,迭代次數(shù)設(shè)置為10k次。對(duì)比結(jié)果見(jiàn)表2,從表中可以看出:相較于單一的編解碼器,采用編解碼器和多殘差網(wǎng)絡(luò)使PSNR平均值和SSIM平均值分別提高0.44 dB和0.0058,圖像恢復(fù)效果有明顯提升;通過(guò)在編解碼器和多殘差網(wǎng)絡(luò)之間引入SAM,使PSNR平均值和SSIM平均值分別提高0.06 dB和0.0007,恢復(fù)出更高質(zhì)量的連續(xù)色調(diào)圖像。
在訓(xùn)練中,分別采用L1損失函數(shù)和Ltotal損失函數(shù)。對(duì)比結(jié)果見(jiàn)表3,從表中可以看出:相較于L1損失函數(shù),采用Ltotal損失函數(shù)使PSNR平均值和SSIM平均值分別提高0.15 dB和0.0003。上述結(jié)果說(shuō)明Ltotal損失函數(shù)使模型能夠同時(shí)提取圖像空間域和頻域的信息,提升了連續(xù)色調(diào)圖像的質(zhì)量。
通道數(shù)對(duì)模型的特征提取能力至關(guān)重要。在訓(xùn)練中,通道數(shù)分別設(shè)為48和64。對(duì)比結(jié)果見(jiàn)表4,從表中可以看出:當(dāng)通道數(shù)由48增加到64時(shí),PSNR平均值和SSIM平均值分別提高0.11 dB和0.0012。上述結(jié)果說(shuō)明增加通道數(shù)能夠使模型更好地提取圖像特征信息。
3 結(jié) 論
本文提出了一種基于EDAMRNet的逆半色調(diào)方法,以端到端的方式,從半色調(diào)圖像直接恢復(fù)出連續(xù)色調(diào)圖像。通過(guò)在編解碼器和多殘差網(wǎng)絡(luò)之間引入SAM,對(duì)圖像上下文信息進(jìn)行加強(qiáng),然后傳遞到多殘差網(wǎng)絡(luò);采用組合損失函數(shù)優(yōu)化網(wǎng)絡(luò),提高了恢復(fù)圖像的質(zhì)量。本文方法與現(xiàn)有最優(yōu)的逆半色調(diào)方法相比,在Urban100和Manga109數(shù)據(jù)集下的PSNR平均值均提高了0.1 dB,SSIM平均值分別提高了0.0010和0.0005,恢復(fù)出的連續(xù)色調(diào)圖像保留了更多空間細(xì)節(jié),整體更加清晰。
參考文獻(xiàn):
[1]Guo J M, Sankarasrinivasan S. Digital halftone database (DHD): A comprehensive analysis on halftone types[C]∥2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Honolulu, HI, USA. IEEE, 2019: 1091-1099.
[2]張燕, 張二虎. 圖像逆半色調(diào)技術(shù)研究[J]. 西安理工大學(xué)學(xué)報(bào), 2017, 33(3): 282-289.
[3]孔月萍, 曾平, 何波, 等. LUT 與 Elman 網(wǎng)絡(luò)相結(jié)合的圖像逆半調(diào)算法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2007, 12(11): 1988-1991.
[4]Xiong Z X, Orchard M T, Ramchandran K. Inverse halftoning using wavelets[J]. IEEE Transactions on Image Processing, 1999, 8(10): 1479-1483.
[5]Mese M, Vaidyanathan P P. Look-up table (LUT) method for inverse halftoning[J]. IEEE Transactions on Image Processing, 2001, 10(10): 1566-1578.
[6]Hou X X, Qiu G P. Image companding and inverse halftoning using deep convolutional neural networks[EB/OL]. (2017-07-01)[2023-07-15]. https:∥arxiv.org/abs/1707.00116.
[7]Xiao Y, Pan C, Zheng Y, et al. Gradient-guided DCNN for inverse halftoning and image expanding[C]∥Asian Conference on Computer Vision. Cham: Springer International Publishing, 2019: 207-222.
[8]Yuan J, Pan C, Zheng Y, et al. Gradient-guided residual learning for inverse halftoning and image expanding[J]. IEEE Access, 2019, 8: 50995-51007.
[9]Xia M, Wong T T. Deep inverse halftoning via progressively residual learning[C]∥Computer Vision-ACCV 2018: 14th Asian Conference on Computer Vision. Perth, Australia. Cham: Springer International Publishing, 2019: 523-539.
[10]Son C H. Inverse halftoning through structure-aware deep convolutional neural networks[J]. Signal Processing, 2020, 173: 107591.
[11]Shao L H, Zhang E H, Li M. An efficient convolutional neural network model combined with attention mechanism for inverse halftoning[J]. Electronics, 2021, 10(13): 1574.
[12]李梅, 張二虎. 融合注意力機(jī)制的多尺度深度網(wǎng)絡(luò)的逆半調(diào)方法[J]. 包裝工程, 2022, 43(11): 283-291.
[13]Li F Y, Yang J. Rethinking PRL: A multiscale progressively residual learning network for inverse halftoning[EB/OL]. (2023-05-27)[2023-07-15]. https:∥arxiv.org/abs/2305.17355.
[14]Cho S J, Ji S W, Hong J P, et al. Rethinking coarse-to-fine approach in single image deblurring[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada. IEEE, 2022: 4621-4630.
[15]Zamir S W, Arora A, Khan S, et al. Multi-stage progressive image restoration[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA. IEEE, 2021: 14816-14826.
[16]Shi W Z, Caballero J, Huszr F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. IEEE, 2016: 1874-1883.
[17]Cochran W T, Cooley J W, Favin D L, et al. What is the fast Fourier transform?[J]. Proceedings of the IEEE, 1967, 55(10): 1664-1674.
[18]Everingham M, Ali Eslami S M, Van Gool L, et al. The pascal visual object classes challenge: A retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136.
[19]Lim B, Son S, Kim H, et al. Enhanced deep residual networks for single image super-resolution[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, HI, USA. IEEE, 2017: 1132-1140.
[20]Chen L Y, Chu X J, Zhang X Y, et al. Simple baselines for image restoration[C]∥17th European Conference on Computer Vision (ECCV). Tel Aviv, Israel. Cham: Springer Nature Switzerland, 2022: 17-33.
(責(zé)任編輯:康 鋒)