高 飛,余曉玫
(重慶移通學(xué)院通信與信息工程學(xué)院,重慶 401520)
指紋圖像超分辨率重建方法已應(yīng)用于刑事偵查、門控系統(tǒng)、保衛(wèi)系統(tǒng)等領(lǐng)域。為了更好地利用這些指紋圖像并提高圖像分辨率,研究人員已將注意力轉(zhuǎn)向超分辨率重建(SR)方法,該方法將低分辨率(LR)圖像轉(zhuǎn)換為高分辨率(HR)圖像[1-2]。
李等人[3]提出的SRNN首次將CNN引入SR領(lǐng)域。SRNN僅使用三層網(wǎng)絡(luò)提取特征,并使用均方誤差(MSE)作為損失函數(shù)。實(shí)驗(yàn)結(jié)果良好,證明了深度學(xué)習(xí)的有效性。隨著網(wǎng)絡(luò)深度的增加,培訓(xùn)結(jié)果將變得越來越準(zhǔn)確,但深度網(wǎng)絡(luò)也會(huì)給培訓(xùn)帶來困難。梯度消失或梯度爆炸問題阻礙了更深層次網(wǎng)絡(luò)的設(shè)計(jì)。2016年,Dong等人[4]提出了一種可以跳躍連接的網(wǎng)絡(luò)ResNet,其網(wǎng)絡(luò)深度可以達(dá)到152層。有效解決梯度消失或爆炸問題,使網(wǎng)絡(luò)向更深層次發(fā)展。深度網(wǎng)絡(luò)和剩余塊的組合已經(jīng)出現(xiàn),如EDSR[5]、WDSR[6]、DBPN[7]。EDSR超分辨率重建效果較好,但網(wǎng)絡(luò)層數(shù)越深,參數(shù)數(shù)越大,用于超分辨率重建的時(shí)間越長。與EDSR相比,WDSR采用了重量標(biāo)準(zhǔn)化,消除了許多冗余的卷積層,提高了結(jié)構(gòu)和性能。DBPN與前面的方法不同。DBPN使用投影單元執(zhí)行上下迭代采樣。提取的特征更全面,超分辨率重建效果更好,但網(wǎng)絡(luò)復(fù)雜度更高。從抽樣方法來看,SISR可分為四類:預(yù)先確定的向上抽樣、單次向上抽樣、逐步向上抽樣和迭代升降。預(yù)先定義的上采樣是為了了解LR和HR之間的非線性映射[8]。在輸入網(wǎng)絡(luò)之前,首先對(duì)LR圖像進(jìn)行插值,以放大圖像大小以匹配目標(biāo)圖像大小。但該方法容易產(chǎn)生噪聲,影響重建質(zhì)量。為了解決這個(gè)問題,只進(jìn)行一次上采樣,取消預(yù)先定義的上采樣插值操作,并在最后一層(如FSRCNN[9]或ESPCN[10])上執(zhí)行LR反卷積,但CNN學(xué)習(xí)能力不足,重建效果差。漸進(jìn)式上采樣使用拉普拉斯金字塔網(wǎng)絡(luò)逐步預(yù)測SR圖像,類似于單個(gè)上采樣堆棧。增強(qiáng)了學(xué)習(xí)復(fù)雜映射的能力,減少了參數(shù),縮短了運(yùn)行時(shí)間,并且對(duì)大規(guī)模因素更有效。迭代上下采樣DBPN有上投影和下投影兩個(gè)單元,實(shí)現(xiàn)了迭代上采樣和下采樣。網(wǎng)絡(luò)復(fù)雜度較高,但超分辨率重建效果較好。從損失函數(shù)來看,基于深度學(xué)習(xí)的模型通常通過最小化真實(shí)圖像和網(wǎng)絡(luò)輸出圖像之間的均方誤差來訓(xùn)練參數(shù),但這并不代表人類真實(shí)的視覺體驗(yàn)[11]。然而,感知損失可以帶來更好的視覺效果,Hong等人[12]證明了感知損失對(duì)網(wǎng)絡(luò)訓(xùn)練的有效性。例如,感知損耗用于生成性對(duì)抗網(wǎng)絡(luò)(GAN)[13],引入了對(duì)抗損耗,并最小化了真實(shí)值和網(wǎng)絡(luò)輸出值之間的感知相關(guān)距離,但基于GAN的感知損耗方法基于失真。其代價(jià)是提高感知圖像質(zhì)量,因此感知損失函數(shù)對(duì)于超分辨率重建任務(wù)仍有一定的局限性。
針對(duì)上述問題,本文提出了一種稱為 Enlighten-GAN 的圖像超分辨率重建方法,該方法主要關(guān)注中分辨率指紋圖像。Enlighten-GAN通過多種方式控制網(wǎng)絡(luò)收斂到穩(wěn)定可靠的點(diǎn)。本文主要工作如下:
(1)設(shè)計(jì)了一個(gè)新穎的 Enlighten-GAN 和一個(gè)啟發(fā)塊。啟發(fā)塊通過設(shè)置一個(gè)更簡單的目標(biāo)來確保網(wǎng)絡(luò)獲得有效的梯度,從而提高模型的性能。由于不同尺度的重建結(jié)果,啟發(fā)塊獲得更高泛化能力。提出的 Enlighten-GAN 在本文數(shù)據(jù)集的比較實(shí)驗(yàn)驗(yàn)證中,超過了最先進(jìn)的方法。
(2)引入并采用自我監(jiān)督的分層感知損失進(jìn)行訓(xùn)練,而不是使用 VGGNet[14]定義的傳統(tǒng)感知損失,并進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證其有效性。
(3)為了解決合并問題,提出了一種基于學(xué)習(xí)的批量內(nèi)部不一致?lián)p失的裁剪和合并方法,通過該方法可以消除預(yù)測的大規(guī)模指紋圖像中的接縫線。
GAN由一個(gè)生成模型(也稱為G)組成,用于合成圖像,以及一個(gè)判別模型(也稱為D)用于確定給定圖像是否被合成,它們作為對(duì)抗相互改進(jìn)。隨著D確定無論圖像是合成的還是真實(shí)的,G都會(huì)產(chǎn)生具有欺騙性的真實(shí)圖像。GAN的SRR應(yīng)用如圖1所示,給定一張LR圖像,我們從G合成SR結(jié)果并將其與真實(shí)的HR進(jìn)行比較。D負(fù)責(zé)區(qū)分真假,從而為G的訓(xùn)練提供對(duì)抗性損失。然而,由于G和D之間的非飽和對(duì)抗的原因,GAN可能會(huì)陷入模式崩潰,即G傾向于產(chǎn)生重復(fù)圖像的現(xiàn)象,形成聚類假數(shù)據(jù)分布。給定一張LR圖像,從G合成SR結(jié)果并將其與真實(shí)的HR進(jìn)行比較。D負(fù)責(zé)區(qū)分真假,從而為G的訓(xùn)練提供對(duì)抗性損失。
ESRGAN在應(yīng)用于自然圖像時(shí)優(yōu)于其他超分辨率重建方法[15]。因此,在設(shè)計(jì) Enlighten-GAN時(shí)將其作為提出方法的基線網(wǎng)絡(luò)。使用啟發(fā)塊和1-Lipschitz度量對(duì)其進(jìn)行了修改,以在指紋圖像SRR任務(wù)中獲得穩(wěn)定的結(jié)果。提議的 Enlighten GAN包含一個(gè)生成模型如圖2所示,判別模型如圖3所示。
圖1 本文GAN的架構(gòu)圖Fig.1 The demonstration of our GAN structure
圖2 G的架構(gòu)Fig.2 The architecture of the G
生成模型采用LR圖像作為輸入,并獲得2倍和4倍HR圖像作為輸出。在一個(gè)卷積層之后,安排了23個(gè)名為Residual in-Residual Dense Block(RRDB)的基本單元來遞歸地從圖像中學(xué)習(xí)細(xì)節(jié)。每個(gè)RRDB包含三個(gè)密集塊,具有密集跳過連接且沒有批量歸一化。隨后,基于殘差學(xué)習(xí)[7]的思想,跳躍連接將來自高層和低層的特征提取到特征圖中。到目前為止,采用了與ESRGAN類似的結(jié)構(gòu)來提取高維特征圖。應(yīng)用這個(gè)特征圖通過最近鄰插值和卷積運(yùn)算來預(yù)測SR圖像。除了4倍輸出之外,還提出了啟示塊來產(chǎn)生2倍上采樣結(jié)果作為一個(gè)更容易的目標(biāo)。該塊使從跳過連接獲得的特征圖能夠接收有意義的梯度,并以更容易和更困難的模式交替學(xué)習(xí)高頻信息。由于其多輸出結(jié)構(gòu),它優(yōu)先考慮網(wǎng)絡(luò)具有更多的泛化能力。因此,從 G 生成的 HR 圖像真實(shí)自然。網(wǎng)絡(luò)底部通過遞歸學(xué)習(xí)和殘差學(xué)習(xí)提取特征圖,而頂部利用這些特征圖來預(yù)測多級(jí)HR圖像?!癈onv”是指具有3×3大小內(nèi)核的卷積層,而RRDB是簡稱Residual-in-Residual Dense Block。 RRDB中的β是殘差縮放參數(shù),設(shè)置為0.2。
判別模型區(qū)分圖像真假,為生成網(wǎng)絡(luò)提供對(duì)抗性損失,從而提高生成圖像的質(zhì)量。D的架構(gòu)簡潔而有效。來自G的合成圖像和真實(shí)世界的圖像都被輸入到這個(gè)網(wǎng)絡(luò)中。受VGGNet的啟發(fā),該管道涉及順序卷積層和批量歸一化層,以全連接層結(jié)束,以預(yù)測給定圖像為真的可能性。為了追求穩(wěn)定的收斂,采用非激活的1-Lipschitz度量fω作為輸出,而不是直接預(yù)測可能性,受WGAN[20]的啟發(fā)。這種修改指導(dǎo)真實(shí)世界的樣本為本文的網(wǎng)絡(luò)貢獻(xiàn)梯度,從而獲得更好的性能。值得注意的是,在計(jì)算對(duì)抗性損失時(shí),專注于4倍的優(yōu)化結(jié)果而不是兩個(gè)結(jié)果,因此只需要訓(xùn)練一個(gè)判別網(wǎng)絡(luò)。架構(gòu)的更多細(xì)節(jié)如圖3所示。D負(fù)責(zé)激發(fā)G生成與現(xiàn)實(shí)世界HR數(shù)據(jù)足夠相似的圖像?!癇N”是batch normalization的簡稱,“Conv”是指卷積層,“FC{N}”代表一個(gè)全連接層,輸出N個(gè)元素的數(shù)組。
圖3 D的架構(gòu)Fig.3 The architecture of the D
為了優(yōu)化本文設(shè)計(jì)模型,收集了多組中分辨率指紋圖像,并將它們下采樣4次以獲得LR和HR圖像對(duì)作為訓(xùn)練和驗(yàn)證數(shù)據(jù)集。用于優(yōu)化提出網(wǎng)絡(luò)的損失函數(shù)包括生成損失和判別損失。
由于結(jié)果有兩個(gè)SR圖像,分別表示為Isr×2和Isr×4,應(yīng)該分別優(yōu)化它們,從而形成生成損失函數(shù)如下:
LossG=θ(Losspixel(Isr×2,Ihr)+λLossperc(Isr×2,Ihr))+
Losspixel(Isr×4,Ihr)+λLossperc(Isr×4,Ihr))-
αLossadver
(1)
其中,Losspixel和Lossperc分別代表像素?fù)p失和感知損失。像素?fù)p失被定義為真實(shí)圖像和假圖像之間的L2距離,而由λ參數(shù)化的感知損失是指通過它們的特征圖計(jì)算的距離。雖然有些人發(fā)現(xiàn)L2距離像素?fù)p失傾向于忽略細(xì)微的差異,從而導(dǎo)致網(wǎng)絡(luò)在CNN網(wǎng)絡(luò)中產(chǎn)生模糊但安全的結(jié)果,但觀察到它在GAN結(jié)構(gòu)中表現(xiàn)良好,補(bǔ)充了對(duì)抗性損失和感知損失。值得注意的是,2 次輸出部分的損失由θ參數(shù)化,以平衡多輸出之間的權(quán)重。生成損失函數(shù)以對(duì)抗性損失結(jié)束,Lossadver參數(shù)化為α。它指的是 D 預(yù)測的 1-Lipschitz 度量fω,并激發(fā) G 產(chǎn)生更多誤導(dǎo)性從而獲得更好的結(jié)果。實(shí)驗(yàn)表明,由 1-Lipschitz 指標(biāo)預(yù)測的 Wasserstein 損失進(jìn)行了穩(wěn)定的訓(xùn)練過程。
構(gòu)建并訓(xùn)練了一個(gè)新穎而簡短的自動(dòng)編碼器,由卷積層和 ReLU 層構(gòu)建,沒有批量歸一化層。自編碼器由編碼器和解碼器組成。編碼器通過最近鄰插值將輸入池化為小尺寸和高維特征圖。使用雙線性插值,解碼器將特征圖恢復(fù)為與輸入相同的圖像。自編碼器的重構(gòu)輸出應(yīng)該與輸入盡可能相似。自編碼器的整體架構(gòu)如圖4所示。
圖4 用于提取特征圖的自動(dòng)編碼器的結(jié)構(gòu)Fig.4 The architecture of autoencoder for extracting feature maps
盡管替換了部分丟棄位置信息的最大池化層,但自編碼器網(wǎng)絡(luò)仍然保留了一個(gè)池化層以節(jié)省內(nèi)存占用。因此,總結(jié)了來自不同層的特征以分層構(gòu)成感知損失。具體來說,在自編碼器中選擇第 3、8、17、34 層的特征,這些特征已用綠色標(biāo)記為感知特征。這確保了提議的感知損失包含語義和像素級(jí)信息。由于每個(gè)特征圖的方差應(yīng)該描述圖像與層之間的差異,將每層感知特征的偏差歸一化為 1,并將它們相應(yīng)的感知損失相加。
至于D的優(yōu)化,希望它能正確區(qū)分真實(shí)和虛假數(shù)據(jù)。此外,由于樣本的多樣性,G的權(quán)重由于其高梯度而發(fā)生顯著變化,因此利用梯度懲罰[20]的優(yōu)點(diǎn)避免了一批中的完全變化,形成了如下的判別性損失:
(2)
其中,Lossdist|fake當(dāng)樣本為假時(shí),fake 指的是預(yù)測的 1-Lipschitz 度量fω,而Lossdist|real指的是其他情況。最后一項(xiàng)指的是梯度懲罰,其中g(shù)Wi指損失函數(shù)的每個(gè)權(quán)重參數(shù)的梯度流??傊?每個(gè)圖像對(duì)通過上述生成和判別損失函數(shù)貢獻(xiàn)梯度。
由于深度學(xué)習(xí)網(wǎng)絡(luò)只能接受受內(nèi)存限制的小尺寸圖像,因此經(jīng)常將圖像裁剪成補(bǔ)丁以適應(yīng)網(wǎng)絡(luò)。為了確保補(bǔ)丁之間的接縫線自然逼真,像大多數(shù)指紋深度學(xué)習(xí)應(yīng)用程序一樣裁剪重疊的補(bǔ)丁。預(yù)測的 SR 塊應(yīng)該在其原始區(qū)域構(gòu)成整個(gè) SR 圖像,這為如何處理重疊中的像素值帶來了多樣性。高級(jí)語義任務(wù)選擇取每個(gè)補(bǔ)丁的平均值。但是,平均操作會(huì)影響圖像的清晰度,不利于提高圖像質(zhì)量。另一方面,由于重疊涉及來自兩個(gè)補(bǔ)丁的信息,因此重疊和非重疊區(qū)域之間存在像素值不連續(xù)性。當(dāng)重疊時(shí),這兩種現(xiàn)象會(huì)變得更糟相鄰的補(bǔ)丁變得更加不一致,并且隨著它們變得相同而消失。只要差異存在,粗略地改變重疊率或以加權(quán)的方式合并它們并不能同時(shí)解決它們。
因此,設(shè)計(jì)了具有批量內(nèi)部不一致?lián)p失的裁剪和合并方法來處理大規(guī)模指紋圖像。首先,由于發(fā)現(xiàn)補(bǔ)丁不一致是圖像拼接問題的根源,鼓勵(lì)網(wǎng)絡(luò)產(chǎn)生批量一致的結(jié)果。將25 %作為重疊率,它可以引導(dǎo)兩個(gè)相鄰的補(bǔ)丁在重疊中獲得相似的感受野。具體來說,將168×168大小的圖像裁剪成2×2部分,即96×96大小的補(bǔ)丁,形成四個(gè)24像素的重疊。將這4個(gè)補(bǔ)丁批量處理到網(wǎng)絡(luò)中。此外,本文引入了不一致?lián)p失,因此該批次的生成損失為:
Lossbatch=Lossimage+δ∑Lossincons
(3)
其中,Lossimage指的是公式(1),用于測量 SR 圖像和 HR 圖像之間的距離。不一致?lián)p失Lossincons,表示每個(gè)重疊中的L2距離在補(bǔ)丁之間,并用δ參數(shù)化。這種損失促使網(wǎng)絡(luò)根據(jù)設(shè)計(jì)的類似感受野來預(yù)測類似的結(jié)果。
為了完全消除平均操作產(chǎn)生的模糊現(xiàn)象的風(fēng)險(xiǎn),采用裁剪和合并方法來預(yù)測大規(guī)模指紋圖像。如上所述,將圖像裁剪為具有重疊的補(bǔ)丁,分別恢復(fù) SR 補(bǔ)丁,并在合并之前裁剪這些補(bǔ)丁,直到?jīng)]有重疊為止,如圖5所示,每個(gè)補(bǔ)丁通過我們的網(wǎng)絡(luò)上采樣4倍,即384×384 像素。每個(gè)補(bǔ)丁中一半的重疊被剪掉,因此補(bǔ)丁的大小為 336×336像素,即結(jié)果的四分之一,輸入圖像被裁剪成四個(gè)重疊的塊。因此,由上述方法預(yù)測的四個(gè)補(bǔ)丁組成了整個(gè)上采樣結(jié)果。具體來說,每個(gè)裁剪補(bǔ)丁中重疊的外半邊被裁剪和丟棄,而可靠的一半保留。預(yù)測結(jié)果中的重疊部分由兩個(gè)相鄰的補(bǔ)丁各半組成。實(shí)驗(yàn)表明,預(yù)測的圖像方法不留目視接縫線。每個(gè)補(bǔ)丁通過網(wǎng)絡(luò)上采樣4倍,即384×384像素。每個(gè)補(bǔ)丁中一半的重疊被剪掉,因此補(bǔ)丁的大小為336×336像素,即結(jié)果的四分之一。 因此,由上述方法預(yù)測的四個(gè)補(bǔ)丁組成了整個(gè)上采樣結(jié)果。
圖5 裁剪合并方法的流程Fig.5 The pipeline of clipping-and-merging method
實(shí)驗(yàn)數(shù)據(jù)集由 NIST指紋圖像數(shù)據(jù)庫包含2000個(gè)8位灰度指紋圖像對(duì),每個(gè)圖像均為512×512像素。指紋圖像平均分為5類,每個(gè)類別有400個(gè)指紋對(duì)(弓形、左環(huán)、右環(huán)、帳篷形弓形、螺旋形)。
因此,在兩個(gè)具有豐富紋理和細(xì)節(jié)信息的 10980×10980 大小的RGB圖像上訓(xùn)練模型。這些圖像被裁剪成 423張大小為672×672像素的圖像。在這些圖像中,將它們分成323張用于訓(xùn)練的圖像和100張用于測試的圖像。
這些圖像被下采樣4倍到168×168像素,從而構(gòu)成 LR和HR圖像對(duì)。如前所述,應(yīng)用cropping-and-clipping方法將圖像裁剪為4個(gè)重疊率為0.25的patch,即96×96像素補(bǔ)丁與G的輸入大小相同,并將它們作為批處理輸入網(wǎng)絡(luò)。測試時(shí),直接將168×168大小的圖像輸入網(wǎng)絡(luò)并獲得SR圖像,因?yàn)闇y試過程比訓(xùn)練花費(fèi)更少的內(nèi)存占用。此外,利用數(shù)據(jù)集上的在線數(shù)據(jù)增強(qiáng)操作來提高模型的泛化性,例如隨機(jī)旋轉(zhuǎn)90°數(shù)次。
盡管視覺質(zhì)量有最終決定權(quán),但仍然需要一個(gè)穩(wěn)健可靠的圖像質(zhì)量評(píng)估指標(biāo)來衡量 SRR 方法評(píng)估中的細(xì)微變化。之前的一些工作將峰值信噪比(PSNR)作為指標(biāo)。在對(duì)范圍從0到1的圖像進(jìn)行歸一化后,PSNR 形成為:
PSNR=-10×log(MSE)
(4)
其中,MSE是指假圖像和真實(shí)圖像之間的均方誤差。 然而,面向 PSNR 的方法,例如基于像素?fù)p失的方法,會(huì)導(dǎo)致前面提到的平滑結(jié)果。 直觀地,如圖 6 所示,像素幾何誤差較小的預(yù)測會(huì)導(dǎo)致較低的 PSNR,而平滑的地圖獲得較高的分?jǐn)?shù)。在不適定的圖像超分辨率重建方法中,具有不可避免的幾何誤差的真實(shí)肖像比模糊輪廓更有意義,這意味著 PSNR 的不可靠性。第二個(gè)和第三個(gè)補(bǔ)丁是兩個(gè) SR 結(jié)果,而第一個(gè)是基本事實(shí)。 值得注意的是,第二個(gè)補(bǔ)丁保留了基本形狀,但由于信息丟失,它引入了幾何誤差并在預(yù)測時(shí)交換了白色和黑色區(qū)域,從而獲得了比第三個(gè)更低的 PSNR。
圖6 PSNR中的缺陷Fig.6 The flaws in PSNR
其他人選擇感知指數(shù)(PI),這也是 PIRM SR Challenge比賽的官方指標(biāo)。分別是像素級(jí)質(zhì)量評(píng)估和非參考感知評(píng)估。計(jì)算公式為:
PI=0.5×((10-Ma)p+NIQE)
(5)
其中,較低的 PI意味著更豐富的紋理。然而,像素級(jí)質(zhì)量與感知質(zhì)量相沖突。因此,較低的 PI 度量不一定同時(shí)描述較高的像素級(jí)質(zhì)量和感知質(zhì)量。事實(shí)上,發(fā)現(xiàn)在實(shí)驗(yàn)中,具有致命偽影的 ESRGAN 結(jié)果獲得的 PI 低于真實(shí)值,如下小節(jié)所示。盡管較低的 PI 意味著更豐富的紋理,但不能保證是真實(shí)的紋理,因?yàn)?PI 是一個(gè)非參考指標(biāo)。
因此,參考相關(guān)工作,發(fā)現(xiàn)梯度相似度度量(GSM)[16]的稀疏編碼和重建信道中具有更好的性能。GSM 加權(quán)梯度的相關(guān)系數(shù),定義為:
(6)
其中,gx和gy指的是圖像x和y的梯度。
為了更好地證明提出方法的優(yōu)越性,進(jìn)一步引入了學(xué)習(xí)感知圖像塊相似度(LPIPS)來測量塊之間的感知差異。它被定義為:
(7)
對(duì)提出的方法以及來自雙三次上采樣、SRCNN、SRGAN[1]、ESRGAN和 EEGAN方法的輸入LR圖像和SR圖像進(jìn)行了評(píng)估實(shí)驗(yàn)。因此,獲得了這些 SRR 方法前面提到的指標(biāo)中所有補(bǔ)丁的結(jié)果。計(jì)算了每種方法的所有補(bǔ)丁的平均值和基準(zhǔn)偏差,并在表1 中列出了定量結(jié)果。為了更好地比較,還在表中列出了真實(shí)情況的評(píng)估作為參考。作為基于 CNN方法在等效于 PSNR 的像素?fù)p失上進(jìn)行訓(xùn)練,因此更有可能獲得高 PSNR 和過度平滑的結(jié)果,假設(shè)基于 GAN 的方法中 PSNR 的最佳分?jǐn)?shù)描繪了最好的結(jié)果。最接近真實(shí)情況的 PI 表明結(jié)果是與地面實(shí)況相似的信息熵。值得注意的是,GSM 是其中最可靠的指標(biāo),因此它具有最終決定權(quán)。如表1 所示,Enlighten-GAN 在基于 GAN 的方法中獲得了最好的 PSNR、最接近地面實(shí)況的 PI,以及最好的 GSM和LPIPS。值得注意的是,本文提出方法Enlighten-GAN的結(jié)果在GSM方面的基準(zhǔn)偏差最低。
表1 來自不同方法的 SR 和 HR 圖像的度量Tab.1 The metrics of SR and HR images from varied method
定性結(jié)果進(jìn)一步描述了提出方法相較于其他方法的優(yōu)越性,如圖7所示。
圖7 不同方法重建指紋質(zhì)量結(jié)果對(duì)比Fig.8 Comparison of fingerprint quality reconstructed by different methods
雙三次上采樣結(jié)果和SRCNN 結(jié)果是模糊的,而SRGAN的結(jié)果是剝離的偽影,在每個(gè)補(bǔ)丁中都有描述。盡管EEGAN是為指紋圖像而設(shè)計(jì)的,但它不能勝任中分辨率指紋并產(chǎn)生斑點(diǎn)偽影。在最先進(jìn)的方法中,ESRGAN 獲得了相對(duì)令人滿意的結(jié)果,但仍然存在不穩(wěn)定的問題收斂。ESRGAN的結(jié)果是平坦區(qū)域的點(diǎn)噪聲,例如第一排和第二排的湖泊和機(jī)場跑道。
為了驗(yàn)證并支持上面提到的觀點(diǎn),列出了一些消融研究實(shí)驗(yàn)的結(jié)果,進(jìn)行分層感知損失對(duì)比。分別將訓(xùn)練的模型與提出的自監(jiān)督分層感知損失、傳統(tǒng)的基于 VGGNet 的感知損失和無感知損失進(jìn)行了比較,結(jié)果如表2所示。
表2 不同感知損失對(duì)比Tab.2 Comparison of different perceived losses
VGG-感知獲得了最好的LPIPS,因?yàn)樗鼈兌际窃赩GG-Net上設(shè)計(jì)的。然而,就提出的最可靠指標(biāo)GSM而言,它被沒有感知損失訓(xùn)練的模型打敗了。相比之下,我們的結(jié)果獲得了最好的GSM,證實(shí)了自監(jiān)督分層感知損失的優(yōu)越性。由于比VGG-感知考慮更多的低級(jí)特征,本文的PI雖略有下降,但它更接近真實(shí)情況。
由于GAN有很多變體,在WGAN上進(jìn)行了測試,它已被證明是有效的,如表3所示,WGAN達(dá)到了其中最令人滿意的結(jié)果,即最好的GSM,最好的PSNR,合格的LPIPS,以及接近真實(shí)情況的PI。在綜合考慮下,本文中應(yīng)用WGAN。
表3 GAN不同變體比較Tab.3 Comparison of different variants of GAN
本文提出了一種針對(duì)指紋圖像超分辨率重建任務(wù)的 Enlighten-GAN 方法。為了克服不穩(wěn)定的收斂,利用包括啟發(fā)塊的各種方法來指導(dǎo)生成特征圖,自監(jiān)督分層感知損失來優(yōu)化生成模型,以及 WGAN 結(jié)構(gòu)來穩(wěn)定訓(xùn)練過程。通過實(shí)驗(yàn)驗(yàn)證,本文方法的整體性能相比對(duì)比方法具有優(yōu)越性,性能更佳。