李潔沁,謝丁峰
(湖南工業(yè)職業(yè)技術學院信息工程學院,湖南 長沙 410000)
人臉超分辨率(Face Super-Resolution,Face SR),也稱為面部重建,是指將低分辨率(Low-Resolution,LR)人臉圖像重建成相應的高分辨率(High-Resolution,HR)人臉圖像[1]。與自然圖像不同,人臉圖像具有獨特而復雜的結構,并且面部的紋理、五官存在差別,直接將超分辨率重建技術應用到人臉圖像中無法得獲得理想的效果。目前,大部分的算法通常采用插值降采樣[2-4]得到模型訓練所需的低分辨率圖像,但其退化模型與真實圖像的退化方式差異較大,限制了模型的性能,使得人臉圖像重建后的效果不理想。文獻[5]采用增強生成對抗網(wǎng)絡的判別學習能力實現(xiàn)人臉重建,使人臉細節(jié)重建效果得到較大的提升,但重建后的圖像容易出現(xiàn)虛假信息。文獻[6]通過相機采集真實HR、LR圖像對,使用拉普拉斯金字塔預測網(wǎng)絡進行超分辨率重建,但該算法需要先對LR圖像配準且采集數(shù)據(jù)非常煩瑣。
針對以上問題,本文提出一種針對真實圖像退化的人臉超分辨率重建算法。如圖1所示,首先設計了一種新的混合退化模型,模擬真實圖像的多種退化方式從而生成LR圖像,同時對原始HR圖像進行小波分解,得到多個高頻分量和一個低頻分量。然后將得到的LR圖像與小波分解后的低頻分量作為輸入送入基于小波域的超分辨率網(wǎng)絡中,經(jīng)過特征提取、小波預測,最后通過小波逆變換得到SR圖像。
圖1 針對真實圖像退化的人臉超分辨率重建模型示意圖Fig.1 The diagram of real image degradation-based face super-resolution reconstruction model
一般情況下,圖像超分辨率重建在生成LR圖像過程中往往采用的是單一的退化模型[7-9],但在實際生活中,圖像退化包含多種因素,單一的退化模型不足以反映復雜情況。因此本文提出一種混合退化模型,如圖1中(a)所示,通過對真實場景下常見多種退化操作進行隨機組合模擬現(xiàn)實場景下圖像退化的隨機性和復雜性,使得到的低分辨率圖像的真實性更高,從而提高圖像超分辨率重建的效果。
運動模糊是相機在曝光時被拍攝物體和相機間發(fā)生相對移動,使得不同位置的像素發(fā)生疊加,從而導致成像質(zhì)量下降[10],是最常見的一種圖像退化方式?,F(xiàn)實場景中,相機的抖動、物體的非靜止狀態(tài)都會造成圖像出現(xiàn)不同程度的模糊情況,模糊空間定義如下[11]:
式(1)中,BM和S分別為模糊圖像和清晰圖像,K為模糊核矩陣,?代表卷積操作,N為加性噪聲,通過調(diào)整模糊核的大小,可以得到不同模糊程度的圖像。
傳統(tǒng)圖像退化通常對HR圖像進行模糊再下采樣,但在現(xiàn)實場景下,真實LR圖像可能是模糊的,因此本文對HR和LR兩種圖像都進行模糊操作,模糊核大小從{5 × 5,7 × 7,9 × 9}均勻采樣,并對模糊核從[0,π]均勻旋轉角度,通過兩者結合擴展模糊的退化空間。
圖像在獲取和傳輸過程中會受到各種噪聲的干擾,通常是由不良照明或高溫引起的傳感器噪聲。因此,除了廣泛采用的高斯噪聲,本文還引入了JPEG壓縮噪聲。
JPEG數(shù)字壓縮是目前廣泛采用的圖像壓縮標準,質(zhì)量因子決定了壓縮程度,范圍為[0,100],質(zhì)量因子越小,壓縮程度越高,容易出現(xiàn)方塊效應[12]。因此,將壓縮因子設置為[30,95],并從中均勻選擇。
傳統(tǒng)的下采樣方法中,鄰插值簡單且容易實現(xiàn),但生成的圖像帶有鋸齒邊緣和馬賽克現(xiàn)象。為了使下采樣得到的圖像更平滑,本文選用雙線性插值,同時使用雙三次插值操作保留一部分圖像的高頻部分。此外,采用一種Down-up下采樣方式,即先用比例因子s/a對圖像進行下采樣,然后用比例因子a進行上采樣的下采樣方法,計算方式如下:
考慮到現(xiàn)實場景下真實的低分辨率圖像包含復雜的情況,它可能是高分辨圖像在不同順序下的噪聲、模糊、下采樣版本,也可以是包含其中一種或者幾種。為了模擬真實圖像的退化空間,本文設計了一種新的混合退化模型,由現(xiàn)實場景中常見的各項退化操作組成退化序列:
對退化序列中的退化操作進行隨機選擇和組合,任意一種退化模型或者其他傳統(tǒng)退化模型是本文退化模型特例。此外,噪聲特性隨著模糊核尺寸的變化而發(fā)生改變,從而擴展退化空間,對各種退化操作中的參數(shù)進行均勻采樣實現(xiàn)了數(shù)據(jù)擴充。圖2給出了退化模型示意圖,通過調(diào)整不同的退化操作和退化參數(shù)將HR圖像退化成LR圖像。
圖2 退化模型示意圖Fig.2 The diagram of the degradation model
基于小波域的超分辨率網(wǎng)絡結構如圖1中(b)所示,首先對原始HR圖像進行小波變換,將得到的低頻小波圖像與退化后的LR圖像結合,輸入到特征提取網(wǎng)絡。然后通過小波預測網(wǎng)絡預測得到與特征提取網(wǎng)絡輸入同樣數(shù)量的小波系數(shù),最后由小波逆變換得到最終的SR圖像。
由于圖像的高頻小波系數(shù)會隨其模糊程度的增加而逐漸消失,因此獲得清晰的SR圖像的關鍵在于還原低頻信息的同時,也能夠還原高頻小波系數(shù)[13]。為了重建圖像的高頻信息,本文將小波變換和卷積神經(jīng)網(wǎng)絡結合,從而獲取更好的SR圖像。采用Haar[14]變換對圖像進行處理,通過高通濾波和低通濾波對圖像進行迭代分解,計算不同分辨率下的小波系數(shù)。二維Haar變換可以看成分別對圖像的所有行和所有列進行一維Haar分解,得到四個細節(jié)系數(shù)(A、H、V、D),分別代表低頻信息、水平高頻信息、垂直高頻信息及對角高頻系數(shù)。人臉圖像經(jīng)過二維離散小波變換及小波系數(shù)經(jīng)過二維離散逆變換后的結果如圖3所示。
圖3 二維離散小波變換結果Fig.3 The results of 2D discrete wavelet transform
特征提取網(wǎng)絡將3×h×w大小的低分辨率圖像作為輸入,首先通過一個卷積層提取特征,卷積核大小為3 × 3,Stride為1,Pad為1。然后輸入到三個堆疊的Res2-Net[15]模塊中,Res2-Net結構在減少網(wǎng)絡參數(shù)的同時,能夠很好地提取圖像的多尺度特征,提升模型的性能。通過特征提取網(wǎng)絡最終得到一個大小為N e×h×w的特征,其中Ne為最后一層卷積的通道數(shù),本文設置為1,024,h為輸入圖像高度值,w為輸入圖像寬度值。
小波預測網(wǎng)中包含Nw個獨立的小波預測子模塊,每個子模塊中卷積核大小為3 × 3,Stride為1,Pad為1,接收特征提取網(wǎng)絡輸出的特征作為輸入,生成與LR大小相同的Nw組小波系數(shù)。此外,為了使網(wǎng)絡具有可擴展性,每個子模塊高度獨立,不與其他子模塊進行信息傳遞。預測網(wǎng)絡中子模塊的數(shù)目不同,對應實現(xiàn)不同超分尺度的放大效果(Nw=4n,n為小波包分解的級別,超分因子r=2n)。
由于小波分解系數(shù)的過程可以通過二維離散小波逆變換反向推導,因此對小波預測網(wǎng)絡得到的Nw組小波系數(shù)進行二維離散小波逆變換,最終生成與原始HR圖像大小[3 ×(r×h)× (r×w)]相等的重建圖像。
人臉超分辨率重建任務中,通常采用像素的均方誤差(Mean Square Error,MSE)作為損失函數(shù)。但是,僅僅將MSE損失最小化很難獲取高頻紋理信息,最終導致重建后的圖像過于平滑。由于紋理細節(jié)能夠通過高頻小波系數(shù)進行描述,因此本文將超分辨率問題從原始圖像空間轉化到小波域,采用基于小波的損失改善紋理重建的效果,并與整個圖像的MSE損失函數(shù)結合,共同約束網(wǎng)絡,從而使網(wǎng)絡重建后的圖像更清晰。
整幅圖像的MSE損失如下:
基于小波的損失函數(shù)如下:
此外,為防止高頻小波系數(shù)收斂為零,引入紋理損失函數(shù),其定義如下:
式(7)中,ω1、ω2和ω3為權重參數(shù)。
本文使用Pytorch實現(xiàn)改進后的小波超分辨率網(wǎng)絡,初始學習率設置為0.002,迭代5,000 次,每1,000 次學習率減半。使用Adam優(yōu)化器實現(xiàn)網(wǎng)絡參數(shù)優(yōu)化。Epoch和Batch size分別設置為400和64。此外,實驗的硬件配置如下:英特爾核心I5-9400F CPU和32 GB RAM,搭載4 塊NVIDIA GeForce RTX 2060 GPU。
數(shù)據(jù)集包含兩個部分,訓練集從CelebA[16]中選取,共25萬張圖像,將其統(tǒng)一為128×128的HR圖像,然后通過退化模型退化后得到大小為32×32的LR圖像,作為小波網(wǎng)絡的輸入。測試集為高清人臉數(shù)據(jù)集(Flickr-Faces-HQ,F(xiàn)FHQ)[17]和真實人臉數(shù)據(jù)集(Real-world Super-Resolution,RealSR)[6]數(shù)據(jù)集,共24,000 張。
本文使用2—8 倍超分因子對LR圖像進行重建,并以峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和人臉特征相似性(Identity Similarity,IS)作為評價指標在FFHQ和RealSR數(shù)據(jù)集上評估本文提出算法的性能。
為了評估退化模型對人臉重建效果的影響,本文通過三種退化模型對原始HR圖像進行退化操作,退化結果如圖4(a)所示,其中Type1為雙三次下采樣,Type2為高斯噪聲+雙線性插值+JPEG數(shù)字壓縮,Type3為本文退化模型。采用基于小波域的超分辨率網(wǎng)絡對三種退化模型的退化圖像進行8 倍超分,結果如圖4(b)所示,通過對比發(fā)現(xiàn),本文所用退化模型在視覺上能取得更好的重建效果,說明改進退化模型能夠提高人臉重建表現(xiàn)。
圖4 不同退化模型的退化結果和重建效果Fig.4 Degradation results and reconstruction effects of different degradation models
圖5展示了本文提出的算法和雙三次插值算法(Bicubic)[18],級聯(lián)遞歸卷積神經(jīng)網(wǎng)絡模型(PFSR)[19],身份判別卷積神經(jīng)網(wǎng)絡模型(SICNN)[20],基于小波域的卷積神經(jīng)網(wǎng)絡模型(Wavelet-SRNet)[21]的8 倍超分重建結果,表1中對比了這幾種算法在兩個測試集上的重建表現(xiàn)。實驗結果表明本文提出的算法在不同的超分因子下都取得了最好的表現(xiàn):(1)當超分因子為2時,各類算法都取得了較好的重建效果,本文提出的算法在兩個數(shù)據(jù)集上獲得了最優(yōu)的重建表現(xiàn);(2)隨著超分因子的增加,Bicubic、PFSR、SICNN的重建表現(xiàn)顯著降低,Wavelet-SRNet和本文算法仍然能夠保持良好的重建效果,然而在真實低分辨率數(shù)據(jù)集RealSR上本文的算法重建效果明顯優(yōu)于Wavelet-SRNet。
圖5 不同算法人臉重建后的結果Fig.5 Results of face reconstruction with different algorithms
表1 不同算法在FFHQ、RealSR數(shù)據(jù)集上的超分指標對比Tab.1 Comparison of super-resolution indicators of different algorithms on FFHQ and RealSR datasets
本文提出了一種針對真實圖像退化的人臉超分辨率重建算法,該算法設計了一種混合退化模型來模擬真實圖像退化空間,用于生成接近現(xiàn)實場景的低分辨率圖像,并通過對退化操作中的參數(shù)進行均勻采樣實現(xiàn)數(shù)據(jù)擴充。此外,采用基于小波域的超分辨率網(wǎng)絡,通過結合圖像空域特征和頻域特征,并引入Res2-Net模塊增強模型多尺度特征提取能力,從而提升人臉圖像重建的效果。實驗結果表明,與其他算法相比,本文算法在不同超分因子下都取得了最好的重建效果,尤其是在真實低分辨率數(shù)據(jù)集RealSR上仍然能夠取得良好的重建效果,表明本文提出的算法適用于現(xiàn)實場景下的人臉超分辨率重建。