王晨陽,江俊君,劉賢明
(哈爾濱工業(yè)大學(xué),計算學(xué)部,哈爾濱 150000)
人臉圖像超分辨率技術(shù),又名人臉幻覺,是一項致力于根據(jù)給定的低分辨率人臉圖像恢復(fù)出具有高頻細(xì)節(jié)的高質(zhì)量人臉圖像的技術(shù)。人臉圖像超分辨率技術(shù)不僅可以提升人臉圖像的分辨率,還可以增加人臉圖像的辨識度。在工業(yè)界和學(xué)術(shù)界人臉圖像超分辨率技術(shù)都發(fā)揮著舉足輕重的作用。在智能安保和監(jiān)控系統(tǒng)中,由于人物與監(jiān)控的遠(yuǎn)距離,或者成像環(huán)境(環(huán)境光照條件、噪聲、壓縮等因素)的影響,捕獲到的人臉圖像往往是低質(zhì)量且缺少高頻細(xì)節(jié)的,無法提供較高的辨識度,從而對后續(xù)的人臉檢測與人臉識別任務(wù)帶來了巨大挑戰(zhàn)。人臉圖像超分辨率技術(shù)則可以有效改善這一問題[1]。近年來,科學(xué)技術(shù)飛速發(fā)展,手機相機功能日益強大。由于舊手機在像素和硬件條件上遠(yuǎn)遠(yuǎn)差于新手機,舊手機拍攝的人臉圖像在新手機上顯示時,往往模糊不強,無法提供良好的視覺體驗。人臉超分辨率則可以對這些低質(zhì)量人臉圖像進(jìn)行修復(fù)得到視覺上令人愉悅的人臉圖像[2,3]。在學(xué)術(shù)界,很多人臉相關(guān)的任務(wù),如人臉屬性編輯、人臉識別、人臉表情分析等任務(wù)均高度依賴高質(zhì)量的人臉圖像數(shù)據(jù)集[4]。因而人臉圖像超分辨率技術(shù)具有工業(yè)界和學(xué)術(shù)界都有廣泛應(yīng)用前景。因而人臉圖像超分辨率技術(shù)也始終是圖像處理和計算機視覺領(lǐng)域的研究熱點。
最早,人臉超分辨率是由Baker 和Kanade 二人在2000年首次提出[5]。隨后,越來越多學(xué)者投身于人臉圖像超分辨率技術(shù)的研究中,很多里程牌式的人臉超分辨率方法脫穎而出,包括基于全局臉的人臉圖像超分辨率方法[6,7]、基于局部臉的人臉圖像超分辨率方法[8,9]。近幾年,具有強大表達(dá)能力的深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域大顯身手[10-12],基于深度學(xué)習(xí)人臉圖像超分辨率方法更是層出不窮并取得了重大突破。而人臉是一種具有高度結(jié)構(gòu)先驗的對象,其結(jié)構(gòu)先驗的利用可以幫助超分辨率恢復(fù)出具有更真實結(jié)構(gòu)信息的人臉圖像。因而學(xué)者們往往將目光放在如何估計和利用人臉結(jié)構(gòu)先驗來促進(jìn)人臉圖像修復(fù),基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法應(yīng)運而生。而本文則主要對基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法進(jìn)行綜述。
本文的主要內(nèi)容安排如下:第2節(jié)首先對深度學(xué)習(xí)人臉圖像超分辨率背景進(jìn)行粗略地介紹,然后第3節(jié)根據(jù)現(xiàn)有基于結(jié)構(gòu)先驗的人臉超分辨率方法的特征將其歸類為,先先驗、并行先驗、中間先驗、后先驗四大類,如圖1所示,并分別介紹其方法框架。接著第4節(jié)對基于結(jié)構(gòu)先驗的人臉圖像超分辨率技術(shù)面臨的關(guān)鍵挑戰(zhàn)和核心問題進(jìn)行分析、總結(jié)與歸納。最后第5節(jié)對全文進(jìn)行了總結(jié)與展望。
圖1 基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法分類
我們用ILR表示低分辨率人臉圖像,用IHR表示高分辨率人臉圖像,圖像降質(zhì)過程可以定義為:
其中Φ是退化模型,而θ代表退化模型的參數(shù),包括模糊核、下采樣、噪聲等。而人臉圖像超分辨率技術(shù)旨在從給定的低分辨率人臉圖像恢復(fù)出其對應(yīng)的高分辨率人臉圖像,得到超分辨率人臉圖像ISR,即圖像降質(zhì)過程的逆過程,
其中F是超分辨率網(wǎng)絡(luò)模型,δ則是超分辨率模型的網(wǎng)絡(luò)參數(shù)。為了獲取足夠大的高低分辨率人臉圖像對來滿足深度學(xué)習(xí)技術(shù)的需求,學(xué)者們通常用數(shù)學(xué)模型來模擬真實環(huán)境的圖像降質(zhì)過程,從而生成大量的高低分辨率圖像對訓(xùn)練深度學(xué)習(xí)模型。
不同于自然圖像,人臉圖像的主體就是人臉,而人臉本身是具有一些獨特的結(jié)構(gòu)先驗知識的。結(jié)構(gòu)先驗知識可以給網(wǎng)絡(luò)提供結(jié)構(gòu)信息,從而輔助人臉圖像超分辨率。大體上看,人臉圖像的結(jié)構(gòu)先驗知識可以分為三種:人臉特征點,人臉熱力圖和人臉解析圖。如圖2所示,從左到右依次展示了人臉圖像,該人臉圖像的人臉特征點、熱力圖以及解析圖先驗。除了圖示的幾種人臉結(jié)構(gòu)先驗以外,人臉先驗還包括3D結(jié)構(gòu)先驗[13],該先驗可以提供比二維結(jié)構(gòu)先驗更豐富的信息。
圖2 從左到右:人臉圖像、人臉特征點、人臉熱力圖、人臉解析圖
在深度學(xué)習(xí)人臉圖像超分辨率中,像素級別的L1、L2、Huber[14]和Carbonnier 損失[15]是最常用的損失函數(shù)。然而由于像素級別的損失函數(shù)通常導(dǎo)致過于光滑而缺少高頻細(xì)節(jié)的超分辨率人臉圖像,陸續(xù)有學(xué)者提出,對抗損失[16]、感知損失[17]、風(fēng)格損失[18]等損失函數(shù)來增加超分辨率人臉圖像的高頻細(xì)節(jié)。針對人臉圖像超分辨率問題,為了利用人臉圖像獨有的結(jié)構(gòu)信息,很多基于結(jié)構(gòu)先驗的損失函數(shù)被提出,基于結(jié)構(gòu)先驗的損失函數(shù)用于約束估計的先驗應(yīng)該跟真實的先驗保持一致?;诮Y(jié)構(gòu)先驗的損失函數(shù)可以定義為,
其中Lp代表基于結(jié)構(gòu)先驗的損失函數(shù),p表示不同的先驗包括熱力圖、特征點和解析圖,P表示估計的先驗,而PHR則為真實的先驗,F(xiàn)是1或者2。
基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法,因為需要利用人臉結(jié)構(gòu)先驗,所以學(xué)者們往往需要選擇包含結(jié)構(gòu)先驗的數(shù)據(jù)集,因此本文將常用的數(shù)據(jù)集以及改數(shù)據(jù)集提供的結(jié)構(gòu)先驗信息列在表1中。注意人臉熱力圖是由人臉特征點生成的,因而表1 中省略了人臉熱力圖這一項。
表1 基于結(jié)構(gòu)先驗方法常用數(shù)據(jù)集
具有超強表達(dá)能力的深度學(xué)習(xí)技術(shù)的出現(xiàn),為人臉圖像超分辨率領(lǐng)域帶來了巨大進(jìn)步,也解決了傳統(tǒng)人臉圖像超分辨率方法的許多問題。最近幾年,深度學(xué)習(xí)技術(shù)在人臉圖像超分辨率問題上更是大顯神通。不同于自然圖像,人臉圖像的主體是人臉,而人臉具有其獨特的先驗知識。人臉圖像超分辨率技術(shù)不僅探索網(wǎng)絡(luò)模型的設(shè)計,還注重對人臉圖像先驗知識的利用。本文則對基于結(jié)構(gòu)先驗的深度學(xué)習(xí)人臉圖像超分辨率方法進(jìn)行綜述。
在第2節(jié)中,本文已經(jīng)介紹了人臉圖像具有的結(jié)構(gòu)先驗,包括人臉特征點、人臉熱力圖和人臉解析圖。這些信息可以幫助網(wǎng)絡(luò)恢復(fù)出具有清晰人臉結(jié)構(gòu)的超分辨率結(jié)果。為了利用人臉結(jié)構(gòu)先驗,基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法應(yīng)運而生。基于結(jié)構(gòu)先驗的方法通常設(shè)法提取人臉結(jié)構(gòu)先驗,然后利用結(jié)構(gòu)先驗來幫助改善人臉圖像超分辨率性能。本文根據(jù)先驗估計和超分辨率任務(wù)的執(zhí)行順序,將基于結(jié)構(gòu)先驗的人臉超分辨率方法歸為四類:1)先先驗:先估計先驗知識再執(zhí)行超分辨率;2)并行先驗:并行地執(zhí)行超分辨率和先驗估計任務(wù);3)中間先驗:在超分辨率任務(wù)的中間階段估計先驗知識;4)后先驗,在超分辨率完成后估計先驗知識。下面本文將對這四類方法進(jìn)行一一介紹。
先先驗方法直接從低分辨率人臉圖像中估計先驗,然后利用該先驗知識輔助人臉圖像超分辨率任務(wù)的完成。早期,Jiang[23]和Song[24]先用預(yù)訓(xùn)練好的模型從低分辨率人臉圖像中估計人臉特征點,然后根據(jù)人臉特征點將低分辨率人臉圖像劃分為不同的部分,然后為其恢復(fù)出高頻細(xì)節(jié)。然而從低分辨率人臉圖像檢測人臉特征點是極其困難的,且準(zhǔn)確度也很低,導(dǎo)致模型性能不夠理想,于是學(xué)者們將目光轉(zhuǎn)向解析圖。如圖3 所示,PSFRGAN[25]首先預(yù)訓(xùn)練好了一個人臉解析網(wǎng)絡(luò),該網(wǎng)絡(luò)可以直接生成低分辨率人臉圖像的解析圖,然后他們將解析圖和低分辨率人臉圖像拼接在一起作為超分辨率模型的輸入,從而利用人臉解析圖促進(jìn)人臉圖像修復(fù)過程。此外,他們還利用解析圖將超分辨率人臉圖像分割成不同的部分,并計算每一部分的風(fēng)格損失,促使網(wǎng)絡(luò)可以根據(jù)人臉組件的差異恢復(fù)出不同的高頻細(xì)節(jié)。而FSR3D則先從低分辨率人臉圖像中估計3D結(jié)構(gòu)先驗,然后再利用3D結(jié)構(gòu)先驗提供的結(jié)構(gòu)信息和低分辨率人臉圖像恢復(fù)出高質(zhì)量的超分辨率人臉圖像。不同于之前的方法,在FSR3D[13]中,3D先驗的估計和人臉圖像的超分辨率是聯(lián)合訓(xùn)練的。
圖3 PSFRGAN的框架圖
為了讓先驗知識估計和人臉圖像超分辨率任務(wù)相互利用相互促進(jìn),并行先驗方法提出同時執(zhí)行超分辨率和先驗估計任務(wù)。如圖4 所示,JASRNet[26]設(shè)計了一個編碼器去提取人臉圖像特征,然后將提取的特征同時送入超分辨率分支和先驗估計分支,得到先驗和超分辨率結(jié)果,以此使得超分辨率和先驗估計兩個任務(wù)相互促進(jìn),共同進(jìn)步。
圖4 JASRNet的框架圖
然而低分辨率人臉圖像所包含的信息是非常有限的,從低分辨率人臉圖像中估計先驗知識非常困難。于是中間先驗方法被提出。為了降低先驗估計的難度,中間先驗方法先對低分辨率人臉圖像進(jìn)行一步上采樣,得到中間結(jié)果,然后從增強的中間結(jié)果估計先驗知識,最后再利用先驗知識和中間結(jié)果恢復(fù)出高分辨率人臉圖像。CBN[27]漸進(jìn)地完成高分辨率人臉圖像的恢復(fù)和人臉結(jié)構(gòu)先驗的估計。于是FSRNet[28]先設(shè)計一個粗略超分辨率網(wǎng)絡(luò)對低分辨率人臉圖像進(jìn)行一步粗略的超分,生成一個中間結(jié)果,接著再從粗略的中間結(jié)果中估計人臉先驗知識(包括人臉特征點、人臉熱力圖、人臉解析圖),同時利用超分辨率編碼器提取中間結(jié)果的特征,最后將中間結(jié)果和先驗知識拼接起來送入編碼器中恢復(fù)出最終的超分辨率結(jié)果,如圖5 所示。相似地,F(xiàn)SRFCH[29]也先對低分辨率人臉圖像進(jìn)行上采樣,然后從上采樣后的特征估計人臉熱力圖,再將估計的熱力圖與中間特征相結(jié)合重建出最終的超分辨率人臉圖像。這兩個方法在網(wǎng)絡(luò)優(yōu)化過程中均采用基于結(jié)構(gòu)先驗的損失來指導(dǎo)先驗估計網(wǎng)絡(luò)可以估計準(zhǔn)確的人臉結(jié)構(gòu)先驗。
圖5 FSRNet的框架圖
人臉圖像質(zhì)量的改善可以提高人臉先驗知識估計的準(zhǔn)確性,反過來,準(zhǔn)確的人臉先驗知識估計也可以提升人臉圖像的質(zhì)量??紤]到這一點,DIC[30]提出交替執(zhí)行人臉超分辨率任務(wù)和熱力圖估計任務(wù)。如圖5所示DIC先將低分辨率人臉圖像送入一個超分辨率網(wǎng)絡(luò),得到其超分辨率結(jié)果ISR1,然后將該結(jié)果送入這熱力圖估計網(wǎng)絡(luò)估計熱力圖P1。這個過程即為超分辨率促進(jìn)熱力圖估計。接著將估計的熱力圖P1與低分辨率人臉圖像一起送入到超分辨率網(wǎng)絡(luò)中恢復(fù)下一次超分辨率結(jié)果ISR2。這個過程即為熱力圖輔助超分辨率網(wǎng)絡(luò)恢復(fù)更高質(zhì)量人臉圖像的過程。以此類推,經(jīng)過多次迭代后,超分辨率任務(wù)和先驗估計任務(wù)相互促進(jìn),共同進(jìn)步。此外,因為直接拼接中間結(jié)果和結(jié)構(gòu)先驗(如FSRNet 何FSRFCH)并不能有效地利用人臉結(jié)構(gòu)先驗,DIC 在超分辨率網(wǎng)絡(luò)中專為熱力圖的利用設(shè)計了一個注意力融合模塊。具體來看,該模塊首先將熱力圖按照人臉圖像進(jìn)行分組,然后計算每個組的熱力圖的加和,在利用softmax 對其進(jìn)行激活后生成一組人臉組件注意力模。為了生成表示不同人臉組件的特征同時不帶來過多的參數(shù)計算量,DIC 選擇用組卷積來自適應(yīng)地生成人臉組件特征。在得到人臉組件特征和人臉組件注意力模后,將對應(yīng)的組件特征和組件注意力模點乘在求和,即得到人臉組件注意力后的特征。此時人臉特征和人臉熱力圖有效地結(jié)合,超分辨率性能顯著提升。
后先驗方法則從最終的超分辨率結(jié)果中估計人臉結(jié)構(gòu)先驗。最具有代表性的后先驗方法是Super-FAN[31],其網(wǎng)絡(luò)框架如圖6 所示。它首先恢復(fù)一個超分辨率結(jié)果,然后設(shè)計先驗估計網(wǎng)絡(luò)了來估計超分辨率結(jié)果的人臉熱力圖信息,并利用基于結(jié)構(gòu)先驗的損失函數(shù)約束超分辨率人臉圖像和高分辨率人臉圖像熱力圖信息要保持一致,從而促進(jìn)超分辨率人臉圖像結(jié)構(gòu)的恢復(fù)。同時Super-FAN 利用判別器計算對抗損失,來恢復(fù)出更真實的具有豐富高頻細(xì)節(jié)人臉圖像。本質(zhì)上,Super-FAN 是利用基于結(jié)構(gòu)先驗的損失函數(shù)來輔助超分辨率模型的優(yōu)化,引導(dǎo)超分辨率模型生成結(jié)構(gòu)意識的人臉圖像。在推理階段,超分辨率人臉圖像的恢復(fù)不再需要結(jié)構(gòu)先驗的估計。
圖6 DIC的框架圖
圖7 Super-FAN的框架圖
在上一節(jié),本文已經(jīng)介紹了基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法。本文則在這一節(jié)對基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法進(jìn)行分析。首先先先驗直接從低分辨率人臉圖像中估計先驗信息,有低分辨率人臉圖像包含的信息量極少,先驗估計的準(zhǔn)確性很難保證,從而限制了模型的性能。而并行先驗的方式雖然可以使先驗估計和超分辨率相互作用相互影響,但是本質(zhì)上先驗估計依然是從低分辨率人臉圖像獲得的,因此性能改善非常有限。中間先驗的方式先恢復(fù)一個中間結(jié)果,再估計先驗知識,再完成超分辨率任務(wù),這一過程盡管可以顯著提升模型性能,但也因為多次超分辨率加大了模型對空間和計算資源的需求。除此以外,上述方法均對結(jié)構(gòu)先驗具有較強的依賴性和較高的,敏感度,一旦估計的結(jié)構(gòu)先驗存在較大的錯誤,模型的性能也會直接受到負(fù)面影響。相比于其他方法,后先驗概率只需要在訓(xùn)練時估計先驗,而在推理階段只需完成超分辨率任務(wù)即可。這同樣是一把雙刃劍。推理階段不涉及先驗估計可以減少模型對空間和計算資源的需求,但也導(dǎo)致模型無法充分挖掘人臉結(jié)構(gòu)先驗的信息。因此設(shè)計一個既可以充分利用人臉結(jié)構(gòu)先驗知識,又不需要額外的計算和空間資源的基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法仍是是當(dāng)前人臉圖像超分辨率領(lǐng)域的難題。此外人臉先驗知識和低分辨率人臉圖像的有效融合也是基于結(jié)構(gòu)先驗的人臉圖像超分辨率方法的核心問題。
本文對現(xiàn)有基于結(jié)構(gòu)先驗的人臉圖像超分辨率技術(shù)進(jìn)行了簡單地回顧與總結(jié)。首先對人臉圖像超分辨率技術(shù)背景進(jìn)行簡要介紹,主要包括人臉圖像超分辨率問題的定義、人臉結(jié)構(gòu)先驗知識以及基于結(jié)構(gòu)先驗的損失函數(shù)。接著本文對基于結(jié)構(gòu)先驗的人臉圖像超分辨率技術(shù)進(jìn)行了劃分和歸類,分別介紹了先先驗、并行先驗、中間先驗和后先驗四個類別中具有代表性的方法。最后本文分析了現(xiàn)有方法中急需解決的問題。