劉 穎,張藝軒,佘建初,王富平,2,林慶帆
1.西安郵電大學 圖像與信息處理研究所,西安 710121
2.西安郵電大學 電子信息現(xiàn)場勘驗應用技術公安部重點實驗室,西安 710121
現(xiàn)如今隨著科技的發(fā)展及社會需求,人臉識別技術[1]得到進一步的發(fā)展。其中包含人臉檢測[2]、人臉活體、人臉匹配、人臉特征提取、人臉屬性識別[3]等關鍵技術,這些廣泛應用于刷臉考勤、人臉識別解鎖、刷臉支付、考生認證、安防[4]刑偵等場合。但人臉圖像獲取時,不僅會受環(huán)境影響[5],而且存在人臉被遮擋的情況,這些因素都會影響人臉識別的準確率[6]。各國人臉存在差異性,因此公安領域中使用專門的中國刑偵人臉數(shù)據(jù)集,對中國人臉進行修復,提高人臉識別準確率,幫助公安干警快速鎖定嫌疑人,大大提升公安干警工作效率。因此,從現(xiàn)實需求層面討論,研究人臉去遮擋技術很有必要。
早期的圖像修復算法主要對塊遮擋、文本遮擋、噪聲、目標遮擋、圖像遮擋以及圖像劃痕進行去除并修復[7]。傳統(tǒng)的圖像修復技術,如補丁匹配算法[8]是基于隨機算法的交互式圖像編輯工具,可以快速進行圖像補丁之間的近似匹配;基于目標周圍信息修復[9]通過整體的語義聯(lián)想待填充部分;矢量場與灰度聯(lián)合插值填充法[10]是基于圖像灰度級和梯度方向的聯(lián)合插值,自動將等參線延伸到要修復的區(qū)域。傳統(tǒng)方法能夠通過圖像整體語義修復圖像缺失部分,但這不僅不能結(jié)合圖像的局部語義聯(lián)想并產(chǎn)生合理的內(nèi)容,而且計算成本高。近幾年卷積神經(jīng)網(wǎng)絡不斷改進,圖像修復技術也隨之發(fā)展。2016 年Pathak等人[11]首次提出基于深度學習的圖像修復方法——上下文編碼器(context encoder,CE),如圖1,并結(jié)合生成式對抗網(wǎng)絡(generative adversarial networks,GAN)[12]判斷預測圖像的可能性。之后Iizuka 等人[13]提出一種新方法——全局與局部一致的圖像修復(globally and locally consistent image completion,GLCIC),此算法使修復圖像的局部和全局信息保持一致。為了準確參考較遠的位置空間信息,Yu 等人研究出一個基于語義注意力的生成性圖像修復算法(generative image inpainting with contextual attention,CA)[14]。該算法的生成網(wǎng)絡引入了粗略到細化的網(wǎng)絡結(jié)構(gòu)。除此之外,為了克服卷積神經(jīng)網(wǎng)絡逐層處理特征,對獲取遠處空間位置特征效果不佳的問題引入了注意力機制。近幾年提出的算法常和以上三種方法進行性能對比。
Fig.1 Context encoder圖1 上下文編碼器
人臉修復是圖像修復的重要分支且其本身含有大量特殊的人臉特征信息[15]。雖然人臉修復包含人臉去遮擋和人臉清晰化處理,但國內(nèi)外研究學者更多地將圖像或人臉修復看作圖像或人臉去遮擋,因此,本文中有提及的一些人臉修復都指為人臉去遮擋。目前針對人臉去遮擋算法的綜述只有一篇[16],通過對比,如表1。本文:(1)從不同角度對算法進行歸納分析比較。根據(jù)遮擋方式和預測生成網(wǎng)絡的不同分別分類為規(guī)則、隨機遮擋算法和基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、GAN 網(wǎng)絡算法。(2)包含更多新算法。如人臉幾何感知的修復和編輯算法、基于先驗引導生成式對抗網(wǎng)絡的語義修復算法、基于3D 可變形模型(3D morphable model,3DMM)和生成式對抗網(wǎng)絡的人臉去遮擋算法等。(3)評價指標更全面。除了常用的圖像評價指標峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)外,還添加初始分數(shù)(inception score,IS)、Fréchet 距 離(Fréchet inception distance,F(xiàn)ID)、l1loss 和用戶調(diào)查(user study)指標。(4)研究趨勢更新穎。未來研究可結(jié)合新型冠狀病毒肺炎提出的真實口罩遮擋人臉識別數(shù)據(jù)集(real-world masked face dataset,RMFRD)、零樣本技術等。
Table 1 Comparison of overviews表1 綜述的比較
本文先討論人臉去遮擋技術的研究背景及基礎算法的發(fā)展,并對比其他綜述。
隨著近幾年CNN 網(wǎng)絡和GAN 網(wǎng)絡的發(fā)展,更多學者關注和人臉修復的結(jié)合[17-20],提出的算法也有較好的效果。本文列舉近五年被引用次數(shù)較多、有代表性且修復效果較高的算法,并對其按遮擋方式的不同分為兩類:一類是規(guī)則遮擋,另一類是隨機遮擋。為了提高修復效果,算法網(wǎng)絡大多為混合式優(yōu)化結(jié)構(gòu),因此本文按照修復中預測生成階段(不考慮優(yōu)化、鑒別或重建階段)基于不同的網(wǎng)絡結(jié)構(gòu)進一步分類:基于卷積神經(jīng)網(wǎng)絡和基于生成式對抗網(wǎng)絡。算法分類和匯總?cè)鐖D2 所示。
Fig.2 Classification圖2 分類
規(guī)則遮擋包括矩形框遮擋塊(如128×128 大小的遮擋塊[21])、多個矩形框組合遮擋和人臉某一個關鍵特征(眼睛、鼻子、嘴等)的遮擋,如圖3 所示。其中包括9 個算法:基于生成式多列卷積神經(jīng)網(wǎng)絡的圖像修復算法[22]、圖像修復的分割預測和引導網(wǎng)絡[23]、基于全端到端漸進式生成式對抗網(wǎng)絡的具有多種可控屬性的高分辨率人臉修復[24]、金字塔-上下文編碼網(wǎng)絡修復高質(zhì)量圖像[25]、生成式人臉修復算法[26]、多樣性圖像修復算法[21]、基于幾何感知的人臉修復和編輯網(wǎng)絡[27]、無監(jiān)督式跨空間轉(zhuǎn)換的生成式對抗網(wǎng)絡[28]和基于語義修復的先驗引導GAN 網(wǎng)絡[29]。它們對早期的深度學習算法進行改進,對規(guī)則遮擋都有較好的修復效果。
Fig.3 Example of regular occlusion圖3 規(guī)則遮擋例圖
1.1.1 基于卷積神經(jīng)網(wǎng)絡
根據(jù)算法模型網(wǎng)絡特點、優(yōu)缺點以及算法適用場景的不同,本小節(jié)主要介紹4 種具有代表性的、對規(guī)則遮擋采用基于卷積神經(jīng)網(wǎng)絡的人臉修復算法模型,如表2。
Wang 等人[22]在2018 年提出一種基于生成式多列卷積神經(jīng)網(wǎng)絡的圖像修復(image inpainting via generative multi-column convolutional neural networks)結(jié)構(gòu)。為提取圖像中的最佳特征,此算法融合并行方式將圖像分解為具有不同感受野和特征分辨率的分量,以此進行圖像的合成;為確定相似度高的補丁塊,融合隱式多樣化馬爾可夫隨機場項(implicit diversified Markov random field,ID-MRF);設計新的置信驅(qū)動的重建損失以更好地綜合圖像信息。該方法可以提取不同層次的圖像特征空間,克服從粗略化網(wǎng)絡到細化網(wǎng)絡修復圖像過程中帶來像素的丟失,甚至即便沒有普通修復算法的后處理也能產(chǎn)生較好的視覺效果,但是處理不同對象和不同場景的大規(guī)模有遮擋數(shù)據(jù)存在困難。經(jīng)過大量實驗,此方法適用于對增強圖像局部細節(jié)有要求、圖像信息空間分布復雜的情況。
同年,Song 等人[23]提出一個新的修復思路——融合圖像分割引導技術(segmentation prediction and guidance)生成修復結(jié)果。它把修復過程分為兩個網(wǎng)絡:分割預測網(wǎng)絡(segmentation prediction networks,SP-Net)和分割引導網(wǎng)絡(segmentation guidance networks,SG-Net)。分割預測過程使用Deeplapv3+圖像分割技術生成圖像分割標簽,并預測出缺失區(qū)域的分割標記,生成缺失區(qū)域的細節(jié)先驗信息的分割圖。分割引導過程將修復的分割圖和缺失原圖結(jié)合,進行編解碼過程生成最終修復圖像。該方法不僅會生成分割信息圖,而且可以交互式編輯操作,輸出多種模型修復結(jié)果,如生成的結(jié)果中添加了格外的組件。在Cityscapes 數(shù)據(jù)集和Helen Face 數(shù)據(jù)集進行大量測試,此方法適用于處理修復邊界模糊的情況,例如一張圖像中不同物體邊界之間需要產(chǎn)生真實鮮明的紋理細節(jié)。
Chen 等人[24]提出一種基于全端到端漸進式生成式對抗網(wǎng)絡的具有多種可控屬性的高分辨率人臉修復(high resolution face completion with multiple controllable attributes via fully end-to-end progressive generative adversarial networks)。為控制生成內(nèi)容的屬性奠定基礎,修復網(wǎng)絡的生成部分基于U-Net 網(wǎng)絡,在卷積和反卷積之間的潛在向量中添加屬性標簽。修復網(wǎng)絡的鑒別部分中不僅鑒別修復的圖像是否真實,還融合了另外一個分支:預測屬性向量。該算法可以根據(jù)人的主觀意愿修復并生成某些屬性(微笑、性別等)。除此以外,生成器和鑒別器的訓練是從低分辨率(4×4)開始,逐漸增加更高層直至高分辨率,如圖4。因此該方法不僅可以控制生成人臉的多個屬性,還可以修復高分辨率的人臉圖像,沒有后處理卻可以在單一網(wǎng)絡中實現(xiàn)高質(zhì)量的修復功能,但是模型訓練時間長,算法不能學習低級的皮膚紋理以及有時會生成不對稱的面部信息。經(jīng)過大量測試表明,此結(jié)構(gòu)適合于在高分辨率的情況下對缺失部分生成人們主觀意愿的屬性結(jié)果。
Table 2 Summary and comparison of regular occlusion CNN-based algorithms表2 規(guī)則遮擋的基于卷積神經(jīng)網(wǎng)絡算法的總結(jié)及對比
Fig.4 Generator with controlled attributes face completion圖4 具有可控屬性人臉修復的生成器
自從Yu 等人[14]在圖像修復中引入注意力,之后更多學者對此進行深入的研究,例如Zeng等人[25]在提出的基于U-Net 的金字塔-上下文編碼網(wǎng)絡(pyramidcontext encoder network,PEN-Net)中,設計了一種注意力轉(zhuǎn)移網(wǎng)絡(attention transfer network,ATN)。ATN是從深層語義特征中融合缺失區(qū)域內(nèi)部和外部之間的注意力,并將注意力轉(zhuǎn)移到原始特征圖中高分辨的區(qū)域,最后通過四組不同速率的膨脹卷積對多尺度信息進行聚合,達到修復淺層特征的目的。該模型不僅對缺失區(qū)域進行修復,還提高了網(wǎng)絡中編碼效率,但是該網(wǎng)絡目前還不能生成高分辨率的圖像。經(jīng)過測試,此方法適用于在視覺和語義都需要保持一致性的情況。
1.1.2 基于生成式對抗網(wǎng)絡
根據(jù)算法被提出年份,模型網(wǎng)絡特點、優(yōu)缺點以及算法適用場景的不同,本小節(jié)主要介紹5 種具有代表性的、對規(guī)則遮擋采用基于生成式對抗網(wǎng)絡的人臉修復算法模型,如表3。
Table 3 Summary and comparison of regular occlusion GAN-based algorithms表3 規(guī)則遮擋的基于生成式對抗網(wǎng)絡算法的總結(jié)及對比
Li 等人[26]基于深度生成模型提出一個生成式人臉修復(generative face completion,GFC)算法是由一個生成器、兩個鑒別器以及一個語義解析網(wǎng)絡構(gòu)成,如圖5 所示。模型中的生成器采用基于VGG-19(visual geometry group-19)的自動編碼器[30];為了判別生成人臉圖像和缺失區(qū)域中合成的補丁圖像的真實度,融合全局鑒別器和局部鑒別器;語義解析網(wǎng)絡融合改進的GAN 網(wǎng)絡,最終生成人臉修復圖像。該算法專門針對具有特殊特征的人臉圖像,解決了傳統(tǒng)修復算法對人臉圖像修復不佳的問題,且可以修復輸出逼真的結(jié)果,但是不能很好處理未對齊的人臉圖像。除此之外未能利用相鄰像素之間的空間相關性信息導致出現(xiàn)不正確的修復結(jié)果。經(jīng)過在專門的人臉數(shù)據(jù)集中測試,此網(wǎng)絡結(jié)構(gòu)適用于需要快速修復人臉大面積缺失的情況。
Fig.5 Generative face completion model structure圖5 生成式人臉修復模型結(jié)構(gòu)
Zheng 等人提出一種多樣性圖像修復方法(pluralistic image completion)[21]。提出的框架具有兩條平行但在訓練中有連接的路徑(GAN 網(wǎng)絡對這兩條路徑都有作用):一條是基于VAE(variational auto encoder)[31]的重建路徑,它不僅從先驗信息分布中重建原始圖像,且對缺失區(qū)域的隱藏空間加入先驗;另一條是生成路徑,它融合輔助鑒別器[12],對缺失區(qū)域隱藏的先驗分布信息進行采樣。為了使模型不僅可以學到局部特征,還能學到全局特征,融合一個新的短期+長期注意力層。此算法可以生成合理的、內(nèi)容具有可變性的結(jié)果。對于解決人臉遮擋圖像,此算法在CelebA-HQ 數(shù)據(jù)集上進行測試,表明該算法適合于不僅需要輸出高質(zhì)量的修復結(jié)果還能生成多種修復可能的情景。
Song 等人[27]通過研究人臉幾何結(jié)構(gòu),提出了一種基于幾何感知的人臉修復和編輯網(wǎng)絡(geometryaware face completion and editing)。其中設計的FCENet(face completion and editing network)由三個階段組成:第一階段,融合人臉幾何信息,從遮擋的人臉圖像中計算出人臉解析圖和特征點熱圖;第二階段,為了恢復人臉圖像,將遮擋圖像、預測的特征點熱圖和解析圖作為人臉修復生成器的輸入,如圖6;第三階段,兩個鑒別器分別在全局和局部上區(qū)分生成人臉圖像和真實人臉圖像。此外,算法為了對不同形狀和尺寸的遮擋進行合理處理,新的低秩正則化方法被提出。此網(wǎng)絡可以充分利用人臉幾何先驗信息[32],為人臉修復提供有用提示,以及可以修改遮擋區(qū)域的人臉屬性,例如眼睛形狀、嘴巴大小等[26]。在CelebA[33]和Multi-PIE[34]數(shù)據(jù)集上實驗,表明此方法適用于需要對遮擋人臉圖像進行幾何修復且對面部屬性能夠進行合理編輯的情況。
Fig.6 FCENet phase II圖6 FCENet第二階段
Zhao等人[28]提出了一個轉(zhuǎn)換網(wǎng)絡——無監(jiān)督式跨空間轉(zhuǎn)換的生成式對抗網(wǎng)絡(unsupervised cross-space translation generative adversarial networks,UCTGAN)。該網(wǎng)絡主要由三個網(wǎng)絡模塊組成:條件編碼器模塊、流形投影模塊和生成模塊。為了提高生成圖像的多樣性,將流形投影模塊和生成模塊相融合,將真實圖像空間和修復圖像空間投影到公共低維流形空間,并以無監(jiān)督的方式學習兩個空間之間一對一的圖像映射。此外,為了獲取全局信息,利用已知圖像和修復圖像之間的依賴關系,引入了一個新的跨語義關注層。該網(wǎng)絡降低了修復模型崩潰的可能性,提高了修復圖像的真實性。對于遮擋的人臉圖像,在CelebA-HQ 數(shù)據(jù)集測試并表明該方法適用于需要從同一幅待修復人臉圖像中生成多種多樣的語義合理且視覺真實的人臉圖像。
Lahiri等人[29]提出的基于語義修復的先驗引導GAN網(wǎng)絡(prior guided GAN based on semantic inpainting):為了提高修復速度,用一個數(shù)據(jù)驅(qū)動的參數(shù)網(wǎng)絡預估匹配遮擋圖像的先驗信息;為了更好保證修復圖像的內(nèi)容和大小,融合結(jié)構(gòu)先驗約束網(wǎng)絡;此外,為了擴展序列重構(gòu)模型,提出一種基于分組隱式先驗學習的遞歸網(wǎng)絡。此算法不僅提高預測缺失區(qū)域的速度且對基于深度學習的語義修復進行改進。對于人臉遮擋圖像,該算法表明適合于先訓練生成模型,通過隱式先驗分布的映射預估出“最佳匹配”的場景。
1.1.3 小結(jié)
目前,在預測生成階段中修復規(guī)則遮擋的大多數(shù)CNN 網(wǎng)絡是基于U-Net[35]框架。前兩小節(jié)總結(jié)和對比修復規(guī)則遮擋的基于CNN 網(wǎng)絡和基于GAN 網(wǎng)絡的算法,它們是向基礎框架中融合新模塊或?qū)ζ溥M行優(yōu)化改進,構(gòu)成一種對規(guī)則遮擋進行多算法融合的修復系統(tǒng),最終獲得較佳的生成結(jié)果。例如1.1.1 小節(jié)中算法[23]將分割算法融合到CNN 網(wǎng)絡,適用于修復邊界模糊場景。此外,還有一些規(guī)則遮擋算法被提出,例如融合多尺度神經(jīng)補丁合成技術[36];在CNN 網(wǎng)絡中融合移位連接(shift-net)層[37];在粗細網(wǎng)絡中設計并融合“patch-swap”層[38]。在去規(guī)則遮擋的人臉修復中,各類融合算法能滿足、解決或優(yōu)化不同的修復需求,如表2 和表3 所示。
隨機遮擋包括隨機噪聲的遮擋、隨機物體遮擋和隨機的涂鴉式遮擋,如圖7 所示。其中包括8 個算法:基于部分卷積對不規(guī)則遮擋圖像修復[39]、生成式特征點引導人臉修復[40]、基于門卷積的隨機遮擋圖像修復[41]、循環(huán)特征預測的圖像修復[42]、圖像細粒度修復[43]、基于深度生成模型的語義圖像修復算法[32]、基于3DMM 和生成對抗網(wǎng)絡的人臉去遮擋[44]、基于對抗式邊緣學習的生成式圖像修復算法[45]。盡管隨機遮擋修復所用網(wǎng)絡比規(guī)則遮擋修復網(wǎng)絡要復雜,但也表現(xiàn)了較好的修復結(jié)果。
Fig.7 Example of random occlusion圖7 隨機遮擋例圖
1.2.1 基于卷積神經(jīng)網(wǎng)絡
根據(jù)算法被提出年份、模型網(wǎng)絡特點、優(yōu)缺點以及算法適用場景的不同,本小節(jié)主要介紹5 種具有代表性的、對隨機遮擋采用基于卷積神經(jīng)網(wǎng)絡的人臉修復算法模型,如表4。
Liu 等人[39]提出,用部分卷積對不規(guī)則遮擋進行圖像修復(image inpainting for irregular holes using partial convolutions)。此算法融合迭代部分卷積和更新掩碼進行修復:部分卷積只在圖像的有效區(qū)域進行,且遮擋隨網(wǎng)絡層的加深而不斷迭代和收縮;自動掩碼的更新是一種刪除部分卷積對未遮擋值的操作,留下有效的響應。此方法較為穩(wěn)定且可以修復任何形狀、大小、位置的遮擋,解決之前修復方法出現(xiàn)的顏色差異、模糊和偽影等問題,但是對于稀疏的結(jié)構(gòu)圖像表現(xiàn)不佳。經(jīng)過大量實驗,此方法適合于遮擋區(qū)域大或遮擋隨機的場景。
Yang 等人[40]研究了一種生成式特征點引導人臉修復的網(wǎng)絡(generative landmark guided face inpainting)。模型融合兩個子網(wǎng)絡:預測人臉關鍵點網(wǎng)絡使用關鍵特征點算法得到人臉拓撲結(jié)構(gòu)和屬性;基于關鍵點的圖像修復網(wǎng)絡利用語義信息保證生成的人臉圖像屬性一致,如圖8。此算法為修復提供方向性和魯棒性,并可以擴充人臉的特征數(shù)據(jù),減輕可能存在的人工標注的工作量。通過實驗表明,在擁有足夠和明確的人臉關鍵點時,此方法可為人臉修補提供結(jié)構(gòu)信息性的引導。
Yu等人[41]提出了一個基于門卷積的隨機遮擋圖像修復(free-form image inpainting with gated convolution)。為了解決普通卷積,將所有輸入像素視為有效像素,編碼器結(jié)構(gòu)采用門卷積;為了解決隨機遮擋的自由性,融合基于GAN的頻譜歸一補丁(spectral normalizedpatch based on generative adversarial network,SNPatch GAN),其訓練快速且穩(wěn)定。此網(wǎng)絡不僅能參考較深網(wǎng)絡層的語義信息,在不同通道中突出遮擋區(qū)域,還能生成無縫邊界過渡的結(jié)果,解決了自由遮擋導致生成的顏色差異、模糊和遮擋周圍明顯的邊緣響應[13]等問題。實驗表明,該算法在遮擋自由度較高和隨機時,都能獲得視覺語義一致的修復結(jié)果。
Table 4 Summary and comparison of random occlusion CNN-based algorithms表4 隨機遮擋的基于卷積神經(jīng)網(wǎng)絡算法的總結(jié)及對比
Fig.8 Landmark guided face inpainting architecture圖8 特征點引導的人臉修復結(jié)構(gòu)
Li 等人[42]設計了一個循環(huán)特征預測(recurrent feature reasoning,RFR)的圖像修復網(wǎng)絡。RFR 模塊循環(huán)預測卷積特征的缺失邊界,將它們用作進一步預測的根據(jù);為了在RFR 中獲得距離較遠的圖像信息,融合設計了知識一致性注意(knowledge consistent attention,KCA)模塊,在循環(huán)中共享注意力得分,并用來引導修復區(qū)域的轉(zhuǎn)換和更新。該網(wǎng)絡結(jié)構(gòu)不僅能解決修復圖像紋理模糊的問題,還能使生成的語義信息更準確,但是不能直接使用注意力模塊,會生成邊界的偽影。根據(jù)實驗證明,此算法對連續(xù)缺失區(qū)域的修復有較好的表現(xiàn),人臉圖像特征之間的一致性也得到提高。
Hui 等人[43]提出一種細粒度的修復算法(image fine-grained inpainting)。為擴大視覺感受野且確保密集的卷積核,融合了密集多尺度融合塊(dense multiple fusion block,DMFB),它由4 個擴張卷積組成,如圖9;將WGAN-GP(Wasserstein generative adversarial networkgradient penalty)[46]用于對抗訓練,使用RaGAN(relativistic average generative adversarial network)[47]生成更逼真的圖像;為了生成具有真實的語義結(jié)構(gòu)圖像,設計了一個約束生成低級特征內(nèi)容的自引導回歸損失;最后為了補償預測特征和標準真實特征之間像素的距離,融合一種幾何對齊約束項。此算法網(wǎng)絡可以生成精細的紋理且具有全局性的語義結(jié)構(gòu),但是總體算法結(jié)構(gòu)復雜,訓練耗時長。因此,細粒度算法更適合于需要生成精細結(jié)果,且與目標圖像一致的場景。
Fig.9 Dense multiple fusion block architecture圖9 密集多尺度融合塊架構(gòu)
1.2.2 基于生成式對抗網(wǎng)絡
根據(jù)算法被提出年份、模型網(wǎng)絡特點、優(yōu)缺點以及算法適用場景的不同,本小節(jié)主要介紹3 種具有代表性的、對隨機遮擋采用基于生成式對抗網(wǎng)絡的人臉修復算法模型,如表5。
Yeh 等人[32]提出了一種新的語義圖像修復方法:基于深度生成模型的語義圖像修復(semantic image inpainting with deep generative models)。該方法對訓練好的生成模型中融合加權(quán)語義損失確定隱式空間和缺失圖像之間最相似的編碼信息,然后通過生成模型預測出缺失內(nèi)容。該方法優(yōu)于普通的基于語義算法CE,可以生成合理清晰的邊緣信息,但存在修復失敗的例子,無法在隱式中找到正確的生成結(jié)果,也說明,此方法普適性不高。在人臉數(shù)據(jù)集上進行評估,結(jié)果表明,此算法預測大面積缺失區(qū)域有很好的效果。
Table 5 Summary and comparison of random occlusion GAN-based algorithms表5 隨機遮擋的基于生成式對抗網(wǎng)絡算法的總結(jié)及對比
在最近的幾十年中,3DMM[48]已普遍用于3D 人臉重建中。Yuan 和Park[44]提出了一種基于3DMM 和生成對抗網(wǎng)絡的人臉去遮擋(face de-occlusion using 3D morphable model and generative adversarial network)算法。融合3DMM 進行面部去遮擋的網(wǎng)絡,為人臉的幾何先驗和局部鑒別器提供幫助;為使遮擋圖像多樣化,作者團隊從300W-3D 和AFLW2000-3D[49]數(shù)據(jù)集中合成一個大型數(shù)據(jù)集。此方法不僅消除遮擋,重建無遮擋紋理的三維人臉模型,還可以通過修改3DMM 系數(shù)編輯人臉屬性。實驗結(jié)果證實該算法更適合結(jié)合相關3D 算法。
Nazeri 等人[45]提出一種基于對抗式邊緣學習的生成式圖像修復(generative image inpainting with adversarial edge learning)。模型結(jié)構(gòu)包括:融合讓圖像缺失區(qū)域的邊緣產(chǎn)生幻覺的邊緣生成器和把幻覺邊緣作為先驗,對缺失區(qū)域補全的圖像補全網(wǎng)絡,如圖10。最后通過語義信息將顏色填入所描繪的輪廓中。此兩階段對抗模型可以生成逼真結(jié)果且與大部分圖像結(jié)構(gòu)保持完整,但是邊緣生成器有時不能準確修復高級紋理區(qū)域的邊緣,對于高分辨率圖像的修復還有待研究。對于人臉修復,在數(shù)據(jù)集CelebA評估模型,并表明修復適合于不規(guī)則結(jié)構(gòu)缺失的場景,在邊緣信息存在時只學習顏色分布,修復效率和效果都有所提升。
1.2.3 小結(jié)
總結(jié)并對比1.2.1 小節(jié)和1.2.2 小節(jié)中基于CNN和基于GAN 網(wǎng)絡的算法,它們也是向修復框架中增加新模塊對其進行改進,構(gòu)成一種對隨機遮擋進行多算法融合的修復系統(tǒng)。例如文獻[45]算法設計并融合邊緣生成器,適用于不規(guī)則結(jié)構(gòu)缺失的修復。除此之外,還有一些融合修復算法,例如:融合注意力和解碼網(wǎng)絡的[50];融合邊緣計算的邊-端特性和門卷積[51];部分卷積、局部注意力和U-Net 結(jié)構(gòu)[52]相融合。在去除隨機遮擋人臉的修復中各類融合算法較為復雜,但能滿足不同的修復需求,如表4 和表5。
目前提出的各類融合修復算法對修復的效果質(zhì)量、修復的多樣性以及控制生成屬性方面有較好的成果。規(guī)則遮擋的方法對編解碼網(wǎng)絡、粗細修復兩階段、生成鑒別兩階段等框架進行不同程度的改進,融合局部和全局信息對規(guī)則遮擋塊進行紋理和語義上的恢復。由于在去遮擋人臉修復方面,隨機遮擋的難度較大于規(guī)則遮擋,在隨機遮擋的算法中添加融合的模塊更多,其設計結(jié)構(gòu)更為復雜,運算時間、成本比單一的修復網(wǎng)絡多,但是隨機遮擋更貼合實際的應用,適用性更廣泛。預測生成階段更多學者關注對CNN 網(wǎng)絡的優(yōu)化和改進,而GAN 網(wǎng)絡因含有鑒別能力,常用于修復中的鑒別階段,因此近幾年的大部分算法在修復過程中融合CNN 網(wǎng)絡和GAN 網(wǎng)絡的優(yōu)點,達到自然的修復效果。對于人臉遮擋,文獻[27]算法和文獻[40]算法分別提出將人臉幾何信息和人臉關鍵特征點融合到修復網(wǎng)絡中,并取得較好的修復效果。因此未來可以嘗試通過挖掘并融合更多人臉信息來優(yōu)化人臉去遮擋的效果。
判斷人臉去遮擋技術優(yōu)劣中需引入定量的評價指標,目前基于深度學習的人臉去遮擋算法常用的評價指標有以下六種:PSNR、SSIM、IS、FID、l1loss和User Study。本文從人臉視覺修復效果的角度和對特殊數(shù)據(jù)的分布進行了比較并羅列其優(yōu)缺點,如表6。
Table 6 Summary of evaluation indicators表6 評價指標總結(jié)
Fig.10 Edge connect inpainting model圖10 邊緣連接修復模型
2.1.1 峰值信噪比
峰值信噪比(peak signal to noise ratio,PSNR)[53]的初始意義是表示信號的最大可能功率和影響它精度的噪聲功率的比值。引申到圖像處理領域中,它作為一種廣泛應用的評價圖像指標,在人臉去遮擋技術中用來衡量修復質(zhì)量的好壞,它越高,意味圖像壓縮后的失真越小。相關計算推導公式如下所示:
其中,MSE表示兩個m×n的I圖像和K圖像的均方誤差。
其中,MAXI表示圖像的最大像素值。
2.1.2 結(jié)構(gòu)相似性
結(jié)構(gòu)相似性(structural similarity index,SSIM)[54]是一種衡量無失真無壓縮圖像與待對比圖像之間結(jié)構(gòu)相似度的指標[55]。它分別從亮度、對比度、結(jié)構(gòu)三方面度量兩者圖像的相似度,其值越大越好,最大值為1。在人臉去遮擋中,SSIM 被用來衡量修復圖像X和原始圖像Y間的完整性和相似性。公式如式(3)所示:
其中,μX是X的平均值,μY是Y的平均值,均值是對圖像的亮度估計;是X的方差,是Y的方差,標準差是對圖像的對比度估計;σXY是X和Y的協(xié)方差,協(xié)方差是對圖像間結(jié)構(gòu)相似度的度量,其范圍為0 到1;c1和c2是用來維持穩(wěn)定的常數(shù)。
2.1.3 初始分數(shù)
初始分數(shù)(inception score,IS)[56]是評價由GAN網(wǎng)絡生成圖像模型的重要指標之一,其指標又包含了生成圖像的質(zhì)量和多樣性兩個性能:生成圖像質(zhì)量由概率p(y|x)代表,概率越大,質(zhì)量越好;生成圖像多樣性由p(yn)代表,n是原訓練的數(shù)據(jù)類數(shù),其熵越大越好。綜合這兩個性能,IS 公式為:
其中,G是生成器用噪聲得出的輸出圖像;x∈p表示從生成器中生成圖像;p(y|x)是生成圖像x屬于各個類別的概率;p(y)是從生成器中生成的所有圖像在所有類別上的邊緣分布;DKL是KL-divergence 的計算公式,它用來衡量兩個概率的分布距離,值越大說明二者分布越不像。
2.1.4 Fréchet距離
Fréchet 距離(Fréchet inception distance,F(xiàn)ID)是將生成數(shù)據(jù)和訓練數(shù)據(jù)作為特征層面的對比。通過計算真實圖像和待預估圖像之間的特征距離,衡量生成圖像的質(zhì)量和多樣性。其值越低,代表生成圖像和訓練圖像的特征數(shù)據(jù)分布之間越接近,從而使生成器生成的圖像多樣性和質(zhì)量都較好。公式如下:
其中,x代表真實圖像;g代表生成圖像;μx代表真實圖像的均值,μg代表生成圖像的均值;tr 代表特征數(shù)據(jù)矩陣對角線上元素的總和(trace,也稱矩陣的“跡”);Σx代表真實圖像的協(xié)方差,Σg代表生成圖像的協(xié)方差。
2.1.5 l1 loss
l1loss 也被稱為最小絕對值偏差,它是將目標圖像和預估圖像的絕對差值總和最小化,其值越小越好。公式如下:
其中,S是目標圖像和預估圖像的絕對差值的總和;Yi是目標圖像值;f(xi)是預估圖像值。
2.1.6 用戶調(diào)查
用戶調(diào)查(user study)是一項人類主觀的研究,通過調(diào)查用戶對圖像間的比較,選出修復自然的圖像,旨在測試和衡量提出算法的性能。對于人臉圖像去遮擋常選用A/B 測試方法:利用平臺(MTurk、Google 平臺等),將調(diào)查用戶分成幾組,在有時間限制或無限時間且保證用戶特征差別不大的情況下,從數(shù)據(jù)集中隨機選擇一定數(shù)量的圖像,每幅圖像要求用戶進行多次比較,也可打亂圖像順序保證結(jié)果公平性,最后要求用戶選擇出圖像修復自然的圖像,平臺對所有用戶的選擇結(jié)果進行統(tǒng)計和分析。
在人臉去遮擋實驗中常采用的數(shù)據(jù)集,如表7所示。
Fig.11 CelebA dataset圖11 CelebA 數(shù)據(jù)集
Fig.12 CelebA-HQ dataset圖12 CelebA-HQ 數(shù)據(jù)集
Table 7 Commonly used datasets表7 常用數(shù)據(jù)集
Fig.13 Places2 dataset圖13 Places2 數(shù)據(jù)集
Fig.14 ImageNet dataset圖14 ImageNet數(shù)據(jù)集
Fig.15 Paris Street View dataset圖15 Paris Street View 數(shù)據(jù)集
因為CelebA 圖11 和CelebA-HQ 圖12 數(shù)據(jù)集含有豐富的人臉特征屬性、數(shù)據(jù)量龐大且存在豐富標簽等特點,所以常被用于視覺圖像的處理,作為實驗中的訓練集和測試集。雖然Places2 圖13、ImageNet圖14、Paris Street View 圖15 和SVHN 圖16 數(shù)據(jù)集不是人臉數(shù)據(jù)集,但其數(shù)據(jù)量龐大且多樣,因此常作為深度學習中的訓練數(shù)據(jù)集。因為亞洲人臉相較歐美人臉有獨特的特征信息,所以以上數(shù)據(jù)集不能很好地用于中國刑偵領域。因此,在未來建立屬于中國公安獨有的中國人臉數(shù)據(jù)集,對中國刑偵發(fā)展有著推動作用。
Fig.16 SVHN dataset圖16 SVHN 數(shù)據(jù)集
表8 比較了規(guī)則遮擋中九種修復算法?;谏墒蕉嗔芯矸e神經(jīng)網(wǎng)絡的圖像修復在CelebA 和CelebA-HQ 人臉數(shù)據(jù)集上進行測試,在結(jié)構(gòu)合理和紋理清晰的人臉圖像上有明顯的視覺改善——偽影減少。和CA 算法[14]相比,可以生成臉部的陰影和光澤,比較如圖17。盡管圖像修復的分割預測和引導網(wǎng)絡的定量分析SSIM 和PSNR 數(shù)據(jù)是基于Cityscapes 數(shù)據(jù)集,但是針對人臉數(shù)據(jù),和算法GFC[26]進行對比,對于邊界的修復更為清晰,說明此網(wǎng)絡具有較強的泛化能力。對于基于全端到端漸進式生成式對抗網(wǎng)絡的具有多種可控屬性的人臉修復算法的遮擋尺寸是輸入圖像尺寸的10%~30%,其評價指標依靠于用戶調(diào)查后進行方差計算后的數(shù)據(jù)結(jié)果,并對結(jié)果進行等級排序,雖然不能得到底層的紋理,如皺紋,但可以產(chǎn)生豐富的紋理信息,如雀斑。金字塔-上下文編碼網(wǎng)絡修復高質(zhì)量圖像技術是基于Places2 數(shù)據(jù)集,采用MS-SSIM[64]評價標準衡量算法性能,實驗表明生成的結(jié)果不僅視覺真實、語義合理,結(jié)構(gòu)顏色也與周圍圖像信息一致,但是偶爾會生成左半邊臉和右半邊臉差別大的結(jié)果,如圖18,左右眼不一致。生成式人臉修復算法在CelebA 數(shù)據(jù)集上分別對遮擋人臉左半邊、右半邊、兩只眼睛、左眼、右眼和下半邊這六類進行評估,如圖19。大量實驗表明此算法可以修復人臉圖像,但性能會隨遮擋尺寸的增加而下降,因此該算法在遮擋區(qū)域不超過64×64 像素下效果較好。多樣性圖像修復同樣在CelebA-HQ 人臉數(shù)據(jù)集上進行評估,并和CA 算法[14]進行結(jié)果對比,此算法可以生成多種自然且具有相似性的結(jié)果?;趲缀胃兄娜四樞迯秃途庉嬓迯驮贑elebA 數(shù)據(jù)集上和文獻[8,11,26,32]算法進行對比,此算法表現(xiàn)更好,生成的
圖像更為真實。無監(jiān)督式跨空間轉(zhuǎn)換的生成對抗網(wǎng)絡在CelebA-HQ 數(shù)據(jù)集上和現(xiàn)有文獻[11,14,21,65-67]方法進行定量比較,它可以生成多個不同的合理結(jié)果?;谡Z義的先驗引導GAN 網(wǎng)絡在10%和40%的遮擋占比率下對比多種修復算法,表明此方法能夠快速生成較高質(zhì)量且精細的人臉圖像。
Table 8 Summary of regular occlusion algorithm experiments表8 規(guī)則遮擋算法實驗總結(jié)
Fig.17 Inpainting results based on generative multicolumn convolutional neural networks and comparison圖17 基于生成式多列卷積神經(jīng)網(wǎng)絡的修復結(jié)果及對比
Fig.18 Defect of pyramid-context encoder network for high-quality image inpainting圖18 金字塔-上下文編碼網(wǎng)絡修復高質(zhì)量圖像的缺陷
Fig.19 Six types of occlusion圖19 六種遮擋類型
Fig.20 Inpainting results based on irregular occlusion using partial convolutions and comparison圖20 基于部分卷積的不規(guī)則遮擋修復結(jié)果及對比
表9 比較了隨機遮擋中八種修復算法?;诓糠志矸e的不規(guī)則遮擋修復在CelebA-HQ 數(shù)據(jù)集上和文獻[14]算法進行比較,如圖20。定量分析是在Places2 數(shù)據(jù)集下測試,結(jié)果顯示此方法在不規(guī)則且不同遮擋占比率下優(yōu)于其他算法[8,13]。生成式特征點引導人臉修復在CelebA-HQ 數(shù)據(jù)集中進行不同隨機遮擋占比率的比較,結(jié)果表明人臉特征點的修復引導比邊緣信息更具魯棒性?;陂T卷積的隨機遮擋圖像修復的定量指標是以平均l1loss 和平均l2loss 為指標,在CelebA-HQ 數(shù)據(jù)集上針對自由形狀遮擋和一些算法[8,13-14,39]進行修復對比,結(jié)果表明該算法可以快速去除遮擋,實現(xiàn)更高質(zhì)量的結(jié)果。循環(huán)特征預測的圖像修復和文獻[21,39,41,45,67]算法分別對不同占比率的遮擋進行比較,不僅結(jié)果產(chǎn)生很好效果,運算也相對快。圖像細粒度修復在CelebA-HQ和FFHQ 人臉數(shù)據(jù)集上進行評估,其定量指標是基于FFHQ 人臉數(shù)據(jù)集與文獻[14,21-22,25]算法相比,此算法對于大面積不規(guī)則的遮擋表現(xiàn)出更精細的修復效果,如圖21?;谏疃壬赡P偷恼Z義圖像修復算法和CE 算法[11]進行對比,此算法修復的人臉圖像邊緣更清晰?;?DMM 和生成式對抗網(wǎng)絡的人臉去遮擋在CelebA 數(shù)據(jù)集上訓練與文獻[26]算法進行對比,可以在不同遮擋面積的情況下無需對遮擋區(qū)域進行預處理就能自動去除遮擋,且修復效果明顯。基于對抗式邊緣學習的生成式圖像修復表明了重建圖像輪廓信息有助隨機遮擋的修復,如圖22。
Table 9 Summary of random occlusion algorithm experiments表9 隨機遮擋算法實驗總結(jié)
Fig.21 Results of image fine-grained inpainting圖21 圖像細粒度修復結(jié)果
Fig.22 Inpainting results based on generative image inpainting with adversarial edge learning and comparison圖22 基于對抗式邊緣學習的生成式修復結(jié)果及對比
根據(jù)實驗效果和算法間的對比,隨著算法不斷完善和改進,規(guī)則遮擋修復算法在視覺和定量上都有一定提高。一般情況人臉修復效果會隨遮擋面積的增大而效果降低,定量指標可證明此結(jié)論。和規(guī)則遮擋修復算法相比,隨機遮擋修復效果會更受遮擋缺失面積大小的制約,不確定性會更多。但結(jié)合實際需求隨機遮擋修復是一個有價值的研究方向,其各項指標和視覺效果隨各算法的改進而表現(xiàn)提升,如表9。基于CNN 網(wǎng)絡和GAN 網(wǎng)絡的各類融合算法對預測和生成都起重要作用,且多數(shù)算法引入鑒別結(jié)構(gòu),使最終修復生成更為穩(wěn)定且自然的人臉圖像。與此同時,學者們?nèi)岳^續(xù)探索,使去除遮擋的結(jié)果更合理、多樣和高質(zhì)量。
為了人臉去遮擋技術在未來更有效,本文認為在未來有五點需要探索和研究:
(1)建立應用于中國刑偵領域的中國人臉數(shù)據(jù)集
有針對性的數(shù)據(jù)集會對去遮擋算法中模型的訓練產(chǎn)生積極影響[68]。目前提出的人臉去遮擋技術都是基于國外的人臉數(shù)據(jù)庫進行訓練測試,例如,CelebA 數(shù)據(jù)集和CelebA-HQ 數(shù)據(jù)集。因此經(jīng)訓練生成的去遮擋模型在應用到中國遮擋人臉圖像時,修復效果不夠準確。中國人有著獨特的膚色、眼睛、頭發(fā)和人臉拓撲結(jié)構(gòu),并結(jié)合中國刑偵對人臉去遮擋技術的迫切現(xiàn)實需求,建立一個專屬于中國刑偵領域的中國人臉數(shù)據(jù)集是未來研究中國人臉去遮擋算法的重要基礎,其對中國刑偵的發(fā)展具有推動作用。數(shù)據(jù)庫對模型建立的重要性目前已引起一些國內(nèi)學者的重視。例如,2020 年因受新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)疫情影響,武漢大學建立了真實口罩遮擋人臉識別數(shù)據(jù)集(realworld masked face dataset,RMFRD),如圖23。它包含525 個人的90 000 張正面和對應戴口罩圖像,是目前世界上最大的真實口罩遮擋人臉數(shù)據(jù)集[69]。除此之外,中國科學院建立了一個大規(guī)模的中國人臉數(shù)據(jù)庫——CAS-PEAL[70],如圖24。它包含1 040 名共99 450 張中國人臉圖像,與其他人臉數(shù)據(jù)庫不同的是,不僅涵蓋了光照、表情、姿態(tài)和飾品的變化,一些人臉圖像數(shù)據(jù)還有時間、背景和距離的變化,提高了數(shù)據(jù)庫的實用性。因此,建立一個數(shù)據(jù)量龐大的,用于中國公安領域的中國人臉數(shù)據(jù)集對于未來國內(nèi)刑偵的發(fā)展有重要意義。
Fig.23 RMFRD dataset圖23 RMFRD 數(shù)據(jù)集
Fig.24 CAS-PEAL face dataset圖24 CAS-PEAL 人臉數(shù)據(jù)集
(2)發(fā)掘并結(jié)合更多人臉圖像有用信息應用于修復工作中
在實際應用中,由于遮擋缺少人臉圖像信息,為修復工作帶來困難,增加獲取人臉信息的方法有助于后續(xù)的修復。例如,目前在修復前對人臉遮擋區(qū)域進行定位[71],對人臉特征點進行檢測甚至遮擋點的預測[72],如圖25。但人臉含有豐富信息,不僅限于人臉的拓撲結(jié)構(gòu),不同生活習慣、不同地區(qū)環(huán)境都存在獨特的人臉信息和屬性。因此充分發(fā)掘和利用人臉獨特且豐富的信息用于人臉去遮擋修復,是未來研究的熱點。
(3)利用零樣本學習進行修復
Fig.25 Masking point prediction圖25 遮擋點預測
人臉數(shù)據(jù)的獲取本身有一定局限性(肖像隱私),建立大規(guī)模的數(shù)據(jù)有一定的挑戰(zhàn)性,而零樣本學習現(xiàn)在被越來越多的學者關注,它是在標簽類別缺失的情況下對圖像進行分類[73]。目前有基于嵌入和基于生成模型[74]的兩種方法,使語義信息和圖像特征之間建立聯(lián)系。因此,使用零樣本學習優(yōu)化人臉去遮擋修復系統(tǒng),在未來是值得探索的問題之一。
(4)多種復雜算法融合的同時提高修復效率
雖然近幾年去遮擋技術有很大進展,提出的融合算法也都表現(xiàn)出其優(yōu)點,但是由于越來越苛刻的缺失區(qū)域條件(像素低、缺失過大等),就更需要用復雜的融合算法解決問題。例如可以融合:超分辨率技術[75],它可以有效解決人臉圖像模糊的情況;從低質(zhì)量的人臉圖像獲得高質(zhì)量的修復結(jié)果[76];從人臉不同姿態(tài)獲取人臉特征[77]等,但是復雜的融合算法會降低修復效率并增加計算資源的成本。因此,在進行多種復雜修復算法融合的同時還能維持甚至提高修復效率,是未來研究的一個方向。
(5)新的修復評價指標
目前人臉去遮擋算法的評價指標有PSNR、SSIM、FID 等,但在一些算法測試中出現(xiàn)數(shù)據(jù)表現(xiàn)好、視覺效果差的情況。根據(jù)人臉去遮擋技術的最終應用是輔助人臉識別,因此修復結(jié)果與人臉識別相結(jié)合[78]的方法是可以有效判斷修復效果,但是研究一個專門針對人臉修復算法的評價指標不僅快速地、更具權(quán)威地判斷修復算法的優(yōu)劣,而且為各類人臉圖像處理算法增加一種新的評價指標[79],有助于領域的發(fā)展。因此,新的修復評價指標也是未來研究的重要趨勢。
人臉去遮擋技術近年來取得突破性進展。算法間的相互融合和多角度探索使修復結(jié)果更加合理化。本文對近五年的算法根據(jù)遮擋方式和預測生成網(wǎng)絡的不同進行歸類和對比。其次,總結(jié)了現(xiàn)有文獻中人臉去遮擋常用的數(shù)據(jù)集及算法性能評價指標。從定量評價和視覺效果進行修復效果對比,證明目前基于深度學習的人臉去遮擋技術有較好的實驗效果。但在修復的過程中仍存在一些技術和數(shù)據(jù)問題,在未來還需進一步的研究。