王富平,李文樓,劉 穎1,,3,盧 津1,,公衍超1,
1.西安郵電大學(xué)電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安710121
2.西安郵電大學(xué)圖像與信息處理研究所,西安710121
3.陜西省無線通信與信息處理技術(shù)國際合作研究中心,西安710121
人臉比對檢索是公安刑偵案件分析的重要手段,但由于監(jiān)控視頻采集時(shí)人物非接觸不配合特性和嫌疑人的反偵察意識很強(qiáng)等因素,導(dǎo)致監(jiān)控視頻中抓拍的人臉往往存在遮擋現(xiàn)象,比如戴眼鏡,帽子或者口罩等。由于面部信息的不完整,給公安干警的工作帶來很大困難。此外,在身份認(rèn)證、人臉識別、應(yīng)用軟件、門禁系統(tǒng)等方面都需要完整且合理的人臉信息。而人臉圖像修復(fù)通過利用圖像中有用信息對遮擋區(qū)域進(jìn)行填充,使修復(fù)后人臉圖像在視覺內(nèi)容上接近完整人臉。人臉修復(fù)技術(shù)通過對遮擋區(qū)域填充顏色和紋理等信息,緩解實(shí)際中由于人臉遮擋而導(dǎo)致的比對和識別正確率低的不足,對人臉表情識別[1]、人臉表情數(shù)據(jù)增強(qiáng)[2]等具有重要的意義。
人臉圖像修復(fù)是圖像修復(fù)方法的具體應(yīng)用。早期的圖像修復(fù)算法利用擴(kuò)散方程沿遮擋邊界將低層特征從已知區(qū)域迭代傳播到未知區(qū)域,但僅適用于恢復(fù)尺寸較小且較均勻的區(qū)域遮擋[3]。Barnes 等[4]提出一種高效的塊匹配算法,顯著提高了恢復(fù)圖像的完整性。當(dāng)源圖像中有相似塊時(shí)該方法恢復(fù)效果較好,但當(dāng)源圖像中不包含未知區(qū)域內(nèi)相似塊時(shí),會(huì)出現(xiàn)紋理和結(jié)構(gòu)修復(fù)錯(cuò)亂的情況。為了更充分利用已知區(qū)域信息進(jìn)行圖像修復(fù),He 等[5]提出的統(tǒng)計(jì)塊概率修復(fù)方法,通過計(jì)算塊的概率填充空白區(qū)域?qū)崿F(xiàn)較大面積的圖像修復(fù)。Bertalmío 等[6]通過引入紋理合成來進(jìn)一步改善修復(fù)效果。
隨著深度學(xué)習(xí)和生成對抗網(wǎng)絡(luò)[7]的興起,眾多基于深度學(xué)習(xí)技術(shù)的圖像修復(fù)方法被提出。Iizuka 等[8]提出了一種具有全局和局部一致性的全卷積圖像修復(fù)網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠修復(fù)圖像中的大面積區(qū)域遮擋,但是由于遮擋面積過大,難以有效提取有效特征,使得修復(fù)的圖像紋理結(jié)構(gòu)不自然。為了得到更符合圖像語義的修復(fù)圖像,Li 等[9]提出了一種基于深度生成網(wǎng)絡(luò)的圖像補(bǔ)全模型。算法使用生成網(wǎng)絡(luò)合成殘缺部分以實(shí)現(xiàn)遮擋部分的整體修復(fù)。然而,由于沒有利用相對更遠(yuǎn)位置的像素信息,導(dǎo)致其修復(fù)區(qū)域存在模糊和語義不正確的現(xiàn)象。Yu 等[10]提出了一種端到端的圖像修復(fù)模型,其采用疊加生成網(wǎng)絡(luò)以確保生成區(qū)域與周圍環(huán)境顏色和紋理一致。此外,為了合理運(yùn)用大尺度空間內(nèi)的像素信息,上下文注意模塊被應(yīng)用到網(wǎng)絡(luò)中,實(shí)現(xiàn)對更大局部區(qū)域圖像特征信息的有效提取。雖然這些方法針對矩形區(qū)域遮擋具有良好的修復(fù)效果,但仍無法實(shí)現(xiàn)對任意形狀遮擋區(qū)域的修復(fù)。
普通卷積被用于遮擋圖像修復(fù)時(shí)存在局限性。為了實(shí)現(xiàn)對任意形狀遮擋的準(zhǔn)確修復(fù),Liu 等[11]提出部分卷積技術(shù),其利用二值掩碼來控制卷積計(jì)算,以提取有效像素特征。同時(shí)通過掩碼更新機(jī)制產(chǎn)生高質(zhì)量掩碼,從而提高圖像修復(fù)質(zhì)量。但由于每層中所有通道共享相同的遮擋,使得特征提取不夠靈活。Yu 等[12]提出了基于門卷積的圖像修復(fù)深度網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過自學(xué)習(xí)以區(qū)分有效像素和無效像素,提高了修復(fù)區(qū)域和非遮擋區(qū)域的顏色一致性,使修復(fù)圖像更加符合真實(shí)結(jié)構(gòu)。眾所周知,圖像中邊緣細(xì)節(jié)特征包含豐富的圖像內(nèi)容信息,且邊緣兩邊的圖像強(qiáng)度值明顯不同。該方法由于沒有充分考慮到邊緣特征,導(dǎo)致所修復(fù)邊緣與臨近像素顏色融合,從而產(chǎn)生邊緣模糊現(xiàn)象。Nazeri 等[13]提出了邊緣連接模型,通過邊緣生成器獲取圖像邊緣信息,從而解決了邊緣模糊的問題。
為了滿足圖像修復(fù)工作多樣化和個(gè)性化的需求,Jo 等[14]提出了一種圖像編輯系統(tǒng),該系統(tǒng)由一個(gè)端到端可訓(xùn)練的卷積網(wǎng)絡(luò)組成,通過用戶輸入自由形式遮擋、草圖和顏色信息,并將它們用作生成圖像的準(zhǔn)則,從而指導(dǎo)圖像完全按照用戶需求完成圖像的修復(fù)工作。Xiong 等[15]提出了一種前景感知的圖像修復(fù)系統(tǒng),該模型先學(xué)習(xí)預(yù)測前景輪廓,然后以預(yù)測的輪廓為指導(dǎo)修補(bǔ)缺失區(qū)域。該方法通過輪廓完成網(wǎng)絡(luò)預(yù)測出物體的整體輪廓,利用輪廓信息的引導(dǎo),進(jìn)一步提高了圖像修復(fù)的性能。Zheng 等[16]提出了一種多元圖像完成的方法,該方法采用基于概率原理的兩個(gè)并行路徑框架——重建路徑和生成路徑,同時(shí)還有一個(gè)短距加長距的注意層,在實(shí)現(xiàn)圖像修復(fù)生成多個(gè)和多樣的修復(fù)結(jié)果的同時(shí)提高了外觀的一致性。Yang 等[17]提出了關(guān)鍵點(diǎn)指導(dǎo)的生產(chǎn)性圖像修補(bǔ)器,該網(wǎng)絡(luò)由人臉關(guān)鍵點(diǎn)預(yù)測子網(wǎng)和圖像修補(bǔ)子網(wǎng)組成,通過采用人臉關(guān)鍵點(diǎn)作為結(jié)構(gòu)監(jiān)督信息,從而保持眼睛、鼻子、嘴巴間的拓?fù)浣Y(jié)果,以及姿態(tài)、性別、種族和表情等屬性的一致性。
為了解決圖像修復(fù)中邊緣模糊和特征提取精度不足的問題,本文提出了結(jié)合邊緣信息和門卷積的人臉修復(fù)算法。算法結(jié)合了邊緣信息和門卷積操作,使修復(fù)圖像在邊緣、圖像結(jié)構(gòu)和色彩一致性方面的表現(xiàn)更佳。其中邊緣生成網(wǎng)絡(luò)提供精確邊緣信息,而圖像修復(fù)網(wǎng)絡(luò)則利用邊緣信息和門卷積填充缺失區(qū)域的精細(xì)細(xì)節(jié),從而產(chǎn)生邊緣清晰、結(jié)構(gòu)合理的高質(zhì)量修復(fù)效果。
Liu 等[11]和Yu 等[12]證明了普通卷積在修復(fù)任意形狀遮擋圖像時(shí)存在局限性。普通卷積以滑動(dòng)窗口的方式提取局部特征,其認(rèn)為窗口內(nèi)所有像素都是有效的。然而,對于圖像修復(fù)而言,當(dāng)窗口位于遮擋邊界時(shí),卷積窗口像素由非遮擋區(qū)域的有效像素和遮罩區(qū)域內(nèi)的無效像素組成。因此,傳統(tǒng)卷積會(huì)導(dǎo)致訓(xùn)練過程中的信息模糊和視覺偽影。
Liu 等[11]提出了基于部分卷積操作,其利用二值掩碼控制有效卷積區(qū)域,使卷積僅依賴于有效像素。部分卷積操作如式(1)所示:
其中,W是卷積濾波器的權(quán)重,b是偏差。X是當(dāng)前卷積(滑動(dòng))窗口的特征值(像素值),M為對應(yīng)的二值掩碼圖,1 表示該位置像素有效,0 表示像素?zé)o效,sum 代表求和操作,☉表示對應(yīng)位置元素相乘。每次部分卷積操作之后,通過式(2)更新掩碼圖M:
其中,m′是更新后的掩碼值,更新掩碼規(guī)則為:如果原掩碼區(qū)中存在至少一個(gè)有效值,則將所有位置標(biāo)記為有效。
雖然部分卷積可以緩解邊緣模糊的不足,但仍然存在一些問題。首先,部分卷積操作中將所有空間位置直接分類為有效或無效硬遮擋,該方法難以適用于邊緣像素的恢復(fù),會(huì)導(dǎo)致遮擋區(qū)域邊緣產(chǎn)生模糊現(xiàn)象。其次,每層中所有通道共享相同的遮擋,無法對每個(gè)通道的遮擋靈活處理。
Yu 等[12]提出利用門卷積模塊自動(dòng)從數(shù)據(jù)中學(xué)習(xí)軟遮擋,動(dòng)態(tài)地識別圖像中有效像素位置,且能很好地處理遮擋和非遮擋區(qū)域的過渡。門卷積操作可表示為式(3):
其中,σ表示sigmoid 激活函數(shù),φ可以是任意激活函數(shù)(ReLU 或LeakyReLU),Wg和Wf表示不同的線性卷積濾波器。Gating卷積和sigmoid 激活函數(shù)實(shí)現(xiàn)動(dòng)態(tài)特征選擇;Feature卷積和LeakyReLU 激活函數(shù)實(shí)現(xiàn)特征提取,通過兩部分的點(diǎn)乘更有效地選擇和提取圖像中的有用信息。門卷積特有的像素選擇性,使得其能適應(yīng)更大尺度下和部分像素缺失下的精確局部特征描述。普通卷積和門卷積如圖1 所示。
生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)的核心思想是“零和博弈”[18-19],其目標(biāo)函數(shù)如式(4):
GAN 模型主要由兩部分組成:第一部分是圖像生成網(wǎng)絡(luò)G(Generator),其通過輸入一組無序隨機(jī)的噪聲z來盡可能產(chǎn)生逼真樣本;第二部分是鑒別圖像真?zhèn)蔚蔫b別網(wǎng)絡(luò)D(Discriminator),其通過對生成網(wǎng)絡(luò)產(chǎn)生的圖像x進(jìn)行鑒別并更新鑒別網(wǎng)絡(luò)參數(shù),以加強(qiáng)對網(wǎng)絡(luò)鑒別能力。生成網(wǎng)絡(luò)的目標(biāo)函數(shù)是最小化生成圖像與真實(shí)圖像的差距,以提高生成樣本的質(zhì)量,而鑒別網(wǎng)絡(luò)則最大化生成圖像與真實(shí)圖像的差距,以提升鑒別網(wǎng)絡(luò)的判斷準(zhǔn)確度。GAN 模型如圖2 所示。
Fig.1 Structure of traditional convolution and gated convolution圖1 普通卷積與門卷積的框架結(jié)構(gòu)
Fig.2 Classic GAN model圖2 經(jīng)典的GAN 模型
邊緣連接GAN 由生成器網(wǎng)絡(luò)G1 和鑒別器網(wǎng)絡(luò)D1 組成,如圖3 所示。網(wǎng)絡(luò)G1 的輸入由遮擋區(qū)域二值圖、遮擋圖像及其邊緣圖按通道維度進(jìn)行級聯(lián)組成。通過多層卷積和標(biāo)準(zhǔn)化處理,對不同源信息進(jìn)行學(xué)習(xí)和融合,以提取深層次的邊緣紋理結(jié)構(gòu)信息,最終生成遮擋區(qū)域的修復(fù)邊緣圖。為了提取深層次的邊緣紋理特征,在多層卷積和多層反卷積之間增加了殘差網(wǎng)絡(luò)[20],避免了由于網(wǎng)絡(luò)深度過深而導(dǎo)致的梯度彌散問題。
網(wǎng)絡(luò)D1 是鑒別邊緣準(zhǔn)確性的鑒別網(wǎng)絡(luò),通過學(xué)習(xí)不斷優(yōu)化模型參數(shù)以提升對網(wǎng)絡(luò)G1 所生成的邊緣圖像的鑒別能力。網(wǎng)絡(luò)D1 利用Canny 邊緣檢測器提取圖像的邊緣特征,將其作為鑒別器學(xué)習(xí)的正樣本。然后,通過對網(wǎng)絡(luò)G1 生成的負(fù)樣本和Canny 邊緣特征進(jìn)行融合,以提升鑒別器D1 的鑒別能力,同時(shí)可以監(jiān)督網(wǎng)絡(luò)G1 生成更符合原圖邊緣信息的邊緣圖像。
在邊緣連接網(wǎng)絡(luò)模型的訓(xùn)練中,通過反向傳播更新G1 和D1 的參數(shù)。在兩者相互對抗中,G1 生成邊緣的能力伴隨著D1 鑒別能力的提升不斷加強(qiáng)。網(wǎng)絡(luò)D1 通過對網(wǎng)絡(luò)G1 生成的邊緣和Canny 邊緣進(jìn)行多尺度特征匹配[21]以產(chǎn)生最優(yōu)相似度度量函數(shù),確保網(wǎng)絡(luò)G1 產(chǎn)生的修復(fù)人臉邊緣圖盡可能逼近于理想Canny 邊緣圖。
生成器G1 由3 個(gè)卷積層、8 個(gè)殘差塊、3 個(gè)反卷積層級聯(lián)而成。其中卷積層的卷積核大小依次是7×7,4×4,4×4,而反卷積層則鏡像設(shè)置,且都進(jìn)行頻譜歸一化處理和激活函數(shù)ReLU。鑒別器D1 中包含5 個(gè)卷積層,卷積核大小均為4×4,都進(jìn)行頻譜歸一化處理和激活函數(shù)為LeakyReLU。
Fig.3 Edge connect GAN圖3 邊緣連接生成對抗網(wǎng)絡(luò)
Fig.4 Image inpainting GAN圖4 圖像修復(fù)生成對抗網(wǎng)絡(luò)
圖像修復(fù)GAN 由生成器G2 和鑒別器D2 組成,如圖4 所示。其中生成器網(wǎng)絡(luò)G2 的輸入由遮擋圖像和邊緣連接網(wǎng)絡(luò)產(chǎn)生的邊緣圖級聯(lián)組成。該網(wǎng)絡(luò)利用門卷積來提取輸入圖像特征,通過參數(shù)動(dòng)態(tài)學(xué)習(xí)實(shí)現(xiàn)對有效區(qū)域和遮擋區(qū)域的動(dòng)態(tài)區(qū)分,從而減少了遮擋區(qū)域?qū)D像修復(fù)的不利影響,使修復(fù)圖像的顏色和結(jié)構(gòu)更合理。網(wǎng)絡(luò)G2 由多層門卷積、門卷積構(gòu)成的殘差網(wǎng)絡(luò)和多層門反卷積構(gòu)成,其利用深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)遮擋人臉特征的精確表達(dá)。而且,人臉邊緣圖包含人臉精細(xì)結(jié)構(gòu),用以引導(dǎo)網(wǎng)絡(luò)G2 在邊緣兩側(cè)不同區(qū)域修復(fù)出不同結(jié)構(gòu)和顏色信息。網(wǎng)絡(luò)G2 可將正確的人臉結(jié)構(gòu)特征填充在合理的位置,避免了邊緣模糊的現(xiàn)象。
網(wǎng)絡(luò)D2 是圖像修復(fù)網(wǎng)絡(luò)中的鑒別器,其通過不斷比對并更新鑒別器參數(shù)來提升對網(wǎng)絡(luò)G2 所生成的修復(fù)圖像的鑒別能力。網(wǎng)絡(luò)D2 模型中利用預(yù)訓(xùn)練的VGG 模型[22]進(jìn)行分類鑒別,并為網(wǎng)絡(luò)G2 提供用于參數(shù)更新的梯度矩陣。該網(wǎng)絡(luò)模型訓(xùn)練中以真實(shí)圖像為標(biāo)簽,使產(chǎn)生的修復(fù)圖像與真實(shí)圖像的內(nèi)容和結(jié)構(gòu)更加近似。
Attention 方法[10]的損失函數(shù)為空間衰減的?1重建損失和WGAN-GP(Wasserstein generative adversarial networks-gradient penalty)損失,使鑒別器在訓(xùn)練過程中穩(wěn)定快速地收斂;GatedConv 方法[12]為了訓(xùn)練自由形式的修復(fù)網(wǎng)絡(luò),用?1重建損失和SN-PatchGAN 損失作為其損失函數(shù),實(shí)現(xiàn)深度網(wǎng)絡(luò)的快速訓(xùn)練。與這兩種方法不同,本文圖像修復(fù)網(wǎng)絡(luò)的優(yōu)化函數(shù)由?1重建損失、對抗損失、感知損失[23-24]和風(fēng)格損失[25]組成。感知損失利用預(yù)訓(xùn)練的網(wǎng)絡(luò)激活圖來定義距離度量,進(jìn)而懲罰在感知上與標(biāo)簽不相似的結(jié)果。感知損失將生成問題看作是變換問題,使生成圖像更加依賴輸入條件,從而更好地利用輸入邊緣信息對生成圖像進(jìn)行約束。風(fēng)格損失利用gram 矩陣計(jì)算生成圖像與標(biāo)準(zhǔn)圖像特征之間的協(xié)方差矩陣,通過比較特征之間的相關(guān)性,提升生成圖像的整體效果。
圖像修復(fù)網(wǎng)絡(luò)屬于有條件的生成對抗網(wǎng)絡(luò),G2利用條件信息生成修復(fù)圖像,D2 對G2 修復(fù)圖像進(jìn)行鑒別,兩者的特有能力在對抗中不斷提升。為了更好地利用輸入的條件信息,門卷積利用可學(xué)習(xí)參數(shù)區(qū)分非遮擋區(qū)域和遮擋區(qū)域,進(jìn)而基于門卷積對每個(gè)通道和每個(gè)空間位置的動(dòng)態(tài)特征選擇機(jī)制實(shí)現(xiàn)對局部特征的精確描述。門卷積中包含兩個(gè)卷積操作,分別實(shí)現(xiàn)特征提取和動(dòng)態(tài)特征選擇。動(dòng)態(tài)特征選擇利用Sigmoid 函數(shù)兩端平滑的特性對特征進(jìn)行權(quán)重衡量,針對有用信息權(quán)重較大,從而降低遮擋區(qū)域?qū)μ卣魈崛〉母蓴_。門卷積通過精確地學(xué)習(xí)局部特征對遮擋區(qū)域進(jìn)行填充,從而提升修復(fù)質(zhì)量。
生成器G2 由3 個(gè)門卷積層、8 個(gè)殘差塊和3 個(gè)門反卷積層級聯(lián)而成。其中門卷積層的卷積核大小依次是7×7,4×4,4×4,而門反卷積層則鏡像設(shè)置,激活函數(shù)為ReLU。鑒別器D2 中包含5 個(gè)卷積層,卷積核大小均為4×4,都進(jìn)行頻譜歸一化處理和激活函數(shù)為LeakyReLU。
本文提出的人臉圖像修復(fù)模型由邊緣連接生成對抗網(wǎng)絡(luò)和圖像修復(fù)生成對抗網(wǎng)絡(luò)組合產(chǎn)生,如圖5所示。本文利用CelebA 人臉圖像和隨機(jī)產(chǎn)生的遮擋二值圖作為該模型的訓(xùn)練數(shù)據(jù)。遮擋人臉修復(fù)模型的訓(xùn)練共分為三個(gè)步驟:首先,以未遮擋人臉圖像的Canny 邊緣為標(biāo)簽,通過訓(xùn)練邊緣連接GAN 模型,使G1 生成完整的修復(fù)邊緣圖;其次,利用未遮擋人臉圖像的Canny 邊緣和被遮擋的人臉圖作為輸入,對圖像修復(fù)GAN 模型進(jìn)行訓(xùn)練,使G2 產(chǎn)生遮擋區(qū)域修復(fù)后的精確人臉圖像;最后,將邊緣連接GAN 的生成器G1 和圖像修復(fù)GAN 的生成器G2 進(jìn)行級聯(lián),以遮擋二值圖像、遮擋人臉圖像的灰度圖及其邊緣圖為輸入,以未遮擋人臉圖像為標(biāo)簽對模型進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)端到端的遮擋人臉修復(fù)。
Fig.5 Face image inpainting model圖5 人臉圖像修復(fù)模型
通過加載訓(xùn)練完成的模型進(jìn)行實(shí)際遮擋人臉測試,此時(shí)需要輸入被遮擋的人臉圖像和遮擋二值圖,經(jīng)過人臉修復(fù)深度網(wǎng)絡(luò)產(chǎn)生最終修復(fù)后人臉圖像。
本文通過大量實(shí)驗(yàn)驗(yàn)證本文提出的圖像修復(fù)算法的有效性和優(yōu)越性。實(shí)驗(yàn)平臺(tái)是Ubuntu16.04,python3.6 和PyTorch 結(jié)合的編程環(huán)境,CPU 信息為Intel?Xeon?CPU E5-2620 v4@2.10 GHz,顯卡型號為NVIDIA TITAN Xp,顯卡內(nèi)存12 GB。
本文利用CelebA[26]人臉數(shù)據(jù)庫對人臉修復(fù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸入圖片大小為256×256,模型優(yōu)化器為Adam optimizer[27],生成器學(xué)習(xí)率設(shè)置為0.000 1,鑒別器學(xué)習(xí)率設(shè)置為0.000 01。
為了驗(yàn)證邊緣連接網(wǎng)絡(luò)在圖像不同程度遮擋下的邊緣連接性能,分別對遮擋面積γ為5%、10%、15%、20%和25%的遮擋圖進(jìn)行邊緣連接,結(jié)果如圖6 所示。為了更客觀地比較生成邊緣的質(zhì)量,利用邊緣品質(zhì)因子(figure of merit,F(xiàn)OM)[28]指標(biāo)進(jìn)行評估,如表1 所示。該測度可以從真實(shí)邊緣的丟失、虛假邊緣和邊緣定位誤差三方面對算法進(jìn)行綜合評價(jià),其值越大,效果越好??梢钥闯觯趽趺娣e越大,生成邊緣的FOM 值越小,邊緣連接的準(zhǔn)確度越低。而且,圖像遮擋面積變大會(huì)導(dǎo)致生成邊緣圖的細(xì)節(jié)信息減少,并產(chǎn)生邊緣丟失和斷裂。
Fig.6 Generated edge images of edge connect network under different occlusion areas圖6 不同遮擋面積下邊緣連接網(wǎng)絡(luò)的生成邊緣圖
Table 1 FOM of edge connect network under different occlusion areas表1 不同遮擋面積下邊緣連接網(wǎng)絡(luò)的FOM
為了分析邊緣質(zhì)量對圖像修復(fù)結(jié)果的影響,將Canny 邊緣強(qiáng)度圖在閾值T為0.1、0.2(參考標(biāo)準(zhǔn)邊緣)、0.3、0.5 和0.7 情況下生成的邊緣圖分別與遮擋面積為25%的測試圖像作為圖像修復(fù)網(wǎng)絡(luò)輸入,圖像修復(fù)結(jié)果如圖7 所示。為了客觀評價(jià)修復(fù)圖像的質(zhì)量,利用峰值信噪比(peak signal-to-noise ratio,PSNR)進(jìn)行評估,如表2 所示,其值越大,效果越好??梢钥闯?,圖像修復(fù)網(wǎng)絡(luò)針對不同邊緣質(zhì)量的修復(fù)效果相對比較魯棒。當(dāng)邊緣圖信息過于細(xì)致,對修復(fù)網(wǎng)絡(luò)的過度約束導(dǎo)致局部圖像細(xì)節(jié)失真,增加了與原圖之間的差異。隨著邊緣信息嚴(yán)重減少,其引導(dǎo)圖像修復(fù)的能力變?nèi)酰瑢?dǎo)致人臉特征位置和形狀的修復(fù)具有較大的隨機(jī)性,降低了與原圖之間的相似程度。比如,在鼻子、嘴巴等部位出現(xiàn)更加明顯的邊緣模糊現(xiàn)象。而當(dāng)閾值為0.2 時(shí),修復(fù)圖像質(zhì)量最好。為此,本文算法邊緣修復(fù)網(wǎng)絡(luò)在訓(xùn)練時(shí),以閾值0.2時(shí)邊緣圖為參考邊緣標(biāo)簽。
Table 2 PSNR of image inpainting network with different edge quality表2 不同邊緣質(zhì)量下圖像修復(fù)網(wǎng)絡(luò)的PSNR dB
實(shí)驗(yàn)中采用的對比算法為近些年來基于深度學(xué)習(xí)的圖像修復(fù)算法,分別是Attention 方法[10]、GatedConv方法[12]、EdgeConnect 方法[13]。同時(shí),為了更客觀地驗(yàn)證本文算法的優(yōu)越性,本文采用峰值信噪比和結(jié)構(gòu)相似性(structural similarity index,SSIM)指標(biāo)來衡量修復(fù)圖像的質(zhì)量,其體現(xiàn)了修復(fù)算法產(chǎn)生的修復(fù)圖像與原圖像之間的差距,PSNR 基于誤差敏感對圖像質(zhì)量進(jìn)行評價(jià),SSIM 從亮度、對比度和結(jié)構(gòu)方面判斷圖像之間的相似性。PSNR 和SSIM 值越大,代表差距愈小,即修復(fù)的效果越好。
Fig.7 Inpainting results of image inpainting network with different edge quality圖7 不同邊緣質(zhì)量下圖像修復(fù)網(wǎng)絡(luò)的修復(fù)結(jié)果
Fig.8 Inpainting results of different algorithms in occlusion 1圖8 遮擋1 時(shí)不同算法的修復(fù)結(jié)果
Fig.9 Inpainting results of different algorithms in occlusion 2圖9 遮擋2 時(shí)不同算法的修復(fù)結(jié)果
在CelebA 中隨機(jī)挑選8 幅人臉圖像,在兩種不同形狀遮擋下利用不同算法產(chǎn)生的修復(fù)效果如圖8和圖9 所示。其中,Attention 方法只能修復(fù)圖像矩形遮擋圖像,如圖8(b)和圖9(b)所示,其修復(fù)后圖像如圖8(c)和圖9(c)所示。在實(shí)驗(yàn)中,Attention 方法中的矩形遮擋區(qū)域面積與任意形狀遮擋的面積相等,從而使得Attention方法、GatedConv方法、EdgeConnect方法和本文算法的對比更加合理??梢钥闯觯摲椒ǖ男迯?fù)結(jié)果與原圖差距較大,在空白區(qū)域的修復(fù)結(jié)果出現(xiàn)不同程度的結(jié)構(gòu)扭曲,特別是針對眼睛部分的修復(fù)效果十分不理想。相比之下,GatedConv方法、EdgeConnect方法和本文算法都是針對任意形狀的遮擋圖像修復(fù),比如對于圖8(d)和圖9(d)的任意形狀遮擋,其修復(fù)結(jié)果分別如圖8(e)~(g)和圖9(e)~(g)所示。從結(jié)果中可以看出,GatedConv 方法中由于沒有考慮邊緣信息,導(dǎo)致修復(fù)區(qū)域出現(xiàn)不同程度的人臉模糊和結(jié)構(gòu)失真的現(xiàn)象,比如在圖像1、圖像6 和圖像8 中比較明顯。而EdgeConnect方法的修復(fù)結(jié)果整體結(jié)構(gòu)相對合理,但是在圖像的一些修復(fù)細(xì)節(jié)上不夠完善,出現(xiàn)了不同程度的紋理細(xì)節(jié)扭曲和顏色信息丟失,比如在圖像2 和圖像3 的嘴唇處比較明顯,GatedConv 方法、EdgeConnect 方法與本文算法之間細(xì)節(jié)對比如圖10 所示。相比之下,本文算法產(chǎn)生的修復(fù)結(jié)果從紋理和結(jié)構(gòu)方面都取得了更好的效果,針對細(xì)節(jié)信息的修復(fù)效果也更加逼近原圖。具體體現(xiàn)在修復(fù)圖像的面部細(xì)節(jié)結(jié)構(gòu)特征十分精確,例如眼睛、嘴巴等部位。
與GatedConv 方法相比,由于本文算法利用圖像的邊緣信息引導(dǎo)圖像遮擋區(qū)域的修復(fù),使得修復(fù)結(jié)果具有精確的邊緣,同時(shí)邊緣信息可以準(zhǔn)確定位人臉特征的位置,如圖8(e)和(g)和圖9(e)和(g)能夠明顯觀察到本文算法的修復(fù)圖像邊緣輪廓更為清晰,在一定程度上緩解了邊緣模糊和人臉特征修復(fù)錯(cuò)位的現(xiàn)象。與EdgeConnect 方法相比,本文算法利用門卷積代替普通卷積對待修復(fù)圖像進(jìn)行特征提取。如圖1 所示,門卷積主要是對非遮擋區(qū)域和遮擋區(qū)域進(jìn)行權(quán)重選擇,強(qiáng)調(diào)非遮擋區(qū)域,弱化遮擋區(qū)域,從而更好地提取有用信息對遮擋區(qū)域進(jìn)行修復(fù),減少遮擋區(qū)域?qū)π迯?fù)結(jié)果的影響,使得修復(fù)結(jié)果具有更完善的細(xì)節(jié)。如圖10 中局部修復(fù)結(jié)果的細(xì)節(jié)信息對比顯示,本文算法對嘴巴和眼睛的形狀、顏色等細(xì)節(jié)信息修復(fù)更為合理,緩解了修復(fù)結(jié)果紋理扭曲的現(xiàn)象。
為了客觀地評價(jià)本文算法的優(yōu)越性,使用PSNR和SSIM 衡量不同算法的修復(fù)結(jié)果與參考標(biāo)準(zhǔn)圖之間的相似性,不同遮擋下不同算法的PSNR 和SSIM結(jié)果如表3和表4所示。通過對比可以看出,Attention方法的PSNR 和SSIM 值明顯小于其他三種算法,主要原因是算法中矩形區(qū)域的約束導(dǎo)致其修復(fù)效果失真明顯。GatedConv 方法由于沒有利用邊緣信息,導(dǎo)致存在邊緣模糊的現(xiàn)象。EdgeConnect 方法由于在圖像修復(fù)網(wǎng)絡(luò)中利用普通卷積進(jìn)行特征提取,從而存在修復(fù)細(xì)節(jié)信息失真的情況。而本文算法利用了邊緣信息引導(dǎo)的門卷積網(wǎng)絡(luò),使得在邊緣細(xì)節(jié)和遮擋區(qū)域修復(fù)方面都產(chǎn)生最好的結(jié)果,從表中可以看出其整體PSNR 和SSIM 值最高,說明本文算法性能最優(yōu)。
Fig.10 Detailed comparison between different algorithms圖10 不同算法之間的細(xì)節(jié)對比
Table 3 PSNR and SSIM of different algorithms in occlusion 1表3 遮擋1 時(shí)不同算法的PSNR 和SSIM
Table 4 PSNR and SSIM of different algorithms in occlusion 2表4 遮擋2 時(shí)不同算法的PSNR 和SSIM
在現(xiàn)實(shí)情況下,人臉圖像質(zhì)量受環(huán)境的影響較大。例如,監(jiān)控視頻中往往采集到不同角度的人臉圖像,給人臉修復(fù)任務(wù)帶來了巨大的挑戰(zhàn)。本文算法對不同角度下的遮擋人臉進(jìn)行修復(fù),結(jié)果如圖11 和圖12 所示??梢钥闯?,本文算法對正面人臉修復(fù)效果較好,但隨著人臉偏移角度的增大,由于臉部特征會(huì)隨著人臉偏轉(zhuǎn)出現(xiàn)傾斜甚至是消失,導(dǎo)致修復(fù)特征的角度和大小與其他部位拼接不夠合理,修復(fù)效果較差,比如修復(fù)的眼睛、嘴巴等位置出現(xiàn)偏差。針對這一問題將在今后的研究中進(jìn)一步完善。
Fig.11 Inpainting results comparison of face 1 under different face angles圖11 人臉1 在不同人臉角度下的修復(fù)結(jié)果比較
Fig.12 Inpainting results comparison of face 2 under different face angles圖12 人臉2 在不同人臉角度下的修復(fù)結(jié)果比較
本文提出了一種結(jié)合邊緣信息和門卷積的人臉修復(fù)算法,該模型由基于生成對抗網(wǎng)絡(luò)的邊緣生成GAN 和圖像修復(fù)GAN 級聯(lián)組成。在邊緣生成網(wǎng)絡(luò)中,本文對預(yù)處理的遮擋圖像輸入學(xué)習(xí)紋理結(jié)構(gòu),輸出完整的圖像邊緣。在圖像修復(fù)網(wǎng)絡(luò)中,本文利用邊緣信息精確劃分人臉特征區(qū)域,引導(dǎo)顏色信息填充,使修復(fù)圖像具有清晰的邊緣;利用門卷積的動(dòng)態(tài)特征選擇機(jī)制提取人臉特征,解決了其他算法不同程度的修復(fù)結(jié)構(gòu)失真問題。實(shí)驗(yàn)結(jié)果表明,本文方法針對任意形狀和大小的人臉遮擋圖像具有良好的適應(yīng)性,具有很好的修復(fù)效果。同時(shí)本文算法還存在兩個(gè)不足:(1)Canny 邊緣是二值邊緣圖,可以通過利用更加精細(xì)的邊緣圖作為圖像修復(fù)的引導(dǎo)信息,從而使圖像修復(fù)細(xì)節(jié)更加完善。(2)現(xiàn)實(shí)情況下,遮擋圖像經(jīng)常受到噪聲干擾,同時(shí)還存在人臉角度、側(cè)臉等情況。針對這些問題,本文方法的修復(fù)結(jié)果不夠魯棒。在未來研究中,人臉修復(fù)領(lǐng)域會(huì)更加緊密地與實(shí)際需求相結(jié)合,針對實(shí)際場景中各種低質(zhì)圖像的修復(fù)工作提出解決方案。為人臉低分辨率圖像和任意角度的人臉圖像提供更佳的修復(fù)效果。