解奕鵬,秦品樂,曾建潮,閆寒梅,柴 銳,趙鵬程
(1.中北大學 大數據學院,山西 太原 030051;2.山西省醫(yī)學影像與數據分析工程研究中心(中北大學),山西 太原 030051;3.山西警察學院 刑事科學技術系,山西 太原 030401)
近年來,隨著深度學習的快速發(fā)展,人臉識別性能得到了很大提升,但它們局限于接近正面的人臉識別(Near-Frontal Face Recognition,NFFR)。多項研究表明,NFFR算法對大姿態(tài)的人臉識別效果不佳[1],因此姿態(tài)魯棒性人臉識別(Pose-Invariant Face Recognition,PIFR)成為近年來的研究熱點。
目前解決PIFR問題的方法主要分兩大類:一類是學習對姿態(tài)變化魯棒的特征,另一類即人臉正面化。第一類方法[2]依賴大量姿態(tài)分布均勻的訓練數據,而現(xiàn)有數據大多呈現(xiàn)長尾分布,很難學習到對姿態(tài)魯棒的人臉特征[3]。第二類方法[4]可以在不重新訓練現(xiàn)有人臉識別模型的基礎上,通過生成對應的正面圖像進行人臉識別,提高準確率。
現(xiàn)有的人臉正面化方法按照合成域分為基于2D的方法和基于3D的方法?;?D的方法[5-6]通常對較小姿態(tài)的人臉正面化效果比較好,而對較大姿態(tài)的人臉紋理細節(jié)損失嚴重,同時三維擬合時嚴重依賴面部關鍵點檢測的準確性,渲染時計算量大,都使得這類方法難以在實際中應用[1]。
而生成對抗網絡[7]的提出極大改善了二維圖像合成的視覺效果,所以越來越多的研究人員采用基于2D的方法解決人臉正面化問題。例如,Huang等人提出一種雙通道生成對抗網絡TP-GAN[8],融合兩通道的特征生成正面人臉圖像,并用實驗結果說明了GAN網絡生成的正面人臉可以提高人臉識別的精度;Yin等人提出DA-GAN[9],他們?yōu)榻獯a器添加了自注意力機制,增強了紋理細節(jié),卻忽略了編碼時魯棒的特征提取也一樣重要;Hu等人提出了CAPG-GAN[10],使用5個人臉關鍵點作為結構先驗;類似的,Tu等人提出了MDFR[11]框架,他們使用18個關鍵點作為結構先驗。然而無論是CAPG-GAN還是MDFR,他們都直接將圖像與姿態(tài)圖直接拼接,無法保證在網絡深層依舊起作用,也沒有指出不同數量關鍵點的姿態(tài)圖對網絡性能的影響;更進一步,Hao等人提出DGPR[12]網絡,他們使用人像草圖作為人臉的先驗知識,但使用側面的人像草圖生成正面的人像草圖時,會引入一些不必要的誤差;最后,Li等人提出Sym-GAN[3],他們關注了偏轉及俯仰角同時存在的人臉正面化工作,但該方法在非同源的測試數據上視覺效果不理想。
總體來說,上述方法除Sym-GAN以外,均忽略了俯角對正面化工作帶來的影響,而現(xiàn)實生活中監(jiān)控攝像頭拍攝的圖像大多是俯視并且具有一定的偏轉,導致這些方法生成效果不理想。另一方面,上述方法將所有角度的人臉數據混合訓練,導致模型對特定角度人臉生成效果不突出。因此,該文聚焦于特定偏轉和俯角的人臉正面化問題,結合注意力機制,引導網絡生成逼真的正面圖像。
主要工作如下:
(1)以類Pix2Pix[13]網絡為骨干,提出基于姿態(tài)圖引導的特定角度人臉正面化網絡PS-GAN;并將多個PS-GAN網絡進行組合,用于人臉正面化。
(2)提出姿態(tài)注意模塊,引入人臉結構先驗的同時約束模型關注感興趣區(qū)域。使用特征可視化技術展示模型的感興趣區(qū)域。
(3)在本實驗室自主采集的多角度人臉監(jiān)控數據集[14](Multi-Angle Surveillance Face Dataset,MASFD)以及CAS-PEAL-R1[15]數據集上進行了充分的定性和定量實驗,驗證各模塊結構設計的合理性;實驗結果表明該方法可以有效提高人臉正面化效果,并在非同源數據上平均人臉相似度達到67.24%。
生成對抗網絡[7](Generative Adversarial Networks,GAN)最初由Goodfellow等人提出。GAN由生成網絡和判別網絡組成,兩者相互博弈:生成網絡用于生成與原數據集分布接近的實例,欺騙判別網絡;判別網絡用來鑒別輸入數據是真實數據還是由生成器偽造的。
GAN網絡的提出顯著提高了二維圖像生成的視覺效果。如Yin等人提出的DA-GAN,在解碼器部分添加了兩個自注意模塊,同時使用多個鑒別器,除了生成圖像直接與標簽進行判別外,引入了三種人臉掩膜,分別關注正面人臉的不同部位。其對抗損失表示如下:
(1)
Lj(Dj,G)=minGjmaxD{Ex∈If[log(D(x))]+
Ez∈Ip[log(1-D(Gj(z)))]}
(2)
其中,j∈{f,s,k,h}表示整幅圖像、面部、五官及頭發(fā)部分。
注意力機制分為空間注意力機制與通道注意力機制。空間注意力機制計算圖像中感興趣區(qū)域并加強。例如,Jaderberg等人提出空間轉換網絡STN[16],可以對特征圖在空間中進行轉換并自動搜索重要區(qū)域。
通道注意力機制關注圖像在通道維度上的重要性,為不同通道的特征圖分配權重。Hu等人提出SENet[17],分為壓縮和激勵兩部分,壓縮部分對全局信息進行壓縮,在通道維度學習各通道的重要性,激勵部分為各通道分配權重。
最后,Woo等人提出CBAM[18]模塊,將通道注意力與空間注意力組合,提高圖像生成質量。
但是,上述注意力機制只關注特征圖本身,沒有足夠的先驗知識做引導。
圖1給出PS-GAN網絡的主體框架及各模塊結構。僅由卷積、池化等操作組成的網絡往往無法準確地關注感興趣區(qū)域,因此將姿態(tài)圖與空間注意力機制相結合,提出姿態(tài)注意模塊(Pose Attention Module,PAM),引入人臉結構先驗的同時使網絡關注感興趣區(qū)域。其次,為將編碼器提取到的側臉高維特征轉換為目標特征并去除通道冗余,提出特征轉換模塊(Feature Transform Module,FTM)。
圖1 PS-GAN網絡結構及PAM、FTM模塊結構
PS-GAN網絡由生成器和鑒別器組成,生成器由編碼器、姿態(tài)注意模塊PAM、特征轉換模塊FTM以及解碼器四部分組成,編碼器由四個卷積塊組成,每個卷積塊之后都添加了帶有側臉姿態(tài)的注意模塊,解碼器由四個反卷積塊及兩個卷積核為1×1的卷積層組成,僅在解碼器的前三層添加帶有平均正臉姿態(tài)的注意模塊。
其次,將多個PS-GAN模型組合,對于任意姿態(tài)的人臉輸入,首先使用人臉角度估計網絡[19]計算人臉角度,再選擇與該角度最接近的PS-GAN模型進行人臉矯正,得到最終生成結果。利用這種組合方法,解決任意角度人臉輸入的問題。
2.2.1 姿態(tài)圖的設計
人臉的關鍵點包含豐富的人臉結構信息,該文使用3DDFA[20](3D Dense Face Alignment)獲取輸入圖像的68或8個關鍵點坐標,并將其保存在灰度圖中,作為姿態(tài)圖。
對于側面的人臉圖像,直接使用3DDFA獲取到的坐標信息作為側臉姿態(tài)圖;而對于正面人臉,雖然每個人的正面關鍵點都不相同,但五官及人臉輪廓的大致位置都有跡可循,因此使用3DDFA計算訓練集內所有正面人臉圖像平均坐標,作為平均正臉姿態(tài)圖。平均正面人臉關鍵點的計算方法如下:
(3)
2.2.2 姿態(tài)圖與空間注意力的結合
之前的空間注意力機制使用兩種池化操作獲取圖像的高頻細節(jié),卻無法保證這些細節(jié)的準確性。因此,將空間注意力機制[18]與姿態(tài)圖相結合,提出姿態(tài)注意模塊,其網絡結構如圖1所示。
對輸入特征,首先在通道維度上進行最大池化與平均池化,各得到與輸入特征大小相同、通道數為1的特征圖,再與其對應的姿態(tài)圖進行拼接,得到特征塊,最后經過卷積、Sigmoid激活函數后得到空間注意力權重圖,再對權重圖與輸入特征進行點積得到更新后的特征圖。
輸入圖像經過編碼器得到側臉的高維特征,再使用特征轉換模塊FTM對側臉特征進行轉換[21], FTM模塊結構如圖1所示。
其中SpectralNorm表示光譜歸一化[22];使用斜率為0.1的LeakyReLu作為激活函數。側臉特征首先經過四層殘差塊進行特征變換,再使用通道注意模塊為每個通道賦予權重,去除冗余通道的同時增強感興趣通道。在通道注意中,該特征首先在長、寬兩個維度上進行平均池化以及最大池化,然后將這兩個特征向量輸入全連接層,再將兩特征向量的對應元素相加,得到通道注意力權重圖,最后將該權重圖與轉換后的特征在通道維度進行點積得到新的特征圖。
在PS-GAN生成器的基礎上去除姿態(tài)注意模塊、通道注意模塊后,記為Backbone網絡。該文使用特征可視化技術[23]分析Backbone網絡編碼器與解碼器的感興趣區(qū)域,如圖2所示,其中深色的區(qū)域為模型關注區(qū)域。
圖2 Backbone網絡特征可視化
由圖2第一行可知,編碼器在第一、二層關注了人臉區(qū)域,而從第三層開始關注頭發(fā)、背景等非必要區(qū)域。因此,對于編碼器,不需要添加更多的卷積層輔助提取側臉特征,但為使編碼器在各尺度都關注人臉區(qū)域,所以給編碼器的每個尺度都添加帶有側臉的姿態(tài)注意模塊。
由圖2第二行可知,Backbone的解碼器的前三層恢復正面人臉的大致輪廓,即人臉共有的屬性,共性信息;第四層反卷積將特征恢復到原來大小,后兩層1×1卷積輔助交替恢復人臉的全局與局部屬性,即個性信息。而平均正臉姿態(tài)圖僅包含人臉共性信息,因此僅為解碼器的前三層添加帶有平均正臉姿態(tài)圖的姿態(tài)注意模塊,輔助網絡快速生成人臉共性信息的同時不影響人臉個性信息的恢復。
本節(jié)將介紹用到的損失函數。為了使損失函數關注人臉區(qū)域,使用人臉分析方法將圖像的背景區(qū)域扣除[24]:
L=Ladv+λpixelLpixel+λlpipsLlpips+λipLip+λtvLtv
(4)
其中,Ladv表示對抗損失,Lpixel表示多尺度像素損失,Llpips表示感知損失,Lip表示身份保持損失,Ltv表示全變分正則化項,λ*表示不同損失的權重。
2.5.1 對抗損失
GAN網絡由生成器與鑒別器組成,兩者的對弈過程表示如下:
Ladv=minGmaxD{Ex∈If[log(D(x))]+
Ez∈Ip[log(1-D(G(z)))]}
(5)
其中,E表示求期望;x∈If表示x來自真實的正臉圖像集;D(x)表示鑒別器;z∈Ip表示z來自真實的側臉圖像集;G(z)表示生成器。
2.5.2 多尺度像素損失
在正面化結果IG上使用多尺度像素損失[3]來約束生成內容一致性:
(6)
其中,S表示尺度數,取S=3,Igt為正臉標簽。
2.5.3 感知損失
使用感知相似性損失[25]保持圖像的結構信息。具體的,使用Conv3-64、Conv3-128、Conv3-256、Conv3-512及最后一層全連接計算損失:
‖wl(Vggl(IG)-Vggl(Igt))‖1
(7)
其中,Vggl表示網絡提取的第l層的特征圖,wl表示對第l層賦予的權重。
2.5.4 身份保持損失
使用LightCNN-29V2[26]提取身份特征。具體的,使用該網絡的最后一個池化層及最終的網絡輸出共同作為人臉高維特征[3,24],具體公式如式(8):
Lip=‖φpool(IG)-φpool(Igt)‖1+
浙江力普自創(chuàng)建以來,獨辟蹊徑,借力國家重點支持的新材料、新能源等戰(zhàn)略性新興產業(yè)領域,專致納米碳酸鈣、石墨球化粉碎、精制棉粉碎制備纖維素醚三大市場領域,進行產業(yè)細化深耕,持續(xù)科技創(chuàng)新,對于粉體加工中的各種疑難問題擁有獨特的技術優(yōu)勢,成為上市公司、世界500強等高端客戶的長期戰(zhàn)略合作伙伴?!傲ζ崭呖啤迸品鬯樵O備獲評紹興名牌產品,躋身我國粉碎設備行業(yè)屈指可數的名牌產品行列。公司現(xiàn)已成為我國知名的專業(yè)生產各類超細粉碎、精細分級成套設備的國家高新技術企業(yè)、浙江省優(yōu)秀創(chuàng)新型企業(yè),中國無機鹽工業(yè)協(xié)會碳酸鈣行業(yè)分會第五屆理事會理事單位(2017—2022年)。
‖φoutput(IG)-φoutput(Igt)‖1
(8)
其中,φpool(·)表示網絡在最后一個池化層提取的特征,φoutput(·)表示網絡的最終輸出結果。
2.5.5 全變分正則化項
GAN網絡生成的圖像往往會存在大量人工偽影,因此添加全變分正則化項以減少偽影[9]:
(9)
其中,W和H分別表示圖像的高和寬。
使用MASFD以及CAS-PEAL-R1數據集進行實驗。MASFD數據集由本實驗室自主采集,共包含了4 253人的23種角度組合。CAS-PEAL-R1數據集為CAS-PEAL數據集的共享版本,包含1 040位志愿者的30 900張人臉圖像,該文使用其姿態(tài)子庫21 840幅圖像驗證人臉正面化效果。姿態(tài)子庫包含三種俯仰變化(抬頭、平視、低頭)和每種俯仰姿態(tài)下七種水平深度旋轉姿態(tài)變化。另外為了驗證PS-GAN網絡的泛化性,又拍攝了80張數據集外的側臉圖像,用于驗證其在非同源數據上的視覺效果。
對于MASFD數據集,在4 253人中隨機選擇850人作為測試集,其余3 403人作為訓練集,共訓練20個單角度模型;對于CAS-PEAL-R1數據集,隨機選擇831人作為訓練集,209人作為測試集,共訓練13個單角度模型。
3.2.1 定性比較
由圖3可知,文中方法相比其他方法有更少的人工偽影,文中方法只針對特定角度進行訓練,網絡關注較小范圍的姿態(tài)變化,與其他方法相比,文中方法在整體結構和局部細節(jié)上均與標簽更加相似。
其次,展示了PS-GAN與Sym-GAN在不同俯仰角上的正面化效果,如圖4所示。
此外,在非同源的數據上進行測試,生成結果如圖5所示。其中,第一行為輸入,第二行為輸出。
圖5 文中方法在非同源數據上的生成效果
最后,展示了PS-GAN在兩數據集在各角度下的生成結果,如圖6所示。其中,第一列為基準圖像,奇數行為網絡輸入,偶數行為網絡輸出。
圖6 文中方法在不同數據集上各個角度的生成效果
3.2.2 定量比較
該文使用Rank-1指標在兩數據集上對PS-GAN及上述方法進行定量實驗,其定量結果如表1與表2所示。由于CAS-PEAL-R1數據集未給出具體的俯仰角度,因此,使用俯視、平視、仰視三種視角進行標注。其中第一行為俯仰角,第二行為偏轉角。由表1和表2可知,文中方法在較大角度下依舊表現(xiàn)良好,說明用單個角度數據對模型進行訓練是有效的。
表1 不同方法在MASFD數據集上的Rank-1識別率 %
表2 不同方法在CAS-PEAL-R1數據集上的Rank-1識別率 %
但是Rank-1指標無法體現(xiàn)模型生成人臉與真實人臉的相似程度,因此又使用人臉識別方法計算平均人臉相似度得分(Average Similarity Score,ASS)與方差(Variance),計算方法如下所示:
(10)
100%-ASS)2
(11)
其中,IG為生成圖像,Igt為真實標簽,FR(·)為計算IG與Igt之間距離的函數。不同數據集的平均人臉相似度與方差計算結果如表3所示。
表3 不同方法及消融實驗在MASFD數據集與非同源數據中的平均人臉相似度及其方差
由表3可知,PS-GAN方法在同源測試集和非同源數據上的平均人臉相似度均較高,方差較小,模型穩(wěn)定性較好。
由于Rank-n指標在消融實驗中最終結果較接近,無法體現(xiàn)模型的真實性能,因此使用人臉相似度與方差作為消融實驗(+30_30角為例)指標。
實驗設置一:為了驗證特征轉換模塊的有效性及結構設計的合理性,在Backbone的基礎上分別添加2、3、4、5、6個殘差塊進行實驗。
實驗設置二:由圖2可知,網絡在解碼器最后交替恢復人臉局部與全局信息,為了說明解碼器后卷積層的數量是否會對生成結果有影響,分別為Backbone添加了1、2、3、4個1×1卷積進行實驗。
實驗設置三:在Backbone的基礎上,首先將不同關鍵點數量的姿態(tài)圖直接與輸入圖像在通道維度拼接,說明不同關鍵點姿態(tài)圖對網絡生成效果的影響。然后將姿態(tài)圖與注意力結合,驗證文中姿態(tài)引導方式的優(yōu)越性。
3.3.1 不同數量殘差塊對生成效果的影響
本節(jié)分別為特征轉換模塊PTM添加2、3、4、5、6個殘差塊,分析不同數量殘差塊對生成效果的影響,實驗結果如表3中Resblock所示。
由表3可知,在同源測試集上,添加四層殘差塊時平均人臉相似度最高,添加五層殘差塊時方差最低。在非同源數據上,隨著殘差塊的數量增加,平均人臉相似度有所提升,且總體方差明顯減小,即添加殘差塊可以減小生成效果的波動性。為了使網絡結構精簡,同時保證模型對非同源數據的泛化能力,為PTM模塊添加四層殘差塊。
3.3.2 不同數量的1×1卷積對生成效果的影響
本節(jié)為Backbone添加1、2、3、4個1×1卷積,分析解碼器后卷積層的數量對生成效果的影響,實驗結果如表3中Conv所示。
由表可知,對同源測試集添加三層卷積層時平均人臉相似度最高,添加兩層卷積層時方差最低,波動性最小;對非同源數據,在解碼器之后添加兩層卷積時相比Backbone的人臉相似度提高較明顯,穩(wěn)定性更好。因此,為解碼器添加兩層1×1卷積。
3.3.3 姿態(tài)注意模塊的有效性
首先,在Backbone的基礎上,比較不同姿態(tài)圖對生成效果的影響。共進行了三組實驗,分別是不加姿態(tài)引導(Backbone)、添加8關鍵點姿態(tài)引導(8pose)、添加68關鍵點姿態(tài)引導(68pose)的網絡。每組實驗均將原圖與姿態(tài)圖直接拼接,實驗結果如表3所示。由表3可知,不論是測試集數據還是非同源數據,關鍵點越多的姿態(tài)圖,其生成的圖像平均人臉相似度越高,波動性越低。
其次,又展示了三種模型編碼器與解碼器的感興趣區(qū)域,如圖7所示。
圖7 Backbone、68pose及PS-GAN方法特征可視化對比
由圖7可知,Backbone網絡在編碼器第三層已經不再關注人臉區(qū)域,而68pose的網絡在第三層時依舊關注人臉區(qū)域。這一方面反映了姿態(tài)引導的有效性,另一方面也說明這種直接與原圖進行拼接的姿態(tài)引導方式很難在網絡深處起作用。
因此,將68關鍵點的姿態(tài)圖與注意力機制結合,即文中方法。為了驗證文中方法的有效性,對68pose和PS-GAN進行定性對比,結果如表3所示。由表3可知,PS-GAN網絡在兩類數據上相對其他實驗方法平均人臉相似度最高、波動性最低。最后,如圖7所示,PS-GAN模型的編碼器各層在姿態(tài)注意模塊的輔助下準確的關注感興趣區(qū)域,解碼器的前三層在姿態(tài)注意模塊的輔助下快速捕捉人臉共性信息,證明了網絡結構設計的合理性。
針對特定角度人臉正面化問題,通過實驗驗證網絡的有效性與結構設計的合理性。結合注意力機制,提出PS-GAN網絡,并使用特定角度人臉數據訓練單個模型,將多個角度模型進行組合,一定程度上緩解各角度生成效果不突出的問題,但這種方法對于數據集中不存在的角度人臉生成效果一般。在后續(xù)的工作中,應當考慮如何使用數據集內有限的特定角度,在任意角度都能生成較好的結果。