葉子勛,張紅英,何昱均
1.西南科技大學 信息工程學院,四川 綿陽 621010
2.西南科技大學 特殊環(huán)境機器人技術(shù)四川省重點實驗室,四川 綿陽 621010
3.西南科技大學 計算機科學與技術(shù)學院,四川 綿陽 621010
人臉識別在當下仍是一種廣泛應用的身份驗證手段,鑒于新型冠狀病毒肺炎(COVID-19)在全球范圍的肆虐,許多國家要求人們在公共場合佩戴口罩。因為佩戴醫(yī)用外科、KN95、N95等口罩是目前防范包含新型冠狀病毒肺炎在內(nèi)的呼吸道傳染病傳播最為有效、經(jīng)濟的手段。學術(shù)界認為,新型冠狀病毒將與人類長期共存[1],佩戴口罩出行已然成為人們?nèi)粘I钪械某B(tài)。在機場、火車站等身份識別場景中,以及在社區(qū)、學校、公司等身份驗證場景中,佩戴口罩會隱藏部分人臉特征,阻礙人臉識別系統(tǒng)做出正確的決策,因此人們必須摘下口罩進行人臉識別,此舉提高了呼吸道暴露在病毒中的概率,給病毒以可乘之機,提高了感染風險。因此探索出一種戴口罩人臉識別算法對于公眾防范新型冠狀病感染具有重要意義。
長期以來,局部特征方法和淺層特征學習一直是人臉識別研究的重點[2]。直到2015年FaceNet[3]的誕生,這才將人臉識別的研究重心轉(zhuǎn)移到基于深度學習的方向,當前基于深度學習的最先進的方法如ArcFace[4]、CosFace[5]等在LFW[6]數(shù)據(jù)集上的準確率已經(jīng)達到99.5%以上,深度學習在人臉識別研究中取得了巨大的成功。但基于深度學習的方法仍不能解決環(huán)境光照、人臉姿態(tài)、局部遮擋等不可控環(huán)境因素所帶來的影響。
其中,面部遮擋是人臉識別算法中最具挑戰(zhàn)的問題之一,此前的一些研究都是處理眼鏡、面部飾品等一系列遮擋面積較小的遮擋場景[7-8],然而口罩這一遮擋物造成了鼻子、嘴巴這兩個人臉固有結(jié)構(gòu)的缺失,也給人臉關鍵點位置信息帶來了更多的噪聲,半數(shù)的人臉關鍵特征被隱藏。相較于其他遮擋物,口罩遮擋給人臉識別算法帶來了更大的挑戰(zhàn),因此口罩遮擋人臉識別又是遮擋人臉識別中的難點。當前,基于深度學習的遮擋人臉識別主要可分為三個研究方向,第一種是優(yōu)化損失函數(shù):文獻[9]使用ArcFace與口罩人臉分類損失函數(shù)相結(jié)合的方式,設計了MTArcFace(multi-task ArcFace)損失函數(shù),使得模型兼具無遮擋與遮擋兩種場景下的人臉識別任務;文獻[10]提出了Balanced Curricular Loss損失函數(shù)在訓練過程更有力地在遮擋人臉中發(fā)掘困難樣本。第二種是基于注意力的方法,文獻[11]提出了一種基于裁剪和注意力機制的方法,只截取口罩佩戴人臉的眼部區(qū)域以訓練人臉識別模型,這種方法的缺陷也較為明顯,由于人臉的部分特征有所缺損,在無遮擋人臉識別場景下,準確率有所下降;文獻[12]使用約束三元組損失函數(shù)Constraint Triplet Loss來獲得用于口罩遮擋人臉識別的優(yōu)化嵌入,并借此重點關注眼部區(qū)域;文獻[13]將同一個人的上半人臉與遮擋人臉分別輸入到網(wǎng)絡中計算Loss,也能兼顧有遮擋和無遮擋這兩種識別場景。第三種是基于人臉修復的方法,文獻[14-16]使用生成對抗網(wǎng)絡GAN預測被遮擋的臉部區(qū)域特征,將其還原到未被遮擋時的狀態(tài),再將還原后的人臉傳入到識別網(wǎng)絡中。然而,基于對抗網(wǎng)絡的方法無法重現(xiàn)人臉關鍵點的具體細節(jié),且遇到口罩等大面積遮擋物的重建效果不理想,識別準確率提升不大。文獻[17]使用虛擬口罩遮擋數(shù)據(jù)集和ArcFace損失函數(shù)重新訓練當前三種先進的輕量級人臉識別模型得到了適配口罩遮擋場景的輕量級模型VarGFaceNet-Mask、MobileFaceNet-Mask、Shuffle-FaceNet-Mask,然而這些模型不能兼顧無遮擋場景和口罩遮擋場景下的人臉識別任務。
基于深度學習的人臉識別方法都需要大規(guī)模的人臉圖片作為訓練集,然而當前的無遮擋人臉訓練集有很多,但口罩遮擋人臉訓練集很少,ICCV 2021戴口罩人臉識別比賽的冠軍方案[18]采用FMA-3D[19]對2D人臉圖片進行3D重建,生成人臉的UV映射圖,在映射圖中添加口罩后返回2D人臉,用于制作虛擬口罩遮擋數(shù)據(jù)集,但這種方法還存在這一些問題,因此本文提出了一種生成三維人臉網(wǎng)格后,逐網(wǎng)格進行仿射變換添加虛擬虛擬口罩的數(shù)據(jù)增強器,并與冠軍方案做了多維度的對比以證明本文方法的優(yōu)越性。
在這項工作中,本文提出了一種融合注意力機制的輕量級人臉識別算法GhostFace,該算法能兼顧未佩戴口罩和戴口罩場景下的人臉識別任務。首先,針對當前人臉識別模型規(guī)模龐大的缺點,本文以改進后的Ghost-Net[20]為主干特征提取網(wǎng)絡,通過一系列的線性變換,可以花費更少的運算量從原始特征中發(fā)掘出所需信息的特征信息,使得模型參數(shù)量下降了一個量級,以便在嵌入式、移動設備上部署模型;其次,采用基于人臉修復還需要對輸入圖片進行有無遮擋的判斷,并且修補人臉進一步降低了識別效率,而采用裁剪的方法將降低在無口罩遮擋場景下的識別精度,而本文所提出的融合空間注意力機制的FocusNet可使算法對人臉的眼、眉部分進行重點關注,通過這種方式不會損失人臉被遮擋區(qū)域的局部特征,在遮擋和無遮擋任務中都有較高的準確率。最后,針對當前口罩遮擋人臉數(shù)據(jù)集不充分的問題,提出了一種采用三維人臉網(wǎng)絡生成添加口罩遮擋的數(shù)據(jù)增強方法。
GhostFace——以GhostNet為Backbone的口罩遮擋人臉識別網(wǎng)絡主要包含以下幾個部分:
第一部分是本文提出的對輸入人臉增加口罩遮擋的實時數(shù)據(jù)增強器。第二部分是由GhostNet構(gòu)成的主干特征提取網(wǎng)絡,此部分將口罩遮擋人臉圖片初步提取為3個不同尺度的特征張量。第三部分是本文提出的特征加強提取網(wǎng)絡FocusNet,此部分將來自主干特征提取網(wǎng)絡的2個不同尺度的特征層進行特征融合,并引入了注意力機制,此部分能自適應地融合有判別力的人臉關鍵部位信息,在遮擋和無遮擋任務中都有較強的魯棒性。第四部分是分類器,此部分在網(wǎng)絡的特征加強提取模塊之后接上一個全連接層用于構(gòu)建人臉分類器,可在后續(xù)的模型訓練過程引入Arcface損失函數(shù)輔助模型更快收斂。整體的網(wǎng)絡結(jié)構(gòu)如圖1所示,接下來將對網(wǎng)絡結(jié)構(gòu)分模塊進行詳細闡述。
圖1 整體網(wǎng)絡結(jié)構(gòu)Fig.1 Overall network structure
MobileNets[21-23]系列輕量化卷積神經(jīng)網(wǎng)絡是為嵌入式等移動設備設計的,實驗發(fā)現(xiàn)這些網(wǎng)絡生成的特征圖存在一定的冗余,而且其使用的深度可分離卷積中的點卷積部分中使用了大量的1×1卷積,運算量仍有待優(yōu)化。GhostNet提出Ghost module代替深度可分離卷積中的點卷積,在識別性能不變的情況下,降低了運算量。一般卷積過程如圖2所示,給定一個輸入特征圖G∈?C×H×W,經(jīng)過C′個卷積核K∈?C×K×K卷積之后得到輸出特征圖G′∈?C′×H′×W′,其運算量(FLOPs)為:
圖2 一般卷積過程Fig.2 General convolution process
Ghost module的卷積過程如圖3所示,給定一個輸入特征圖G∈?C×H×W,經(jīng)過C′個卷積核K∈?C×K×K卷積之后得到中間特征層G′∈?C s×H′×W′,其中的s為超參數(shù),它決定了此次卷積對通道壓縮的程度。再使用深度可分離卷積對G′進行卷積之后與G′本身拼接起來得到輸出特征圖G″∈?C′×H′×W′,其運算量(FLOPs)為:
圖3 Ghost module的卷積過程Fig.3 Convolution process of Ghost module
由此可見使用了Ghost module之后,模型的運算量得以降低,然后再使用Ghost module和深度可分離卷積之間的組合構(gòu)成了殘差網(wǎng)絡Ghost bottleneck用于減緩深層網(wǎng)絡的梯度消失現(xiàn)象。如圖4所示。主干特征提取網(wǎng)絡GhostNet便是由尺度不同的Ghost bottleneck前后連接所組成的,原GhostNet的輸入大小為(224,224,3),并在最開始使用步長為2的3×3卷積進行下采樣,本文將此卷積的步長變?yōu)?,并修改網(wǎng)絡輸入大小為(112,112,3),這樣做可增大深層網(wǎng)絡的尺度,有利于獲取更多特征。
圖4 Ghost bottleneck殘差結(jié)構(gòu)Fig.4 Ghost bottleneck residual structure
為了使算法能自適應地融合有判別力的人臉關鍵部位信息,并在遮擋人臉識別中重點關注未被遮擋的上半臉區(qū)域,本文提出了一種融合空間注意力機制的FocusNet加強特征提取網(wǎng)絡。其網(wǎng)絡結(jié)構(gòu)如圖5所示。
圖5 FocusNet加強特征提取網(wǎng)絡Fig.5 FocusNet enhanced feature extraction network
首先從主干特征提取網(wǎng)絡中分別取出尺度為(14,14,112)和(7,7,160)的特征層feat1、feat2。并將feat2通過1×1卷積和上采樣操作得到尺度與feat1相同的特征層feat3,之后就可以將feat1與feat3拼接起來得到尺度大小為(14,14,224)的融合特征層feat4。
受CSPNet[24]的啟發(fā),本文將融合特征層feat4分別進行兩次普通卷積得到兩個相同尺度的特征層,并將第二個特征層接入連續(xù)三個Ghost bottleneck后與第一個特征層直接進行拼接。這樣就構(gòu)建了一個大殘差邊,之所以稱之為大殘差邊是因為Ghost bottleneck也包含了殘差結(jié)構(gòu),也就是說大殘差網(wǎng)絡中還包含了小殘差網(wǎng)絡。
將此大殘差網(wǎng)絡接入空間注意力機制之后得到特征層Spatial1,將Spatial1進行下采樣后與feat3拼接得到融合特征層feat5,此時在feat5后連接一個倒置的大殘差網(wǎng)絡,與上述步驟相同,最終輸出特征層Spatial2到分類器中。使用大殘差網(wǎng)絡這就意味著只有一半的特征通道要經(jīng)過小的殘差結(jié)構(gòu),另一半直接與經(jīng)過小殘差結(jié)構(gòu)的輸出進行拼接,這樣做相較于直接使用常規(guī)的殘差結(jié)構(gòu)可以減少一部分計算量,空間注意力機制則能從不同尺度的特征層中發(fā)掘有判別力的空間信息,后續(xù)將闡述空間注意力機制是如何作用的。
GhostNet延續(xù)了MobileNet系列的通道注意力機制(squeeze and excitation,SE),稱之為通道注意力機制是因為網(wǎng)絡只在通道上引入了注意力,部分能帶來更多有利于識別任務的特征通道的權(quán)重得以增加,其他特征通道的權(quán)重得以抑制。然而遮擋人臉識別任務中,更應該重點關注空間上的信息,例如眼睛、眉毛、額頭部分的紋理信息,因此本文引入了空間注意力機制在加強特征提取網(wǎng)絡中。
空間注意力機制對輸入特征圖G∈?C×H×W使用大小為(H×1)的池化核沿著水平方向和大小為(1×W)的池化核沿著垂直方向進行平均池化操作。因此,在高度為h時,第c個通道的輸出為:
同理在寬度為w時,第c個通道的輸出為:
如圖6所示,有了上述的計算公式之后,給定一個輸入特征圖G∈?C×H×W,設Wacvg∈?C×1×W、Hacvg∈?C×H×1分別表示輸入特征圖在水平方向和垂直方向進行二元自適應均值池化得到濃縮特征。
圖6 空間注意力機制結(jié)構(gòu)Fig.6 Structure of spatial attention mechanism
(1)首先對濃縮特征進行拼接,由于特征Wacvg和Hacvg之間的維度不匹配,因此需要將特征Hacvg的寬、高維度進行轉(zhuǎn)置后再與Hacvg進行拼接得到特征層M。
(2)設定一個超參數(shù)r,使M經(jīng)過1×1的2維卷積之后得到特征層M1,其通道由c變?yōu)閏 r,本文設定r=32且M1的通道數(shù)不得小于8。接下來插入一個BN層和GELU激活函數(shù)得到特征層M2,此時的M2同時具備了輸入特征G在x軸和y軸上的特征濃縮,因此輸入特征G在空間上的信息得以交互。
(3)將混合了空間位置信息的M2進行分割后進行轉(zhuǎn)置,再次通過1×1的2維卷積之后變回通道數(shù)為c的W′、H′,這兩個特征層的參數(shù)代表了空間上的權(quán)重。最后將W′、H′與G矩陣對應位置元素進行相乘得到G′,也就是將空間上的權(quán)重疊加在輸入特征層中,因此G中有利于識別任務的空間上的權(quán)重得以增加,圖中⊙表示G′與H′、W′逐通道地將對應位置元素兩兩相乘:
其中G′為注意力機制的輸出,G為原始的輸入特征圖,C、H、W分別代表特征圖的通道數(shù)、高寬的維度,且H∈?C×H×1、W′∈?C×1×W。
當獲取到分類器提取的長度為512人臉特征向量x之后,本文使用ArcFace作為損失函數(shù),將人臉特征向量x映射到超球體上,并壓縮相同人臉特征向量x的余弦距離,擴大不同人臉特征向量x的余弦距離:
其中,N為樣本數(shù)(人臉圖片數(shù)),n為類別數(shù)(人臉種類數(shù)),s為超球體的半徑,θ為權(quán)重W和人臉特征向量x之間的夾角,xi為網(wǎng)絡輸出的第i個人的人臉特征向量,yi則是第i個人的標簽,且權(quán)重W與人臉特征向量x都要進行歸一化。ArcFace通過在此夾角θ上添加一個間距m,進一步增大了不同人臉特征之間的余弦間隔,這樣做可以使模型學習到的特征具有更強的判別能力。代碼實現(xiàn)則是通過ArcFace預測的人臉標簽logitsArcFace和真實人臉標簽labelid計算交叉熵得到最終的損失函數(shù),其中CrossEnt代表交叉熵損失函數(shù):
人臉識別的數(shù)據(jù)集有很多,但是口罩遮擋人臉數(shù)據(jù)集的樣本很少,不能滿足訓練識別模型的需求。當前遮擋識別算法主要是在原始數(shù)據(jù)集的基礎上進行人臉關鍵點檢測后,將各類口罩對應關鍵點位置直接貼到人臉上,在正臉情況下接近真實圖片,但遇到側(cè)臉等角度時口罩與人臉不能緊密貼合,因此本文提出了一種實時添加虛擬口罩的數(shù)據(jù)增強器,并與FMA-3D的效果做了多方位對比。
FMA-3D通過PRNet[25]這一端到端的3D人臉重建網(wǎng)絡從平面的人臉圖像預測出人臉的3D點云圖,相比于2D的人臉圖像,點云圖還包含了人臉的深度信息,具備“降維打擊”的優(yōu)勢。
當獲取到人臉的點云坐標后,F(xiàn)MA-3D將平面人臉映射到UV紋理圖上后,與口罩的紋理圖相疊加得到了疊加口罩遮擋的人臉UV圖,再將此圖逆向映射回二維平面上就實現(xiàn)了虛擬口罩的添加。相較于普通方法,此方法可使口罩與人臉的邊緣銜接緊密,其具體流程如圖7所示。
圖7 FMA-3D添加虛擬口罩流程Fig.7 FMA-3D adding virtual mouthpiece process
本文使用MediaPipe Face Mesh[26]來估計人臉的468個3D關鍵點,并根據(jù)這些關鍵點進行Delaunay三角剖分將人臉劃分了多個網(wǎng)格;對各種樣式的口罩同樣進行三角剖分得到與人臉位置對應的網(wǎng)格;逐網(wǎng)格的將口罩進行仿射變換映射到人臉對應位置的網(wǎng)格上,此數(shù)據(jù)增強器最終將輸入人臉按3∶1∶1∶1的比例生成未佩戴口罩(不做任何處理)、正確佩戴口罩、佩戴口罩但露出鼻子、佩戴口罩但露出口鼻這四種人臉輸入到網(wǎng)絡中進行訓練。本文的數(shù)據(jù)增強具體流程如圖8所示,相較于FMA-3D,本文提出的數(shù)據(jù)增強器有如下優(yōu)點:
圖8 本文的數(shù)據(jù)增強方法Fig.8 Data enhancement methods in this paper
(1)能生成正確佩戴口罩和未正確佩戴口罩的人臉圖片,其中未正確佩戴口罩又可分為暴露鼻子和暴露口鼻兩種情況,而FMA-3D則只能生成正確佩戴口罩的人臉圖片。
(2)擁有更快的處理速度,且只需CPU就能實現(xiàn),本方案只需篩選出下半臉的部分關鍵點將口罩仿射變換到人臉上,處理單張圖需要26 ms;而FMA-3D需要將整張臉從UV圖逆向還原到平面人臉上,推理單張圖需要113 ms。
(3)相較于傳統(tǒng)的二維貼圖映射方法與FMA-3D,本方案可使得口罩與不同角度的人臉貼合地更為緊密、邊緣銜接地更為自然,逼近真實的口罩遮擋人臉圖片,而FMA-3D有幾率出現(xiàn)模糊的異?,F(xiàn)象,其效果對比如圖9所示。
圖9 數(shù)據(jù)增強效果對比Fig.9 Comparison of data enhancement effects
本文使用一張RTX3080Ti作為GPU,設置最小批次為64,總epoch為20對模型進行訓練。并使用了patience為4,初始學習率為10-3的Adam優(yōu)化器。本章將介紹消融實驗的設計與結(jié)果,旨在證明所提出方法的優(yōu)越性,并設計了一個可視化實驗,使用類熱力圖定量、直觀地對比添加FocusNet前后的效果。
CASIA-WebFace[27]是最常用的人臉識別訓練集,包含10 575人的494 414張臉部圖像,但樣本仍不夠豐富。本文選用了Deng等[4]開源的MS1M-ArcFace數(shù)據(jù)集作為訓練集,包含85 000人的580萬張臉部圖像,此數(shù)據(jù)集經(jīng)過清洗,噪聲更小且樣本豐富。原始測試集選用了最常用的LFW數(shù)據(jù)集,本文在使用數(shù)據(jù)增強器對LFW使用3D人臉網(wǎng)格生成方法制作了添加虛擬口罩的Masked LFW(MLFW)數(shù)據(jù)集,并以此為虛擬測試集。Wang等[28]制作了真實的口罩遮擋人臉數(shù)據(jù)集Masked WHN,本文以此為真實測試集,本文涉及的測試集信息如表1所示。
表1 測試集信息Table 1 Test set information
首先本文使用以ResNet50為主干特征提取網(wǎng)絡的Arcface[4]網(wǎng)絡為Baseline,對比使用了數(shù)據(jù)增強器的前后性能以驗證此數(shù)據(jù)增強器的效果。
實驗的設計與結(jié)果如表2所示,第一列為模型的名稱,其中+號表示在上一個模型的基礎上作出的改進,+GhostNet表示在基準模型的基礎上將主干特征提取網(wǎng)絡修改為GhostNet;+FMA-3D表示在上一個模型的基礎上添加了使用三維人臉重建實時添加虛擬口罩的數(shù)據(jù)增強器;+Spatial表示在上一個模型的基礎上將空間注意力機制加在主干網(wǎng)絡之后;+FocusNet表示在上一個模型的基礎上將Spatial替換為FocusNet加強特征提取網(wǎng)絡。+Ours表示在上個模型的基礎上將FMA-3D替換為本文所提出的逐網(wǎng)格仿射變換添加虛擬口罩的數(shù)據(jù)增強器;第二至四列為模型在無遮擋人臉數(shù)據(jù)集、虛擬遮擋人臉數(shù)據(jù)集、真實遮擋人臉數(shù)據(jù)集上的準確率;第五列為模型的參數(shù)量,用來描述復雜度。并用符號(-)標注出相對上一個模型性能的下降,符號(+)標注出性能的提升。
表2 消融實驗數(shù)的設計與結(jié)果Table 2 Design and results of number of ablation experiments
根據(jù)表2中的實驗結(jié)果可知,使用修改后的Ghost-Net作為主干特征提取網(wǎng)絡之后,模型的準確率在無遮擋場景下降了0.68個百分點,在虛擬口罩遮擋場景下降了2.7個百分點,在真實口罩遮擋場景下降了4.1個百分點,但模型的參數(shù)量減少了85%,準確率的犧牲是值得的。
使用FMA-3D添加口罩的數(shù)據(jù)增強方法之后,模型的準確率在無遮擋場景下降了0.03個百分點,這是由于數(shù)據(jù)增強方法會減少無遮擋人臉的數(shù)量。在虛擬口罩遮擋場景提升了2.58個百分點,在真實口罩遮擋場景提升了2.13個百分點,提升顯著;而使用本文提出的數(shù)據(jù)增強方法之后,這充分說明了本文提出的數(shù)據(jù)增強方法適應口罩遮擋下人臉識別任務的需求。
添加空間注意力機制后,模型的準確率在無遮擋場景提升了0.07個百分點,在虛擬口罩遮擋場景提升了0.85個百分點,在真實口罩遮擋場景提升了3.07個百分點。再將空間注意力機制替換為本文的FocusNet加強特征提取網(wǎng)絡之后,模型的準確率在無遮擋場景提升了0.16個百分點,在虛擬口罩遮擋場景提升了0.17個百分點,在真實口罩遮擋場景提升了0.40個百分點,本文將在3.3節(jié)通過可視化方法說明FocusNet是如何在口罩遮擋場景下顯著提升了準確率。
將數(shù)據(jù)增強方法由FMA-3D替換為本文所提出的數(shù)據(jù)增強器之后,模型的準確率在無遮擋場景提升了0.17個百分點,在虛擬口罩遮擋場景提升了1.2個百分點,在真實口罩遮擋場景提升了2.79個百分點,這充分說明了本文所提出的數(shù)據(jù)增強器相較于FMA-3D有著更好的效果。
如表3所示,將本文提出的模型GhostFace與當下主流的輕量級遮擋人臉識別算法分別在虛擬口罩遮擋的LFW、AgeDB-30、CALFW數(shù)據(jù)集上做對比驗證,此三種虛擬數(shù)據(jù)集都是由MaskTheFace[17]方法生成的,可見本文提出的模型在三種數(shù)據(jù)集上皆表現(xiàn)最優(yōu)。
表3 與主流輕量級模型的對比Table 3 Comparison with mainstream lightweight models
綜上,本文通過改進網(wǎng)絡模型和提出一種數(shù)據(jù)增強方法,與基準模型相比,模型參數(shù)量從166.23 MB下降到26.92 MB(降低了84%)的同時,在虛擬口罩遮擋人臉數(shù)據(jù)集和真實口罩遮擋人臉數(shù)據(jù)集的識別率分別提升1.9個百分點和4.29個百分點,有著更好的的識別效率和精度。
為定量、直觀地分析和解釋添加FocusNet的效果,本文使用Axiom-based Grad-CAM[29]來生成添加FocusNet前后的類熱力圖,通過可視化的類熱力圖可以找出分類任務中,對分類結(jié)果影響力最大的部分特征,也就是模型重點注意的部分特征。如圖10所示,Grad-CAM獲取到GhostFace中分類器的輸出logits,并計算logits相對2維特征矩陣的梯度,通過梯度與2維特征矩陣相乘就可以得到一個熱力分布圖,此分布圖中顏色越深的部分代表了模型越重點關注的空間部分信息。接下來對熱力分布圖進行上采樣和平滑處理后得到與輸入圖片大小相同的熱力分布圖,并將此熱力分布圖疊加在輸入圖片上就看直觀地觀測到人臉識別模型重點關注的人臉區(qū)域。
圖10 類熱力圖生成過程Fig.10 Process of generating class heat map
導向反向傳播(guided backpropagation)[30]是CNN網(wǎng)絡可視化的一種經(jīng)典算法,導向反向傳播可視化后得到的導向反向傳播圖GB可以直觀地看出模型學習到了什么特征,本文將類熱力分布圖中的權(quán)重疊加到GB中得到GB-CAM,通過GB-CAM就可以看到模型重點學習的部分特征。在遮擋人臉識別任務中,如果模型重點學習的是未被遮擋的上半部分人臉區(qū)域,則與本文設想的一致,說明添加FocusNet后,起到了預期的作用。
如圖11(a)所示,第一行分別為人臉、口罩遮擋人臉的類熱力圖,第二行為對應的GB圖,第三行為對應的GB-CAM圖,圖11(b)則為添加FocusNet后所對應的可視化結(jié)果。根據(jù)圖11的結(jié)果可得知,添加FocusNet之前,在有、無遮擋的情況下,類熱力圖的分布都沒有規(guī)律可循,其GB和GB-CAM圖模糊不清,說明此時模型沒有重點關注、學習的部分特征。
圖11 注意力機制效果可視化Fig.11 Visualization of effects of attentional mechanisms
然而在添加了FocusNet后,在無遮擋情況下類熱力圖中雙眼、鼻子、嘴巴部分區(qū)域的顏色較深,其GBCAM圖中雙眼、鼻子這兩個部分清晰可見,說明模型在無遮擋情況下重點關注這兩個部位。在口罩遮擋情況下,類熱力圖中,未被口罩遮擋的上半部分人臉區(qū)域顏色較深,其GB-CAM圖中眉毛、眼睛這兩個區(qū)域清晰可見,說明模型在有遮擋的情況下重點關注上半部分人臉區(qū)域。通過此對照組,本文使用可視化的方法充分添加FocusNet加強特征提取網(wǎng)絡可帶來識別準確率的提升。
針對口罩遮擋人臉數(shù)據(jù)集不夠逼真、充分的問題,本文構(gòu)建了使用三維人臉網(wǎng)格生成添加虛擬口罩的實時數(shù)據(jù)增強器;針對人臉識別算法參數(shù)量較大的問題,改進了GhostNet作為主干特征提取網(wǎng)絡,極大地降低了模型的復雜度;針對口罩遮擋人臉識別應用場景下,模型識別準確率低的問題,提出了FocusNet加強特征提取網(wǎng)絡,使模型重點學習眼、眉部位的特征,有效提升了模型的準確率;最終模型GhostFace能同時兼容遮擋和無遮擋條件下的人臉識別任務,并且在降低84%參數(shù)量的同時,在虛擬口罩遮擋人臉數(shù)據(jù)集和真實口罩遮擋人臉數(shù)據(jù)集的識別率分別提升1.9個百分點和4.29個百分點,有著更好的識別效率和精度。此外本文使用數(shù)據(jù)增強器還可以在人臉數(shù)據(jù)集上添加其他遮擋物如,眼鏡、長發(fā)等,具有廣泛的應用前景。