郭 文,李 冬,袁 飛
多尺度注意力融合和抗噪聲的輕量點云人臉識別模型
郭 文1,李 冬1,袁 飛2
(1. 山東工商學(xué)院信息與電子工程學(xué)院,山東 煙臺 264005;2. 中國科學(xué)院信息工程研究所,北京 100195)
在低質(zhì)量點云人臉數(shù)據(jù)集上,判別性特征的提取和模型對噪聲的魯棒性是解決點云人臉識別問題的關(guān)鍵。針對現(xiàn)有輕量點云人臉識別算法不能充分提取判別性特征和數(shù)據(jù)集中存在大量噪聲而影響模型訓(xùn)練的問題,設(shè)計輕量高效的網(wǎng)絡(luò)模型,提出了基于多尺度注意力融合和抗噪聲的自適應(yīng)損失函數(shù)的點云人臉識別算法。首先通過不同卷積模塊獲得不同感受野大小的特征圖。然后進行多尺度的注意力特征提取,并使用高層的注意力權(quán)重來引導(dǎo)低層注意力權(quán)重的生成,最后進行通道融合得到多尺度融合的特征,提升了模型捕獲人臉細(xì)節(jié)特征的能力。其次,根據(jù)低質(zhì)量點云人臉圖像的噪聲信息特點,設(shè)計了一種新穎的抗噪聲的自適應(yīng)損失函數(shù)(anti-noise adaptive loss),以應(yīng)對數(shù)據(jù)集大量噪聲對模型訓(xùn)練過程中可能造成的負(fù)面影響,提升模型的魯棒性和泛化能力。在開源數(shù)據(jù)集Lock3DFace和本文提出的KinectFaces數(shù)據(jù)集上的實驗結(jié)果表明,與當(dāng)前的主流算法相比該算法模型在低質(zhì)量點云人臉識別任務(wù)中具有更好的識別效果。
點云人臉識別;注意力融合;注意力特征提??;損失函數(shù)
基于點云的人臉識別是計算機視覺領(lǐng)域中活躍的課題之一,同時也面臨著許多的挑戰(zhàn)。與3D點云人臉識別相比,基于2D圖像的人臉識別取得了巨大的進步[1-2]。然而,2D人臉識別在光照和姿態(tài)變化等復(fù)雜環(huán)境下性能不穩(wěn)定。隨著3D成像系統(tǒng)的快速發(fā)展,2.5D或3D人臉識別已經(jīng)成為處理2D人臉識別任務(wù)中未解決問題的主要替代方法。許多研究表明,3D人臉識別不僅自身能取得與2D人臉識別相媲美的識別結(jié)果[3],而且與2D人臉識別任務(wù)具有良好的互補性。
數(shù)據(jù)集對人臉識別發(fā)展起著重要影響,大規(guī)模的2D人臉數(shù)據(jù)集使得基于卷積神經(jīng)網(wǎng)絡(luò)的2D人臉識別算法取得了巨大成功。如,使用200萬人臉數(shù)據(jù)訓(xùn)練的FaceNet[4]算法在LFW[5]數(shù)據(jù)集上達(dá)到了99.63%的準(zhǔn)確率。然而,3D人臉數(shù)據(jù)集受限于特定的采集設(shè)備,導(dǎo)致3D人臉數(shù)據(jù)集資源遠(yuǎn)少于2D人臉數(shù)據(jù)集。3D人臉識別數(shù)據(jù)集有FRGC V2.0[6],Bosphorus[7],BU3D-FE[8]和Lock3DFace[9]等,其中最大的FRGC V2.0僅包含466個人的4 007張3D人臉圖像,Bosphorus數(shù)據(jù)集也僅包含105個人的4 666張圖像。與2D人臉數(shù)據(jù)集WebFace260M[10]包含4萬個體的千萬張人臉圖像對比,3D人臉數(shù)據(jù)集十分匱乏。另一方面,F(xiàn)RGC V2.0和Bosphorus數(shù)據(jù)集是通過高精度掃描儀進行采集,制作成本極高,限制了數(shù)據(jù)集規(guī)模的提升。
近年來,消費級深度相機如Kinect和RealSense逐漸走向市場。相較于高精度3D掃描設(shè)備,該類型相機更加低廉輕便,且有著更高的幀率以保證數(shù)據(jù)的實時獲取。如圖1所示,第1行高精度掃描設(shè)備獲取到的可視化人臉信息;第2行消費級深度相機獲取的人臉圖像有著大量噪聲,并可能出現(xiàn)大面積的空洞缺失;第3行展現(xiàn)了使用消費級深度相機在戴眼鏡群體中拍攝時可能出現(xiàn)的不規(guī)則光噪聲問題。因此,通過消費級深度相機獲得的數(shù)據(jù)需要人臉識別算法對噪聲有著較高的魯棒性。如,在最大的低質(zhì)量3D人臉數(shù)據(jù)集Lock3dFace上識別率最高的Led3D[11]網(wǎng)絡(luò),也僅有54.28%識別率。該模型對噪聲的魯棒性差是準(zhǔn)確率低的主要原因。
因此,基于消費級深度相機的3D人臉識別發(fā)展?jié)摿薮?。為了解決上述問題,本文構(gòu)建一種可以有效提取人臉判別性特征信息并對噪聲有較強魯棒性的3D人臉識別算法模型至關(guān)重要。
本節(jié)將簡要敘述3D人臉識別方法、CNN中的多尺度注意力特征融合、人臉損失函數(shù)的相關(guān)工作。
二維人臉識別的高準(zhǔn)確率驗證了基于神經(jīng)網(wǎng)絡(luò)的特征提取方法非常適用于人臉識別。VGG-Face[12]是首個使用卷積神經(jīng)網(wǎng)絡(luò)來進行3D人臉識別的模型。該模型將預(yù)處理后的點云人臉圖像降維成2D,并輸入到模型中進行初步訓(xùn)練。該方法使用降維的點云人臉圖像進行模型的微調(diào),解決了3D圖像在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中輸入維度不一致的問題,為后續(xù)基于神經(jīng)網(wǎng)絡(luò)的3D人臉識別框架提供了基礎(chǔ)范式。文獻[13]提出了一種基于PointNet[14]的網(wǎng)絡(luò)模型。該模型可以將點云圖像直接作為模型的輸入,解決了3D圖像降維到2D而產(chǎn)生的信息丟失問題。雖然該模型提升了識別準(zhǔn)確率,但是點云圖像直接作為網(wǎng)絡(luò)模型的輸入產(chǎn)生了巨大的計算成本,不適用于實時的人臉識別。文獻[15]提出了動態(tài)類別序列方法,訓(xùn)練過程中每次迭代,均動態(tài)選擇類別子集,解決了大規(guī)模人臉識別任務(wù)中的長尾分類問題。文獻[11]利用3D人臉識別的輕量級CNN,對于低質(zhì)量人臉數(shù)據(jù)集的識別有較高的準(zhǔn)確率和識別速度。該網(wǎng)絡(luò)通過多尺度特征融合模塊,有效地改善了低質(zhì)量人臉數(shù)據(jù)的表示,但特征的提取與融合通過簡單的下采樣和特征疊加,有較大改進空間。
多尺度的注意力機制,來自不同層或分支的注意力特征的組合。受到人類視覺注意力的啟發(fā),注意力機制也應(yīng)用于深度學(xué)習(xí)中[16-17]。最初的多尺度注意力機制是基于全局尺度。如,Self-attention通過矩陣相乘來提取每個詞在文本中的全局依賴[18]或每個像素在整個圖像中的全局依賴[19-20]。有許多在大規(guī)模的分類任務(wù)中使用注意力來提高卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)性能的研究,如,squeeze and excitation (SENet)壓縮全局空間信息輸出通道描述符來捕獲通道依賴[21]。更接近本文的是convolutional block attention module (CBAM)網(wǎng)絡(luò)[22],該網(wǎng)絡(luò)結(jié)合通道注意力和空間注意力來提取特征信息。在CBAM中使用全局最大池化和全局平均池化來計算通道注意力。然而,本文驗證了在點云人臉識別中使用全局池化是次優(yōu)的。通過全局池化來獲得通道注意力忽略了通道注意力中的空間信息,導(dǎo)致模型更加關(guān)注圖像背景信息而不能很好地捕獲人臉細(xì)節(jié)的局部特征信息。
將不同大小卷積核得到的特征圖進行融合即多尺度特征融合。MARDC-MVSNet[23]將–1個源圖像特征圖與參考圖像特征圖進行融合,使得模型可以生成稠密點云。然而,在3D維度進行圖像特征的處理將耗費巨大的計算開銷。Led3D[11]網(wǎng)絡(luò)將不同卷積塊得到的特征通過簡單串聯(lián)的方式在通道維度上進行疊加,該方式可能導(dǎo)致模型來自多尺度輸出特征通道間特征相關(guān)性的缺失[24]。
如何合理地設(shè)計損失函數(shù)對加強深度卷積神經(jīng)網(wǎng)絡(luò)在類別之間識別能力是非常重要的。Center loss[25]通過懲罰深度特征及相應(yīng)類別中心點的歐氏空間距離來實現(xiàn)類內(nèi)相近的目的。L-Softmax[26]將原始的Softmax進行了改進,提出了角度的邊界約束來限制類間距離。SphereFace[27]在L-Softmax的基礎(chǔ)上對權(quán)重進行了歸一化,認(rèn)為最后一個全連接層的線性變換矩陣可以作為角度空間類別中心的表示,通過乘法的方式來懲罰深度特征與相應(yīng)權(quán)重間的角度,為損失函數(shù)的設(shè)計提供了清晰的幾何解釋。Focal loss[28]根據(jù)特定任務(wù)中數(shù)據(jù)集數(shù)據(jù)不平衡的特點,提出一個難樣本挖掘損失函數(shù),來降低數(shù)據(jù)集中易分樣本的權(quán)重。在特定的人臉識別任務(wù)中,不同的損失函數(shù)可能發(fā)揮出不同的效果。在點云人臉識別任務(wù)中,數(shù)據(jù)集不僅質(zhì)量低,更會出現(xiàn)沒有判別信息的問題,如圖1第2行所示,在這種情況下傳統(tǒng)的損失函數(shù)無法應(yīng)對大量含噪數(shù)據(jù)的干擾。
本文提出結(jié)合多尺度注意力特征融合和抗噪聲的自適應(yīng)損失函數(shù)的方法,流程如圖2所示。該方法主要包含3個模塊:
(1) 輕量的CNN特征提取模塊。為了實現(xiàn)模型的高效,減少參數(shù)量和內(nèi)存開銷,主干網(wǎng)絡(luò)僅由4個Block組成,每個Block的組成如圖2所示,由一個的卷積層、BatchNormal層和ReLU層組成。4個模塊中每個卷積核的寬度分別為32,64,128和256。經(jīng)過4個模塊的特征提取,獲得4個不同感受野大小的特征圖,為后續(xù)多尺度注意力特征融合提供前提條件。
(2) 多尺度注意力特征融合模塊(multi-scale attention feature module,MS-AFM)。通過將不同卷積核大小得到的特征圖來進行注意力特征的提取,并由高層的注意力權(quán)重來引導(dǎo)低層注意力權(quán)重的生成,獲得不同尺度特征圖的注意力特征,并最終在通道維度進行連接。
(3) 抗噪聲的自適應(yīng)損失函數(shù)模塊(anti-noise adaptive loss,AN Loss)。在全連接層后的Softmax輸出基礎(chǔ)上加了自適應(yīng)調(diào)節(jié)因子,最終實現(xiàn)抗噪聲的自適應(yīng)損失函數(shù)的設(shè)計。
本文工作的主要創(chuàng)新如下:
(1) 提出了一個針對3D點云人臉識別的多尺度注意力融合模塊,可以學(xué)習(xí)全局注意力和局部注意力相融合的特征解決了傳統(tǒng)注意力特征過于關(guān)注背景信息而丟失了局部細(xì)節(jié)信息的問題;通過高層注意力特征來輔助低層注意力特征的生成,解決了傳統(tǒng)串聯(lián)特征融合方式忽略了來自多尺度輸出特征的不同通道間特征相關(guān)性的問題。
(2) 提出了一個抗噪聲的自適應(yīng)損失函數(shù),該損失函數(shù)可以使得網(wǎng)絡(luò)自適應(yīng)地弱化噪聲對模型訓(xùn)練的負(fù)面影響,提高模型的魯棒性和泛化能力。
(3) 為了緩解低質(zhì)量點云人臉數(shù)據(jù)集的匱乏,本文建設(shè)了一個包含60個人和4個類別的低質(zhì)量點云人臉數(shù)據(jù)集KinectFaces。本文所提出的輕量點云人臉識別模型在公開數(shù)據(jù)集Lock3DFace和本文提出的KinectFaces數(shù)據(jù)集上取得較好的識別準(zhǔn)確率,顯示了本算法良好的識別性能和泛化能力。
在低質(zhì)量3D人臉識別任務(wù)中,由于輸入到網(wǎng)絡(luò)的數(shù)據(jù)會經(jīng)過圖像的預(yù)處理,人臉一般位于圖像的固定位置。因此,為了提取圖像特征固定位置的語義信息,提升模型識別精度,本文提出多尺度注意力特征融合模塊MS-AFM。
2.1.1 CBAM中通道注意力機制
考慮到人臉識別任務(wù)的特殊性,待分類的人臉特征位于圖像的固定位置,全局最大池化不同于全局平均池化可以減少無用信息的影響,保留更多固定位置的語義信息。此外,為了保留更多固定位置的語義線索,本文分別采用全局最大池化來保留全局注意力和使用最大池化來保留局部注意力相結(jié)合的方式來保留更多有用的信息。
2.1.2 融合局部注意力的通道注意力機制
為了提取通道間的空間信息,分別通過全局最大池化和最大池化來取得通道全局注意力和通道局部注意力。為了保持模型的輕量性,2個分支分別用逐點卷積來融合通道信息,保存圖像在每個空間位置上的通道信息。通道局部注意力()?R×H×和通道全局注意力()?R×H×分別為
在局部通道注意力()中,為經(jīng)過最大池化后的特征,池化卷積核大小7×7。1的卷積核大小為/×1×1,2的卷積核大小為×1×1。全局通道注意力()通過全局最大池化輸出到兩層卷積核、通道數(shù)和局部注意力分支一樣的分支中。全局注意力采用全局最大池化而不是全局平均池化,可以獲取人臉在固定位置的特征線索。通道局部注意力采用最大池化和兩層卷積,可以保留通道信息中的空間線索,可以更準(zhǔn)確地提取特征的細(xì)節(jié)信息。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,最終通道注意力特征為
經(jīng)過多尺度通道注意力特征得到的特征圖進行空間注意力的特征提取為
2.1.3 多尺度注意力融合
在CNN中不同的卷積層包含著不同的信息。中如,在較低的卷積層含有基礎(chǔ)的顏色、邊際信息,同時在較高的層編碼有抽象和語義線索,因此融合不同層的信息可以生成更好的特征。本文采用高層注意力特征權(quán)重來輔助低層注意力特征的生成。兩層特征圖的注意力融合方式為
其中,?R×H×為融合后的特征;為低層特征圖;為高層卷積得到的特征圖;為注意力機制模塊具體的連接方式(圖4)。
圖4 多尺度注意力特征圖融合(MS-AFM)
Fig. 4 Multi-scale attentional feature fusion module
如圖4所示,4個模塊中通過3×3卷積捕獲到不同感受野大小的信息,經(jīng)過上述注意力模塊得到的特征圖通過下采樣固定到相同的尺寸,在通道維度進行連接后,得到多尺度注意力融合最終的特征圖。
如圖1所示,不同精度設(shè)備采集的數(shù)據(jù)集在質(zhì)量上差別巨大。為了避免模型將噪聲當(dāng)作要學(xué)習(xí)的特征,本文構(gòu)建了一個抗噪聲的自適應(yīng)損失函數(shù)。
許多人臉識別損失函數(shù)的研究是交叉熵Softmax損失函數(shù)的變例,對于一張人臉圖像通過網(wǎng)絡(luò)提取其特征向量?R,其類別用y表示,則對于的分類概率為
交叉熵?fù)p失函數(shù)為
對于所有樣本的損失函數(shù)為
其中,為樣本總數(shù);為正例樣本個數(shù);為負(fù)例樣本個數(shù);=+。
為了便于表示,樣本正確分類的概率用p代替,即
則交叉熵?fù)p失函數(shù)為
圖5損失函數(shù)
通過消費級3D攝像機采集的點云人臉數(shù)據(jù)往往存在著大量的噪聲,并且圖像大小不適用于直接用來做人臉識別。例如,通過Kinect采集的Lock3DFace數(shù)據(jù)集包含了點云人臉數(shù)據(jù)集和相對應(yīng)的關(guān)鍵點的坐標(biāo)信息。在進行點云人臉識別網(wǎng)絡(luò)訓(xùn)練和測試之前,需要先對點云人臉數(shù)據(jù)進行插值、鼻尖校準(zhǔn)。為了輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中,也需要將圖像進行歸一化。此外,由于點云人臉數(shù)據(jù)集較少,對數(shù)據(jù)集的增強往往是點云人臉識別的必要工作。
(1) 插值。為了提高低質(zhì)量深度圖像中人臉的占比,提升分辨率,與文獻[11]類似,使用Lock3DFace中提供的坐標(biāo)值,將人臉從原始深度幀(512, 424)中裁剪出180×180的人臉,并將其線性插值到360×360。
(2) 鼻尖校準(zhǔn)。為了切除非面部區(qū)域,使用數(shù)據(jù)集提供的鼻尖坐標(biāo)(,),在其周圍定位出一個5×5的區(qū)域,并使用其中值而不是平均值作為修改的基準(zhǔn)點來切除非面部區(qū)域,避免大量孔洞噪聲的影響。
(3) 人臉投影。為了使點云人臉圖像能夠適用基于2D圖像訓(xùn)練的CNN,按照Led3D中提供的方法將3D點云投影到2D空間中并將深度人臉填充到固定大小,最終將深度人臉圖像歸一化到[0,255]的范圍內(nèi)。
(4) 數(shù)據(jù)增強。為了提高點云人臉數(shù)據(jù)集的規(guī)模,使用姿勢生成、形狀縮放來進行圖像增強。姿勢生成,即在本項工作中對點云人臉圖像項進行左右旋轉(zhuǎn)角度[–600,600]和俯仰角度[–400,400],每隔200生成新的人臉圖像;形狀縮放,即為了模擬因為人臉與相機距離不同而導(dǎo)致的人臉在圖像中分辨率的變化,將二值化后的人臉圖像放大1.15倍和1.35倍。
本文實驗共使用了3個數(shù)據(jù)集,分別是Lock3DFace,Bosphorus和KinectFaces。其中Lock3DFace是當(dāng)前低質(zhì)量點云人臉識別領(lǐng)域的主要數(shù)據(jù)集,用來測試和微調(diào)網(wǎng)絡(luò)模型。KinectFaces是本文為了彌補低質(zhì)量人臉數(shù)據(jù)集的匱乏而建設(shè)的一個3D點云人臉識別數(shù)據(jù)集,用來測試驗證網(wǎng)絡(luò)模型的泛化能力。高精度的Bosphorus數(shù)據(jù)集僅用來進行網(wǎng)絡(luò)模型的初步訓(xùn)練[29]。
(1) Lock3DFace[9]。該數(shù)據(jù)集是當(dāng)前最大的低質(zhì)量點云人臉公開數(shù)據(jù)集,使用Kinect V2進行拍攝。其中包含509人的5 671個視頻序列,有自然狀態(tài)(NU)、表情變化(FE)、遮擋(OC)、姿勢(PS)和時間變化(TM) 5個類別。其中,時間變化是指在2個相隔半年拍攝的數(shù)據(jù)集類別。
(2) Bosphorus[7]。該數(shù)據(jù)集是采用高精度3D傳感器拍攝的點云人臉數(shù)據(jù)集。其中,包含105個人的4 666張3D人臉圖像,包含表情變化、遮擋和姿勢變化3個類別。
(3) KinctFaces。該數(shù)據(jù)集是本文建設(shè)的一個包含60人的低質(zhì)量點云人臉數(shù)據(jù)集。使用Kinect V3設(shè)備進行拍攝,同步保存深度圖像和相應(yīng)的關(guān)鍵點坐標(biāo)信息,包含自然狀態(tài)、表情變化、姿勢變化、光噪聲4個類別,其中針對光的折射對戴眼鏡個體的數(shù)據(jù)采集有較大影響的問題,本數(shù)據(jù)集首次將戴眼睛群體的數(shù)據(jù)歸類為光噪聲類別,如圖1中第3行所示。此外,該數(shù)據(jù)集包含4個類別的9 600張人臉圖像,因為在大學(xué)校園中進行拍攝,所拍攝對象年齡集中在20~25歲之間。
本文實驗平臺Tesla V100。軟件環(huán)境為:Ubuntu18.04,mxnet-cu101。權(quán)重衰減設(shè)置為0.000 5。學(xué)習(xí)率為0.01,Batch Size為300。輸入數(shù)據(jù)調(diào)整到128×128進行訓(xùn)練。
4.2.1 測試方法
Led3D是Lock3DFace數(shù)據(jù)集中準(zhǔn)確率最高的網(wǎng)絡(luò)模型,為了實驗的公平,采用Led3D中的測試方法作為標(biāo)準(zhǔn)。具體來說,將Bosphorus中提供的數(shù)據(jù)集進行第一步訓(xùn)練,使用Lock3DFace中的數(shù)據(jù)集進行微調(diào)。在Lock3DFace數(shù)據(jù)集中隨機選擇509個個體中340個類別的全部數(shù)據(jù)用于訓(xùn)練,其中采集每個視頻前6幀用于訓(xùn)練,其余的169個類別作為測試數(shù)據(jù)。此外,在340個個體的自然狀態(tài)人臉中每個視頻選擇6張圖片進行數(shù)據(jù)增強。在測試集中選擇每個個體的自然狀態(tài)人臉一張圖片作為gallery,其余所有圖片作為probe。計算rank-one測試結(jié)果進行統(tǒng)計。
4.2.2 參數(shù)討論
表1 不同超參數(shù)對結(jié)果的影響(%)
4.2.3 消融實驗
為研究本文算法對各個模塊產(chǎn)生的性能增益,逐步添加多尺度注意力融合模塊、抗噪聲的自適應(yīng)損失函數(shù),且分別評估算法在低質(zhì)量Lock3DFace數(shù)據(jù)集上的性能指標(biāo),為保證實驗的公平性實驗中所有的參數(shù)設(shè)置都相同,Anti-noise Adaptive Loss的超參數(shù)設(shè)置為=1。實驗結(jié)果見表2,每個模塊對模型性能的提升均有不同程度的貢獻,其中多尺度注意力融合模塊貢獻最大,提升近5%的性能增益,主要得益于其能迫使模型學(xué)習(xí)到局部注意力信息。之后通過增加抗噪聲的自適應(yīng)損失函數(shù),使模型性能得到提高,最終結(jié)合所有的模塊,本文方法達(dá)到了較好的性能,平均rank-one可以達(dá)到49.53%。
為了驗證多尺特征融合模塊中不同分支設(shè)置的影響,本文設(shè)置了不同的消融模塊,如圖6所示。
表2 每種改進策略產(chǎn)生的性能增益對比(%)
圖6 不同結(jié)構(gòu)的通道注意力融合機制
表3實驗驗證了采用全局最大池化和最大池化的注意力結(jié)構(gòu)在除了時間類別的多個類別中均取得了最好的識別效果,以及全局注意力信息和局部注意力信息相結(jié)合的方式,在點云人臉識別任務(wù)中可以更好地提取語義信息。
表3 注意力模塊設(shè)計的消融實驗(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗證本文MS-AFM (multi-scale attention feature module)模塊的優(yōu)越性,將多種注意力機制嵌入到其中進行了對比。因為AFF[30]和SENet中沒有空間注意力機制,而且空間注意力機制不是本文的主要工作,為保證實驗的公平性,空間注意力機制不參與實驗的比較,其他參數(shù)設(shè)置也完全和MS-AFM相同。實驗結(jié)果見表4,本文所提出的MS-AFM模塊在所有類別中均領(lǐng)先于其他模型。
表4 不同注意力機制對準(zhǔn)確率的影響(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
由表4可得,本文所提出的注意力機制在點云人臉識別任務(wù)中超越了大多數(shù)注意力機制。相較于AFF,本文模塊雖然在時間變化類別上略低,但在其他類別上可大幅超過,平均識別精度可以高出2.39%。AFF的通道注意力采用了局部注意力和全局注意力結(jié)合的方法和本文方法思想類似,驗證了局部注意力在人臉識別任務(wù)中的重要性。
在Lock3DFace數(shù)據(jù)集上任意抽取10個人的20張圖像,使用表4中3個不同注意力機制提取人臉特征,并將得到的特征使用t-SNE算法進行可視化,得到結(jié)果如圖7所示。經(jīng)過對比可以發(fā)現(xiàn),本文方法得到的特征向量更加的緊湊且具可分離性,驗證了MS-AFM模塊的有效性。
4.2.4 多模型測試結(jié)果對比
為了驗證本文方法的有效性,首先與文獻[11]的Led3D算法和其所選用方法進行對比。本文所使用的實驗方法為4.2.1節(jié)中所示。試驗結(jié)果見表5,本文模型性能在所有子集上超越了大多數(shù)先進算法,并優(yōu)于當(dāng)下最先進的低質(zhì)量3D圖像人臉識別網(wǎng)絡(luò)Led3D。在表情和姿勢2個子集中有較大地提升,驗證了模型在應(yīng)對復(fù)雜數(shù)據(jù)時的魯棒性。實驗統(tǒng)計方法與4.2.1中相同,沒有剔除任何數(shù)據(jù)。
圖7 不同結(jié)構(gòu)的通道注意力融合機制特征生成圖((a)MS-AFM模塊得到的特征圖;(b)使用MS-SENet得到的特征圖;(c)使用MS-AFF得到的特征圖)
表5 不同方法在Lock3DFace上的準(zhǔn)確率(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗證本文方法的魯棒性和有效性,給預(yù)處理后的Lock3Dface測試集的正面子集圖像上分別添加了10%,20%,30%和40%的椒鹽噪聲。經(jīng)過處理后的人臉圖像如圖8所示,與不同模型的對比實驗結(jié)果如圖9所示。
圖8 可視化的混合椒鹽噪聲人臉深度圖像
圖9 添加椒鹽噪聲的實驗結(jié)果
從圖9可以看出,在噪聲強度不斷增大的情況下,本文方法相比其他方法,識別性能更加穩(wěn)定,且識別準(zhǔn)確率優(yōu)于其他方法。驗證了本文方法在特征提取過程中對噪聲的魯棒性,此外通過多尺度注意力融合模塊提取到了更多的判別性特征,從而提高模型別率。
4.2.5 泛化性實驗和數(shù)據(jù)增強
本實驗通過4.2.1中介紹的方法訓(xùn)練模型,添加了數(shù)據(jù)增強的訓(xùn)練數(shù)據(jù)集。在KinectFaces數(shù)據(jù)集上進行測試,來驗證本文模型的泛化能力和數(shù)據(jù)增強的效果。
從表6中可以看出使用數(shù)據(jù)增強技術(shù)雖然在個別類別上模型準(zhǔn)確率有所下降,但在大部分類別上對模型識別準(zhǔn)確率都有不小地提升,說明了當(dāng)前低質(zhì)量點云人臉識別領(lǐng)域數(shù)據(jù)集規(guī)模仍然是制約模型識別精度提升的主要因素。此外,本文方法在KinectFaces數(shù)據(jù)集上的識別準(zhǔn)確率遠(yuǎn)高于其他算法,表現(xiàn)出了模型較好的泛化性和較高識別準(zhǔn)確率。
表6 在KinectFaces數(shù)據(jù)集上的rank-one測試(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
本文算法在低質(zhì)量點云人臉數(shù)據(jù)集上表現(xiàn)出相對較好的識別能力,并具有不錯的泛化性,通過實驗結(jié)果分析可以看出點云人臉識別算法所提出的多尺度注意力融合模塊可以加強對圖片中人臉信息的關(guān)注,獲得含有強有力判別性的特征,且本文提出的抗噪聲的自適應(yīng)損失函數(shù)也適用于含有大量噪聲的點云數(shù)據(jù)集。但本文也存在一定的局限性,低質(zhì)量點云人臉數(shù)據(jù)集數(shù)量較少,數(shù)據(jù)集規(guī)模將對最終實驗結(jié)果有著較大影響,但本文所使用的數(shù)據(jù)增強方法并不能大幅度提升數(shù)據(jù)集數(shù)量,因此對于數(shù)據(jù)增強方法還有較大改進的空間。另一方面,抗噪聲的自適應(yīng)損失函數(shù)存在2個超參數(shù),超參數(shù)的需要根據(jù)數(shù)據(jù)集的噪聲程度進行設(shè)置,但目前對于噪聲的評估并沒有具體可以量化的公式進行計算。
(感謝:北京航空航天大學(xué)IRIP實驗室提供的數(shù)據(jù)集的支持。本代碼將在https://github.com/Shel dongg/3dfacems-afm進行共享。)
[1] 侯守明, 杜成菲, 王陽, 等. 基于Kinect的拉普拉斯網(wǎng)格形變?nèi)S人臉建模[J]. 圖學(xué)學(xué)報, 2018, 39(5): 970-975.
HOU S M, DU C F, WANG Y, et al. Laplace’s grid deformation 3D face modeling based on kinect[J]. Journal of Graphics, 2018, 39(5): 970-975 (in Chinese).
[2] TOLOSANA R, VERA-RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: a survey of face manipulation and fake detection[J]. Information Fusion, 2020, 64: 131-148.
[3] HUANG D, ARDABILIAN M, WANG Y H, et al. 3-D face recognition using eLBP-based facial description and local feature hybrid matching[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1551-1565.
[4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.
[5] KARAM L J, ZHU T. Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments[C]//Proc SPIE 9394, Human Vision and Electronic Imaging XX, Bellingham:Society of Photo-Optical Instrumentation Engineers, 2015:93940B.
[6] PHILLIPS P J, FLYNN P J, SCRUGGS T, et al. Overview of the face recognition grand challenge[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 947-954.
[7] SAVRAN A, ALYüZ N, DIBEKLIO?LU H, et al. Bosphorus database for 3D face analysis[M]//Lecture Notes in Computer Science. Berlin: Springer, 2008: 47-56.
[8] YIN L J, WEI X Z, SUN Y, et al. A 3D facial expression database for facial behavior research[C]//The 7th International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 2006: 211-216.
[9] ZHANG J J, HUANG D, WANG Y H, et al. Lock3DFace: a large-scale database of low-cost Kinect 3D faces[C]//2016 International Conference on Biometrics. New York: IEEE Press, 2016: 1-8.
[10] ZHU Z, HUANG G, DENG J K, et al. WebFace260M: a benchmark unveiling the power of million-scale deep face recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10487-10497.
[11] MU G D, HUANG D, HU G S, et al. Led3D: a lightweight and efficient deep approach to recognizing low-quality 3D faces[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5766-5775.
[12] KIM D, HERNANDEZ M, CHOI J, et al. Deep 3D face identification[C]//2017 IEEE International Joint Conference on Biometrics. New York: ACM Press, 2017: 133-142.
[13] BHOPLE A R, SHRIVASTAVA A M, PRAKASH S. Point cloud based deep convolutional neural network for 3D face recognition[J].Multimedia Tools and Applications, 2021, 80(20): 30237-30259.
[14] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.
[15] LI B, XI T, ZHANG G, et al. Dynamic class queue for large scale face recognition In the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 3762-3771.
[16] FAN D P, WANG W G, CHENG M M, et al. Shifting more attention to video salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 8546-8556.
[17] FU K R, FAN D P, JI G P, et al. JL-DCF: joint learning and densely-cooperative fusion framework for RGB-D salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3049-3059.
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[BE/OL]. [2022-06-11]. https://proceedings.neurips. cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.
[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3141-3149.
[20] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.
[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[23] 王江安, 龐大為, 黃樂, 等. 基于多尺度特征遞歸卷積的稠密點云重建網(wǎng)絡(luò)[J]. 圖學(xué)學(xué)報, 2022, 43(5): 875-883.
WANG J A, PANG D W, HUANG L, et al. Dense point cloud reconstruction network using multi-scale feature recursive convolution[J]. Journal of Graphics, 2022, 43(5): 875-883 (in Chinese).
[24] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1409.1556.
[25] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.
[26] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2022-06-09]. https://arxiv.org/abs/1612.02295.
[27] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6738-6746.
[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.
[29] 龔勛, 周煬. 面向低質(zhì)量數(shù)據(jù)的3D人臉識別[J]. 電子科技大學(xué)學(xué)報, 2021, 50(1): 43-51.
GONG X, ZHOU Y. 3D face recognition for low quality data[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 43-51 (in Chinese).
[30] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//2021 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2021: 3559-3568.
Multi-scale attention fusion and anti-noise lightweight 3D point cloud face recognition model
GUO Wen1, LI Dong1, YUAN Fei2
(1. School of Information and Electronic Engineering, Shandong Technology and Business University, Yantai Shandong 264005, China; 2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100195, China)
The key to achieving point cloud face recognition is discriminative feature extraction and noise robustness for low quality data. To address the problems that the existing lightweight point cloud face recognition algorithms cannot adequately extract discriminative features and that the large amount of noise in the dataset affects model training, we designed a lightweight and efficient network model and proposed a point cloud face recognition algorithm based on multi-scale attention fusion and noise-resistant adaptive loss function. Firstly, the features of receptive fields of different sizes were generalized. Then, the multi-scale attention features were extracted, and high-level attention weights were utilized to guide the generation of low-level attention weights. Finally, channel fusion was performed to obtain multi-scale fusion features, which improved the model’s ability to capture face details. Meanwhile, according to the noise information characteristics of low-quality point cloud face images, a novel anti-noise adaptive loss function was designed to deal with the possible negative impact of the large amount of noise in the dataset on the model training process, thus enhancing the robustness and generalization ability of the model. Experiments on open-source datasets such as Lock3Dface and KinectFaces show that the proposed method yields better performance on low-quality 3D face recognition accuracy.
point loud face recognition; attention feature fusion; attention feature extraction; loss function
TP 391
10.11996/JG.j.2095-302X.2022061124
A
2095-302X(2022)06-1124-10
2022-07-17;
:2022-10-05
國家自然科學(xué)基金項目(62072286,61876100,61572296);山東省研究生教育創(chuàng)新計劃(SDYAL21211);山東省高等學(xué)校青創(chuàng)科技支持計劃(2019KJN041);國家重點研發(fā)計劃(2020YFC0832503)
郭 文(1978-),男,教授,博士。主要研究方向為計算機視覺與多媒體計算。E-mail:wguo@sdtbu.edu.cn
17 July,2022;
5 October,2022
National Natural Science Foundation of China (62072286, 61876100, 61572296); Shandong Province Postgraduate Education Innovation Program (SDYAL21211); Shandong Higher Education Youth Innovation and Technology Support Program (2019KJN041); National Key Research and Development Program of China (2020YFC0832503)
GUO Wen (1978-), professor, Ph.D. His main research interests cover computer vision and multimedia computing. E-mail:wguo@sdtbu.edu.cn