龔 勛,周 煬
(西南交通大學信息科學與技術學院 成都 611756)
人臉作為人類的內在屬性,具有唯一性和確定性,因此人臉識別被視為一種非侵入性的生物特征[1]正迅速成為身份識別和監(jiān)控領域的主要工具之一。得益于互聯(lián)網(wǎng)搜索技術的進步,2D 人臉數(shù)據(jù)集可以方便地通過網(wǎng)絡搜索技術獲取,因此數(shù)據(jù)規(guī)模通常是百萬級的。在海量數(shù)據(jù)的支持下,基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)的人臉識別算法在2D 人臉識別上發(fā)揮了巨大的潛力。如FaceNet[2]使用200 萬人臉數(shù)據(jù)來訓練CNN,在LFW[3]測試基準上達到99.63%的準確率,超過了人類的水平。由于2D 人臉數(shù)據(jù)規(guī)模足夠大,當前的2D 人臉識別的研究[2,4-7]主要集中在設計更合理的損失函數(shù),讓不同身份間的人臉特征更加分離,相同身份間的人臉特征聚集更緊湊。盡管性能得到了較大提升,但2D 人臉僅包含圖像的紋理信息,仍不可避免地受到光照、姿態(tài)、表情等因素的干擾[8]。
3D 人臉除了包含基本的紋理信息,也包含人臉的深度信息,本質上可以不受光照變化的約束,能夠克服2D 人臉識別的不足。因此,關于3D 人臉的識別越來越受到研究者的重視[9-13]。3D 人臉的數(shù)據(jù)采集不能像2D 人臉數(shù)據(jù)[14-16]一樣通過網(wǎng)絡搜索收集,只能通過特定的三維相機獲取,經(jīng)濟及時間代價高,導致3D 數(shù)據(jù)量非常有限。當前主要的高質量3D 數(shù)據(jù)集ND-2006[17]只包含888 個人的13 450 個模型,Bosphorus[18]只包含105 個人的4 666個模型。這與2D 人臉數(shù)據(jù)集中的MS-Celeb-1M[19]10 萬個人的1 000 萬張人臉圖片,Casia-WebFace[20]1 萬個人的47 萬張人臉圖片相差甚遠。由于數(shù)據(jù)規(guī)模小且質量較高,高質量3D 人臉識別難度相對低質量人臉數(shù)據(jù)較低,3D 高質量人臉識別方法[21]在多個測試標準上如FRGCv2[22]、Bosphorus[18]和BU-3DFE[23]上已經(jīng)接近滿分。但是,高質量3D 人臉數(shù)據(jù)采集時間成本高、采集流程復雜、設備昂貴且需要對象配合,一定程度上限制了3D 人臉識別技術的發(fā)展。
相對于高精度掃描儀,低精度設備(如Microsoft Kinect,Intel RealSense 等)價格低廉、使用方便,具備更廣闊的應用場景。與高質量3D 人臉相比,低質量人臉圖像表面有大量的毛刺、孔洞,識別難度更高,通常這類數(shù)據(jù)更多使用在姿態(tài)估計[24]和行為識別[25]等領域。雖在人臉識別[11,16-18,26]上也存在一些嘗試,但所涉及的數(shù)據(jù)規(guī)模有限,實用性不足。在大規(guī)模低質量3D 人臉數(shù)據(jù)集Lock3dFace[27]上當前最高的識別準確率Led3D[28]只有54.28%。
基于以上分析,研究基于消費級相機采集的低質量3D 人臉數(shù)據(jù)應用價值強,是3D 人臉識別未來的發(fā)展趨勢。針對這類數(shù)據(jù),本文提出了SAD和IR Loss 兩種新方法,基于低質量的3D 人臉的幾何信息實現(xiàn)3D 人臉識別。SAD 和IR Loss 可以作為兩個獨立的模塊嵌入到CNN 網(wǎng)絡訓練過程中。在推理階段,這兩個模塊都不會參與運算,不會影響網(wǎng)絡的運行效率。與當前Lock3DFace[27]數(shù)據(jù)集準確率最高的測試模型Led3D 相比,在不清理任何測試數(shù)據(jù)的情況下,本文方法準確率達54.83%,而在遮擋和姿態(tài)子集,本文方法的準確率分別有17.46%和7.54%的提升。
本節(jié)從高質量和低質量兩方面簡要介紹3D 人臉識別方法、人臉識別損失函數(shù)及CNN 中的Dropout 方案的相關工作。
1) 高質量3D 人臉識別。近年來,隨著傳感器技術的進步和高質量3D 人臉模型數(shù)據(jù)庫的推廣,3D 人臉識別技術得到了較大的發(fā)展。與2D 人臉識別領域相比,基于3D 人臉的深度學習方法的探索并不廣泛,這主要是因為缺乏大規(guī)模公共3D 數(shù)據(jù)庫?;谏疃葘W習的人臉識別技術對數(shù)據(jù)規(guī)模極度依賴,因此需要對人臉數(shù)據(jù)進行增強。文獻[10]整合現(xiàn)有基準,通過生成表達式和姿勢以及隨機裁剪增加樣本,生成10 K 增強深度人臉,使用這些數(shù)據(jù)在2D 人臉預訓練模型VGG-Face[29]網(wǎng)絡上微調,在Bosphorus[18]測試基準上取得當時最高的精度98.1%。文獻[21]通過添加私有數(shù)據(jù)集和合成虛擬ID 進一步增強數(shù)據(jù),并從零開始訓練深度模型,在多個3D 人臉測試標準[17-18]上都較高。高質量深度人臉因為缺乏大規(guī)模的統(tǒng)一測試數(shù)據(jù)集,測試結果基本接近滿分。
2) 低質量3D 人臉識別。對于低質量數(shù)據(jù)的3D人臉識別,研究比較有限。最先采用傳統(tǒng)的特征提取方式,如ICP、PCA、LBP 和HOG,并出現(xiàn)一些 效 果 較 好 的 方 法[9,11,13,30]。但 這 些 方 法 使 用 的 數(shù)據(jù)庫在主題或圖像數(shù)量方面很小,所涉及的變化和數(shù)量也很少。文獻[31]使用孿生神經(jīng)網(wǎng)絡進行RGB和深度圖像的訓練,用于面部驗證任務。文獻[32]在文獻[11]的基礎上,采用了一種稱為基于學習的重建方法,使用自動編碼器從RGB 和深度圖像中獲取映射函數(shù),并使用映射函數(shù)中重構的圖像進行識別。文獻[33]使用交叉質量數(shù)據(jù)驗證,低質量3D 人臉識別難度更大。文獻[32]使用深度學習技術解決了特征融合問題,將RGB 和深度兩種模式提供的共同和互補信息有效融合。這些方法除了使用幾何信息,還使用了RGB 信息,但并不能完全克服2D 人臉識別中光照、姿態(tài)等造成的影響,而本文只使用了幾何信息。
3) 人臉識別中的損失函數(shù)。損失函數(shù)是深度學習的關鍵部分,是人臉識別方向的研究熱點,在大規(guī)模數(shù)據(jù)上充分提取到訓練數(shù)據(jù)的信息至關重要。人臉識別中的損失函數(shù)的主要目的是增大不同身份人臉特征向量的類間距離以及縮小相同身份人臉特征向量的類內距離,使用這一思路懲罰網(wǎng)絡,使相同身份人臉的特征向量聚集在一起。早期的損失函數(shù)主要是基于歐式距離的損失,如triplet loss[2],它主要構建不同的正負樣本對,利用歐氏距離來度量特征之間的相似性。后來在這些方法的基礎上衍生出center loss[34]和range loss[35],通過最小化類與類中心之間的歐式距離來訓練整個模型。但是基于歐式空間的約束不足以實現(xiàn)最優(yōu)泛化,所以在之后的工作中,研究者改進Softmax 損失函數(shù)來增大人臉特征向量類間距離的同時減小類內距離,如LSoftmax[36],Am-Softmax[37]。在最近的研究中增加margin 的人臉識別損失能夠增加模型學習的難度,所以將角度約束集成到Softmax 損失函數(shù)中,SphereFace[4]、CosFace[5]、ArcFace[6]都應用了這種思想。本文方法首次將2D 人臉識別中的聚類中心的思想運用到3D 人臉識別,并根據(jù)低質量3D 數(shù)據(jù)存在噪聲信息的特點,提出新的類間正則化損失函數(shù)。與ArcFace[6]相比,本文方法除使用margin來降低人臉特征向量與類中心的相似度外,還對不同類別的類中心進行顯示約束,讓歐氏距離最近的不同類別的類中心相似度變低,避免了類中心相似度越高,不同身份人臉相似度越高的問題。
4) Dropout[38]是一種用于緩解神經(jīng)網(wǎng)絡過擬合的正則化技術。具體來說,在訓練階段,對神經(jīng)網(wǎng)絡全連接層的每個隱藏節(jié)點隨機置零,丟棄部分信息。這樣網(wǎng)絡在學習的過程中魯棒性更高,達到良好的正則化效果。與全連接層不同的是,Dropout不能在卷積特征圖上使用,因為空間相鄰像素在卷積特征圖上具有很強的相關性,它們共享冗余的上下文信息。因此,傳統(tǒng)的基于像素的Dropout 不能完全拋棄卷積特征圖信息。為了在卷積層上應用Dropout,文獻[39]提出了MaxDrop,即在特征圖上通過通道或空間的方式去除最大激活的像素,這種方法能刪除強激活的神經(jīng)元,但也存在一定的局限性,因為卷積操作會共享周圍的神經(jīng)元信息,從而降低丟棄后的效果。文獻[40]提出了Spatial Dropout,即隨機丟棄特征圖的部分通道,而不是丟棄每個像素。這種基于通道的丟失,可以解決像素丟失的問題。本文方法與Spatial Dropout 的不同之處在于,本文只去除強激活區(qū)域,而不是整個通道區(qū)域。并且本文的方法只在最后一層的卷積層使用,不存在被共享特征的上下文信息。
3D 人臉主要是由空間中一系列的點組成,將所有的點按照x,y,z坐標放置在對應的坐標系下得到的一個點集合。由于構成人臉點云數(shù)據(jù)規(guī)模較大,為了易于數(shù)據(jù)對齊并充分利用點云的幾何及拓撲信息,本文首先對3D 點云數(shù)據(jù)進行預處理,然后生成深度幾何圖像用于后續(xù)識別。本節(jié)主要描述點云數(shù)據(jù)的處理過程,包括鼻尖校準、人臉標準化、數(shù)據(jù)增強和幾何人臉表示。數(shù)據(jù)處理流程如圖1 所示。
圖1 人臉點云數(shù)據(jù)處理流程
鼻尖通常被作為3D 人臉的原點,鼻尖位置深度值不準確會干擾三維人臉的表示。雖然現(xiàn)有數(shù)據(jù)集(如Lock3DFace[27])提供了鼻尖位置的x和y軸坐標,但在低質量3D 人臉上存在大量的毛刺和孔洞,通常會導致位置不準確。本文以給定的xy軸坐標為中心,周圍選擇10×10 的網(wǎng)格,以其中值作為鼻尖位置的深度值,如圖1a 所示。需要注意的是,對于原始數(shù)據(jù)集中未提供鼻尖位置的少量樣本,本文使用手動標注的方式設定鼻尖位置。
在3D 人臉數(shù)據(jù)集中,除包含人臉信息外還包含大量的背景信息。在確定鼻尖位置之后,本文首先以2D 深度圖的鼻尖xy軸坐標為中心,在原始2D 深度圖上裁剪出160×160 像素的區(qū)域作為人臉區(qū)域,然后把裁剪后的人臉區(qū)域映射到3D 坐標系中,得到3D 的人臉區(qū)域,整體移動人臉,將鼻尖移動到坐標(0, 0, 100)。最后把3D 人臉中深度值大于400 的點視為背景去掉,得到標準化的三維人臉,如圖1b 所示。
由于訓練數(shù)據(jù)有限,本文需要對現(xiàn)有的數(shù)據(jù)進行擴充,數(shù)據(jù)增強通過旋轉三維坐標軸實現(xiàn)。將原始3D 人臉點云圖繞y軸從-75°旋轉到75°,每間隔15°保存3D 人臉,繞x軸從-30°旋轉到30°每間隔15°保存3D 人臉,每張深度圖共生成14 張額外人臉,如圖1c 所示。
本文使用歸一化曲面法向量作為最終的人臉表示,計算過程使用文獻[41]中的方法,將人臉的x,y,z軸法線貼圖圖像(normal map image, NMI)NMIx、NMIy、NMIz的結果作為人臉的3 個通道堆疊,如圖1d 所示。需要注意的是,本文沒有對3D 人臉的姿態(tài)進行校正,這主要是因為在大姿態(tài)時,校正后的正面人臉信息丟失嚴重,無法滿足識別要求。為了追求處理效率,本文方法僅使用了最原始的深度信息,不做任何的濾波和填充處理。
低質量3D 人臉表面具有大量的孔洞和毛刺,給識別造成一定的難度,這主要是因為CNN 在學習的過程中會把部分噪聲當作人臉特征,導致識別效果較差。為了解決這一問題,本文提出了基于空間注意力機制的Dropout 方案,在高層語義特征上進行隨機遮擋,避免網(wǎng)絡只把噪聲信息當作人臉特征。同時,為了避免遮擋后不同身份間的人臉特征相似度過高,本文提出了一個新的類間正則化損失函數(shù),以增加不同身份人臉特征聚類中心之間的相似度。
圖2 本文方法整體流程圖
本文使用Grad-Cam[42]可視化了原始ResNet-20[43]網(wǎng)絡和加入SAD 后的ResNet-20 網(wǎng)絡,最后一層卷積層的結果如圖3 所示。其中,圖3a 為原始ResNet-20 網(wǎng)絡的結果,在不加入SAD 時,網(wǎng)絡提取到的人臉特征比較單一和集中,由于低質量3D數(shù)據(jù)的噪聲來源具有不確定性,容易把噪聲特征識別成人臉特征。圖3b 為加入SAD 后的ResNet-20網(wǎng)絡的結果,ResNet-20 網(wǎng)絡加入SAD 后,模型提取到了更分散的人臉特征,更利于抑制低質量3D 人臉噪聲信息的干擾。
圖3 不同模型最后一層的卷積層的可視化
經(jīng)過SAD 遮擋后的特征包含部分值為0 的神經(jīng)元,為了避免在池化過程中遮擋信息丟失,本文沒有使用常規(guī)的池化方法,而是直接將特征圖reshape 成一維特征向量,并通過兩個全連接層對人臉特征進行降維。其中,第一層全連接層主要是把reshape 后的人臉特征向量降維到固定512 維,表示當前的人臉特征,用來計算人臉之間的相似度。第二層全連接層把人臉特征向量降維到訓練集中人臉的類別數(shù)N,用來預測每個人臉的ID。特征圖在被遮擋后,得到的特征向量會存在部分0 值的神經(jīng)元,導致不同身份人臉的特征向量之間的距離過近,為了解決這一問題,本文提出了新的類間正 則 化 損 失 函 數(shù)(inter-class regularization loss, IR Loss)。
當前基于深度學習的3D 人臉識別方法[9-13]主要設計更合理的網(wǎng)絡結構,本文方法除考慮網(wǎng)絡魯棒性外,還在損失函數(shù)上針對低質量3D 人臉數(shù)據(jù)重新設計,對人臉特征向量的相似度做更嚴格的約束。類間正則化損失函數(shù)以2D 人臉識別中基于margin 的損失函數(shù)ArcFace[6]為基礎,進一步對每個類別的聚類中心進行約束,讓不同類別的聚類中心更分散。IR Loss 的實現(xiàn)如下:
在圖4 中,本文從Lock3DFace 數(shù)據(jù)集中隨機抽取10 類數(shù)據(jù),每類包含20 個人臉數(shù)據(jù)。使用t-SNE 將人臉特征向量降維到2 維,實現(xiàn)人臉特征可視化。其中圖4a 表示ResNet-20[43]網(wǎng)絡使用Softmax 損失函數(shù)的結果。圖4b 表示ResNet-20 網(wǎng)絡使用IR Loss 的結果。結果表明,在使用相同的ResNet-20 網(wǎng)絡結構下,IR Loss 相對于Softmax 損失函數(shù)得到的同類特征更緊湊,不同類別間人臉特征更加分散,進一步驗證了本文方法的有效性。
圖4 使用不同損失函數(shù)的特征可視化
4.1.1 數(shù)據(jù)集
Lock3DFace[27]是目前規(guī)模最大的低質量3D 人臉公開數(shù)據(jù)集,由KinectV2 收集。它包括5 671個視頻序列509 個個體,每個視頻序列包含59 幀圖片。包括表情的變化、遮擋、姿態(tài)和時間4 個子集,是目前最具挑戰(zhàn)性的3D 人臉識別數(shù)據(jù)集之一。
CurtinFaces[44]是一個低分辨率的3D 人臉數(shù)據(jù)集。微軟Kinect 傳感器共捕捉52 人的5 000 多張RGB-D 圖像。變化包括姿勢、照明、面部表情和裝飾性的太陽鏡遮擋等子集。CurtinFaces 中的人臉模型由于姿態(tài)變化大且質量不高,使得人臉識別任務具有極大的挑戰(zhàn)性。
Bosphorus[18]包含105 個人的4 666 張3D 臉。由結構光3D 系統(tǒng)采集,呈現(xiàn)了表情、遮擋和姿態(tài)的變化。
FRGCv2[22]由466 個人的4 007 個3D 面部模型組成,數(shù)據(jù)集由高精度激光3D 掃描儀采集,每個人的表情都不同。
4.1.2 測試方法
1) 閉集測試。實驗部分選擇當前Lock3DFace數(shù)據(jù)集準確率最高的Led3D[28]的方法作為基準,主要在Lock3DFace 數(shù)據(jù)集上進行了實驗。為了實現(xiàn)更公平的對比,本文采用與文獻[28]相同的設置。具體來說,選擇509 個人的中性表情的第一個視頻前6 幀作為訓練集,并按照2.3 節(jié)中的方法進行增強,剩余視頻作為測試集,并分別劃分為4 個子集(表情、遮擋、姿態(tài)、時間)。在測試階段,對所有視頻的每一幀的標簽進行預測,選擇所有數(shù)據(jù)幀中出現(xiàn)次數(shù)最多的結果作為該視頻的真實預測標簽,需要注意的是由于視頻中每幀人臉圖片的相似度極高,本文只選擇了每個視頻的前6 幀數(shù)據(jù)。
2) 開集測試。文獻[28]還提出了另一種測試設置,隨機在509 個個體中選擇340 類的全部視頻數(shù)據(jù)的6 幀用于訓練,剩余的169 類作為測試數(shù)據(jù)。訓練集中的每個人的第一個中性表情的前6 幀用于數(shù)據(jù)增強,其余數(shù)據(jù)使用原始數(shù)據(jù)。用于測試的169 個個體的每個視頻分別提取6 幀,中性表情的第1 幀作為gallery,剩余幀作為probe,包含5 個子集(標準、表情、遮擋、姿態(tài)和時間)。通過計算probe 集中每個樣本與gallery 集中特征向量的余弦距離,來統(tǒng)計測試結果。
3) CurtinFaces 協(xié)議。為了探索在新的場景中本文方法的有效性,本文也在CurtinFaces[44]數(shù)據(jù)集上進行了實驗。與文獻[44]中的測試方法一致,使用每個人中性表情的16 張圖片作為訓練集,并按照2.3 節(jié)中的方法進行增強。每個人的剩余數(shù)據(jù)作為測試集,分為3 個子集(姿態(tài)、光照和遮擋)。選擇每人一張中性表情作為gallery,剩余數(shù)據(jù)作為probe。
所有的訓練和測試數(shù)據(jù)都按照第2 節(jié)中的方法預處理,本文的方法只使用3D 人臉的幾何信息。
本文的特征提取網(wǎng)絡統(tǒng)一使用ResNet-20[43],所有的訓練數(shù)據(jù)都被調整到128×128。權重衰減設置為0.000 5,初始學習率為0.1,衰減周期為10,衰減乘數(shù)因子為0.1。模型先在FRGCv2 和Bosphorus兩個高質量數(shù)據(jù)集進行預訓練,然后在對應的訓練數(shù)據(jù)集上進行微調。所有的CNN 使用相同的SGD優(yōu)化器進行訓練,Batch Size 為64,遮擋比例k設置為0.6。實驗的硬件平臺為:Intel(R) Xeon(R)CPU E3-1 231 v3 @ 3.40 GHz(NVIDIA TiTan Xp)12 GB;軟件環(huán)境為:Windows 10,Pytorch1.1.0。
4.3.1 參數(shù)討論
為了評估IR Loss 中超參數(shù)s和m對結果的影響,本文選擇了4 組參數(shù)在ResNet-20[43]網(wǎng)絡上分別訓練4 個模型,遵循4.1 節(jié)中的開集測試協(xié)議,具體參數(shù)值如表1 所示。結果表明,在m=0.5 和s=64時,識別準確率最高。s和m為正相關,s越大,對應的m更大。
表1 不同超參數(shù)設置對結果的影響 %
對于SAD,本文也設置了不同的k值,來探索不同遮擋比例對結果的影響。實驗結果如圖5 所示,遮擋比例k=0.6 時網(wǎng)絡的識別準確率最高,并且所有的遮擋比例的結果均優(yōu)于表1 中不添加SAD 的結果。遮擋比例應該設置到合適的范圍,太大或太小都會降低SAD 模塊的性能。
圖5 遮擋比例k 與平均識別率曲線
4.3.2 消融實驗
為了評估SAD 和IR Loss 模塊的貢獻。本文遵循4.1 節(jié)中的開集測試協(xié)議,訓練4 個網(wǎng)絡:1) 原始的ResNet-20[43]網(wǎng)絡結構,使用Softmax 損失函數(shù);2) 使用IR Loss 作為損失函數(shù)的ResNet-20 網(wǎng)絡;3) 在最后一層卷積層之后插入SAD 的ResNet-20 網(wǎng)絡;4) 具有IR Loss 和SAD 模塊的ResNet-20 網(wǎng)絡。表2 顯示了4 種方法的結果,與基準網(wǎng)絡ResNet-20 相比,可以看到SAD 和IR Loss提高了性能。一方面,SAD 能夠遮擋部分噪聲信息,在正面識別結果上取得更高的識別率。另一方面,IR Loss 證明了約束不同類別間的類中心距離可以有效提高識別率。在最終結果中,結合SAD和IR Loss 的模型能取得最佳性能,且結合之后提升效果最明顯。
表2 不同模塊的識別準確率比較 %
4.3.3 CurtinFaces 測試結果對比
為了評估在其他數(shù)據(jù)集上本文方法的性能,本文在另外一個大規(guī)模的低質量3D 人臉數(shù)據(jù)集上驗證,并與基準方法[44]和Led3D[28]比較。測試協(xié)議使用文獻[44]中的方法,實驗結果如表3 所示。結果表明,本文方法在不同的數(shù)據(jù)集上具有很好的魯棒性,獲得了最高的準確率,本文方法的CMC 曲線如圖6 所示。其中文獻[44]中的方法結合了RGB 信息,Led3D 和本文的方法只使用了幾何信息。相對于Led3D,本文的方法的識別結果在光照、姿態(tài)、遮擋方面都有較大提升,這主要是因為Led3D 對數(shù)據(jù)預處理要求較高,需要對低質量數(shù)據(jù)進行填充、濾波、裁剪等一系列復雜預處理。本文方法能夠從最原始的低質量人臉數(shù)據(jù)中,提取魯棒的特征。
表3 CurtinFaces 數(shù)據(jù)集的識別率比較 %
圖6 本文方法在CurtinFaces 數(shù)據(jù)集上的CMC 曲線
4.3.4 Lock3DFace 測試結果對比
將本文方法與多個不同的網(wǎng)絡結構[29,42,45-46]對比,以驗證方法的有效性,結果如表4 所示。本文方法在多個子集上取得了最好的結果,并超過了更深的ResNet-34 網(wǎng)絡,在遮擋和姿態(tài)兩個子集中取得了較大提升。特別地,為了與Led3D[28]的測試協(xié)議保持一致,本文使用4.1 節(jié)中的閉集測試協(xié)議。為了避免復現(xiàn)結果與原文有差異,表4 中非本文方法的結果均從文獻[28]中摘錄,本文統(tǒng)計結果包含所有的原始數(shù)據(jù),沒有剔除任何數(shù)據(jù)。測試子集的樣本數(shù)量分別為:“表情”1287 個、“遮擋”1005 個、“姿態(tài)”1014 個、“時間”1352 個。
表4 Lock3DFace 數(shù)據(jù)集測試結果 %
數(shù)據(jù)質量差、包含大量噪聲是提取低質量3D人臉特征的難點。為了解決這些問題,本文提出了一個新的Dropout 方法SAD和損失函數(shù)IR Loss。作為兩個獨立的模塊,很容易嵌入到其他網(wǎng)絡中,而不產生任何計算復雜性??梢杂行У貐f(xié)同提取3D人臉特征,為模型特征表示提供了有力的工具。廣泛的實驗已經(jīng)在兩個最具有挑戰(zhàn)性的低分辨率3D人臉數(shù)據(jù)集中給出,結果顯示本文的方法優(yōu)于其他先進的3D人臉識別方法。
但是本方法也存在一定的局限性,主要是在SAD和IR Loss單獨使用時,相對于組合使用,對識別準確率提升不明顯,需要結合使用。并且IR Loss存在兩個超參數(shù),其數(shù)值的設置只能根據(jù)經(jīng)驗給出,沒有具體量化的計算公式。本文方法的本質是降低訓練數(shù)據(jù)上的不確定性噪聲信息對特征提取的干擾,在細粒度識別、行人重識別、分類等領域也可能發(fā)揮作用,在未來的工作中還需要進一步探索。
本文的研究工作得到了北京航空航天大學的支持,感謝其提供Lock3DFace[30]數(shù)據(jù)集。此外,本文代碼將在https://github.com/SW JTU-3DVision進行共享。