張春永徐一得
(1.鹽城工學院信息工程學院,江蘇 鹽城 224051;2.東南大學信息科學與工程學院,江蘇 南京 210096)
人臉識別從上世紀60 年代被提出,經(jīng)過半個多世紀的發(fā)展與迭代,其相關技術和性能指標也開始投入市場,并且產(chǎn)生了很大的經(jīng)濟效益。相對于傳統(tǒng)的方法[1,5],最近的基于深度學習的算法[2]例如Google 的faceNet 都使用深度學習網(wǎng)絡如深度卷積神經(jīng)網(wǎng)絡[3],取得了優(yōu)異的性能。在一般場景下,這些模型對圖像的判別甚至比人類更精確。然而,在年齡不變?nèi)四樧R別(Age Invariant face Recognition,AIFR)場景下,這些方法通常缺乏人臉識別的判別能力。查閱可知,人體隨著年齡的增長,身體機能和指標都會發(fā)生很大的改變,這一點在人的面部特征上有著明顯的表現(xiàn)。一般情況下,老年人的臉上都會有一些抬頭紋,眼角會下垂,口角脂肪松垂,具體就是嘴角兩邊的皮膚和脂肪會出現(xiàn)松弛的情況,臉部的蘋果肌區(qū)域會出現(xiàn)明顯的凹凸,鼻唇溝和下頜邊緣都會喪失彈性,大量的脂肪流失。還有就是絕大多數(shù)老年人的皮膚失去了原有的彈性,色素開始堆積在皮膚底層,毛細孔變大,皺紋增加。AIFR 面臨的關鍵挑戰(zhàn)是由于年齡老化過程造成的面部特征顯著差異。這一問題在當前還不是突出問題,主要是因為當前人臉識別在市場上得到運用的時間還很短,數(shù)據(jù)庫并沒有過于龐大,但是隨著人臉識別的廣泛使用和使用時間的加長,這將成為一個制約人臉識別可持續(xù)發(fā)展的關鍵因素。如若無法解決年齡不變?nèi)四樧R別問題,那么就會需要供應商或者第三方機構定期地重新去獲取當前的人臉圖片,以確保算法的高準確性,這會增加大量的額外成本,也不利于人臉識別的推廣。
在之前的相關研究中,研究人員[8-9,11-12,17-20]采用啟發(fā)式的方法提取手工特征。例如,林玲等人[18]開發(fā)了一種帶有局部特征描述的多特征判別分析方法。Gong D 等[9]提出了隱藏因子分析(HFA)來建模特征因子分解,減少身份相關特征的年齡變化。林玲等[15]為AIFR 引入了有效的最大熵特征描述符和魯棒性的身份匹配框架。最近的幾種方法[7,13-14]主要基于深度神經(jīng)網(wǎng)絡。Wen Y 等[13]開發(fā)了潛因子引導卷積神經(jīng)網(wǎng)絡(LF-CNN)來改進HFA。鄭濤等[14]介紹了AIFR 的年齡估計引導CNN(AE-CNN)方法。Wang Y 等人[7]提出正交嵌入分解,將身份信息編碼在角空間,年齡信息在徑向表示。我們提出了一種帶有線性殘差分解的DAL 算法。
生成對抗網(wǎng)絡(GAN)[21]在不同的生成任務中顯示了卓越的性能,如人臉老化、人臉超分辨等。此外,當前的研究還探討了對抗性網(wǎng)絡對判別模型的改進。Wen Y 等人[9]利用GAN 生成高分辨率的小人臉,以提高人臉檢測。Lanitis A 等人[23]開發(fā)了一個對抗UV 完井框架(UV-GAN)來解決姿態(tài)不變?nèi)四樧R別問題。Liu Y 等人提出在一個對抗的自編碼器框架中學習身份提取特征和身份消除特征。Zhao Y 等人[24]提出了一種對抗網(wǎng)絡來生成硬三元組特征示例。在本研究中,我們提出了一種去相關對抗學習方法,以顯著減少身份和年齡之間的相關性,從而使得身份依賴的特征是年齡不變的。
在本文中,我們引入了一個深度特征分解學習框架,將混合人臉特征分解為兩個不相關的部分:身份相關部分(Xid)和年齡相關部分(Xage)。圖2 展示了我們的特征分解模式。我們采用文獻[4]中的殘差映射模塊實現(xiàn)這種分解。這意味著,年齡相關的嵌入是通過殘差映射函數(shù)Xage=R(x)編碼的。我們有下面的公式:X=Xid+R(x),其中X是初始人臉特征,Xid是身份相關特征。
圖1 我們以AIFR 為例,由于年齡差異較大,身份內(nèi)的距離大于身份間距離。因此,許多當前的人臉識別系統(tǒng)無法識別年齡差距較大的人臉。
圖2 將人臉特征分解為身份依賴分量和年齡依賴分量。只有身份特征參與人臉識別的測試。
為了減少分解成分之間的相互差異,我們提出了一種新的去相關對抗學習(Decorrelated Adversarial Learning,DAL)算法,該算法可以最大程度地減少身份和年齡之間的相關性。具體來說,引入典型映射模塊來尋找身份和年齡之間的最大相關性,而主干網(wǎng)絡和分解模塊旨在降低相關性。身份和年齡分類信號進行學習。通過對抗訓練,我們希望身份和年齡能夠充分的不相關,并且在身份特征空間中的年齡信息可以大大減少。
由于人臉包含內(nèi)在的身份信息和年齡信息,所以它們可以由身份相關特征和年齡相關特征共同表示。受此啟發(fā),我們設計了一個線性分解模塊,將初始特征分解成身份相關特征和年齡相關特征這兩個不相關的部分。形式上,給定由主干CNNF(即,x=F(p))從輸入圖像p中提取的初始特征向量x∈Rd,我們將線性因子分解定義如下:
我們設計了一個類似于文獻[4]的深度殘差映射模塊來實現(xiàn)這一點。具體來說,我們通過一個映射函數(shù)R獲得年齡相關的特征,剩余部分作為身份相關的特征。我們稱之為殘差因子分解模塊(Residual Factorization Module,RFM),其公式如下,Xid表示身份依賴成分,Xage表示年齡依賴成分:
在測試階段,只有身份相關特征用于人臉識別。希望Xid編碼身份信息,而Xage繪制年齡變化。我們同時將身份識別信號和年齡識別信號放在這兩個解耦的特征上,分別監(jiān)督這兩個部分的多任務學習。圖3 顯示了我們工作的總體框架。網(wǎng)狀主干提取初始特征,并在此基礎上建立殘差模塊進行特征分解。基于這種因式分解,我們提出了去相關對抗學習,將在下一節(jié)中介紹。
圖3 提出的方法的概述
通過特征因式分解,對于年齡不變?nèi)四樧R別(Age Invariant face Recognition,AIFR)場景來說,Xid應該是只保留了身份信息,并且與年齡信息不相干的,這一點是至關重要的。不幸的是,Xid和Xage在實際上還是有深層的相關性,無法實現(xiàn)兩者完全不相干。例如,Xid和Xage彼此具有高線性相關性,導致Xid可能會影響Xage,這一現(xiàn)實會對年齡不變?nèi)四樧R別產(chǎn)生負面影響。為此,我們設計了一種有助于降低分解特征之間相關性的正則化算法,即去相關對抗學習(Decorrelated Adversarial Learning,DAL)。DAL 基本上計算分解分量的成對特征之間的典型相關。
首先通過骨干網(wǎng)提取初始特征,然后進行殘差分解。然后利用兩個已經(jīng)分解的Xid和Xage進行分類和DAL 正則化。
形式上,給定成對的特征Xid,Xage,我們設計映射的線性規(guī)范映射模塊(Canonical Mapping Module,CMM)Xid,Xage到規(guī)范變量vid,vage:
式中:Wid、Wage是正則映射的學習參數(shù)。之后,我們將經(jīng)典相關性定義為:
基于這樣的定義,首先通過更新CMM 中模型參數(shù)Wid,Wage來求得|ρ|的最大值然后去減少Vid和Vage的相關性,主要是通過訓練模型殘差因子分解模塊(Residual Factorization Module,RFM)。從公式角度來看,一方面,在求?。眩淖畲笾抵?,我們要固定模型F,R,來訓練C。另一方面,在減少Vid和Vage相關性的訓練中,我們要固定C,來訓練F,R。這兩個需求是相互矛盾的,相互對抗的,這對抗的最終結果是Xid與Xage的相關性不斷減小,最終實現(xiàn)不相干。
總體而言,DAL 的目標函數(shù)表述為:
我們相信DAL 增強的強去相關性將鼓勵Xid和Xage彼此足夠不變。重要的是,這將提高Xid對年齡不變的人臉識別的魯棒性。
與典型相關分析(Canonical Correlation Analysis,CCA)方法相比,我們的工作引入了基于隨機梯度下降優(yōu)化的典型相關分析(Batch Canonical Correlation Analysis,BCCA)。由于對整個數(shù)據(jù)集的相關統(tǒng)計實際上是不可能的,我們遵循類似的批量標準化策略[6]來計算基于小批量的相關統(tǒng)計。因此,它自然適合深度學習框架。
在這里,μid和分別是vid的均值和方差,對于μage和也是一樣的。ξ是數(shù)值穩(wěn)定性的恒定參數(shù)。
公式(6)作為BCCA 的目標函數(shù),我們利用基于SGD 的算法來優(yōu)化它。注意,規(guī)范相關數(shù)|ρ|在更新ξ時,要求必須最大化,同時在訓練F,R時最小化。漸變的推導如下:
因此,優(yōu)化由輸出ρ值的前向傳播和計算更新梯度的后向傳播組成。算法1 描述了BCCA 的詳細學習算法。
在這一部分,我們描述了多任務訓練策略來監(jiān)督分解特征的學習。如圖3 所示,主要是有三個基本的監(jiān)督模塊:年齡鑒別器、身份鑒別器和DAL 正則化器。
年齡/身份判斷:為了學習年齡信息,我們將Xage輸入到一個投影字典對中,以便進行快速而準確的分類。顧書航[25]提出了投影字典對學習(Dictionary Pair Learning,DPL)框架。在他們的方法中,分析和合成詞典的聯(lián)合學習以通過線性投影的方式來學習表示形式,而無需使用非線性稀疏編碼。他們的模型如下:
式中:S表示用于重構X的合成字典;A代表用于對X進行編碼的分析字典;Ak和Sk代表對應于類別k的子字典對代表訓練集中Xk的補充數(shù)據(jù)矩陣;β>0 是一個標量常數(shù),表示控制A的判別性質(zhì)的正則化參數(shù),以及di表示合成字典S的第i個元素。
分析字典A在區(qū)分過程中發(fā)揮作用,在這過程中子字典 可以投射i類的樣本(i不等于k)到空的空間去。合成字典S的作用是使重構誤差最小。使用先前獲取的Xid和Xage來分別學習兩個單獨的成對字典Did={Sid,Aid}和Dage={Sage,Aage}。然后將這些詞典用于分類。這個DPL 框架的優(yōu)點在于其計算時間,因為該框架在判斷應用中只含有若干個字典對,沒有太多的模型參數(shù)。所以這種方法是快速計算和適用于實際應用的。
使用字典Did來判斷人臉圖像的標簽。令y為測試圖像,Yid和Yage分別指字典Did和Dage的類別預測標簽??梢允褂靡韵路诸惙桨竵碛嬎惴窍嚓P身份年齡面孔的檢測:
DAL 正則化器:本文所提出的DAL 正則化還參與聯(lián)合監(jiān)督來指導特征學習,使得成對分解特征之間的相關性可以顯著降低。通過聯(lián)合監(jiān)督,模型同時學習鼓勵Xid、Xage的區(qū)分能力和這兩個分解成分之間的去相關信息??傊谟柧氝^程中,目標函數(shù)受以下組合多任務損失的監(jiān)督:
式中:LID是Cos-Face 損失函數(shù),LSM帶有交叉熵損失的softmax,λ1與λ2是用來平衡這三種損失的超參數(shù)。在測試階段,我們?yōu)锳IFR 評估提取身份相關特征Xid。
該方法具有以下優(yōu)點。首先,特征的DAL 正則化有助于鼓勵分解后的分量之間的不相關和共不變信息。其次,BCCA 提供了CCA 的擴展插入到深度學習框架中,以便整個模型可以在端到端的過程中進行訓練。最后,我們的方法可以很容易地推廣到其他組件分解模型,如姿態(tài),光照,情感等。
網(wǎng)絡架構:(1)主干網(wǎng):我們的主干網(wǎng)是類似于[11]的64 層卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)。它由4 個階段組成,分別有3 個、4個、10 個和3 個堆疊的殘余塊。每個剩余塊有3 個“3×3 conv+BN+ReLu”的堆疊單元。最后,F(xiàn)C 層輸出512 維的初始人臉特征。(2)殘差因子分解模塊(Residual Factorization Module,RFM):通 過2 個“FC+ReLu”將初始人臉特征映射形成年齡相關特征,其中殘差部分作為身份相關特征。(3)年齡鑒別器/身份鑒別器:使用DPL 框架快速計算分類。(4)DAL 正則化器:我們將Xage和Xid分別饋入FC 層,并輸出它們的線性組合,然后用于BCCA 計算和優(yōu)化。
數(shù)據(jù)預處理:我們根據(jù)5 個面部關鍵點(兩個眼睛、兩個鼻子和兩個嘴角)進行相似性變換,以將人臉面片裁剪為112×96。最后,裁剪后的面片的每個像素([0,255])通過減去127.5 然后除以128 進行歸一化。
測試細節(jié):我們在著名的公共AIFR 人臉數(shù)據(jù)集FG-NET、MORPH Album 2 上進行了評價實驗。在測試過程中,我們提取了身份相關的特征,并將原始圖像和翻轉(zhuǎn)圖像的特征串聯(lián)起來,形成最終的表示。然后利用這些表示的余弦相似度進行人臉驗證和識別。
在本小節(jié)中,我們研究了模型的不同變體,以顯示我們的方法的有效性。
3.2.1 余弦相似度的可視化
為了更好地理解DAL 及其改善身份保存信息的能力,我們進行了一個實驗來可視化不同年齡組的余弦相似性。對于已學習的身份特征Xid,我們首先通過群集身份特征空間中的每個標識來計算其類中心,然后計算每個樣本和其類中心之間的余弦相似性。之后,我們繪制了不同年齡組間余弦相似度的分布。在本研究中,我們對小型訓練數(shù)據(jù)集進行這種可視化分析,該數(shù)據(jù)集包含覆蓋各種年齡差異的50 萬個面部圖像。圖4 顯示了該數(shù)據(jù)集的年齡分布。
圖4 小型數(shù)據(jù)集的年齡分布。該數(shù)據(jù)集包含了50 萬個數(shù)據(jù)覆蓋大部分年齡的人臉圖像
3.2.2 定量評價
為了展示聯(lián)合學習框架與DAL 方法相結合的優(yōu)秀性能,我們對包括FG-NET、MORPH Album 2 在內(nèi)的幾個公共AIFR 數(shù)據(jù)集進行了消耦評估。此外,我們還在遵循MF1 和MF2 協(xié)議下的FG-NET 上對模型進行了測試。無論是MF1 和MF2 都有一個包含100 萬個面部干擾物的額外干擾物集,使基準測試變得更加困難。MF2 提供了一個訓練數(shù)據(jù)集,所有的評估方法都應該在相同的數(shù)據(jù)集上進行訓練,而不需要任何額外的訓練數(shù)據(jù)。在本研究中,我們考慮以下消耦比較模型:(1)基線模型:基線模型僅通過識別損失進行訓練,沒有任何額外的年齡監(jiān)督。(2)+年齡:該模型由識別信號和年齡分類信號聯(lián)合監(jiān)督訓練。(3)+Age+DAL:我們提出的模型,通過DAL 正則化和聯(lián)合監(jiān)督信號同時進行訓練。
如表1 所示,在沒有DAL 的情況下,聯(lián)合監(jiān)督模型獲得了與基線模型可比較的結果。相反,我們的“+Age+DAL”模型提高了FG-NET 在所有方案上的性能。與MF1 方案相比,MF2 方案對FG-NET 的改進相對有限,主要原因是MF2 訓練數(shù)據(jù)集的老化變化較小。然而,性能的持續(xù)改進證明了我們的方法的有效性。外,我們的方法在MORPH Album 2 上改進了0.7%以上的基線模型,使得在98%和99%以上的高精度水平上有顯著提高。
表1 我們的方法與基準方法進行比較,在MF1,MF2 協(xié)議下,評價結果是FG_NET 上的rank_1 人臉的識別率。
MORPH Album 2 數(shù)據(jù)集包含了20 000 個不同年齡的人的7.8 萬張人臉圖像。為了進行公平比較,我們遵循[7]并在兩個基準方案下進行評估,其中測試集分別由10 000 名受試者和3 000 名受試者組成。在測試集中,每個受測人員的年齡差距最大的兩張人臉圖像被選擇組成探針集和圖庫集。我們使用我們提出的DAL 在大的訓練數(shù)據(jù)集(1.7M 圖像)上訓練模型。請注意,我們沒有對原有數(shù)據(jù)集進行任何微調(diào)。
在這個實驗中,我們將我們的DAL 模型與文獻中最新的AIFR 算法進行了比較。如表2 所示,本文所提方法有效提高了rank-1 識別性能。特別是,我們的方法比當前表現(xiàn)最好的AIFR 方法明顯優(yōu)勝,在MORPH Album 2 數(shù)據(jù)庫上變成了最先進的方法。
表2 MORPH Album 2 數(shù)據(jù)集評價結果
為了與通用人臉識別(General Face Recognition,GFR)中的最新方法進行比較,我們進一步在LFW數(shù)據(jù)集上進行了實驗評估。LFW[18]是GFR 的一個公共基準,有來自5 749 名受試者的13 233 張人臉圖像。我們嚴格遵循與OE-CNNs[7]相同的培訓和評估程序。也就是說,我們的訓練數(shù)據(jù)包含了與OE-CNNS[7]相同的0.5M 圖像。表3 報告了LFW 的驗證率。在LFW 數(shù)據(jù)集上,我們的模型都優(yōu)于文獻[7]的模型和最先進的通用人臉識別(GFR)模型[15-16],這表明我們提出的方法具有很強的泛化能力。
表3 LFW 數(shù)據(jù)評估結果。報告結果為LFW 的驗證率
本文提出了AIFR 的去相關對抗學習方法。我們的模型學會在對抗過程中最小化身份和年齡的成對分解特征之間的相關性。我們提出了批量典型相關分析算法,作為深度學習中典型相關分析的擴展。除了DAL 之外,我們同時在身份識別和年齡分類的聯(lián)合監(jiān)督下訓練模型。在測試中,只有身份特征用于人臉識別。在AIFR 基準上進行的評估證明了我們提出的方法的優(yōu)越性。我們的主要貢獻總結如下:(1)為了規(guī)范分解特征的學習,提出了一種新的基于線性特征分解的去相關對抗學習算法。通過這種方式我們希望捕獲在場景(Age Invariant Face Recognition,AIFR)下的人臉圖像的身份的特征,這種特征不會隨著年齡的改變而有所變化。(2)我們提出了批量典型相關分析(BCCA),一個隨機梯度下降優(yōu)化方式的擴展。本文所提出的BCCA 可以集成到深度神經(jīng)網(wǎng)絡中用于相關正則化。