陸 兵
(常州工業(yè)職業(yè)技術(shù)學(xué)院信息技術(shù)與工程學(xué)院 江蘇 常州 213164) (常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)
近十年,人臉識(shí)別技術(shù)成為計(jì)算機(jī)視覺(jué)和圖像處理等領(lǐng)域的熱點(diǎn)研究。人臉識(shí)別問(wèn)題常分成兩大類:人臉確認(rèn)和人臉驗(yàn)證[1]。人臉確認(rèn)是解決“你是誰(shuí)”的問(wèn)題,在給定的數(shù)據(jù)庫(kù)中查詢確認(rèn)未知人臉的身份;人臉驗(yàn)證解決“是你嗎”的問(wèn)題,通過(guò)人臉的一對(duì)一比對(duì),確認(rèn)兩張人臉是否屬于同一個(gè)人。目前,人臉驗(yàn)證廣泛應(yīng)用到不同的身份驗(yàn)證場(chǎng)景中,如支付寶商用的“刷臉支付”,機(jī)場(chǎng)和地鐵站啟用的“刷臉登機(jī)”和“刷臉進(jìn)站”,以及住宅公寓實(shí)施“刷臉開(kāi)門”等。與傳統(tǒng)的指紋識(shí)別和虹膜識(shí)別相比,人臉驗(yàn)證的特點(diǎn)在于:1) 借助于國(guó)內(nèi)權(quán)威的身份證人臉數(shù)據(jù)庫(kù)系統(tǒng),實(shí)施人臉驗(yàn)證的基礎(chǔ)數(shù)據(jù)強(qiáng)大;2) 無(wú)須驗(yàn)證者的主觀配合,僅需人員面對(duì)攝像頭就可完成驗(yàn)證操作;3) 人臉作為人類最明顯的生物學(xué)特征, 對(duì)驗(yàn)證者的自我認(rèn)知具有參考意義。
隨著人工智能、云計(jì)算和高性能計(jì)算的發(fā)展,人臉驗(yàn)證領(lǐng)域出現(xiàn)了大量性能優(yōu)秀的算法,逐步解決了與姿勢(shì)、照片和面部表情等相關(guān)的難題,這些算法能夠在不同應(yīng)用場(chǎng)景中實(shí)現(xiàn)無(wú)約束的人臉驗(yàn)證和面部識(shí)別。但人臉驗(yàn)證仍在一些應(yīng)用中存在挑戰(zhàn),包括跨年齡場(chǎng)景和化妝場(chǎng)景等。在現(xiàn)實(shí)世界的應(yīng)用中,面部化妝常見(jiàn)且會(huì)顯著改變面部的感知外觀,降低人臉的辨識(shí),文獻(xiàn)[2-4]指出面部化妝對(duì)絕大部分的人臉驗(yàn)證算法的性能帶來(lái)負(fù)面的影響。由圖1所示的化妝前后的人臉差異比較可以直觀地看到面部外觀的明顯變化。因此,對(duì)人臉化妝具有魯棒性的人臉驗(yàn)證算法在實(shí)際應(yīng)用中具有重要的意義。為了開(kāi)發(fā)一個(gè)強(qiáng)大的面部識(shí)別系統(tǒng),化妝品對(duì)人臉驗(yàn)證的影響亟需解決。為此,文獻(xiàn)[5]提出一種雙屬性方法分別學(xué)習(xí)化妝和非化妝的面部屬性,面部匹配使用語(yǔ)義級(jí)屬性來(lái)減少化妝對(duì)低級(jí)特征的影響。文獻(xiàn)[6]使用自商(self-quotient image)圖像技術(shù)對(duì)人臉圖像進(jìn)行預(yù)處理,以減少人臉匹配前的化妝效果。然而,這些方法不能顯著降低化妝品的影響。文獻(xiàn)[7]提出一種基于相關(guān)的構(gòu)造不變?nèi)四樥J(rèn)證方案。文獻(xiàn)[8]提出一種人臉特征向量的方法,能捕獲了輸入人臉的形狀、紋理和顏色特征,并利用分類器確定是否存在化妝。除了從整個(gè)面部提取特征外,該方法還考慮了面部與左眼、右眼和嘴巴相關(guān)的部分。文獻(xiàn)[9]為了進(jìn)一步降低化妝品對(duì)人臉識(shí)別的影響,提出一種人臉化妝品檢測(cè)方法,能捕獲輸入面的形狀和紋理特征,并使用三個(gè)公開(kāi)的面部化妝數(shù)據(jù)庫(kù)測(cè)試了該技術(shù)的性能。
圖1 同一個(gè)人化妝前后的差異比較示意圖
近年來(lái),深度學(xué)習(xí)方法顯著改善了人臉驗(yàn)證[9-10]。深度學(xué)習(xí)方法可以分為兩類:(1) 基于深度神經(jīng)網(wǎng)絡(luò)提取非線性特征和識(shí)別特征來(lái)表示人臉圖像。例如,文獻(xiàn)[11]根據(jù)人臉屬性和人臉結(jié)構(gòu)的特征,使用卷積神經(jīng)網(wǎng)絡(luò)和人臉部件來(lái)處理人臉的識(shí)別。文獻(xiàn)[12]采用深度卷積神經(jīng)網(wǎng)絡(luò)端到端地學(xué)習(xí)人臉特征,并使用雙線性模型對(duì)網(wǎng)絡(luò)多個(gè)尺度下的輸出特征進(jìn)行二階池化以加強(qiáng)人臉特征的判別。(2) 深度度量學(xué)習(xí)。目前常用的距離學(xué)習(xí)的距離度量方法主要基于歐氏距離和馬氏距離,但這些方法不足以解決復(fù)雜場(chǎng)景下的人臉識(shí)別問(wèn)題[13]。深度度量學(xué)習(xí)的目標(biāo)是使用深度學(xué)習(xí)的方法來(lái)學(xué)習(xí)距離度量,以發(fā)現(xiàn)配對(duì)樣本之間的相似性和不配對(duì)樣本之間的差異性。文獻(xiàn)[14]使用從原始圖像到特征空間的非線性變換的方法,提出了基于深度獨(dú)立子空間分析網(wǎng)絡(luò)的度量學(xué)習(xí)。文獻(xiàn)[15]提出一種用于人臉識(shí)別的深度判別度量學(xué)習(xí)(Deep Discriminative Metric Learning,DDML)方法,該方法利用層次非線性變換學(xué)習(xí)來(lái)解決野外人臉識(shí)別問(wèn)題。
在面對(duì)化妝人臉驗(yàn)證的任務(wù)時(shí),通常認(rèn)為無(wú)論外表如何變化,同一個(gè)人的一對(duì)面部圖像與所呈現(xiàn)的化妝品都應(yīng)具有最大的相關(guān)性,而不同的人即使擁有相同的化妝品或不化妝,也不應(yīng)具有很大的相關(guān)性。人臉驗(yàn)證可以看作是一個(gè)二值分類問(wèn)題[16],同一個(gè)人的圖像對(duì)可以標(biāo)記為正對(duì),不同人的圖像對(duì)可以標(biāo)記為負(fù)對(duì)。從分類的角度來(lái)看,如果能找到一個(gè)投影空間,使得同一個(gè)人圖像距離盡可能小,不同人圖像間的距離盡可能大,那么人臉驗(yàn)證問(wèn)題可以得到有效解決。另外,人臉具有很多屬性,而屬性之間很多是具有一定的相關(guān)性的,例如:如果性別是女性,其極大可能會(huì)涂抹口紅和穿戴配飾等,這些屬性是強(qiáng)相關(guān)的;如果性別是女性,一般也沒(méi)有談?wù)撈浜氼伾托螤畹男枰?,此時(shí)性別和胡須的關(guān)系可形成互斥關(guān)系。按照這些關(guān)系,將人臉屬性分組或形成多任務(wù)學(xué)習(xí),可提高人臉識(shí)別的準(zhǔn)確性[17]。本研究通過(guò)屬性劃分,將多個(gè)化妝人臉驗(yàn)證任務(wù)構(gòu)成了多任務(wù)學(xué)習(xí),任務(wù)間可以共享各自學(xué)習(xí)的知識(shí),從而提高每個(gè)任務(wù)的學(xué)習(xí)性能。本文基于DDML模型構(gòu)建一個(gè)深度判別度量學(xué)習(xí),并融入Fisher判別分析和多任務(wù)的思想,提出了融合Fisher判別分析的多任務(wù)深度判別度量學(xué)習(xí)(Multi-task Deep Discriminative Metric Learning with Fisher Discriminant Analysis,MT-DDML-FDA)模型。MT-DDML-FDA使用多層深度判別度量學(xué)習(xí)結(jié)構(gòu),通過(guò)共享一個(gè)網(wǎng)絡(luò)層,在多個(gè)任務(wù)之間學(xué)習(xí)共享的轉(zhuǎn)換知識(shí)來(lái)捕獲不同任務(wù)的人臉圖像之間的潛在識(shí)別信息。神經(jīng)網(wǎng)絡(luò)的每一層均形成非線性變換,以形成一個(gè)良好的距離度量。同時(shí),融合Fisher判別分析將類內(nèi)相關(guān)矩陣和類間相關(guān)矩陣引入深度神經(jīng)網(wǎng)絡(luò),將具有高相似性的類間樣本投影到一個(gè)鄰域中,使得類間鄰域樣本盡可能遠(yuǎn)離,保證每個(gè)任務(wù)所學(xué)習(xí)的距離度量以有效的方式執(zhí)行。MT-DDML-FDA的優(yōu)點(diǎn)在于:1) 引入多任務(wù)學(xué)習(xí)框架,在多個(gè)任務(wù)之間學(xué)習(xí)共享的投影信息,這些投影信息可以捕獲不同任務(wù)的人臉圖像之間的潛在識(shí)別信息。2) 利用每個(gè)任務(wù)特殊的識(shí)別信息,同時(shí)考慮不同任務(wù)之間的差異性,使得每個(gè)任務(wù)所學(xué)習(xí)的距離度量更有效。3) 圖像的局部幾何信息是人臉識(shí)別問(wèn)題的重要信息,將Fisher判別引入多任務(wù)深度度量學(xué)習(xí),在投影過(guò)程基于配對(duì)信息建立能較好區(qū)分人臉圖像的方法。實(shí)驗(yàn)結(jié)果表明,MT-DDML-FDA在真實(shí)化妝人臉數(shù)據(jù)集Disguised Faces in the Wild (DFW)上取得了較好的性能。
(1)
馬氏距離學(xué)習(xí)一個(gè)d×m(m≤d)的變換矩陣W,矩陣A可以分解為A=WTW,而成對(duì)圖像之間的距離可以寫為:
(2)
雖然馬氏距離度量學(xué)習(xí)可以等價(jià)于基于矩陣W計(jì)算變換子空間中的歐氏距離,但是式(2)得到的線性變換不能捕獲圖像的復(fù)雜非線性結(jié)構(gòu)。
深度判別度量學(xué)習(xí)(DDML)[15]采用深度神經(jīng)網(wǎng)絡(luò)框架下學(xué)習(xí)多層次的非線性變換。假設(shè)一個(gè)L+1層神經(jīng)網(wǎng)絡(luò),對(duì)于人臉圖像xi,其第一層的輸出是g(1)=φ(W(1)x+b(1)),其中φ函數(shù)是一個(gè)非線性激活函數(shù),W(1)和b(1)分別是第1層中學(xué)習(xí)到的映射矩陣和偏差向量。網(wǎng)絡(luò)前一層的輸出作為后一層的輸入,因此,頂層的輸出是g(L)=φ(W(L)g(L-1)+b(L)),其中g(shù)(L-1)是第(L-1)層的輸出,W(L)和b(L)是頂層學(xué)習(xí)到的映射矩陣和偏移向量。給定成對(duì)圖像xi和xj,DDML使用以下歐氏距離計(jì)算兩個(gè)圖像之間的距離度量:
(3)
DDML在深度神經(jīng)網(wǎng)絡(luò)最頂層的優(yōu)化問(wèn)題為:
(4)
式中:‖·‖F(xiàn)是F-范數(shù);函數(shù)f(·)是廣義邏輯損失函數(shù);lij是兩個(gè)圖像的成對(duì)標(biāo)號(hào);λ(λ≥0)是正則化參數(shù)。
多任務(wù)學(xué)習(xí)通過(guò)共同學(xué)習(xí)多個(gè)相關(guān)任務(wù)來(lái)提高每個(gè)任務(wù)學(xué)習(xí)的效果。多任務(wù)之間共享的有用信息能防止對(duì)某一任務(wù)的過(guò)度學(xué)習(xí)[19]。相關(guān)任務(wù)之間的信息傳遞常見(jiàn)的類型有:共享投影[20]和共享參數(shù)[21-22],如馬氏矩陣和正則化參數(shù)等。鑒于深度判別度量學(xué)習(xí)的特點(diǎn),MT-DDML-FDA模型在DDML的基礎(chǔ)上讓多個(gè)任務(wù)共享一個(gè)公共投影,即設(shè)置深層度量學(xué)習(xí)中的公共層,那么所有任務(wù)共享的投影將有助于每一個(gè)任務(wù)的學(xué)習(xí)。以三層神經(jīng)網(wǎng)絡(luò)為例,MT-DDML-FDA模型的示意圖如圖2所示。
圖2 三層MT-DDML-FDA模型的示意圖
假設(shè)同時(shí)有M個(gè)任務(wù)學(xué)習(xí),給定第m個(gè)任務(wù)的人臉圖像對(duì){(xm,i,ym,i,lm,i)|i=1,2,…,nm,m=1,2,…,M},其中:xm,i,ym,i∈Rd表示任一人臉圖像;lm,i表示其相應(yīng)的圖像對(duì)的標(biāo)簽,lm,i=1說(shuō)明圖像xm,i和ym,i來(lái)源于同一人,lm,i=-1說(shuō)明圖像xm,i和ym,i來(lái)源于不同的人。如圖2所示,MT-DDML-FDA的第1層是所有任務(wù)的共享層,輸入的人臉圖像xm,i在共享層的輸出g(1)(xm,i)為:
g(1)(xm,i)=φ(W(1)xm,i+b(1))
(5)
(6)
(7)
(8)
根據(jù)上文在多任務(wù)深度判別度量學(xué)習(xí)的框架上考慮Fisher準(zhǔn)則,即引入各個(gè)任務(wù)中人臉圖像數(shù)據(jù)的類間和類內(nèi)相關(guān)矩陣,從而MT-DDML-FDA定義的優(yōu)化問(wèn)題如下:
(9)
(10)
(11)
式(10)和式(11)中的qi,c和qi,b分別定義如下:
(12)
(13)
下面介紹MT-DDML-FDA的求解方法。在眾多的訓(xùn)練方法中,反向傳播方法是神經(jīng)網(wǎng)絡(luò)常用的訓(xùn)練策略。反向傳播方法使用遞歸更新算法,可以在輸出層更新所有映射矩陣和偏差向量,并返回到第一層。在訓(xùn)練過(guò)程的每次迭代中,根據(jù)梯度下降公式更新各層的參數(shù),映射矩陣和偏差向量為:
(14)
(15)
式中:μ是梯度下降的學(xué)習(xí)速率。
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
式中:Δ表示元素乘法運(yùn)算。根據(jù)MT-DDML-FDA的輸入可得:
(24)
(25)
基于以上的分析,MT-DDML-FDA模型見(jiàn)算法1。
算法1MT-DDML-FDA模型
輸入:P個(gè)任務(wù)的人臉圖像,正則化參數(shù)α,β,最大迭代次數(shù)T, 最大近鄰數(shù)k,和收斂閾值ε。
Step1特征提取每對(duì)人臉圖像的特征,得到P個(gè)任務(wù)的人臉圖像對(duì)的特征向量表示Xk={(xk,i,xk,j,li,j)|k=1,2,…,P};
Step2初始化所有映射矩陣和偏差向量;
Fort=1,2,…,T
Fork=1,2,…,P
Step5使用式(8)計(jì)算d2(xp,i,yp,i);
Step6從第L層到第一層使用式(14)和式(15)計(jì)算?J/?W和?J/?b;
Step7更新映射矩陣W(1)和偏差向量b(1);
Step9使用式(9)計(jì)算目標(biāo)函數(shù)Jt;
end
Step11如果|Jt-Jt-1|<ε,轉(zhuǎn)至Step 12;
end
本文選用了被廣泛應(yīng)用于化妝人臉數(shù)據(jù)集Disguised Faces in the Wild (DFW)[23]和變化人臉數(shù)據(jù)集CALFW[24],如圖3所示。DFW數(shù)據(jù)集中包含了從網(wǎng)絡(luò)上收集的1 000個(gè)人的11 155幅不同的圖片,來(lái)自于電影明星、歌星、運(yùn)動(dòng)員和政治家等的人臉圖像,每個(gè)人物均包含一幅未化妝和多張化妝人臉圖像,并且在姿態(tài)、年齡、光照和表情等方面存在差異。每人有多幅不同圖片,包含一幅不化妝照片和多幅化妝照片,佩戴眼鏡和帽子也算化妝的范疇。CALFW數(shù)據(jù)集是廣泛使用的LFW人臉數(shù)據(jù)庫(kù)的一個(gè)子集, 內(nèi)容同樣來(lái)自電影明星、歌星、運(yùn)動(dòng)員和政治家等的人臉圖像,共包括4 025個(gè)不同人的圖像,每人2~4幅圖片。本文從DFW數(shù)據(jù)集和CALFW數(shù)據(jù)集中分別選取900對(duì)和300對(duì)人臉,按照男士(不戴帽子和眼鏡)、男士戴帽子、男士戴眼鏡、女士(不戴帽子和眼鏡)、女士戴帽子和女士戴眼鏡,分成6個(gè)任務(wù),每個(gè)任務(wù)中的負(fù)對(duì)采用隨機(jī)選取的方式獲得,各個(gè)任務(wù)的基本信息如表1所示。每個(gè)任務(wù)隨機(jī)將75%的數(shù)據(jù)作為訓(xùn)練集,用于多任務(wù)學(xué)習(xí),剩下25%的數(shù)據(jù)作為測(cè)試集。整個(gè)訓(xùn)練和測(cè)試過(guò)程執(zhí)行5次,取5次的平均計(jì)算結(jié)果作為最終結(jié)果。
圖3 化妝數(shù)據(jù)集DFW和CALFW示意圖
表1 多任務(wù)子集基本信息
參考文獻(xiàn)[7],本文使用HOG[25](Histogram of Oriented Gradient)和LBP[26](Local Binary Pattern)2種特征提取算法對(duì)人臉圖像進(jìn)行處理。HOG算法設(shè)置圖像塊大小為16×16,共提取特征為1 764維。LBP將每幅人臉數(shù)據(jù)集圖片分為16×16像素的16塊非重疊區(qū)域,共提取3 776維數(shù)據(jù)特征。獲得的特征經(jīng)Principal Component Analysis (PCA)處理將至500維。實(shí)驗(yàn)對(duì)比方法采用了LFDA[27](Local Fisher Discriminant Analysis)、LMNN[28](Large Margin Nearest Neighbor) 、MDMML[29](multiview discriminative marginal metric learning)和DDML[6](Deep Discriminative metric learning)。在實(shí)驗(yàn)中,DDML和提出的MT-DDML-FDA均采用3層神經(jīng)網(wǎng)絡(luò),神經(jīng)節(jié)點(diǎn)為200、200、100,激活函數(shù)使用Sigmoid函數(shù)。每一層的初始化權(quán)重矩陣其主對(duì)角線上的元素為1,其他元素為0;初始偏移向量為0。參數(shù)β和γ的網(wǎng)格搜索范圍{10-2,10-1,…,102}, 最大近鄰數(shù)k的網(wǎng)格搜索范圍{5,7,…,13}。經(jīng)過(guò)大量實(shí)驗(yàn),收斂閾值ε取值10-5,梯度下降的學(xué)習(xí)速率為0.05。3個(gè)對(duì)比算法參數(shù)的設(shè)置均按照對(duì)應(yīng)文獻(xiàn)中的默認(rèn)設(shè)置進(jìn)行設(shè)定。評(píng)價(jià)標(biāo)準(zhǔn)本文采用了分類精確率(Classification Accuracy Rate,CAR)、錯(cuò)誤率(Equal Error Rate,EER)和ROC曲線下面積(area under the Roc curve,AUC)。CAR為nc/nt,nc為測(cè)試集中分類正確的圖片對(duì)的數(shù)目,nt為測(cè)試集中所有圖片對(duì)的數(shù)目。參考文獻(xiàn)[7],實(shí)驗(yàn)采用的分類器為SVM[30]。
表2顯示了基于HOG特征提取的MT-DDML-FDA和3種對(duì)比算法在CAR、EER和AUC指標(biāo)上的性能比較。表3顯示了基于LBP特征提取的MT-DDML-FDA和3種對(duì)比算法在CAR、EER和AUC指標(biāo)上的性能比較。兩表的實(shí)驗(yàn)結(jié)果表明: 1) MT-DDML-FDA在CAR、EER和AUC指標(biāo)上均取得了最佳結(jié)果。MT-DDML-FDA使用深度判別度量學(xué)習(xí)和多任務(wù)的學(xué)習(xí)框架,同時(shí)利用Fisher判別能提取每個(gè)任務(wù)的獨(dú)立信息,挖掘所有任務(wù)3之間共享的隱藏相關(guān)信息,MTCS-TSK-FS能夠獲得最佳的性能。LFDA主要基于局部判別擴(kuò)大負(fù)對(duì)數(shù)據(jù)的間隔;LMNN主要利用領(lǐng)域間樣本的大間隔信息,均不能充分有效地利用配對(duì)信息,因此仍然表現(xiàn)出較差的能力;DDML雖然使用多任務(wù)深度判別度量學(xué)習(xí)方法,但不能有效地利用所有任務(wù)之間的信息,特別是不能利用所有任務(wù)之間的公共信息,其性能不能達(dá)到理想的結(jié)果。2) 所有算法在Task1和Task4任務(wù)取得了相對(duì)較高的性能,在其他4個(gè)任務(wù)上取得了較低的性能,這是因?yàn)門ask1和Task4任務(wù)人物圖像僅化妝而沒(méi)有佩戴眼鏡和帽子,Task2、Task3、Task5和Task6任務(wù)在化妝的基礎(chǔ)上還佩戴了眼鏡或者帽子,使得臉部增加了遮擋的物品,提升了人臉驗(yàn)證的難度。進(jìn)一步提升面部有遮擋時(shí)的人臉識(shí)別問(wèn)題是下一階段的目標(biāo)。3) 對(duì)比算法在CAR、EER和AUC指標(biāo)取得了一致的結(jié)果,說(shuō)明使用這3個(gè)指標(biāo)來(lái)評(píng)價(jià)化妝人臉的驗(yàn)證結(jié)果是合適的。另外,在HOG和LBP特征上也取得了類似的結(jié)果,也說(shuō)明這2種特征提取方法也是適合用來(lái)提取化妝人臉特征向量的。
表2 基于HOG特征提取的CAR、EER和AUC性能及其方差 %
續(xù)表2
表3 基于LBP特征提取的CAR、EER和AUC性能及其方差 %
續(xù)表3
為了更好地比較MT-DDML-FDA與對(duì)比算法的性能,圖4和圖5展現(xiàn)了兩個(gè)數(shù)據(jù)集下的4種算法的ROC曲線。實(shí)驗(yàn)結(jié)果可以看出:1) 2種深度學(xué)習(xí)方法(MT-DDML-FDA和DDML)都優(yōu)于度量學(xué)習(xí)方法,因?yàn)樯疃葘W(xué)習(xí)方法可以在深度多層次結(jié)構(gòu)中學(xué)習(xí)更多的人臉識(shí)別信息。2) 在多任務(wù)學(xué)習(xí)的啟發(fā)下,MT-DDML-FDA在不同任務(wù)的人臉圖像中學(xué)習(xí)到比其他深度學(xué)習(xí)方法更有用的識(shí)別信息。因此,深度學(xué)習(xí)非常適合于多任務(wù)學(xué)習(xí)。3) 雖然多視角MDMML方法取得了不錯(cuò)的識(shí)別性能,但其不是深度學(xué)習(xí)方法,不能深度挖掘人臉識(shí)別信息。4) MT-DDML-FDA基于Fisher準(zhǔn)則充分考慮了人臉圖像對(duì)的配對(duì)信息,使得同一人人臉圖像在投影空間盡可能地接近,不同人的人臉圖像在投影空間盡可能地遠(yuǎn)離。因此,配對(duì)信息和樣本幾何信息都對(duì)人臉配對(duì)的性能產(chǎn)生了積極的影響。
圖4 DFW數(shù)據(jù)集不同特征下不同算法ROC曲線比較
圖5 CALFW數(shù)據(jù)集不同特征下不同算法ROC曲線比較
MT-DDML-FDA模型中參數(shù)β、γ和最大近鄰數(shù)k均與模型的性能有關(guān),本節(jié)對(duì)參數(shù)β、γ和k進(jìn)行分析,表4-表6顯示了MT-DDML-FDA模型6個(gè)任務(wù)在在DFW數(shù)據(jù)集上基于HOG特征提取的不同參數(shù)β、γ和k值下的CAR、EER和AUC的平均值。
表4 參數(shù)β不同時(shí)基于HOG特征提取的MT-DDML-FDA模型6個(gè)任務(wù)的平均性能 %
從表4的結(jié)果可以看出:1)β取值的不同導(dǎo)致了MT-DDML-FDA模型的不同性能。β數(shù)值的高低體現(xiàn)了多層深度神經(jīng)網(wǎng)絡(luò)的共享層上學(xué)到的共享參數(shù)映射矩陣W(1)和偏差向量b(1)在目標(biāo)函數(shù)中的比重。β值越大,W(1)和b(1)在目標(biāo)函數(shù)中的比重越大,目標(biāo)函數(shù)更多地考慮共享知識(shí)在多任務(wù)學(xué)習(xí)中的作用。2)β值與CAR、EER和AUC的平均值之間無(wú)規(guī)律可循。MT-DDML-FDA算法在DWF數(shù)據(jù)集上β=1時(shí),CAR、EER和AUC的平均值取得了最佳性能。因此,使用網(wǎng)格搜索法確定β的最優(yōu)值是可行的。
從表5的結(jié)果可以看出:1)γ取值的不同也導(dǎo)致了MT-DDML-FDA模型的不同性能。γ體現(xiàn)了多層深度神經(jīng)網(wǎng)絡(luò)的各個(gè)獨(dú)立層上學(xué)到的映射矩陣和偏差向量在目標(biāo)函數(shù)中的比重。γ值越大,各個(gè)獨(dú)立層參數(shù)在目標(biāo)函數(shù)中的比重越大。2)γ=1時(shí),CAR、EER和AUC的平均值在化妝數(shù)據(jù)集DWF取得了最佳性能。
從表6的結(jié)果可以看出:1)k值表示類內(nèi)相關(guān)矩陣和類間相關(guān)矩陣中的近鄰數(shù)。k值過(guò)小或過(guò)大時(shí),類內(nèi)相關(guān)矩陣和類間相關(guān)矩陣均不能合適地表示人臉圖像的內(nèi)在數(shù)據(jù)結(jié)構(gòu)。因此,k值小于7值,CAR、EER和AUC的平均值較低;當(dāng)k值大于11值,CAR、EER和AUC的平均值也出現(xiàn)了下降的趨勢(shì)。2) 因?yàn)閗取值與數(shù)據(jù)集的分布和內(nèi)在結(jié)構(gòu)密切相關(guān),因此針對(duì)數(shù)據(jù)集使用網(wǎng)格搜索法確定k的最優(yōu)值是可行的。
本文提出了適用于化妝人臉驗(yàn)證的融合Fisher判別分析的多任務(wù)深度判別度量學(xué)習(xí)MT-DDML-FDA模型。MT-DDML-FDA使用多任務(wù)深度度量來(lái)學(xué)習(xí)一個(gè)距離度量,并同時(shí)使用Fisher判別分析來(lái)度量化妝人臉圖像對(duì)之間的相似性。MT-DDML-FDA的第1層網(wǎng)絡(luò)作為一個(gè)共享層,從第2層開(kāi)始是對(duì)應(yīng)不同的任務(wù)的分離層。共享層有助于發(fā)現(xiàn)不同任務(wù)之間潛在共享知識(shí),而分離層學(xué)習(xí)各個(gè)任務(wù)之間的差異性知識(shí)。真實(shí)化妝人臉數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,MT-DDML-FDA模型有助于利用多個(gè)人臉驗(yàn)證任務(wù)的知識(shí),形成良好的距離度量來(lái)區(qū)分人臉圖像對(duì)的相似性和不同性。但本文提出的模型依然面臨進(jìn)一步需要探討的問(wèn)題:如何將深度特征提取到MT-DDML-FDA模型中,來(lái)進(jìn)一步地提高化妝人臉驗(yàn)證的性能。未來(lái)將擴(kuò)大研究范圍,將本文模型應(yīng)用到更多的人臉驗(yàn)證實(shí)例中。