王 奇,雷 航,王旭鵬
(電子科技大學(xué) 信息與軟件工程學(xué)院,成都 610054)
人臉驗(yàn)證是計(jì)算機(jī)視覺(jué)的重要組成部分,其目標(biāo)是基于一對(duì)一的比較,即判斷輸入的一組人臉圖像是否屬于同一對(duì)象[1]。近幾年來(lái),該技術(shù)取得了突破性進(jìn)展,也被廣泛應(yīng)用于生活中各個(gè)領(lǐng)域。然而,大多數(shù)相關(guān)研究是基于普通RGB圖像,而普通的數(shù)碼相機(jī)很難在光照條件惡劣的情況下獲取有效的圖片信息[2],且大多數(shù)的方法均采用正面人臉信息作為輸入,而如何在頭部姿態(tài)干擾下進(jìn)行有效的人臉驗(yàn)證依然是該領(lǐng)域研究的重點(diǎn)[3]。
目前,廣泛應(yīng)用的人臉驗(yàn)證方法主要采用RGB 彩色圖像。隨著深度學(xué)習(xí)方法的深入研究,人臉驗(yàn)證的準(zhǔn)確性有了顯著提高,且大多數(shù)的方法在LFW 數(shù)據(jù)集[4]上的準(zhǔn)確率超過(guò)了人類(lèi)。其中,Schroff 等[5]構(gòu)建了新的網(wǎng)絡(luò)FaceNet,該網(wǎng)絡(luò)將成對(duì)的圖像作為輸入,并引入三元組損失計(jì)算圖像之間的差異。Yang 等[6]將人臉圖像及其標(biāo)簽用在一個(gè)分類(lèi)框架中學(xué)習(xí)鑒別識(shí)別特征,然后Chen 等[7]直接利用這種分類(lèi)信息計(jì)算一對(duì)圖像的相似度來(lái)判定該對(duì)圖像是否屬于同一組對(duì)象。Huang 等[8]將一種基于學(xué)習(xí)聚類(lèi)的邊緣局部嵌入法和k-最近聚類(lèi)算法相結(jié)合用于人臉識(shí)別和人臉屬性預(yù)測(cè),該方法在識(shí)別方面的性能有了顯著提升。為解決低分辨率圖像的人臉驗(yàn)證問(wèn)題,Jiao 等[9]設(shè)計(jì)了一種雙域自適應(yīng)結(jié)構(gòu)來(lái)提高圖像質(zhì)量,并提出了一種端到端低分辨率人臉?lè)g與驗(yàn)證框架,該框架在提高人臉圖像生成質(zhì)量的同時(shí)也提高人臉驗(yàn)證的精度。
隨著深度相機(jī)的普及,低成本、高質(zhì)量和隨時(shí)可用的深度設(shè)備開(kāi)始應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)[10]。深度圖也被稱(chēng)為距離圖像和2.5D 圖像,其每個(gè)像素點(diǎn)代表設(shè)備到對(duì)應(yīng)目標(biāo)點(diǎn)的距離。與普通RGB 圖像相比,深度圖主要有兩個(gè)優(yōu)勢(shì):第一個(gè)是對(duì)光線(xiàn)變化的可靠性,基于紅外的成像原理使其圖像質(zhì)量不受光照條件影響,這種優(yōu)勢(shì)可使它應(yīng)用于一些特殊的應(yīng)用場(chǎng)景,如夜間駕駛。第二個(gè)優(yōu)勢(shì)是可以利用深度數(shù)據(jù)處理檢測(cè)任務(wù)中的目標(biāo)尺寸問(wèn)題[11]。
盡管缺乏大規(guī)模深度數(shù)據(jù)集,深度圖憑借其對(duì)光照的穩(wěn)定性也被應(yīng)用于處理人臉驗(yàn)證問(wèn)題。Kim 等[12]提出了一種遷移學(xué)習(xí)的方法,即在利用2D 圖像訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,再通過(guò)對(duì)模型參數(shù)的調(diào)整,應(yīng)用到深度圖上測(cè)試。Borghi 等[13]構(gòu)建了JanusNet,該網(wǎng)絡(luò)由深度、RGB 圖像組成混合孿生網(wǎng)絡(luò)。在訓(xùn)練階段,混合網(wǎng)絡(luò)通過(guò)RGB 和深度特征進(jìn)行互補(bǔ)學(xué)習(xí),在測(cè)試階段僅依靠深度特征進(jìn)行測(cè)試。隨后Borghi 等[3]又利用兩個(gè)完全相同的全卷積網(wǎng)絡(luò)構(gòu)建一個(gè)孿生網(wǎng)絡(luò),該網(wǎng)絡(luò)僅依靠深度圖進(jìn)行訓(xùn)練和測(cè)試,依然取得了非常好的效果。
為應(yīng)對(duì)光照變化以及頭部姿態(tài)對(duì)人臉特征的影響,本文僅利用深度圖作為輸入,基于兩個(gè)共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)提出了一個(gè)新的深度學(xué)習(xí)框架L2-Siamese。該方法的主要思想是通過(guò)兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別提取一對(duì)圖像的特征,并分析特征的L2 范數(shù)與頭部姿態(tài)的聯(lián)系,再將不同姿態(tài)的特征固定在一個(gè)半徑為α的超球后,計(jì)算該對(duì)圖像間的相似度,并通過(guò)全連接層將相似度映射為(0,1)的概率,設(shè)定閾值判斷該組圖像是否屬于同一對(duì)象。
孿生神經(jīng)網(wǎng)絡(luò)最早由Bromley 等[14]提出并應(yīng)用于簽名驗(yàn)證。如圖1 所示,該網(wǎng)絡(luò)結(jié)構(gòu)由一組平行網(wǎng)絡(luò)組成,各網(wǎng)絡(luò)輸入層(Input layer)分別接受不同的輸入,并通過(guò)隱藏層(Hidden layer)提取特征,末端由一個(gè)能量函數(shù)(Energy function)連接,該函數(shù)可根據(jù)任務(wù)需求計(jì)算特征間的某些指標(biāo)。該對(duì)網(wǎng)絡(luò)之間的參數(shù)相互綁定,因此在訓(xùn)練過(guò)程中,權(quán)重共享保證了兩個(gè)極其相似的圖像不會(huì)被各自的網(wǎng)絡(luò)映射到特征空間中非常不同的位置,且能自然排列出兩個(gè)輸入之間的相似度。
圖1 孿生網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of Siamese network
根據(jù)文獻(xiàn)[15],本文基于一對(duì)完全相同的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建孿生網(wǎng)絡(luò),為保證網(wǎng)絡(luò)良好的性能以及實(shí)時(shí)約束條件,本文采用一個(gè)淺層的卷積網(wǎng)絡(luò)架構(gòu)用于特征提?。?]。如圖2所示,該網(wǎng)絡(luò)總共有4 個(gè)卷積層,各卷積層分別對(duì)應(yīng)64、128、128、256 個(gè)卷積核,其卷積核大小分別為10×10、7×7、4 ×4、4×4。除最后一層卷積層外,各卷積層后分別對(duì)應(yīng)一個(gè)2×2 的最大池化層。最終卷積層中的所有單元被平展映射成一個(gè)4 096×1 的一維特征向量。該網(wǎng)絡(luò)選取線(xiàn)性整流函數(shù)(Rectified Linear Unit,ReLU)作為激活函數(shù)。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of convolutional neural network
兩個(gè)共享權(quán)重的孿生網(wǎng)絡(luò)通過(guò)能量函數(shù)連接,目的是讓同一對(duì)象特征度量距離越近,不同對(duì)象度量距離越遠(yuǎn)。受Ranjan 等[16]研究特征范數(shù)與RGB 圖像質(zhì)量關(guān)系的啟發(fā),本文首先研究深度頭像與頭部姿態(tài)之間的關(guān)系,在Pandora 數(shù)據(jù)集[17]上獲取深度人臉圖像,分析不同姿態(tài)下的特征L2 范數(shù),如圖3 所示,3 個(gè)對(duì)象分別采樣(1)(2)(3)三組不同姿態(tài),每組姿態(tài)包含兩張相近頭部姿態(tài)信息。本文僅采用深度圖用于模型訓(xùn)練與實(shí)驗(yàn)測(cè)試,但由于深度圖缺乏紋理信息,為直觀(guān)展示頭部姿態(tài)信息,每組第一行為對(duì)應(yīng)的灰度圖像,第二行為采樣的深度圖。
圖3 不同姿態(tài)下的深度頭像Fig.3 Depth head images with different poses
通過(guò)圖2 所示的卷積神經(jīng)網(wǎng)絡(luò)提取每張深度圖的人臉特征,每張人臉特征被映射為4 096×1 的特征向量,并計(jì)算特征向量的L2 范數(shù)。L2 范數(shù)如表1 所示。對(duì)于同一對(duì)象,相近的頭部姿態(tài)特征有相近的L2 范數(shù),而姿態(tài)差異越大,其L2 范數(shù)差異也越大。即不同頭部姿態(tài)特征,對(duì)應(yīng)不同L2 范數(shù),頭部姿態(tài)越接近,其特征向量的L2 范數(shù)越接近。
表1 頭部姿態(tài)與L2范數(shù)Tab.1 Head pose and L2 norm
以三維空間為例,所有具有相同L2 范數(shù)的向量(相同長(zhǎng)度的向量),分布在一個(gè)半徑固定的球面上。同理,高維空間具有相同L2 范數(shù)的向量,分布在一個(gè)半徑固定的超球上。因此,為減小頭部姿態(tài)對(duì)頭部特征的影響,將所有姿態(tài)的頭部特征,映射在一個(gè)半徑為α的超球內(nèi),如圖4 所示。
圖4 頭部特征映射示意圖Fig.4 Schematic diagram of head feature mapping
根據(jù)式(1),將所有特征向量通過(guò)L2 范數(shù)歸一化為特征空間中的單位向量(L2 normalization layer),再如式(2)所示將所有特征固定在一個(gè)半徑為α的超球上(Scale layer)。
其中:x為卷積神經(jīng)網(wǎng)絡(luò)提取的人臉特征向量,y為L(zhǎng)2 歸一化后的特征向量。
這樣做有兩個(gè)優(yōu)點(diǎn):其一,本文通過(guò)孿生網(wǎng)絡(luò)來(lái)度量一組面部特征的差異,在固定半徑的超球上,可通過(guò)超球半徑α的調(diào)節(jié),使同一對(duì)象間度量距離越近,不同對(duì)象間的度量距離越遠(yuǎn)。其二,對(duì)同一對(duì)象而言,所有姿態(tài)的特征被映射在相同半徑的超球上,具有相同的L2 范數(shù),能使其差異最小化,可減少頭部姿態(tài)帶來(lái)的干擾。
通過(guò)L2-normalize 層和scale 層反向傳播梯度,并使用下面給出的鏈?zhǔn)椒▌t計(jì)算包含縮放參數(shù)α的梯度。
由式(3)可知,L2-normalize 層和scale 層完全可微,該模塊可用于網(wǎng)絡(luò)的端到端訓(xùn)練。
L2-Siamese 網(wǎng)絡(luò)將包含完整頭部信息的一組相同尺寸并包含真實(shí)值標(biāo)簽的深度圖作為輸入:若標(biāo)簽為1,則該組頭部圖像屬于同一對(duì)象;若標(biāo)簽為0,則該組頭部圖像不屬于同一對(duì)象。首先利用圖2 所示的一組共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò),分別提取特征后,再利用圖4 所示的模塊將特征向量通過(guò)L2 范數(shù)嵌入一個(gè)半徑為α的超球內(nèi),之后通過(guò)計(jì)算特征向量各單元之間的絕對(duì)值誤差(即各單元的L1 距離),獲得一個(gè)新的4 096×1 的差異向量,該向量表征了該組深度頭像之間的差異。最后通過(guò)三層包含128、32、16 個(gè)神經(jīng)元的全連接層后,將該對(duì)圖像的差異向量最終映射為含一個(gè)神經(jīng)元的輸出單元。完整的L2-Siamese 結(jié)構(gòu)如圖5 所示。
圖5 L2-Siamese整體結(jié)構(gòu)Fig.5 Overall structure of L2-Siamese
如圖5 所示,L2-Siamese 除輸出層外,所有的卷積層和全連接層采用ReLU 作為激活函數(shù)。輸出層采用Sigmoid 作為激活函數(shù),將深度頭像間的差異映射為(0,1)的概率值。人臉驗(yàn)證可視為一個(gè)分類(lèi)問(wèn)題,所以L(fǎng)2-Siamese 采用交叉熵作為損失函數(shù):
其中:p表示真實(shí)值,q表示預(yù)測(cè)值。在超參數(shù)的選取上,batch 的大小為64,學(xué)習(xí)率為0.001,衰減率為0.99,衰減步長(zhǎng)為500。
本章首先介紹了公用數(shù)據(jù)集Pandora[17],并在該數(shù)據(jù)集上進(jìn)行了一系列的實(shí)驗(yàn),驗(yàn)證L2-Siamese 的性能。
如引言所示,L2-Siamese 將圖像差異映射為(0,1)的概率,實(shí)驗(yàn)第一步,通過(guò)設(shè)置不同閾值,分析不同閾值對(duì)測(cè)試結(jié)果的影響;隨后實(shí)驗(yàn)并分析了不同縮放參數(shù)α對(duì)網(wǎng)絡(luò)性能的影響,并選取最佳結(jié)果組合與近幾年先進(jìn)方法進(jìn)行對(duì)比。為進(jìn)一步驗(yàn)證L2-Siamese 在頭部姿態(tài)干擾下的性能,本章根據(jù)頭部姿態(tài)角偏航角(yaw)、俯仰角(pitch)、側(cè)傾角(roll)對(duì)數(shù)據(jù)集進(jìn)行劃分后,進(jìn)行實(shí)驗(yàn)分析。
Pandora 數(shù)據(jù)集[17]為頭部和肩部姿勢(shì)估計(jì)任務(wù)而創(chuàng)建,收集了22 名受試者(10 男12 女)的坐姿上半身圖像,每張深度圖對(duì)應(yīng)一張RGB 圖像,且每張圖像對(duì)頭部中點(diǎn)以及頭部姿態(tài)角進(jìn)行了真實(shí)值標(biāo)注。共110 個(gè)序列,超過(guò)25 萬(wàn)張圖像,并通過(guò)眼鏡、圍巾、手機(jī)以及各種姿態(tài)產(chǎn)生干擾。該數(shù)據(jù)集通過(guò)微軟Kinect One 采集。
本文根據(jù)文獻(xiàn)[18]中提出的方法,在已知頭部中點(diǎn)p={x,y}的前提下,根據(jù)式(5)計(jì)算寬度和高度分別為wp、hp頭部矩形框來(lái)采集深度頭部圖像。
其中:fx、fy為相機(jī)內(nèi)部參數(shù),分別為水平和垂直焦距;R為頭部平均寬度和高度(設(shè)為300 mm);Dp為頭部中點(diǎn)p={x,y}的深度值。獲取頭部圖像后,先去除背景,將深度值大于Dp+L(L=200 mm)的所有像素點(diǎn)置0,再將所有圖像統(tǒng)一尺寸為105×105。
理想狀態(tài)下,同一對(duì)象間相似度概率趨近于1,不同對(duì)象相似度概率趨近于0。受姿態(tài)、距離等因素的影響,模型無(wú)法達(dá)到最理想狀態(tài),而閾值的選取會(huì)直接影響測(cè)試結(jié)果。本節(jié)從(0,1),每0.1 個(gè)間隔取一次閾值,在Pandora 數(shù)據(jù)集上進(jìn)行測(cè)試,其結(jié)果如表2 所示。當(dāng)閾值偏高或偏低時(shí),準(zhǔn)確率均有所下降:閾值過(guò)高,主要針對(duì)同一目標(biāo)而言,受姿態(tài)變化的影響,其相似度概率值降低,達(dá)不到閾值,則會(huì)增加誤判率;當(dāng)閾值設(shè)置偏低時(shí),針對(duì)姿態(tài)特征非常接近的不同對(duì)象而言,其相似度概率偏高,容易大于所設(shè)閾值,也會(huì)增加誤判概率。L2-Siamese 閾值選定為0.6 時(shí),準(zhǔn)確率最高,該值對(duì)整個(gè)數(shù)據(jù)集有最佳的包容性,能最大限度地減少姿態(tài)干擾對(duì)測(cè)試結(jié)果的影響。
表2 不同概率閾值對(duì)應(yīng)的準(zhǔn)確率Tab.2 Accuracy corresponding to different threshold value
超球半徑即縮放參數(shù)α對(duì)L2-Siamese 的性能起著至關(guān)重要的作用。如式(3)所示,α可微,即可通過(guò)網(wǎng)絡(luò)學(xué)習(xí)獲取,但在實(shí)際應(yīng)用中,相同對(duì)象不同姿態(tài)間L2 范數(shù)差異較大,不同對(duì)象相同姿態(tài)的L2 范數(shù)也存在差異,通過(guò)學(xué)習(xí)所得的α更趨近于一個(gè)包含更多樣本的L2 值[16],而該值包含的姿態(tài)非常離散,即該超球表面嵌入了更多的姿態(tài)特征,容易使α值偏大,而且會(huì)增加模型的訓(xùn)練負(fù)擔(dān),因此本文將α設(shè)置為固定值,并在Pandora 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,找出α最優(yōu)值。實(shí)驗(yàn)結(jié)果如表3 所示。為進(jìn)一步驗(yàn)證L2 范數(shù)和縮放參數(shù)α對(duì)網(wǎng)絡(luò)的影響,刪除L2-Siamese 中L2 約束層和縮放層,僅用圖2 所示的孿生網(wǎng)絡(luò)在相同的數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)對(duì)比。
根據(jù)表3 所示,縮放參數(shù)α偏小和偏大時(shí),均會(huì)導(dǎo)致模型性能降低:α偏小時(shí),超球表面積過(guò)小,所有特征分布過(guò)于密集,特征間的差異也過(guò)小,不便于特征間的區(qū)分;而α過(guò)大時(shí),超球表面積過(guò)大,所有特征的差異均偏大,且不利于損失函數(shù)的收斂。適當(dāng)選取縮放參數(shù)α,能顯著提高孿生網(wǎng)絡(luò)的性能,且當(dāng)α=10 時(shí),L2-Siamese 準(zhǔn)確率最高。因此選取最優(yōu)α作為L(zhǎng)2-Siamese 的固定縮放參數(shù),并與其他方法進(jìn)行實(shí)驗(yàn)對(duì)比。
表3 不同縮放參數(shù)α對(duì)應(yīng)的準(zhǔn)確率Tab.3 Accuracy corresponding to different scaling parameters α
圖6 給出了當(dāng)α=10 時(shí),在Pandora 數(shù)據(jù)集上訓(xùn)練時(shí)損失函數(shù)和模型準(zhǔn)確率的變化曲線(xiàn)。
圖6 損失值及模型準(zhǔn)確率變化曲線(xiàn)Fig.6 Curves of loss value and accuracy
Pandora 數(shù)據(jù)集包含RGB 圖像和深度圖兩種類(lèi)型的數(shù)據(jù),深度圖的獲取不依賴(lài)于光照條件,但與RGB 圖像相比缺乏細(xì)節(jié)輪廓,為公平比較,本文與僅采用深度圖測(cè)試的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同方法的人臉驗(yàn)證的實(shí)驗(yàn)結(jié)果在Pandora數(shù)據(jù)集上的比較Tab.4 Comparison of experimental results of different methods on Pandora dataset
在相同的實(shí)驗(yàn)環(huán)境下,與近年來(lái)最先進(jìn)的方法進(jìn)行對(duì)比。本文與文獻(xiàn)[13]在卷積層提取特征后均采用了全連接層結(jié)構(gòu),但相較于后者,本文采用了4 096 個(gè)神經(jīng)元,更寬的維度提升了模型的學(xué)習(xí)能力,同時(shí)也大量增加了網(wǎng)絡(luò)的訓(xùn)練參數(shù),對(duì)模型效率造成一定的影響。本文與文獻(xiàn)[3]方法均直接采用深度圖進(jìn)行訓(xùn)練和測(cè)試,后者僅采用了全卷積的網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)網(wǎng)絡(luò)參數(shù)更少,運(yùn)行速度更快。為兼顧在實(shí)際應(yīng)用中的運(yùn)行效率,L2-Siamese 采用了淺層網(wǎng)絡(luò)結(jié)構(gòu),相較于文獻(xiàn)[3,13]中方法,運(yùn)行速度偏低,但能滿(mǎn)足多數(shù)任務(wù)的實(shí)時(shí)性需求。其準(zhǔn)確率相較于當(dāng)前最好的方法提升了4.6 個(gè)百分點(diǎn),準(zhǔn)確率明顯高于競(jìng)爭(zhēng)對(duì)手。
為進(jìn)一步驗(yàn)證L2-Siamese 在頭部姿態(tài)干擾下的預(yù)測(cè)性能,根據(jù)文獻(xiàn)[3,13]的方法,將Pandora 數(shù)據(jù)集按如下方式進(jìn)行劃分:
其中:ρ、θ、σ為均為歐拉角,分別代表頭部姿態(tài)的偏航角(yaw)、俯仰角(pitch)、側(cè)傾角(roll)。其示例如圖7 所示。其中圖7(a)為圖A1分組示例,所有姿態(tài)角均在10°以?xún)?nèi),姿態(tài)干擾最?。粓D7(b)為A2分組示例,存在大于10°的姿態(tài)角,頭部姿態(tài)對(duì)模型有較小的姿態(tài)干擾;圖7(c)為A3分組的示例,三個(gè)姿態(tài)角都大于10°,頭部姿態(tài)對(duì)模型的干擾最大。
圖7 數(shù)據(jù)集分組示例Fig.7 Examples of dataset grouping
Pandora 數(shù)據(jù)集根據(jù)頭部姿態(tài)分組后,按文獻(xiàn)[3,13]中方式進(jìn)行交叉訓(xùn)練、測(cè)試,準(zhǔn)確率結(jié)果如表5 所示。由表5 可知,當(dāng)訓(xùn)練數(shù)據(jù)采用A1序列時(shí),訓(xùn)練樣本受頭部姿態(tài)干擾最小,所有方法均取得較好測(cè)試結(jié)果,其中L2-Siamese 取得90%準(zhǔn)確率高出文獻(xiàn)[3]方法4 個(gè)百分點(diǎn);當(dāng)測(cè)試數(shù)據(jù)采用A3序列時(shí),樣本受姿態(tài)干擾越大時(shí),所有方法準(zhǔn)確率都有所下降,其中文獻(xiàn)[13]準(zhǔn)確率下降最快,而L2-Siamese 準(zhǔn)確率下降最慢,相較于其他方法,L2-Siamese 在姿態(tài)干擾下有更好的穩(wěn)定性。
當(dāng)訓(xùn)練數(shù)據(jù)采用A2序列時(shí),所有樣本均受到小的姿態(tài)干擾。結(jié)果顯示,小幅度姿態(tài)干擾下的樣本有助于提升模型的泛化能力,L2-Siamese 同樣取得較好測(cè)試結(jié)果,L2-Siamese對(duì)小幅度姿態(tài)保持穩(wěn)定。
當(dāng)采用A3序列訓(xùn)練模型時(shí),樣本受姿態(tài)影響最大,文獻(xiàn)[13]方法已無(wú)法應(yīng)對(duì)較大姿態(tài)的干擾。而L2-Siamese 與文獻(xiàn)[3]方法相比,各測(cè)試序列準(zhǔn)確率均高于文獻(xiàn)[3]方法,即使在姿態(tài)干擾最大的A3測(cè)試序列下,準(zhǔn)確率高出該方法6個(gè)百分點(diǎn)。
當(dāng)采用{A1,A2}訓(xùn)練序列時(shí),更廣泛的訓(xùn)練樣本使L2-Siamese 取得最佳測(cè)試結(jié)果。如表5 所示,所有訓(xùn)練測(cè)試序列下,L2-Siamese 準(zhǔn)確率均高于其他方法。
表5 按姿態(tài)劃分Pandora數(shù)據(jù)集后不同方法的實(shí)驗(yàn)結(jié)果準(zhǔn)確率對(duì)比Tab.5 Accuracy comparison of experimental results of different methods after grouping Pandora dataset according to poses
L2-Siamese 僅采用深度圖進(jìn)行訓(xùn)練測(cè)試,選擇更寬的全連接層,并引入L2 模塊及縮放參數(shù)對(duì)特征進(jìn)行約束,大量的訓(xùn)練參數(shù)增加了模型的學(xué)習(xí)能力,提升了模型的預(yù)測(cè)性能,使L2-Siamese 能對(duì)小的姿態(tài)干擾保持穩(wěn)定,也能在大的姿態(tài)干擾下有較好的性能。
為了解決在光照以及頭部姿態(tài)干擾下的人臉驗(yàn)證問(wèn)題,本文提出L2-Siamese 網(wǎng)絡(luò),該網(wǎng)絡(luò)直接處理深度圖,并通過(guò)孿生神經(jīng)網(wǎng)絡(luò)提取特征,以及二范數(shù)和縮放參數(shù)約束特征后,計(jì)算圖像之間的差異。在公共數(shù)據(jù)集Pandora 上進(jìn)行實(shí)驗(yàn)對(duì)比,在姿態(tài)干擾下L2-Siamese 準(zhǔn)確率明顯高于其他方法。由于深度圖對(duì)光線(xiàn)變化的穩(wěn)定性,該模型可被應(yīng)用于光照條件差的場(chǎng)景,如夜間駕駛等。但同時(shí),L2-Siamese 依靠大量的訓(xùn)練參數(shù)提升模型的學(xué)習(xí)能力,對(duì)模型的速度造成影響。在較大姿態(tài)干擾下,其準(zhǔn)確率依然有很大的提升空間。
未來(lái)我們將對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,提升網(wǎng)絡(luò)效率,同時(shí)研究算法,進(jìn)一步提升在姿態(tài)干擾下的準(zhǔn)確率。