鄭 亮,陳 亞,陳小潘,鄭逢斌
河南大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 開(kāi)封 475004
人臉識(shí)別[1]是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的一個(gè)重要研究方向,基于人臉識(shí)別的算法已經(jīng)廣泛應(yīng)用到現(xiàn)實(shí)生活中。人臉圖像包含有大量的生物學(xué)特征,已有心理學(xué)和認(rèn)知科學(xué)的研究表明[2-3],人臉是判斷親屬關(guān)系相似性的重要線索?;谌四槇D像或人臉視頻進(jìn)行親屬關(guān)系驗(yàn)證是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要且具有挑戰(zhàn)性的問(wèn)題。親屬關(guān)系驗(yàn)證是基于給定的人臉圖像或人臉視頻,通過(guò)對(duì)其特征進(jìn)行分析來(lái)驗(yàn)證這些圖像或視頻中的對(duì)象之間是否存在某種親屬關(guān)系。
人臉識(shí)別是親屬關(guān)系驗(yàn)證的基礎(chǔ),盡管目前機(jī)器學(xué)習(xí)用于人臉識(shí)別[4]的準(zhǔn)確率已經(jīng)高達(dá)99.81%[5],但親屬關(guān)系驗(yàn)證和人臉識(shí)別之間存在著顯著的差異。人臉識(shí)別的對(duì)象是同一個(gè)人,同一個(gè)人的面部特征在短時(shí)期內(nèi)通常變化不大;而用于親屬關(guān)系驗(yàn)證的人臉圖像來(lái)自于不同的人,他們之間面部特征不可能是完全相同的。在不受約束的條件下采集的人臉圖像在姿態(tài)、光照、表情、年齡、性別、遮擋條件等方面通常存在較大差異。此外,親屬關(guān)系遺傳特性復(fù)雜,造成人臉外觀自身的多種變化,甚至出現(xiàn)不具有親屬關(guān)系的兩幅人臉圖像比具有親屬關(guān)系的兩幅人臉圖像更加相似的情形。針對(duì)以上問(wèn)題,如何從人臉圖像中提取有鑒別力的特征是提高親屬關(guān)系驗(yàn)證準(zhǔn)確率的關(guān)鍵。
已有研究表明[6-8],分辨人臉主要是基于眼睛、鼻子、嘴部等關(guān)鍵部位。當(dāng)基于人臉圖像判斷兩個(gè)人是否具有親屬關(guān)系時(shí),利用這些關(guān)鍵部位提取有鑒別力的人臉特征是提高親屬關(guān)系驗(yàn)證準(zhǔn)確率的關(guān)鍵。
鑒于此,本文結(jié)合深度學(xué)習(xí)在特征提取上的優(yōu)勢(shì),提出了一種局部特征增強(qiáng)的方法用于親屬關(guān)系驗(yàn)證,并針對(duì)親屬關(guān)系驗(yàn)證任務(wù)展開(kāi)了以下工作:
(1)針對(duì)局部特征提取任務(wù),提出了局部特征注意力網(wǎng)絡(luò)(Local Feature Attention Net,LFA Net),并訓(xùn)練使該模型能夠提取人臉局部關(guān)鍵特征。
(2)基于ResNet[9]改進(jìn)并提出了殘差驗(yàn)證網(wǎng)絡(luò)(Res-Verification Net,RVF Net),引入Family ID信息輔助進(jìn)行親屬關(guān)系驗(yàn)證。設(shè)計(jì)了用于親屬關(guān)系驗(yàn)證的目標(biāo)損失函數(shù),優(yōu)化網(wǎng)絡(luò)的參數(shù),提高親屬關(guān)系驗(yàn)證的準(zhǔn)確率。
(3)使用LFFEV Net進(jìn)行親屬關(guān)系驗(yàn)證,將人臉圖像和由LFA Net提取到的局部關(guān)鍵特征輸入到Res-Verification Net中,在特征空間中進(jìn)行相似性度量,使得具有親屬關(guān)系的正樣本之間距離更近,負(fù)樣本之間距離更遠(yuǎn),最終得到驗(yàn)證結(jié)果。
2010年,F(xiàn)ang等[10]首次基于人臉圖像來(lái)進(jìn)行親屬關(guān)系驗(yàn)證,其主要通過(guò)提取圖像中人臉關(guān)鍵部位的灰度值和直方圖等特征信息,再借助于最鄰近法和支持向量機(jī)進(jìn)行人臉親屬關(guān)系驗(yàn)證。一般說(shuō)來(lái),親屬關(guān)系驗(yàn)證方法主要分為兩類:基于特征的方法[11]和基于模型的方法[12-14]?;谔卣鞯姆椒ㄖ饕柚谌斯ぬ卣髅枋龇蛘咛卣鲗W(xué)習(xí)方法來(lái)提取有鑒別力的面部圖像特征進(jìn)行親屬關(guān)系驗(yàn)證。目前廣泛采用的特征表述方法主要有梯度直方圖[15]、LBP[12]、尺度不變特征[13,16]等。Zhou等[17]針對(duì)不受約束條件下的親屬關(guān)系驗(yàn)證問(wèn)題,提出了一個(gè)新的基于空間金字塔學(xué)習(xí)(SPLE)的特征算子?;谀P偷姆椒ㄍǔ2捎媒y(tǒng)計(jì)學(xué)習(xí)的方法來(lái)學(xué)習(xí)到一個(gè)有效的分類器或者距離度量進(jìn)行親屬關(guān)系驗(yàn)證,例如度量學(xué)習(xí)[12-13]、遷移學(xué)習(xí)[18]、多核學(xué)習(xí)[19]。Lu等[20]提出鄰域排斥度量學(xué)習(xí)方法,該方法通過(guò)學(xué)習(xí)獲得一個(gè)度量,使得具有親屬關(guān)系的樣本距離盡可能變小,不具備親屬關(guān)系的樣本在特征空間中距離盡可能增大。Zhou等[21]提出了可擴(kuò)展相似度學(xué)習(xí)方法(Scalable Similarity Learning,SSL),借助于在線截?cái)嗵荻葘W(xué)習(xí)來(lái)學(xué)習(xí)一個(gè)對(duì)角雙線性相似模型,針對(duì)具有高維度數(shù)據(jù)的親屬關(guān)系數(shù)據(jù)集在擴(kuò)展性和計(jì)算效率上都有優(yōu)勢(shì)。Lu等[22]提出了緊湊的二值人臉向量用于人臉識(shí)別,在識(shí)別精度上取得了較好的結(jié)果。隨著深度學(xué)習(xí)在人臉識(shí)別、人臉檢測(cè)等領(lǐng)域的成功應(yīng)用,學(xué)者們開(kāi)始嘗試使用深度學(xué)習(xí)的方法進(jìn)行親屬關(guān)系驗(yàn)證。Zhang等人[23]設(shè)計(jì)了利用深層卷積神經(jīng)網(wǎng)絡(luò)提取高層特征的框架進(jìn)行親屬關(guān)系驗(yàn)證。Zhou等[24]設(shè)計(jì)了一個(gè)自適應(yīng)網(wǎng)絡(luò)(KinNet),在有監(jiān)督的度量學(xué)習(xí)框架中使用帶標(biāo)簽數(shù)據(jù)有限的親屬關(guān)系數(shù)據(jù)集中學(xué)習(xí)一個(gè)魯棒的跨代親屬關(guān)系度量。Nandy等[25]使用了深度孿生網(wǎng)絡(luò)對(duì)親屬關(guān)系進(jìn)行驗(yàn)證,充分利用卷積神經(jīng)網(wǎng)絡(luò)良好的表征和學(xué)習(xí)能力,有效提高了識(shí)別準(zhǔn)確率和識(shí)別速度。深度學(xué)習(xí)方法的應(yīng)用往往依賴較大的數(shù)據(jù)量,而親屬關(guān)系驗(yàn)證數(shù)據(jù)集規(guī)模一般很有限,易導(dǎo)致過(guò)擬合。因此,本文研究如何利用有限規(guī)模的數(shù)據(jù)集,借助于深度學(xué)習(xí)的方法獲得更具鑒別力的特征,提高親屬關(guān)系驗(yàn)證的準(zhǔn)確率。
近年來(lái),注意力機(jī)制被廣泛應(yīng)用在深度學(xué)習(xí)領(lǐng)域,取得了令人鼓舞的成果。例如卷積注意力模塊CBAM[26]將給定的特征圖,沿著空間和通道兩個(gè)維度推斷出注意力圖,然后將注意力圖與輸入特征圖相乘,加強(qiáng)重要空間和通道的關(guān)注,提升特征表達(dá)能力。Mnih等[27]將注意力機(jī)制應(yīng)用到計(jì)算機(jī)視覺(jué)研究領(lǐng)域,并首次將注意力網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合,按照時(shí)間順序處理輸入圖像,一個(gè)時(shí)間段只處理某一個(gè)局部區(qū)域,依次將得到的局部信息融合形成圖像的動(dòng)態(tài)特征表示,以提高模型的計(jì)算性能。Wang等[28]利用殘差結(jié)構(gòu)可堆疊的特點(diǎn),將注意力模塊與殘差網(wǎng)絡(luò)結(jié)合,解決了單純堆疊注意力模塊而導(dǎo)致的網(wǎng)絡(luò)結(jié)構(gòu)層次過(guò)深產(chǎn)生過(guò)擬合的問(wèn)題。
本文設(shè)計(jì)了一種人臉局部特征增強(qiáng)驗(yàn)證網(wǎng)絡(luò)LFFEV Net(Local Facial Feature Enhancement Verification Net),由能夠?qū)θ四樉植刻卣髟鰪?qiáng)的LFA Net和驗(yàn)證親屬關(guān)系的RVE Net兩部分組成,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 LFFEV Net模型結(jié)構(gòu)圖Fig.1 Structure of LFFEV Net
具有親屬關(guān)系的父母和子女在左眼、右眼、鼻子、嘴部等4個(gè)關(guān)鍵部位上表現(xiàn)出很強(qiáng)的相似性,利用這些關(guān)鍵區(qū)域的特征能夠提高親屬關(guān)系驗(yàn)證的精度。鑒于此,本文設(shè)計(jì)了局部特征注意力網(wǎng)絡(luò)(LFA Net)來(lái)獲取人臉圖像的局部關(guān)鍵特征,主要包括構(gòu)造局部特征圖像和重構(gòu)局部關(guān)鍵特征兩個(gè)步驟。
(1)構(gòu)造局部特征圖像
首先利用人臉檢測(cè)算法MTCNN[29]獲取人臉圖像的左眼、右眼、鼻子和左、右嘴角的坐標(biāo),嘴部取左右嘴角坐標(biāo)的中心位置坐標(biāo),最終得到4個(gè)關(guān)鍵部位中心點(diǎn)。以4個(gè)中心點(diǎn)為基準(zhǔn),設(shè)定人臉圖像的保留區(qū)域,并將保留區(qū)域以外的像素值設(shè)為零。其中,眼睛保留區(qū)域大小25×15,鼻子保留區(qū)域大小20×20,嘴部保留區(qū)域大小35×15,預(yù)處理人臉圖像的過(guò)程如圖2所示。
圖2 提取人臉局部特征圖像Fig.2 Extracting local features of face
(2)重構(gòu)局部關(guān)鍵特征
目前用于親屬關(guān)系驗(yàn)證的數(shù)據(jù)集中的人臉圖像分辨率不高,而且部分存在遮擋和姿態(tài)變化,使得部分人臉圖像中的關(guān)鍵特征點(diǎn)通過(guò)人臉檢測(cè)模型無(wú)法被全部檢測(cè)到或檢測(cè)到的特征點(diǎn)存在較大的誤差,進(jìn)而導(dǎo)致基于這些關(guān)鍵特征點(diǎn)獲取的局部特征圖像不準(zhǔn)確。因此設(shè)計(jì)了LFA Net模型來(lái)獲取圖像局部關(guān)鍵特征。
具體來(lái)說(shuō),從上一步提取的局部特征圖像中選取關(guān)鍵部位準(zhǔn)確的局部特征圖像,連同它們對(duì)應(yīng)的原始圖像一起作為訓(xùn)練集來(lái)訓(xùn)練LFA Net模型,使模型具有更好獲取人臉圖像的局部關(guān)鍵特征的能力,最終用訓(xùn)練好的LFA Net模型重構(gòu)其他圖像的局部關(guān)鍵特征。模型的基本結(jié)構(gòu)如圖3所示。LFA Net對(duì)原始圖像進(jìn)行卷積、池化、反卷積、去池化等操作得到與原圖像大小相同的特征。最后將得到的局部關(guān)鍵特征與人臉檢測(cè)模型得到人臉局部特征圖像使用均方誤差(Mean Squared Error,MSE)損失函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù)。MSE損失函數(shù)如公式(1)所示:
其中,y表示經(jīng)過(guò)LFA Net生成的局部關(guān)鍵特征所對(duì)應(yīng)特征,y′表示構(gòu)造的局部特征圖像經(jīng)過(guò)歸一化和通道轉(zhuǎn)換后得到的特征,n為輸入數(shù)據(jù)的batch-size大小。
圖3 LFA Net模型結(jié)構(gòu)圖Fig.3 Structure diagram of LFA Net model
LFA Net的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示,除最后一層反卷積層外,其余每一個(gè)卷積層和反卷積層操作后均使用ReLU函數(shù)[30](Rectified Linear Unit)作為激活函數(shù),并且使用了批標(biāo)準(zhǔn)化(Batch Normalization)對(duì)輸出結(jié)果進(jìn)行歸一化處理,使用池化層對(duì)特征進(jìn)行壓縮,去池化層對(duì)特征尺寸進(jìn)行還原,最終得到與輸入圖像相同維度和尺寸的局部關(guān)鍵特征。
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
現(xiàn)有的親屬關(guān)系數(shù)據(jù)集大多僅利用親屬關(guān)系標(biāo)記信息,而較少考慮家庭標(biāo)記信息。為使學(xué)習(xí)的特征有更好的表達(dá)能力,本文在數(shù)據(jù)集中引入Family ID信息,具體來(lái)說(shuō)具有親屬關(guān)系的一對(duì)人臉圖像分別標(biāo)記相同的Family ID,而不具備親屬關(guān)系的一對(duì)人臉圖像分別標(biāo)記不同的Family ID。
表1 LFA Net網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Parameters of LFA Net model structure
為了驗(yàn)證兩個(gè)樣本之間的親屬關(guān)系,構(gòu)建了深度殘差驗(yàn)證網(wǎng)絡(luò)RVF Net,模型結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)使用共享權(quán)值的兩個(gè)分支分別提取父母和孩子的人臉圖像的特征。RVF Net采用了殘差卷積結(jié)構(gòu)作為提取特征的主干網(wǎng)絡(luò),提取到的深度特征分成兩組來(lái)處理。一組將特征結(jié)合Family ID進(jìn)行輔助訓(xùn)練,將特征分類到不同的家庭;另一組將提取的特征通過(guò)組合運(yùn)算和拼接的方式進(jìn)行融合,然后將融合后的特征輸入到一個(gè)全連接層構(gòu)成的鑒別器中,得到相似度評(píng)分,通過(guò)設(shè)置閾值t,獲得最終親屬關(guān)系的預(yù)測(cè)結(jié)果。具體來(lái)說(shuō)評(píng)分如果大于閾值則表明二者有親屬關(guān)系,否則無(wú)親屬關(guān)系,定義如公式(2)所示:
RVF Net中每層網(wǎng)絡(luò)的構(gòu)成如表2所示,其中卷積層默認(rèn)步長(zhǎng)為1,padding設(shè)置為1。在每層卷積層、Fc1和Fc2之后都增加了ReLU作為激活函數(shù),使用Batch Normalization層對(duì)數(shù)據(jù)進(jìn)行歸一化處理。為避免過(guò)擬合,在Fc1和Fc2之后增加了Dropout[31]層。Fc(ID)層用來(lái)進(jìn)行Family ID分類,F(xiàn)c3層用來(lái)進(jìn)行親屬關(guān)系驗(yàn)證。
表2 RVF Net網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 2 Parameters of RVF Net
2.2.2 損失函數(shù)
將由RVF Net中殘差卷積結(jié)構(gòu)提取的深度特征輸入到兩個(gè)分支,在第一個(gè)分支中,根據(jù)不同的Family ID標(biāo)簽,使用Center loss[32]在特征空間中對(duì)樣本進(jìn)行距離劃分,使不同F(xiàn)amily樣本之間具有離散性,同時(shí)也使相同F(xiàn)amily樣本之間具有緊湊性。Center loss的定義如公式(3)所示:
圖4 RVF Net結(jié)構(gòu)圖Fig.4 Structure diagram of RVF Net
其中,n表示batch-size的大小,cyi表示第yi個(gè)類別的特征中心,xi表示輸入特征。距離劃分后將深度特征轉(zhuǎn)化為1維,輸入到分類器中,得到樣本預(yù)測(cè)的Family ID,用真實(shí)Family ID作為標(biāo)簽,使用Family-Cross-Entropy loss(FCE loss)訓(xùn)練網(wǎng)絡(luò),F(xiàn)CE loss定義如公式(4)所示:
C為類別總數(shù),n為batch-size大小,yj,m表示一個(gè)batch-size中第j個(gè)樣本預(yù)測(cè)為家庭m的值,yj,k是該樣本被預(yù)測(cè)為真實(shí)家庭k的預(yù)測(cè)值。
深度特征輸入到第二個(gè)分支進(jìn)行親屬關(guān)系驗(yàn)證,第二個(gè)分支由3個(gè)全連接層構(gòu)成,用Sigmoid函數(shù)進(jìn)行二分類,結(jié)合真實(shí)親屬關(guān)系標(biāo)簽,使用親屬關(guān)系損失函數(shù)(Kin loss)優(yōu)化網(wǎng)絡(luò)。Kin loss定義如公式(5)所示:
其中,zi是親屬關(guān)系標(biāo)簽(有親屬關(guān)系為1,否則為0),pi為通過(guò)網(wǎng)絡(luò)得到的兩張圖像的相似度分?jǐn)?shù),n為batch-size大小。
網(wǎng)絡(luò)的損失函數(shù)定義為這三個(gè)損失函數(shù)的加權(quán)值之和,如公式(6)所示:
其中,λ1、λ2、λ3為損失函數(shù)的權(quán)重,根據(jù)實(shí)驗(yàn)進(jìn)行動(dòng)態(tài)調(diào)節(jié)。
LFFEV Net由LFA Net和RVF Net組成,其中LFA Net網(wǎng)絡(luò)參數(shù)已通過(guò)預(yù)訓(xùn)練完成,在訓(xùn)練LFFEV Net之前,需將LFA Net網(wǎng)絡(luò)參數(shù)載入,使用Center loss+FCE loss+Kin loss優(yōu)化網(wǎng)絡(luò)。將數(shù)據(jù)輸入到LFFEV Net網(wǎng)絡(luò)中,增強(qiáng)圖像中人臉局部特征信息,經(jīng)過(guò)網(wǎng)絡(luò)處理,得到相似度評(píng)分,如果評(píng)分超過(guò)閾值t,則判斷為具有親屬關(guān)系,否則不具有親屬關(guān)系。
本章進(jìn)行了一系列實(shí)驗(yàn)來(lái)驗(yàn)證本文算法的有效性。
本文使用KinFaceW[20]數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,該數(shù)據(jù)集由KinFaceW-I和KinFaceW-II兩個(gè)子集構(gòu)成。數(shù)據(jù)集中的圖像來(lái)源于互聯(lián)網(wǎng),包括一些公眾人物及其子女的照片。人臉圖像是在不受約束的環(huán)境下采集的。此外,人臉圖像均已按照眼睛的坐標(biāo)進(jìn)行對(duì)齊并做了裁剪處理,圖像大小為64×64,KinFaceW-I數(shù)據(jù)集中部分?jǐn)?shù)據(jù)及其親屬關(guān)系如圖5所示。
圖5 KinFaceW-I部分圖像Fig.5 Several image examples of KinFaceW-I
KinFaceW-I數(shù)據(jù)集:該數(shù)據(jù)集包含4種不同親屬關(guān)系的圖像:父親和女兒(FD),父親和兒子(FS),母親和女兒(MD),母親和兒子(MS)。這四種關(guān)系的圖像對(duì)數(shù)分別為134、156、127、116,共計(jì)1 066張圖像。該數(shù)據(jù)集中每對(duì)人臉圖像均采集于不同的照片,因此圖像的光照、清晰程度有些許差異。
KinFaceW-II數(shù)據(jù)集:由4種親屬關(guān)系構(gòu)成,每種親屬關(guān)系包含250對(duì)圖像,數(shù)據(jù)集中總共有2 000張圖像。該數(shù)據(jù)集中每對(duì)人臉圖像均采集于同一張照片。
LFA Net模型基于Pytorch實(shí)現(xiàn),使用KinFaceW-II數(shù)據(jù)集中原始圖像和經(jīng)過(guò)關(guān)鍵部位提取處理后的圖像作為訓(xùn)練數(shù)據(jù),對(duì)LFA Net進(jìn)行預(yù)訓(xùn)練,網(wǎng)絡(luò)優(yōu)化器選用Adam,學(xué)習(xí)率設(shè)置為0.01,權(quán)值衰減設(shè)置為0.005,batch-size設(shè)置為32,損失函數(shù)使用BCE loss,迭代次數(shù)為200次。
LFFEV Net模型的優(yōu)化器選用Adam,學(xué)習(xí)率設(shè)置為0.000 03,權(quán)值衰減設(shè)置為0.005,損失函數(shù)使用Center loss+FCE loss+Kin loss,其權(quán)重λ1、λ2、λ3分別為0.000 1、1、10。使用交叉驗(yàn)證方法,將數(shù)據(jù)集盡可能等分成5折,其中4折用來(lái)訓(xùn)練,1折用來(lái)測(cè)試。每折由相同數(shù)量的正樣本和負(fù)樣本構(gòu)成,正樣本是一對(duì)有親屬關(guān)系的父母和孩子,負(fù)樣本是由在本折中的不具有親屬關(guān)系的樣本隨機(jī)組合構(gòu)成。進(jìn)行5次實(shí)驗(yàn),每次實(shí)驗(yàn)迭代次數(shù)為300次,閾值t設(shè)置為0.5。每次實(shí)驗(yàn)都會(huì)得出相應(yīng)的準(zhǔn)確率,最后將5次實(shí)驗(yàn)結(jié)果取平均值作為最終的實(shí)驗(yàn)結(jié)果。
本文進(jìn)行了四組對(duì)比實(shí)驗(yàn),并將四組實(shí)驗(yàn)結(jié)果進(jìn)行比較。第一組實(shí)驗(yàn)命名為“RVF-only”,在這組實(shí)驗(yàn)中,去掉了LFFEV Net中的LFA Net,使用RVF Net進(jìn)行親屬關(guān)系驗(yàn)證,輸入數(shù)據(jù)為原始圖像和3張由原圖像轉(zhuǎn)換的灰度圖像。第二組實(shí)驗(yàn)命名為“LFA-only”,使用RVE Net網(wǎng)絡(luò),輸入數(shù)據(jù)只有經(jīng)過(guò)LFA NET提取的人臉局部關(guān)鍵特征。第三組實(shí)驗(yàn)命名為“LFFEV-noID”,在這組實(shí)驗(yàn)中使用LFFEV Net完整網(wǎng)絡(luò),但沒(méi)有使用Family ID,訓(xùn)練時(shí)沒(méi)有使用Center loss和FCE loss對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,輸入數(shù)據(jù)為原始圖像和3張對(duì)應(yīng)灰度圖像。第四組使用整個(gè)LFFEV Net,同時(shí)結(jié)合Family ID,使用Center loss和FCE loss對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,輸入數(shù)據(jù)為原始圖像和3張灰度圖像。將四組實(shí)驗(yàn)結(jié)果進(jìn)行比較,表3和表4分別為KinFaceW-I和KinFaceW-II的測(cè)試結(jié)果。
表3 比較不同實(shí)驗(yàn)在KinFaceW-I數(shù)據(jù)集準(zhǔn)確率Table 3 Comparison of accuracy using different models on KinFaceW-I Dataset %
表4 比較不同實(shí)驗(yàn)在KinFaceW-II數(shù)據(jù)集準(zhǔn)確率Table 4 Comparison of accuracy using different models on KinFaceW-II Dataset%
從表3和表4可以看出,同一性別的驗(yàn)證準(zhǔn)確率要高于不同性別的準(zhǔn)確率,如FS準(zhǔn)確率要高于FD,MD的準(zhǔn)確率要高于MS。人臉圖像取自同一張照片的驗(yàn)證準(zhǔn)確率高于取自不同照片,如在KinFaceW-II上的驗(yàn)證準(zhǔn)確率要高于KinFaceW-I上的驗(yàn)證準(zhǔn)確率。同時(shí)通過(guò)實(shí)驗(yàn)可以得出:
(1)“RVF-only”實(shí)驗(yàn)使用RVF Net驗(yàn)證網(wǎng)絡(luò),未對(duì)人臉局部特征進(jìn)行增強(qiáng),在KinFaceW-I和KinFaceW-II的平均準(zhǔn)確率為72.2%與80.3%。
(2)僅以LFA Net所提取的人臉的局部關(guān)鍵特征作為網(wǎng)絡(luò)輸入時(shí),“LFA-only”實(shí)驗(yàn)得到的準(zhǔn)確率分別為70.0%和66.7%。
(3)使用整個(gè)LFFEV Net,但未使用Family ID對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化的情況下,“LFFEV-noID”實(shí)驗(yàn)結(jié)果分別為77.8%和82.4%。引入Family ID信息之后,“LFFEV”實(shí)驗(yàn)結(jié)果分別達(dá)到79.0%和85.0%。
實(shí)驗(yàn)“RVF-only”與“LFFEV”對(duì)比可以看出,使用LFA Net對(duì)局部特征進(jìn)行增強(qiáng)后,在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別提升了6.8個(gè)百分點(diǎn)和4.7個(gè)百分點(diǎn)?!癓FA-only”和“LFFEV”實(shí)驗(yàn)表明,單獨(dú)使用局部關(guān)鍵特征作為輸入,模型具有一定的親屬關(guān)系驗(yàn)證能力,但是準(zhǔn)確率較低。通過(guò)實(shí)驗(yàn)“LFFEV-noID”和“LFFEV”可以看出,引入Family ID后,準(zhǔn)確率分別提升了1.2個(gè)百分點(diǎn)和2.6個(gè)百分點(diǎn)。
實(shí)驗(yàn)結(jié)果表明,加入LFA Net后,通過(guò)對(duì)人臉局部特征增強(qiáng),能夠提取到更具有鑒別力的人臉特征,準(zhǔn)確率提升效果較為顯著。此外,引入Family ID標(biāo)簽用于優(yōu)化類內(nèi)以及類間距離,準(zhǔn)確率有所提升。綜上所述,LFA Net提取的人臉局部特征和使用Family ID信息有利于算法性能的提升。
為進(jìn)一步驗(yàn)證算法的有效性,將本文提出的算法與LMBC[33]、IML[34]、MNRML[20]、MPDFL[35]、DMML[34]、KV-CNN[36]等算法進(jìn)行了比較。如表5和表6所示,提出的LFFEV模型在FS、FD、MD、MS四個(gè)子數(shù)據(jù)集上的準(zhǔn)確率都有了較為明顯的提升,與準(zhǔn)確率最接近的KVCNN方法相比,在KinFaceW-I數(shù)據(jù)集上平均準(zhǔn)確率增幅最少為5.7個(gè)百分點(diǎn),在KinFaceW-II數(shù)據(jù)集上平均準(zhǔn)確率增幅最少為3.8個(gè)百分點(diǎn)。
表5 比較不同算法在KinFaceW-I的準(zhǔn)確率Table 5 Comparison of accuracy with other methods on KinFaceW-I Dataset %
表6 比較不同算法在KinFaceW-II的準(zhǔn)確率Table 6 Comparison of accuracy with other methods on KinFaceW-II Dataset%
本文提出了一種基于深度學(xué)習(xí)和人臉局部特征增強(qiáng)的親屬關(guān)系驗(yàn)證方法。該方法設(shè)計(jì)了人臉局部特征增強(qiáng)驗(yàn)證網(wǎng)絡(luò)LFFEV Net,利用人臉的關(guān)鍵局部特征來(lái)提取更具鑒別力的人臉特征用于親屬關(guān)系驗(yàn)證。同時(shí),引入Family ID信息使得模型學(xué)習(xí)到更好地表征家庭信息特征,進(jìn)一步提升算法準(zhǔn)確率。算法在公開(kāi)數(shù)據(jù)集KinFaceW上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,使用LFFEV Net進(jìn)行親屬關(guān)系識(shí)別能提高驗(yàn)證的準(zhǔn)確率。
未來(lái)將嘗試從不同尺度對(duì)局部特征進(jìn)行增強(qiáng),并探討具備學(xué)習(xí)能力的注意力機(jī)制來(lái)確定每個(gè)尺度特征的權(quán)重,進(jìn)一步提升算法的性能。