余璀璨, 李慧斌
(西安交通大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院 大數(shù)據(jù)算法與分析技術(shù)國家工程實驗室,西安 7 10049)
人臉識別[1]是一種依據(jù)人臉圖像進行身份識別的生物特征識別技術(shù).人臉識別的研究始于20世紀(jì)60年代,與虹膜識別、指紋識別、步態(tài)識別等生物特征識別技術(shù)相比,人臉識別因其便捷、高效、易普及的優(yōu)點成為最受關(guān)注的研究問題之一.通常,其難點在于人臉結(jié)構(gòu)相似性導(dǎo)致不同個體之間差異不顯著,而同一個體在不同表情、姿態(tài)、年齡、光照、遮擋、妝飾等干擾因素下變化顯著.因而人臉識別技術(shù)需要在類內(nèi)變化干擾的情況下盡可能增大類間差距以區(qū)分不同個體,其關(guān)鍵在于從人臉圖像中提取有利于識別的特征.早期基于人臉幾何特征的識別方法[2–4]使用眼睛、鼻子、嘴巴等關(guān)鍵部位之間的關(guān)系(如角度、距離)構(gòu)建人臉描述子,此類方法忽略了人臉紋理、外觀包含的有用信息,因此,識別效果一般.基于子空間學(xué)習(xí)的識別方法如Eigenfaces[5]、Fisherfaces[6],將原始數(shù)據(jù)整體映射到低維人臉子空間,這類方法很大程度上推動了人臉識別技術(shù)的發(fā)展.基于局部特征分析的識別方法使用合適的濾波器提取人臉局部特征,Gabor[7]、LBP[8]、HOG[9]等常用于此類方法.在光照、姿態(tài)和表情變化較小時這類人臉識別方法的效果一定程度上比較穩(wěn)定.2014年以來,深度卷積神經(jīng)網(wǎng)絡(luò)為人臉識別技術(shù)帶來了巨大突破.無需人工設(shè)計特征,深度卷積神經(jīng)網(wǎng)絡(luò)能夠針對訓(xùn)練數(shù)據(jù)學(xué)習(xí)如何提取特征.在特定數(shù)據(jù)集上,這類方法的識別能力已超過人類識別水平[10].
深度學(xué)習(xí)是一類使用多層線性及非線性處理單元通過組合底層特征而形成更加抽象的高層特征表示的機器學(xué)習(xí)算法,基于深度學(xué)習(xí)的人臉識別方法使用端到端的方式學(xué)習(xí)提取特征的能力,并使用提取到的特征進行分類,在損失函數(shù)的指導(dǎo)下利用一些優(yōu)化方法如隨機梯度下降、自適應(yīng)學(xué)習(xí)率算法優(yōu)化神經(jīng)網(wǎng)絡(luò)中的參數(shù).
近年來,基于深度學(xué)習(xí)的人臉識別方法受到了廣泛研究.據(jù)了解,現(xiàn)有綜述文獻[4,11–14]主要針對傳統(tǒng)識別方法,基于此,本文綜述了2014年以來基于深度學(xué)習(xí)的二維人臉識別方法.特別地,本文將從人臉預(yù)處理、深度特征學(xué)習(xí)、特征比對、人臉數(shù)據(jù)集和評價標(biāo)準(zhǔn)五個方面進行介紹.最后對人臉識別的未來發(fā)展進行展望.
人臉識別技術(shù)通過采集人臉圖片或視頻等數(shù)據(jù)進行身份識別和認(rèn)證.身份識別指給出一張人臉圖像和已注冊的人臉數(shù)據(jù)庫,判斷該圖像在數(shù)據(jù)庫中的身份,本質(zhì)是1:N的多分類問題,常見的應(yīng)用場景有門禁系統(tǒng)和會場簽到系統(tǒng)等.身份認(rèn)證指判斷兩幅人臉圖像是否屬于同一身份,并不需要知道圖像的身份所屬,是1:1的二分類問題,通常應(yīng)用于人證比對和身份核驗等場景.
如圖1所示,基于深度學(xué)習(xí)的人臉識別流程主要包括人臉預(yù)處理(檢測、對齊、標(biāo)準(zhǔn)化、數(shù)據(jù)增強等)、特征學(xué)習(xí)、特征比對等步驟,其中特征學(xué)習(xí)是人臉識別的關(guān)鍵,如何提取強判別性、強魯棒性的特征是人臉識別的研究重點.本節(jié)首先對人臉預(yù)處理的各個環(huán)節(jié)進行簡要介紹,然后重點介紹基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉特征學(xué)習(xí)方法.
圖1 基于深度學(xué)習(xí)的人臉識別模型訓(xùn)練流程圖
如圖2所示,基于深度學(xué)習(xí)的人臉識別方法預(yù)處理流程通常包括人臉檢測、關(guān)鍵點定位、人臉姿態(tài)及灰度標(biāo)準(zhǔn)化、人臉數(shù)據(jù)裁剪及增強.
圖2 基于深度學(xué)習(xí)的人臉識別方法預(yù)處理流程
1) 人臉檢測
人臉檢測指檢測出人臉圖像中人臉的具體位置,通常用矩形框框出人臉.人臉檢測技術(shù)是人臉識別不可或缺的重要環(huán)節(jié),隨著深度學(xué)習(xí)的發(fā)展該技術(shù)也不斷得到提升.基于深度學(xué)習(xí)的人臉檢測方法主要分為Fast R-CNN系列[15]、級聯(lián)CNN系列[16,17]以及SSD系列[18].其中,F(xiàn)ast R-CNN系列方法用于人臉檢測時通常能夠獲得較低的誤檢率,但檢測速度難以達到實時.級聯(lián)CNN系列方法如MTCNN[16]速度非??欤幢慊贑PU也能對單張人臉進行實時檢測.SSD系列方法不僅能達到Fast R-CNN系列方法的誤檢率,而且能保證檢測速度,代表性方法FaceBoxes[19]可以在CPU上實現(xiàn)實時檢測.人臉檢測方面的綜述有[20],除了檢測性能和速度之外,目前比較受關(guān)注的問題還有低質(zhì)量圖像中的人臉檢測[21].
2) 人臉對齊
檢測出人臉在圖像中的位置后需要進行人臉對齊操作,人臉對齊指檢測人臉特征點,如眉眼、鼻子、嘴角以及其它輪廓點.人臉對齊方法可分為判別式方法和生成式方法:生成式方法根據(jù)形狀和外觀構(gòu)建人臉生成模型,以AAM(Active Appereance Model)[22]和ASM(Active Shape Model)[23]為代表;判別式方法通常學(xué)習(xí)獨立的局部檢測器或回歸器來定位每個面部關(guān)鍵點,具體實現(xiàn)方法包括CLMs[24]、級聯(lián)形狀回歸[25]以及深度學(xué)習(xí)方法[26,27].特別地,Deep Face[28]為了使卷積神經(jīng)網(wǎng)絡(luò)發(fā)揮最大作用,得到二維對齊圖像后,進行了三維人臉對齊.隨著網(wǎng)絡(luò)性能不斷提升以及數(shù)據(jù)集的種類和數(shù)量不斷擴大,大多數(shù)人臉識別方法[29–31]只需進行二維人臉對齊甚至弱對齊[32]就能達到很高的識別精度.人臉對齊的難點在于人臉尺度、光照、遮擋、姿態(tài)、復(fù)雜表情等帶來的影響,人臉對齊的更多內(nèi)容可參考綜述[33,34].
3) 人臉標(biāo)準(zhǔn)化
為了算法的穩(wěn)定性,一般會對圖像進行一些數(shù)值標(biāo)準(zhǔn)化的處理,對不同光強、不同光源方向下得到的人臉圖像進行補償,以減弱由于光照變化造成的圖像信號變化.例如人臉識別方法SphereFace[30]將所有像素值減去127.5再除以128,使圖片像素值范圍從[0,255]變成[?1,1],VGGFace[35]則是將圖片中所有圖像減去平均臉,而文獻[36,37]對圖像進行了灰度處理.
4) 人臉數(shù)據(jù)增強
數(shù)據(jù)增強是基于深度學(xué)習(xí)的人臉識別方法常用的預(yù)處理步驟,目的是為了增加數(shù)據(jù)量.需要說明的是,基于深度學(xué)習(xí)的人臉識別模型在訓(xùn)練階段使用數(shù)據(jù)增強,而測試階段則不使用.數(shù)據(jù)增強的方式多種多樣,常見的方法是隨機裁剪和鏡像翻轉(zhuǎn)[38,39].隨機裁剪將圖片隨機裁剪成不同的圖像塊,鏡像翻轉(zhuǎn)指水平鏡像翻轉(zhuǎn)圖片,全部翻轉(zhuǎn)或以一定的概率翻轉(zhuǎn).在使用深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法中,數(shù)據(jù)增強被大量使用[38,40–42].
深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)是影響人臉深度特征學(xué)習(xí)及識別性能的兩個關(guān)鍵因素.2012年,Hinton和其學(xué)生Krizhevsky首次將深度卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于解決計算機視覺領(lǐng)域的關(guān)鍵問題[38].之后,VGGNet[43],GoogLeNet[44]以及ResNet[45]這三類網(wǎng)絡(luò)相繼被提出并成功被應(yīng)用于物體識別和人臉識別.在經(jīng)典的多分類損失函數(shù)Softmax loss基礎(chǔ)上,損失函數(shù)的設(shè)計問題受到廣泛關(guān)注,通過引入分類間隔及度量學(xué)習(xí)等機制使得人臉深度特征學(xué)習(xí)具有強的判別性[29–31,46–48],人臉識別的性能不斷得到提高.下面主要從人臉識別常用的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩方面展開討論.
2.2.1 人臉識別網(wǎng)絡(luò)結(jié)構(gòu)
使用深度學(xué)習(xí)進行人臉識別的早期,研究人員傾向于使用多個深度卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征,再將特征融合.在文獻[28,49]中,作者提出首先將多個深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征拼接并使用PCA降維得到更有效的特征.文獻[50]中使用60個深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)從不同的面部圖像塊提取出19,200維融合特征,然后通過PCA將特征壓縮至150維.多達60個DCNN使DeepID在Labeled Faces in the Wild(LFW)數(shù)據(jù)集[10,51]上取得97.45%的人臉認(rèn)證準(zhǔn)確率.類似的,文獻[42,48,52]均使用了25個DCNN用于提取人臉深度特征并融合.而基于深度學(xué)習(xí)的人臉識別方法的趨勢是使用單個網(wǎng)絡(luò),多網(wǎng)絡(luò)融合特征逐漸被VGGNet[43]、GoogLeNet[44]和ResNet[45]這三種深度人臉識別的代表性網(wǎng)絡(luò)架構(gòu)所取代.
1)VGGNet
牛津大學(xué)視覺幾何組在2014年提出的VGGNet系列深度卷積神經(jīng)網(wǎng)絡(luò)一共有5種結(jié)構(gòu),層數(shù)在11層至19層之間,其中應(yīng)用最廣的是VGG16和VGG19.VGGNet的突出表現(xiàn)在于使用多個3×3的卷積核替代AlexNet中7×7的卷積核,小的卷積核一方面可以減少參數(shù),另一方面增加了非線性映射,有助于提升網(wǎng)絡(luò)的擬合能力.并且,VGGNet增加了網(wǎng)絡(luò)的深度,使用多種結(jié)構(gòu)驗證了增加網(wǎng)絡(luò)深度可以提升分類準(zhǔn)確性.以VGG16為例,該網(wǎng)絡(luò)由13個卷積層和3個全連接層組成,每個卷積層后連接一個ReLU激活函數(shù)層,池化方式與AlexNet相同,前兩個全連接層都有4096個通道,最后一個全連接層的通道數(shù)與分類的類別數(shù)一致.文獻[35]使用VGGNet在LFW數(shù)據(jù)集上獲得了99.13%的人臉認(rèn)證準(zhǔn)確率.VGGNet系列網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量仍然很龐大,五種結(jié)構(gòu)的參數(shù)量均在1.3億以上.
2)GoogLeNet
同是2014年,由谷歌團隊提出的網(wǎng)絡(luò)結(jié)構(gòu)GoogLeNet通過增加網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性來解決網(wǎng)絡(luò)參數(shù)過多的問題.不同于VGGNet和AlexNet,GoogLeNet使用Inception模塊構(gòu)建模塊化結(jié)構(gòu),在模塊中使用不同大小的卷積核實現(xiàn)多尺度特征的融合.圖3是一個Inception模塊,為了方便對齊選用了1×1、3×3和5×5的卷積核.由于較大的卷積核會帶來巨大計算量,分別在3×3和5×5的卷積層之前增加了一層1×1的卷積層用于降維,并且在模塊中加入池化層.最后,將四個通道的輸出合并.FaceNet[32]使用Inception模塊實現(xiàn)了輕量級的深度人臉識別模型,可以在手機上實時運行.
圖3 Inception模塊[44]
3) ResNet
網(wǎng)絡(luò)加深理應(yīng)有利于提升網(wǎng)絡(luò)的性能,但深度增加也給訓(xùn)練帶來難度.He等人針對這類問題提出了ResNet[45],允許網(wǎng)絡(luò)結(jié)構(gòu)盡可能加深.ResNet的核心策略是增加跨層連接,直接學(xué)習(xí)層與層之間的殘差.圖4是一個殘差模塊,該模塊的輸入為x,輸出是F(x)+x,F(xiàn)(x)即殘差,中間的參數(shù)層只需要學(xué)習(xí)殘差部分,可以有效減小訓(xùn)練誤差,并且這個恒等映射的跨層連接避免了反向傳播過程中的梯度消失,有利于訓(xùn)練更深的網(wǎng)絡(luò).ResNet收斂速度快,目前最新的基于深度學(xué)習(xí)的二維人臉識別方法[30,31,37,47]大部分都采用殘差模塊.
圖4 殘差模塊[45]
2.2.2 人臉識別損失函數(shù)
除了網(wǎng)絡(luò)結(jié)構(gòu)之外,用于衡量模型識別能力的損失函數(shù)同樣對基于深度學(xué)習(xí)的人臉識別方法有重要作用.損失函數(shù)可以指導(dǎo)神經(jīng)網(wǎng)絡(luò)將人臉圖像映射到不同的特征空間,選擇合適的損失函數(shù)有利于在特征空間將不同類別的人臉圖像區(qū)分開,提升人臉識別的精度.
1) Softmax loss
Softmax loss是一種常用于人臉圖像多分類問題的損失函數(shù).Softmax激活函數(shù)
的作用是將模型預(yù)測結(jié)果進行歸一化操作,使輸出結(jié)果為[0,1]區(qū)間內(nèi)的概率值.而交叉熵?fù)p失函數(shù)用于計算模型判別的分類結(jié)果與人臉圖像真實標(biāo)簽之間的誤差.將Softmax函數(shù)取負(fù)對數(shù)得到交叉熵?fù)p失
2) Large Margin Softmax(L-Softmax)[46]
使原約束條件變得更加嚴(yán)格從而保證不同類別人臉圖像特征之間有分類間隔.于是改進的損失函數(shù)L-Softmax形式如下
其中Wi為權(quán)向量,C表示總類別數(shù),θj,i為Wj和xi之間的夾角,m用于控制類間距離,ψ(·)是為便于梯度反向傳播而設(shè)計的單調(diào)遞減函數(shù)
3) Angular Softmax(A-Softmax)[30]
A-Softmax[30]是對L-Softmax的進一步改進,將權(quán)向量進行L2歸一化,只利用角度進行分類,并用余弦角度間隔代替歐幾里得距離間隔,具體形式如下
使用A-Softmax loss進行人臉識別的SphereFace[30]雖然有效,但是優(yōu)化目標(biāo)與測試方式不一致.針對SphereFace存在的問題,NormFace[29]中的損失函數(shù)將權(quán)向量和特征向量都進行了歸一化,彌補了A-Aoftmax的不足,使其更具解釋性.
4) Additive Margin Softmax[48]及CosFace[31]
Additive Margin Softmax(AM-Softmax)[48]與CosFace[31]將(4)中形式復(fù)雜的ψ(·)替換成形式更簡單的ψ(θ)=cosθ?m,增加余弦距離間隔.并且與NormFace[29]一致,將權(quán)向量和特征向量都進行了L2歸一化得到如下形式
其中cosθj,i表示歸一化后的權(quán)向量Wj和特征向量xi夾角的余弦值,C表示總類別數(shù).m表示余弦距離間隔,用于控制不同類別人臉圖像之間的距離.s為尺度參數(shù),用于控制人臉圖像特征所在超球面的半徑大小.
5) ArcFace[47]
ArcFace使用了與式(5)不同的間隔控制方式,將控制人臉圖像類間距離的超參數(shù)m放置于余弦函數(shù)內(nèi),得到如下?lián)p失函數(shù)
6) Ring loss[53]
大量研究工作[30,31,46]表明人臉圖像深度特征向量歸一化有利于提升基于深度學(xué)習(xí)的人臉識別方法性能.Ring loss提供了一種軟歸一化方式,從數(shù)據(jù)中學(xué)習(xí)歸一化尺度而不是直接將人臉圖像的深度特征歸一化至人工設(shè)定的尺度,具體形式如下
其中LS代表主損失函數(shù),例如Softmax loss、L-Softmax loss等.Lr代表Ring loss.xi代表第i個樣本的深度特征,r代表歸一化尺度.圖5為幾種不同損失函數(shù)對應(yīng)的深度特征可視化.
圖5 使用不同損失函數(shù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)得到的特征可視化
7) Center loss[54]
Center loss[54]的主要思想是通過增加懲罰讓同類人臉圖像特征向類中心靠攏.實驗驗證了單獨使用Center loss不如與Softmax loss結(jié)合效果好,因此在實際應(yīng)用中將Center loss與Softmax loss結(jié)合,并使用超參數(shù)λ平衡這兩種損失函數(shù)的作用,即
其中LS表示Softmax loss,Lc表示center loss,cyi是人臉圖像特征xi對應(yīng)類別yi的中心,m表示人臉圖像樣本數(shù).
8) Contrastive loss[36,49,55,56]
Contrastive loss原本由Yann LeCun[55]提出用于數(shù)據(jù)降維,其目標(biāo)是讓原本相似(不相似)的樣本在低維特征空間仍然相似(不相似),形式如下
9) Triplet loss
FaceNet[32]中使用的Triplet loss是度量學(xué)習(xí)[36,57,58]的方法之一,使用Contrastive loss訓(xùn)練人臉識別模型時每次比較兩個人臉圖像特征之間的距離,Triplet loss則需要比較三個特征向量之間的距離,包括兩個同類人臉圖像特征和一個與之不同類的人臉圖像特征,也被稱為三元組.如圖6,通過訓(xùn)練使得在特征空間中,同一個人的不同人臉圖像的特征距離較小,而不同人的人臉圖像特征距離較大.損失函數(shù)的具體形式為
圖6 Triplet loss作用示意圖[32]
從另一個角度考慮,如果使用海量數(shù)據(jù),如FaceNet使用800萬人的2億張圖片訓(xùn)練網(wǎng)絡(luò),若選Softmax loss為損失函數(shù)則輸出層的節(jié)點多達800萬,而使用Triplet loss可避免該問題.Triplet loss的原理符合認(rèn)知規(guī)律,在應(yīng)用中也取得了不錯的表現(xiàn),但其難點在于采樣,如果采樣選擇得當(dāng)則損失函數(shù)很快收斂,否則會需要很長時間用于訓(xùn)練模型.因此VGGFace[35]為了加速損失函數(shù)的收斂速度,用Softmax loss訓(xùn)練好模型再使用Triplet loss對特征提取層進行微調(diào).
10) Multi-classN-pair loss(N-pair-mc loss)[59]
Contrastive loss與Triplet loss每次更新只選一個負(fù)樣本,而N-pair-mc loss的不同之處在于每次更新時與更多不同人的人臉圖像進行交互,并且控制特征比對次數(shù),有效地減少了計算量.為了分析N-pair-mc loss的作用,將其與(N+1)-tuple loss進行了比較,(N+1)-tuple loss是將Triplet loss中用于比較的負(fù)樣本數(shù)量由1提升到N?1,N=2時與Triplet等價
對于N次采樣,使用Triplet loss需要進行3N次特征提取,(N+1)-tuple loss需要進行(N+1)N次特征提取,而N-pair-mc loss只需要進行2N次特征提取.文獻[59]實驗驗證了使用N-pair loss能達到比使用Triplet loss更快的收斂速度和人臉識別精度.
基于深度學(xué)習(xí)的人臉識別方法的基本思路:訓(xùn)練階段,在損失函數(shù)的指導(dǎo)下利用海量有標(biāo)記的人臉圖像樣本對網(wǎng)絡(luò)參數(shù)進行有監(jiān)督訓(xùn)練.測試階段,將待測試的人臉圖像輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)提取人臉深度特征,使用最近鄰分類器通過比較深度特征之間的距離進行身份識別或認(rèn)證.通常使用歐幾里得距離或余弦相似度作為特征距離的度量,假設(shè)人臉圖像xi和xj的特征分別為f(xi)和f(xj),當(dāng)特征之間的距離在預(yù)先設(shè)定的閾值τ范圍內(nèi)時,即
則認(rèn)為這兩幅圖像來自同一個人.
作為數(shù)據(jù)驅(qū)動的方法,基于深度學(xué)習(xí)的人臉識別方法需要大量訓(xùn)練數(shù)據(jù),數(shù)據(jù)集的發(fā)展也反映了人臉識別技術(shù)的發(fā)展.與早期實驗室環(huán)境下采集獲得的人臉數(shù)據(jù)不同,2007年公開的LFW數(shù)據(jù)集開啟了無約束場景下人臉識別研究的新階段,有力地推動了無約束人臉識別的發(fā)展.隨后不斷有更大、更多樣化的人臉數(shù)據(jù)集被發(fā)布,例如CASIA WebFace、MS-Celeb-1M、MegaFace為訓(xùn)練人臉識別算法提供了海量樣本數(shù)據(jù).IARPA Janus Benchmark-A(IJB-A)、IARPA Janus Benchmark-B(IJBB)、IARPA Janus Benchmark-C(IJB-C)在不斷擴充人臉圖片數(shù)據(jù)量的同時,增加了被拍攝者姿態(tài)、拍攝環(huán)境的變化.VGGFace2則側(cè)重跨年齡條件下的人臉識別場景.YouTube Faces(YTF)的任務(wù)是基于人臉視頻進行動態(tài)人臉識別.目前常用的二維人臉數(shù)據(jù)集見表1,表中列出了數(shù)據(jù)集名稱、所含身份個數(shù),人臉圖像總數(shù)以及發(fā)布時間.各數(shù)據(jù)集的詳細(xì)介紹如下.
表1 常用于二維人臉識別的公開數(shù)據(jù)集
1) LFW[10,51]
由美國馬薩諸塞大學(xué)阿姆斯特朗分校計算機視覺實驗室發(fā)布的LFW數(shù)據(jù)集包含5,749人的13,233幅人臉圖片,圖片來自于雅虎網(wǎng),屬于無約束場景.由于LFW數(shù)據(jù)集中有4,069人僅有一張人臉圖片,通常該數(shù)據(jù)庫不用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),而是作為測試集使用,常用的任務(wù)是分別判斷LFW提供的6,000對人臉圖片是否屬于同一人.
2) YTF[60]
除了靜態(tài)圖片,也可用視頻圖像進行人臉識別[68–70].YTF數(shù)據(jù)集[60]包含1,595人的3,425段視頻,每個人平均有2.15段視頻,視頻長度介于48至6070幀之間,平均長度為181.3幀,視頻均來自視頻網(wǎng)站YouTube.該數(shù)據(jù)集的任務(wù)是判斷每兩段視頻中的人是否屬于同一身份,對于一段視頻,一般通過離散采樣轉(zhuǎn)換成多幀圖片,再基于圖片進行特征提取及比對.
3)CASIA WebFace[36]
該數(shù)據(jù)集包含10,575人的494,414幅人臉圖片,圖像來自于IMDb網(wǎng)站,已被廣泛用于訓(xùn)練基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別模型[29–31].CASIA WebFace的作者指出使用CASIA WebFace數(shù)據(jù)集訓(xùn)練,在LFW進行測試是一個較好的評價人臉識別模型性能的方案.
4) IJB-A[61]
該數(shù)據(jù)集包含來自500人的5,712幅圖片和2,085段視頻數(shù)據(jù).與LFW和YTF相比,IJB-A的特點是圖片和視頻取自完全無約束環(huán)境,光照條件與被拍攝者面部姿態(tài)的變化比較大,且具有不同的分辨率,除了靜態(tài)圖片,還包含被拍攝者的動態(tài)視頻,該數(shù)據(jù)集非常符合實際應(yīng)用場景.而IJB-B[65]和IJB-C[67]數(shù)據(jù)集是該研究院隨后發(fā)布的更大的數(shù)據(jù)集,IJB-B包含1,845個對象的11,754幅圖片和7,011段視頻,內(nèi)容囊括了IJB-A數(shù)據(jù)集.而IJB-C囊括了IJB-A與IJB-B的內(nèi)容,包含138,000幅人臉圖像,11,000段視頻.
5) MegaFace[62]
由華盛頓大學(xué)舉辦的MegaFace挑戰(zhàn)賽有兩種挑戰(zhàn),其一是將訓(xùn)練好的模型在一百萬干擾項條件下進行識別和驗證測試,其二是使用MegaFace提供的67萬人的470萬張人臉圖片訓(xùn)練模型,在百萬規(guī)模的測試集上進行測試.MegaFace的目的是挑戰(zhàn)從百萬人的干擾選項中尋找同一個人的不同圖片之間的匹配.在此之前,用于測試的身份一般在一萬左右,MegeFace超大規(guī)模的測試對于評估和提升人臉識別算法很有意義.
6) VGGFace2[66]
該數(shù)據(jù)集包含9,131人的大約3百萬人臉圖片,平均每人有362.6幅圖片,該數(shù)據(jù)集中的數(shù)據(jù)來源于谷歌.數(shù)據(jù)集分為訓(xùn)練集和測試集,其中訓(xùn)練集包含8,631人的圖片,測試集包含500人的圖片.圖片涵蓋了不同的年齡、姿勢、光照、種族和職業(yè),除了身份信息之外,數(shù)據(jù)集中還提供每幅人臉圖像的人臉框、5個關(guān)鍵點、以及估計的年齡和姿態(tài).
7) MS-Celeb-1M[71]
該數(shù)據(jù)集包含1百萬名人的1千萬幅圖片.這些圖像均來自于互聯(lián)網(wǎng),其中測試集包含1,000人.經(jīng)過微軟標(biāo)注,每人大約有20幅人臉圖片,并且用于測試的圖片并未公開,以保證公平性.
8) UMDFaces[63,64]
該數(shù)據(jù)集包含8,277人的367,888幅靜態(tài)圖片和3,100人的22,075段視頻.數(shù)據(jù)集提供的人臉信息包括人臉框、姿勢估計、21個關(guān)鍵點以及性別,并且該數(shù)據(jù)集提供了容易、中等、困難三個等級的人臉驗證測試,每個等級的測試集包含100,000對人臉圖像.
9) Face Recognition Vendor Test(FRVT)
由美國國家標(biāo)準(zhǔn)技術(shù)局NIST(National Institute of Standards and Technology)設(shè)定的人臉識別測試集FRVT的測試權(quán)威性是全球工業(yè)界黃金標(biāo)準(zhǔn),使用來自美國國土安全局的百萬量級真實業(yè)務(wù)場景圖片進行評估,并且為了保障公平性,F(xiàn)RVT不公開用于測試的數(shù)據(jù).與學(xué)術(shù)上常用的LFW、YTF甚至MegaFace相比,F(xiàn)RVT更貼近真實場景,也更公平.
目前已有近30種人臉識別方法在LFW數(shù)據(jù)集達到了99%以上的識別精度,最高達到99.83%.類似于YTF的人臉視頻數(shù)據(jù)集增大了識別難度,由于視頻中的人臉是動態(tài)的,比靜態(tài)圖片多了一些姿態(tài)的變化,在靜態(tài)圖片上效果好的算法在處理視頻時未必仍然能保持很好的效果,因此YTF數(shù)據(jù)集對于評測人臉識別方法的性能很有意義.IJBA、IJB-B以及IJB-C也是人臉識別方法常用的測試數(shù)據(jù)集,與LFW、YTF的圖像相比,IJB的系列數(shù)據(jù)集中的圖像更貼近實際應(yīng)用場景.以上的測試數(shù)據(jù)集包含的對象在幾千人至一萬人,而MegaFace開啟了超大規(guī)模的人臉識別任務(wù),使用大規(guī)模的人臉識別測試有助于發(fā)現(xiàn)人臉識別方法的優(yōu)點和缺陷.CASIA WebFace人臉數(shù)據(jù)集常用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),在很多機構(gòu)不公開數(shù)據(jù)庫的情況下,CASIA WebFace人臉數(shù)據(jù)集為推動基于深度學(xué)習(xí)的人臉識別技術(shù)的發(fā)展起到了很大的作用.而VGGFace2人臉數(shù)據(jù)集的優(yōu)點在于覆蓋了很大范圍的姿態(tài)、年齡以及種族,除了進行身份識別外,還可以進行姿態(tài)、年齡識別等.MS-Celeb-1M人臉數(shù)據(jù)集中每個對象有多個屬性,并且數(shù)據(jù)量非常大,但缺點在于這個數(shù)據(jù)集有很大噪聲,即存在大量標(biāo)注錯誤的圖片,因此,在使用前需要針對標(biāo)注問題對數(shù)據(jù)集進行清洗處理.
1) 身份認(rèn)證
一般使用ROC曲線作為人臉識別方法的評價指標(biāo),ROC曲線由兩項指標(biāo)確定,分別是接受率(Ture Alarm Rate,TAR),誤識率(False Alarm Rate,FAR).將所有正樣本(i,j)、負(fù)樣本(i,j)的集合分別記為Psame和Pdiff,用D(xi,xj)表示特征之間的距離,距離根據(jù)測試數(shù)據(jù)集要求選擇歐氏距離、余弦距離等.由此可計算接受率TAR和誤識率FAR,如
易知兩個比率都在0到1之間.通過改變閾值τ可以調(diào)節(jié)接受率和誤識率的值,分別以接受率和誤識率為橫縱坐標(biāo)軸繪制ROC曲線.ROC曲線與誤識率軸之間的面積被定義為AUC(Area Under Curve),AUC始終不會超過1.ROC曲線下方的面積越大說明該方法的準(zhǔn)確度越高.有時也會直接用認(rèn)證精度作為評價人臉識別方法的指標(biāo).隨著深度學(xué)習(xí)技術(shù)的發(fā)展,大家對FAR很低的條件下TAR值的關(guān)注程度越來越高,即對安全度的要求越來越高.例如IJB-A要求在FAR=10?3時評估TAR;而Megaface關(guān)注FAR=10?6時對應(yīng)的TAR;在MS-Celeb-1M挑戰(zhàn)中,需要考量FAR=10?9時對應(yīng)的TAR.
2) 身份識別
一般使用身份識別精度作為識別方法的評價指標(biāo),計算方式簡單明了,與認(rèn)證準(zhǔn)確度類似,計算識別正確的比例即可.比較特別的是,在大規(guī)模分類問題中常使用K次命中率作為評價的標(biāo)準(zhǔn),即真實標(biāo)簽出現(xiàn)在預(yù)測結(jié)果前K名之內(nèi),則認(rèn)為預(yù)測正確.早期的論文經(jīng)常使用5次命中率進行比較,但是隨著身份識別準(zhǔn)確度不斷提升,現(xiàn)在一般使用首位命中率,即模型以最高概率將樣本分類到真實標(biāo)簽的比例.
3) 基于深度學(xué)習(xí)人臉識別方法比較
表2從訓(xùn)練樣本數(shù)量、使用網(wǎng)絡(luò)個數(shù)以及在LFW和YTF數(shù)據(jù)集的表現(xiàn)等方面比較了一些具有代表性的基于深度學(xué)習(xí)的人臉識別方法.從表中可知,早期研究人員傾向于使用多個深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人臉圖像的多尺度融合特征,如Deep Face[28]和DeepID系列[42,50,52].隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,目前人臉識別方法一般只使用單個網(wǎng)絡(luò),并且采用的網(wǎng)絡(luò)結(jié)構(gòu)以ResNet為主,例如DeepVisage[37]、SphereFace[30]、CosFace[31]等.研究熱點也從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計轉(zhuǎn)移至損失函數(shù)的設(shè)計,例如L-Softmax[46]、NormFace[29]、ArcFace[47]等方法將度量學(xué)習(xí)的思想引入Softmax loss并提升了人臉識別模型的性能.
表2 人臉識別方法在LFW、YTF數(shù)據(jù)集驗證精度的比較
本文首先介紹了人臉識別的發(fā)展脈絡(luò),然后著重從人臉預(yù)處理、特征學(xué)習(xí)、特征比對、人臉數(shù)據(jù)集、評價標(biāo)準(zhǔn)五個方面綜述了近幾年基于深度學(xué)習(xí)的二維人臉識別方法.本文從網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩部分總結(jié)了特征學(xué)習(xí)方法:對于網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)方法從早期使用多個網(wǎng)絡(luò)發(fā)展為使用單個網(wǎng)絡(luò),并且多采用VGGNet、GoogLeNet以及ResNet這三類常用網(wǎng)絡(luò)結(jié)構(gòu);對于損失函數(shù),本文總結(jié)了基于歐式距離的損失函數(shù)如Contrastive loss、Triplet loss、N-pair loss以及Softmax loss及其變種,度量學(xué)習(xí)的引入使得深度人臉識別模型更易區(qū)分同類和不同類人臉圖像的特征.對于人臉數(shù)據(jù)集,本文總結(jié)和歸納了常用于深度人臉識別的大規(guī)模人臉圖像數(shù)據(jù)集,包括常用的訓(xùn)練數(shù)據(jù)集以及測試集.本文還介紹了人臉預(yù)處理流程、特征比對方式以及兩種人臉識別任務(wù)分別對應(yīng)的評價標(biāo)準(zhǔn).總體而言,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展以及真實環(huán)境下大尺度人臉數(shù)據(jù)庫的不斷公開,人臉識別技術(shù)受到了廣泛研究,獲得了長足進步.近年來,隨著人臉識別方法精度的不斷提升,人臉識別已廣泛應(yīng)用于手機解鎖、安防、金融、教育、交通等各個方面,出現(xiàn)了“刷臉”吃飯、“刷臉”購物,甚至“刷臉”登機等現(xiàn)象.可以說,人臉識別技術(shù)從學(xué)術(shù)研究和產(chǎn)業(yè)化應(yīng)用均取得了豐碩成果,但在以下方面仍然面臨嚴(yán)峻挑戰(zhàn).
1) 低質(zhì)量圖像人臉識別
通常,人臉圖像質(zhì)量受采集環(huán)境、采集設(shè)備和采集距離等因素影響.人臉圖像的分辨率、模糊程度、姿態(tài)變化、光照變化、遮擋物等是影響人臉圖像質(zhì)量的關(guān)鍵因素.基于深度學(xué)習(xí)的人臉識別方法,特別是動態(tài)視頻監(jiān)控下人臉識別方法受人臉質(zhì)量影響較大.如何提升低質(zhì)量人臉圖像識別精度是一個值得關(guān)注的問題.大姿態(tài)人臉識別的解決方案通常利用三維人臉模型將人臉姿態(tài)矯正之后再進行識別.對于光照變化,三維人臉識別技術(shù)和近紅外人臉識別技術(shù)為解決該問題提供了一定的可能性.對于非配合場景下因佩戴墨鏡、口罩等造成采集到的人臉圖像嚴(yán)重遮擋問題,目前沒有較為有效的解決方法.
2) 跨年齡人臉識別
隨著年齡增長,人的相貌會發(fā)生顯著變化,特別是少年、成年到老年各個階段的相貌會有明顯差異,這使得跨年齡人臉識別成為一大難點.跨年齡人臉識別的實際應(yīng)用場景包括人證比對、失蹤人群追蹤等.目前主要的解決方案是使用生成模型生成目標(biāo)年齡段的人臉圖像輔助跨年齡人臉識別.
3) 跨模態(tài)及多模態(tài)識別
跨模態(tài)及多模態(tài)人臉識別能夠利用多重傳感器的優(yōu)勢,通常能夠克服單一模態(tài)人臉識別的諸多問題,因此也是一個重要的研究問題.目前,人臉主要模態(tài)包括素描、圖像、紅外圖像、三維人臉等四種.跨模態(tài)人臉識別的難點在于如何挖掘異構(gòu)信息中共同的、本質(zhì)的身份判別信息.多模態(tài)人臉識別的難點在于如何有效融合多模態(tài)之間的互補信息.
4) 人臉防偽
隨著人臉識別技術(shù)逐漸被應(yīng)用到日常生活中,人臉識別防偽技術(shù)也迫切需要被重視.常見的欺騙手段包括使用合法用戶的人臉照片、視頻或者三維人臉面具等攻擊人臉識別系統(tǒng).人臉防偽方面的研究目前集中在活體檢測、基于圖像紋理區(qū)分以及基于三維人臉重建防偽等.
5) 隱私保護
隨著人臉識別技術(shù)的普及,該技術(shù)也可能會被不法分子利用,造成隱私安全隱患.門禁系統(tǒng)采集的人臉數(shù)據(jù)的保護、第三方通過移動終端惡意收集人臉數(shù)據(jù)等問題亟需解決.對此,部分學(xué)者提出了保護生物特征隱私的方式以及反人臉識別技術(shù).
我們相信,隨著基于深度學(xué)習(xí)的人臉識別技術(shù)的不斷發(fā)展,數(shù)據(jù)樣本的不斷積累以及國家相關(guān)法律法規(guī)的不斷完善,上述問題均能夠得到較好的解決.人臉識別技術(shù)也能夠被合理利用,服務(wù)大眾生活.