楊巨成,代翔子,韓書杰,毛 磊,王 嫄
(天津科技大學(xué)人工智能學(xué)院,天津 300457)
人臉識別技術(shù)是個人身份認(rèn)證的重要工具,并且該技術(shù)擁有非接觸式、成本低、方便快捷等特點(diǎn),成為各種安全應(yīng)用領(lǐng)域的最佳選擇(例如社交媒體和智能手機(jī)訪問控制、關(guān)鍵地點(diǎn)的邊境管制和視頻監(jiān)控).由于復(fù)制人臉非常容易實(shí)現(xiàn),因此出現(xiàn)了很多針對人臉認(rèn)證攻擊的手段,主要包括人臉照片攻擊[1]、人臉視頻回放攻擊[1]以及三維人臉模型攻擊[2].
人臉識別系統(tǒng)中活體檢測技術(shù)判斷人臉圖像是否為活體.只有人臉圖像被判定為活體的情況下,人臉身份認(rèn)證才有效,否則就會被判定為非法攻擊.本文首先列舉了3種常見的偽造攻擊類型,再分析近十年的相關(guān)工作,并將活體的檢測方法分為兩大類:(1)基于描述子的分析方法,指根據(jù)描述子所描述的特征差異性區(qū)分活體與非活體人臉圖像,比如紋理、運(yùn)動、頻率、顏色、形狀等;(2)基于分類器的分析方法,指利用大量活體與非活體人臉數(shù)據(jù)作為訓(xùn)練樣本,執(zhí)行分類算法得到的活體判別模型.繼而歸納目前常見的幾種公開數(shù)據(jù)集,分析其屬性,包括人臉圖像的采集設(shè)備、采集環(huán)境、采集方式等.為了評價人臉活體檢測方法的性能,本文詳細(xì)介紹了人臉活體檢測中常見的幾種評價指標(biāo),分析幾種主流方法的優(yōu)缺點(diǎn),包括利用傳統(tǒng)的局部特征以及運(yùn)動信息、深度學(xué)習(xí)方法等,指出未來人臉活體檢測方法的發(fā)展趨勢.
圖 1[3]是具有活體檢測功能的人臉身份認(rèn)證系統(tǒng)框架.人臉識別系統(tǒng)通常會考慮以下 3種偽造攻擊類型:
(1) 人臉照片攻擊:包括打印照片、彎曲打印照片模擬人臉運(yùn)動以及切割眼部的打印照片[1].
(2) 人臉視頻回放攻擊:通過視頻播放進(jìn)行的攻擊顯示幾乎與真實(shí)人臉活體具有相似的行為,具有許多有效用戶運(yùn)動的固有特征.這種類型的攻擊具有照片中未呈現(xiàn)的生理跡象,例如眨眼、人臉表情以及頭部和嘴部的運(yùn)動,并且可以使用平板電腦或大型智能手機(jī)輕松執(zhí)行[1].
(3) 三維人臉模型攻擊:在獲得合法用戶的人臉照片或人臉視頻信息后,非法用戶可以通過真人三維建模的方式得到合法用戶的三維面具.但是,面具的制造需要 3D掃描和打印特殊設(shè)備,成本比其他類型攻擊更加昂貴,其制作過程也更加困難[2].
圖1 具有活體檢測功能的人臉身份認(rèn)證系統(tǒng)框架Fig. 1 Framework of face recognition-based authentication system for liveness detection
本文將針對人臉偽造攻擊的活體檢測方法歸納為兩大類:一是基于描述子的分析方法,比如紋理、運(yùn)動、頻率、顏色、形狀或反射率;二是基于分類器的分析方法,比如判別式、回歸、距離度量以及啟發(fā)式方法.
2.1.1 基于紋理描述子的方法
打印照片中存在著活體中不存在的某種特有的紋理信息[4-5].紋理特征的差異性在活體和非活體中比較明顯,有超過 80%的研究方法都是單獨(dú)使用紋理特征或者是利用紋理特征結(jié)合其他描述子.不同的紋理描述子可以被用于檢測人臉攻擊,其中具有簡單易算性的局部二值描述子(local binary pattens,LBP)算法[6],常被用作特征描述的首要選擇,很多研究者都是探究 LBP或者基于 LBP改進(jìn)的方法[7-8].LBP 是一種具有灰度、旋轉(zhuǎn)不變性的紋理編碼技術(shù),通過將每個像素與其鄰域進(jìn)行比較,標(biāo)記每個像素,將結(jié)果連接成二進(jìn)制數(shù).鄰域的數(shù)量、鄰域半徑和編碼策略都是該方法的參數(shù).最后將最終計算的結(jié)果組織在直方圖中以描述紋理.Tan等[9]在 Lambertian反射模型的基礎(chǔ)上利用對數(shù)總差異(logarithmic total variation,LTV)方法對圖像完成預(yù)處理,然后利用高斯差分(difference of Gaussian,DoG)濾波器對圖像進(jìn)行濾波,提取圖像DoG特征,最后用改進(jìn)的 Logistic回歸完成人臉真?zhèn)畏诸悾?/p>
2.1.2 基于運(yùn)動描述子的方法
運(yùn)動描述子從兩種不同的運(yùn)動方法角度進(jìn)行活體檢測.一種方法是檢測和描述人臉變化,例如眨眼、人臉表情和頭部旋轉(zhuǎn).Pan等[10]使用條件隨機(jī)場(conditional random fields,CRF)確定閉眼,從而檢測到眨眼;除了局部動作檢測外,檢測和描述全局人臉運(yùn)動.而也有研究人員[11-12]利用光線流動(optical of lines,OFL)用于測量水平和垂直方向的人臉圖像的時空變化.Bharadwaj等[13]利用定向光流直方圖(histogram of oriented optical flow,HOOF)和光學(xué)幅度直方圖應(yīng)用流(histogram of magnitudes of optical flows,HMOF)創(chuàng)建人臉運(yùn)動方向和幅度的分級表示[14]過稀疏和低秩分解(robust alignment by sparse and low-rank,RASL)進(jìn)行穩(wěn)健對齊,嘗試在多個幀中對齊人臉并測量非剛性運(yùn)動[15].另一種方法是評估用戶交互環(huán)境中的一致性.鑒于此,Komulainen等[16]提出了計算人臉和背景區(qū)域之間的運(yùn)動相關(guān)性方法,Pinto等[17]提出基于高斯混合模型(Gaussian mixture models,GMM)的傳統(tǒng)背景差分法.
通過使用動態(tài)模式分解(dynamic mode decomposition,DMD)[18]探索幀序列內(nèi)個體的人臉紋理,并通過在時間空間上移位的快照中的特征臉提取特征.DMD與 LBP技術(shù)結(jié)合使用作為紋理描述子,其用于捕獲視頻序列中活體人臉存在的證據(jù),例如眨眼和嘴唇的運(yùn)動.圖 2[10]中(a)、(b)、(c)圖是活體一個完整的眨眼動作,(d)、(e)、(f)是活體分別對應(yīng)檢測眨眼動作的二值圖像.
圖2 活體眨眼動作圖像對應(yīng)眼部的二值圖像Fig. 2 Binary images of living eyes with blinking movements
2.1.3 基于頻率描述子的方法
頻率描述子的方法是基于活體和非活體人臉圖像在頻域中的差異性提出的.Li等[19]提出一種結(jié)合高頻描述子和動態(tài)傅里葉頻率描述子的方法分析人臉.該方法基于兩種特性:(1)照片是平面結(jié)構(gòu),所以產(chǎn)生高頻分量應(yīng)該小于活體人臉的成像;(2)因為臉部缺少表情變化,所以使得頻率分量(即頻率振幅的大小)的標(biāo)準(zhǔn)差較小.根據(jù)這兩種特性在人臉活體與非活體之間的差異性,促使很多研究者利用2D 離散傅里葉變換或者 2D 快速傅里葉變換將圖像從時域轉(zhuǎn)換到頻域[20-24],然后利用 LBP或者 HOG 等描述子進(jìn)行一個特征表達(dá).圖 3[20]中(a)圖是活體及其傅里葉變換的頻譜圖,(b)圖是非活體及其傅里葉變換的頻譜圖.
圖3 活體和非活體圖像在頻域空間上的頻譜圖Fig. 3 Spectrum of living and non-living images in the frequency domain
2.1.4 基于顏色描述子的方法
顏色描述子的方法是基于活體和非活體的顏色差異提出的.在這種背景下,色頻(CF)直方圖用于描述圖像中顏色的分布[25],而且這些直方圖被用作對圖像的不同塊計算HOG特征,即用3個bin編碼具有最高像素數(shù)的像素每個顏色通道中的梯度幅度.圖像失真分析(IDA)[26-27]、圖像質(zhì)量評估(IQA)[28]和圖像質(zhì)量測量(IQM)[29]方法通過全局圖像矩描述活體人臉圖像.IDA用于在 HSV和 RGB色彩空間提取特征,平滑光照強(qiáng)度.IQA用于在人臉活體檢測中最大化關(guān)鍵性能指標(biāo).IQM 旨在表明通過圖像的質(zhì)量評估用高斯濾波產(chǎn)生的最小值,以判斷是否為非活體人臉圖像.YCbCr和HSV顏色空間在文獻(xiàn)[30-31]中用作顏色描述子.在文獻(xiàn)[32]中,RGB顏色空間的每個通道用于特征提?。畧D 4[27]中(a)圖是活體,(c)圖是非活體,(b)、(d)圖分別是對應(yīng)(a)、(c)圖的HSV顏色特征直方圖分布.
2.1.5 基于形狀描述子的方法
形狀描述子的方法對于區(qū)分打印照片是非常有效的一種手段,因為活體人臉幾何特征是無法在打印照片平面上重現(xiàn)的.基于約束性的局部模型(CLM)的活體輪廓被用于檢測視頻流中的人臉關(guān)鍵點(diǎn),然后這些人臉關(guān)鍵點(diǎn)被定義成一個稀疏的 3D結(jié)構(gòu)用于描述人臉的平面性[33].
圖4 活體和非活體圖像在HSV顏色空間中的分布Fig. 4 Distribution of living and non-living images in HSV color space
2.1.6 基于反射率描述子的方法
考慮到活體和非活體的人臉圖像在相同光照條件下表現(xiàn)不同,因而可以使用反射信息區(qū)分.為了實(shí)現(xiàn)這一點(diǎn),變分 Retinex方法將輸入圖像分解為反射率和光照成分[34],以便分析整個圖像.圖 5[27]中(a)圖是活體圖像和檢測到的反射特征圖像,(b)圖是非活體圖像和檢測到的反射特征圖像;(c)圖是(a)圖中反射特征圖像特征值分布圖,(d)圖是(b)圖中反射特征圖像特征值分布圖.
圖5 活體和非活體圖像在反射特征中的分布Fig. 5 Distribution of living and non-living images in reflex features
2.2.1 基于判別器的方法
判別技術(shù)是通過最小化類內(nèi)變化或最大化類間的變化區(qū)分不同的類別.這種類型的分類器在過半數(shù)的分析工作中被使用研究.
支持向量機(jī)(SVM)是人臉圖像活體檢測中最常見的分類技術(shù),性能優(yōu)越.為了實(shí)現(xiàn)區(qū)分目標(biāo),SVM需要找到最佳超平面,將活體和非活體人臉圖像的特征分開.當(dāng)這些類不是線性可分時,需要使用不同的內(nèi)核函數(shù)用于獲得非線性分類器.雖然線性SVM已經(jīng)廣泛用于不同的領(lǐng)域[35-37],并且徑向基函數(shù)核[38-39]和直方圖交叉核[40]也被應(yīng)用于提高分類精度.但是,這些研究并沒有描述如何在實(shí)驗中使用某種類型的SVM核函數(shù).
除了 SVM 之外,還有一種常用的方法為線性判別分析(LDA)[41-42].LDA 能夠明確地建模類間的差異,以解決分類任務(wù),它的優(yōu)勢在于可有效降維,降低分類預(yù)測時間復(fù)雜度.多層感知器(MLP)[16]用于評估人臉圖像是否過度移動(手工平面打印照片)或沒有移動(連接到媒體的平面打印照片攻擊)有變化在 N視頻序列期間;神經(jīng)網(wǎng)絡(luò)(NN)[11]擅長學(xué)習(xí)隱式模式,它能夠通過適當(dāng)?shù)挠?xùn)練去識別非活體的運(yùn)動信息.NN的訓(xùn)練是使用標(biāo)記數(shù)據(jù)集通過反向傳播方式進(jìn)行,該自動編碼器被視為預(yù)訓(xùn)練過程.
2.2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的方法
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[43-51]方法能夠自動提取圖像的有效特征,完全避免了傳統(tǒng)手工設(shè)計特征算法提取特征模式的單一性,并且能夠保證特征的尺度不變性,旋轉(zhuǎn)不變性.近幾年它被廣泛應(yīng)用在人臉圖像有效識別特征提取中,用以進(jìn)行人臉圖像的活體判斷.這類方法在公開測試集上取得了顯著的效果[52].但是,這類模型在訓(xùn)練中容易過擬合,導(dǎo)致在實(shí)際運(yùn)用中,泛化能力差,在某些不穩(wěn)定的真實(shí)場景效果不盡人意.同時,這類方法對數(shù)據(jù)的覆蓋度、數(shù)據(jù)量的大小要求較高.圖 6是一個典型的基于卷積神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)活體檢測的模型流程圖.
圖6 基于3D卷積結(jié)構(gòu)的活體檢測網(wǎng)絡(luò)Fig. 6 Living detection network based on 3D convolution structure
2.2.3 基于距離度量的方法
距離度量的使用可以改善人臉活體檢測系統(tǒng)的性能,它的目標(biāo)是測量樣本之間的差異性.但是,這些方法通常需要一個窮舉搜索完成分類任務(wù),這可能導(dǎo)致大型參考數(shù)據(jù)集中的高成本.卡方距離[53]和余弦距離[54-55]是常見的距離度量方式,它們用于計算一個待檢測人臉和參考數(shù)據(jù)集合的累積距離,以此決定待測人臉屬于活體人臉還是非活體人臉.
2.2.4 基于啟發(fā)式的方法
啟發(fā)式算法(heuristic algorithm)是相對于最優(yōu)化算法提出的.一個問題的最優(yōu)算法求得該問題每個實(shí)例的最優(yōu)解.啟發(fā)式算法可以這樣定義:一個基于直觀或經(jīng)驗構(gòu)造的算法,在可接受的花費(fèi)(指計算時間和空間)下給出待解決組合優(yōu)化問題每一個實(shí)例的一個可行解,該可行解與最優(yōu)解的偏離程度一般不能被預(yù)計.
目前比較通用的啟發(fā)式算法一般有模擬退火算法(simulated annealing,SA)、遺傳算法(genetic algorithm,GA)、蟻群算法(ant colony optimization,ACO)等.
在人臉活體檢測中典型利用啟發(fā)式算法例子的有眨眼次數(shù)[10]、動作測量閾值[12]、平均像素比率閾值[24]和運(yùn)動測量的加權(quán)[40],進(jìn)行啟發(fā)式判別的方法都是啟發(fā)式學(xué)習(xí)的例子.這種學(xué)習(xí)方式的顯著缺點(diǎn)是易導(dǎo)致過擬合,因為啟發(fā)式算法的局部最優(yōu)值的陷入無法避免.啟發(fā)式,本質(zhì)上是一種貪心策略,這也在客觀上決定了不符合貪心規(guī)則的更好(或者最優(yōu))解都會錯過.
NUAA數(shù)據(jù)集[9]是第一個用于評估人臉活體檢測的數(shù)據(jù)集.在不同環(huán)境和不同光照條件下,利用廉價攝像頭,分別采集了 3個不同時間段的數(shù)據(jù),每個時間段間隔為兩周.其中偽造人臉的方式為平面或者彎曲打印照片.
Yale數(shù)據(jù)集[56]是在不同光照條件下采集的,該數(shù)據(jù)庫通常用在評估紋理方法的人臉活體檢測上.偽造人臉的方式為打印照片.
Print-Attack數(shù)據(jù)集[57]的采集是通過向采集傳感器顯示真實(shí)用戶的平面打印照兩種方式:手持(即冒名頂替者用手拿照片)或固定支架.偽造人臉的方式為打印照片.
Replay-Attack數(shù)據(jù)集[39]采集環(huán)境是在不同光照條件下進(jìn)行的,其中偽造人臉方式包括打印照片和視頻回放.視頻回放所用的設(shè)備又包括低分辨率的移動設(shè)備和1024×768 分辨率平板電腦.
Casia Face Anti-Spoofing數(shù)據(jù)集[58]包含7種不同的攻擊場景和 3種不同的攻擊類型.偽造人臉的方式為平面照片、眼部被切割的打印照片以及視頻回放.
Kose and Dugelay數(shù)據(jù)集[59]的創(chuàng)建是通過3D結(jié)構(gòu)光設(shè)備得到立體結(jié)構(gòu)模型,然后利用 3D打印機(jī)打印出3D面具得到的.偽造人臉方式為面具.
3D Mask Attack數(shù)據(jù)集[60]是通過RGB-D深度相機(jī)采集得到的,其中每個人都包括一張正臉和兩張側(cè)臉照片.偽造人臉方式為面具.
MSU-MFSD數(shù)據(jù)集[27]的組成包括兩種數(shù)據(jù)類型,一種是通過視頻幀截取出來的打印照片,另外一種是視頻回放.打印照片用的是彩色大尺度的紙張,同時視頻回放的采集也是盡量保證采集環(huán)境的相似性.偽造人臉方式為打印照片和視頻回放.
UVAD 數(shù)據(jù)集[23,61]中偽造人臉是通過高清視頻回放設(shè)備以每秒 30幀的回放速度采集的,其中每段視頻是在不同的光照以及不同的場景(室內(nèi)或者室外)下拍攝得到的.偽造人臉方式為視頻回放.
Oulu-NPU數(shù)據(jù)集[62]采集設(shè)備包含 6種手機(jī)機(jī)型,采集環(huán)境包括 3種光照環(huán)境和背景.偽造人臉方式為打印照片和視頻回放.
Siw數(shù)據(jù)集[63]的組成包括兩種數(shù)據(jù)類型,一種是通過 1080p高清設(shè)備采集的,另外一種是打印照片.采集環(huán)境包括光照、姿態(tài)、距離、表情這 4個變量.偽造人臉的方式為打印照片和視頻回放.
CASIA-SURF數(shù)據(jù)集[64]包含RGB圖、深度圖以及紅外熱力圖像3種數(shù)據(jù),主要用于多模態(tài)融合方法上.偽造人臉方式包括打印照片和眼部被切割的打印照片.
數(shù)據(jù)集詳情見表1.
表1 公開活體數(shù)據(jù)集Tab. 1 Public living data set
常用的人臉活體檢測性能評價指標(biāo)主要評價識別錯誤,其類型主要有兩類:一是非活體被作為活體接受數(shù)量 NFA(number of false acceptance),另外一種是活體被認(rèn)為是非活體拒絕數(shù)量 NFR(number of false rejection).這兩種錯誤類型在人臉活體檢測系統(tǒng)中出現(xiàn)的可能性分別被稱為錯誤接受率(false acceptance rate,F(xiàn)AR)和錯誤拒絕率(false rejection rate,F(xiàn)RR),這兩種比率存在著反比例的關(guān)系.受試者工作特征曲線(receiver operating characteristic curve,ROC)是通過同時計算 FAR和 FRR的值獲得的,如圖 7所示.被 ROC包圍的區(qū)域面積為曲線下面積(area under the curve,AUC),同時在ROC曲線上當(dāng)FAR等于FRR的時候,這個點(diǎn)被稱作等錯誤率(equal error rate,ERR),F(xiàn)AR和 FRR的均值被稱為半錯誤率(half total error rate,HTER).精度(the overall accuracy,ACC)同時兼顧著活體和非活體各自的FAR和FRR.
圖7 受試者工作特征曲線圖Fig. 7 Receiver operating characteristic curve
由于很多數(shù)據(jù)集中活體和非活體人臉圖像數(shù)據(jù)量并不是均衡的,所以用 ACC分析可能會導(dǎo)致偏差.其評估指標(biāo)計算公式詳見表2.
表2 評估參數(shù)Tab. 2 Evaluation parameters
為驗證模型在人臉活體檢測任務(wù)上的魯棒性和泛化能力,研究人員普遍利用了 3大公開數(shù)據(jù)庫CASIA、Replay以及MFSD做了相關(guān)基準(zhǔn)測試:
LBP方法[65]通過在CASIA上訓(xùn)練,在Replay測試上得到的半錯誤率為 47%.這種方法的優(yōu)點(diǎn):一定程度上消除了光照因素帶給人臉圖像的噪聲影響,并且該算子具有旋轉(zhuǎn)不變性,特征維度低,計算速度快.但是,由于訓(xùn)練樣本和測試樣本特征分布不一致,導(dǎo)致編碼閾值很難設(shè)定.
LBP-TOP方法[65]是在 LBP的基礎(chǔ)上增加一個維度信息——時間維度,這樣有助于獲取視頻幀之間的運(yùn)動信息,進(jìn)而提高人臉活體的準(zhǔn)確率.但是,由于重新引入了新的輸入維度信息,導(dǎo)致輸出變成了一個高維度特征,從而計算量增加.
Motion方法[65]主要通過獲取人臉活體和非活體之間的微動作之間的差異作為評判標(biāo)準(zhǔn).因為主要是針對剛性運(yùn)動,所以導(dǎo)致它對視頻回放攻擊或者照片抖動攻擊這種非剛性攻擊效果不好.
CNN方法[66]提出了一種讓計算機(jī)自動學(xué)習(xí)出模式特征的方法,并將特征學(xué)習(xí)融入到了建立模型的過程中,從而減少了人為設(shè)計特征造成的不完備性.其中Auxiliary方法[63]使用空間和時間輔助信息的監(jiān)督而不是二元監(jiān)督,以便從人臉視頻中更健壯地檢測人臉偽造攻擊.這些輔助信息是基于我們關(guān)于現(xiàn)場和欺詐面部之間關(guān)鍵差異的領(lǐng)域知識獲得的,其中包括兩個視角:空間和時間.其中空間就是圖像的深度,而時間就是使用遠(yuǎn)距光體積描記術(shù)(remote photoplethysmography,rPPG)信號作為輔助監(jiān)督.而 De-Spoof方法[47]啟發(fā)于圖像去噪和去抖動,無論是噪聲圖還是模糊圖,都可看成是在原圖上加噪聲運(yùn)算或者模糊運(yùn)算,而去噪和去抖動就是估計噪聲分布和模糊核,從而重構(gòu)回原圖,利用訓(xùn)練出的噪聲模型去判別人臉活體圖像.但是,當(dāng)實(shí)際場景中活體的人臉圖質(zhì)量并不是很高,而非活體人臉攻擊圖像的質(zhì)量相對高時,這種方法很難去判別人臉活體與非活體.GFACNN[67]方法則是利用了風(fēng)格遷移[68]減少不同域之間帶來的影響.這些 CNN方法的不足是:都需要大量的數(shù)據(jù)作為支撐,并且訓(xùn)練判別模型也需要算力較大的硬件設(shè)備作為支持.
Color LBP[30]、Color Texture[30]以及 Color Surf[30]都是基于顏色域空間上利用不同的描述子去提取人臉活體與非活體圖像特征的方法.其缺點(diǎn)是針對面具攻擊效果較差,對單個顏色特征的依賴性大,泛化能力也差.
不同方法在不同數(shù)據(jù)庫上的訓(xùn)練測試半錯誤率的對比結(jié)果見表3.
表3 不同方法在不同數(shù)據(jù)庫上的訓(xùn)練測試半錯誤率的對比 %Tab. 3 Comparison of half total error rate indicators in different training tests on different databases with different methods
由表3可以分析出:前半部分方法大多數(shù)都是基于人工設(shè)計特征提取算子 LBP進(jìn)行分析人臉圖像,這種方法提取特征形式比較單一,無法有效提取更多的人臉活體判別信息.而后半部分方法大多數(shù)是基于 CNN提取人臉活體特征,提取形式相比較于傳統(tǒng)人工設(shè)計特征提取算子更豐富;但是仍然不能很好地解決模型的泛化能力,故目前出現(xiàn)了很多利用人臉圖像的其他信息輔助監(jiān)督模型進(jìn)行訓(xùn)練,以此達(dá)到更好的模型泛化性.
盡管人臉識別活體檢測在公開數(shù)據(jù)集上取得了良好的效果,但是我們應(yīng)該考慮與工業(yè)界實(shí)際情況相結(jié)合,盡量提高方法的泛化能力,以應(yīng)對工業(yè)界各種復(fù)雜的場景.
首先,基于描述子的分析方法是從人臉識別技術(shù)引入到人臉活體檢測中,在單個特定數(shù)據(jù)集上通常能得到較好的結(jié)果,但其性能會隨著不同數(shù)據(jù)集的遷移逐漸衰減.因此,設(shè)計專門用于人臉圖像活體檢測的解決方案是很有必要的,比如早期基于運(yùn)動和反射率的方法.這點(diǎn)在過去幾年里似乎未被充分研究,但是深度學(xué)習(xí)可以學(xué)習(xí)到更抽象的語義特征,例如短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[69]和傅里葉卷積神經(jīng)網(wǎng)絡(luò)(Fourier CNN)[70].
第二,可以探索其他學(xué)習(xí)框架以提供不同關(guān)于如何解決這個問題的觀點(diǎn).到目前為止,尚未有基于遷移學(xué)習(xí)或在線學(xué)習(xí)框架的活體識別方法,不過這類框架對于不同的數(shù)據(jù)集和流數(shù)據(jù)有更好的適應(yīng)性.
第三,活體檢測目前還沒有統(tǒng)一公認(rèn)的大型數(shù)據(jù)集.多場景、多人物、多光照等更具有泛化性的大型數(shù)據(jù)集有助于算法的快速進(jìn)步,對于討論該領(lǐng)域的如過擬合、多類別攻擊等復(fù)雜問題能起到重要的推動作用.因此,亟待構(gòu)建大型人臉識別活體檢測數(shù)據(jù)集.
最后,可進(jìn)一步考慮多模態(tài)活體檢測方法.因為必須同時偽造多個生物識別特征,所以多模態(tài)生物識別系統(tǒng)不太可能被非活體偽造.出于這個原因,很多方法是通過融合兩個或更多人類特征解決非活體的問題.考慮到這一點(diǎn),人臉識別技術(shù)可以被視為一種特殊情況,因為多模態(tài)可以利用多種人臉特征(例如紋理、形狀和溫度)避免偽造攻擊.如今,不同的有效設(shè)備能夠捕獲圖像的顏色、深度和紅外線,同時在價格上比較有優(yōu)勢.這些設(shè)備可用于減弱當(dāng)前的人臉偽造攻擊影響,并在將來有可能實(shí)際地運(yùn)用到工業(yè)界中.