蔡祥云, 王小鵬
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070)
目前人臉識別技術能識別人臉圖像的身份,但無法準確辨別輸入人臉的真?zhèn)?因此,如何自動、高效地辨別真假人臉,確保人臉識別系統安全已成為人臉識別技術中一個迫切需要解決的問題。對于人臉識別系統來說,常見的攻擊方式主要有三種[1],包括合法用戶的照片、視頻以及合成的三維模型。Tirunagari S等人[2]利用動態(tài)模式分解(dynamic mode decomposition,DMD)方法捕獲視頻中諸如眨眼、嘴唇變化和其他面部動態(tài)特征,以此進行面部欺騙檢測;Jukka K等人[3]率先將面部動態(tài)紋理應用于人臉活體檢測研究,通過局部二值模式(local binary pattern,LBP)算法學習和檢測面部的微紋理結構;Tan X等人[4]利用Lambertian模型,以潛在樣本的形式提取關于人臉或者照片的不同面部特征的信息,在此基礎上使用稀疏邏輯回歸模型分類真假人臉。相較于手工設計特征,深度學習[5]能夠提取更高層次的特征描述,很大程度上提升了人臉識別、物體分類等計算機視覺方面的性能。
本文提出基于局部感受野的極限學習機(local receptive fields based extreme learning machine,ELM-LRF)的活體檢測算法。實驗證明算法在保證了分類性能的同時,極大地縮短了訓練時間。
ELM-LRF作為深度學習模型的一種,具有頻率選擇和平移不變特性,已被廣泛應用于計算機視覺和機器學習領域[6]。圖1給出了算法的網絡結構,該模型僅有一個隱含層,如其訓練參數和訓練時長較傳統的神經網絡均大幅下降,同時具有很好的分類能力。
圖1 ELM網絡結構
圖2給出了人臉活體檢測算法的框架,算法流程如圖3所示。
圖2 活體檢測算法整體框架
圖3 人臉活體檢測流程
方法的具體步驟為:
1)人臉圖像預處理。首先對攝像頭采集到的人臉圖像進行預處理,處理后的人臉圖像大小為d×d。
3)計算池化圖矩陣。池化結構用于形成組合節(jié)點,hp,q,k表示第k個池化圖中組合節(jié)點(p,q),則
(1)
式中e為池化中心到邊的距離,池化圖與特征圖的大小相同。平方運算和求和運算分別將非線性校正和平移不變性引入到網絡中。
4)計算輸出權重的閉式解。池化層和輸出層采用全連接,利用正則化最小二乘法解析計算輸出權重β。對輸入樣例x,計算特征圖和池化圖的節(jié)點值,將所有組合節(jié)點連接,形成行向量,然后將N個輸入樣例的行向量組合,得到組合層矩陣H∈RN×K·(d-r+1)2,則輸出權重矩陣為
(2)
ELM-LRF的訓練方法有效降低了局部過擬合風險,使網絡能夠更加充分地對輸入提取特征。
為驗證ELM-LEF模型在人臉活體檢測中的有效性,將該模型與其他先進的人臉活體檢測算法進行了HTER(half-total error rate)和檢測正確率兩方面的比較,HTER計算方法為HTER=(FAR+FRR)/2。其中,FAR為錯誤接收率,是指將假體人臉錯判為真實人臉的概率;FRR為錯誤拒絕率,表示將真實人臉錯判為假體人臉的概率。另外,實驗選用CASIA-FASD[7]和NUAA[4]公共人臉欺騙庫進行人臉活體檢測實驗。ELM-LRF模型中局部感受野r=5×5,池化大小e=3,平衡參數C=0.01。實驗平臺為MATLAB 2017b,2.30 GHz的Intel?CoreTMi5 CPU,16 GB RAM。
2.1.1 CASIA-FASD數據庫
CASIA-FASD數據庫包含真人臉和假人臉樣本類型,該數據庫共包含50個樣本目標,每個目標對應12個人臉視頻序列,包括3個真人臉視頻和9個假人臉視頻,三個真人臉視頻由一個低質量的網絡攝像頭,一個較高質量的USB攝像頭以及型號為Sony NEX—5攝像頭采集。數據庫中所有的視頻都在非限制環(huán)境下采集。為了充分考慮不同的攻擊方式,數據庫的假人臉樣本種類較其他數據庫更為豐富。首先,每個目標人臉的高清圖片被顯示在不同的媒介上,包括普通的打印紙,光滑的相片打印紙以及一個高分辨率的顯示屏。隨后,紙打印的人臉眼睛區(qū)域被去除,以模仿眼攻擊方式。該數據庫被分成訓練集和測試集,如表1所示。
表1 CASIA-FASD數據分類
2.1.2 NUAA數據庫
NUAA數據庫是首個公認的人臉欺騙數據庫,數據庫是由一個通用的網絡攝像頭在不同的照明條件和場所下分3次收集得到,共包括15個目標,數據庫圖片數量如表2所示。該數據庫包含了光照變化、性別差異、有無遮擋物等豐富的外觀變化。為了模擬假人臉攻擊,攝像頭收集的假體人臉包含了彎曲、旋轉空間位置移動等照片欺詐的多種運動形式。
表2 NUAA數據庫圖片數量 幅
訓練數據集采用NORB數據庫[8],該數據集包含24 300幅訓練用立體圖像,24 300幅測試用立體圖像,數據集中的每個樣本有兩幅圖,并且尺寸都經過了歸一化,背景也是一致的。在訓練ELM-LEF網絡之前,首先需要把數據庫中的圖像數據轉化成ELM-LEF網絡可以讀入的雙通道的mat文件,mat文件中的數據為double類型,input_ch為2。
為了訓練ELM-LRF網絡,將訓練集分成4個batch,訓練過程如下:1)實驗用其中的三個batch進行訓練,利用剩余的一個batch進行驗證,訓練過程無需進行迭代操作;2)利用全部的batch作為訓練集,第四個batch作為驗證集,對訓練后的模型進行驗證。
至此,訓練過程結束,經過驗證可得到該模型在訓練集上的準確率接近100 %。圖4分別給出了該數據集中前100個圖像經過卷積和池化后得到的特征圖。
圖4 數據集訓練得到的可視化特征
1)CASIA-FASD數據庫的實驗結果
在CASIA-FASD數據庫中,將所提算法與MSLBP[9]、DMD-LBP[10]、DoG[11]、CNN[12]和DBN[13]這幾種算法進行了比較。表3給出了不同算法在數據庫上HTER及檢測正確率的實驗結果。可以看出,通過ELM-LRF網絡對真假人臉進行分類時,其檢測正確率最高,性能最好。MSLBP及DoG算法由于使用單一特征進行人臉活體檢測,檢測性能較低。CNN和DBN網絡均采用多層卷積操作,能夠得到更高層次的抽象特征,檢測性能較高。
2)NUAA數據庫的實驗結果
由表3中在NUAA數據庫上不同算法的實驗結果可以看出,在基于手工設計特征的活體檢測方法中,MSLBP、DMD-LBP和DoG算法對真假人臉的分類性能較差?;谏疃饶P偷娜四樆铙w檢測算法的分類性能較高,其中ELM-LRF模型要比其他微調的深度學習算法的分類精度更高,與CNN和DBN模型相比,ELM-LRF將半錯誤率(HTER)從12.26 %降到了6.64 %。
表3 CASIA-FASD和NUAA數據庫中不同算法的性能 %
本文提出了一種基于LRF-ELM模型的人臉活體檢測算法,并在CASIA-FASD及NUAA數據庫上與其他先進的人臉活體檢測算法進行了實驗對比。實驗結果表明:相較于手工設計特征和傳統的神經網絡活體檢測方法,LRF-ELM算法檢測準確率更高,證明了該模型在分類能力方面具有高效性,提高了人臉識別系統的性能。同時,單隱含層的ELM模型對復雜輸入不能提取到更多有效的特征表達,因此,進一步完善ELM模型,使其能夠處理更復雜的輸入,學習得到更高層次的抽象特征將是本課題下一步的研究內容。