任 拓,閆 瑋,況立群,謝劍斌,諶鐘毓,高 峰,郭 銳,束 偉,謝昌頤
(1.中北大學(xué)大數(shù)據(jù)學(xué)院,山西 太原 030051;2.國防科技大學(xué)電子科學(xué)學(xué)院,湖南 長沙 410073;3.遼寧科技大學(xué)電子與信息工程學(xué)院,遼寧 鞍山 114051;4.墨爾本大學(xué)醫(yī)學(xué)、牙科和健康科學(xué)學(xué)院,澳大利亞 墨爾本 3010)
人臉活體檢測是人臉識(shí)別的關(guān)鍵一環(huán),通過人臉活體檢測可以有效篩選出偽造人臉,從而保障人臉識(shí)別系統(tǒng)的安全。然而,現(xiàn)階段人臉活體檢測方法普遍存在泛化能力不足的問題。一些學(xué)者提出諸如DeSpoof(face De-Spoofing)[1]、STDN(Spoof Trace Disentanglement Network)[2]及GOAS(Generic Object Anti-Spoofing)[3]等解糾纏表示學(xué)習(xí)方法來解決泛化問題,通過解析偽造人臉圖像上的噪聲模式、欺騙模式等來實(shí)現(xiàn)解離偽造痕跡,進(jìn)行活體檢測。但是,這些方法都是在有限的臉部區(qū)域?qū)ふ覀卧旌圹E,容易忽略一些局部細(xì)節(jié)問題,說明檢測器對(duì)偽造痕跡的元素及特征缺乏了解。本文針對(duì)面部局部細(xì)節(jié)的優(yōu)化,對(duì)人臉活體檢測解糾纏學(xué)習(xí)方法展開深入的研究。
人臉活體檢測技術(shù)[4]是指一種判斷人臉是否偽造(如人皮面具、數(shù)字照片、打印照片和視頻等)的技術(shù)?,F(xiàn)有的人臉活體檢測技術(shù)主要分為3類:第1類使用傳統(tǒng)人臉活體檢測方法實(shí)現(xiàn)活體檢測;第2類使用深度學(xué)習(xí)模型實(shí)現(xiàn)活體檢測;第3類使用解糾纏表示學(xué)習(xí)實(shí)現(xiàn)活體檢測。
第1類技術(shù)通過提取LBP(Local Binary Pattern)[5,6]、HOG(Histogram of Oriented Gradient)[7,8]和SIFT(Scale Invariant Feature Transform)[7]等靜態(tài)特征和面部活動(dòng)[9]、眨眼[10]、光線變化[11]和遠(yuǎn)程生理信號(hào)特征RPPG(Remote PhotoPlethysmoGraphy)等運(yùn)動(dòng)特征實(shí)現(xiàn)活體檢測。但是,靜態(tài)特征包含信息相對(duì)較少,并且操作繁瑣;基于運(yùn)動(dòng)特征對(duì)回放視頻類的攻擊檢測不友好。
第2類技術(shù)使用深度學(xué)習(xí)模型,主要包括Auxiliary[12]、STASN(Spatio-Temporal Anti-Spoof Network)[14]、CDCN(Central Difference Convolutional Network)[15]等,其中,Auxiliary[12]將循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)模型估計(jì)的人臉深度和利用視頻序列估計(jì)的RPPG信號(hào)融合在一起,來區(qū)分真實(shí)人臉和偽造人臉。STASN[14]使用LSTM(Long Short-Term Memory)對(duì)時(shí)間信息編碼進(jìn)行分類,使用SASM(Spatial Anti-Spoofing Module)模塊從多個(gè)區(qū)域中提取特征,尋找邊界、反射偽影等細(xì)微證據(jù),從而有效地識(shí)別偽人臉。CDCN[15]指中心差分卷積網(wǎng)絡(luò),通過聚合強(qiáng)度信息和梯度信息來獲取人臉內(nèi)在的細(xì)節(jié)模式。除此之外,也有一些研究人員開始研究少鏡頭/零鏡頭的人臉活體檢測方法,零鏡頭指對(duì)未知欺騙攻擊的檢測,包括DTN(Deep Tree Network)[16]和AIM-FAS(Adaptive Inner-update Meta Face Anti-Spoofing)[17]。DTN[16]即深層樹網(wǎng)絡(luò),它將欺騙樣本劃分為語義子群。當(dāng)受到已知或未知的攻擊檢測時(shí),DTN[16]將其路由到最相似的欺騙集群,并做出二進(jìn)制決策。AIM-FAS[17]指自適應(yīng)內(nèi)部更新數(shù)據(jù)人臉反欺騙方法,訓(xùn)練一個(gè)后設(shè)學(xué)習(xí)者,通過學(xué)習(xí)預(yù)先確定的真實(shí)人臉、欺騙人臉和一些新攻擊的例子,著重于發(fā)現(xiàn)看不見的欺騙類型的任務(wù)。
第3類技術(shù)使用解糾纏表示學(xué)習(xí),在面部反欺騙中,欺騙圖像可以被看作是對(duì)真實(shí)圖像加入欺騙媒體和環(huán)境的“特殊”噪聲的再現(xiàn)。解糾纏表示學(xué)習(xí)通過將偽造人臉圖像上的偽造痕跡解離出來實(shí)現(xiàn)人臉活體檢測,具體實(shí)現(xiàn)方法主要包括DeSpoof[1]、DSDG(Dual Spoof Disentanglement Generation)[18]、STDN[2]和GOAS[3]等。其中,DeSpoof[1]即面部去偽裝,反向分解偽造人臉圖像為一個(gè)欺騙噪聲和一個(gè)真實(shí)人臉,然后利用欺騙噪聲進(jìn)行分類。DSDG[18]利用可變自動(dòng)編碼器VAE(Variational AutoEncoder)在潛在空間中學(xué)習(xí)面部身份表示和欺騙模式表示的聯(lián)合分布。STDN[2]將輸入人臉的欺騙痕跡作為一個(gè)多尺度模式的層次化組合。通過分離偽造痕跡并進(jìn)行幾何校正,擬合出原始偽造人臉的副本。GOAS[3]指通用對(duì)象反欺騙,使用一種基于GAN(Generative Adversarial Network)的結(jié)構(gòu)來擬合和識(shí)別可見和不可見介質(zhì)/傳感器組合的噪聲模式。特別是在CycleGAN[19]的激勵(lì)下,Zhu等人[19,20]采用類似GAN的架構(gòu)將潛在特征分解為活性特征和內(nèi)容特征,解決了人臉防欺騙問題,結(jié)合了低層紋理和高層深度的特征,使活性空間規(guī)則化,便于分離表征學(xué)習(xí)。
本文主要使用基于解糾纏表示學(xué)習(xí)的方法實(shí)現(xiàn)活體檢測,針對(duì)解糾纏學(xué)習(xí)網(wǎng)絡(luò)做出改進(jìn)。本文的主要工作有:
(1)修改偽造痕跡解糾纏網(wǎng)絡(luò)整體網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)多對(duì)抗性鑒別器網(wǎng)絡(luò),將原有的一個(gè)生成器和一個(gè)鑒別器的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)為一個(gè)生成器、一個(gè)主鑒別器和一個(gè)輔助性鑒別器的網(wǎng)絡(luò)架構(gòu),重新設(shè)計(jì)了2個(gè)鑒別器。
(2)在設(shè)計(jì)的鑒別器中使用人臉的關(guān)鍵點(diǎn)產(chǎn)生五官(眼睛、鼻子、嘴巴)和皮膚上的遮罩,2個(gè)鑒別器各自獨(dú)立處理五官和皮膚的細(xì)節(jié)問題,使生成器在學(xué)習(xí)的過程中除了注意全局特征外,更注重五官和皮膚上的細(xì)節(jié),強(qiáng)化偽造人臉圖像五官和皮膚上的特征,對(duì)本文的人臉活體檢測起到了關(guān)鍵作用。
本文提出一個(gè)基于多對(duì)抗性鑒別網(wǎng)絡(luò)的人臉活體檢測模型,改進(jìn)了現(xiàn)有的偽造痕跡解糾纏網(wǎng)絡(luò)架構(gòu),同時(shí)引入面部遮罩生成模塊并設(shè)計(jì)2個(gè)新的鑒別器。
本文對(duì)現(xiàn)有的偽造痕跡解糾纏網(wǎng)絡(luò)框架[2,21]進(jìn)行改進(jìn),提出一種多對(duì)抗性鑒別網(wǎng)絡(luò)模型,設(shè)計(jì)了由一個(gè)生成器和多個(gè)鑒別器組成的網(wǎng)絡(luò)架構(gòu),解析偽造人臉圖像上的欺騙痕跡,在鑒別器部分設(shè)計(jì)主鑒別器和輔助鑒別器,并引入人臉遮罩模塊,生成人臉皮膚和五官遮罩蒙版,整合人臉局部信息,使生成器擬合的圖像更接近人臉照片的分布,同時(shí)解離出加強(qiáng)版的偽造痕跡。改進(jìn)的網(wǎng)絡(luò)架構(gòu)以CycleGAN[19]為基本框架,主要包括生成器、線性重構(gòu)器、皮膚遮罩生成模塊和鑒別器(包含主鑒別器和輔助鑒別器)4個(gè)部分,如圖1所示。圖中G代表生成器,生成器采用U-Net結(jié)構(gòu),先下采樣得到人臉圖像的特征,再通過上采樣將這些特征解析為痕跡元素(s,b,C,T),同時(shí)通過下采樣將這些特征解析為一個(gè)8×8的二值化特征張量,生成器的具體實(shí)現(xiàn)在2.2節(jié)中介紹。R代表線性重構(gòu)模塊,通過將人臉圖像與偽造痕跡元素線性加和得到重構(gòu)的真實(shí)人臉圖像和擬合的偽造人臉圖像,線性重構(gòu)模塊的實(shí)現(xiàn)在2.3節(jié)中介紹。M代表面部遮罩生成模塊,M的具體實(shí)現(xiàn)將在2.4節(jié)中介紹。D1代表主鑒別器,用于監(jiān)督使用皮膚全局掩碼的生成人臉圖像;D2代表輔助性鑒別器,用于監(jiān)督使用五官局部掩碼的生成人臉圖像,這2個(gè)鑒別器網(wǎng)絡(luò)在2.5節(jié)中介紹。
Figure 1 Architecture of the proposed model
為了提取偽造人臉圖像上的偽造痕跡,本文采取對(duì)抗學(xué)習(xí)的方式生成偽造痕跡,該生成器的網(wǎng)絡(luò)架構(gòu)如圖2所示。該網(wǎng)絡(luò)分別在3個(gè)尺度下提取特征,兼顧圖像的顏色、上下文和紋理等信息,具體實(shí)現(xiàn)如下:首先使用下采樣對(duì)圖像進(jìn)行編碼,將圖像由128*128變?yōu)?4*64,32*32,16*16的特征圖;其次再通過上采樣對(duì)特征圖進(jìn)行解碼,分別得到32*32,64*64,128*128的特征圖,該3種分辨率下的特征圖分別代表圖像偽造信息,比如包含顏色范圍的圖像特征s和均衡偏差b,圖像上下文內(nèi)容信息C和圖像紋理T。同時(shí)將下采樣得到的3個(gè)不同尺度的特征圖歸一化為16*16并拼接起來;再次經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)將其提取為一幅代表偽造信息的二值化特征圖,若該圖像為偽造人臉,生成的二值化特征圖分布應(yīng)該盡可能接近1,反之,該分布應(yīng)該盡可能接近0。
Figure 2 Generator architecture
在生成器訓(xùn)練過程中,對(duì)生成器生成的二值化特征圖、合成的真實(shí)人臉圖像和偽造人臉圖像分別進(jìn)行約束LG1、LG2、LG3,其中,LG1約束二值化特征圖的生成,LG2和LG3均是對(duì)合成的人臉圖像的約束。LG1的定義如式(1)所示:
LG1=MSE(fIlive,0)+MSE(fIspoof,1)
(1)
其中,f表示特征提取器,Ilive和Ispoof分別表示真實(shí)人臉圖像和偽造人臉圖像。
線性重構(gòu)模塊主要負(fù)責(zé)2部分內(nèi)容,其一是將生成器生成的偽造痕跡元素(s,b,C,T)與真實(shí)圖像擬合偽造人臉圖像;其二是用偽造痕跡元素與偽造人臉圖像重構(gòu)真實(shí)人臉圖像,同時(shí)生成偽造痕跡圖像。具體重構(gòu)方式如式(2)~式(4)所示:
(2)
(3)
(4)
圖3所示為線性重構(gòu)模塊的實(shí)現(xiàn)流程,其中,圖3a表示由偽造人臉圖像擬合真實(shí)人臉圖像的過程,(s,b,C,T)表示偽造人臉圖像經(jīng)過生成器生成的偽造痕跡元素;圖3b表示偽造痕跡圖像的生成過程;圖3c表示使用真實(shí)人臉圖像與偽造痕跡擬合偽造人臉圖像的過程。圖3中加號(hào)符號(hào)表示將真實(shí)人臉圖像和偽造痕跡圖像線性相加,減號(hào)符號(hào)表示偽造人臉圖像和偽造痕跡元素線性相減得到擬合的真實(shí)人臉圖像,箭頭與符號(hào)相交表示該輸入為被減數(shù),反之為減數(shù)。
Figure 3 Linear reconstruction process
為了使生成器生成的元素和人臉圖像計(jì)算得到的人臉不失真,本文使用鑒別器對(duì)擬合圖像進(jìn)行約束,定義如式(5)所示:
LG2=(D1(Igen)-1)2
(5)
其中,Igen表示使用線性重構(gòu)模塊擬合的所有圖像,包括擬合真實(shí)人臉圖像和擬合偽造人臉圖像。D1表示主鑒別器,D1(·)表示將生成器合成的圖像放入主鑒別器里進(jìn)行評(píng)價(jià)得到的數(shù)值,該數(shù)值在0~1,趨近于0表示鑒別器認(rèn)為該圖像為生成器合成的,趨近于1表示鑒別器認(rèn)為該圖像為數(shù)據(jù)集原始數(shù)據(jù)。
(6)
為了擬合逼真的人臉,生成器必須保證生成的人臉與真實(shí)人臉圖像的局部一致性,受Li等人[22]的啟發(fā),本文使用Face-Alignment提取人臉關(guān)鍵點(diǎn),將人臉分割為皮膚、眼睛、鼻子、眉毛、嘴巴、發(fā)際線和耳朵等多個(gè)部位,從中提取面部皮膚和五官的區(qū)域,并解析為2個(gè)預(yù)先定義的區(qū)域,即:人臉面部皮膚和五官(眼部、鼻部、嘴部)。人臉遮罩區(qū)域生成的流程如圖4所示。
Figure 4 Generating face mask
首先,采用文獻(xiàn)[23]中預(yù)先訓(xùn)練的面部解析器fp獲取人臉皮膚遮罩Mskin和五官特征的遮罩Mkey,如式(7)所示:
Mskin,Mkey=fp(I)
(7)
其中,I為人臉圖像,遮罩Mskin和Mkey的像素取值在0~1。
其次,將第1步生成的遮罩作為人臉圖像的預(yù)定模板,將模板應(yīng)用到人臉圖像上得到皮膚Iskin和五官特征Ikey,如式(8)~式(11)所示:
Iskin=I×Mskin
(8)
Ikey=I×Mkey
(9)
(10)
(11)
由于遮罩生成模塊的引入,對(duì)生成器引入新的約束,即全局約束和區(qū)域約束。
全局約束指面部皮膚生成部分的約束條件,在式(5)的基礎(chǔ)上修改為:
LG2_1=(D1(mask1(Igen))-1)2
(12)
其中,D1表示鑒別器,mask1表示針對(duì)人臉生成皮膚的遮罩。
區(qū)域約束指面部五官生成部分的約束條件,在式(5)的基礎(chǔ)上修改為:
LG2_2=(D2(mask2(Igen))-1)2
(13)
其中,mask2表示針對(duì)人臉生成面部五官的遮罩,比如人的眼部、鼻部和嘴部等。
最后在生成器生成的數(shù)據(jù)對(duì)與輸入數(shù)據(jù)對(duì)之間引入L1損失,使生成的數(shù)據(jù)對(duì)按照預(yù)定的方向生成,同理,將式(6)修改為:
LG3=L1_Loss(mask1(I),mask1(Igen))+
L1_Loss(mask2(I),mask2(Igen))
(14)
綜上,整個(gè)生成器網(wǎng)絡(luò)損失定義如式(15)所示:
LG=LG1+LG2_1+LG2_2+LG3
(15)
多對(duì)抗性鑒別網(wǎng)絡(luò)包括主鑒別器和輔助鑒別器,主鑒別器D1用于約束生成器,進(jìn)行人臉圖像中面部皮膚的鑒別;輔助鑒別器D2作為區(qū)域鑒別器,用于改進(jìn)人臉五官細(xì)節(jié)的生成,進(jìn)行人臉圖像中面部五官的鑒別。鑒別器網(wǎng)絡(luò)的具體架構(gòu)如圖5所示。將人臉遮罩圖像經(jīng)過下采樣映射為一個(gè)二值化張量,該特征張量每個(gè)位置的值代表了該像素點(diǎn)是否為生成器生成,而不是使用單一的數(shù)值代表整幅圖像是否是生成器生成的人臉圖像。
Figure 5 Architecture of mul-adversarial discrimination network
鑒別器網(wǎng)絡(luò)在整個(gè)架構(gòu)中的作用如下:將真實(shí)人臉、偽造人臉、重構(gòu)真實(shí)人臉和擬合偽造人臉的遮罩圖像輸入到主鑒別器和輔助鑒別器中進(jìn)行評(píng)分,得到人臉圖像的初始得分。在設(shè)計(jì)的鑒別器中使用人臉的關(guān)鍵點(diǎn)產(chǎn)生皮膚和五官上的遮罩,2個(gè)鑒別器獨(dú)立處理皮膚和五官的細(xì)節(jié)問題,使生成器在學(xué)習(xí)過程中除了注意全局的特征外,更注意皮膚和五官上的細(xì)節(jié)。這種設(shè)計(jì)進(jìn)一步強(qiáng)化了偽造人臉圖像五官和皮膚上的特征,便于人臉的活體檢測,并且根據(jù)人臉圖像的得分對(duì)初始對(duì)抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練后可以得到更加準(zhǔn)確的偽造痕跡元素和特征圖,進(jìn)而得到更加準(zhǔn)確的人臉圖像的最終得分,提高了人臉活體檢測的準(zhǔn)確率。
主鑒別器D1將生成的人臉圖像皮膚遮罩和真實(shí)的圖像的皮膚遮罩送入鑒別器,將鑒別器的結(jié)果反饋給生成器,主鑒別器的目的是使該損失盡可能地大,其損失函數(shù)定義如式(16)所示:
LD1=(1-D1(mask1(I)))2+
(16)
輔助鑒別器D2是對(duì)生成器的又一約束,針對(duì)人臉面部五官的遮罩,比如眼部、鼻部和嘴部,鑒別器對(duì)生成的人臉圖像與真實(shí)人臉圖進(jìn)行評(píng)價(jià),其損失函數(shù)定義如式(17)所示:
LD2=(1-D2(mask2(I)))2+
(17)
整個(gè)鑒別器的整體損失函數(shù)定義為上述2個(gè)損失函數(shù)之和,如式(18)所示:
LD=LD1+LD2
(18)
3.1.1 數(shù)據(jù)集
本文在OULU-NPU[24]、Idiap Replay-Attack[25]和NUAA(Nanjing University of Aeronautics and Astronautics)[26]3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。OULU-NPU數(shù)據(jù)集包括紙質(zhì)打印照片攻擊和視頻回放攻擊,其數(shù)據(jù)在3種光照環(huán)境、2種攻擊表示工具、6種數(shù)據(jù)采集設(shè)備(即6個(gè)不同的智能手機(jī)前置攝像頭,如三星GalaxyS6edge、HTCDesireEYE、魅族X5、華碩Zenfone Selfie、索尼XPERIAC5UltraDual和OPPON3)下完成采集。Idiap Replay-Attack數(shù)據(jù)集包括照片和視頻2種欺騙攻擊,具體可細(xì)分為紙質(zhì)打印照片、移動(dòng)手機(jī)屏幕顯示照片/視頻、高清屏幕顯示照片/視頻。上述攻擊欺騙根據(jù)檢測設(shè)備是否固定分為2種,分別是手持設(shè)備和固定設(shè)備,根據(jù)光照環(huán)境又分為均勻光照背景和逆光照,綜上,該數(shù)據(jù)集的攻擊欺騙為5×2×2=20種。NUAA數(shù)據(jù)集包含真實(shí)人臉圖像和手持打印人臉照片的翻拍圖像。測試時(shí),本文遵循所有的測試方案,并與近幾年最先進(jìn)的模型進(jìn)行比較。與之前的大多數(shù)工作類似,本文只使用上述數(shù)據(jù)集中的人臉區(qū)域進(jìn)行訓(xùn)練和測試。
3.1.2 評(píng)價(jià)指標(biāo)
本文采用2種標(biāo)準(zhǔn)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)與比較:APCER、BPCER、ACER和AUC[27]。其中,APCER、BPCER、ACER描述給定一個(gè)預(yù)定閾值的性能,AUC描述分類器效果的好壞。
APCER(Attack Presentation Classification Error Rate)表示偽造人臉圖像被當(dāng)成真實(shí)人臉圖像的概率。計(jì)算公式如式(19)所示:
APCER=FP/(TN+FP)
(19)
其中,FP(False Positive),即假的正樣本,表示偽造人臉圖像被當(dāng)作真實(shí)人臉圖像的數(shù)量;TN(True Negative)表示即真實(shí)的負(fù)樣本數(shù)量。
BPCER(Bona fide Presentation Classification Error Rate)表示真實(shí)人臉圖像被當(dāng)作偽造人臉圖像的概率。計(jì)算公式如式(20)所示:
BPCER=FN/(FN+TP)
(20)
其中,FN(False Negative)即假的負(fù)樣本的數(shù)量,表示真實(shí)人臉圖像被當(dāng)作偽造人臉圖像的數(shù)量。
ACER(Average Classification Error Rate)指的是平均分類錯(cuò)誤率,即APCER和BPCER的平均。
AUC(Area Under Curve)指的是ROC曲線下的面積,橫坐標(biāo)為FPR,縱坐標(biāo)為TPR,TPR即APCER。FPR計(jì)算公式如式(21)所示:
FPR=1-BPCER
(21)
3.1.3 實(shí)驗(yàn)參數(shù)設(shè)置
本文實(shí)驗(yàn)在NVIDIA GeForce RTX 3060,16 GB內(nèi)存的實(shí)驗(yàn)環(huán)境下進(jìn)行,在PyTorch框架中實(shí)現(xiàn),初始學(xué)習(xí)速率為1e-5??偣灿?xùn)練60次迭代,批處理大小為8,并以按照3個(gè)輪次不更新?lián)p失的規(guī)律等比例降低學(xué)習(xí)率。
3.2.1 OULU-NPU實(shí)驗(yàn)結(jié)果
OULU-NPU[24]是一種常用的人臉抗欺騙基準(zhǔn),該數(shù)據(jù)集包含4個(gè)評(píng)價(jià)實(shí)驗(yàn),實(shí)驗(yàn)1是測試光照環(huán)境對(duì)模型的影響,實(shí)驗(yàn)2是測試攻擊表示工具對(duì)模型的影響,實(shí)驗(yàn)3是測試檢測設(shè)備對(duì)模型的影響,實(shí)驗(yàn)4是測試光照環(huán)境、攻擊設(shè)備和數(shù)據(jù)采集設(shè)備對(duì)模型的影響。圖6~圖8展示了不同測試實(shí)驗(yàn)的可視化效果圖,圖中real代表真實(shí)人臉圖像,gen-real代表線性重構(gòu)模塊從偽造人臉圖像上重構(gòu)的真實(shí)人臉圖像,fake代表偽造人臉圖像,trace代表從偽造人臉圖像上解離出來的偽造痕跡。其中,圖6a和圖6b分別展示了在光照1和光照2下的檢測效果圖,從上至下,依次為在打印設(shè)備1上的紙質(zhì)打印照片、打印設(shè)備2上的紙質(zhì)打印照片、普通顯示器上的回放視頻以及高清設(shè)備上的回放視頻。圖7為本文模型在實(shí)驗(yàn)2中的檢測效果圖,其中,圖7a分別表示在打印設(shè)備1和顯示設(shè)備1上的測試結(jié)果,圖7b分別表示在打印設(shè)備2和顯示設(shè)備2上的測試結(jié)果。圖8展示了本文模型在不同檢測設(shè)備、光照環(huán)境、欺騙設(shè)備下的測試效果圖,從上至下分別表示檢測設(shè)備1~檢測設(shè)備6的測試結(jié)果。圖8a中的圖像構(gòu)成是,每2行為一組,共分3組,分別對(duì)應(yīng)光照1~光照3,每組的第1行圖像為高質(zhì)量紙質(zhì)照片,第2行圖像為低質(zhì)量紙質(zhì)照片。同理,圖8b中也有針對(duì)高清視頻欺騙和普通視頻欺騙之分。
Figure 6 OULU-NPU protocol 1 test renderings
Figure 7 OULU-NPU protocol 2 test renderings
Figure 8 Test renderings of OULU-NPU protocol 3 and 4
OULU-NPU數(shù)據(jù)集的評(píng)測結(jié)果如表1所示,表1中粗體表示錯(cuò)誤率最低,即最優(yōu)結(jié)果,-表示未找到數(shù)據(jù)。相對(duì)于STDN,本文模型在實(shí)驗(yàn)1和實(shí)驗(yàn)2上有明顯改進(jìn),其中,實(shí)驗(yàn)1中本文模型的BPCER減少了77%,ACER減少了27%,實(shí)驗(yàn)2中的指標(biāo)也相應(yīng)明顯下降,綜合來看,本文模型抗光照干擾能力和抗欺騙設(shè)備噪聲能力比其他對(duì)比模型更好。實(shí)驗(yàn)3結(jié)果表明,本文模型相對(duì)其他對(duì)比模型要差一些,具體細(xì)分檢測結(jié)果如圖9a所示,設(shè)備6的錯(cuò)誤率明顯高于其他設(shè)備,這是因?yàn)樵O(shè)備6的噪聲相對(duì)明顯,導(dǎo)致真實(shí)人臉圖像被視為偽造人臉圖像,錯(cuò)誤率上升。由實(shí)驗(yàn)4結(jié)果可知,本文模型相對(duì)STDN有了明顯改進(jìn),具體細(xì)分檢測結(jié)果如圖9b所示。由圖9b可知,設(shè)備2、3、5的檢測準(zhǔn)確率相對(duì)較高,同理,設(shè)備6由于噪聲過大,導(dǎo)致模型錯(cuò)誤率上升。綜上,本文模型在實(shí)驗(yàn)1中的結(jié)果相對(duì)文獻(xiàn)[30]的要差一些,但是就整體錯(cuò)誤率而言,本文模型在所有對(duì)比模型中達(dá)到了較優(yōu)的水平。
Table 1 Test results on OULU-NPU
Figure 9 Protocol 3 and Protocol 4 subdivided test results
3.2.2 Idiap Replay-Attack實(shí)驗(yàn)結(jié)果
本文在Idiap Replay-Attack數(shù)據(jù)集上的18種實(shí)驗(yàn)中抽取3個(gè)實(shí)驗(yàn),即打印照片攻擊、數(shù)字照片攻擊和視頻攻擊。具體實(shí)驗(yàn)測試結(jié)果如表2所示,表中加粗?jǐn)?shù)據(jù)為最優(yōu)結(jié)果,-為未找到數(shù)據(jù)。Idiap Replay-Attack數(shù)據(jù)集測試結(jié)果的效果圖如圖10所示。圖10中由上至下分別表示紙質(zhì)打印照片、數(shù)字照片、視頻攻擊,圖10a和圖10b分別表示錄入數(shù)據(jù)的設(shè)備是手持的和固定角度的。
Table 2 Internal test results on Idiap Replay-Attack
Figure 10 Test renderings of Replay Attack
表2為Idiap Replay-Attack數(shù)據(jù)集上3種模型針對(duì)3種欺騙類型(紙質(zhì)打印照片、數(shù)字照片、視頻)的AUC值,AUC值指示分類器效果的好壞,AUC值越高,說明分類器效果越好。由表2中數(shù)據(jù)可知,本文模型在眾多模型中達(dá)到了較好的效果,與最佳模型的效果持平。
3.2.3 跨域活體檢測實(shí)驗(yàn)結(jié)果
本節(jié)進(jìn)行跨數(shù)據(jù)集測試,訓(xùn)練數(shù)據(jù)為OULU-NPU數(shù)據(jù)集,測試數(shù)據(jù)分別為NUAA數(shù)據(jù)集和Idiap Replay-Attack數(shù)據(jù)集,測試的錯(cuò)誤率如表3所示,表中加粗?jǐn)?shù)據(jù)為最優(yōu)結(jié)果,-為未找到數(shù)據(jù)。NUAA數(shù)據(jù)集上測試結(jié)果的可視化如圖11所示。
Table 3 Detection results across datasets
Figure 11 Test renderings on NUAA dataset
由表3中數(shù)據(jù)可知,在OULU-NPU數(shù)據(jù)集上訓(xùn)練的模型,在NUAA數(shù)據(jù)集上也可以達(dá)到較好的檢測效果,相對(duì)而言,在Idiap Replay-Attack數(shù)據(jù)集上的測試效果較差一些,其中包括Liu等人[31]提出的特征生成和假設(shè)驗(yàn)證方法FGHV(Feature Generation and Hypothesis Verification)來實(shí)現(xiàn)人臉活體檢測,首先使用特征生成模塊生成特征,再使用假設(shè)驗(yàn)證模塊判斷該特征屬于哪個(gè)分布;Wang等人[32]提出混合風(fēng)格組裝網(wǎng)絡(luò)SSAN (Shuffled Style Assembly Network)以提高人臉活體檢測的泛化能力,首先將不同的內(nèi)容和風(fēng)格進(jìn)行組裝生成風(fēng)格化的特征空間,隨后使用對(duì)比學(xué)習(xí),強(qiáng)化與活體人臉相關(guān)的風(fēng)格信息,弱化特定領(lǐng)域的風(fēng)格信息,最終使用正確的表示集合來區(qū)分活體人臉與偽造人臉。由表3數(shù)據(jù)可知,本文模型比特征生成的模型相對(duì)較好,但是相對(duì)混合風(fēng)格組裝網(wǎng)絡(luò)要差一些。這說明了該模型在已知欺騙類型的數(shù)據(jù)上的魯棒性相對(duì)較好。
3.2.4 消融實(shí)驗(yàn)
本節(jié)在OULU-NPU數(shù)據(jù)集實(shí)驗(yàn)1上進(jìn)行了消融實(shí)驗(yàn),具體結(jié)果如表4所示,表中加粗?jǐn)?shù)據(jù)為最優(yōu)結(jié)果,-為未找到數(shù)據(jù)。本文以STDN為基準(zhǔn),分別對(duì)文中提出的皮膚遮罩模塊STDN+mask1、五官遮罩模塊STDN+mask2和自適應(yīng)權(quán)重?fù)p失函數(shù)STDN+mask1+mask2+aw_loss進(jìn)行消融實(shí)驗(yàn)。由表4數(shù)據(jù)可知,本文添加的遮罩模塊對(duì)人臉活體檢測的性能提升有一定幫助。
Table 4 Ablatoin experiment results
模型對(duì)比分析主要從計(jì)算量(Flops)和模型參數(shù)量(Params)2個(gè)方面進(jìn)行。本節(jié)對(duì)比了部分現(xiàn)有模型和本文模型的計(jì)算量和參數(shù)量。由表5結(jié)果可知,本文提出的模型(PyTorch平臺(tái))在CDCN模型(PyTorch平臺(tái))的基礎(chǔ)上減少了計(jì)算量和參數(shù)量。但是,本文模型的參數(shù)量與計(jì)算量相對(duì)于STDN沒有變化,這是由于本文模型并未改進(jìn)STDN網(wǎng)絡(luò)的生成器網(wǎng)絡(luò)架構(gòu),在測試時(shí)僅使用生成器生成偽造痕跡進(jìn)行人臉活體檢測。
Table 5 Comparative analysis of models
本文提出基于多對(duì)抗性鑒別網(wǎng)絡(luò)的人臉活體檢測模型,根據(jù)面部皮膚及五官等人臉重要關(guān)鍵點(diǎn)生成人臉遮罩,構(gòu)造鑒別器,以使解離效果更好,強(qiáng)化了對(duì)人臉皮膚和五官處的細(xì)節(jié)檢測,并分離出偽造痕跡。該解糾纏表示網(wǎng)絡(luò)不僅改善了已知和未知反欺騙的性能,而且為模型的決策提供了直觀的依據(jù)。本文模型在OULU-NPU數(shù)據(jù)集上錯(cuò)誤率顯著降低,同時(shí)在Idiap Replay-Attack數(shù)據(jù)集上也達(dá)到了較好的檢測效果。最后在3個(gè)數(shù)據(jù)集上進(jìn)行跨域檢測,驗(yàn)證了模型的可遷移性。但是,由對(duì)抗生成網(wǎng)絡(luò)生成的圖像往往存在一些不確定性,未來可在對(duì)抗網(wǎng)絡(luò)中加入策略反饋機(jī)制,通過定位人臉圖像上對(duì)檢測結(jié)果有重大影響的敏感像素點(diǎn)來提取偽造痕跡,從而進(jìn)一步提升活體檢測能力。