魏 鑫, 馬宏斌, 王英麗
(黑龍江大學(xué) 電子工程學(xué)院, 哈爾濱150080)
人臉識(shí)別系統(tǒng)具備判別性高、非接觸和響應(yīng)時(shí)間短等特點(diǎn),可為用戶提供良好的體驗(yàn),成為眾多場(chǎng)景下身份認(rèn)證的選擇。然而,未受保護(hù)的人臉識(shí)別系統(tǒng)很難應(yīng)對(duì)表征攻擊。針對(duì)人臉識(shí)別系統(tǒng)的安全性問(wèn)題,研究人員開(kāi)始對(duì)人臉?lè)纻畏椒ㄟM(jìn)行研究。目前,人臉?lè)纻畏椒ù篌w上可以分為兩種類型:傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的人臉?lè)纻畏椒ú捎檬止ぬ崛√卣?從圖片中提取具有針對(duì)性的特征進(jìn)行檢測(cè)。雖然針對(duì)性強(qiáng),但當(dāng)環(huán)境中出現(xiàn)變化因素時(shí)穩(wěn)定性就會(huì)變差,在面對(duì)重放攻擊時(shí)性能會(huì)急劇下降。2014年,Yang等首次將深度學(xué)習(xí)引入了人臉?lè)纻晤I(lǐng)域,使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)代替手工提取特征[1]。Liu等在用CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)獲取深度的同時(shí),引入遠(yuǎn)程光電容積脈搏波信號(hào)作為輔助手段,讓網(wǎng)絡(luò)學(xué)習(xí)更具針對(duì)性[2]。這些基于CNN的研究方法,在應(yīng)對(duì)如照片打印和視頻重放等2D攻擊時(shí)表現(xiàn)尚佳,但面對(duì)3D面具攻擊時(shí)穩(wěn)定性會(huì)急劇下降,說(shuō)明了此類方法泛化性能不足。應(yīng)對(duì)防偽方法泛化性差的缺點(diǎn),研究人員提出了基于多通道的人臉?lè)纻畏椒╗3]。這類方法的主要思想是通過(guò)融合多個(gè)通道的補(bǔ)充信息增加泛化性,但從系統(tǒng)設(shè)計(jì)的角度出發(fā),此類方法對(duì)硬件設(shè)備要求嚴(yán)格。表征攻擊手段在不斷地更新,會(huì)影響系統(tǒng)的構(gòu)建和實(shí)際部署。
以上研究發(fā)現(xiàn),近年來(lái)人臉?lè)纻畏椒ǖ难芯克悸反篌w可以概括為:添加輔助信號(hào)、融合多通道信息、將人臉?lè)纻螁?wèn)題與其他問(wèn)題相結(jié)合等,以此提升模型的有效性及泛化性。這些方法確實(shí)在一定程度上提升了模型分類的精確度以及面對(duì)不同表征攻擊的泛化性,但隨之而來(lái)的高硬件成本、高計(jì)算復(fù)雜度和低解釋性等問(wèn)題仍待解決。
2017年,谷歌提出Transformer模型,成功應(yīng)用于機(jī)器翻譯任務(wù)[4]。2020年,Dosovitskiy等將Transformer模型應(yīng)用于圖像分類任務(wù)[5],提出Vision Transformer模型,同樣取得了成功。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),注意力機(jī)制的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面: (1) 每層的計(jì)算復(fù)雜度更低; (2) 可以并行地進(jìn)行計(jì)算; (3) 可以有效地解決長(zhǎng)輸入序列的依賴問(wèn)題; (4) 可解釋性強(qiáng)。這些優(yōu)勢(shì)為將Vision Transformer模型應(yīng)用于人臉?lè)纻稳蝿?wù)提供了可能,因?yàn)槿四樂(lè)纻稳蝿?wù)本質(zhì)上是二分類任務(wù)。
結(jié)合人臉?lè)纻稳蝿?wù)存在的問(wèn)題以及注意力機(jī)制的優(yōu)勢(shì),本研究進(jìn)行基于注意力機(jī)制的人臉?lè)纻畏椒ㄑ芯?。通過(guò)對(duì)Vision Transformer模型進(jìn)行改進(jìn),構(gòu)建了FAS-Transformer模型,將輸入的人臉圖像經(jīng)過(guò)線性映射嵌入位置信息和判別信息,借助多頭注意力獲取特征向量之間的關(guān)系。針對(duì)人臉?lè)纻文P陀?xùn)練普遍存在的數(shù)據(jù)量不足問(wèn)題,采用遷移學(xué)習(xí)的思想,為實(shí)驗(yàn)引入預(yù)訓(xùn)練模型。同時(shí),為增強(qiáng)模型的可解釋性,對(duì)注意力進(jìn)行可視化處理。
Transformer模型的提出是為了解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在處理序列模型時(shí)存在的長(zhǎng)期依賴和計(jì)算效率低的問(wèn)題,在結(jié)構(gòu)上首次引入全注意力機(jī)制代替?zhèn)鹘y(tǒng)的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)。Transformer模型結(jié)構(gòu)如圖1所示,主要由編碼器和解碼器兩部分構(gòu)成,其中編碼器用于將輸入序列映射為符號(hào)表征,而解碼器則會(huì)依據(jù)編碼器的輸出生成最終的預(yù)測(cè)。
圖1 Transformer模型結(jié)構(gòu)
由于注意力機(jī)制中每個(gè)元素都要和其他元素進(jìn)行交互,故它是一種位置無(wú)關(guān)的方法,需要嵌入位置編碼。編碼后的序列會(huì)通過(guò)多頭注意力機(jī)制進(jìn)行打分,比較輸入序列元素之間的成對(duì)相似性關(guān)系,獲取注意權(quán)重,進(jìn)而對(duì)輸出結(jié)果進(jìn)行預(yù)測(cè)。多頭注意力使得模型可以并行地進(jìn)行計(jì)算,再將單個(gè)輸出聯(lián)合到一起作為輸出。注意力的計(jì)算過(guò)程描述公式為:
(1)
MultiHead(q,k,v)=Concat(head1,…,headn)W
(2)
Transformer模型一經(jīng)提出就引起了研究人員的廣泛關(guān)注,這種不同于過(guò)去CNN和RNN的簡(jiǎn)單網(wǎng)絡(luò)結(jié)構(gòu),使用全注意力機(jī)制避免了循環(huán)和卷積。得益于自身可并行計(jì)算的優(yōu)勢(shì),所需的網(wǎng)絡(luò)訓(xùn)練時(shí)間也更短。起初Transformer模型被用于處理Seq2seq問(wèn)題,廣泛用于機(jī)器翻譯任務(wù)。由于模型的結(jié)構(gòu)設(shè)計(jì)僅適用于一維序列輸入,因此,一直無(wú)法在計(jì)算機(jī)視覺(jué)領(lǐng)域得到重用。
為使Transformer模型適應(yīng)計(jì)算機(jī)視覺(jué)任務(wù),Dosovitskiy等提出了ViT模型。將輸入圖片格式由x∈H×W×C進(jìn)行線性映射,轉(zhuǎn)換為平鋪的成塊序列xp∈N×(p2·C),滿足Transformer結(jié)構(gòu)的一維輸入,其中,(H,W)為原始圖片分辨率,C為通道數(shù),(P,P)為分塊圖片的大小,N=HW/P2為圖片分塊總數(shù)。ViT模型結(jié)構(gòu)如圖2所示。
圖2 Vision Transformer模型結(jié)構(gòu)
ViT模型改進(jìn)了Transformer中的編碼器結(jié)構(gòu)獲取圖像像素間的相關(guān)性,為便于處理,在所有層使用D維的恒定向量,將所有塊映射成相同維數(shù)。經(jīng)過(guò)位置信息嵌入的塊會(huì)經(jīng)過(guò)層歸一化處理,使用多頭注意力機(jī)制計(jì)算注意力權(quán)重,并最終使用多層感知器進(jìn)行分類,得到圖片表征y。該過(guò)程如式(3)~式(5)所示:
z′l=MSA(LN(zl-1))+zl-1,l=1,…,L
(3)
zl=MLP(LN(z′l))+z′l,l=1,…,L
(4)
(5)
ViT模型將圖片視為輸入序列,通過(guò)線性映射使其適用于Transformer結(jié)構(gòu)的一維輸入,并利用注意力打分機(jī)制很好地實(shí)現(xiàn)了圖像分類任務(wù)。
為使注意力機(jī)制成功應(yīng)用于人臉?lè)纻稳蝿?wù),提出了基于ViT模型改進(jìn)的FAS-Transformer模型。為使模型對(duì)人臉真?zhèn)翁卣鬟M(jìn)行學(xué)習(xí)并作出區(qū)分,在輸入人臉圖像序列化后嵌入位置信息,并嵌入真?zhèn)闻袆e信息。同時(shí),對(duì)分類網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),采用全連接層配合Softmax函數(shù)進(jìn)行最終的結(jié)果分類。FAS-Transformer模型結(jié)構(gòu)如圖3所示。
圖3 FAS-Transformer模型結(jié)構(gòu)
圖4 數(shù)據(jù)預(yù)處理流程
在對(duì)輸入的人臉圖像進(jìn)行和ViT模型相同的分塊操作后經(jīng)過(guò)線性映射,使用正余弦函數(shù)作為學(xué)習(xí)的位置編碼函數(shù),保證每個(gè)位置編碼的唯一性。偶數(shù)位置采用正弦函數(shù)編碼,奇數(shù)位置采用余弦函數(shù)編碼,通過(guò)這種方式使模型能夠?qū)W習(xí)到輸入圖像小塊的相對(duì)位置信息。
PE(pos,2i)=sin(pos/10 0002i/dmodel)
(6)
PE(pos,2i+1)=cos(pos/10 0002i/dmodel)
(7)
式中:pos表示位置;i表示特征維度;dmodel表示模型維度。
為了使模型對(duì)人臉真?zhèn)翁卣鬟M(jìn)行學(xué)習(xí),采用有監(jiān)督訓(xùn)練,在嵌入位置信息的同時(shí),嵌入真?zhèn)闻袆e標(biāo)識(shí)(其中,0表示偽造特征,1表示真實(shí)特征)。
模型結(jié)構(gòu)中使用多頭注意力將輸入映射到不同的特征子空間。此后,計(jì)算每個(gè)頭的注意力,再將計(jì)算得到的多個(gè)頭的輸出進(jìn)行拼接,經(jīng)過(guò)再次投影構(gòu)成多頭注意力的整體輸出。使用多頭注意力的優(yōu)勢(shì)在于,可以同時(shí)關(guān)注來(lái)自不同位置的不同表示子空間的信息,如果使用單一注意力在計(jì)算時(shí)就會(huì)使用平均去抑制這些信息。
在模型訓(xùn)練的過(guò)程中,隨著每一層參數(shù)的更新會(huì)導(dǎo)致上層輸入數(shù)據(jù)分布的變化,堆疊的層數(shù)越多,這種分布變化越劇烈,這使得高層需要不斷地適應(yīng)底層數(shù)據(jù)的更新。為了加快模型的收斂,保證數(shù)據(jù)特征分布的穩(wěn)定性,在訓(xùn)練單個(gè)樣本時(shí)采用了層歸一化。
(8)
式中:x為樣本;μ為均值;σ為方差;α和β為可學(xué)習(xí)參數(shù)。
損失函數(shù):為獲取更好的實(shí)驗(yàn)結(jié)果,在訓(xùn)練過(guò)程中采用二值交叉熵(Binary cross-entropy, BCE)損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督,對(duì)參數(shù)進(jìn)行微調(diào)。
(9)
式中:N表示樣本個(gè)數(shù);yi表示樣本標(biāo)簽;ai表示樣本權(quán)重值。
測(cè)試策略:在測(cè)試階段為了評(píng)估特征的真?zhèn)?需要將經(jīng)注意力機(jī)制處理的特征與真實(shí)特征的權(quán)重均值做出比較,通過(guò)計(jì)算兩者之間的距離獲取最終分類打分,打分公式為:
Score(xi)=‖φ(xi;ai)-c‖
(10)
式中:xi表示人臉特征;ai表示特征所對(duì)應(yīng)的權(quán)重;c表示真實(shí)特征的權(quán)重均值。
硬件平臺(tái)采用32GB運(yùn)行內(nèi)存,11th Gen Intel(R) Core(TM) i7-11800H @ 2.30GHz處理器,NVIDIA GeForce RTX 3060 GPU。軟件平臺(tái)采用基于Windows 11搭建的Pytorch深度學(xué)習(xí)框架。實(shí)驗(yàn)采用的基本網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)踐方法已在Github上開(kāi)源。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示,其中訓(xùn)練Batch-size可以根據(jù)自身設(shè)備性能好壞適當(dāng)提高,選擇標(biāo)準(zhǔn)Adam作為優(yōu)化器。將驗(yàn)證集上損失最少的模型作為最終的模型選擇,模型的訓(xùn)練流程如算法1所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置
為避免不同數(shù)據(jù)集中的背景環(huán)境對(duì)實(shí)驗(yàn)造成的影響,預(yù)先對(duì)數(shù)據(jù)集中的人臉進(jìn)行剪裁。裁剪過(guò)程采用Dlib作為人臉檢測(cè)器并使用開(kāi)源計(jì)算機(jī)視覺(jué)庫(kù)OpenCV,首先獲取人臉矩形坐標(biāo)信息,再通過(guò)加載68點(diǎn)預(yù)訓(xùn)練模型(Shape_predictor_68_face_landmarks)進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè),并使用自帶函數(shù)實(shí)現(xiàn)人臉對(duì)齊操作。在對(duì)坐標(biāo)、角度進(jìn)行一系列計(jì)算后定位圖片中的人臉,將提取到的關(guān)鍵區(qū)域保存。通過(guò)加載預(yù)訓(xùn)練模型,整個(gè)剪裁過(guò)程速度很快,對(duì)于數(shù)據(jù)集中存在視頻的情況,設(shè)定幀數(shù)進(jìn)行視頻抽幀,再進(jìn)行裁剪。為滿足后續(xù)實(shí)驗(yàn)安排,圖片裁剪大小統(tǒng)一設(shè)置為224×224,分塊大小為16×16,并對(duì)經(jīng)過(guò)預(yù)處理的圖片采用垂直鏡像對(duì)稱的方式以0.5的概率進(jìn)行數(shù)據(jù)擴(kuò)充。
集內(nèi)測(cè)試實(shí)驗(yàn)中使用表征攻擊分類錯(cuò)誤率(Attack presentation classification error rate, APCER)、真實(shí)呈現(xiàn)分類錯(cuò)誤率(Based presentation classification error rate, BPCER)以及平均分類錯(cuò)誤率(Attuck classification error rate, ACER)進(jìn)行評(píng)估。ACER是APCER和BPCER總和的一半,其中APCER表示所有表征攻擊中最高的假陽(yáng)性率,其公式為:
(11)
對(duì)于CASIA-MFSD和Replay-Attack之間的集間測(cè)試實(shí)驗(yàn),使用半總錯(cuò)誤率(Half total error rate, HTER)、錯(cuò)誤接受率(False accept rate, FAR)和錯(cuò)誤拒絕率(False rejection rate, FRR)進(jìn)行評(píng)估,其公式為:
(12)
為了驗(yàn)證所提出方法的有效性,設(shè)計(jì)了兩組集內(nèi)測(cè)試實(shí)驗(yàn),分別在SiW和WMCA數(shù)據(jù)集上進(jìn)行。
3.4.1 SiW集內(nèi)測(cè)試實(shí)驗(yàn)
SiW: 數(shù)據(jù)集提供165個(gè)對(duì)象的活體和偽造視頻[6]。其中為每個(gè)對(duì)象錄制8個(gè)真實(shí)視頻和20個(gè)偽造視頻,共有4 478個(gè)視頻。視頻的幀數(shù)為30 fps,時(shí)長(zhǎng)為15 s,清晰度為1 080P HD。活體視頻的收集分為4種類型:距離、姿態(tài)、光照和表情。偽造視頻的攻擊手段如打印照片和視頻重放。為方便未來(lái)研究,數(shù)據(jù)集制作團(tuán)隊(duì)定義了子協(xié)議方便研究人員對(duì)人臉表征攻擊方法的泛化性和模型在不同媒介上的表現(xiàn)能力及應(yīng)對(duì)未知攻擊時(shí)的表現(xiàn)進(jìn)行評(píng)估。
參考文獻(xiàn)[7]中的方法對(duì)評(píng)估集應(yīng)用固定的預(yù)訓(xùn)練閾值0.3,應(yīng)用到3種子協(xié)議中,使用ACER、APCER和BPCER進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果如圖5所示,選取了4種主流方法與本方法進(jìn)行對(duì)比,分別是:Auxiliary[6]、ResNet[8]、DenseNet[9]和Meta-FAS-DR[10],可以看出,在3種協(xié)議的對(duì)比實(shí)驗(yàn)中,所提出的方法性能最佳。
圖5 SiW數(shù)據(jù)集上3種協(xié)議下的集內(nèi)測(cè)試結(jié)果
3.4.2 WMCA集內(nèi)測(cè)試實(shí)驗(yàn)
WMCA數(shù)據(jù)集記錄了72位不同身份對(duì)象的1 941個(gè)短視頻,包括真實(shí)的和偽造的[11]。數(shù)據(jù)的記錄通過(guò)渠道為:色彩、深度、紅外線和熱溫度計(jì)。該數(shù)據(jù)集依賴強(qiáng)大的拍攝設(shè)備模仿3D表征攻擊。不同通道的數(shù)據(jù)依靠不同類別的傳感器進(jìn)行采集。所用的數(shù)據(jù)集源自2個(gè)傳感器的采集,在信息采集時(shí)對(duì)背景進(jìn)行改變。
實(shí)驗(yàn)使用留一法,單獨(dú)留出一種攻擊類型放在訓(xùn)練集中,將其他的攻擊類型用于評(píng)估集,這樣就構(gòu)成了一個(gè)簡(jiǎn)單的留一協(xié)議。測(cè)試所提出方法在不同攻擊類型下的表現(xiàn),并與基線方法進(jìn)行比較,在實(shí)驗(yàn)過(guò)程中對(duì)標(biāo)準(zhǔn)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行微調(diào),將最后一層改為全連接層適應(yīng)二分類任務(wù),實(shí)驗(yàn)結(jié)果如表2所示。由實(shí)驗(yàn)結(jié)果可知,在與ResNet50和DenseNet169兩種方法比較后,所提出方法的性能更好,平均值達(dá)到了(14.4±8.2)%,遠(yuǎn)優(yōu)于基線方法。
表2 不同攻擊類型下基線方法和所提出方法在WMCA數(shù)據(jù)集上的性能對(duì)比
為了驗(yàn)證本方法具備一定的泛化性,設(shè)置了集間測(cè)試實(shí)驗(yàn),并選用CASIA-FASD[12]及Replay-Attack[13]兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),整個(gè)實(shí)驗(yàn)過(guò)程可以簡(jiǎn)單概括為在一個(gè)數(shù)據(jù)集上訓(xùn)練模型,在另一個(gè)數(shù)據(jù)集上驗(yàn)證模型的性能。
CASIA-FASD: 該數(shù)據(jù)集包含來(lái)自50個(gè)對(duì)象的真實(shí)和偽造人臉的錄像。數(shù)據(jù)集中設(shè)計(jì)了3種偽造攻擊:扭曲照片攻擊、剪切照片攻擊及視頻攻擊。
Replay-Attack: 該數(shù)據(jù)集包含在不同的光照條件下,來(lái)自50名對(duì)象的共計(jì)1 300個(gè)視頻片段,由圖片和視頻攻擊共同組成,是一個(gè)2D人臉?lè)纻喂魯?shù)據(jù)集。數(shù)據(jù)集中的數(shù)據(jù)被劃分為4個(gè)子集:(1) 訓(xùn)練數(shù)據(jù)用于訓(xùn)練防偽分類器;(2) 開(kāi)發(fā)集用于閾值的估計(jì);(3) 測(cè)試數(shù)據(jù)用于報(bào)告錯(cuò)誤數(shù);(4) 注冊(cè)數(shù)據(jù)用于驗(yàn)證人臉檢測(cè)算法的敏感性。出現(xiàn)在一個(gè)數(shù)據(jù)集中的對(duì)象不會(huì)在其他數(shù)據(jù)集中再次出現(xiàn)。如表3所示,模型在HTER權(quán)重下獲得了較好的性能,并且性能優(yōu)于主流研究方法,這也驗(yàn)證了所提出方法具備一定的泛化性。同時(shí),實(shí)驗(yàn)結(jié)果顯示出了一種規(guī)律,在圖片分辨率較高的數(shù)據(jù)集上訓(xùn)練出的模型,在分辨率低的數(shù)據(jù)集上測(cè)試會(huì)顯示出更好的精度。
表3 集間測(cè)試實(shí)驗(yàn)結(jié)果
為了更直觀地展示注意力機(jī)制在人臉?lè)纻稳蝿?wù)中的工作原理,使用注意力圖可視化的方法,直觀地展現(xiàn)了注意力機(jī)制在處理人臉?lè)纻稳蝿?wù)時(shí)關(guān)注的位置。在實(shí)驗(yàn)過(guò)程中對(duì)底層注意力進(jìn)行移除操作,因?yàn)橐延袑?shí)驗(yàn)證明底層注意力效果不佳,對(duì)其進(jìn)行移除操作可以實(shí)現(xiàn)去噪,保證注意力更集中。同時(shí),對(duì)注意力頭打分取平均值用于設(shè)置丟棄率,去除低分的輸出。通過(guò)調(diào)整讓注意力更加集中,優(yōu)化實(shí)驗(yàn)效果。如圖6所示,經(jīng)過(guò)優(yōu)化后的注意力集中出現(xiàn)在人臉五官和面部與背景區(qū)域的邊界處。
圖6 注意力圖
為了以更直觀的方式顯示模型在處理人臉特征過(guò)程中對(duì)不同類型特征所做出的區(qū)分,利用t-SNE可視化方法,對(duì)數(shù)據(jù)集中的部分特征進(jìn)行可視化顯示。t-SNE技術(shù)通過(guò)在二維或三維地圖中給每個(gè)數(shù)據(jù)提供一點(diǎn)進(jìn)行標(biāo)識(shí)來(lái)可視化高維數(shù)據(jù),該技術(shù)是隨機(jī)鄰域嵌入的一種變體,通過(guò)減少中心聚點(diǎn)的趨勢(shì)提供更直觀的可視化效果,也更易優(yōu)化。Replay-Attack數(shù)據(jù)集集內(nèi)測(cè)試過(guò)程中的真?zhèn)畏诸悢?shù)據(jù)可視化處理的結(jié)果如圖7所示,可以看出,所提出的模型對(duì)真?zhèn)翁卣鬟M(jìn)行了有效區(qū)分,特征會(huì)向自身類別聚攏,這為后續(xù)分類提供了依據(jù)。WMCA數(shù)據(jù)集不同攻擊類型特征可視化的結(jié)果如圖8所示,實(shí)驗(yàn)選用了真實(shí),眼鏡、打印及重放攻擊特征進(jìn)行可視化,由結(jié)果圖可知,不同攻擊類型的特征在分類測(cè)試過(guò)程中同樣提供了類別區(qū)分,但仍有少量特征會(huì)與其他類別特征出現(xiàn)重疊情況。
圖8 WMCA數(shù)據(jù)集4種特征可視化結(jié)果
模型的復(fù)雜度可由兩個(gè)指標(biāo)進(jìn)行描述:時(shí)間復(fù)雜度和空間復(fù)雜度。其中,時(shí)間復(fù)雜度通過(guò)模型計(jì)算量衡量,空間復(fù)雜度則是通過(guò)模型參數(shù)量衡量。為了對(duì)模型復(fù)雜度進(jìn)行分析,通過(guò)實(shí)驗(yàn)對(duì)比了基線方法及本方法的計(jì)算復(fù)雜度及參數(shù)總量。本方法與基線方法模型計(jì)算復(fù)雜度的對(duì)比結(jié)果如圖9所示,本方法與基線方法各自參數(shù)總量的對(duì)比結(jié)果如圖10所示??梢钥吹?模型的計(jì)算復(fù)雜度及參數(shù)總量隨著訓(xùn)練輪次的增加而增加,大幅度的超過(guò)了對(duì)比的基線方法,這為模型的進(jìn)一步優(yōu)化提供了方向。
圖9 模型計(jì)算復(fù)雜度折線圖
圖10 模型參數(shù)總量折線圖
將注意力機(jī)制應(yīng)用到人臉?lè)纻稳蝿?wù)中,通過(guò)對(duì)ViT模型進(jìn)行改進(jìn),將模型的分類層替換為全連接層,并添加真?zhèn)闻袆e信息,提出一種基于FAS-Transformer的人臉?lè)纻畏椒?。為?yàn)證本方法的性能,設(shè)計(jì)集內(nèi)和集間測(cè)試實(shí)驗(yàn)與主流方法進(jìn)行對(duì)比。通過(guò)實(shí)驗(yàn)驗(yàn)證,本方法在同一數(shù)據(jù)集的不同協(xié)議類型、不同攻擊類型及跨數(shù)據(jù)集測(cè)試結(jié)果中的有效性和泛化性均優(yōu)于主流方法,較好地解決了人臉?lè)纻畏椒ㄔ趹?yīng)對(duì)不同表征攻擊類型時(shí),普遍存在的泛化性差的問(wèn)題,具備一定的實(shí)用價(jià)值。同時(shí),為體現(xiàn)注意力機(jī)制可解釋性強(qiáng)的優(yōu)點(diǎn),對(duì)注意力做可視化處理,方便對(duì)其工作原理進(jìn)行理解。當(dāng)然,仍有一些問(wèn)題需要進(jìn)一步研究,如不同數(shù)據(jù)集背景環(huán)境對(duì)實(shí)驗(yàn)結(jié)果的影響。本實(shí)驗(yàn)操作中對(duì)輸入的圖像進(jìn)行了統(tǒng)一的剪裁,這是為了消除不同人臉?lè)纻螖?shù)據(jù)集間的背景差異,但也在一定程度上損失了背景環(huán)境信息。此外,FAS-Transformer模型雖然在性能上更優(yōu)于主流方法,但也存在一定的局限性,如模型訓(xùn)練數(shù)據(jù)量大和計(jì)算復(fù)雜度較高等特點(diǎn),這些問(wèn)題值得進(jìn)一步研究。