盛文俊,曹 林,張 帆+
(1.北京信息科技大學(xué) 光電測(cè)試技術(shù)及儀器教育部重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2.北京信息科技大學(xué) 儀器科學(xué)與光電工程學(xué)院,北京 100101; 3.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101)
在科學(xué)技術(shù)飛速發(fā)展的現(xiàn)代社會(huì),通過(guò)人臉進(jìn)行身份驗(yàn)證的應(yīng)用日益廣泛,因此人臉檢測(cè)[1]、人臉識(shí)別[2]等技術(shù)日新月異。但是,人臉的隱私性較差,很容易被偽造,特別是近年來(lái)隨著深度學(xué)習(xí)[3]的發(fā)展,基于深度學(xué)習(xí)的方法可以生成各式各樣逼真的人臉。這些方法雖然存在一定的娛樂(lè)性質(zhì),但也為惡意攻擊他人提供了新的手段。
深度學(xué)習(xí)[3]的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)[4](convolutional neural networks,CNN)以及生成對(duì)抗網(wǎng)絡(luò)[5](gene-rative adversarial nets,GAN)的發(fā)展,為人們帶來(lái)了各種各樣的偽造手段和防偽技術(shù),二者相互博弈,共同進(jìn)步。
現(xiàn)如今對(duì)人臉的偽造主要分為4種類(lèi)型:人臉合成、換臉、人臉屬性操縱以及人臉表情操縱。人臉合成主要是通過(guò)生成對(duì)抗網(wǎng)絡(luò)(如CycleGAN[6]、StarGAN[7])生成不存在的但極其逼真的人臉。換臉即將一個(gè)人的臉替換為另一個(gè)人的臉,通常采用基于計(jì)算機(jī)圖形學(xué)的FaceSwap技術(shù)以及基于深度學(xué)習(xí)的Deepfake技術(shù)完成。人臉屬性操縱就是改變?nèi)说哪w色、發(fā)型、年齡等,如今FaceApp的流行已經(jīng)可以讓人們輕松地做到這一點(diǎn)。人臉表情操縱即修改人臉表情,如將表情“哭”變成表情“笑”等,實(shí)現(xiàn)這種偽造最流行的技術(shù)之一是Face2Face,該技術(shù)可通過(guò)表情的跟蹤和轉(zhuǎn)移、面部的渲染以及背景的合成的步驟完成,可實(shí)時(shí)進(jìn)行。如圖1所示的4張人臉,只有第一張是真實(shí)的光學(xué)圖片,其余的圖片都是通過(guò)各種手段偽造而成的。通常,人類(lèi)的肉眼無(wú)法分辨哪些是真實(shí)的,哪些是偽造的。
圖1 偽造人臉圖片
深度學(xué)習(xí)技術(shù)的發(fā)展在為偽造人臉提供各種先進(jìn)手段的同時(shí),各種防偽方法也應(yīng)運(yùn)而生。Rossler等[8]提出基于XceptionNet[9]的檢測(cè)方法,該方法基于XceptionNet[9]提取特征,之后將特征送入分類(lèi)器中,對(duì)偽造人臉進(jìn)行檢測(cè)。Dang等[10]分別在XceptionNet[9]和VGG16[11]的基礎(chǔ)上引入注意力機(jī)制,文中方案使用基于回歸的方法估計(jì)注意力圖,然后將其與輸入的卷積特征圖相乘,對(duì)特征圖進(jìn)行了優(yōu)化。Guera等[12]考慮到現(xiàn)有的防偽方法中未考慮視頻連貫性,提出使用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中的長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)來(lái)比較視頻中的幀間差異。該方案將經(jīng)過(guò)CNN提取的特征圖輸入到LSTM中,使得人臉?lè)纻尉哂辛诉B貫性,跳出了基于圖像檢測(cè)的常用思維。Guo等[13]認(rèn)為在防偽領(lǐng)域中,CNN不應(yīng)該學(xué)習(xí)圖像表示的內(nèi)容,而更應(yīng)該學(xué)習(xí)圖像中細(xì)微的篡改痕跡。因此,文獻(xiàn)[13]改進(jìn)了約束卷積層[14],提出了一種自適應(yīng)殘差提取網(wǎng)絡(luò),該網(wǎng)絡(luò)可以用作圖像的預(yù)處理,達(dá)到抑制圖像內(nèi)容的目的。
相比于傳統(tǒng)的CNN,膠囊網(wǎng)絡(luò)可以減少由于人臉的方向、角度等姿態(tài)信息變化引起的誤差。因此,Nguyen等[15]采用膠囊網(wǎng)絡(luò)(capsule network,CN)進(jìn)行真?zhèn)舞b別。但是對(duì)比于現(xiàn)今的基于CNN的檢測(cè)方法,膠囊網(wǎng)絡(luò)的特征提取模塊層數(shù)過(guò)淺,提取得到的特征細(xì)節(jié)信息不夠充分,這限制了其準(zhǔn)確率。
針對(duì)膠囊網(wǎng)絡(luò)現(xiàn)存的問(wèn)題,本文提出基于有監(jiān)督注意力網(wǎng)絡(luò)的偽造人臉視頻檢測(cè)方法。提出的模型在原始膠囊網(wǎng)絡(luò)的基礎(chǔ)上,通過(guò)引入有監(jiān)督的注意力分支來(lái)預(yù)測(cè)注意力圖,隨后將其送入膠囊網(wǎng)絡(luò)的特征提取模塊,對(duì)原始膠囊網(wǎng)絡(luò)細(xì)節(jié)特征提取不充分的問(wèn)題進(jìn)行了優(yōu)化。此外,通過(guò)引入焦點(diǎn)損失[16](focal loss)使模型更專注于難檢測(cè)的困難樣本。本文在FaceForensics++[8]數(shù)據(jù)集上對(duì)提出的模型進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明提出的模型優(yōu)于原始的膠囊網(wǎng)絡(luò)。
綜上所述,本文的主要貢獻(xiàn)包括:
(1)在膠囊網(wǎng)絡(luò)工作的基礎(chǔ)上,引入了有監(jiān)督的注意力分支,優(yōu)化了膠囊網(wǎng)絡(luò)的特征提取模塊。
(2)使用焦點(diǎn)損失而非交叉熵?fù)p失,提高模型對(duì)難檢測(cè)的困難樣本的檢測(cè)能力。
傳統(tǒng)的CNN采用標(biāo)量來(lái)表示神經(jīng)元及權(quán)重,之后估算各種特征出現(xiàn)的概率。本文使用膠囊網(wǎng)絡(luò)[15],以向量模的形式來(lái)預(yù)測(cè)特征出現(xiàn)的概率,這有效地降低了在預(yù)測(cè)過(guò)程中由于人臉的方向、角度等姿態(tài)信息變化引起的誤差。因此,本文基于膠囊網(wǎng)絡(luò)[15]檢測(cè)偽造人臉視頻,如圖2網(wǎng)絡(luò)結(jié)構(gòu)的下半部分。輸入的圖像經(jīng)過(guò)特征提取模塊得到特征圖,之后將其輸入到膠囊網(wǎng)絡(luò)中,膠囊網(wǎng)絡(luò)分為3個(gè)主要膠囊和兩個(gè)輸出膠囊,主要膠囊對(duì)輸入的特征進(jìn)行編碼,關(guān)聯(lián)了低級(jí)特征和高級(jí)特征的關(guān)系,經(jīng)過(guò)動(dòng)態(tài)路由算法[15]輸出到兩個(gè)輸出膠囊,該過(guò)程是主要膠囊向輸出膠囊傳遞的過(guò)程。不同于CNN,動(dòng)態(tài)路由算法使用向量積的形式代表特征的耦合程度。在參數(shù)更新迭代過(guò)程中,當(dāng)向量積為負(fù)值時(shí),耦合程度應(yīng)當(dāng)減小,反之則增大。隨著迭代次數(shù)的增多,耦合程度越來(lái)越高,達(dá)到一定次數(shù)后,對(duì)向量進(jìn)行加權(quán)求和及非線性激活,輸出到輸出膠囊。膠囊網(wǎng)絡(luò)的具體結(jié)構(gòu)以及動(dòng)態(tài)路由算法請(qǐng)參見(jiàn)文獻(xiàn)[15]。最后,膠囊網(wǎng)絡(luò)的輸出同圖像的標(biāo)簽進(jìn)行比較,得到該部分的損失——Lp(x)。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)
然而,原始基于膠囊網(wǎng)絡(luò)的方法[15]僅使用VGG19[11]的前三層作為特征提取模塊,這在一定程度上影響了最終的檢測(cè)準(zhǔn)確率。為了優(yōu)化原始膠囊網(wǎng)絡(luò)中的特征提取模塊,本文引入了圖2的上半部分——有監(jiān)督的注意力分支。具體而言,首先將人臉輸入到有監(jiān)督的注意力網(wǎng)絡(luò)中提取特征,該過(guò)程會(huì)同步輸出一張注意力圖,而后將特征輸入至分類(lèi)器中,分為兩類(lèi),即是真實(shí)的還是偽造的,分類(lèi)的結(jié)果同該人臉正確的標(biāo)簽進(jìn)行比較,得到該注意力分支的損失——La(x)。 整個(gè)訓(xùn)練過(guò)程中,隨著各種參數(shù)的不斷優(yōu)化,輸出的注意力圖也越來(lái)越符合人眼的視覺(jué)機(jī)制,對(duì)特征提取模塊的優(yōu)化效果也越來(lái)越好。
此外,本文采用焦點(diǎn)損失監(jiān)督模型的訓(xùn)練。這是由于該損失可以使模型在訓(xùn)練過(guò)程中更專注于難檢測(cè)的困難樣本,進(jìn)而提高檢測(cè)準(zhǔn)確率。
Nguyen等[15]提出的膠囊網(wǎng)絡(luò)雖然在一定程度上彌補(bǔ)了傳統(tǒng)CNN的不足,但是由于它的特征提取模塊過(guò)淺,在提取特征的細(xì)節(jié)不夠充分的情況下便輸入到膠囊網(wǎng)絡(luò)中,這在一定程度上限制了其檢測(cè)的準(zhǔn)確率。
近年來(lái),注意力模型迅速發(fā)展,已經(jīng)成為了深度學(xué)習(xí)領(lǐng)域中一個(gè)重要的概念。注意力機(jī)制符合人類(lèi)的視覺(jué)機(jī)制,并且可以對(duì)圖像或者視頻進(jìn)行直觀的視覺(jué)解釋。傳統(tǒng)的注意力結(jié)構(gòu)[17]比較簡(jiǎn)單,可以通過(guò)在原始網(wǎng)絡(luò)中直接引入1×1的卷積層,經(jīng)過(guò)激活函數(shù)后與特征相乘完成。但這種方法對(duì)圖像細(xì)節(jié)的感知較差。因此,本文采用有監(jiān)督的注意力分支,即引出單獨(dú)的一支網(wǎng)絡(luò)來(lái)估計(jì)注意力圖。相比于傳統(tǒng)的注意力網(wǎng)絡(luò),本文提出的注意力網(wǎng)絡(luò)帶有監(jiān)督信息,并且目的只有一個(gè):估計(jì)更加符合人類(lèi)視覺(jué)機(jī)制的注意力圖,該注意力圖會(huì)隨著訓(xùn)練不斷地優(yōu)化。將獲得的注意力圖引入到主干的特征提取模塊,在保留膠囊網(wǎng)絡(luò)主干結(jié)構(gòu)的同時(shí),達(dá)到優(yōu)化特征的目的。
獲得注意力圖的過(guò)程如圖3所示,本文采用經(jīng)過(guò)Imagenet[18]預(yù)訓(xùn)練的XceptionNet[9]作為注意力網(wǎng)絡(luò),對(duì)圖像進(jìn)行歸一化后,在中間流的第一個(gè)可分離卷積層(separable convolution,SeparableConv)后進(jìn)行注意力圖的估計(jì)。具體而言,在經(jīng)過(guò)中間流的第一個(gè)SeparableConv得到的特征圖的基礎(chǔ)上,使用1×1的卷積層對(duì)其進(jìn)行維度變化,經(jīng)過(guò)批標(biāo)準(zhǔn)化(batch normalization,BN),Sigmoid激活函數(shù)后再和SeparableConv得到的特征圖相乘,作為后一層的輸入。在整個(gè)訓(xùn)練過(guò)程中,該注意力圖會(huì)有監(jiān)督地進(jìn)行自我優(yōu)化。經(jīng)過(guò)維度、尺寸的匹配后,將該注意力圖與主干結(jié)構(gòu)的特征圖相乘,最終優(yōu)化用于輸入膠囊網(wǎng)絡(luò)的特征圖。
圖3 有監(jiān)督的注意力網(wǎng)絡(luò)結(jié)構(gòu)
優(yōu)化后的特征圖A′(x)定義如式(1)所示
A′(x)=(1+M(x))·A(x)
(1)
式中:M(x) 為估計(jì)的注意力圖,A(x) 為特征提取模塊輸出的特征圖。
從式(1)可以看到,估計(jì)的注意力圖的每個(gè)像素都加入了常量1,這樣做的目的是該常量可以在注意力圖的峰值處突出顯示特征圖,并能防止較低值區(qū)域的像素值降至0。后續(xù)的實(shí)驗(yàn)部分會(huì)比較加入了常量1的影響。
本文對(duì)部分人臉進(jìn)行了注意力圖的可視化,可視化結(jié)果如圖4所示,上面3張是實(shí)驗(yàn)過(guò)程中裁剪出的人臉圖片,其中第一張是真實(shí)的,其余兩張是偽造的,下面3張是對(duì)應(yīng)上方人臉圖片的注意力圖。從圖4可以看到注意力機(jī)制可以有效地對(duì)人臉的關(guān)鍵部位進(jìn)行關(guān)注,例如眼睛、鼻子、嘴巴等。
圖4 注意力圖的可視化
人臉?lè)纻蔚母鞣N方法所用的數(shù)據(jù)集雜亂不一,傳統(tǒng)的交叉熵?fù)p失對(duì)所有樣本一視同仁,沒(méi)有側(cè)重點(diǎn),這就導(dǎo)致了當(dāng)模型遇到難檢測(cè)的困難樣本時(shí),會(huì)和那些易檢測(cè)的樣本做相同的處理。這樣訓(xùn)練的模型會(huì)對(duì)那些困難樣本的檢測(cè)產(chǎn)生誤差,對(duì)模型的防偽能力產(chǎn)生消極的影響。
焦點(diǎn)損失在交叉熵?fù)p失的基礎(chǔ)上,通過(guò)引入兩個(gè)因子:平衡因子α和權(quán)重速率調(diào)節(jié)因子γ,一定程度上解決了困難樣本的檢測(cè)問(wèn)題,其損失函數(shù)L定義如式(2)所示
(2)
其中,y′是輸入經(jīng)過(guò)激活函數(shù)的輸出,α用來(lái)平衡正負(fù)樣本的數(shù)量不均衡,γ用來(lái)調(diào)節(jié)易檢測(cè)樣本權(quán)重降低的速率,y是輸入的標(biāo)簽,其中y=1表示正樣本,y=0表示負(fù)樣本。
本文在主干結(jié)構(gòu)以及有監(jiān)督的注意力分支都采用該損失,訓(xùn)練過(guò)程中總的損失L(x) 可以表示為主干以及分支的和,如式(3)所示
L(x)=La(x)+Lp(x)
(3)
其中,La(x) 為注意力分支的焦點(diǎn)損失,Lp(x) 為膠囊網(wǎng)絡(luò)的焦點(diǎn)損失,二者的定義如式(4)和式(5)所示
(4)
(5)
其中,y′a是注意力分支的輸入經(jīng)過(guò)激活函數(shù)的輸出,αa用來(lái)平衡注意力分支中正負(fù)樣本的數(shù)量不均衡,γa用來(lái)調(diào)節(jié)注意力分支中易檢測(cè)樣本權(quán)重降低的速率,y′p是膠囊網(wǎng)絡(luò)的輸入經(jīng)過(guò)激活函數(shù)的輸出,αp用來(lái)平衡膠囊網(wǎng)絡(luò)中正負(fù)樣本的數(shù)量不均衡,γp用來(lái)調(diào)節(jié)膠囊網(wǎng)絡(luò)中易檢測(cè)樣本權(quán)重降低的速率,y是輸入的標(biāo)簽,其中y=1表示正樣本,y=0表示負(fù)樣本。
(1)數(shù)據(jù)集:數(shù)據(jù)集FaceForensics[19]的發(fā)布給研究者們帶來(lái)了經(jīng)過(guò)Face2Face偽造的1000多個(gè)視頻(50萬(wàn)幀圖像)。隨后,該作者發(fā)布了FaceForensics數(shù)據(jù)集的擴(kuò)展版本FaceForensics++。FaceForensics++[8]數(shù)據(jù)集通過(guò)Deepfake和FaceSwap技術(shù)進(jìn)一步擴(kuò)大,共包含3000個(gè)偽造視頻(150萬(wàn)幀圖像)。如今,該數(shù)據(jù)集已經(jīng)成為大多數(shù)此領(lǐng)域研究者的基準(zhǔn)數(shù)據(jù)集。
本文方法選用FaceForensics++[8]數(shù)據(jù)集中的Face2Face、FaceSwap、DeepFakes這3種偽造類(lèi)型進(jìn)行實(shí)驗(yàn)。在每類(lèi)偽造類(lèi)型的1000個(gè)視頻中,選取720個(gè)視頻,每個(gè)視頻截取其中的270幀作為訓(xùn)練集;選取140個(gè)視頻作為驗(yàn)證集,剩余的140個(gè)視頻作為測(cè)試集,驗(yàn)證集和測(cè)試集中每個(gè)視頻截取100幀。隨后,采用MTCNN[20]算法定位識(shí)別人臉并進(jìn)行裁剪,整理后作為本文實(shí)驗(yàn)所采用的數(shù)據(jù)集。
(2)實(shí)驗(yàn)參數(shù)設(shè)置:在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)輸入圖像的大小為256×256,共訓(xùn)練20個(gè)周期,批處理大小設(shè)置為32,膠囊網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,有監(jiān)督注意力網(wǎng)絡(luò)的學(xué)習(xí)率為0.0001,采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)進(jìn)行優(yōu)化,膠囊網(wǎng)絡(luò)與有監(jiān)督注意力網(wǎng)絡(luò)中的焦點(diǎn)損失參數(shù)一致,其中平衡因子αa和αp為0.25,權(quán)重速率調(diào)節(jié)因子γa和γp為2。本文使用Pytorch作為基礎(chǔ)框架,GPU為英偉達(dá)公司的NVIDIA RTX 2080Ti(共5塊)。表1是不同方法的網(wǎng)絡(luò)參數(shù)數(shù)量及處理時(shí)間比較。由表1可以得出,本文方法較原始的膠囊網(wǎng)絡(luò)方法參數(shù)有所增多,約增加了3倍,但處理單張圖片用時(shí)僅增多了約0.5倍;而同Rossler等[8]提出的基準(zhǔn)方法相比,增多了約7000 K的參數(shù)量,但處理單張圖片用時(shí)相差不多。綜上,本文方法可行。
表1 本文方法與原始膠囊網(wǎng)絡(luò)方法的網(wǎng)絡(luò)參數(shù)數(shù)量及處理時(shí)間比較
3.2.1 對(duì)比實(shí)驗(yàn)
本文在膠囊網(wǎng)絡(luò)的基礎(chǔ)上,提出使用有監(jiān)督的注意力分支來(lái)優(yōu)化膠囊網(wǎng)絡(luò)的特征提取模塊,并使用焦點(diǎn)損失替換原始網(wǎng)絡(luò)中的交叉熵?fù)p失。
為了驗(yàn)證本文提出方案的有效性,將本文方法與原始的膠囊網(wǎng)絡(luò)方法[15]進(jìn)行對(duì)比實(shí)驗(yàn)。原始的膠囊網(wǎng)絡(luò)方法與本文方法的數(shù)據(jù)集和參數(shù)保持完全相同。本文使用準(zhǔn)確率(accuracy)作為實(shí)驗(yàn)指標(biāo),其計(jì)算公式如下所示
(6)
式中:TP(true positions)表示正類(lèi)判定為正類(lèi)的樣本數(shù)量,TN(true negetives)表示負(fù)類(lèi)判定為負(fù)類(lèi)的樣本數(shù)量,total表示總的樣本數(shù)量。
表2給出了DeepFakes、Face2Face和FaceSwap這3種偽造類(lèi)型的實(shí)驗(yàn)結(jié)果。從表2可以得出,對(duì)于DeepFakes和Face2Face這兩種偽造類(lèi)型,本文提出方案的準(zhǔn)確率提升較為明顯,約提升了1個(gè)百分點(diǎn)。對(duì)于FaceSwap偽造類(lèi)型,由于FaceSwap技術(shù)在處理面部抖動(dòng)等方面更加成熟,且在整張人臉的替換中人臉的姿態(tài)信息更符合實(shí)際,所以膠囊網(wǎng)絡(luò)在對(duì)該技術(shù)類(lèi)型的處理中,優(yōu)勢(shì)沒(méi)有其它兩種類(lèi)型明顯,而注意力分支結(jié)構(gòu)的存在仍然對(duì)準(zhǔn)確率的提高有一定的促進(jìn)作用,約為0.4%。
表2 本文方法與原始膠囊網(wǎng)絡(luò)方法在不同偽造類(lèi)型上的準(zhǔn)確率比較/%
此外,為了驗(yàn)證本文提出模型的泛化性,我們將所有的偽造類(lèi)型整合到一起,分別用原始的膠囊網(wǎng)絡(luò)和本文模型進(jìn)行實(shí)驗(yàn),結(jié)果見(jiàn)表3。結(jié)果表明,本文模型較于原始的膠囊網(wǎng)絡(luò),準(zhǔn)確率提升了約4%,泛化能力更強(qiáng)。其泛化能力增強(qiáng)的根本原因在于本文引入的有監(jiān)督注意力分支的重要作用,而引入的注意力分支可以對(duì)人臉的關(guān)鍵部位進(jìn)行重點(diǎn)關(guān)注。
表3 本文方法與原始膠囊網(wǎng)絡(luò)方法在FaceForensics++數(shù)據(jù)集上的準(zhǔn)確率比較/%
3.2.2 模型性能對(duì)比實(shí)驗(yàn)
近年來(lái),許多檢測(cè)效果優(yōu)秀的方法被提出,為驗(yàn)證本文模型的優(yōu)越性,本文在Face2Face偽造類(lèi)型上進(jìn)行了對(duì)比實(shí)驗(yàn),表4為本文方法與其它方法的檢測(cè)準(zhǔn)確率對(duì)比。
從表4可以看出,本文方法對(duì)比于近年來(lái)許多優(yōu)秀的方法,檢測(cè)性能都有一定的提升。其中,對(duì)比于Cozzolino等[21]以及Bayar等[22]提出的方法有顯著的性能提升,分別提升了約20%和12%;對(duì)比于Afchar等[23]和Raghavendra等[24]提出的方法,提升了約5%;對(duì)比于Rossler等[8]提出的基準(zhǔn)方法,由于本文方法結(jié)合了XceptionNet在特征提取方面和膠囊網(wǎng)絡(luò)在魯棒性方面的優(yōu)勢(shì),因此準(zhǔn)確率更高,提高了約0.7%;對(duì)比于Li等和Zhu等最近提到的方法,分別提高了約1.3%和0.6%。綜上,由于有監(jiān)督注意力分支在視覺(jué)解釋上的獨(dú)特優(yōu)勢(shì),本文方法較最先進(jìn)方法有明顯的性能提高。
表4 本文方法與其它方法在Face2Face偽造數(shù)據(jù)集上的準(zhǔn)確率比較/%
3.2.3 消融實(shí)驗(yàn)
為了驗(yàn)證有監(jiān)督注意力分支以及焦點(diǎn)損失各自的作用,本文進(jìn)行了以下消融實(shí)驗(yàn):在DeepFakes、Face2Face和FaceSwap這3種偽造類(lèi)型上引入有監(jiān)督注意力分支,訓(xùn)練模型后計(jì)算其準(zhǔn)確率;不使用有監(jiān)督注意力分支,僅使用焦點(diǎn)損失代替交叉熵?fù)p失。準(zhǔn)確率結(jié)果見(jiàn)表5。由表5可以看出,對(duì)于3種偽造類(lèi)型,有監(jiān)督注意力分支的引入對(duì)模型的性能提升較大,尤其是DeepFakes偽造類(lèi)型,提升了約0.9%。焦點(diǎn)損失使得模型專注于困難樣本的檢測(cè),同樣起到了不可忽視的作用。
表5 在不同的偽造類(lèi)型上引入注意力分支及焦點(diǎn)損失的準(zhǔn)確率比較/%
另外,對(duì)于FaceSwap偽造類(lèi)型,分別引入有監(jiān)督注意力分支和焦點(diǎn)損失的提升相較于其它兩種偽造類(lèi)型的提升較小,這驗(yàn)證了本文在3.2.1節(jié)中關(guān)于該偽造類(lèi)型檢測(cè)性能提升較小的原因。
而后,使用所有偽造類(lèi)型整合的數(shù)據(jù)集再次進(jìn)行以上測(cè)試,實(shí)驗(yàn)結(jié)果見(jiàn)表6。由表6可以看出,單獨(dú)引入有監(jiān)督注意力分支使模型的檢測(cè)性能提高了約2.7%。單獨(dú)引入焦點(diǎn)損失提高了約1.2%,該結(jié)果同樣驗(yàn)證了上述結(jié)論。
表6 在FaceForensics++數(shù)據(jù)集上分別引入注意力分支及焦點(diǎn)損失的準(zhǔn)確率比較/%
3.2.4 有監(jiān)督注意力模型實(shí)驗(yàn)
相比于傳統(tǒng)的注意力網(wǎng)絡(luò),我們使用的注意力網(wǎng)絡(luò)特點(diǎn)很明顯,即帶有監(jiān)督信息且對(duì)原始網(wǎng)絡(luò)的影響較小。本文通過(guò)在原始膠囊網(wǎng)絡(luò)的特征提取模塊上直接獲得注意力圖并與特征圖相乘來(lái)驗(yàn)證這一點(diǎn),實(shí)驗(yàn)結(jié)果見(jiàn)表7。相較于直接引入注意力,由于本文使用的注意力圖是有監(jiān)督地獲取的,因此更加符合人類(lèi)的視覺(jué)機(jī)制。由表7可以看出,本文使用的有監(jiān)督注意力分支的檢測(cè)性能提高了約1.8%,明顯好于傳統(tǒng)的注意力網(wǎng)絡(luò)。
表7 在FaceForensics++數(shù)據(jù)集上直接引入注意力、使用注意力分支的準(zhǔn)確率比較/%
進(jìn)一步,為了驗(yàn)證2.2節(jié)中提到的常量對(duì)模型的影響,本文通過(guò)是否在有監(jiān)督注意力網(wǎng)絡(luò)中引入常量1來(lái)進(jìn)行對(duì)比,表8驗(yàn)證了引入了常量1相較于不引入常量1提升了0.32%,可見(jiàn)常量1確實(shí)在突出特征圖以及防止低值像素方面具有一定的促進(jìn)意義。
表8 在注意力分支結(jié)構(gòu)中是否為每個(gè)像素引入常量1準(zhǔn)確率比較/%
本文提出一種基于有監(jiān)督注意力分支的膠囊網(wǎng)絡(luò)結(jié)構(gòu)用以檢驗(yàn)照片或者視頻是否經(jīng)過(guò)偽造。對(duì)于輸入的圖像,本文通過(guò)有監(jiān)督的注意力網(wǎng)絡(luò)估計(jì)注意力圖,用來(lái)優(yōu)化膠囊網(wǎng)絡(luò)的特征提取模塊,而后通過(guò)膠囊網(wǎng)絡(luò)來(lái)檢測(cè)真?zhèn)危⑶沂褂媒裹c(diǎn)損失來(lái)提高檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,本文方法比原始的膠囊網(wǎng)絡(luò)方法有了明顯的性能提升,在各種偽造類(lèi)型混合的情況下也能較準(zhǔn)確的辨別真?zhèn)巍W鳛槲磥?lái)工作,我們將嘗試使用多特征融合的方式來(lái)估計(jì)注意力圖。