亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙層注意力的Deepfake換臉檢測(cè)

        2021-04-23 15:02:50龔曉娟黃添強(qiáng)翁彬葉鋒徐超游立軍
        關(guān)鍵詞:可視化特征區(qū)域

        龔曉娟,黃添強(qiáng),翁彬,葉鋒,徐超,游立軍

        基于雙層注意力的Deepfake換臉檢測(cè)

        龔曉娟1,2,黃添強(qiáng)1,2,翁彬1,2,葉鋒1,2,徐超1,2,游立軍3

        (1. 福建師范大學(xué)數(shù)學(xué)與信息學(xué)院,福建 福州 350117; 2. 數(shù)字福建大數(shù)據(jù)安全技術(shù)研究所,福建 福州 350117; 3. 福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福建 福州 350001)

        針對(duì)現(xiàn)有Deepfake檢測(cè)算法中普遍存在的準(zhǔn)確率低、可解釋性差等問(wèn)題,提出融合雙層注意力的神經(jīng)網(wǎng)絡(luò)模型,該模型利用通道注意力捕獲假臉的異常特征,并結(jié)合空間注意力聚焦異常特征的位置,充分學(xué)習(xí)假臉異常部分的上下文語(yǔ)義信息,從而提升換臉檢測(cè)的有效性和準(zhǔn)確性。并以熱力圖的形式有效地展示了真假臉的決策區(qū)域,使換臉檢測(cè)模型具備一定程度的解釋性。在FaceForensics++開(kāi)源數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方法的檢測(cè)精度優(yōu)于MesoInception、Capsule-Forensics和XceptionNet檢測(cè)方法。

        Deepfake;換臉檢測(cè);假臉檢測(cè);注意力

        1 引言

        隨著深度假臉(Deepfake)技術(shù)的興起,如Face2face[1]、FaceSwap、Deepfake、OpenFaceSwap和DeepFaceLab等程序源代碼可輕松獲取。此外,還有FakeApp、Face2faceAI換臉、ZAO和DeepNude(一鍵去衣)等軟件的大量涌現(xiàn),以及相關(guān)的軟件和技術(shù)可以輕易地在一些技術(shù)網(wǎng)站上獲得。這使人們不需要通過(guò)系統(tǒng)地學(xué)習(xí)專業(yè)技術(shù)就能輕而易舉地對(duì)一幅圖片甚至一段視頻進(jìn)行人臉篡改,并且很多時(shí)候單憑人們的視覺(jué)直觀感受難以分辨真?zhèn)?。?dāng)新聞報(bào)道、政府組織或司法機(jī)構(gòu)證據(jù)所使用的圖片、視頻被惡意篡改時(shí),勢(shì)必會(huì)對(duì)政治和社會(huì)產(chǎn)生惡劣的影響。因此,換臉檢測(cè)研究吸引了大量研究團(tuán)隊(duì)的注意。例如,F(xiàn)acebook和微軟公司聯(lián)合在Kaggle上推出了Deepfake檢測(cè)挑戰(zhàn)賽,以促進(jìn)檢測(cè)算法的開(kāi)發(fā)。

        換臉技術(shù)制作的假臉比較如圖1所示(圖片取自FaceForensics++[2]數(shù)據(jù)集)。其中以Deepfake和FaceSwap為代表的換臉技術(shù),可以實(shí)現(xiàn)圖像或視頻上交換兩個(gè)人的面孔并保留其他身體部分。非技術(shù)人員只需收集足夠多樣化的素材,就能得到逼真的換臉圖片或視頻;且在未改變目標(biāo)人物身份的前提下,只采用Face2face技術(shù)就能對(duì)視頻中的人物表情進(jìn)行篡改。相對(duì)于傳統(tǒng)的圖像、視頻篡改技術(shù)(如復(fù)制粘貼篡改、增刪篡改等),應(yīng)用上述與深度學(xué)習(xí)方法結(jié)合的新型換臉技術(shù)制作出的假臉視頻(文中出現(xiàn)的“假臉”皆為換臉技術(shù)生成的),可能會(huì)對(duì)個(gè)人名譽(yù)和公眾造成更惡劣的影響。例如,制作虛假的名人色情視頻和報(bào)復(fù)性的色情視頻、篡改新聞內(nèi)容,以及偽造司法證據(jù)等。因此,急需開(kāi)發(fā)一種有效的換臉檢測(cè)方法來(lái)應(yīng)對(duì)換臉技術(shù)帶來(lái)的危機(jī)。

        隨著換臉技術(shù)的不斷發(fā)展,換臉檢測(cè)的研究也越來(lái)越受到學(xué)術(shù)界和工業(yè)界的重視?;谌斯ぬ卣鞯姆椒╗3]主要通過(guò)檢測(cè)偽影特征來(lái)對(duì)真臉假臉進(jìn)行分類,可解釋性強(qiáng)但檢測(cè)準(zhǔn)確率普遍較低;基于神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法[4]雖然對(duì)假臉判別性能較好,但缺乏足夠的可解釋性,其中文獻(xiàn)[5]雖利用主成分分析(PCA,principal component analysis)對(duì)假臉中高頻異常的可視化具有相應(yīng)解釋性,但PCA作為一種靜態(tài)的注意力機(jī)制(AM,attention mechanism)不能充分學(xué)習(xí)各類型的假臉特征。于是,本文引入動(dòng)態(tài)注意力機(jī)制,可自適應(yīng)地學(xué)習(xí)更豐富的假臉特征。

        圖1 換臉技術(shù)制作的假臉比較

        Figure 1 The comparison of fake face generated bymanipulation techniques

        注意力機(jī)制是一種快速鎖定目標(biāo)任務(wù)關(guān)鍵特征的方法,在大多數(shù)計(jì)算機(jī)視覺(jué)任務(wù)中得到了應(yīng)用[6]。而在換臉檢測(cè)中既要考慮假臉中的異常特征又要考慮異常特征的位置,因此本文引入雙層注意力,以假臉的異常信息為關(guān)鍵特征,以異常特征的位置為關(guān)鍵區(qū)域,并將以上信息作為檢測(cè)模型的決策依據(jù)。本文提出的融合雙層注意力的神經(jīng)網(wǎng)絡(luò)(DANet,double attention network)模型,能夠?qū)W習(xí)假臉異常部分的上下文語(yǔ)義信息,從而提升換臉檢測(cè)的有效性和準(zhǔn)確性。

        神經(jīng)網(wǎng)絡(luò)是一種“黑匣子”技術(shù),僅由理論說(shuō)明其原理缺乏可信度,而通過(guò)可視化來(lái)展示決策依據(jù)才能使網(wǎng)絡(luò)模型更具可解釋性。雖有部分換臉檢測(cè)技術(shù)[5,7]做了可視化方面的嘗試,但它們?nèi)源嬖谝恍┎蛔阒帲渲形墨I(xiàn)[5]易受ground-truth的影響,文獻(xiàn)[7]不能很好地展示真假臉的決策區(qū)別。因此,本文引入梯度加權(quán)類激活映射(Grad_CAM,gradient-weighted class activation mapping)[8]技術(shù),其不受ground-truth的影響,能夠以熱力圖的形式更有效地展示真假臉的決策區(qū)域。從可視化角度,更有效地證實(shí)了DANet的有效性。

        本文提出基于雙層注意力網(wǎng)絡(luò)的換臉檢測(cè)模型,主要貢獻(xiàn)如下。

        (1)將雙層注意力引入換臉檢測(cè)領(lǐng)域中,其中通道注意力關(guān)注假臉的異常特征,空間注意力關(guān)注假臉異常特征的位置,通過(guò)自適應(yīng)地學(xué)習(xí)綜合決策區(qū)域判別真假臉,有效地提升DANet的檢測(cè)性能。

        (2)引入Grad_CAM對(duì)真臉和假臉賦以不同的權(quán)重映射生成熱力圖,為換臉檢測(cè)模型的決策區(qū)域提供了充足的可視化依據(jù),增強(qiáng)了DANet的可解釋性。

        2 相關(guān)工作

        2.1 換臉檢測(cè)方法

        現(xiàn)有的換臉檢測(cè)方法可大致分為兩類:基于人工特征的方法與基于神經(jīng)網(wǎng)絡(luò)的方法。

        基于人工特征的方法往往利用換臉視頻存在的一些較明顯的瑕疵。Li等[3]基于視頻中人物是否有正常的眨眼行為來(lái)檢測(cè)Deepfake視頻。而Yang等[9]通過(guò)臉部的68個(gè)特征點(diǎn)來(lái)檢測(cè)假臉視頻中頭部姿勢(shì)的不一致性。Matern等[10]結(jié)合不同的偽影特征對(duì)GAN、Deepfake和Face2Face這3種假臉圖像進(jìn)行檢測(cè)。Nataraj等[11]在RGB這3個(gè)顏色通道上計(jì)算共生矩陣,然后將其輸入DNN中分類真假臉。隨著換臉合成技術(shù)的日益成熟,上述依賴人工提取偽影特征的檢測(cè)方法的有效性逐漸被削弱。

        基于神經(jīng)網(wǎng)絡(luò)的方法,由于其具有強(qiáng)大的深度特征表示學(xué)習(xí)能力得到了廣泛關(guān)注。Cozzolino等[4]通過(guò)孿生網(wǎng)絡(luò)定位圖像篡改區(qū)域。Li等[12]利用VGG[13]網(wǎng)絡(luò)和ResNet[14]等神經(jīng)網(wǎng)絡(luò)來(lái)捕捉換臉視頻中面部周圍環(huán)境分辨率不一致的偽影。Guera等[15]結(jié)合CNN網(wǎng)絡(luò)和LSTM[16]網(wǎng)絡(luò)來(lái)判別真假臉視頻。Amerini等[17]將光流矢量輸入CNN網(wǎng)絡(luò)中進(jìn)行深度假臉視頻的判別。Afchar等[18]提出了兩種淺層網(wǎng)絡(luò)Meso-4和MesoInception-4來(lái)分類深度假臉。Fernandes等[19]設(shè)計(jì)了Neural-ODE模型,其通過(guò)對(duì)視頻中目標(biāo)人物的心率進(jìn)行預(yù)測(cè)判別真假臉視頻。Sabir等[20]提出了一種遞歸卷積模型檢測(cè)假臉視頻幀間的時(shí)域差異。Nguyen等[21]設(shè)計(jì)了一種多任務(wù)學(xué)習(xí)方法,該方法可以同時(shí)檢測(cè)篡改圖片和視頻并且定位篡改區(qū)域。同年,Nguyen等[7]用VGG-19提取圖片特征輸入膠囊網(wǎng)絡(luò)來(lái)檢測(cè)篡改的圖片和視頻。R?ssler等[2]創(chuàng)建了大規(guī)模的換臉數(shù)據(jù)集FaceForensics++,并用7種網(wǎng)絡(luò)對(duì)真假臉進(jìn)行二分類性能比較,其中XceptionNet[22]的效果最佳。這些方法均能在一定程度辨別真假臉,但其網(wǎng)絡(luò)模型僅考慮了異常特征,而沒(méi)有借助注意力機(jī)制這一強(qiáng)有力的工具,所以缺少了對(duì)異常特征相關(guān)區(qū)域的探索,這是導(dǎo)致檢測(cè)精度不夠高的一個(gè)關(guān)鍵因素。

        Dong等[5]通過(guò)外觀處理模塊和直接回歸模塊生成特征圖的注意力映射,捕獲假臉高頻信息中的異常,但它使用的PCA注意力機(jī)制不具備可學(xué)習(xí)的參數(shù),無(wú)法自適應(yīng)地進(jìn)行參數(shù)調(diào)整,來(lái)應(yīng)對(duì)多樣化的換臉技術(shù)。

        因此,本文將可動(dòng)態(tài)學(xué)習(xí)的注意力融合到換臉檢測(cè)的模型中,重點(diǎn)關(guān)注和捕獲假臉的異常特征和異常區(qū)域,減少?zèng)Q策無(wú)關(guān)區(qū)域的影響,從而提高了檢測(cè)精度,并為假臉熱力圖的異常區(qū)域展示提供了一定依據(jù)。

        2.2 換臉檢測(cè)的注意力機(jī)制

        注意力機(jī)制已經(jīng)成功應(yīng)用于目標(biāo)檢測(cè)[6]、顯著性檢測(cè)[23]、圖像修復(fù)[24]、語(yǔ)義分割[25]和圖像分類[26-27]等領(lǐng)域。Zhou等[6]采用一種自注意力機(jī)制使檢測(cè)模型盡可能只關(guān)注行人的移動(dòng)區(qū)域,弱化對(duì)背景的關(guān)注。Li等[23]將運(yùn)動(dòng)注意力用于檢測(cè)視頻光流特征中的顯著性運(yùn)動(dòng)物體。Liu等[24]在圖像修復(fù)中使用空間注意力生成圖像缺失區(qū)域的特征圖。Fu等[25]通過(guò)位置和空間自注意力機(jī)制融合全局特征,提高語(yǔ)義分割的精度。Hu等[26]通過(guò)壓縮與激活模塊(squeeze-and-excitation module)對(duì)分類模型加強(qiáng)了通道特征的關(guān)聯(lián)性。在此基礎(chǔ)上,Woo等[27]利用雙層注意力進(jìn)一步增強(qiáng)了圖像分類時(shí)重要特征的表達(dá)能力。上述這些工作表明注意力機(jī)制確實(shí)是一個(gè)有力工具。然而,將注意力機(jī)制用于換臉檢測(cè)領(lǐng)域的工作較少,僅文獻(xiàn)[5]采用了PCA這種不具備可學(xué)習(xí)參數(shù)的注意力機(jī)制。而換臉檢測(cè)中不僅要關(guān)注假臉中的異常特征,還需結(jié)合假臉異常特征的相關(guān)區(qū)域,利用可動(dòng)態(tài)學(xué)習(xí)的注意力機(jī)制完成異常特征及相關(guān)區(qū)域的自適應(yīng)捕獲,才能對(duì)鑒別真假臉實(shí)現(xiàn)更有力的綜合決策。因此,本文將雙層注意力機(jī)制引入換臉檢測(cè)中,分別用通道注意力機(jī)制和空間注意力捕獲假臉的異常特征及異常特征的相關(guān)位置,與未融合雙層注意力的檢測(cè)方法相比,本方法有效提高了檢測(cè)精度。

        2.3 換臉檢測(cè)的可視化

        在神經(jīng)網(wǎng)絡(luò)中,特征圖的可視化有助于增強(qiáng)網(wǎng)絡(luò)模型的可解釋性,便于人們將其更好地與實(shí)際應(yīng)用結(jié)合。在現(xiàn)有換臉檢測(cè)方法的可視化中,文獻(xiàn)[7]展示了膠囊網(wǎng)絡(luò)對(duì)臉部決策區(qū)域的激活,但真假臉決策區(qū)域的可視化效果相差不大,同時(shí)驗(yàn)證了該方法的檢測(cè)精度有限。文獻(xiàn)[5]的ground-truth在注意力圖中顯示了假臉的高頻異常部分,但忽略了對(duì)真臉的關(guān)注。而本文無(wú)須借助ground-truth,引入了Grad_CAM[8]生成熱力圖,可以較好地展示真假臉決策區(qū)域的不同:在無(wú)異常區(qū)域的真臉中尋找應(yīng)該正常關(guān)注的區(qū)域,即真臉的熱力圖在大部分的細(xì)節(jié)區(qū)域具有較強(qiáng)的激活;在假臉中尋找缺失細(xì)節(jié)信息的異常區(qū)域,即假臉的熱力圖僅在異常區(qū)域具有較強(qiáng)的激活。通過(guò)真假臉熱力圖的展示,證明了DANet可以捕獲到有效的決策區(qū)域,同時(shí)可作為提高檢測(cè)精度的依據(jù),這是由于真假臉二者的決策區(qū)域不同,能夠?qū)崿F(xiàn)真類和假類的區(qū)分。

        簡(jiǎn)而言之,本文將可動(dòng)態(tài)學(xué)習(xí)的雙層注意力融合到DANet中,自適應(yīng)地捕獲假臉異常特征和區(qū)域,并通過(guò)引入的熱力圖技術(shù),為證實(shí)DANet檢測(cè)的有效性提供了有力的可視化憑證。

        3 DANet檢測(cè)算法

        本文提出的融合雙層注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型的檢測(cè)算法流程如圖2所示。該算法先用dlib函數(shù)提取待檢測(cè)視頻幀的人臉,經(jīng)篩選后將其輸送到DANet模型中,進(jìn)行真假臉的二分類訓(xùn)練。DANet由ResNet-50[14]和雙層注意力模塊組成,雙層注意力模塊包括通道注意力和空間注意力兩個(gè)子模塊,其中通道注意力子模塊關(guān)注假臉的異常特征,而空間注意力子模塊關(guān)注假臉異常特征的位置,通過(guò)通道和空間兩個(gè)維度的信息,可以使有意義的特征更具有表現(xiàn)力。本文算法的具體細(xì)節(jié)由以下兩個(gè)部分展開(kāi):人臉提取和DANet模型構(gòu)建。

        圖2 DANet模型的檢測(cè)算法流程

        Figure 2 The detection algorithm flow of DANet model

        3.1 人臉提取

        由于假臉視頻的篡改區(qū)域主要集中在面部,因此本文僅提取人臉區(qū)域,并將其輸入網(wǎng)絡(luò)模型中,減小實(shí)驗(yàn)的復(fù)雜度。在實(shí)驗(yàn)中發(fā)現(xiàn),在Python檢測(cè)人臉的函數(shù)中,face_detector的detecMultiScale和haarcascade_frontalface_alt函數(shù)檢測(cè)的虛警率和漏檢率較高,dlib的get_frontal_detector的檢測(cè)效果最佳,因此本文選擇get_frontal_detector來(lái)檢測(cè)并截取人臉,這樣能夠減輕前期預(yù)處理的工作。如圖3所示,用dlib提取人臉,返回的4個(gè)坐標(biāo)能明確鎖定人臉的大小區(qū)域。

        圖3 dlib.get_frontal_detector函數(shù)得到的坐標(biāo)示意

        Figure 3 The coordinate diagram produced by the dlib.get_frontal_detector function

        3.2 DANet模型構(gòu)建

        在換臉檢測(cè)模型中,不僅要考慮假臉異常特征的自適應(yīng)捕獲,還需結(jié)合異常特征的相關(guān)區(qū)域做進(jìn)一步?jīng)Q策。于是將文獻(xiàn)[27]的雙層注意力模塊引入假臉檢測(cè)中,并做了兩組對(duì)比實(shí)驗(yàn),構(gòu)建了DANet模型。其中兩組實(shí)驗(yàn)分別為:主干網(wǎng)絡(luò)的對(duì)比和注意力模塊的擺放順序?qū)Ρ取R騌esNet[14]模型通過(guò)殘差模塊與上一層網(wǎng)絡(luò)的輸出更加緊密結(jié)合,以及假臉對(duì)前期特征捕獲的重要性,故選取ResNet-50作為DANet的主干網(wǎng)絡(luò)。先學(xué)習(xí)假臉的異常特征可以使模型檢測(cè)的目標(biāo)性更明確,故先放置空間注意力模塊,再放置通道注意力模塊。

        DANet模型的構(gòu)建如圖2所示,將提取到的人臉輸入DANet模型中進(jìn)行二分類訓(xùn)練。主干網(wǎng)絡(luò)ResNet-50由4個(gè)Layer組成,每個(gè)Layer由不同個(gè)數(shù)的Bottleneck模塊組成,其中每個(gè)Layer的第一個(gè)Bottleneck模塊使用一次殘差連接。在每個(gè)Bottleneck模塊添加雙層注意力模塊,分別是通道注意力模塊和空間注意力模塊。假設(shè)輸入Bottleneck模塊的特征圖為F×H×W,分別是特征圖的通道數(shù)、高和寬,經(jīng)通道注意力模塊后得到特征塊M(F),與F逐像素融合得到通道特征圖F×1×1,經(jīng)空間注意力模塊得到特征塊M(F),與通道特征圖F×H×W逐像素融合得到空間特征圖F,具體計(jì)算如式(1)、(2)所示。

        通道注意力模塊由平均池化、最大池化和多層感知機(jī)構(gòu)成,其中平均池化取得特征圖F空間維度上的平均池化特征,最大池化取得最大池化特征,發(fā)送到同一個(gè)多層感知機(jī),最后用Sigmoid函數(shù)激活,具體計(jì)算如式(3)所示。

        其中,AP指的是平均池化,MP指的是最大池化,MLP指的是多層感知機(jī),是Sigmoid函數(shù)。

        空間注意力模塊由平均池化、最大池化和一個(gè)7×7的卷積塊構(gòu)成,分別取得F通道維度上的平均池化和最大池化特征,通過(guò)連接函數(shù)Cat沿縱向通道連接,然后經(jīng)7×7卷積操作后再用Sigmoid函數(shù)激活,具體計(jì)算如式(4)、式(5)所示。

        其中,dim=1指的是縱向通道。

        通過(guò)上述雙層注意力模塊先后聚合空間信息和通道信息,可增強(qiáng)有效特征在空間維度和通道維度上的表現(xiàn)力,融合雙層注意力模塊的DANet更能夠聚焦假臉圖像中的異常特征,及其相關(guān)位置的綜合決策區(qū)域,從而提升假臉的檢測(cè)性能。

        4 實(shí)驗(yàn)分析

        本節(jié)主要介紹了實(shí)驗(yàn)環(huán)境、參數(shù)設(shè)置和數(shù)據(jù)集,以及分析模型的選擇、可視化,并與現(xiàn)有換臉檢測(cè)方法做對(duì)比。

        4.1 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

        本文的實(shí)驗(yàn)運(yùn)行環(huán)境是Ubuntu 16.04系統(tǒng),使用4塊Nvidia Tesla P100 GPU進(jìn)行模型的訓(xùn)練。本文所有深度學(xué)習(xí)模型均在Pytorch 1.3.0(2019.10.12發(fā)布)版本的深度學(xué)習(xí)框架的基礎(chǔ)上實(shí)現(xiàn),并將FaceForensics++數(shù)據(jù)集[2]的每種篡改類型分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中,圖片是隨機(jī)選取并完全獨(dú)立的,測(cè)試圖像從未在訓(xùn)練過(guò)程中出現(xiàn)過(guò),數(shù)據(jù)集具體配置如表1所示,真臉和假臉的比例為1:1,3種篡改類型的訓(xùn)練集為72 000幅圖片、驗(yàn)證集為1 400幅圖片和測(cè)試集 1 400幅圖片。輸入圖片為224×224大小,訓(xùn)練時(shí)的shuffle變量設(shè)置為T(mén)rue,迭代100個(gè)epoch,在每個(gè)epoch開(kāi)始時(shí)對(duì)數(shù)據(jù)進(jìn)行重新排序,避免單個(gè)epoch取得最優(yōu)準(zhǔn)確率的偶然性。

        表1 基于FaceForensics++數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集的分配

        通過(guò)平行實(shí)驗(yàn)比較,保留效果最優(yōu)的模型和參數(shù)。由于實(shí)驗(yàn)的訓(xùn)練集較大,設(shè)置較小的batch(如16、32)不僅會(huì)拉長(zhǎng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,而且不利于模型的收斂;而在同樣的epoch下,較大的batch(如128)將會(huì)減少模型的迭代次數(shù),降低對(duì)假臉的檢測(cè)性能。同時(shí)本文在實(shí)驗(yàn)中考慮了優(yōu)化器的選擇:發(fā)現(xiàn)Adam優(yōu)化器在DANet中的收斂速度快,loss值會(huì)驟降到一個(gè)極小值,并停在模型的局部最優(yōu)解處,后續(xù)的迭代無(wú)法進(jìn)行有效學(xué)習(xí),這就導(dǎo)致在測(cè)試集上的泛化性能降低;而使用RMSprop優(yōu)化器的收斂速度較穩(wěn)定,且能夠有效解決模型的局部最優(yōu)解等極端情況。因此本文每組實(shí)驗(yàn)的batch取64,采用RMSprop優(yōu)化器,損失函數(shù)設(shè)為預(yù)測(cè)結(jié)果和真實(shí)數(shù)據(jù)的交叉熵函數(shù)(CrossEntropyLoss)。此外,訓(xùn)練過(guò)程和測(cè)試過(guò)程是分開(kāi)的。

        4.2 數(shù)據(jù)集和指標(biāo)

        實(shí)驗(yàn)中使用FaceForensics++數(shù)據(jù)集驗(yàn)證本文的檢測(cè)算法,該數(shù)據(jù)集是由德國(guó)慕尼黑工業(yè)大學(xué)(TUM)視覺(jué)計(jì)算組和意大利那不勒斯腓特烈二世大學(xué)構(gòu)建的一個(gè)大型數(shù)據(jù)集,其中包括從Youtube網(wǎng)站上篩選的大多以新聞播報(bào)、獨(dú)家專訪、單人脫口秀等為主題的僅包含單個(gè)人臉的1 000個(gè)原始視頻,以及在原始視頻基礎(chǔ)上,分別用Deepfake、Face2face和FaceSwap這3種篡改技術(shù)進(jìn)行篡改的各1 000個(gè)視頻,并使用H.264編碼器分別合成無(wú)壓縮(C0)、輕度壓縮(C23)和重度壓縮(C40)3種不同壓縮程度的假臉視頻,本實(shí)驗(yàn)中只選取無(wú)壓縮的視頻進(jìn)行幀分解和后續(xù)操作。

        為評(píng)價(jià)DANet模型檢測(cè)算法在3種篡改類型檢測(cè)中的性能,本文使用兩個(gè)指標(biāo)[準(zhǔn)確率(Accuracy)和AUC值]對(duì)實(shí)驗(yàn)結(jié)果進(jìn)分析。

        1) 準(zhǔn)確率是預(yù)測(cè)真臉和假臉準(zhǔn)確的數(shù)量占所有測(cè)試的真假臉數(shù)據(jù)總量的比率,其計(jì)算如式(6)所示。

        其中,TP是真臉預(yù)測(cè)為Original類,TN是假臉預(yù)測(cè)為Fake類,F(xiàn)P是假臉預(yù)測(cè)為Original類,F(xiàn)N是真臉預(yù)測(cè)為Fake類。

        2) AUC值是ROC曲線下各部分面積的和值,可以比較直觀地反映模型的分類性能,該值越大表示分類效果越好。ROC曲線的縱坐標(biāo)為T(mén)PR,橫坐標(biāo)為FPR,二者的計(jì)算分別如(7)、式(8)所示。

        4.3 模型選擇

        本文分別以XceptionNet[2]、ResNet-18[14]和ResNet-50[14]作為主干網(wǎng)絡(luò),比較融合雙層注意力前后的性能。融合雙層注意力后的網(wǎng)絡(luò)標(biāo)注為XceptionNet-DA,采用ResNet18、ResNet50為主干網(wǎng)絡(luò),并分別標(biāo)注為DANet-18和DANet-50(文中提到的DANet為DANet-50模型)。從表2中可以發(fā)現(xiàn),與3種基線網(wǎng)絡(luò)相比,融合雙層注意力后的網(wǎng)絡(luò)模型均可有效增強(qiáng)假臉檢測(cè)性能。其中XceptionNet的輸入調(diào)整為299×299大小,僅使用遷移學(xué)習(xí)即可表現(xiàn)出良好的檢測(cè)性能,也正由于XceptionNet-DA中的空洞卷積在節(jié)省大量參數(shù)的同時(shí),無(wú)法充分有效地學(xué)習(xí)同一通道上的特征圖信息,所以融合雙層注意力可提升的檢測(cè)性能有限,導(dǎo)致略遜于DANet-50。對(duì)于深度篡改的假臉,DANet-50比DANet-18能學(xué)習(xí)到更深層次的假臉特征,因而DANet-50在3種篡改類型的準(zhǔn)確率都在98%以上,且都為最優(yōu)值,尤其是在FaceSwap篡改類型中,DANet-50的檢測(cè)準(zhǔn)確率為98.86%,無(wú)論是在橫向還是縱向的比較實(shí)驗(yàn)中性能均為最優(yōu)。因此本文選取DANet-50為最終的檢測(cè)模型DANet。

        表2 不同主干網(wǎng)絡(luò)的檢測(cè)性能

        在DANet中,比較了雙層注意力在網(wǎng)絡(luò)模型中的擺放順序,實(shí)驗(yàn)結(jié)果如表3所示。當(dāng)先放置空間注意力,后放置通道注意力時(shí),網(wǎng)絡(luò)模型先關(guān)注假臉的異常位置,后關(guān)注假臉的異常特征,若先學(xué)習(xí)到的異常位置不夠準(zhǔn)確,那么后續(xù)的特征學(xué)習(xí)會(huì)有偏差,導(dǎo)致網(wǎng)絡(luò)模型的檢測(cè)性能下降;反之,當(dāng)先學(xué)習(xí)假臉的異常特征,再引導(dǎo)網(wǎng)絡(luò)去學(xué)習(xí)異常特征的位置,就能取得較好的檢測(cè)性能,因?yàn)橄日业健笆鞘裁础北取霸谀睦铩钡哪繕?biāo)性更明確。因此本文實(shí)驗(yàn)中雙層注意力的擺放順序?yàn)橄确胖猛ǖ雷⒁饬?,后放置空間注意力。

        表3 雙層注意力的放置對(duì)假臉檢測(cè)的影響

        4.4 Grad_CAM可視化

        為增強(qiáng)DANet分類任務(wù)中的可解釋性,本文對(duì)訓(xùn)練后的模型進(jìn)行Grad_CA[8]可視化,該技術(shù)可將圖片中感興趣的區(qū)域用熱力圖的方式表現(xiàn)出來(lái),顯著地展示網(wǎng)絡(luò)模型的決策依據(jù)?;趽Q臉視頻中真假臉的差異性,本文將其用于DANet中進(jìn)行可視化展示,并給出了合理的解釋性。

        與真實(shí)視頻中的人臉相比,換臉視頻中的假臉會(huì)缺失細(xì)節(jié)信息(如會(huì)反光的額頭、眼睛里的焦點(diǎn)、臉上的光影等),僅在人臉的一些局部區(qū)域引起檢測(cè)網(wǎng)絡(luò)的關(guān)注,并具有較大激活值,從而引導(dǎo)網(wǎng)絡(luò)模型憑這些異常特征來(lái)區(qū)分真假臉。由于整個(gè)網(wǎng)絡(luò)是經(jīng)過(guò)訓(xùn)練進(jìn)行二分類的,所以網(wǎng)絡(luò)的每個(gè)Layer上的特征圖都包含人臉真假部分的鑒別信息,顯然最后一個(gè)Layer的特征圖比前面Layer的特征圖能收集到的決策信息多,因此本文對(duì)DANet的Layer4進(jìn)行可視化。真臉與3種篡改類型的假臉的熱力圖比較如圖4所示。

        圖4 假臉與真臉的熱力圖比較

        Figure 4 Comparison of heatmap between fake face and real face

        表4 圖4的標(biāo)注及含義

        圖4的標(biāo)注及含義如表4所示。

        通過(guò)觀察DANet特征圖生成的一系列熱力圖上,可以發(fā)現(xiàn),真臉的熱力圖關(guān)注整個(gè)臉的大部分區(qū)域,假臉的熱力圖只關(guān)注臉的邊緣或局部區(qū)域。正是由于真實(shí)的人臉中沒(méi)有異常區(qū)域,那么DANet就會(huì)尋找真臉中值得關(guān)注的區(qū)域,如會(huì)反光的額頭、有白點(diǎn)會(huì)聚焦的眼睛、面部的各種光線等,在熱力圖中分配較大權(quán)重(偏紅色和黃色區(qū)域)。而在篡改的人臉上,有違真實(shí)感的區(qū)域比正常區(qū)域更能讓DANet捕獲到,如缺失的細(xì)節(jié)和拼接邊緣等,只集中在局部和邊緣區(qū)域。以Face2face的假臉為例,它是在真臉上更換表情和嘴型,其中以嘴巴邊緣的異常尤為突出,所以在F2f_cam圖上大部分集中在嘴巴區(qū)域。本文中的Grad_CAM可視化不是精確地定位假臉中的篡改區(qū)域,而是讓訓(xùn)練后的網(wǎng)絡(luò)模型在待測(cè)圖像上對(duì)關(guān)注度高的區(qū)域賦以較高的權(quán)重作為特征圖ROI的映射,生成RGB顏色空間下的梯度權(quán)重圖(熱力圖)。本文定位的是網(wǎng)絡(luò)模型分類判定的決策依據(jù),并在待測(cè)圖像上顯示該區(qū)域。同理,在Deep_cam和Swap_cam圖上的激活聚集在局部和邊緣,也由此可以看出DANet模型可以有效捕獲這些異常區(qū)域,從而將其作為判定假臉的決策依據(jù)。

        4.5 實(shí)驗(yàn)結(jié)果

        將本文方法與其他方法在FaceForensics++[2]的3種篡改類型上的檢測(cè)準(zhǔn)確率進(jìn)行比較,結(jié)果如表5所示??梢钥吹?,本文的DANet模型在所有篡改類型上均優(yōu)于其他3種方法。

        Deepfake、FaceSwap和Face2face 3種篡改類型的各網(wǎng)絡(luò)模型的AUC面積分別如圖5~圖7所示??梢钥闯?,DANet均優(yōu)于其他模型的曲線,并且在3種假臉篡改類型上的檢測(cè)精度是較穩(wěn)定的,波動(dòng)較小。綜上,通過(guò)4個(gè)網(wǎng)絡(luò)對(duì)3種篡改類型在Accuracy和AUC的比較,DANet表現(xiàn)最優(yōu)。

        表5 各網(wǎng)絡(luò)的檢測(cè)精度對(duì)比

        圖5 Deepfake分類模型的比較

        Figure 5 Comparisona mong Deepfake classification models

        圖6 FaceSwap分類模型的比較

        Figure 6 Comparisona mong FaceSwap classification models

        圖7 Face2face分類模型的比較

        Figure 7 Comparisona mong Face2face classification models

        5 結(jié)束語(yǔ)

        為了應(yīng)對(duì)Deepfake等換臉技術(shù)帶來(lái)的危機(jī),本文提出基于雙層注意力的換臉檢測(cè)模型,其中通道注意力關(guān)注假臉的異常特征,空間注意力關(guān)注假臉異常特征的位置。在每個(gè)模塊都融入了雙層注意力,使全局上下文的語(yǔ)義信息得到密切的關(guān)聯(lián),從而在注意力機(jī)制的引導(dǎo)下提高了DANet的假臉檢測(cè)性能。并利用Grad_CAM可視化技術(shù)生成熱力圖,為網(wǎng)絡(luò)模型的可解釋性增加了有力依據(jù)。實(shí)驗(yàn)表明,本文算法對(duì)FaceForensics++數(shù)據(jù)集3種篡改類型的檢測(cè)準(zhǔn)確率均優(yōu)于現(xiàn)有檢測(cè)方法。

        [1]THIES J, ZOLLHOFER M, STAMMINGER M, et al. Demo of Face2Face: real-time face capture and reenactment of RGB videos[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016(1): 2387-2395.

        [2]R?SSLER A, COZZOLINOD, VERDOLIVAL, et al. FaceForensics++: learning to detect manipulated facial images[C]//International Conference on Computer Vision(ICCV). 2019: 1-11.

        [3]LI Y, CHANG M, FARID H, et al. In ictu.oculi: exposing AI generated fake face videos by detecting eye blinking[C]//International Workshop on Information Forensics and Security(WIFS). 2018: 1-7.

        [4]COZZOLINO D,VERDOLIVA L. Noiseprint: a CNN-based camera model fingerprint[J]. IEEE Transactions on Information Forensics and Security, 2020(15): 144-159.

        [5]DONG H, LIU F, STEHOUWER J, et al. On the detection of digital face manipulation[J]. arXiv: 1910.01717[astro-ph.CO].

        [6]ZHOU C, WU M, LAM S. SSA-CNN: semantic self-attention CNN for pedestrian detection[J]. arXiv: 1902.09080v1[astro-ph.CO].

        [7]NGUYEN H, YAMAGISHI J, ECHIZEN I. Use of a capsule network to detect fake images and videos[J]. arXiv: 1910.12467v2 [astro-ph.CO].

        [8]SELVARAJU M, COGSWELL M, DAS A. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]//International Conference on Computer Vision (ICCV). 2017: 618-626.

        [9]YANG X, LI Y, LYU S. Exposing deep fakes using inconsistent head poses[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019: 8261-8265.

        [10]MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose Deepfakes and face manipulations[C]//2019 IEEE Winter Applications of Computer Vision Workshops (WACVW). 2019: 83-92.

        [11]NATARAJ L, MOHAMMED T M, MANJUNATH B S, et al. Detecting GAN generated fake images using co-occurrence matrices[C]//Media Watermarking, Security, and Forensics. 2019.

        [12]LI Y, LYU S. Exposing Deepfake videos by detecting face warping artifacts[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 46-52.

        [13]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations (ICLR). 2015.

        [14]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2016: 770-778.

        [15]GUERA D, DELP E. Deepfake video detection using recurrent neural networks[C]//15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). 2018: 1-6.

        [16]DONAHUE J, HENDRICKS L, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015: 2625-2634.

        [17]AMERINI I, GALTERI L, CALDELLI R, et al. Deepfake video detection through optical flow based CNN[C]//International Conference on Computer Vision Workshops (ICCVW). 2019: 1205-1207.

        [18]AFCHAR D, NOZICK V, YAMAGISHI J, et al. Mesonet: a compact facial video forgery detection network[C]//2018 IEEE International Workshop on Information Forensics and Security (WIFS). 2018: 1-7.

        [19]FERNANDES S, RAJ S, ORTIZ E,et al.Predicting heart rate variations of Deepfake videos using neural ODE[C]//International Conference on Computer Vision Workshops(ICCVW). 2019: 1721-1729.

        [20]SABIR E, CHENG J, JAISWAL A, et al. Recurrent convolutional strategies for face manipulation detection in videos[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 80-87.

        [21]NGUYEN H, FUMING F, YAMAGISHI J, et al. Multitask learning for detecting and segmenting manipulated facial images and videos[J]. arXiv: abs/1906.06876[astro-ph.CO].

        [22]CHOLLET F. Xception: deep learning with depth wise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 1800-1807.

        [23]LI H, CHEN G, LI G,et al. Motion guided attention for video salient object detection[C]//International Conference on Computer Vision (ICCV). 2019: 7273-7282.

        [24]LIU H, JIANG B, XIAO Y, et al. Coherent semantic attention for image inpainting[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 4169-4178.

        [25]FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 3146-3154.

        [26]HU J, SHEN LI, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018: 7132-7141.

        [27]WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module[C]//The European Conference on Computer Vision(ECCV). 2018: 3-19.

        Deepfake swapped face detection based on double attention

        GONG Xiaojuan1,2,HUANG Tianqiang1,2,WENG Bin1,2,YE Feng1,2,XU Chao1,2,YOU Lijun3

        1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, China 2. Digital Fujian Institute of Big Data Security Technology, Fuzhou 350117, China 3. Fujian Key Laboratory of Severe Weather, Fuzhou 350001, China

        In view of the existing Deepfake detection algorithms, such problems as low accuracy and poor interpretability are common. A neural network model combining the double attention was proposed, which used channel attention to capture the abnormal features of false faces and combined the location of spatial attention to focus the abnormal features. To fully learn the contextual semantic information of the abnormal part of the false face, so as to improve the effectiveness and accuracy of face changing detection. In addition, the decision-making area of real and fake faces was shown effectively in the form of thermal diagram, which provided a certain degree of explanation for the face exchange detection model. Experiments on FaceForensics ++ open source data set show that the detection accuracy of proposed method is superior to MesoInception, Capsule-Forensics and XceptionNet.

        Deepfake, face swap detection, fake face detection, attention

        TP393

        A

        10.11959/j.issn.2096?109x.2021032

        2020?06?19;

        2020?09?29

        黃添強(qiáng),fjhtq@fjnu.edu.cn

        國(guó)家重點(diǎn)研發(fā)計(jì)劃專項(xiàng)基金(2018YFC1505805);國(guó)家自然科學(xué)基金(62072106,61070062);應(yīng)用數(shù)學(xué)福建省高校重點(diǎn)實(shí)驗(yàn)室(莆田學(xué)院)開(kāi)放課題(SX201803)

        The National Key Program for Developing Basic Science (2018YFC1505805), The National Natural Science Foundation of China(62072106, 61070062), Key Laboratory of Applied Mathematics of Fujian Province University (Putian University) (SX201803)

        龔曉娟, 黃添強(qiáng), 翁彬, 等. 基于雙層注意力的Deepfake換臉檢測(cè)[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(2): 151-160.

        GONG X J, HUANG T Q, WENG B, et al. Deepfake swapped face detection based on double attention[J]. Chinese Journal of Network and Information Security, 2021, 7(2): 151-160.

        龔曉娟(1995? ),女,福建福州人,福建師范大學(xué)碩士生,主要研究方向?yàn)閿?shù)字多媒體取證。

        黃添強(qiáng)(1971? ),男,福建仙游人,博士,福建師范大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)字多媒體取證。

        翁彬(1981? ),男,福建福州人,博士,福建師范大學(xué)講師,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)及應(yīng)用。

        葉鋒(1978? ),男,福建福州人,博士,福建師范大學(xué)副教授,主要研究方向?yàn)槎嗝襟w信號(hào)處理、計(jì)算機(jī)視覺(jué)。

        徐超(1981? ),男,湖北天門(mén)人,福建師范大學(xué)講師,主要研究方向?yàn)橐曨l篡改檢測(cè)。

        游立軍(1974? ),男,福建莆田人,福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室高級(jí)工程師,主要研究方向?yàn)闅夂驍?shù)據(jù)分析。

        猜你喜歡
        可視化特征區(qū)域
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        如何表達(dá)“特征”
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)于四色猜想
        分區(qū)域
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        内射无码专区久久亚洲| 不卡视频在线观看网站| 国产小视频在线看不卡| 麻豆成人精品国产免费| 五月婷婷六月激情| 国产亚洲青春草在线视频| 亚洲精品国产av日韩专区| 日本大肚子孕妇交xxx| 亚洲不卡中文字幕无码| 成年女人窝窝视频| 久久亚洲网站中文字幕| 精品久久久久久久久午夜福利| 中文字幕无码家庭乱欲| 亚洲无码vr| 日韩女同在线免费观看| 先锋中文字幕在线资源| 推油少妇久久99久久99久久| 日韩AV无码乱伦丝袜一区| 久久精品国产熟女亚洲av麻豆| 国产av无码专区亚洲avjulia| 一卡二卡三卡视频| 国产精品亚洲综合色区丝瓜| 亚洲第一黄色免费网站| 国产md视频一区二区三区| 2021国产视频不卡在线| 亚洲中文字幕高清视频| 亚洲av高清一区二区三| 女人被爽到呻吟gif动态图视看| 亚洲成a∨人片在线观看无码 | 日本岛国大片不卡人妻| 亚洲激情综合中文字幕| 三年片大全在线观看免费观看大全 | 99久久婷婷国产综合精品电影| 国产成人综合久久久久久| 青青草精品在线免费观看| 国产精品一区二区av麻豆| 亚洲成a人片在线观看天堂无码| 精品国产福利一区二区三区| 精品女同一区二区三区免费战| 日日碰狠狠添天天爽无码 | 免费看黄色亚洲一区久久|