耿鵬志,樊紅興,張翌陽,唐云祁
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 100038;2.中國科學(xué)院自動化研究所 智能感知與計算研究中心,北京 100190)
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人臉操控和合成技術(shù)取得了較大進(jìn)展,但是它們在給影視等行業(yè)提供便利的同時也給社會公共安全領(lǐng)域帶來了隱患。自2017 年起,各類換臉視頻及軟件層出不窮,其中,深度偽造(Deepfake)技術(shù)備受關(guān)注,該技術(shù)使用機器學(xué)習(xí)來生成逼真的圖像和視頻,信息內(nèi)容“以假亂真”,進(jìn)而達(dá)到欺騙受眾的目的。Deepfake 技術(shù)可以篡改生成虛假視頻,不法分子經(jīng)常使用該技術(shù)來制造虛假證據(jù),如散播謠言、編造虛假新聞等,嚴(yán)重影響了公安機關(guān)正常執(zhí)法辦案,甚至因此產(chǎn)生許多冤假錯案。因此,對Deepfake 進(jìn)行檢測具有重要的現(xiàn)實意義。
2020 年,F(xiàn)acebook 等機構(gòu)為鼓勵研究人員開發(fā)更有效的Deepfake 檢測方法,發(fā)起一項名為Deepfake Detection Challenge 的比賽。與此同時,各國也在立法層面實施相應(yīng)的應(yīng)對方案:美國兩黨議員分別在眾議院、參議院同時提出《2019 年深度偽造報告法案》[1],該法案反映了目前美國立法者在防范Deepfake 技術(shù)風(fēng)險中所作的努力;歐盟方面主要通過個人信息保護(hù)和虛假信息治理等法律法規(guī)來從法律層面限制人工智能造假技術(shù)的應(yīng)用;中國于2019年印發(fā)了《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》[2],該規(guī)定指出如果相關(guān)人員利用Deepfake 視頻造成嚴(yán)重危害并構(gòu)成犯罪,司法機關(guān)將依法追究刑事責(zé)任。上述一系列舉措在一定程度上限制了Deepfake 視頻的傳播。
目前,為了能夠有效地檢測以Deepfake 為代表的深度偽造視頻,研究人員提出了許多檢測方法,但是,其中多數(shù)檢測方法依賴于數(shù)據(jù)驅(qū)動,在跨壓縮率、跨分辨率方面并不具有魯棒性。盡管MATERN 等[3]對偽造圖像中人眼可見的一些痕跡(如眼睛顏色、人臉對齊不準(zhǔn))所產(chǎn)生的偽影進(jìn)行手工建模,但其只在特定的生成方法下效果較好,因為人的面部特征具有多樣性,導(dǎo)致該方法不能很好地進(jìn)行建模,即存在不能有效提取偽造特征的問題。
本文將篡改偽影特征引入卷積神經(jīng)網(wǎng)絡(luò)中,建立一種基于篡改偽影的雙流檢測模型。通過對FF++(FaceForensics++)[4]中Deepfakes數(shù)據(jù)集進(jìn)行分析,可以看出該數(shù)據(jù)集所使用的算法在生成偽造視頻的過程中會在換臉部位遺留相應(yīng)的偽影。因此,本文對人臉部區(qū)域進(jìn)行有效遮擋,凸顯出臉部偽影,并使用卷積神經(jīng)網(wǎng)絡(luò)提取偽影特征,從而提升模型的抗壓縮能力。在此基礎(chǔ)上,構(gòu)建一種基于Xception[5]的雙流檢測網(wǎng)絡(luò),使模型在檢測時不僅利用全局空域特征,還可以關(guān)注相應(yīng)的偽影特征,從而提高模型對Deepfake 視頻的檢測效果。
Deepfake 是Deep learning 和Fake 的組合,主要指使用深度神經(jīng)網(wǎng)絡(luò)制造的虛假視頻或圖片。2017年,一位名為“Deepfakes”的Reddit用戶上傳了一段用該技術(shù)制作的色情視頻,從此Deepfake技術(shù)不斷涌現(xiàn)。Deepfake使用自編解碼架構(gòu)(Encoder-Decoder),與傳統(tǒng)自編碼器不同,Deepfake 采用1 個編碼器(Encoder)和2 個解碼器(Decoder A 和Decoder B),其原理如圖1 所示,分別構(gòu)建2 個自編碼器,兩者共享1 個編碼器,而解碼器用于重構(gòu)另一個人的臉,共享1 個編碼器是為了能同時提取A 與B 的臉部特征。在模型訓(xùn)練階段,首先將A 與B 的人臉圖片輸入到網(wǎng)絡(luò)中,然后輸出相應(yīng)的人臉圖片,同時使用監(jiān)督學(xué)習(xí)的方法最小化輸入輸出之間的差異。Deepfake 的圖像生成過程就是恢復(fù)A 和B人臉的過程,在圖1 中,將A 人臉?biāo)腿胱跃幋a器中進(jìn)行編碼和解碼,最終得到偽造視頻。
圖1 Deepfake 技術(shù)的基本原理Fig.1 The basic principle of Deepfake technology
換臉技術(shù)既可以促進(jìn)影視行業(yè)的發(fā)展,如進(jìn)行視覺特效制作、實現(xiàn)替身演員臉部替換等,同時也可能造成一些嚴(yán)重危害,如惡搞明星政要、損害公眾人物形象以及其他違法犯罪活動。據(jù)sensity 安全公司最新統(tǒng)計結(jié)果[6]顯示,截止2020 年6 月,YouTube 等主流網(wǎng)站上的造假視頻多達(dá)49 081 個,同比增加330%左右,可見造假視頻已達(dá)到泛濫程度。為促進(jìn)視頻檢測領(lǐng)域的發(fā)展,本文總結(jié)當(dāng)前具有代表性的一些換臉開源工具,如表1 所示。
表1 具有代表性的Deepfake 生成工具Table 1 Representative Deepfake generation tools
在Deepfake檢測領(lǐng)域,研究人員已經(jīng)提出了多種取證技術(shù)[8],根據(jù)檢測目標(biāo)不同,這些技術(shù)可以分為基于圖像檢測和基于視頻檢測兩大類。在圖像檢測方面,主要分為傳統(tǒng)手工設(shè)計和深度神經(jīng)網(wǎng)絡(luò)2 個部分。在傳統(tǒng)手工設(shè)計方面,YANG 等[9]指出在偽造過程中Deepfake 很難偽造一個人的講話方式,因此,該文利用面部姿勢和頭部姿勢等生物特征進(jìn)行統(tǒng)計建模,將建模后提取的特征送入SVM 分類器以獲得檢測結(jié)果。YUE 等[10]通過檢測眨眼信息來判斷視頻的真假,但由于現(xiàn)在偽造技術(shù)的改進(jìn),導(dǎo)致該方法已無法偽造視頻進(jìn)行有效檢測。MATERN 等[3]對眼睛顏色、牙齒、人臉對齊不準(zhǔn)所產(chǎn)生的偽影等重點區(qū)域設(shè)計手工特征并進(jìn)行分類,但他們使用簡單的分類器,存在不能有效提取偽造特征的情況。在基于深度神經(jīng)網(wǎng)絡(luò)的圖像檢測方面,ZHOU 等[11]提出一種雙流網(wǎng)絡(luò)用于深度換臉檢測,其分別用2 個網(wǎng)絡(luò)學(xué)習(xí)局部噪聲殘差和相機特征以及人臉篡改痕跡,但該網(wǎng)絡(luò)魯棒性不佳。AFCHAR 等[12]為了更好地提取人臉的偽造特征,提出Meso-4網(wǎng)絡(luò)用于換臉檢測。NGUYE[13]使用膠囊網(wǎng)絡(luò)來檢測偽造圖像和視頻。LI等[14]構(gòu)建一個取證數(shù)據(jù)集FaceForensics++,其促進(jìn)了假臉檢測領(lǐng)域的發(fā)展,同時該文使用Xception 網(wǎng)絡(luò)結(jié)構(gòu)對換臉圖片進(jìn)行檢測,其能達(dá)到較好的效果。GUERA 等[15]通過高斯模糊等后處理方法來模擬偽造視頻,并使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測,其能取得較好的效果,但是,基于深度學(xué)習(xí)生成的偽造視頻與其模擬視頻之間仍然存在一定差異。
相比于圖片,視頻中包含的信息更多,具有更大的危害性。針對視頻檢測,經(jīng)典的取證思路是將視頻對象轉(zhuǎn)化為圖片對象,從視頻中隨機選擇一些幀并對這些幀進(jìn)行檢測,通常使用最大或平均分?jǐn)?shù)作為最終分?jǐn)?shù)對視頻真假進(jìn)行預(yù)測。如果一個視頻只有部分關(guān)鍵幀被篡改,那么使用這種檢測方式容易出現(xiàn)誤報或者漏檢情況。文獻(xiàn)[15-16]將卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶(LSTM)網(wǎng)絡(luò)相結(jié)合,用于視頻序列檢測:首先使用卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀中的特征;然后使用這些特征訓(xùn)練RNN,以提取相應(yīng)的時序信息。此外,有研究人員基于生物信號進(jìn)行檢測,如CIFTCI 等[17]通過檢測心跳在面部產(chǎn)生的細(xì)微差別來區(qū)分視頻真假。
總體來看,關(guān)于深度造假檢測的研究工作仍處于初步發(fā)展階段,造假技術(shù)和檢測技術(shù)是一個相互博弈的過程,目前的檢測方法都有一定的局限性,在遇到跨壓縮率、跨分辨率、跨數(shù)據(jù)集等情況時缺乏足夠的泛化性。同時,在實際案件中,違法人員也會針對這些問題對視頻進(jìn)行各種后處理,從而提高了檢測難度。
本文模型基于Xception網(wǎng)絡(luò)構(gòu)建,Xception由輸入層、中間層、輸出層3 個主要部分組成,共包含36 個卷積層。作為Inceptionv3 的改進(jìn),Xception 引入了深度可分離卷積,在幾乎不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型效果。與普通卷積核相比,深度可分離卷積可以有效分離空間以及通道間的相關(guān)性。
由于造假視頻在換臉過程中受限于Deepfake 生成算法,因此會留下相應(yīng)的偽影,這些偽影主要包括面部扭曲、不同分辨率、邊界色差等特征,具體表現(xiàn)為以鼻子為中心的區(qū)域成像質(zhì)量相對較好,該區(qū)域以外的區(qū)域則偽影明顯。本文據(jù)此設(shè)計一種雙流網(wǎng)絡(luò),分別用來學(xué)習(xí)造假圖片的全局信息和偽影特征。在特征提取網(wǎng)絡(luò)選擇方面,由于文獻(xiàn)[4]中指出Xception 對于Deepfake 視頻檢測能取得優(yōu)秀效果,同時該網(wǎng)絡(luò)模型在DFDC、CAAD 等虛假人臉識別中被廣泛應(yīng)用,因此本文選擇Xception 作為模型的基準(zhǔn)網(wǎng)絡(luò)。在偽影特征方面,首先根據(jù)人臉關(guān)鍵點信息生成相應(yīng)的Mask 以掩蓋中心區(qū)域,以此突出相應(yīng)的偽影痕跡;其次由于造假視頻中的人物背景發(fā)生變化,因此利用Xception 網(wǎng)絡(luò)來有效提取相應(yīng)的偽影特征。本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。
圖2 本文網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Network model structure in this paper
如圖2 所示,本文首先使用FFmpeg 對Deepfake視頻進(jìn)行分幀,然后利用人臉檢測器MTCNN 獲取人臉圖片。上分支(Frgb(x))使用Xception 來學(xué)習(xí)換臉圖片的全局信息,另一個分支(Fmask)網(wǎng)絡(luò)通過相應(yīng)的預(yù)處理方式使模型學(xué)習(xí)相應(yīng)的偽影信息,最后將這2 個網(wǎng)絡(luò)進(jìn)行集成并實現(xiàn)分類檢測。在測試階段,融合2 個網(wǎng)絡(luò)的預(yù)測結(jié)果作為最終得分,如下:
其中:P(x)為最終的預(yù)測結(jié)果;Frgb(x)為Full_face 流的預(yù)測結(jié)果;Fmask為Mask 流的預(yù)測值;?為平衡因子,實驗時取0.5。
FF++[4]是當(dāng)前較為主流的視頻數(shù)據(jù)庫之一,該數(shù)據(jù)庫于2019 年被推出,是原始FaceForensics[18]數(shù)據(jù)庫的擴展。FF++包含1 000 張真實視頻,視頻均來自YouTube。為證明本文算法的有效性,使用FF++中的Deepfakes 數(shù)據(jù)集,Deepfakes 數(shù)據(jù)集共包括1 000 個假視頻,其中,訓(xùn)練集有720 個,測試集和驗證集均為140 個。同時,為了模擬現(xiàn)實情況,使用H.264編解碼器壓縮,生成Raw(c0)、HQ(c23)、LQ(c40)這3 種壓縮視頻。視頻壓縮會丟掉部分關(guān)鍵偽造特征,使檢測精度降低,同時導(dǎo)致模型在跨壓縮率中表現(xiàn)較差。本文選擇c23 和c40 這2 種壓縮方式的數(shù)據(jù)并進(jìn)行抗壓縮實驗,以驗證本文算法的有效性。實驗中共制作11 400 張圖片,其中,c40 作為跨壓縮率測試的圖片,共2 800 張。本文實驗的訓(xùn)練集、測試集、驗證集具體信息如表2 所示。
表2 數(shù)據(jù)集信息Table 2 Datasets information
在本文實驗中,數(shù)據(jù)集制作主要包含4個步驟:1)按照官方劃分格式進(jìn)行劃分;2)抽取視頻幀;3)對視頻幀圖像進(jìn)行人臉截取和關(guān)鍵點保存;4)制作人臉Mask 區(qū)域。官方給定的劃分格式是json 文件,其中包括數(shù)據(jù)集的劃分方法以及原視頻和篡改視頻的對應(yīng)關(guān)系。本文根據(jù)json 文件將對應(yīng)的視頻劃分為Original 和Manipulated 兩組,每組又劃分為訓(xùn)練集、測試集、驗證集,然后使用FFmpeg 將每個Deepfake 視頻等間隔截取10 幀,使用MTCNN[19]獲取人臉框,以人臉框為中心向外擴張0.3 倍并保存,同時根據(jù)人臉關(guān)鍵點信息進(jìn)行人臉對齊,最后使用人臉關(guān)鍵點信息生成相應(yīng)的Mask 區(qū)域,以此遮擋鼻子所在的中心區(qū)域。
本文實驗硬件配置為Intel?Xeon?CPUE5-2650v4@2.20 GHz,內(nèi)存164 GB,GPU 為TITAN X(Pascal),軟件配置為Linux,CUDA9.2,CUDNN7.5.1。深度學(xué)習(xí)算法框架使用Pytorch1.2。本文實驗平臺基于Pytorch 深度學(xué)習(xí)框架搭建,為了提高模型的分類性能,使用ImageNet 上的預(yù)訓(xùn)練模型。損失函數(shù)BCEWithLogitsLoss、實驗參數(shù)在模型訓(xùn)練過程中使用Adam 學(xué)習(xí)率調(diào)整,超參數(shù)設(shè)置為:LearningRate=0.000 2,WeightDecay(權(quán)重衰減)=0.001,batchsize=40,總計訓(xùn)練10個epoch,每個epoch驗證5次,最終取在測試集上表現(xiàn)最好的模型用于驗證。在實驗測試階段,每個支路的權(quán)重系數(shù)都為0.5,圖片的判斷閾值設(shè)置為0.5,即得分大于0.5的圖片認(rèn)為是偽造圖片。
可以將Deepfake 檢測問題看作一個二分類真假問題。本文使用Logloss 和Acc 這2 個評價指標(biāo),兩者計算公式分別如下:
其中:Rright為輸出概率大于0.5 的樣本數(shù)量;Aall為總樣本數(shù)量;n為測試圖片的數(shù)量;y′i為判別圖像為假的置信度,取值范圍為(0,1);yi為測試圖像的實際值,如果為假圖像,則為0,反之,則為1。
為了更好地驗證模型效果,本文還使用ROC 曲線下面積AUC 值作為評測指標(biāo)。ROC 曲線是以TPR(真陽性率)為縱坐標(biāo)、FPR(假陽性率)為橫坐標(biāo)而繪制,ROC 曲線可以更直觀地反映不同模型的優(yōu)劣程度。
3.4.1 與單流網(wǎng)絡(luò)的對比
由于視頻壓縮會使偽造視頻丟掉很多特征信息,使得模型檢測能力下降,同時,在當(dāng)今的互聯(lián)網(wǎng)中,很多社交軟件會自動地壓縮視頻,其中最常見的是CRF 壓縮方式。在同一壓縮率下進(jìn)行測試,模型檢測精度高達(dá)98%,但是在面對壓縮情況時,準(zhǔn)確率會大幅下降,可見后處理對于Deepfake 檢測的影響。在實際案件中,公安機關(guān)無法獲得高質(zhì)量的原視頻,很容易發(fā)生錯檢情況,從而影響偵查方向。因此,在同一壓縮率下進(jìn)行對比,意義并不是很大。本文為了檢驗?zāi)P褪欠駥W(xué)習(xí)到篡改圖像的偽影特征,選擇跨壓縮率測試,即在Deepfakes 中的c23 上進(jìn)行訓(xùn)練,在c40 版本上進(jìn)行驗證。為了證明本文網(wǎng)絡(luò)和偽影特征的有效性,測試Mask 單流、Full_face 和雙流網(wǎng)絡(luò)在不同壓縮率下的性能,實驗結(jié)果如表3 所示,最優(yōu)結(jié)果加粗表示。
表3 本文模型與單流網(wǎng)絡(luò)的對比Table 3 Comparison between this model and single stream network
從表3 可以看出,在同一壓縮率下進(jìn)行測試,單流和雙流網(wǎng)絡(luò)檢測精度都很高,這與數(shù)據(jù)分布有關(guān),同時偽影特征取得了0.957 8 的精度,證明該特征在Deepfake 偽造視頻檢測中具有有效性。但是,在跨壓縮率測試中,模型精度大幅降低,可見視頻壓縮對于檢測結(jié)果具有較大影響。
不同模型的ROC 曲線和AUC 值如圖3 所示。從圖3 可以看出,本文通過對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計,使得模型在訓(xùn)練過程中學(xué)習(xí)偽影特征,在跨壓縮率方面有一定性能提升,驗證了本文方法的有效性。
圖3 不同模型在驗證集上的ROC 曲線和AUC 值Fig.3 ROC curves and AUC values of different models on the validation set
3.4.2 不同Mask 比例對實驗結(jié)果的影響
本文通過對臉部區(qū)域添加相應(yīng)的Mask,以使網(wǎng)絡(luò)更好地學(xué)習(xí)偽造特征。如圖4所示,為了探究不同Mask比例對于實驗結(jié)果的影響,本文使用MTCNN 所保留的人臉框信息,對人臉框進(jìn)行不同程度的縮放,將縮放后的區(qū)域像素值變?yōu)?,保留其余區(qū)域的像素值,目的是遮蓋掉中心區(qū)域,突出四周的偽影痕跡。本文將MTCNN 所檢測的人臉框比例設(shè)置為1,使用該坐標(biāo)值進(jìn)行比例縮放,進(jìn)而生成相應(yīng)的Mask 區(qū)域。由于Deepfake 偽造視頻只針對部分面部區(qū)域進(jìn)行偽造,因此比例值大于0.5 會掩蓋掉偽造區(qū)域,而當(dāng)比例值小于0.3 時,無法有效覆蓋鼻子等中心區(qū)域。為保證實驗結(jié)果的科學(xué)性,在實驗過程中,本文固定Full_face 流,只更改Mask 流,實驗結(jié)果如表4 所示。從表4 可以看出:當(dāng)Mask比例為0.35時,檢測效果最好;當(dāng)Mask較大時,檢測精度與單流網(wǎng)絡(luò)一致,原因可能是Mask 掩蓋了過多的偽影痕跡,如眼睛、嘴巴等,這些區(qū)域可能受限于生成算法,留下了較多的偽造特征。為進(jìn)一步證明本文方法的有效性,避免模型集成帶來的影響,重新訓(xùn)練Full_face 流,并將Mask 流換成Full_face 流,即將2 個全局信息進(jìn)行融合。實驗結(jié)果表明,2 個Full_face 流會導(dǎo)致檢測精度降低,這可能是由于單模型之間的一致性和精度較高,在集成過程中,另一個Full_face 流并不能很好地起到輔助監(jiān)督的作用。通過與Xception 結(jié)果進(jìn)行對比可以看出,本文模型在跨壓縮率上體現(xiàn)出一定的優(yōu)越性。
表4 不同Mask 比例對于跨壓縮率實驗結(jié)果的影響Table 4 The impact of different Mask ratios on the results of cross-compression experiments
圖4 不同Mask 比例下的人臉圖像效果Fig.4 Face image effects under different Mask ratios
3.4.3 與其他方法的對比
隨著國內(nèi)外學(xué)者對Deepfake 檢測研究的深入,出現(xiàn)了很多經(jīng)典方法,其中,EfficientNet[20]、Xception、ResNet[21]被廣泛應(yīng)用。為了驗證本文方法的有效性,選取常見的檢測方法作為對比進(jìn)行實驗,結(jié)果如表5 所示。從表5 可以看出,多數(shù)特征提取網(wǎng)絡(luò)都可以達(dá)到很好的檢測結(jié)果,Xception作為該領(lǐng)域主流的取證網(wǎng)絡(luò),具有明顯優(yōu)勢,在跨壓縮率方面,本文方法檢測精度比其他方法高出2~10個百分點,同時,模型在ROC曲線和AUC 值方面都有不錯表現(xiàn)。圖5 所示結(jié)果進(jìn)一步說明了本文方法的有效性,但是,跨壓縮率的模型精度只有0.823 4,仍然存在大量漏檢和錯檢的情況,也從側(cè)面證明了跨壓縮率仍然是偽造視頻檢測中的難點和重點。
表5 本文方法與其他經(jīng)典方法的對比Table 5 Comparison between this method and other classical methods
圖5 不同方法在驗證集上的ROC 曲線和AUC 值Fig.5 ROC curves and AUC values of different methods on the validation set
從早期的偽造色情視頻到現(xiàn)在的政治安全問題,犯罪分子精心設(shè)計的Deepfake 視頻會對警察執(zhí)法辦案以及司法審判帶來巨大影響。本文提出一種基于Xception 的雙流檢測模型,通過在面部中心區(qū)域添加相應(yīng)的Mask 來提升模型對于偽影特征的提取能力。在Deepfakes 數(shù)據(jù)集上的實驗結(jié)果表明,本文模型的檢測精度高達(dá)0.986 4,同時在跨壓縮率檢測方面相對ResNet50、DSP-FWA 等方法也有明顯的性能提升。下一步將對不同偽造方式下的偽影特征進(jìn)行研究,提高特征在跨壓縮率方面的魯棒性,從而提升模型的檢測準(zhǔn)確率。