楊新露,程 健,張 凱
(1.安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001; 2.安徽理工大學(xué) 人工智能學(xué)院,安徽 淮南 232001)
神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域,深度偽造技術(shù)也迅速發(fā)展,其主要通過(guò)生成對(duì)抗網(wǎng)絡(luò)[1]和自編碼器[2]實(shí)現(xiàn),旨在對(duì)圖像或視頻中的人臉進(jìn)行替換、修改面部屬性或表情以及合成不存在的人臉.現(xiàn)在的偽造模型可以生成高質(zhì)量的虛假人臉,人眼無(wú)法直接辨別真假.此外,即使是非專(zhuān)業(yè)人士不了解生成原理也可以通過(guò)應(yīng)用程序和開(kāi)源工具生成高質(zhì)量的虛假圖像.雖然深度偽造可以應(yīng)用于計(jì)算機(jī)生成圖像、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、教育、藝術(shù)、動(dòng)畫(huà)和電影制作[3]等方面,但是偽造方法也可能應(yīng)用于惡意的目的.這些偽造的圖像或視頻上傳到互聯(lián)網(wǎng)上傳播虛假信息或者金融欺詐等,對(duì)個(gè)人和社會(huì)帶來(lái)嚴(yán)重的危害[4].
為了解決這些威脅,深度偽造檢測(cè)技術(shù)不斷發(fā)展來(lái)確定數(shù)字媒體的可信度和真實(shí)性.早期的深度偽造檢測(cè)算法主要基于手工制作的特征和可見(jiàn)的偽影進(jìn)行判別,如頭部姿勢(shì)不一致、眨眼、面部偽影等.近幾年開(kāi)始使用卷積神經(jīng)網(wǎng)絡(luò)[5]檢測(cè)虛假圖像或視頻.卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)局部區(qū)域的微小視覺(jué)偽影來(lái)區(qū)分圖像真假,也取得了比較高的準(zhǔn)確性[6].由于卷積神經(jīng)網(wǎng)絡(luò)的感受野受限,只能通過(guò)學(xué)習(xí)局部紋理來(lái)區(qū)分真假.然而局部紋理在數(shù)據(jù)集間不同導(dǎo)致一些檢測(cè)方法在FaceForensics++[7]進(jìn)行訓(xùn)練和測(cè)試時(shí)顯示出優(yōu)越的性能,在Celeb-DF[8]或其他數(shù)據(jù)集上進(jìn)行測(cè)試時(shí)準(zhǔn)確性大幅度下降.因此,深度偽造檢測(cè)方法的泛化性需要進(jìn)一步提高.
一些偽造圖像通過(guò)局部特征檢測(cè)時(shí)是正常的,但是從全局特征中可以檢測(cè)到偽影,因此提出了基于局部和全局特征的深度偽造檢測(cè)方法來(lái)提高泛化性.首先,通過(guò)多尺度Transformer模塊從不同尺寸的圖像塊中提取全局特征.此外,使用滑動(dòng)窗口對(duì)圖像進(jìn)行分塊,保存圖像塊間的相鄰信息,從而更好地提取圖像全局信息.進(jìn)一步,將EfficientNet網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),通過(guò)注意力機(jī)制提取圖像局部特征.然后將全局特征和局部特征結(jié)合學(xué)習(xí)偽造圖像中的偽影,對(duì)深度偽造人臉進(jìn)行分類(lèi).在FaceForensics++、Celeb-DF和DFDC[9]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的方法在不同數(shù)據(jù)集之間具有一定的泛化性.
深度偽造主要是由生成對(duì)抗網(wǎng)絡(luò)和自編碼器等深度生成模型實(shí)現(xiàn),對(duì)圖像或視頻中的人臉圖像進(jìn)行篡改,生成逼真的虛假人臉.生成對(duì)抗網(wǎng)絡(luò)使用生成器和判別器兩個(gè)網(wǎng)絡(luò)生成虛假人臉,判別器判別接收到圖像的真假,生成器生成逼真的虛假圖像以欺騙判別器.生成對(duì)抗網(wǎng)絡(luò)在深度偽造領(lǐng)域獲得了可信和逼真的結(jié)果,如StarGAN[10]、DiscoGAN[11]和StyleGAN-v2[12]等.自編碼器生成假臉的方法是使用編碼器-解碼器分解和重組兩個(gè)不同的人臉圖像,通過(guò)交換解碼器對(duì)人臉圖像進(jìn)行篡改.現(xiàn)在深度偽造方法多種多樣,需要具有泛化性的方法進(jìn)行檢測(cè).
為了避免深度偽造帶來(lái)的安全威脅,研究人員提出了多種深度偽造檢測(cè)方法.早期的深度偽造檢測(cè)算法主要基于手工制作的特征和可見(jiàn)的偽影進(jìn)行判別,如頭部姿勢(shì)不一致、眨眼、面部偽影等.現(xiàn)有的大多數(shù)面部偽造方法會(huì)將更改后的面部混合到現(xiàn)有的背景圖像中.因此,現(xiàn)在主要是使用深度神經(jīng)網(wǎng)絡(luò)通過(guò)檢測(cè)視覺(jué)偽影或混合邊界來(lái)判別真假.Li等人[13]使用面部X射線(xiàn)檢測(cè)偽造邊界來(lái)判別圖像真假.Zhao等人[14]為了挖掘更多細(xì)微的偽影提出了多注意力機(jī)制進(jìn)行深度偽造檢測(cè),并將深度偽造檢測(cè)制定為細(xì)粒度分類(lèi)問(wèn)題.Qian等人[15]發(fā)現(xiàn)深度偽造圖像或視頻中的偽影會(huì)被壓縮操作破壞,但是在頻域中仍然可以檢測(cè)到,提出了空頻結(jié)合的深度偽造檢測(cè)方法.Saikia等人[16]利用基于光流的特征提取方法來(lái)提取時(shí)間特征,通過(guò)分析視頻幀內(nèi)和幀間差異來(lái)準(zhǔn)確識(shí)別真實(shí)性.雖然這些檢測(cè)方法在同一數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試時(shí)取得了較高的準(zhǔn)確性,但是在其他數(shù)據(jù)集上進(jìn)行測(cè)試時(shí)有效性降低,深度偽造檢測(cè)方法的泛化性有待提高.
Transformer[17]是基于多頭注意力機(jī)制的模型,具有強(qiáng)大的上下文建模能力.Transformer在機(jī)器翻譯、文本分類(lèi)、問(wèn)題回答等自然語(yǔ)言處理任務(wù)中表現(xiàn)了出色的性能,如BERT[18],BioBERT[19]和GPT-3[20]等.最近Transformer擴(kuò)展到圖像領(lǐng)域應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù),如目標(biāo)檢測(cè)[21]、圖像分割[22]、圖像分類(lèi)[23]等.ViT(Vision Transformer)[24]將圖像處理成16×16的圖像塊,然后形成圖像片序列,直接輸入到Transformer的編碼器中進(jìn)行圖像分類(lèi).現(xiàn)在研究人員開(kāi)始使用Transformer進(jìn)行深度偽造檢測(cè).Khan等人[25]使用ViT進(jìn)行深度偽造檢測(cè),他們提出了增量學(xué)習(xí)策略,在較小的數(shù)據(jù)量上對(duì)所提出的模型進(jìn)行調(diào)整,獲得更好的檢測(cè)性能.Wodajo等人[26]提出了卷積ViT,使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并使用ViT對(duì)學(xué)習(xí)的特征進(jìn)行分類(lèi),取得了較好的檢測(cè)性能.
本文提出了基于局部和全局特征的深度偽造檢測(cè)模型,整體框架如圖1所示.本文首先使用RetinaFace[27]從視頻中提取人臉,然后使用Transformer網(wǎng)絡(luò)結(jié)構(gòu)和注意力模塊分別提取局部和全局特征,最后通過(guò)這些特征對(duì)人臉圖像進(jìn)行分類(lèi).
圖1 基于局部和全局特征的深度偽造檢測(cè)模型整體框架
在深度偽造過(guò)程中主要是對(duì)人臉的面部區(qū)域進(jìn)行篡改,背景區(qū)域一般保持不變.去除背景噪聲后基于人臉區(qū)域訓(xùn)練模型,可以降低計(jì)算復(fù)雜度,提高模型的性能.因此本文從輸入的視頻中隨機(jī)提取人臉圖像,然后采用RetinaFace[27]進(jìn)行人臉檢測(cè),根據(jù)五個(gè)標(biāo)記點(diǎn)定位人臉面部矩形.對(duì)于圖像中有多張人臉的情況,將檢測(cè)到的人臉矩形的中心點(diǎn)與掩碼的中心點(diǎn)進(jìn)行比較,以確定檢測(cè)到的人臉位置.本文將面部矩形放大1.2倍后裁剪每個(gè)幀上的面部區(qū)域,大小調(diào)整為224×224,并使用計(jì)算出的標(biāo)記進(jìn)行人臉對(duì)齊.
在使用Transformer模型分析圖像時(shí),需要把輸入圖像I分成較小的圖像塊IP,然后組成序列.為了保存和學(xué)習(xí)局部區(qū)域的相鄰信息,使用滑動(dòng)窗口的方式對(duì)圖像進(jìn)行分割,將重疊的圖像塊作為輸入.具體來(lái)說(shuō),將分辨率為H×W的輸入圖像分成大小為P×P的圖像塊,通道數(shù)不變,都為C.滑動(dòng)窗口的步幅為S,每個(gè)相鄰的圖像塊共享一個(gè)大小為P×(P-S)的相鄰區(qū)域.因此,可以將輸入的圖像分成N個(gè)圖像塊:
(1)
將獲得的圖像塊展平并投影到潛在的D維線(xiàn)性空間,先添加上圖像的編碼特征,然后添加可學(xué)習(xí)的位置編碼保留每個(gè)圖像塊的位置信息,如式(2)所示:
(2)
其中:E∈P2×(C·D)是圖像塊編碼,Epos∈(N+1)×D表示位置編碼.
Transformer模型主要包括多頭注意力模塊和多層感知機(jī)模塊,具體結(jié)構(gòu)如圖2所示.多頭注意力模塊可以更好地學(xué)習(xí)全局特征,對(duì)輸入X執(zhí)行三個(gè)可學(xué)習(xí)的線(xiàn)性投影WQ、WK和WV,通過(guò)式(3)生成Q(Query)、K(Key)和V(Value):
圖2 Transformer結(jié)構(gòu)圖
Q=XWQ,K=XWK,V=XWV
(3)
然后矩陣Q、K和V通過(guò)式(4)進(jìn)行自注意力計(jì)算.
(4)
其中:dK是K中每個(gè)輸入向量的維度.
每一層的輸出可以表示為:
(5)
ViT中使用固定大小的圖像塊,只能在小部分區(qū)域提取特征.為了更好地從全局中提取信息,提出了多尺度Transformer模塊,有利于提取更細(xì)微的面部細(xì)節(jié).所提出的多尺度Transformer框架由兩個(gè)分支組成,包括小圖像塊分支和大圖像塊分支.這兩個(gè)分支的主要區(qū)別是圖像塊的大小以及如何從這些圖像塊編碼和位置編碼中構(gòu)建序列塊編碼.小圖像塊分支從較小尺寸的圖像塊中提取信息,大圖像塊分支從較大的圖像塊中提取更多的全局信息.最后將提取的兩部分特征進(jìn)行互補(bǔ)對(duì)偽造人臉?lè)诸?lèi).
由于真實(shí)和虛假人臉圖像之間的差異也存在于局部區(qū)域中,在提取全局特征的同時(shí)也需要注意局部特征.本文提出了基于注意力機(jī)制定位圖像的偽造區(qū)域來(lái)獲取局部偽造特征,然后使用區(qū)域獨(dú)立性損失函數(shù)[14],允許多個(gè)注意力圖聚焦在人臉的不同區(qū)域.
給定輸出圖像I,主干網(wǎng)絡(luò)用f表示,從第t層提取的特征圖用ft(I)表示,大小為Ct×Ht×Wt,其中:H、W和C分別表示特征圖的高度、寬度和通道數(shù).然后將主干網(wǎng)絡(luò)特定層生成的特征圖ft(I)輸入到輕量級(jí)注意力模塊.該模塊由一個(gè)3×3卷積層、一個(gè)1×1卷積層、兩個(gè)批歸一化層和兩個(gè)ReLU激活函數(shù)組成,具體模塊如圖3所示.注意力模塊生成大小為Ht×Wt的多個(gè)注意力圖,對(duì)應(yīng)于特定的判別區(qū)域.
圖3 注意力模塊
由于不同的注意力圖傾向于集中在圖像中的相同區(qū)域,影響網(wǎng)絡(luò)捕獲更多的偽造痕跡.本文將Zhao等人[14]提出的區(qū)域獨(dú)立性損失與交叉熵?fù)p失結(jié)合,將注意力映射到不同的偽造區(qū)域.最終的目標(biāo)函數(shù)見(jiàn)式(6):
L=λ1*LBC+λ2*LRIL
(6)
其中:λ1和λ2是這兩個(gè)損失函數(shù)的平衡權(quán)重,在實(shí)驗(yàn)中設(shè)置為λ1=λ2=1.
本文使用三個(gè)公開(kāi)的人臉偽造數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),即FaceForensics++(FF++)[7]、Celeb-DF[8]和DFDC[9].FF++是Deepfake檢測(cè)領(lǐng)域最流行的數(shù)據(jù)集之一.FF++包含1 000個(gè)原始視頻和4 000個(gè)偽造視頻.原始視頻是R?ssler等人從YouTube收集,偽造視頻是由Deepfakes、FaceSwap、Face2Face和NeuralTextures這四種偽造方法生成.網(wǎng)絡(luò)上大多數(shù)視頻經(jīng)過(guò)壓縮,為了模擬真實(shí)的偽造視頻,使用不同壓縮級(jí)別的H.264編碼器進(jìn)行壓縮,生成高質(zhì)量(C23)和低質(zhì)量(C40)視頻.Celeb-DF數(shù)據(jù)集包括590個(gè)不同年齡、種族和性別的受試者的原始視頻,5 639個(gè)Deepfakes偽造視頻,總幀數(shù)超過(guò)230萬(wàn).該數(shù)據(jù)集是一個(gè)高質(zhì)量偽造視頻數(shù)據(jù)集,對(duì)大多數(shù)現(xiàn)有檢測(cè)方法具有一定的挑戰(zhàn)性.DFDC數(shù)據(jù)集是由Facebook主辦的Deepfake檢測(cè)挑戰(zhàn)賽構(gòu)建的大規(guī)模Deepfake數(shù)據(jù)集.該數(shù)據(jù)集包含3 426名付費(fèi)演員的10萬(wàn)個(gè)視頻,使用多種Deepfake和基于GAN的多種面部操作方法合成.
為了評(píng)估本文方法的有效性,采用準(zhǔn)確率(ACC,Accuracy)和ROC曲線(xiàn)面積(AUC,Area Under the receiver operating characteristic Curve)進(jìn)行評(píng)估.ACC計(jì)算公式如下:
(7)
其中:TP(True Positive)表示真臉預(yù)測(cè)為真,TN(True Negative)表示假臉預(yù)測(cè)為假,FP(False Positive)表示假臉預(yù)測(cè)為真,FN(False Negative)表示真臉預(yù)測(cè)為假.ROC曲線(xiàn)的橫坐標(biāo)為T(mén)PR(真正例率),縱坐標(biāo)為FPR(假正例率),從而獲得AUC值.AUC常用于圖像和視頻領(lǐng)域的分類(lèi)任務(wù),可以更直觀(guān)地反應(yīng)分類(lèi)模型的優(yōu)劣程度.ACC和AUC越大表明分類(lèi)器的性能越好.
本文提出的模型使用Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn).為了加快訓(xùn)練速度并取得更好的分類(lèi)效果,加載在ImageNet數(shù)據(jù)集[28]上的預(yù)訓(xùn)練模型.在訓(xùn)練時(shí)使用Adam優(yōu)化器,學(xué)習(xí)率為0.001,批量大小為8,epoch設(shè)置為50.
3.3.1 數(shù)據(jù)集內(nèi)評(píng)估
本文在FaceForensics++數(shù)據(jù)集不同質(zhì)量的視頻上進(jìn)行訓(xùn)練與測(cè)試,并與其他檢測(cè)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示.在人臉的局部和全局提取特征使得本文方法在低質(zhì)量的視頻上ACC達(dá)到了90.8%,AUC達(dá)到了93.67%,與其他方法相比取得了較好的結(jié)果.
表1 FaceForensics++數(shù)據(jù)集內(nèi)對(duì)高質(zhì)量和低質(zhì)量視頻的評(píng)估結(jié)果
3.3.2 跨數(shù)據(jù)集泛化性評(píng)估
現(xiàn)在的檢測(cè)方法在訓(xùn)練集上取得了較好的檢測(cè)性能,但是在其他數(shù)據(jù)集上測(cè)試時(shí)性能?chē)?yán)重下降.為了評(píng)估本文方法在不同數(shù)據(jù)集之間的泛化性,在FaceForensics++數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在Celeb-DF和DFDC數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)的AUC結(jié)果見(jiàn)表2.本文方法在Celeb-DF數(shù)據(jù)集上測(cè)試的AUC結(jié)果達(dá)到77.3%,在DFDC數(shù)據(jù)集上達(dá)到73.32%,在這兩個(gè)數(shù)據(jù)集上的性能都優(yōu)異于其他檢測(cè)方法.通過(guò)與現(xiàn)有的方法比較,證明了本文方法能夠捕獲更多的偽造偽影,具有良好的跨數(shù)據(jù)集泛化能力.
表2 在Celeb-DF和DFDC數(shù)據(jù)集上的泛化結(jié)果(AUC(%))
3.3.3 不同偽造方法泛化性評(píng)估
本文進(jìn)一步在FaceForensics++數(shù)據(jù)集的不同偽造方法生成的假視頻中評(píng)估泛化性,在FaceForensics++數(shù)據(jù)集的3種偽造方法生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練并在剩余的偽造方法上進(jìn)行測(cè)試.實(shí)驗(yàn)結(jié)果如表3所示,本文方法在4中偽造類(lèi)型上測(cè)試的AUC值都達(dá)到了90%以上.本文使用Transformer提取全局特征并使用EfficientNet提取局部特征,更全面的捕捉各種偽造痕跡,因此本文方法可以很好地?cái)U(kuò)展到以前未見(jiàn)的深度偽造類(lèi)型.
表3 FaceForensics++數(shù)據(jù)集上不同偽造方法之間的泛化效果(AUC(%))
本文方法主要是通過(guò)Transformer提取全局特征和注意力網(wǎng)絡(luò)提取局部特征后對(duì)圖像進(jìn)行分類(lèi).為了評(píng)估全局特征與局部特征結(jié)合的有效性,本節(jié)在FaceForensics++數(shù)據(jù)集上進(jìn)行消融研究.實(shí)驗(yàn)結(jié)果如表4所示,本文方法與僅使用全局特征相比ACC提高了5.57%,AUC提高了4.52%.實(shí)驗(yàn)結(jié)果表明將全局特征與局部特征結(jié)合能夠提高檢測(cè)性能.
表4 在FaceForensics++數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
針對(duì)目前深度偽造檢測(cè)方法泛化性較差問(wèn)題,本文提出了基于圖像局部和全局特征進(jìn)行分類(lèi)的方法.通過(guò)多尺度Transformer模塊從不同尺寸的圖像塊中提取特征,并保存圖像塊間的相鄰信息,更全面的提取全局特征.使用EfficientNet網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并通過(guò)注意力機(jī)制提取圖像局部特征.實(shí)驗(yàn)結(jié)果表明本文方法能夠比現(xiàn)有檢測(cè)方法捕獲更多的偽影,在不同數(shù)據(jù)集和偽造方法之間表現(xiàn)出更好的泛化性.