袁 野
(福建師范大學(xué),福建 福州 350117)
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,許多新技術(shù)的產(chǎn)生為人們帶來了諸多方面的便利。如在金融、交通等領(lǐng)域,人臉識(shí)別技術(shù)可以實(shí)現(xiàn)在線驗(yàn)證身份、刷臉進(jìn)出站等,極大地提高了在線支付和出行的安全性和便利性。但是與此同時(shí),深度學(xué)習(xí)技術(shù)也帶來了許多風(fēng)險(xiǎn),面部篡改技術(shù)就是其中一種。面部篡改技術(shù)是指通過某種算法策略或圖像工具,在保證篡改效果的真實(shí)性和合理性的前提下,將一個(gè)人的面部信息篡改為另一個(gè)人的面部信息的技術(shù)。近年來,通過基于深度學(xué)習(xí)的面部篡改技術(shù),人們可以低成本合成肉眼難以分辨的虛假視頻,這些虛假視頻具有較高的“真實(shí)性”,普通大眾很難分辨其真?zhèn)?。一旦某些特殊人物的視頻被別有用心的人通過面部篡改技術(shù)進(jìn)行處理,“張冠李戴”地將某些行為強(qiáng)加在他們身上,將會(huì)給社會(huì)穩(wěn)定和輿論安全帶來非常大的隱患。所以,對面部篡改的鑒別工作無疑是十分重要的。
在深度學(xué)習(xí)領(lǐng)域,面部篡改檢測算法層出不窮。LDCNN網(wǎng)絡(luò)將傳統(tǒng)圖像噪聲的殘差描述符轉(zhuǎn)換為卷積輸入,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行篡改分類,取得了比傳統(tǒng)方式更優(yōu)秀的模型表現(xiàn)[1];Rahmouni等(2017)提出具有全局池化層的新型神經(jīng)網(wǎng)絡(luò)框架,通過預(yù)測計(jì)算四個(gè)統(tǒng)計(jì)值(最小值、最大值、平均值、方差)進(jìn)行篡改分類[2];Liu等(2020)為有效融合時(shí)間和空間不同維度的信息,提出了I3D網(wǎng)絡(luò),通過三維卷積的方式進(jìn)行全視頻的分類,取得了較為優(yōu)秀的識(shí)別效果[3];Bayar等(2016)創(chuàng)造了一種全新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過抑制圖像的內(nèi)容和自適應(yīng)地學(xué)習(xí)篡改特征,可以迫使網(wǎng)絡(luò)從圖像中學(xué)習(xí)篡改線索信息[4];MesoNet網(wǎng)絡(luò)認(rèn)為低級語義特征會(huì)被卷積抽象,而高級語義特征又難以被人理解,故主要針對圖像的中級語義特征進(jìn)行面部篡改檢測[5];Chollet(2017)提出了深度可分離卷積,并基于此提出了Xception網(wǎng)絡(luò)模型結(jié)構(gòu),僅通過RGB圖像信息即可獲得較高的模型判別準(zhǔn)確度,如今被作為主干網(wǎng)絡(luò)廣泛應(yīng)用于面部篡改檢測領(lǐng)域[6]。
然而,上述基于深度學(xué)習(xí)的檢測方法普遍存在如下問題。大多數(shù)基于深度學(xué)習(xí)的檢測算法依賴傳統(tǒng)卷積操作,而傳統(tǒng)卷積操作直接聚合了局部圖像的灰度信息,使得網(wǎng)絡(luò)更傾向于關(guān)注圖像本身的色彩信息,一定程度上忽略了圖像的梯度信息和局部細(xì)粒度特征[7]。而對于面部篡改檢測任務(wù),篡改產(chǎn)生的梯度信息特征和局部細(xì)粒度特征可以體現(xiàn)假臉圖像的篡改手段等信息,這些信息對于模型是否能準(zhǔn)確地進(jìn)行檢測識(shí)別是必要的。因此,基于以上考慮,針對傳統(tǒng)卷積操作出現(xiàn)的忽略梯度信息特征和局部細(xì)粒度特征的現(xiàn)象,本文設(shè)計(jì)了一種梯度增強(qiáng)模塊,可以逐卷積層進(jìn)行圖像梯度的增強(qiáng),以指導(dǎo)模型在訓(xùn)練過程中對圖像梯度信息進(jìn)行學(xué)習(xí),并針對面部篡改檢測領(lǐng)域任務(wù)的特點(diǎn)選擇最優(yōu)的平衡因子,以融合傳統(tǒng)卷積特征和中心差分卷積特征。
針對傳統(tǒng)卷積方式中存在的忽略梯度信息特征和局部細(xì)粒度特征的現(xiàn)象,本文提出了一種基于梯度增強(qiáng)的面部篡改檢測算法,算法框架如圖1所示。模型框架中,從RGB域提取圖像特征,并通過逐層的梯度增強(qiáng)以保證梯度信息在逐層卷積過程中的傳遞??蚣茏詈筮B接一個(gè)全連接分類器,用于輸出輸入樣本的預(yù)測結(jié)果。梯度信息的增強(qiáng)由其中的梯度增強(qiáng)模塊完成,通過中心差分卷積進(jìn)行局部白噪聲的分離,僅保留細(xì)節(jié)處的紋理特征后,與RGB域的圖像信息結(jié)合,以達(dá)到梯度增強(qiáng)的效果。
圖1 算法框架
本文提出一種基于中心差分卷積[7]的梯度增強(qiáng)模塊,將中心差分卷積和深度可分離卷積相結(jié)合,用于逐層卷積中的特征圖梯度增強(qiáng),以緩解梯度平均化現(xiàn)象。中心差分卷積運(yùn)算過程如圖2所示,具體為在卷積過程中每次卷積操作之前,先對目標(biāo)感受野區(qū)域的像素值與目標(biāo)感受野區(qū)域中心點(diǎn)像素值進(jìn)行差分操作,然后以差分結(jié)果作為新的輸入特征再進(jìn)行卷積操作。
圖2 中心差分卷積示意圖
同時(shí),梯度增強(qiáng)模塊中的中心差分卷積操作并未完全拋棄傳統(tǒng)卷積操作,而是引入了平衡參數(shù)θ以平衡中心差分卷積和傳統(tǒng)卷積的特征貢獻(xiàn)程度。中心差分卷積運(yùn)算公式如式(1)。
其中,R表示感受野范圍內(nèi)相對于感受野中心點(diǎn)的不同方向向量,在3×3卷積中分別為(-1,-1),(-1,0)…(0,1),(1,1);θ為超參數(shù),旨在平衡傳統(tǒng)卷積和差分卷積的貢獻(xiàn)程度;pn為感受野范圍內(nèi)的圖像像素位置,p0為感受野中心點(diǎn)位置,w(pn)為卷積算子在pn點(diǎn)的權(quán)重,x(p0+pn)為特征圖在p0+pn點(diǎn)的灰度值。
圖3為差分增強(qiáng)模塊示意圖,具體步驟:首先使用C(輸入特征圖通道數(shù))個(gè)卷積核分別對每一層的圖像特征進(jìn)行卷積,卷積過程中每次進(jìn)行加權(quán)求和操作前,將待卷積部分特征圖進(jìn)行梯度增強(qiáng)操作后再進(jìn)行加權(quán)求和操作,之后使用D(輸出特征圖通道數(shù))個(gè)1×1卷積核對每一層卷積后的圖像特征進(jìn)行直接卷積。
圖3 差分增強(qiáng)模塊
圖4為將原始圖像(a)分別通過傳統(tǒng)卷積(b)和本文梯度增強(qiáng)模塊(c)進(jìn)行處理后的結(jié)果??梢园l(fā)現(xiàn)傳統(tǒng)卷積中面部特征的細(xì)粒度信息較為模糊,趨向于將面部特征信息進(jìn)行平均化,而本文的梯度增強(qiáng)模塊使圖像特征保留了更多細(xì)粒度梯度特征,緩解了特征丟失問題。
圖4 梯度增強(qiáng)模塊效果對比圖
FF++(FaceForensics++)數(shù)據(jù)集[8]被廣泛用作DeepFake檢測領(lǐng)域應(yīng)用的基準(zhǔn)數(shù)據(jù)集。FF++數(shù)據(jù)集包含1 000段來自YouTube的真實(shí)視頻,并且基于DeepFakes[9]、Face2Face[10]、FaceSwap[11]、NeuralTextures[12]四種篡改方式進(jìn)行面部圖像的篡改合成,每種篡改方式基于真實(shí)視頻生成1 000段篡改視頻??紤]到DeepFake技術(shù)生成的篡改視頻的應(yīng)用場景大部分是社交媒體,而社交媒體對于視頻的質(zhì)量都會(huì)有一定的壓縮以保證較少的流量壓力,故為驗(yàn)證模型在真實(shí)環(huán)境下的表現(xiàn)效果,本文選取FF++數(shù)據(jù)集中最具挑戰(zhàn)性的低壓縮率(c40)的子數(shù)據(jù)集,并選取DeepFakes(DF)、Face2Face(FF)、FaceSwap(FS)、NeuralTextures(NT)四種篡改方式數(shù)據(jù)集以及真實(shí)樣本數(shù)據(jù)集(real)作為目標(biāo)實(shí)驗(yàn)數(shù)據(jù)集。
原始數(shù)據(jù)集按FaceForensics++推薦劃分方式劃分為訓(xùn)練集、驗(yàn)證集和測試集,并采用將視頻等距切分30幀的方式得到實(shí)驗(yàn)樣本圖片數(shù)據(jù)集。劃分完畢后將樣本圖片通過dlib庫[13]得到人臉面部輪廓,并將面部輪廓向外擴(kuò)展1.3倍后獲得實(shí)驗(yàn)使用的最終數(shù)據(jù)集。
本實(shí)驗(yàn)使用的計(jì)算機(jī)CPU為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHz,顯卡為NVIDIA GeForce RTX 3080,CUDA版本為11.5。深度學(xué)習(xí)框架使用PyTorch,版本為1.10.0。模型主干網(wǎng)絡(luò)選擇Xception[6]網(wǎng)絡(luò)。同時(shí),為提高模型分類精度和訓(xùn)練效率,本實(shí)驗(yàn)選擇困難度平衡因子λ為2。模型采用Adam優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率為3e-4,使用準(zhǔn)確率(Accurancy)作為實(shí)驗(yàn)評價(jià)指標(biāo)。
2.3.1 不同中心差分超參數(shù)θ的對比實(shí)驗(yàn)
在中心差分操作中,差分圖像特征與傳統(tǒng)卷積圖像特征的平衡參數(shù)θ決定了兩部分圖像特征的重要程度,繼而影響模型表現(xiàn)。為了探究平衡參數(shù)θ對模型表現(xiàn)的影響,本節(jié)實(shí)驗(yàn)在高壓縮率的NeuralTextures子數(shù)據(jù)集上分別測試0.0~1.0的θ值對主干網(wǎng)絡(luò)模型準(zhǔn)確率的影響,并繪制折線圖以可視化方式展示不同θ值的實(shí)驗(yàn)效果。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同平衡因子θ實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,當(dāng)θ為0.1時(shí),模型在NeuralTextures子數(shù)據(jù)集上表現(xiàn)最佳,準(zhǔn)確度達(dá)到80.27%。這表明當(dāng)中心差分卷積的差分部分和傳統(tǒng)卷積部分權(quán)重比為1 ∶9時(shí),此模型相較于完全傳統(tǒng)卷積可以更有效地提取篡改圖像中的線索信息,有助于分類。同時(shí)可以發(fā)現(xiàn),隨著差分部分占比的增加,模型準(zhǔn)確度表現(xiàn)出現(xiàn)一定的下降趨勢,表明僅靠差分部分的梯度數(shù)據(jù)較難完全反映出篡改圖像中的線索信息。綜上,對于面部篡改檢測任務(wù)而言,將中心差分思想和傳統(tǒng)卷積進(jìn)行融合的梯度增強(qiáng)方式可以有效提升模型表現(xiàn)。
2.3.2 與其他方法的對比
隨著面部篡改檢測領(lǐng)域研究的不斷深入,國內(nèi)外許多研究者針對面部篡改提出了多種檢測方式,并在FF++數(shù)據(jù)集上獲得了不錯(cuò)的檢測效果。這些方法大致分為兩類,分別是視頻級篡改檢測和幀級圖片篡改檢測。本節(jié)實(shí)驗(yàn)選取部分具有代表性的幀級圖片篡改檢測算法,并在基于FF++數(shù)據(jù)集高壓縮率的數(shù)據(jù)子集上進(jìn)行實(shí)驗(yàn)比較,以驗(yàn)證本文網(wǎng)絡(luò)結(jié)構(gòu)和算法的有效性。實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同算法對比
實(shí)驗(yàn)結(jié)果表明,本文提出的基于梯度增強(qiáng)檢測算法在不同篡改方式的檢測任務(wù)上,模型表現(xiàn)均有較明顯的提升。因此,通過圖像梯度特征的增強(qiáng),模型獲得了更加出眾的特征提取能力,能夠更為準(zhǔn)確地在篡改圖片中提取篡改線索信息。本文提出的焦點(diǎn)損失和梯度增強(qiáng)模塊融合的算法是有效的。
2.3.3 可視化
為進(jìn)一步揭示算法的有效性,本文在低質(zhì)量高壓縮率的NeuralTextures子數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在不連接全連接分類器的情況下,將模型輸出進(jìn)行PCA降維,并通過t-SNE[14]進(jìn)行可視化展示,效果如圖6、圖7所示。
圖6 Xception算法t-SNE可視化圖
圖7 本文算法t-SNE可視化圖
圖6為原始Xception網(wǎng)絡(luò)所提取圖像特征的t-SNE效果圖,圖7為本文算法模型所提取圖像特征的t-SNE效果圖,可以發(fā)現(xiàn)本文模型所提取的圖像特征在空間上分布相對更加致密,相同類別的特征分布相對更加緊湊,對不同類型的樣本特征聚類效果更加明顯。同時(shí)在每個(gè)類別的聚類中心點(diǎn)附近,即模型結(jié)果置信度較高的區(qū)域,聚類錯(cuò)誤的樣本點(diǎn)個(gè)數(shù)比原始Xception網(wǎng)絡(luò)相對更少,即本文算法更有“信心”保證檢測的正確性。
本文提出一種基于中心差分的梯度增強(qiáng)模塊,實(shí)驗(yàn)結(jié)果表明,在最具有挑戰(zhàn)性的高壓縮率數(shù)據(jù)集上,針對不同的篡改方式,該算法都可以達(dá)到較佳的檢測效果。同時(shí),該算法也存在一定的局限性,在區(qū)分較為簡單樣本(如DeepFakes篡改方式)時(shí),模型檢測精度不如困難樣本(如NeuralTextures篡改方式)提升明顯。而對于如何更有效地平衡“困難樣本”和“簡單樣本”的關(guān)系這一問題,可以通過遷移學(xué)習(xí)方法,使模型可以在“困難樣本”集上表現(xiàn)效果較佳的同時(shí),保證在“簡單樣本”集上的檢測精度,這將是未來的研究方向。