亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于梯度增強(qiáng)的面部篡改檢測算法

2022-11-17 11:37:36袁野

中阿科技論壇(中英文) 2022年11期

袁野

（福建師范大學(xué),福建福州 350117）

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，許多新技術(shù)的產(chǎn)生為人們帶來了諸多方面的便利。如在金融、交通等領(lǐng)域，人臉識(shí)別技術(shù)可以實(shí)現(xiàn)在線驗(yàn)證身份、刷臉進(jìn)出站等，極大地提高了在線支付和出行的安全性和便利性。但是與此同時(shí)，深度學(xué)習(xí)技術(shù)也帶來了許多風(fēng)險(xiǎn)，面部篡改技術(shù)就是其中一種。面部篡改技術(shù)是指通過某種算法策略或圖像工具，在保證篡改效果的真實(shí)性和合理性的前提下，將一個(gè)人的面部信息篡改為另一個(gè)人的面部信息的技術(shù)。近年來，通過基于深度學(xué)習(xí)的面部篡改技術(shù)，人們可以低成本合成肉眼難以分辨的虛假視頻，這些虛假視頻具有較高的“真實(shí)性”，普通大眾很難分辨其真?zhèn)?。一旦某些特殊人物的視頻被別有用心的人通過面部篡改技術(shù)進(jìn)行處理，“張冠李戴”地將某些行為強(qiáng)加在他們身上，將會(huì)給社會(huì)穩(wěn)定和輿論安全帶來非常大的隱患。所以，對面部篡改的鑒別工作無疑是十分重要的。

在深度學(xué)習(xí)領(lǐng)域，面部篡改檢測算法層出不窮。LDCNN網(wǎng)絡(luò)將傳統(tǒng)圖像噪聲的殘差描述符轉(zhuǎn)換為卷積輸入，使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行篡改分類，取得了比傳統(tǒng)方式更優(yōu)秀的模型表現(xiàn)[1]；Rahmouni等（2017）提出具有全局池化層的新型神經(jīng)網(wǎng)絡(luò)框架，通過預(yù)測計(jì)算四個(gè)統(tǒng)計(jì)值（最小值、最大值、平均值、方差）進(jìn)行篡改分類[2]；Liu等（2020）為有效融合時(shí)間和空間不同維度的信息，提出了I3D網(wǎng)絡(luò)，通過三維卷積的方式進(jìn)行全視頻的分類，取得了較為優(yōu)秀的識(shí)別效果[3]；Bayar等（2016）創(chuàng)造了一種全新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，通過抑制圖像的內(nèi)容和自適應(yīng)地學(xué)習(xí)篡改特征，可以迫使網(wǎng)絡(luò)從圖像中學(xué)習(xí)篡改線索信息[4]；MesoNet網(wǎng)絡(luò)認(rèn)為低級語義特征會(huì)被卷積抽象，而高級語義特征又難以被人理解，故主要針對圖像的中級語義特征進(jìn)行面部篡改檢測[5]；Chollet（2017）提出了深度可分離卷積，并基于此提出了Xception網(wǎng)絡(luò)模型結(jié)構(gòu)，僅通過RGB圖像信息即可獲得較高的模型判別準(zhǔn)確度，如今被作為主干網(wǎng)絡(luò)廣泛應(yīng)用于面部篡改檢測領(lǐng)域[6]。

然而，上述基于深度學(xué)習(xí)的檢測方法普遍存在如下問題。大多數(shù)基于深度學(xué)習(xí)的檢測算法依賴傳統(tǒng)卷積操作，而傳統(tǒng)卷積操作直接聚合了局部圖像的灰度信息，使得網(wǎng)絡(luò)更傾向于關(guān)注圖像本身的色彩信息，一定程度上忽略了圖像的梯度信息和局部細(xì)粒度特征[7]。而對于面部篡改檢測任務(wù)，篡改產(chǎn)生的梯度信息特征和局部細(xì)粒度特征可以體現(xiàn)假臉圖像的篡改手段等信息，這些信息對于模型是否能準(zhǔn)確地進(jìn)行檢測識(shí)別是必要的。因此，基于以上考慮，針對傳統(tǒng)卷積操作出現(xiàn)的忽略梯度信息特征和局部細(xì)粒度特征的現(xiàn)象，本文設(shè)計(jì)了一種梯度增強(qiáng)模塊，可以逐卷積層進(jìn)行圖像梯度的增強(qiáng)，以指導(dǎo)模型在訓(xùn)練過程中對圖像梯度信息進(jìn)行學(xué)習(xí)，并針對面部篡改檢測領(lǐng)域任務(wù)的特點(diǎn)選擇最優(yōu)的平衡因子，以融合傳統(tǒng)卷積特征和中心差分卷積特征。

1 算法模型

針對傳統(tǒng)卷積方式中存在的忽略梯度信息特征和局部細(xì)粒度特征的現(xiàn)象，本文提出了一種基于梯度增強(qiáng)的面部篡改檢測算法，算法框架如圖1所示。模型框架中，從RGB域提取圖像特征，并通過逐層的梯度增強(qiáng)以保證梯度信息在逐層卷積過程中的傳遞?？蚣茏詈筮B接一個(gè)全連接分類器，用于輸出輸入樣本的預(yù)測結(jié)果。梯度信息的增強(qiáng)由其中的梯度增強(qiáng)模塊完成，通過中心差分卷積進(jìn)行局部白噪聲的分離，僅保留細(xì)節(jié)處的紋理特征后，與RGB域的圖像信息結(jié)合，以達(dá)到梯度增強(qiáng)的效果。

圖1 算法框架

本文提出一種基于中心差分卷積[7]的梯度增強(qiáng)模塊，將中心差分卷積和深度可分離卷積相結(jié)合，用于逐層卷積中的特征圖梯度增強(qiáng)，以緩解梯度平均化現(xiàn)象。中心差分卷積運(yùn)算過程如圖2所示，具體為在卷積過程中每次卷積操作之前，先對目標(biāo)感受野區(qū)域的像素值與目標(biāo)感受野區(qū)域中心點(diǎn)像素值進(jìn)行差分操作，然后以差分結(jié)果作為新的輸入特征再進(jìn)行卷積操作。

圖2 中心差分卷積示意圖

同時(shí)，梯度增強(qiáng)模塊中的中心差分卷積操作并未完全拋棄傳統(tǒng)卷積操作，而是引入了平衡參數(shù)θ以平衡中心差分卷積和傳統(tǒng)卷積的特征貢獻(xiàn)程度。中心差分卷積運(yùn)算公式如式（1）。

其中，R表示感受野范圍內(nèi)相對于感受野中心點(diǎn)的不同方向向量，在3×3卷積中分別為（-1，-1），（-1，0）…（0，1），（1，1）；θ為超參數(shù)，旨在平衡傳統(tǒng)卷積和差分卷積的貢獻(xiàn)程度；pn為感受野范圍內(nèi)的圖像像素位置，p0為感受野中心點(diǎn)位置，w(pn)為卷積算子在pn點(diǎn)的權(quán)重，x(p0+pn)為特征圖在p0+pn點(diǎn)的灰度值。

圖3為差分增強(qiáng)模塊示意圖，具體步驟：首先使用C（輸入特征圖通道數(shù)）個(gè)卷積核分別對每一層的圖像特征進(jìn)行卷積，卷積過程中每次進(jìn)行加權(quán)求和操作前，將待卷積部分特征圖進(jìn)行梯度增強(qiáng)操作后再進(jìn)行加權(quán)求和操作，之后使用D（輸出特征圖通道數(shù)）個(gè)1×1卷積核對每一層卷積后的圖像特征進(jìn)行直接卷積。

圖3 差分增強(qiáng)模塊

圖4為將原始圖像（a）分別通過傳統(tǒng)卷積（b）和本文梯度增強(qiáng)模塊（c）進(jìn)行處理后的結(jié)果?？梢园l(fā)現(xiàn)傳統(tǒng)卷積中面部特征的細(xì)粒度信息較為模糊，趨向于將面部特征信息進(jìn)行平均化，而本文的梯度增強(qiáng)模塊使圖像特征保留了更多細(xì)粒度梯度特征，緩解了特征丟失問題。

圖4 梯度增強(qiáng)模塊效果對比圖

2 實(shí)驗(yàn)驗(yàn)證分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

FF++（FaceForensics++）數(shù)據(jù)集[8]被廣泛用作DeepFake檢測領(lǐng)域應(yīng)用的基準(zhǔn)數(shù)據(jù)集。FF++數(shù)據(jù)集包含1 000段來自YouTube的真實(shí)視頻，并且基于DeepFakes[9]、Face2Face[10]、FaceSwap[11]、NeuralTextures[12]四種篡改方式進(jìn)行面部圖像的篡改合成，每種篡改方式基于真實(shí)視頻生成1 000段篡改視頻?？紤]到DeepFake技術(shù)生成的篡改視頻的應(yīng)用場景大部分是社交媒體，而社交媒體對于視頻的質(zhì)量都會(huì)有一定的壓縮以保證較少的流量壓力，故為驗(yàn)證模型在真實(shí)環(huán)境下的表現(xiàn)效果，本文選取FF++數(shù)據(jù)集中最具挑戰(zhàn)性的低壓縮率（c40）的子數(shù)據(jù)集，并選取DeepFakes（DF）、Face2Face（FF）、FaceSwap（FS）、NeuralTextures（NT）四種篡改方式數(shù)據(jù)集以及真實(shí)樣本數(shù)據(jù)集（real）作為目標(biāo)實(shí)驗(yàn)數(shù)據(jù)集。

原始數(shù)據(jù)集按FaceForensics++推薦劃分方式劃分為訓(xùn)練集、驗(yàn)證集和測試集，并采用將視頻等距切分30幀的方式得到實(shí)驗(yàn)樣本圖片數(shù)據(jù)集。劃分完畢后將樣本圖片通過dlib庫[13]得到人臉面部輪廓，并將面部輪廓向外擴(kuò)展1.3倍后獲得實(shí)驗(yàn)使用的最終數(shù)據(jù)集。

2.2 實(shí)驗(yàn)環(huán)境及參數(shù)

本實(shí)驗(yàn)使用的計(jì)算機(jī)CPU為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHz，顯卡為NVIDIA GeForce RTX 3080，CUDA版本為11.5。深度學(xué)習(xí)框架使用PyTorch，版本為1.10.0。模型主干網(wǎng)絡(luò)選擇Xception[6]網(wǎng)絡(luò)。同時(shí)，為提高模型分類精度和訓(xùn)練效率，本實(shí)驗(yàn)選擇困難度平衡因子λ為2。模型采用Adam優(yōu)化器進(jìn)行優(yōu)化，學(xué)習(xí)率為3e-4，使用準(zhǔn)確率（Accurancy）作為實(shí)驗(yàn)評價(jià)指標(biāo)。

2.3 實(shí)驗(yàn)結(jié)果與分析

2.3.1 不同中心差分超參數(shù)θ的對比實(shí)驗(yàn)

在中心差分操作中，差分圖像特征與傳統(tǒng)卷積圖像特征的平衡參數(shù)θ決定了兩部分圖像特征的重要程度，繼而影響模型表現(xiàn)。為了探究平衡參數(shù)θ對模型表現(xiàn)的影響，本節(jié)實(shí)驗(yàn)在高壓縮率的NeuralTextures子數(shù)據(jù)集上分別測試0.0～1.0的θ值對主干網(wǎng)絡(luò)模型準(zhǔn)確率的影響，并繪制折線圖以可視化方式展示不同θ值的實(shí)驗(yàn)效果。實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 不同平衡因子θ實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，當(dāng)θ為0.1時(shí)，模型在NeuralTextures子數(shù)據(jù)集上表現(xiàn)最佳，準(zhǔn)確度達(dá)到80.27%。這表明當(dāng)中心差分卷積的差分部分和傳統(tǒng)卷積部分權(quán)重比為1 ∶9時(shí)，此模型相較于完全傳統(tǒng)卷積可以更有效地提取篡改圖像中的線索信息，有助于分類。同時(shí)可以發(fā)現(xiàn)，隨著差分部分占比的增加，模型準(zhǔn)確度表現(xiàn)出現(xiàn)一定的下降趨勢，表明僅靠差分部分的梯度數(shù)據(jù)較難完全反映出篡改圖像中的線索信息。綜上，對于面部篡改檢測任務(wù)而言，將中心差分思想和傳統(tǒng)卷積進(jìn)行融合的梯度增強(qiáng)方式可以有效提升模型表現(xiàn)。

2.3.2 與其他方法的對比

隨著面部篡改檢測領(lǐng)域研究的不斷深入，國內(nèi)外許多研究者針對面部篡改提出了多種檢測方式，并在FF++數(shù)據(jù)集上獲得了不錯(cuò)的檢測效果。這些方法大致分為兩類，分別是視頻級篡改檢測和幀級圖片篡改檢測。本節(jié)實(shí)驗(yàn)選取部分具有代表性的幀級圖片篡改檢測算法，并在基于FF++數(shù)據(jù)集高壓縮率的數(shù)據(jù)子集上進(jìn)行實(shí)驗(yàn)比較，以驗(yàn)證本文網(wǎng)絡(luò)結(jié)構(gòu)和算法的有效性。實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同算法對比

實(shí)驗(yàn)結(jié)果表明，本文提出的基于梯度增強(qiáng)檢測算法在不同篡改方式的檢測任務(wù)上，模型表現(xiàn)均有較明顯的提升。因此，通過圖像梯度特征的增強(qiáng)，模型獲得了更加出眾的特征提取能力，能夠更為準(zhǔn)確地在篡改圖片中提取篡改線索信息。本文提出的焦點(diǎn)損失和梯度增強(qiáng)模塊融合的算法是有效的。

2.3.3 可視化

為進(jìn)一步揭示算法的有效性，本文在低質(zhì)量高壓縮率的NeuralTextures子數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，在不連接全連接分類器的情況下，將模型輸出進(jìn)行PCA降維，并通過t-SNE[14]進(jìn)行可視化展示，效果如圖6、圖7所示。

圖6 Xception算法t-SNE可視化圖

圖7 本文算法t-SNE可視化圖

圖6為原始Xception網(wǎng)絡(luò)所提取圖像特征的t-SNE效果圖，圖7為本文算法模型所提取圖像特征的t-SNE效果圖，可以發(fā)現(xiàn)本文模型所提取的圖像特征在空間上分布相對更加致密，相同類別的特征分布相對更加緊湊，對不同類型的樣本特征聚類效果更加明顯。同時(shí)在每個(gè)類別的聚類中心點(diǎn)附近，即模型結(jié)果置信度較高的區(qū)域，聚類錯(cuò)誤的樣本點(diǎn)個(gè)數(shù)比原始Xception網(wǎng)絡(luò)相對更少，即本文算法更有“信心”保證檢測的正確性。

3 結(jié)語

本文提出一種基于中心差分的梯度增強(qiáng)模塊，實(shí)驗(yàn)結(jié)果表明，在最具有挑戰(zhàn)性的高壓縮率數(shù)據(jù)集上，針對不同的篡改方式，該算法都可以達(dá)到較佳的檢測效果。同時(shí)，該算法也存在一定的局限性，在區(qū)分較為簡單樣本（如DeepFakes篡改方式）時(shí)，模型檢測精度不如困難樣本（如NeuralTextures篡改方式）提升明顯。而對于如何更有效地平衡“困難樣本”和“簡單樣本”的關(guān)系這一問題，可以通過遷移學(xué)習(xí)方法，使模型可以在“困難樣本”集上表現(xiàn)效果較佳的同時(shí)，保證在“簡單樣本”集上的檢測精度，這將是未來的研究方向。