亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的人臉篡改檢測方法

2021-04-23 04:32:44張韓鈺吳志昊

計(jì)算機(jī)工程與應(yīng)用 2021年8期

關(guān)鍵詞：人臉準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

張韓鈺，吳志昊，徐勇，陳斌

1.哈爾濱工業(yè)大學(xué)（深圳）計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，廣東深圳518000

2.深圳市目標(biāo)檢測與判別重點(diǎn)實(shí)驗(yàn)室，廣東深圳518000

3.深圳市云天勵(lì)飛技術(shù)有限公司，廣東深圳518040

當(dāng)前，隨著計(jì)算機(jī)視覺的發(fā)展，圖像和視頻篡改變得越來越容易，甚至可以達(dá)到以假亂真的程度。人臉這種具有身份標(biāo)志性的特征，如果被篡改，會(huì)帶來身份被盜用或被“嫁接”的嚴(yán)重問題。近年，經(jīng)由Deepfake這種深度學(xué)習(xí)換臉?biāo)惴óa(chǎn)生的假視頻在互聯(lián)網(wǎng)上廣泛傳播，已經(jīng)對不少公眾人物產(chǎn)生了很大的負(fù)面影響。

識別一張人臉是否被篡改是一個(gè)典型的二分類問題。2012 年，F(xiàn)ridrich 等人[1]手動(dòng)提取圖像特征并使用SVM[2]方法判斷圖像是否被篡改。2016年，Rahmouni等人[3]利用CNN 架構(gòu)并使用全局池化層計(jì)算特征的統(tǒng)計(jì)信息來判斷圖像的真假情況。2017年，Zhou等人[4]提出了兩階段神經(jīng)網(wǎng)絡(luò)算法，但是存在結(jié)構(gòu)復(fù)雜、準(zhǔn)確率低等問題。2018年Afchar等人[5]提出了一個(gè)基于Inception[6]的MesoInception-4模型，并達(dá)到了不錯(cuò)的效果。2019年，Sabir 等人[7]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）來從時(shí)序上判斷人臉視頻是否被篡改。R?ssler等人[8]發(fā)布了一個(gè)人臉視頻篡改的數(shù)據(jù)集，并使用預(yù)訓(xùn)練模型Xception[9]訓(xùn)練了一個(gè)效果不錯(cuò)的模型。這些方法都在一定程度上解決了換臉視頻檢測問題，但是基本上都存在準(zhǔn)確率較低、訓(xùn)練過程復(fù)雜或者對未知篡改方式泛化能力低下等問題。

鑒于此，本文基于一個(gè)性能優(yōu)異的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]進(jìn)行人臉篡改檢測。為了減輕模型訓(xùn)練時(shí)的過擬合并增強(qiáng)模型的魯棒性，在訓(xùn)練時(shí)使用cutout[11]數(shù)據(jù)增強(qiáng)技術(shù)，隨機(jī)遮蓋圖片的一部分，使得神經(jīng)網(wǎng)絡(luò)不會(huì)過分依賴人臉圖像的某一個(gè)特征來區(qū)分圖像的真假。此外，本文使用labelsmoothing[12]作為損失函數(shù)，并在訓(xùn)練中后期借鑒知識蒸餾[13]的思想對labelsmothing[12]進(jìn)行修改，這樣可以進(jìn)一步增加模型泛化性能的能力。

1 方法

本文的算法流程如圖1所示。訓(xùn)練流程總共分為7個(gè)步驟，具體解釋如下：

（1）從原始訓(xùn)練集和驗(yàn)證集視頻中隨機(jī)抽取1幀或等間距抽取5幀（見步驟1）。

（2）對每一幀做人臉檢測（見步驟2）。

（3）根據(jù)人臉檢測的邊框截取人臉圖像（見步驟3）。

（4）對人臉圖像做Cutout操作（見步驟4）。

（5）將做完Cutout 操作的人臉圖像輸入神經(jīng)網(wǎng)絡(luò)（見步驟5）。

（6）神經(jīng)網(wǎng)絡(luò)輸出二分類概率值（見步驟6）。

（7）計(jì)算二分類概率值的損失，并進(jìn)行反向傳播（見步驟7）。

測試流程總共分為5個(gè)步驟，具體解釋如下：

（1）從原始測試集視頻中隨機(jī)抽取1幀或等間距抽取5幀（抽取方式與訓(xùn)練時(shí)保持一致）（見步驟1）。

（2）對每一幀做人臉檢測（見步驟2）。

（3）根據(jù)人臉檢測的邊框截取人臉圖像（見步驟3）。

（4）將人臉圖像輸入神經(jīng)網(wǎng)絡(luò)（見步驟5）。

（5）神經(jīng)網(wǎng)絡(luò)輸出二分類概率值即為預(yù)測結(jié)果（見步驟6）。

以下對關(guān)鍵步驟做出詳細(xì)解釋。

1.1 人臉檢測與提取

由于換臉?biāo)惴ㄖ惶鎿Q了人的臉或者對其進(jìn)行了部分修改，而人的其他部位并沒有改動(dòng)，所以本文的重點(diǎn)關(guān)注對象應(yīng)該是人臉，只對人臉的特征進(jìn)行分析，以判別出其真?zhèn)?。調(diào)用dlib 庫中的一個(gè)訓(xùn)練好的人臉檢測器[14]，使用該檢測器檢測圖像會(huì)得到4個(gè)坐標(biāo)值，然后根據(jù)這4個(gè)坐標(biāo)值畫出截取人臉的邊框（見圖1中步驟2），然后根據(jù)邊框裁剪出一張人臉圖像（見圖1中步驟3）。

1.2 數(shù)據(jù)增強(qiáng)方法

不同的換臉?biāo)惴óa(chǎn)生的人臉圖像有不同的篡改痕跡，甚至未來更加先進(jìn)的換臉?biāo)惴óa(chǎn)生的圖像的篡改痕跡更加隱匿，單純使用已有的換臉?biāo)惴óa(chǎn)生的有限數(shù)據(jù)訓(xùn)練出來的模型泛化能力不強(qiáng)，只能識別與原始圖像差異很大的篡改痕跡，而那些比較小的痕跡則很難被檢測出來。Cutout[11]方法則可以較好地緩解該問題。Cutout[11]覆蓋圖像的某一個(gè)或多個(gè)區(qū)域，這樣會(huì)使神經(jīng)網(wǎng)絡(luò)尋找其他有差異的特征進(jìn)行分類，而且每一張圖像覆蓋的區(qū)域是隨機(jī)產(chǎn)生的，這樣訓(xùn)練多次可以使網(wǎng)絡(luò)盡可能多地識別不同的篡改痕跡。

具體過程為對于一張輸入的人臉圖像，首先將其縮放到224×224，然后隨機(jī)將其中1/4 面積的區(qū)域像素值設(shè)為0，并使每張圖像所遮蓋的區(qū)域是隨機(jī)選取的（見圖1中步驟4）。

1.3 神經(jīng)網(wǎng)絡(luò)模型

神經(jīng)網(wǎng)絡(luò)[15-16]，尤其是深度卷積的神經(jīng)網(wǎng)絡(luò)[17]已經(jīng)在圖像處理中獲得巨大的成功[18-20]。由于ResNet[21]在ImageNet[22]上的準(zhǔn)確率取得大幅度提升，殘差網(wǎng)絡(luò)已成為一個(gè)廣為使用的分類模型。因此，使用基于ResNext[23]的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]來提升分類效果。ResNext[23]與Resnet[21]一樣使用了殘差網(wǎng)絡(luò)模塊，不同之處在于ResNext[23]將ResNet[21]中的通道分組，即將ResNet[21]模塊中的256個(gè)通道每8個(gè)分成一組，總共分為32組，文獻(xiàn)[23]中定義該組數(shù)為網(wǎng)絡(luò)的基數(shù)（cardinality），作者何愷明等人通過實(shí)驗(yàn)證明增加網(wǎng)絡(luò)的基數(shù)（cardinality）比增加網(wǎng)絡(luò)的深度和寬度更加有效，而且還能降低模型的復(fù)雜度。在文獻(xiàn)[10]中，作者仍然使用Resnext[23]模型，只是先利用Instagram庫的9.4億張圖片做弱監(jiān)督預(yù)訓(xùn)練，然后利用ImageNet[22]做微調(diào)，這樣訓(xùn)練的效果相比僅僅只在ImageNet[22]上訓(xùn)練的ResNext[23]的效果有顯著提升。在Resnext[23]模型家族中，resnext101_32x8d_WSL比resnext101_32x4d_WSL準(zhǔn)確率更高，且比resnext101_32x16d_WSL 模型參數(shù)少。綜合考慮，resnext101_32x8d_WSL是一個(gè)性能優(yōu)異且運(yùn)行效率較高的模型，所以本文決定使用該預(yù)訓(xùn)練模型。將該模型的最后一層全連接層改為2 048×2，以適應(yīng)本文的二分類任務(wù)。

圖1 方法主要流程

1.4 損失函數(shù)

在圖像分類任務(wù)中，交叉熵（Cross Entropy）是最常見的損失函數(shù)，但是交叉熵使用的one-hot 編碼產(chǎn)生的真實(shí)標(biāo)簽概率值（0和1）不能保證模型的泛化能力。0-1概率標(biāo)簽促使某一類圖像的預(yù)測概率盡可能靠近1，其他類的預(yù)測概率盡可能靠近0，但是本次任務(wù)中，原始圖像與換臉的圖像只在一些細(xì)節(jié)處有差異，無限制地增加2類圖像的預(yù)測概率的差距會(huì)使模型容易過擬合。本文所使用的labelsmoothing[12]就是將0-1 標(biāo)簽平滑化，這樣更能反映原始圖像與換臉圖像的真實(shí)差距，使得預(yù)測的結(jié)果不會(huì)過于極端，起到提高魯棒性的作用。

對于樣本x，softmax 層的輸出對應(yīng)每個(gè)標(biāo)簽的概率為，其真實(shí)標(biāo)簽值為q(k|x)，此時(shí)交叉熵如式（1）所示：

為了減小0-1 標(biāo)簽帶來的過擬合，對標(biāo)簽做平滑處理，如式（2）所示：

ε是超參數(shù)，文獻(xiàn)[12]中取值為0.1。u(k)服從均勻分布，按照文獻(xiàn)[12]的做法，定義，其中K為類別數(shù)。從而，labelsmoothing[12]損失函數(shù)為式（3）所示：

另外，在訓(xùn)練過程的后半部分時(shí)間，借鑒知識蒸餾[13]里面的軟目標(biāo)（softtarget）將softmax進(jìn)行修改，使得在神經(jīng)網(wǎng)絡(luò)能夠繼續(xù)擬合而且還能避免過擬合的風(fēng)險(xiǎn)。修改方式如下：

在softmax 公式中增加一個(gè)參數(shù)T，此時(shí)改進(jìn)的softmax的公式為：

然后改進(jìn)的labesmoothing為：

在此公式中，定義T為分類的類別數(shù)，即T=2。

2 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文所使用的方法的有效性，本章在FaceForensics++[8]數(shù)據(jù)集上做測試。該數(shù)據(jù)集是由Andreas Rossler團(tuán)隊(duì)從互聯(lián)網(wǎng)上收集了1 000個(gè)包含人臉的短視頻，視頻時(shí)間長度基本上在10 s 到20 s 之間，然后作者分別使用了4 個(gè)不同的換臉?biāo)惴▽υ曨l進(jìn)行了篡改，并分別產(chǎn)生1 000個(gè)對應(yīng)的視頻，這4種換臉?biāo)惴ǚ謩e為Deepfake、Face2Face[24]、FaceSwap、Neural-Textures[25]。此外，作者還對原視頻做了兩種不同程度的壓縮，分別為輕度壓縮（c23）和重度壓縮（c40），然后對壓縮后的視頻使用4 種換臉?biāo)惴▽σ曨l進(jìn)行篡改。由于原視頻和經(jīng)過輕度壓縮的視頻在作者給出的測試結(jié)果上準(zhǔn)確率已經(jīng)超過了98%[8]，再繼續(xù)研究已經(jīng)沒有太大意義，所以使用重度壓縮的視頻來驗(yàn)證本文方法。

如圖2 所示，（a）為各數(shù)據(jù)集原始圖像的示例圖，（b）為截取人臉后的示例圖，可以看出，確實(shí)憑借肉眼比較難分辨這些圖像的真假。文獻(xiàn)[8]中取視頻的所有幀進(jìn)行訓(xùn)練，但是這樣效率很低，所以在本次實(shí)驗(yàn)中并不使用所有幀，而是對每個(gè)視頻分別取1幀和5幀。取1幀的方法是對每個(gè)視頻隨機(jī)取1 幀，取5 幀的方法是對每個(gè)視頻的幀數(shù)按照最大間距取5 幀。最后與文獻(xiàn)[8]一樣，將數(shù)據(jù)集分成3部分，訓(xùn)練集720個(gè)視頻，驗(yàn)證集140個(gè)視頻，測試集140個(gè)視頻。當(dāng)每個(gè)視頻取5幀時(shí)，測試集視頻的準(zhǔn)確率是其對應(yīng)的5張圖像的預(yù)測值的平均值。

表1是在4個(gè)數(shù)據(jù)集上單獨(dú)訓(xùn)練的結(jié)果，表中R101指Resnext101_WSL[10]，CU指方法cutout[11]，LS指損失函數(shù)labelsmoothing[12]，TLS 指改進(jìn)的損失函數(shù)，見式（5），DF 指Deepfakes，F(xiàn)2F 指Face2Face[24]，F(xiàn)S 指FaceSwap，NT 指NeuralTextures[25]，文獻(xiàn)[5]和[8]中沒有做Neural-Textures的實(shí)驗(yàn)，用”—”代替?？梢钥吹?，即使是在每個(gè)視頻取1幀或5幀時(shí)，使用的模型Resnext101_WSL[10]比文獻(xiàn)[8]中使用的XceptionNet性能相差無幾或者更加優(yōu)異，而且從表1 最后2 列來看，本文所使用的數(shù)據(jù)增強(qiáng)cutout[11]方法和labelsmoothing[12]損失函數(shù)的確起到了很好的抑制過擬合、增強(qiáng)泛化能力的作用。最后一列的實(shí)驗(yàn)是在訓(xùn)練的后30次迭代中使用本文改進(jìn)的損失函數(shù)（見式（5））替換labelsmoothing，訓(xùn)練的結(jié)果比只用labelsmoothing 要好，同時(shí)也都超過了對比實(shí)驗(yàn)[8]中使用所有幀訓(xùn)練的結(jié)果。

此外，將4種不同換臉方式產(chǎn)生的視頻與原視頻混合在一起做了一個(gè)5分類訓(xùn)練，這樣訓(xùn)練的結(jié)果不僅能看出圖像是否被篡改，還能看出使用了哪一種篡改方式。除了數(shù)據(jù)集混合訓(xùn)練之外，其他的操作方式和訓(xùn)練參數(shù)與上面分開訓(xùn)練的一樣。結(jié)果如表2和表3所示。

表1 各種方法在不同數(shù)據(jù)集上單獨(dú)訓(xùn)練的準(zhǔn)確率 %

表2 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的準(zhǔn)確率 %

圖2 各數(shù)據(jù)集示例圖

表3 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的綜合準(zhǔn)確率

表2 的結(jié)果是不同數(shù)據(jù)混合訓(xùn)練后在各個(gè)數(shù)據(jù)集的測試集上單獨(dú)測試的結(jié)果?？梢钥吹剑?dāng)每個(gè)視頻只取1 幀時(shí)，由于數(shù)據(jù)太少，所以模型基本上沒有泛化能力，但是當(dāng)每個(gè)視頻等間距取5幀時(shí)，使用本文方法在4個(gè)數(shù)據(jù)集上得到的結(jié)果已經(jīng)超過了文獻(xiàn)[8]里面使用所有幀訓(xùn)練得到的結(jié)果。表3 是將各個(gè)換臉數(shù)據(jù)集的測試集混合在一起之后整體測試的結(jié)果?？梢钥闯觯?dāng)每個(gè)視頻取5幀時(shí)，能夠以高達(dá)92.22%的準(zhǔn)確率識別出使用不同換臉?biāo)惴óa(chǎn)生的視頻。

表4 是本文方法與兩種對比方法平均測試一個(gè)視頻所花的時(shí)間，表中模型參數(shù)的計(jì)算使用的神經(jīng)網(wǎng)絡(luò)框架為Pytorch-1.0.1，測試時(shí)間所使用的硬件為i7-8700（CPU）。本文提出的方法中有測1 幀和測5 幀的情況，Ours一列的數(shù)據(jù)是指測5幀的情況?？梢钥吹?，由于本文方法對每個(gè)視頻只需取5 幀，從整體來看，本文的方法平均測一個(gè)視頻所花的時(shí)間更少，效率更高。

表4 各種方法的模型參數(shù)與檢測時(shí)間對比

為了更好地復(fù)現(xiàn)本文所達(dá)到的效果，本段說明本文訓(xùn)練時(shí)所使用的參數(shù)。使用的優(yōu)化器為隨機(jī)梯度下降（Stochastic Gradient Descent，SGD），學(xué)習(xí)率設(shè)置為0.005，批量訓(xùn)練大小為64，訓(xùn)練60 輪并保存驗(yàn)證集上準(zhǔn)確率最高的模型。在cutout[15]中，參數(shù)n_holes 取為1，參數(shù)length取為112。Labelsmoothing[17]使用默認(rèn)參數(shù)。

3 結(jié)束語

判斷視頻中的人臉是否被篡改是一個(gè)典型的二分類問題，本文使用了一個(gè)性能優(yōu)異的預(yù)訓(xùn)練網(wǎng)絡(luò)，并結(jié)合了一個(gè)數(shù)據(jù)增強(qiáng)方法和一個(gè)減少過擬合的損失函數(shù)，在數(shù)據(jù)集FaceForensics++[8]上對4種不同的換臉?biāo)惴óa(chǎn)生的視頻的檢測都取得了很好的效果。未來將繼續(xù)探索更加高效的算法。