亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的人臉篡改檢測方法

        2021-04-23 04:32:44張韓鈺吳志昊
        關(guān)鍵詞:人臉準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

        張韓鈺,吳志昊,徐 勇,陳 斌

        1.哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳518000

        2.深圳市目標(biāo)檢測與判別重點(diǎn)實(shí)驗(yàn)室,廣東 深圳518000

        3.深圳市云天勵(lì)飛技術(shù)有限公司,廣東 深圳518040

        當(dāng)前,隨著計(jì)算機(jī)視覺的發(fā)展,圖像和視頻篡改變得越來越容易,甚至可以達(dá)到以假亂真的程度。人臉這種具有身份標(biāo)志性的特征,如果被篡改,會(huì)帶來身份被盜用或被“嫁接”的嚴(yán)重問題。近年,經(jīng)由Deepfake這種深度學(xué)習(xí)換臉?biāo)惴óa(chǎn)生的假視頻在互聯(lián)網(wǎng)上廣泛傳播,已經(jīng)對不少公眾人物產(chǎn)生了很大的負(fù)面影響。

        識別一張人臉是否被篡改是一個(gè)典型的二分類問題。2012 年,F(xiàn)ridrich 等人[1]手動(dòng)提取圖像特征并使用SVM[2]方法判斷圖像是否被篡改。2016年,Rahmouni等人[3]利用CNN 架構(gòu)并使用全局池化層計(jì)算特征的統(tǒng)計(jì)信息來判斷圖像的真假情況。2017年,Zhou等人[4]提出了兩階段神經(jīng)網(wǎng)絡(luò)算法,但是存在結(jié)構(gòu)復(fù)雜、準(zhǔn)確率低等問題。2018年Afchar等人[5]提出了一個(gè)基于Inception[6]的MesoInception-4模型,并達(dá)到了不錯(cuò)的效果。2019年,Sabir 等人[7]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來從時(shí)序上判斷人臉視頻是否被篡改。R?ssler等人[8]發(fā)布了一個(gè)人臉視頻篡改的數(shù)據(jù)集,并使用預(yù)訓(xùn)練模型Xception[9]訓(xùn)練了一個(gè)效果不錯(cuò)的模型。這些方法都在一定程度上解決了換臉視頻檢測問題,但是基本上都存在準(zhǔn)確率較低、訓(xùn)練過程復(fù)雜或者對未知篡改方式泛化能力低下等問題。

        鑒于此,本文基于一個(gè)性能優(yōu)異的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]進(jìn)行人臉篡改檢測。為了減輕模型訓(xùn)練時(shí)的過擬合并增強(qiáng)模型的魯棒性,在訓(xùn)練時(shí)使用cutout[11]數(shù)據(jù)增強(qiáng)技術(shù),隨機(jī)遮蓋圖片的一部分,使得神經(jīng)網(wǎng)絡(luò)不會(huì)過分依賴人臉圖像的某一個(gè)特征來區(qū)分圖像的真假。此外,本文使用labelsmoothing[12]作為損失函數(shù),并在訓(xùn)練中后期借鑒知識蒸餾[13]的思想對labelsmothing[12]進(jìn)行修改,這樣可以進(jìn)一步增加模型泛化性能的能力。

        1 方法

        本文的算法流程如圖1所示。訓(xùn)練流程總共分為7個(gè)步驟,具體解釋如下:

        (1)從原始訓(xùn)練集和驗(yàn)證集視頻中隨機(jī)抽取1幀或等間距抽取5幀(見步驟1)。

        (2)對每一幀做人臉檢測(見步驟2)。

        (3)根據(jù)人臉檢測的邊框截取人臉圖像(見步驟3)。

        (4)對人臉圖像做Cutout操作(見步驟4)。

        (5)將做完Cutout 操作的人臉圖像輸入神經(jīng)網(wǎng)絡(luò)(見步驟5)。

        (6)神經(jīng)網(wǎng)絡(luò)輸出二分類概率值(見步驟6)。

        (7)計(jì)算二分類概率值的損失,并進(jìn)行反向傳播(見步驟7)。

        測試流程總共分為5個(gè)步驟,具體解釋如下:

        (1)從原始測試集視頻中隨機(jī)抽取1幀或等間距抽取5幀(抽取方式與訓(xùn)練時(shí)保持一致)(見步驟1)。

        (2)對每一幀做人臉檢測(見步驟2)。

        (3)根據(jù)人臉檢測的邊框截取人臉圖像(見步驟3)。

        (4)將人臉圖像輸入神經(jīng)網(wǎng)絡(luò)(見步驟5)。

        (5)神經(jīng)網(wǎng)絡(luò)輸出二分類概率值即為預(yù)測結(jié)果(見步驟6)。

        以下對關(guān)鍵步驟做出詳細(xì)解釋。

        1.1 人臉檢測與提取

        由于換臉?biāo)惴ㄖ惶鎿Q了人的臉或者對其進(jìn)行了部分修改,而人的其他部位并沒有改動(dòng),所以本文的重點(diǎn)關(guān)注對象應(yīng)該是人臉,只對人臉的特征進(jìn)行分析,以判別出其真?zhèn)?。調(diào)用dlib 庫中的一個(gè)訓(xùn)練好的人臉檢測器[14],使用該檢測器檢測圖像會(huì)得到4個(gè)坐標(biāo)值,然后根據(jù)這4個(gè)坐標(biāo)值畫出截取人臉的邊框(見圖1中步驟2),然后根據(jù)邊框裁剪出一張人臉圖像(見圖1中步驟3)。

        1.2 數(shù)據(jù)增強(qiáng)方法

        不同的換臉?biāo)惴óa(chǎn)生的人臉圖像有不同的篡改痕跡,甚至未來更加先進(jìn)的換臉?biāo)惴óa(chǎn)生的圖像的篡改痕跡更加隱匿,單純使用已有的換臉?biāo)惴óa(chǎn)生的有限數(shù)據(jù)訓(xùn)練出來的模型泛化能力不強(qiáng),只能識別與原始圖像差異很大的篡改痕跡,而那些比較小的痕跡則很難被檢測出來。Cutout[11]方法則可以較好地緩解該問題。Cutout[11]覆蓋圖像的某一個(gè)或多個(gè)區(qū)域,這樣會(huì)使神經(jīng)網(wǎng)絡(luò)尋找其他有差異的特征進(jìn)行分類,而且每一張圖像覆蓋的區(qū)域是隨機(jī)產(chǎn)生的,這樣訓(xùn)練多次可以使網(wǎng)絡(luò)盡可能多地識別不同的篡改痕跡。

        具體過程為對于一張輸入的人臉圖像,首先將其縮放到224×224,然后隨機(jī)將其中1/4 面積的區(qū)域像素值設(shè)為0,并使每張圖像所遮蓋的區(qū)域是隨機(jī)選取的(見圖1中步驟4)。

        1.3 神經(jīng)網(wǎng)絡(luò)模型

        神經(jīng)網(wǎng)絡(luò)[15-16],尤其是深度卷積的神經(jīng)網(wǎng)絡(luò)[17]已經(jīng)在圖像處理中獲得巨大的成功[18-20]。由于ResNet[21]在ImageNet[22]上的準(zhǔn)確率取得大幅度提升,殘差網(wǎng)絡(luò)已成為一個(gè)廣為使用的分類模型。因此,使用基于ResNext[23]的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]來提升分類效果。ResNext[23]與Resnet[21]一樣使用了殘差網(wǎng)絡(luò)模塊,不同之處在于ResNext[23]將ResNet[21]中的通道分組,即將ResNet[21]模塊中的256個(gè)通道每8個(gè)分成一組,總共分為32組,文獻(xiàn)[23]中定義該組數(shù)為網(wǎng)絡(luò)的基數(shù)(cardinality),作者何愷明等人通過實(shí)驗(yàn)證明增加網(wǎng)絡(luò)的基數(shù)(cardinality)比增加網(wǎng)絡(luò)的深度和寬度更加有效,而且還能降低模型的復(fù)雜度。在文獻(xiàn)[10]中,作者仍然使用Resnext[23]模型,只是先利用Instagram庫的9.4億張圖片做弱監(jiān)督預(yù)訓(xùn)練,然后利用ImageNet[22]做微調(diào),這樣訓(xùn)練的效果相比僅僅只在ImageNet[22]上訓(xùn)練的ResNext[23]的效果有顯著提升。在Resnext[23]模型家族中,resnext101_32x8d_WSL比resnext101_32x4d_WSL準(zhǔn)確率更高,且比resnext101_32x16d_WSL 模型參數(shù)少。綜合考慮,resnext101_32x8d_WSL是一個(gè)性能優(yōu)異且運(yùn)行效率較高的模型,所以本文決定使用該預(yù)訓(xùn)練模型。將該模型的最后一層全連接層改為2 048×2,以適應(yīng)本文的二分類任務(wù)。

        圖1 方法主要流程

        1.4 損失函數(shù)

        在圖像分類任務(wù)中,交叉熵(Cross Entropy)是最常見的損失函數(shù),但是交叉熵使用的one-hot 編碼產(chǎn)生的真實(shí)標(biāo)簽概率值(0和1)不能保證模型的泛化能力。0-1概率標(biāo)簽促使某一類圖像的預(yù)測概率盡可能靠近1,其他類的預(yù)測概率盡可能靠近0,但是本次任務(wù)中,原始圖像與換臉的圖像只在一些細(xì)節(jié)處有差異,無限制地增加2類圖像的預(yù)測概率的差距會(huì)使模型容易過擬合。本文所使用的labelsmoothing[12]就是將0-1 標(biāo)簽平滑化,這樣更能反映原始圖像與換臉圖像的真實(shí)差距,使得預(yù)測的結(jié)果不會(huì)過于極端,起到提高魯棒性的作用。

        對于樣本x,softmax 層的輸出對應(yīng)每個(gè)標(biāo)簽的概率為,其真實(shí)標(biāo)簽值為q(k|x),此時(shí)交叉熵如式(1)所示:

        為了減小0-1 標(biāo)簽帶來的過擬合,對標(biāo)簽做平滑處理,如式(2)所示:

        ε是超參數(shù),文獻(xiàn)[12]中取值為0.1。u(k)服從均勻分布,按照文獻(xiàn)[12]的做法,定義,其中K為類別數(shù)。從而,labelsmoothing[12]損失函數(shù)為式(3)所示:

        另外,在訓(xùn)練過程的后半部分時(shí)間,借鑒知識蒸餾[13]里面的軟目標(biāo)(softtarget)將softmax進(jìn)行修改,使得在神經(jīng)網(wǎng)絡(luò)能夠繼續(xù)擬合而且還能避免過擬合的風(fēng)險(xiǎn)。修改方式如下:

        在softmax 公式中增加一個(gè)參數(shù)T,此時(shí)改進(jìn)的softmax的公式為:

        然后改進(jìn)的labesmoothing為:

        在此公式中,定義T為分類的類別數(shù),即T=2。

        2 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證本文所使用的方法的有效性,本章在FaceForensics++[8]數(shù)據(jù)集上做測試。該數(shù)據(jù)集是由Andreas Rossler團(tuán)隊(duì)從互聯(lián)網(wǎng)上收集了1 000個(gè)包含人臉的短視頻,視頻時(shí)間長度基本上在10 s 到20 s 之間,然后作者分別使用了4 個(gè)不同的換臉?biāo)惴▽υ曨l進(jìn)行了篡改,并分別產(chǎn)生1 000個(gè)對應(yīng)的視頻,這4種換臉?biāo)惴ǚ謩e為Deepfake、Face2Face[24]、FaceSwap、Neural-Textures[25]。此外,作者還對原視頻做了兩種不同程度的壓縮,分別為輕度壓縮(c23)和重度壓縮(c40),然后對壓縮后的視頻使用4 種換臉?biāo)惴▽σ曨l進(jìn)行篡改。由于原視頻和經(jīng)過輕度壓縮的視頻在作者給出的測試結(jié)果上準(zhǔn)確率已經(jīng)超過了98%[8],再繼續(xù)研究已經(jīng)沒有太大意義,所以使用重度壓縮的視頻來驗(yàn)證本文方法。

        如圖2 所示,(a)為各數(shù)據(jù)集原始圖像的示例圖,(b)為截取人臉后的示例圖,可以看出,確實(shí)憑借肉眼比較難分辨這些圖像的真假。文獻(xiàn)[8]中取視頻的所有幀進(jìn)行訓(xùn)練,但是這樣效率很低,所以在本次實(shí)驗(yàn)中并不使用所有幀,而是對每個(gè)視頻分別取1幀和5幀。取1幀的方法是對每個(gè)視頻隨機(jī)取1 幀,取5 幀的方法是對每個(gè)視頻的幀數(shù)按照最大間距取5 幀。最后與文獻(xiàn)[8]一樣,將數(shù)據(jù)集分成3部分,訓(xùn)練集720個(gè)視頻,驗(yàn)證集140個(gè)視頻,測試集140個(gè)視頻。當(dāng)每個(gè)視頻取5幀時(shí),測試集視頻的準(zhǔn)確率是其對應(yīng)的5張圖像的預(yù)測值的平均值。

        表1是在4個(gè)數(shù)據(jù)集上單獨(dú)訓(xùn)練的結(jié)果,表中R101指Resnext101_WSL[10],CU指方法cutout[11],LS指損失函數(shù)labelsmoothing[12],TLS 指改進(jìn)的損失函數(shù),見式(5),DF 指Deepfakes,F(xiàn)2F 指Face2Face[24],F(xiàn)S 指FaceSwap,NT 指NeuralTextures[25],文獻(xiàn)[5]和[8]中沒有做Neural-Textures的實(shí)驗(yàn),用”—”代替??梢钥吹?,即使是在每個(gè)視頻取1幀或5幀時(shí),使用的模型Resnext101_WSL[10]比文獻(xiàn)[8]中使用的XceptionNet性能相差無幾或者更加優(yōu)異,而且從表1 最后2 列來看,本文所使用的數(shù)據(jù)增強(qiáng)cutout[11]方法和labelsmoothing[12]損失函數(shù)的確起到了很好的抑制過擬合、增強(qiáng)泛化能力的作用。最后一列的實(shí)驗(yàn)是在訓(xùn)練的后30次迭代中使用本文改進(jìn)的損失函數(shù)(見式(5))替換labelsmoothing,訓(xùn)練的結(jié)果比只用labelsmoothing 要好,同時(shí)也都超過了對比實(shí)驗(yàn)[8]中使用所有幀訓(xùn)練的結(jié)果。

        此外,將4種不同換臉方式產(chǎn)生的視頻與原視頻混合在一起做了一個(gè)5分類訓(xùn)練,這樣訓(xùn)練的結(jié)果不僅能看出圖像是否被篡改,還能看出使用了哪一種篡改方式。除了數(shù)據(jù)集混合訓(xùn)練之外,其他的操作方式和訓(xùn)練參數(shù)與上面分開訓(xùn)練的一樣。結(jié)果如表2和表3所示。

        表1 各種方法在不同數(shù)據(jù)集上單獨(dú)訓(xùn)練的準(zhǔn)確率 %

        表2 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的準(zhǔn)確率 %

        圖2 各數(shù)據(jù)集示例圖

        表3 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的綜合準(zhǔn)確率

        表2 的結(jié)果是不同數(shù)據(jù)混合訓(xùn)練后在各個(gè)數(shù)據(jù)集的測試集上單獨(dú)測試的結(jié)果??梢钥吹剑?dāng)每個(gè)視頻只取1 幀時(shí),由于數(shù)據(jù)太少,所以模型基本上沒有泛化能力,但是當(dāng)每個(gè)視頻等間距取5幀時(shí),使用本文方法在4個(gè)數(shù)據(jù)集上得到的結(jié)果已經(jīng)超過了文獻(xiàn)[8]里面使用所有幀訓(xùn)練得到的結(jié)果。表3 是將各個(gè)換臉數(shù)據(jù)集的測試集混合在一起之后整體測試的結(jié)果??梢钥闯觯?dāng)每個(gè)視頻取5幀時(shí),能夠以高達(dá)92.22%的準(zhǔn)確率識別出使用不同換臉?biāo)惴óa(chǎn)生的視頻。

        表4 是本文方法與兩種對比方法平均測試一個(gè)視頻所花的時(shí)間,表中模型參數(shù)的計(jì)算使用的神經(jīng)網(wǎng)絡(luò)框架為Pytorch-1.0.1,測試時(shí)間所使用的硬件為i7-8700(CPU)。本文提出的方法中有測1 幀和測5 幀的情況,Ours一列的數(shù)據(jù)是指測5幀的情況??梢钥吹?,由于本文方法對每個(gè)視頻只需取5 幀,從整體來看,本文的方法平均測一個(gè)視頻所花的時(shí)間更少,效率更高。

        表4 各種方法的模型參數(shù)與檢測時(shí)間對比

        為了更好地復(fù)現(xiàn)本文所達(dá)到的效果,本段說明本文訓(xùn)練時(shí)所使用的參數(shù)。使用的優(yōu)化器為隨機(jī)梯度下降(Stochastic Gradient Descent,SGD),學(xué)習(xí)率設(shè)置為0.005,批量訓(xùn)練大小為64,訓(xùn)練60 輪并保存驗(yàn)證集上準(zhǔn)確率最高的模型。在cutout[15]中,參數(shù)n_holes 取為1,參數(shù)length取為112。Labelsmoothing[17]使用默認(rèn)參數(shù)。

        3 結(jié)束語

        判斷視頻中的人臉是否被篡改是一個(gè)典型的二分類問題,本文使用了一個(gè)性能優(yōu)異的預(yù)訓(xùn)練網(wǎng)絡(luò),并結(jié)合了一個(gè)數(shù)據(jù)增強(qiáng)方法和一個(gè)減少過擬合的損失函數(shù),在數(shù)據(jù)集FaceForensics++[8]上對4種不同的換臉?biāo)惴óa(chǎn)生的視頻的檢測都取得了很好的效果。未來將繼續(xù)探索更加高效的算法。

        猜你喜歡
        人臉準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
        有特點(diǎn)的人臉
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        三國漫——人臉解鎖
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        免费a级毛片在线播放不收费| 国产在线精品亚洲视频在线 | 国产a级网站| 另类人妖在线观看一区二区| 日韩av一区二区观看| 熟妇人妻久久中文字幕| 五十路熟久久网| 在线不卡中文字幕福利| 午夜大片在线播放观看| 丰满多毛的大隂户毛茸茸| 亚洲国产毛片| 成av人片一区二区三区久久| 国产高清在线视频一区二区三区 | 国产a v无码专区亚洲av| 色窝综合网| 精品一区二区三区久久| 日本熟妇hdsex视频| 亚洲成人免费网址| 国产91熟女高潮一曲区| 中文字幕亚洲精品久久| 久久亚洲国产成人精品性色 | 成人无码激情视频在线观看| 亚洲日本中文字幕乱码在线| 成人影院yy111111在线| 久久精品中文字幕第23页| 黄网站a毛片免费观看久久| 久久久精品视频网站在线观看| 50岁熟妇大白屁股真爽| 久久国产成人午夜av影院| 亚洲日本中文字幕乱码| 久久狠狠爱亚洲综合影院 | 亚洲AV无码久久精品成人| 久久精品视频日本免费| 国内精品久久久久伊人av| 国产天堂网站麻豆| 在线亚洲免费精品视频| 丰满少妇被猛烈进入高清播放| 国产95在线 | 欧美| 亚洲人妻中文字幕在线视频 | 国产一区二区三区亚洲精品| 草逼短视频免费看m3u8|