深度偽造與檢測技術(shù)綜述*

2021-03-06 09:29:06李旭嶸紀(jì)守領(lǐng)吳春明劉振廣鄧水光孔祥維

軟件學(xué)報(bào) 2021年2期

關(guān)鍵詞：深度特征檢測

李旭嶸 ,紀(jì)守領(lǐng) ,吳春明,3 ,劉振廣 ,鄧水光 ,程鵬 ,楊珉,孔祥維

1(浙江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江杭州 310007)

2(阿里巴巴,浙江杭州 311121)

3(之江實(shí)驗(yàn)室,浙江杭州 310000)

4(浙江工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,浙江杭州 310018)5(浙江大學(xué) 控制科學(xué)與工程學(xué)院,浙江杭州 310007)

6(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203)

7(浙江大學(xué) 管理學(xué)院,浙江杭州 310007)

近年來,以Deepfakes[1]為代表的換臉技術(shù)開始在網(wǎng)絡(luò)興起.此類技術(shù)可將視頻中的人臉替換成目標(biāo)人物,從而制作出目標(biāo)人物做特定動(dòng)作的假視頻.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動(dòng)編碼器、生成對(duì)抗網(wǎng)絡(luò)等技術(shù)逐漸被應(yīng)用到深度偽造中.由于Deepfakes 技術(shù)只需要少量的人臉照片便可以實(shí)現(xiàn)視頻換臉,一些惡意用戶利用互聯(lián)網(wǎng)上可獲取的數(shù)據(jù),生成眾多的假視頻并應(yīng)用在灰色地帶,如將色情電影的女主角替換成女明星,給政客、公司高管等有影響力的人偽造一些視頻內(nèi)容,從而達(dá)到誤導(dǎo)輿論、贏得選取、操縱股價(jià)等目的.這些虛假視頻內(nèi)容極其逼真,在制作的同時(shí)往往伴隨著音頻的篡改,使得互聯(lián)網(wǎng)用戶幾乎無法鑒別.如果這些深度偽造的內(nèi)容作為新聞素材被制作傳播,這會(huì)損害新聞機(jī)構(gòu)的聲譽(yù)和公眾對(duì)媒體的信心.更深層次的,當(dāng)遇到案件偵查和事故取證時(shí),如果缺乏對(duì)Deepfakes 類虛假影像資料的鑒別,將對(duì)司法體系產(chǎn)生巨大的挑戰(zhàn).盡管深度偽造技術(shù)有其積極的一面,如“復(fù)活”一些去世的人進(jìn)行影視創(chuàng)作,以及Zao APP[2]提供大眾換臉娛樂服務(wù)等,但是目前負(fù)面影響遠(yuǎn)遠(yuǎn)大于正面,擁有鑒別此類深度偽造視頻的能力變得尤為重要.

為了盡量減少深度偽造技術(shù)帶來的影響,消除虛假視頻的傳播,學(xué)術(shù)界和工業(yè)界開始探索不同的深度偽造檢測技術(shù).相繼有學(xué)者構(gòu)造數(shù)據(jù)集,展開對(duì)Deepfakes 檢測的多角度研究.臉書公司也聯(lián)合微軟一起舉辦全球Deepfakes 檢測競賽[3]以推動(dòng)檢測技術(shù)的發(fā)展.然而這些Deepfakes 檢測工作各有側(cè)重,存在眾多局限性.針對(duì)本領(lǐng)域的綜述工作還比較缺乏,只有針對(duì)早期圖像篡改工作的一些總結(jié)[4,5],亟需對(duì)現(xiàn)有工作進(jìn)行系統(tǒng)的整理和科學(xué)的總結(jié)、歸類,以促進(jìn)該領(lǐng)域的研究.

本文第1 節(jié)介紹深度偽造的各種相關(guān)技術(shù).第2 節(jié)列舉出當(dāng)下深度偽造研究的數(shù)據(jù)集.第3 節(jié)對(duì)現(xiàn)有的深度偽造檢測技術(shù)進(jìn)行系統(tǒng)的總結(jié)和歸類.第4 節(jié)討論深度偽造生成和檢測技術(shù)的雙面對(duì)抗性.第5 節(jié)總結(jié)面臨的挑戰(zhàn)和未來可行的研究方向.最后,第6 節(jié)對(duì)全文的工作進(jìn)行總結(jié).

1 深度偽造生成技術(shù)

現(xiàn)有的深度偽造圖像主要是指臉部的篡改,而臉部篡改偽造主要分為兩大類:一類是換臉偽造,通過交換兩張圖像的人臉達(dá)到人身份修改的目的,其技術(shù)從傳統(tǒng)的3D 重建方法發(fā)展到現(xiàn)在以生成對(duì)抗網(wǎng)絡(luò)為基礎(chǔ)的深度偽造;另一類是臉部表情屬性偽造,遷移指定表情等動(dòng)作到目標(biāo)圖像而不修改目標(biāo)人臉標(biāo)志,達(dá)到偽造表情或者特定動(dòng)作目的,其技術(shù)也從基于3D 的圖形學(xué)方法演變到最新的深度學(xué)習(xí)方法.此外,制作深度偽造素材時(shí)通常還包含了語音的偽造,使得欺騙效果更佳.本節(jié)將對(duì)這些偽造生成技術(shù)進(jìn)行概述,其中重點(diǎn)關(guān)注深度偽造技術(shù),并總結(jié)了一些開源的生成工具.

1.1 換臉偽造技術(shù)

1.1.1 基于圖形學(xué)的偽造

在過去10 多年里,基于圖形學(xué)的人臉篡改技術(shù)一直被研究者所關(guān)注,Zollhofer 等人[6]綜述了當(dāng)前比較主流的3D 模型重建追蹤等技術(shù).FaceSwap[7]是基于圖形學(xué)的換臉方法,首先獲取人臉關(guān)鍵點(diǎn),然后通過3D 模型對(duì)獲取到的人臉關(guān)鍵點(diǎn)位置進(jìn)行渲染,不斷縮小目標(biāo)形狀和關(guān)鍵點(diǎn)定位間的差異,最后將渲染模型的圖像進(jìn)行混合,并利用色彩校正技術(shù)獲取最終的圖像.Kevin 等人[8]提出了在視頻里自動(dòng)換臉的3D 方法,不需要大量的手動(dòng)操作和硬件采集,只需要一個(gè)單相機(jī)視頻,通過用3D 多線性模型追蹤視頻中的人臉,并用相應(yīng)的3D 形狀將源人臉仿射到目標(biāo)人臉.Pablo 等人[9]用類似的3D 方法來替換目標(biāo)視頻中演員的人臉,而保留原始的表情.Pablo等人[10]還設(shè)計(jì)了一個(gè)系統(tǒng),通過高質(zhì)量的3D 人臉捕捉技術(shù),改變?nèi)四槒亩ヅ渥彀偷膭?dòng)作.Nirkin 等人[11]用分割的思路促進(jìn)換臉,通過網(wǎng)絡(luò)分割出來的人臉估計(jì)3D 人臉形狀,最后融合源和目標(biāo)這兩個(gè)對(duì)齊的3D 人臉形狀.

1.1.2 基于學(xué)習(xí)的偽造

盡管基于圖形學(xué)的臉部篡改方法研究了多年,但是時(shí)間開銷大、門檻高、成本大,使得這項(xiàng)技術(shù)很難普及.隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,研究者們開始關(guān)注深度學(xué)習(xí)在人臉篡改上的應(yīng)用[12].Deepfakes[1]是網(wǎng)絡(luò)上較早開源的基于深度學(xué)習(xí)的換臉項(xiàng)目,如圖1 所示,訓(xùn)練兩個(gè)自動(dòng)編碼器,兩個(gè)編碼器共享權(quán)重參數(shù),使得兩個(gè)解碼器學(xué)會(huì)重建人臉的能力.訓(xùn)練結(jié)束后,在換臉階段,交換兩個(gè)解碼器,從而使得換臉效果達(dá)成.這只需要具備原人物和目標(biāo)人物的人臉圖片即可訓(xùn)練,大大降低了使用門檻.但是也需要一定的訓(xùn)練技巧,否則生成器的生成質(zhì)量無法保障.鑒于此,研究者們開始關(guān)注GAN[13]技術(shù)的融合,Faceswap-GAN[14]就是增加了GAN 技術(shù)的Deepfakes,引入判別器的對(duì)抗損失函數(shù),在生成的時(shí)候判別生成圖像和原圖的相似度,使得生成的圖像質(zhì)量有大幅度提高,另外引入了感知損失函數(shù)增加眼珠的轉(zhuǎn)動(dòng)效果.GAN 技術(shù)的加入使得換臉更加逼真自然,也一定程度增加了深度偽造技術(shù)的流行度.

Fig.1 Framework for Deepfakes generation[1]圖1 Depefakes 生成框架[1]

Korshunova 等人[15]將換臉問題視為風(fēng)格遷移問題,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò),從非結(jié)構(gòu)化的圖片中學(xué)習(xí)這種外觀,并設(shè)計(jì)內(nèi)容損失和風(fēng)格損失函數(shù)來保障生成高質(zhì)量真實(shí)度的人臉圖像.這些人臉轉(zhuǎn)換還是依賴于大量的源和目標(biāo)人物的人臉圖片訓(xùn)練,泛化性不強(qiáng).Yuval 等人[16]基于GAN 技術(shù)提出了一個(gè)主體無關(guān)的人臉替換和重建方法,通過引入特定域感知損失、重建損失和對(duì)抗損失,可以應(yīng)用于成對(duì)的人臉,不需要在大量人臉上訓(xùn)練.除換臉外,GAN 技術(shù)還被廣泛用于生產(chǎn)虛擬的人臉和篡改人臉屬性.如StarGAN[17]、Stackgan[18]、PGAN[19]等一系列GAN 技術(shù)可以生成虛假的人臉,Grigory 等人[20]利用conditional-GAN[21]技術(shù)改變?nèi)说哪挲g,Rui 等人[22]利用GAN 生成不同的人臉視角而保持全局的結(jié)構(gòu)和局部細(xì)節(jié).GAN 技術(shù)的發(fā)展使得人臉的生成和屬性篡改都越來越真實(shí),這也給人臉偽造的濫用留下了空間.

1.2 表情偽造技術(shù)

表情偽造是指不改變?nèi)四樀膶傩?遷移其他人臉圖像的表情到目標(biāo)人臉,從而達(dá)到目標(biāo)人物做指定表情的目的.Thies 等人[23]基于一個(gè)消費(fèi)級(jí)的RGB-D 相機(jī),重建、追蹤源和目標(biāo)演員的3D 模型并最后融合,從而進(jìn)行實(shí)時(shí)的表情遷移.另外,Thies 等人[24]提出了Face2Face,通過利用3D 重建技術(shù)和圖像渲染技術(shù),能夠在商業(yè)視頻流中進(jìn)行人臉移動(dòng)表情的修改.Head on[25]通過修改視角和姿態(tài)獨(dú)立的紋理實(shí)現(xiàn)視頻級(jí)的渲染方法,從而實(shí)現(xiàn)完整的人重建方法,包括表情眼睛、頭部移動(dòng)等.Kim 等人[26]利用含有時(shí)空架構(gòu)的生成網(wǎng)絡(luò)將合成的渲染圖轉(zhuǎn)換成真實(shí)圖,并能遷移頭部表情等動(dòng)作.盡管現(xiàn)有的圖形學(xué)方法可以較好地合成或重建圖像,但是嚴(yán)重依賴于高質(zhì)量的3D 內(nèi)容.Thies 等人[27]提出了延遲神經(jīng)渲染的框架,與渲染網(wǎng)絡(luò)一起優(yōu)化神經(jīng)紋理而生成合成的圖像,此方法可以在不完美的3D 內(nèi)容上操作.Suwajanakorn 等人[28]利用循環(huán)神經(jīng)網(wǎng)絡(luò)建立語音到嘴型動(dòng)作的映射,可以匹配輸入的語音合成嘴型指定紋理動(dòng)作.此外,還有針對(duì)人物特寫鏡頭中的圖像合成[29,30]、基于2D 仿射的源演員表情匹配[31]、基于網(wǎng)絡(luò)編碼空間的屬性修改的表情遷移[32]等相繼被研究者提出,不同場景的表情偽造技術(shù)日益成熟.

1.3 語音偽造技術(shù)

語音偽造也叫做語音版 Deepfakes,利用 AI 技術(shù)合成虛假語音.通常有文本到語音合成(text-to-speech synthesis,簡稱TTS)和語音轉(zhuǎn)換(voice conversion)兩種形式:文本到語音合成主要完成指定文本的語音信息輸出,而語音轉(zhuǎn)換是指轉(zhuǎn)換人的音色到目標(biāo)音色.這些語音的合成不僅可以欺騙人的聽覺,還可以欺騙一些自動(dòng)語音認(rèn)證系統(tǒng).早期的語音合成主要依賴隱馬爾科夫模型和高斯混合模型,而隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語音合成和轉(zhuǎn)化技術(shù)的質(zhì)量有了大幅度提高.來自谷歌的Oord 等人提出了WaveNet[33],這是第一個(gè)端到端的語音合成器,一種基于音頻生成模型,能夠產(chǎn)生于人相似的音頻.相似的文本到語音合成系統(tǒng)有 Deep voice[34]和Tacotron[35],均在原始語音材料上訓(xùn)練,速度比WaveNet 更快.隨后,百度對(duì)Deep voice 進(jìn)行了擴(kuò)展,提出了Deep voice2[36],通過使用低維度可訓(xùn)練的說話者編碼來增強(qiáng)文本到語音的轉(zhuǎn)換,使得單個(gè)模型能生成不同的聲音.Ping 等人提出的Deep voice3[37]進(jìn)一步改進(jìn)了之前的Deep voice 系列,Deep voice3 是一個(gè)基于注意力機(jī)制的全卷積TTS 系統(tǒng),通過設(shè)計(jì)字符到頻譜圖的結(jié)構(gòu),能夠?qū)崿F(xiàn)完全并行的計(jì)算,在不降低合成性能的情況下,速度更加快.Santiago 等人[38]則利用GAN 技術(shù)對(duì)語音的噪音進(jìn)行過濾,提高了生成語音的質(zhì)量.Chris 等人[39]提出了無監(jiān)督音頻合成模型,能夠從小規(guī)模語音庫中學(xué)習(xí)生成可理解的詞匯.語音合成技術(shù)愈發(fā)成熟,且與視頻中的換臉偽造往往同時(shí)出現(xiàn),使得鑒別的難度更大.

1.4 開源工具與商業(yè)軟件

隨著對(duì)深度偽造生成技術(shù)的深入研究,網(wǎng)絡(luò)上逐漸出現(xiàn)了眾多開源軟件和商業(yè)應(yīng)用.已有文獻(xiàn)[40]做了部分總結(jié),但是不夠全面.本文對(duì)其進(jìn)行擴(kuò)充和比較,結(jié)果見表1,主要分為人臉偽造和語音偽造.其中,人臉偽造主要分為兩類:一類是以Faceswap 為代表的在GitHub 網(wǎng)站上開源的偽造項(xiàng)目,此類項(xiàng)目均是對(duì)原始項(xiàng)目進(jìn)行改進(jìn),或在新的深度學(xué)習(xí)框架下實(shí)現(xiàn);另一類是商業(yè)化的APP,如Zao[1]、FakeAPP[41]、FaceApp[42]等提供換臉、修改表情或者人類屬性等功能.網(wǎng)上開源軟件需要使用者對(duì)深度學(xué)習(xí)相關(guān)知識(shí)比較熟悉,需要使用者擁有一定數(shù)量的人物圖像并在GPU 上進(jìn)行訓(xùn)練,訓(xùn)練的穩(wěn)定結(jié)果取決于使用者的專業(yè)水平.而商業(yè)化軟件的使用門檻很低,只需使用者上傳一張圖像就可以實(shí)現(xiàn)偽造目的.其中,FakeAPP 需要用戶安裝在有GPU 的電腦上使用.總的來說,開源軟件使用復(fù)雜,適合專業(yè)人士,并對(duì)生成效果進(jìn)行改造;而商業(yè)軟件適合大部分普通非專業(yè)用戶,但是生成效果也取決于開發(fā)軟件的公司或組織.語音合成偽造已逐漸成熟,被大多數(shù)云服務(wù)廠商開發(fā)為接口服務(wù)向大眾開發(fā),這里選取有代表性的軟件展示.這些軟件的流行和傳播使得深度偽造變得更加低門檻、大眾化,也進(jìn)一步加劇了惡意用戶帶來的負(fù)面影響.

Table 1 Summary of Deepfakes tools表1 深度偽造工具匯總

2 深度偽造數(shù)據(jù)集

隨著深度偽造的泛濫,研究人員開始了針對(duì)這些偽造視頻、圖像和語音的研究,逐漸有新的數(shù)據(jù)集被開源以促進(jìn)此領(lǐng)域的研究.數(shù)據(jù)集的質(zhì)量和規(guī)模對(duì)深度偽造領(lǐng)域的研究尤為重要,學(xué)術(shù)界和工業(yè)界均開源了部分?jǐn)?shù)據(jù)集以促進(jìn)該領(lǐng)域的研究.本節(jié)將逐一介紹這些數(shù)據(jù)集(見表2).

Table 2 Open source dataset of the Deepfake表2 深度偽造開源數(shù)據(jù)集

Table 2 Open source dataset of the Deepfake (Continued)表2 深度偽造開源數(shù)據(jù)集(續(xù))

2.1 深度偽造視頻數(shù)據(jù)集

· UADFV:此數(shù)據(jù)集素材取自YouTube,分別有49 個(gè)真實(shí)視頻和49 個(gè)合成視頻,合成視頻由FakeAPP[41]生成,每個(gè)視頻的平均長度是大約11s.然而,作為早期深度偽造研究的數(shù)據(jù)集之一,視頻分辨率較低、生成質(zhì)量差,有較明顯的換臉痕跡,數(shù)量規(guī)模過于少,篡改類型比較單一.

· FaceForensics(FF):早期的大規(guī)模深度偽造數(shù)據(jù)集之一,素材來源于Youtube8M[62],選取該數(shù)據(jù)集中標(biāo)簽為人臉、新聞播報(bào)員、新聞聯(lián)播的視頻以及YouTube 上有類似標(biāo)簽的視頻共1 004 個(gè),所有選取的視頻分辨率大于480p.除此之外,作者用人臉檢測器抽取視頻中的人臉序列,確保所選視頻連續(xù)300 幀中含有人臉,并手動(dòng)過濾掉人臉遮擋過多的視頻以確保視頻質(zhì)量.最后,采用Face2Face 的換表情的方法構(gòu)造1 004 個(gè)假視頻.此數(shù)據(jù)集視頻規(guī)模大、源視頻人臉質(zhì)量高,但是篡改痕跡明顯,篡改方式單一.

· FaceForensics++(FF++):目前較大規(guī)模、種類最多的深度偽造數(shù)據(jù)集之一.素材與FaceForensics 相似,取自YouTube 的1 000 個(gè)視頻.在篩選素材的過程中,同樣用人臉檢測器進(jìn)行檢測,確保連續(xù)幀含有人臉,并手動(dòng)過濾掉人臉遮擋過多的視頻以確保視頻質(zhì)量.在這個(gè)數(shù)據(jù)集中,作者共采用4 種類型的人臉篡改來制作假視頻.

? Deepfakes:采用基于自動(dòng)編碼器的Deepfakes 方法實(shí)現(xiàn),訓(xùn)練一對(duì)一的生成模型,可以實(shí)現(xiàn)一對(duì)一的換臉.

? Face2Face:采用Face2Face 方法實(shí)現(xiàn).

? FaceSwap:采用FaceSwap 方法實(shí)現(xiàn),基于3D 圖像的方法.

? Neural Textures:利用延遲神經(jīng)渲染網(wǎng)絡(luò)優(yōu)化紋理的方法實(shí)現(xiàn).

其中,Deepfakes 與FaceSwap 屬于換臉偽造,Face2Face 與Neural Textures 屬于換表情偽造.4 種類型均在1 000 個(gè)原始視頻上生成對(duì)應(yīng)的1 000 個(gè)假視頻,并對(duì)真假視頻均做了H.264 codec 壓縮方式中的C0、C23、C40 這3 種壓縮水平的壓縮.另外,數(shù)據(jù)集中還提供了對(duì)應(yīng)人臉篡改位置的mask.然而這些篡改的質(zhì)量不是很高,人眼能明顯觀察出篡改痕跡,修改的輪廓很明顯;同時(shí),在合成的假視頻中還存在人臉閃爍現(xiàn)象.

· Deepfake-TIMIT:由Faceswap-GAN 方法生成,是第一個(gè)GAN 版本的Deepfakes 數(shù)據(jù)集.源數(shù)據(jù)是在VidTIMIT 中選取的32 個(gè)人(16 對(duì)相似的人)兩兩相互替換組成的視頻,每個(gè)人有10 個(gè)動(dòng)作視頻,生成的假視頻有高清(128×128)和低清(64×64)兩個(gè)版本,共有640 段假視頻.生成質(zhì)量比FaceForensics++要好,但是視頻分辨率不高,在臉部邊界處有少量痕跡.

· Mesonet data:早期深度偽造研究數(shù)據(jù)集,數(shù)據(jù)量較小,由YouTube 渠道搜集的網(wǎng)絡(luò)愛好者制作的偽造視頻與圖像.

· Celeb-DF:針對(duì)UADFV、FaceForensics++、Deepfake-TIMIT 等數(shù)據(jù)集的一些缺陷,如圖片分辨率不高、合成的視頻質(zhì)量差、篡改痕跡粗糙、視頻人臉閃爍感過多等缺陷,對(duì)Deepfakes 生成方法進(jìn)行改進(jìn),增大生成圖像的大小,并在訓(xùn)練階段增加色調(diào)亮度、對(duì)比度等,以減小篡改區(qū)域與周邊區(qū)域的不一致性.此外,使用更加精準(zhǔn)的人臉關(guān)鍵點(diǎn)定位信息減輕人臉閃爍現(xiàn)象.數(shù)據(jù)集由從YouTube 渠道下載的408個(gè)原始視頻和生成的795 假視頻組成,視頻的平均長度是13s,幀率是30.

· DeepfakeDetection(DFD):為了填充深度偽造數(shù)據(jù)的多樣性,谷歌公司征集28 個(gè)演員拍攝了363 個(gè)原始視頻,并將這些視頻截取成一個(gè)個(gè)場景不同的片段,最后對(duì)這些片段進(jìn)行相互換臉,生成3 068 個(gè)假視頻.同樣,此數(shù)據(jù)集也提供了H.264 codec 壓縮方式中的C0,C23,C40 這3 種壓縮水平的壓縮版本.

· DFDC preview Dataset:為了推進(jìn)深度偽造領(lǐng)域的研究,Facebook 舉辦了 The Deepfake Detection Challenge,在比賽前夕公開了預(yù)賽數(shù)據(jù)集,由5 214 個(gè)視頻組成,真假比例1:0.28,原始視頻均由66 個(gè)演員拍攝而成,假視頻有兩種篡改方式,大量的替換在相似人臉之間進(jìn)行,如皮膚顏色、頭發(fā)、眼睛等.每個(gè)視頻均是15s 左右的小片段.

· DFDC:The Deepfake Detection Challenge 的正式數(shù)據(jù)集,共有119 196 個(gè)視頻,真假視頻比例約為1:5.原始視頻均由演員拍攝,視頻長度約為10s.視頻分辨率跨度很大,視頻場景涵蓋了多種復(fù)雜場景,如黑人黑背景、側(cè)臉、走動(dòng)、強(qiáng)光、多人等.

· DeeperForensics-1.0:為了應(yīng)對(duì)深度偽造研究數(shù)據(jù)量少的問題,南洋理工大學(xué)和商湯科技推出了大規(guī)模深度偽造數(shù)據(jù)集.研究人員從26 個(gè)國家收集了100 名演員的面部數(shù)據(jù),演員在9 種燈光條件下轉(zhuǎn)頭做各種表情,并使用FaceForensics++中的1 000 個(gè)原始視頻作為目標(biāo)視頻,其中,100 個(gè)演員的臉中的每一個(gè)都被交換為10 個(gè)目標(biāo).他們故意以35 種不同的方式扭曲每個(gè)視頻,以模擬現(xiàn)實(shí)情況,從而最終數(shù)據(jù)集包含50 000 個(gè)未修改的視頻和10 000 個(gè)修改的視頻.

以上深度偽造數(shù)據(jù)集的示例如圖2 所示.

Fig.2 Exmaples of Deepfakes datasets圖2 深度偽造數(shù)據(jù)集示例

2.2 深度偽造語音數(shù)據(jù)集

· ASVspoof 2015 database

為了應(yīng)對(duì)語音合成欺騙的攻擊威脅,2015 年舉辦了第1 屆自動(dòng)說話人認(rèn)證競賽.該競賽上開放了第一個(gè)大規(guī)模偽造語音數(shù)據(jù)集,以期發(fā)現(xiàn)多樣的防御應(yīng)對(duì)策略.數(shù)據(jù)集由10 種不同的語音合成和語音轉(zhuǎn)換欺騙算法生成,包含原始的和欺騙的語音數(shù)據(jù).原始語音是由106 個(gè)人(45 男與61 女)說話記錄構(gòu)成,這些記錄沒有噪音影響.其中,訓(xùn)練集由3 750 個(gè)原始話語片段和12 625 個(gè)欺騙話語片段組成,驗(yàn)證集由3 497 個(gè)原始話語片段和49 875個(gè)欺騙話語片段組成,測試集由9 404 個(gè)原始話語片段和184 000 個(gè)欺騙話語片段組成.

· ASVspoof 2019 database

2019 年,自動(dòng)說話人認(rèn)證競賽包含了所有語音欺騙類型的攻擊,如語音合成、語音轉(zhuǎn)換、語音重放等.將攻擊分類為兩種場景:第1 種場景是邏輯訪問,即直接將欺騙攻擊的語音注入到自動(dòng)說話人認(rèn)證系統(tǒng),這些語音由最新的語音合成和語音轉(zhuǎn)換技術(shù)生成;另一種是物理訪問場景,語音數(shù)據(jù)由麥克風(fēng)等設(shè)備捕捉到,再經(jīng)一些專業(yè)設(shè)備重放.這些語音數(shù)據(jù)由107 個(gè)人(46 男與61 女)說話組成,其中,訓(xùn)練集、驗(yàn)證集、和測試集分別由20,10,48個(gè)人的語音數(shù)據(jù)構(gòu)成.測試集中的攻擊類型與訓(xùn)練驗(yàn)證集中均不相同.

3 深度偽造檢測技術(shù)

隨著深度偽造技術(shù)的發(fā)展,互聯(lián)網(wǎng)上充斥著大量包含偽造人臉和語音的虛假視頻,Deepfakes 類技術(shù)的濫用帶來巨大的負(fù)面影響,如損壞他人名譽(yù)、偽造證據(jù)、傳播謠言,影響政客形象干涉選舉等.這也吸引了一批研究者對(duì)深度偽造檢測技術(shù)的重視.本節(jié)將綜述現(xiàn)有的一些代表性檢測工作,其中,前5 小節(jié)重點(diǎn)介紹研究較多的深度偽造視頻檢測,第6 小節(jié)概述偽造語音的檢測工作,并在第7 小節(jié)對(duì)這些工作進(jìn)行總結(jié).

3.1 基于傳統(tǒng)圖像取證的方法

傳統(tǒng)的圖像取證初始主要是基于傳統(tǒng)的信號(hào)處理方法,大多數(shù)依賴于特定篡改的證據(jù),利用圖像的頻域特征和統(tǒng)計(jì)特征進(jìn)行區(qū)分,如局部噪音分析、圖像質(zhì)量評(píng)估、設(shè)備指紋、光照等,解決復(fù)制-移動(dòng)[63]、拼接[64]、移除這些圖像篡改問題.而深度偽造視頻本質(zhì)也是一系列偽造合成的圖片合成,因此可以將此類方法應(yīng)用到深度偽造檢測.Lukas 等人[65]提出了數(shù)字圖像的相機(jī)設(shè)備指紋光響應(yīng)不均勻性(PRNU),Chierchia 等人[66]進(jìn)一步利用光響應(yīng)不均勻性檢測小的篡改圖像.Jessica 等人[67]通過組裝噪聲分量模型提出了數(shù)字圖像的隱寫特征,隨后,噪聲特征被廣泛運(yùn)用在圖像取證領(lǐng)域.此外,還存在諸多基于信號(hào)處理的取證方法,如利用JPEG 壓縮分析篡改痕跡[68]、向JPEG 壓縮的圖像中添加噪聲提升檢測性能[69,70]、利用局部噪音方差分析拼接痕跡[71]、利用色彩過濾矩陣(color filter array,簡稱CFA)模型[72]進(jìn)行篡改定位等.然而隨著人工智能技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在諸多任務(wù)上均超過了傳統(tǒng)方法,取證方法逐漸融合了機(jī)器學(xué)習(xí)方法特別是深度學(xué)習(xí)技術(shù).此類方法檢測成功率高,不依賴特定類型的篡改痕跡,比傳統(tǒng)的信號(hào)處理方法魯棒性更好.Cozzolino 等人[73]設(shè)計(jì)了一個(gè)孿生網(wǎng)絡(luò),在來自不同相機(jī)的圖像塊上訓(xùn)練來提取圖片的噪音指紋,從而實(shí)現(xiàn)檢測.Zhou 等人[74]提出了基于雙流的Faster R-CNN 網(wǎng)絡(luò),其中,RGB 流主要從RGB 圖像中輸入提取特征,從而發(fā)現(xiàn)強(qiáng)烈對(duì)比差異與不自然的篡改痕跡;而噪音流利用噪聲特征發(fā)現(xiàn)篡改區(qū)域與源區(qū)域的噪聲不一致性.最后,融合兩條流的特征進(jìn)行學(xué)習(xí)兩個(gè)模態(tài)空間的信息.利用深度學(xué)習(xí)技術(shù)提取關(guān)鍵取證特征的工作也被不斷探究[75].Liu 等人[76]提出一個(gè)新的深度融合網(wǎng)絡(luò)通過追蹤邊界來定位篡改區(qū)域.Minyoung 等人[77]通過訓(xùn)練照片所包含的相機(jī)EXIF 源數(shù)據(jù)指紋信息來區(qū)分圖片是否被拼接.Xiaodong 等人[78]根據(jù)全局與局部塊的特征不一致性學(xué)習(xí)一個(gè)半-全局網(wǎng)絡(luò)實(shí)現(xiàn)拼接定位.Cozzolino 等人[79]提出使用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)基于殘差的特征,此類特征可以有效提升取證檢測和定位的性能.Chen 等人[80]則利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自然模糊和人為模糊帶來的光直方圖不一致性.Zhou 等人[81]將隱寫噪聲特征和卷積網(wǎng)絡(luò)學(xué)習(xí)邊界特征結(jié)合,提出了一個(gè)雙流神經(jīng)網(wǎng)絡(luò)的方法.具體是用一個(gè)臉分類流訓(xùn)練一個(gè)GoogleNet[82]檢測篡改的人工痕跡,利用捕捉的局部噪音特征和拍照特征訓(xùn)練一個(gè)基于塊的三元組(triplet)網(wǎng)絡(luò),用這兩條流的得分,綜合判斷是否圖像被篡改.這是因?yàn)榛谕粡垐D像的隱藏特征是相似的,距離小;不同圖像的塊之間的隱藏特征距離大,用三元組訓(xùn)練出塊的距離編碼后,用一個(gè)SVM 分類得到概率分?jǐn)?shù).

盡管基于取證的技術(shù)很成熟,但是在應(yīng)對(duì)新的深度偽造視頻時(shí)仍存在很多短板,因?yàn)榇祟悅卧煲曨l通常會(huì)被不同的后處理,如不同的壓縮方式、不同的壓縮率、不同的放縮合成.針對(duì)圖片級(jí)的取證技術(shù)更多關(guān)注局部的異常特征,仍然應(yīng)對(duì)乏力,很容易被繞過,并不能直接應(yīng)用到日益升級(jí)的深度偽造視頻檢測上.

3.2 基于生理信號(hào)特征的方法

生成的偽造視頻往往忽略人的真實(shí)生理特征,無法做到在整體上與真人一致,因此,基于生理信號(hào)的特征不斷被研究者挖掘.Yang 等人[83]認(rèn)為Deepfakes 創(chuàng)造的是分離的合成臉區(qū)域,這樣在計(jì)算3D 頭部姿態(tài)評(píng)估的時(shí)候就會(huì)引入錯(cuò)誤.因?yàn)镈eepfakes 是交換中心臉區(qū)域的臉,臉外圍關(guān)鍵點(diǎn)的位置仍保持不變,中心和外圍位置的關(guān)鍵點(diǎn)坐標(biāo)不匹配,會(huì)導(dǎo)致3D 頭部姿態(tài)評(píng)估的不一致,故用中心區(qū)域的關(guān)鍵點(diǎn)計(jì)算一個(gè)頭方向向量,整個(gè)臉計(jì)算的頭方向向量,衡量這兩個(gè)向量之間的差異.針對(duì)視頻計(jì)算所有幀的頭部姿態(tài)差異,最后訓(xùn)練一個(gè)支持向量機(jī)(SVM)分類器來學(xué)習(xí)這種差異.Yang 等人[84]同時(shí)發(fā)現(xiàn),GAN 網(wǎng)絡(luò)生成的假人臉在關(guān)鍵點(diǎn)位置分布上與真實(shí)人臉不盡相同,盡管生成的假人臉在臉部細(xì)節(jié)上與真人相似,但是自然性和連貫性還是與真人有很大的不同之處,通過將關(guān)鍵點(diǎn)歸一化的位置坐標(biāo)作為特征喂入SVM 分類器進(jìn)行學(xué)習(xí).Li 等人[85]發(fā)現(xiàn),正常人的眨眼頻率和時(shí)間都有一定的范圍,而Deepfakes 偽造視頻的人基本沒有眨眼現(xiàn)象,或者頻率跟正常視頻有較大差別,這可能是偽造視頻在生成時(shí)沒有豐富多樣的眨眼素材導(dǎo)致的.因此,作者將CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò)聯(lián)合一起,設(shè)計(jì)了長期循環(huán)卷積網(wǎng)絡(luò)來識(shí)別視頻中的狀態(tài)是否閉眼,從而最終判斷是否是偽造的假視頻.Ciftci 等人[86]從臉部抽取3 塊區(qū)域來測量光電容積脈搏波信號(hào),并將信號(hào)轉(zhuǎn)換為一致性和連貫性特征,最后使用SVM 對(duì)特征進(jìn)行二分類.類似的,Fernandes 等人[87]利用心率生物信號(hào)來區(qū)分偽造視頻,先通過血流造成的臉部皮膚顏色變化、前額的平均光密度、歐拉影像變化等3 種方法來提取心率,然后采用神經(jīng)常微分方程模型訓(xùn)練,最后測試Deepfakes 視頻時(shí),主要依據(jù)正常視頻與異常視頻的心率分布不同.

基于生理信號(hào)特征的檢測方法大部分利用深度偽造技術(shù)的局限性,但是隨著生成技術(shù)的改進(jìn),如眨眼數(shù)據(jù)、頭部轉(zhuǎn)動(dòng)、眼球轉(zhuǎn)動(dòng)等的加入,使得此類方法失效.此外基于脈搏、心率等生物信號(hào)的方法會(huì)因?yàn)閭卧煲曨l的壓縮等處理而準(zhǔn)確度大大降低.

3.3 基于圖像篡改痕跡的方法

深度偽造圖像受限于早期深度網(wǎng)絡(luò)的生成技術(shù),在生成的人臉在細(xì)節(jié)上存在很多不足.因此,有研究者對(duì)此展開了探索.Li 等人[88]認(rèn)為Deepfakes 算法生成的圖像分辨率有限,之后需要被轉(zhuǎn)換到匹配替換的臉,這使得Deepfakes 的視頻中留下更多可以辨別的人工痕跡,這個(gè)可以被深度神經(jīng)網(wǎng)絡(luò)有效地捕捉.作者人工構(gòu)造了大量的負(fù)樣本,如將要替換的人臉進(jìn)行高斯模糊、旋轉(zhuǎn)等操作后放縮到源位置,這個(gè)扭曲的人臉人工痕跡就保存了,最后使用Resnet50[89]網(wǎng)絡(luò)區(qū)分這些偽造視頻或圖像.同標(biāo)記視覺人工痕跡篡改視頻類似,Matern 等人[49]利用真假臉的不一致性來區(qū)分,如:

(1) 全局不一致性:新的人臉的生成,圖像的數(shù)據(jù)點(diǎn)插值是隨機(jī)的,并不是很有意義,這會(huì)導(dǎo)致的全局眼睛的左、右顏色不一致,鼻子的左、右色彩等.

(2) 光照不一致性:篡改區(qū)域和正常區(qū)域?qū)庹盏姆瓷洳灰粯?如眼睛區(qū)域,Deepfakes 生成的視頻大多丟失這個(gè)眼睛反射細(xì)節(jié).

(3) 幾何位置不一致:細(xì)節(jié)位置缺失,如牙齒,只有一些白色斑點(diǎn),這個(gè)細(xì)節(jié)沒有建模.通過對(duì)這些特定區(qū)域(牙齒、眼睛等)提取的特征向量訓(xùn)練多層感知機(jī)進(jìn)行分類.

盡管基于篡改痕跡的方法在一些數(shù)據(jù)集上表現(xiàn)良好的檢測能力,但是這些數(shù)據(jù)集大多是早期的生成器生成的,隨著生成技術(shù)的提升,高分辨率和更多細(xì)節(jié)處理的偽造圖像不斷出現(xiàn),同時(shí)容易受到一些對(duì)抗措施的影響,如加噪、壓縮、放縮,會(huì)使得這類方法的檢測能力大大減弱.

3.4 基于GAN圖像特征的方法

由于當(dāng)前的深度偽造視頻大部分借助了GAN[13]技術(shù),因此研究GAN 生成技術(shù)的特點(diǎn)也成為了檢測偽造圖像的方法之一.研究[90,91]發(fā)現(xiàn):GAN 生成技術(shù)改變了圖像的像素和色度空間統(tǒng)計(jì)特征,通過對(duì)特征共生矩陣的學(xué)習(xí)來區(qū)分生成圖像的差異.Xuan 等人[92]使用圖像預(yù)處理,如濾波、噪音等預(yù)處理方法破壞GAN 圖像低級(jí)別的生成缺陷,迫使模型學(xué)習(xí)高級(jí)別的固有的線索.Scott 等人[93]發(fā)現(xiàn):GAN 生成器的中間值通常通過歸一化來限制輸出,這一定程度上也會(huì)限制飽和像素的頻率.此外,生成器在多通道使用的權(quán)重與真實(shí)相機(jī)的光敏感度有很大不同,通過對(duì)這兩個(gè)指標(biāo)進(jìn)行量化提取分類特征.也有相關(guān)研究嘗試用GAN 指紋[94,95]來區(qū)分偽造,不同的GAN 生成的圖片在中間分類層具有唯一的特征,可以作為GAN 生成器的辨別指紋.

Wang 等人[96]提出了FakeSpotter,利用神經(jīng)元監(jiān)控的方法來進(jìn)行分類,原理如圖3 所示.使用神經(jīng)元覆蓋的方法觀察真假圖像經(jīng)過人臉識(shí)別器中的神經(jīng)元激活變化情況,用SVM 去學(xué)習(xí)神經(jīng)元激活的差異,而假臉在神經(jīng)元覆蓋的行為上表示相似.

Fig.3 Using neuron coverage method to track fake face features[96]圖3 利用神經(jīng)元覆蓋方法追蹤假臉特征[96]

此類基于GAN 特征的方法會(huì)依賴GAN 的結(jié)構(gòu),使得特征分類器在已有的生成器行為上過擬合,而無法處理未知的生成器,泛化能力很差.研究不同GAN 結(jié)構(gòu)生成偽造圖像的共同特點(diǎn),依然是一個(gè)研究難題.

3.5 基于數(shù)據(jù)驅(qū)動(dòng)的方法

新的偽造生成算法和數(shù)據(jù)量的規(guī)模都在不斷增加,使得研究者開始關(guān)注用基于數(shù)據(jù)驅(qū)動(dòng)的方式來學(xué)習(xí)這些Deepfakes.基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法主要分為兩大類:一類是圖片級(jí),將視頻處理成幀,設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)幀進(jìn)行判別,實(shí)現(xiàn)幀級(jí)的識(shí)別,最終對(duì)視頻的幀進(jìn)行綜合決策;另一類視頻級(jí),利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)幀序列的時(shí)序特征對(duì)一個(gè)視頻進(jìn)行整體判斷.

3.5.1 基于圖片級(jí)學(xué)習(xí)的方法

Afchar 等人[54]設(shè)計(jì)了多個(gè)小的卷積模塊來捕捉篡改圖像的微觀特征,Rossler 等人[51]利用Xception[97]架構(gòu)對(duì)視頻的全幀和人臉分別訓(xùn)練.結(jié)果顯示,基于人臉訓(xùn)練的模型效果遠(yuǎn)遠(yuǎn)好于全幀模型.同時(shí),實(shí)驗(yàn)結(jié)果顯示:在面對(duì)高度壓縮的圖片時(shí),模型的訓(xùn)練難度會(huì)上升且檢測率會(huì)下降.其中,利用人臉關(guān)鍵點(diǎn)信息提升性能的結(jié)論也被Songsri-in 等人[98]實(shí)驗(yàn)證實(shí).Nguyen 等人[99]設(shè)計(jì)了膠囊網(wǎng)絡(luò)來判別造假的圖片或視頻,通過抽取人臉,用VGG-19[100]提取特征編碼,然后輸入膠囊網(wǎng)絡(luò)進(jìn)行分類.Mo 等人[101]增加高通濾波和背景作為CNN 輸入,對(duì)檢測結(jié)果有提升.Durall 等人[102]通過離散傅里葉變換提取特征學(xué)習(xí),顯示了很好的效果.Ding 等人[103]利用遷移學(xué)習(xí),使用Resnet18 進(jìn)行調(diào)優(yōu);同時(shí)對(duì)于這些部署的關(guān)鍵系統(tǒng),對(duì)每個(gè)預(yù)測提供一個(gè)不確定水平,如每個(gè)神經(jīng)網(wǎng)層絡(luò)輸出值差異.現(xiàn)有的神經(jīng)網(wǎng)絡(luò)能夠快速地過擬合特定的篡改痕跡,學(xué)習(xí)到的features 有高度的區(qū)分性,但是缺乏遷移性.Cozzolino 等人[104]設(shè)計(jì)了一個(gè)新的基于自動(dòng)編碼器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)W習(xí)在不同的擾動(dòng)域下的編碼能力,只需要在一個(gè)數(shù)據(jù)集上訓(xùn)練,在另一個(gè)數(shù)據(jù)集上獲取小規(guī)模進(jìn)行調(diào)優(yōu),就能達(dá)到很好的效果.在此基礎(chǔ)上,Nguyen 等人[105]設(shè)計(jì)了Y 型解碼器,在分類的同時(shí)融入分割和重建損失,通過分割輔助分類效果.此外,一些針對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的修改也被研究:Hsu 等人[106,107]采用對(duì)比損失尋找不同生成器生成的圖像的特征,后面再連接一個(gè)分類器進(jìn)行分類;Dang 等人[108]設(shè)計(jì)了特定的CGFace 網(wǎng)路,專門檢測計(jì)算機(jī)生成的人臉;Bayar 等人[109]設(shè)計(jì)了受限制的卷積層學(xué)習(xí)特定的篡改特征;Stehouwer 等人[110]通過在主干網(wǎng)絡(luò)增加注意力機(jī)制來聚焦篡改區(qū)域;Rahmouni 等人[111]加入了計(jì)算統(tǒng)計(jì)數(shù)據(jù)的全局池化層.Li 等人[112]則設(shè)計(jì)了基于圖片塊的雙流網(wǎng)路框架,如圖4 所示,一條流學(xué)習(xí)人臉塊的微觀特征,另一條流學(xué)習(xí)人臉和背景區(qū)域的差異性.通過多任務(wù)學(xué)習(xí),能夠較好地提升模型的泛化能力.

Fig.4 Multi-task forgery classification framework based on image patches[112]圖4 基于圖像塊的多任務(wù)偽造分類框架[112]

基于圖片級(jí)的學(xué)習(xí)方法是現(xiàn)有研究較多的方向之一,借助深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和日益大幅增長的數(shù)據(jù)集,學(xué)習(xí)篡改圖片的特點(diǎn)可行且高效.此類方法不僅可以判斷單幀圖像的真?zhèn)?還可以利用組合策略檢測視頻幀,應(yīng)用范圍較廣,但是也存在很多局限性,學(xué)習(xí)到的模型大多數(shù)依賴相同的數(shù)據(jù)分布,在面對(duì)未知篡改類型時(shí)很乏力[113,114];同時(shí),對(duì)高度壓縮的視頻幀檢測能力會(huì)大幅下降.此外,如果視頻中的篡改人臉非常少,這對(duì)基于圖片級(jí)方法的綜合決策策略提出了挑戰(zhàn).

3.5.2 基于視頻級(jí)學(xué)習(xí)的方法

Agarwal 等人[115]發(fā)現(xiàn):作為個(gè)體,他們有不一致的面部表情和移動(dòng),通過追蹤面部和頭部移動(dòng)然后抽取特定動(dòng)作集合的存在和強(qiáng)度,臉部肌肉的移動(dòng)可以編碼成動(dòng)作單元,再利用皮爾森系數(shù)對(duì)特征之間的相關(guān)性進(jìn)行擴(kuò)充,最后在擴(kuò)充后的特征集合上建立一個(gè)新的單分類SVM 來區(qū)分各類造假視頻.然而實(shí)驗(yàn)結(jié)果顯示:雖然AUC達(dá)到0.9 以上,但是召回普遍不高,實(shí)用性較差.

Amerini 等人[116]探索幀間光流的不同,采用VGG16 學(xué)習(xí)光流的差異并進(jìn)行分類,因?yàn)楣饬魇沁B續(xù)幀間的運(yùn)動(dòng)差異計(jì)算的,自然拍攝和偽造的視頻之間的運(yùn)動(dòng)差異很大.

Guera 等人[117]考慮用循環(huán)神經(jīng)網(wǎng)絡(luò)處理深度偽造的序列數(shù)據(jù),因?yàn)槎鄠€(gè)相機(jī)視角,光照條件的不同,不同的視頻壓縮率使得生成器很難產(chǎn)生實(shí)際真實(shí)的在不同條件下的臉,這個(gè)會(huì)導(dǎo)致交換的臉在剩下的場景下看起來不一致.此外,因?yàn)樯善鳑]辦法意識(shí)到皮膚或者其他場景信息,所以新臉和剩下幀之間的融合性差,不同幀場景間的光源會(huì)引起大多數(shù)臉部閃爍現(xiàn)象,這個(gè)可以被時(shí)序網(wǎng)絡(luò)較好地捕捉到.

整體框架如圖5 所示,分為兩階段分析器,一個(gè)CNN 抽取幀內(nèi)feature,輸入一個(gè)測試序列,CNN 獲取一個(gè)每一幀的特征集合,然后將這些多個(gè)連續(xù)的幀特征集串聯(lián)傳輸?shù)絃STM 分析,并產(chǎn)生一個(gè)概率估計(jì).

相似地,Sabir 等人[118]采用雙向時(shí)序網(wǎng)絡(luò)和人臉對(duì)齊結(jié)合的方法學(xué)習(xí)偽造序列,結(jié)果顯示,基于關(guān)鍵點(diǎn)的人臉對(duì)齊與Bidrectional-recurrent-denset 對(duì)視頻的篡改檢測最佳.

基于視頻級(jí)的學(xué)習(xí)方法可以學(xué)習(xí)到視頻的時(shí)序特征,如前后幀的不一致、人臉區(qū)域的不穩(wěn)定等一些篡改視頻均會(huì)出現(xiàn)的缺陷,泛化性較好;同時(shí),也能檢測到視頻中的少量篡改.但是基于時(shí)序特征的檢測依然對(duì)視頻的預(yù)處理很敏感,如視頻壓縮、背景光線的變化等,也無法判斷單幀的真?zhèn)?

Fig.5 Frame sequences are learned by recurrent neural networks and convolutional neural networks圖5 循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)幀序列

3.6 深度偽造語音檢測

隨著合成偽造語音技術(shù)的發(fā)展,對(duì)偽造語音的檢測工作也在興起.尤其是2019 年自動(dòng)說話人語音認(rèn)證競賽(ASVspoof2019)的舉辦,產(chǎn)出了一些針對(duì)性的語音欺騙工作.初始偽造語音檢測主要是傳統(tǒng)的信號(hào)處理方法,研究者嘗試對(duì)不同低水平的頻譜特征進(jìn)行建模,如Todisco 等人[119]提出的常量Q倒譜系數(shù)(constant-Qcepstral coefficients,簡稱CQCC)、Wu 等人提出的歸一化的余弦相位和修改的群延遲[120,121],在一些音頻處理技術(shù)上有效,但是在ASVspoof2019 數(shù)據(jù)集上泛化性很差.有研究[122]針對(duì)ASVspoof2019 數(shù)據(jù)集進(jìn)行了數(shù)十種聲學(xué)特征分析,結(jié)果顯示,這些聲學(xué)特征均不能在未知類型欺騙攻擊有很好的泛化性.隨后,基于深度學(xué)習(xí)的檢測方法逐漸被研究者所關(guān)注.Zeinal 等人[123]利用CQT 特征[124]和功率譜圖特征進(jìn)行學(xué)習(xí),并分別使用網(wǎng)絡(luò)混合、VGG 與light CNN、VGG 與Sincnet 應(yīng)對(duì)物理訪問和邏輯訪問場景的攻擊.目前,語音欺騙系統(tǒng)檢測的最大問題是泛化能力,Alejandro 等人[125]提出了基于光卷積門的循環(huán)神經(jīng)網(wǎng)絡(luò)來同時(shí)抽取幀級(jí)的淺層特征和序列依賴的深層特征,檢測率在ASVspoof2019 數(shù)據(jù)集上顯示有很大提升.Chen 等人[126]通過隨機(jī)掩去相鄰的頻率頻道、加入背景噪音和混合噪聲提高檢測系統(tǒng)的泛化性.

偽造語音的檢測從傳統(tǒng)信號(hào)處理方法發(fā)展到深度學(xué)習(xí)方法,在應(yīng)對(duì)語音欺騙領(lǐng)域取得了一定的成果,但是現(xiàn)有方法還是依賴特定攻擊類型,對(duì)未知類型攻擊檢測的泛化性提升還有很大的空間.

3.7 檢測技術(shù)總結(jié)

前述研究工作在提出的同時(shí),大多在開源數(shù)據(jù)集上進(jìn)行了評(píng)測,本文將主流的深度偽造檢測算法在公開數(shù)據(jù)集上的檢測表現(xiàn)總結(jié)見表3.所有數(shù)據(jù)均由論文的實(shí)驗(yàn)整理而得,大多數(shù)是深度偽造視頻檢測的工作.其中,主要評(píng)估指標(biāo)有準(zhǔn)確率(Acc)、ROC 曲線面積(AUC)、等錯(cuò)誤率(EER);Raw、HQ、LQ 分別代表原生態(tài)、高清和低清;DF/F2F/FS/NT 分別是FF+中4 種篡改類型的縮寫.

Table 3 Performance evaluation of representative methods on major test sets表3 代表性方法在主要測試集上的性能評(píng)估

Table 3 Performance evaluation of representative methods on major test sets (Continued)表3 代表性方法在主要測試集上的性能評(píng)估(續(xù))

此外,如前文所述,深度偽造視頻檢測歸納為5 大類的檢測算法適用于不同的場景,也在不斷的推進(jìn)發(fā)展中,但是都存在一定的局限性,各有優(yōu)劣,總結(jié)見表4.

Table 4 Advantages and disadvantages of various detection methods are summarized表4 各類檢測方法優(yōu)劣總結(jié)

4 深度偽造的對(duì)抗性研究

4.1 深度偽造生成的對(duì)抗性

基于深度偽造生成的人臉能夠修改人的身份屬性,還可以操控人臉做不同的表情,這使得依賴人臉識(shí)別的應(yīng)用存在著重大威脅.而針對(duì)人臉識(shí)別的對(duì)抗性攻擊一直層出不窮.Goswami 等人[128]研究發(fā)現(xiàn):對(duì)人臉圖片的遮擋和加噪等操作,能夠一定程度欺騙人臉檢測器VGGface[129]和Openface[130].文獻(xiàn)[131,132]利用查詢優(yōu)化的方式對(duì)人臉圖片進(jìn)行加噪,以此來繞過人臉識(shí)別引擎.Song 等人[133]使用注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò)生成指定語義信息的假人臉,使得人臉識(shí)別器誤判.Majumdar 等人[134]研究發(fā)現(xiàn):對(duì)人臉部分區(qū)域的修改和變形,可以讓人臉識(shí)別器有很高的誤識(shí)率.人臉識(shí)別系統(tǒng)的脆弱性,使得基于深度偽造的Deepfakes 類技術(shù)更容易攻擊成功.Korshunov 等人[52,135]測試了基于VGGnet[100]和FaceNet[136]的人臉檢測器的安全性,通過輸入生成的Deepfakes視頻,發(fā)現(xiàn)這兩類人臉檢測器分別有85.62%和95.00%的錯(cuò)誤接受率,說明人臉檢測器分辨不出深度偽造人臉和源人臉.

4.2 深度偽造檢測的對(duì)抗性

深度偽造檢測算法大部分均采用了神經(jīng)網(wǎng)絡(luò)技術(shù),而神經(jīng)網(wǎng)絡(luò)本身存在著對(duì)抗樣本攻擊[137-139].對(duì)抗樣本攻擊是一種對(duì)模型輸入進(jìn)行擾動(dòng),從而使模型產(chǎn)生誤判的技術(shù).這使得深度偽造技術(shù)在生成的時(shí)候可以隱藏自身的一些特征從而繞過檢測,因此對(duì)檢測算法進(jìn)行對(duì)抗性評(píng)估也十分必要.Wang 等人[140]研究發(fā)現(xiàn):不同的GAN生成的偽造圖像都留下特定的指紋特征,雖然依賴于指紋特征訓(xùn)練的檢測器泛化能力不好,但是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,如增加JPEG 壓縮、模糊等操作,大大提高模型的泛化性能,同時(shí)在檢測時(shí)對(duì)圖片進(jìn)行后處理,可以增加模型的魯棒性.但是Neves 等人[141]設(shè)計(jì)了一個(gè)自動(dòng)編碼器能夠?qū)⒑铣傻膫卧靾D像移除指紋等信息,讓現(xiàn)有的偽造檢測系統(tǒng)失效.Brockschmidt 等人[113]對(duì)深度偽造檢測器(Xception[51]、Mesonet[54])進(jìn)行了對(duì)抗性評(píng)估,作者采用6 個(gè)偽造數(shù)據(jù)集對(duì)檢測器的可靠性進(jìn)行探測,結(jié)果顯示:在同分布的數(shù)據(jù)集上,檢測器均能達(dá)到非常高的檢測率;但是在未知篡改類型數(shù)據(jù)集上,只有特征重合程度高的數(shù)據(jù)集之間遷移性較好,否則檢測效果非常差.Marra 等人[142]則模擬了篡改圖片在社交網(wǎng)絡(luò)的場景中的檢測,結(jié)果顯示,現(xiàn)有的檢測器在現(xiàn)實(shí)網(wǎng)絡(luò)對(duì)抗環(huán)境下(未知壓縮和未知類型等)表現(xiàn)很差.Zhang 等人[143]尋找GAN的共有痕跡,提高檢測器的魯棒性.現(xiàn)有的檢測器對(duì)數(shù)據(jù)依賴強(qiáng),泛化性不夠,Du 等人[144]利用局部性感知的自動(dòng)編碼器實(shí)現(xiàn)造檢測,使得模型聚焦篡改區(qū)域,通用性更強(qiáng).Huang 等人[145]則借鑒了對(duì)抗樣本的思想,對(duì)這些基于神經(jīng)網(wǎng)絡(luò)的檢測器進(jìn)行對(duì)抗性攻擊,設(shè)計(jì)了單個(gè)對(duì)抗攻擊和通用對(duì)抗攻擊兩種方式,使得檢測器的篡改分類和定位失效.盡管現(xiàn)在已經(jīng)存在眾多的檢測器,在一些數(shù)據(jù)集上表現(xiàn)很好,但是攻擊者依然可以完善生成方法,隱藏一些標(biāo)志性特征從而繞過檢測器,這是一個(gè)長期的攻防博弈過程.

5 總結(jié)與展望

5.1 技術(shù)風(fēng)險(xiǎn)

深度偽造技術(shù)的發(fā)展給社會(huì)帶來了巨大的負(fù)面影響,從社會(huì)國家領(lǐng)導(dǎo)人到普通的互聯(lián)網(wǎng)公民,都有被此類技術(shù)侵害的可能性[146].對(duì)深度偽造技術(shù)帶來的技術(shù)風(fēng)險(xiǎn)如下.

(1) 輿論負(fù)面影響:如色情電影的制作、政治家的謠言傳播,會(huì)嚴(yán)重?fù)p害個(gè)人名譽(yù).

(2) 對(duì)人臉認(rèn)證的影響:目前大多依賴活體檢測來識(shí)別視頻攻擊,如果在沒有活體檢測的應(yīng)用場景以及活體功能失效的場景,如端劫持,對(duì)換臉的人與本人的識(shí)別面臨挑戰(zhàn).

(3) 對(duì)視頻人臉識(shí)別系統(tǒng)的影響:通過追蹤視頻人臉并識(shí)別的技術(shù)面對(duì)挑戰(zhàn),換臉的視頻與真人的視頻分辨不出來.

(4) 影響司法體系:由于缺乏完全可靠的鑒別深度偽造數(shù)據(jù)的能力,法院需要重新審視圖片或者視頻證據(jù)的效力.

(5) 影響經(jīng)濟(jì)活動(dòng):名人的假視頻能讓股市瞬間暴跌.

而這些風(fēng)險(xiǎn)后面還隱藏著國家治安穩(wěn)定、倫理道德、經(jīng)濟(jì)發(fā)展、信任危機(jī)等更深層次的社會(huì)問題,亟需研究更有效的應(yīng)對(duì)措施.

5.2 研究難點(diǎn)

從深度偽造技術(shù)誕生至今,有不少的研究工作展開對(duì)偽造圖像或視頻進(jìn)行檢測,但是依然沒有完美的解決方案[40],在檢測領(lǐng)域依然存在著諸多研究難點(diǎn)問題.

(1) 壓縮方式的不同、壓縮率的不同:視頻不同于圖片,在上傳到網(wǎng)站時(shí)會(huì)做不同的壓縮方式處理;同樣,視頻在線下制作時(shí)也可以做不同的后處理裁剪壓縮,這會(huì)使得很多篡改特征模糊甚至消失.制作者甚至可以對(duì)視頻中的部分幀進(jìn)行壓縮處理,人為地增加檢測難度.此外,不同的壓縮方式和壓縮率下的數(shù)據(jù)分布也有很大不同,這也意味著基于學(xué)習(xí)的方法會(huì)很容易在已有的訓(xùn)練集上過擬合.現(xiàn)有的檢測方法還無法有效地檢測未知壓縮的視頻,大多是在訓(xùn)練集中擴(kuò)充壓縮的數(shù)據(jù),增加模型的決策邊界以此來應(yīng)對(duì)壓縮[51].此類方法本質(zhì)還是基于同分布?jí)嚎s的假設(shè).

(2) 視頻分辨率的不同:互聯(lián)網(wǎng)上的視頻質(zhì)量和大小各異,不同的視頻有著不同的分辨率,人臉大小跨度從幾百像素到百萬像素級(jí)別.如果統(tǒng)一放縮到指定大小處理,會(huì)喪失部分特征,在一定程度上影響著檢測器的特征提取,這就需要檢測算法從根本上考慮不同尺度特征的融合.

(3) 篡改算法未知:生成算法層出不窮,不同的生成算法篡改的側(cè)重點(diǎn)不同,所具有的特征也不盡相同.基于學(xué)習(xí)的方法雖然能快速捕捉到訓(xùn)練集中的人臉篡改特征,但是大多是擬合已有的生成器特征,對(duì)未知的篡改類型不魯棒.現(xiàn)有的應(yīng)對(duì)方法大多是將新的生成算法數(shù)據(jù)集加入到訓(xùn)練集[51,112],以此來提高跨生成算法之間的檢測率.如何設(shè)計(jì)魯棒性強(qiáng)、泛化性能高的檢測算法,依然是難點(diǎn).

(4) 一些復(fù)雜的對(duì)抗場景:真實(shí)網(wǎng)絡(luò)世界中的視頻遠(yuǎn)遠(yuǎn)比公開數(shù)據(jù)集的復(fù)雜度要高的多,而且存在較強(qiáng)的對(duì)抗性.一些在實(shí)驗(yàn)數(shù)據(jù)上表現(xiàn)很好的模型,在面對(duì)真實(shí)網(wǎng)絡(luò)偽造數(shù)據(jù)集時(shí)可能束手無策.如多人臉的視頻如何無誤地檢測、針對(duì)只有部分幀部分區(qū)域篡改的視頻如何區(qū)分、視頻里過強(qiáng)或過暗的光線對(duì)人臉檢測的影響如何評(píng)估等,人臉生成偽造者在制作的同時(shí)也會(huì)考慮加入這些對(duì)抗性場景,以此來降低檢測效果,這些復(fù)雜場景對(duì)偽造檢測算法帶來巨大的挑戰(zhàn).

5.3 未來研究方向

雖然針對(duì)偽造圖像或語音的檢測已經(jīng)取得了一部分研究成果,但目前該領(lǐng)域的研究依然存在諸多關(guān)鍵問題尚待解決.同時(shí),一些新的生成技術(shù)的發(fā)展成熟,會(huì)讓此類深度偽造的鑒別工作越來越困難.針對(duì)以上的難點(diǎn)和問題,我們可以考慮從多角度多層次來探索深度偽造檢測未來可行的方向.

(1) 研究泛化性好的檢測算法:已有的檢測方法容易依賴特定的數(shù)據(jù)集和生成算法,泛化能力很弱.這往往是由于訓(xùn)練數(shù)據(jù)的單一同分布所致.僅僅粗暴地對(duì)數(shù)據(jù)直接學(xué)習(xí)并不能滿足多樣的偽造類型,需要探索盡可能多的深度偽造類型,尋找其中的共性特征,如生成器的指紋[94,95]、不同偽造數(shù)據(jù)中人臉與嘴唇一致性差異等.通過對(duì)共性特征的學(xué)習(xí),使得檢測模型能夠適用于更多的深度偽造類型.

(2) 研究魯棒性強(qiáng)的檢測算法:論文中展現(xiàn)的檢測算法大多在單一的場景下測試,而現(xiàn)實(shí)世界中常常面對(duì)壓縮、噪音等復(fù)雜情況,使得檢測算法不魯棒.可以在訓(xùn)練階段和測試階段對(duì)數(shù)據(jù)進(jìn)行壓縮、放縮等預(yù)處理,探索不同預(yù)處理對(duì)檢測算法魯棒性的影響.同時(shí),還可以將對(duì)抗樣本技術(shù)應(yīng)用到檢測模型的魯棒性提升上,探索檢測模型在對(duì)抗樣本攻擊下的缺陷,進(jìn)而可以利用對(duì)抗環(huán)境下生產(chǎn)的對(duì)抗樣本對(duì)模型進(jìn)行對(duì)抗訓(xùn)練以增加模型的魯棒性.此外,已有的數(shù)據(jù)集大多數(shù)都為單人臉的真?zhèn)舞b別,檢測模型缺乏應(yīng)對(duì)視頻中多人臉的復(fù)雜場景.如何在保證準(zhǔn)確率的同時(shí)對(duì)視頻中多人臉的篡改進(jìn)行判斷,是一個(gè)具有挑戰(zhàn)性的課題.

(3) 研究主動(dòng)防御算法:現(xiàn)有的檢測算法總是依賴已發(fā)現(xiàn)的深度偽造類型,對(duì)未知類型的偽造數(shù)據(jù)檢測很被動(dòng),這使得檢測算法總是落后于生成技術(shù).可以從兩個(gè)角度進(jìn)行主動(dòng)防御:第1 種思路是利用對(duì)抗樣本技術(shù)對(duì)上傳到互聯(lián)網(wǎng)上的媒體數(shù)據(jù)注入對(duì)抗噪音,如注入對(duì)抗人臉檢測的噪音,使得人臉檢測技術(shù)在預(yù)處理人臉數(shù)據(jù)時(shí)檢測錯(cuò)位或失敗,從而使得依賴人臉檢測技術(shù)的深度偽造換臉技術(shù)不再精準(zhǔn),導(dǎo)致?lián)Q臉異?；蚴?第2 種思路是控制視頻傳播的源頭,對(duì)互聯(lián)網(wǎng)上的視頻進(jìn)行溯源,研究視頻網(wǎng)站上的視頻追蹤技術(shù),如Hasan 等人[147]嘗試用區(qū)塊鏈技術(shù)對(duì)互聯(lián)網(wǎng)上的視頻進(jìn)行追蹤.

(4) 研究深度偽造圖像和偽造語音的融合檢測技術(shù):現(xiàn)有針對(duì)深度偽造的檢測技術(shù)基本只關(guān)注了一個(gè)單一的偽造領(lǐng)域,而偽造的多媒體數(shù)據(jù)通過圖像和語音結(jié)合能達(dá)到更逼真的效果.因此,對(duì)偽造數(shù)據(jù)進(jìn)行圖像語音多模態(tài)的檢測是一個(gè)有意義的方向.如,Facebook 舉辦的深度偽造檢測競賽[58]已經(jīng)增加了同時(shí)篡改音頻和圖像的數(shù)據(jù)類型.這種偽造類型將會(huì)越來越普遍,帶來的負(fù)面影響也會(huì)更大.針對(duì)此類偽造的檢測研究也給單模態(tài)(圖像或語音)偽造的檢測提供了思路.

(5) 建立研究性社區(qū):現(xiàn)有的研究資源沒有得到很好地共享,缺乏如全球研究者認(rèn)可維護(hù)的研究性網(wǎng)站.對(duì)現(xiàn)有的研究數(shù)據(jù)集共享,需要建立統(tǒng)一的社區(qū),集中現(xiàn)有零散的數(shù)據(jù)資源,讓研究者們能更好地利用已有的資源和成果.現(xiàn)有網(wǎng)站[56]在開源部分?jǐn)?shù)據(jù)集,但是力度不夠,需要集成大規(guī)模數(shù)據(jù)集并公開現(xiàn)有最好的評(píng)估指標(biāo),定期舉辦學(xué)術(shù)研討會(huì)和比賽,增加研究者們對(duì)深度偽造檢測領(lǐng)域的關(guān)注度.

(6) 進(jìn)行司法立法:深度偽造的檢測僅僅依靠技術(shù)手段可能不能完美地解決問題,因?yàn)樯膳c檢測是一個(gè)永恒博弈的過程,僅依靠一門檢測技術(shù)來杜絕深度偽造現(xiàn)象不太現(xiàn)實(shí),需要社會(huì)建立完整的法律體系,對(duì)惡意制作或傳播的互聯(lián)網(wǎng)用戶進(jìn)行一定的懲戒.如美國加州[148]已經(jīng)立法,禁止制作政治人物的偽造視頻,同時(shí)也明確規(guī)定了制作色情偽造人物視頻屬于違法行為.中國的互聯(lián)網(wǎng)信息辦公室也發(fā)行了《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[149],其中明確規(guī)定,網(wǎng)絡(luò)信息內(nèi)容服務(wù)使用者、內(nèi)容生產(chǎn)者和內(nèi)容服務(wù)平臺(tái)不得利用深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等新技術(shù)新應(yīng)用從事法律、行政法規(guī)禁止的活動(dòng).盡管已出臺(tái)了相關(guān)法律抑制深度偽造的濫用,但是此類法律還不健全,如何區(qū)分偽造視頻是屬于娛樂和惡性傳播等在法律邊界游走的現(xiàn)象,還需要相關(guān)部門建立更加完整細(xì)致的法律體系.

(7) 培訓(xùn)新聞工作者:法律和技術(shù)檢測能一定程度增加惡意偽造傳播的代價(jià),但是給社會(huì)帶來的負(fù)面影響無法挽回,這需要在視頻傳播的源頭進(jìn)行控制,如一些社交媒體,特別是主流媒體承擔(dān)著大量的視頻圖像的傳播任務(wù),需要對(duì)這些新聞工作者進(jìn)行專業(yè)培訓(xùn),培養(yǎng)鑒別一些假視頻的能力,從源頭減少偽造視頻的傳播,降低負(fù)面影響.同時(shí),對(duì)本身制作視頻的新聞工作者,要明確在視頻上打上是否偽造的標(biāo)簽,以減少新聞媒體的誤導(dǎo)能力.

6 結(jié)束語

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度偽造技術(shù)會(huì)不斷完善,生成更加逼真難以鑒別的視頻和語音數(shù)據(jù).這對(duì)深度偽造的檢測提出了巨大的挑戰(zhàn).盡管已存在有一些針對(duì)深度偽造檢測的工作,但是都依賴特定的數(shù)據(jù)集或者場景,依然存在許多關(guān)鍵的科學(xué)問題尚待解決.為了理清現(xiàn)有研究的進(jìn)展,明確未來研究方向,本文從生成技術(shù)、研究數(shù)據(jù)集、主流檢測方法進(jìn)行總結(jié),回顧了大量極具影響力的研究成果,并對(duì)相關(guān)研究進(jìn)行了科學(xué)的分類、總結(jié)和分析.同時(shí),本文指出了深度偽造檢測領(lǐng)域當(dāng)前面臨的挑戰(zhàn),探討了未來可行的研究方向,旨在為推動(dòng)深度偽造檢測領(lǐng)域的進(jìn)一步發(fā)展和應(yīng)用提供指導(dǎo)和參考.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放