亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度偽造與檢測技術綜述*

        2021-03-06 09:29:06李旭嶸紀守領吳春明劉振廣鄧水光孔祥維
        軟件學報 2021年2期
        關鍵詞:人臉語音深度

        李旭嶸 ,紀守領 ,吳春明,3 ,劉振廣 ,鄧水光 ,程 鵬 ,楊 珉,孔祥維

        1(浙江大學 計算機科學與技術學院,浙江 杭州 310007)

        2(阿里巴巴,浙江 杭州 311121)

        3(之江實驗室,浙江 杭州 310000)

        4(浙江工商大學 計算機與信息工程學院,浙江 杭州 310018)5(浙江大學 控制科學與工程學院,浙江 杭州 310007)

        6(復旦大學 計算機科學技術學院,上海 201203)

        7(浙江大學 管理學院,浙江 杭州 310007)

        近年來,以Deepfakes[1]為代表的換臉技術開始在網(wǎng)絡興起.此類技術可將視頻中的人臉替換成目標人物,從而制作出目標人物做特定動作的假視頻.隨著深度學習技術的發(fā)展,自動編碼器、生成對抗網(wǎng)絡等技術逐漸被應用到深度偽造中.由于Deepfakes 技術只需要少量的人臉照片便可以實現(xiàn)視頻換臉,一些惡意用戶利用互聯(lián)網(wǎng)上可獲取的數(shù)據(jù),生成眾多的假視頻并應用在灰色地帶,如將色情電影的女主角替換成女明星,給政客、公司高管等有影響力的人偽造一些視頻內容,從而達到誤導輿論、贏得選取、操縱股價等目的.這些虛假視頻內容極其逼真,在制作的同時往往伴隨著音頻的篡改,使得互聯(lián)網(wǎng)用戶幾乎無法鑒別.如果這些深度偽造的內容作為新聞素材被制作傳播,這會損害新聞機構的聲譽和公眾對媒體的信心.更深層次的,當遇到案件偵查和事故取證時,如果缺乏對Deepfakes 類虛假影像資料的鑒別,將對司法體系產(chǎn)生巨大的挑戰(zhàn).盡管深度偽造技術有其積極的一面,如“復活”一些去世的人進行影視創(chuàng)作,以及Zao APP[2]提供大眾換臉娛樂服務等,但是目前負面影響遠遠大于正面,擁有鑒別此類深度偽造視頻的能力變得尤為重要.

        為了盡量減少深度偽造技術帶來的影響,消除虛假視頻的傳播,學術界和工業(yè)界開始探索不同的深度偽造檢測技術.相繼有學者構造數(shù)據(jù)集,展開對Deepfakes 檢測的多角度研究.臉書公司也聯(lián)合微軟一起舉辦全球Deepfakes 檢測競賽[3]以推動檢測技術的發(fā)展.然而這些Deepfakes 檢測工作各有側重,存在眾多局限性.針對本領域的綜述工作還比較缺乏,只有針對早期圖像篡改工作的一些總結[4,5],亟需對現(xiàn)有工作進行系統(tǒng)的整理和科學的總結、歸類,以促進該領域的研究.

        本文第1 節(jié)介紹深度偽造的各種相關技術.第2 節(jié)列舉出當下深度偽造研究的數(shù)據(jù)集.第3 節(jié)對現(xiàn)有的深度偽造檢測技術進行系統(tǒng)的總結和歸類.第4 節(jié)討論深度偽造生成和檢測技術的雙面對抗性.第5 節(jié)總結面臨的挑戰(zhàn)和未來可行的研究方向.最后,第6 節(jié)對全文的工作進行總結.

        1 深度偽造生成技術

        現(xiàn)有的深度偽造圖像主要是指臉部的篡改,而臉部篡改偽造主要分為兩大類:一類是換臉偽造,通過交換兩張圖像的人臉達到人身份修改的目的,其技術從傳統(tǒng)的3D 重建方法發(fā)展到現(xiàn)在以生成對抗網(wǎng)絡為基礎的深度偽造;另一類是臉部表情屬性偽造,遷移指定表情等動作到目標圖像而不修改目標人臉標志,達到偽造表情或者特定動作目的,其技術也從基于3D 的圖形學方法演變到最新的深度學習方法.此外,制作深度偽造素材時通常還包含了語音的偽造,使得欺騙效果更佳.本節(jié)將對這些偽造生成技術進行概述,其中重點關注深度偽造技術,并總結了一些開源的生成工具.

        1.1 換臉偽造技術

        1.1.1 基于圖形學的偽造

        在過去10 多年里,基于圖形學的人臉篡改技術一直被研究者所關注,Zollhofer 等人[6]綜述了當前比較主流的3D 模型重建追蹤等技術.FaceSwap[7]是基于圖形學的換臉方法,首先獲取人臉關鍵點,然后通過3D 模型對獲取到的人臉關鍵點位置進行渲染,不斷縮小目標形狀和關鍵點定位間的差異,最后將渲染模型的圖像進行混合,并利用色彩校正技術獲取最終的圖像.Kevin 等人[8]提出了在視頻里自動換臉的3D 方法,不需要大量的手動操作和硬件采集,只需要一個單相機視頻,通過用3D 多線性模型追蹤視頻中的人臉,并用相應的3D 形狀將源人臉仿射到目標人臉.Pablo 等人[9]用類似的3D 方法來替換目標視頻中演員的人臉,而保留原始的表情.Pablo等人[10]還設計了一個系統(tǒng),通過高質量的3D 人臉捕捉技術,改變人臉從而匹配嘴巴的動作.Nirkin 等人[11]用分割的思路促進換臉,通過網(wǎng)絡分割出來的人臉估計3D 人臉形狀,最后融合源和目標這兩個對齊的3D 人臉形狀.

        1.1.2 基于學習的偽造

        盡管基于圖形學的臉部篡改方法研究了多年,但是時間開銷大、門檻高、成本大,使得這項技術很難普及.隨著深度學習技術的飛速發(fā)展,研究者們開始關注深度學習在人臉篡改上的應用[12].Deepfakes[1]是網(wǎng)絡上較早開源的基于深度學習的換臉項目,如圖1 所示,訓練兩個自動編碼器,兩個編碼器共享權重參數(shù),使得兩個解碼器學會重建人臉的能力.訓練結束后,在換臉階段,交換兩個解碼器,從而使得換臉效果達成.這只需要具備原人物和目標人物的人臉圖片即可訓練,大大降低了使用門檻.但是也需要一定的訓練技巧,否則生成器的生成質量無法保障.鑒于此,研究者們開始關注GAN[13]技術的融合,Faceswap-GAN[14]就是增加了GAN 技術的Deepfakes,引入判別器的對抗損失函數(shù),在生成的時候判別生成圖像和原圖的相似度,使得生成的圖像質量有大幅度提高,另外引入了感知損失函數(shù)增加眼珠的轉動效果.GAN 技術的加入使得換臉更加逼真自然,也一定程度增加了深度偽造技術的流行度.

        Fig.1 Framework for Deepfakes generation[1]圖1 Depefakes 生成框架[1]

        Korshunova 等人[15]將換臉問題視為風格遷移問題,訓練一個卷積神經(jīng)網(wǎng)絡,從非結構化的圖片中學習這種外觀,并設計內容損失和風格損失函數(shù)來保障生成高質量真實度的人臉圖像.這些人臉轉換還是依賴于大量的源和目標人物的人臉圖片訓練,泛化性不強.Yuval 等人[16]基于GAN 技術提出了一個主體無關的人臉替換和重建方法,通過引入特定域感知損失、重建損失和對抗損失,可以應用于成對的人臉,不需要在大量人臉上訓練.除換臉外,GAN 技術還被廣泛用于生產(chǎn)虛擬的人臉和篡改人臉屬性.如StarGAN[17]、Stackgan[18]、PGAN[19]等一系列GAN 技術可以生成虛假的人臉,Grigory 等人[20]利用conditional-GAN[21]技術改變人的年齡,Rui 等人[22]利用GAN 生成不同的人臉視角而保持全局的結構和局部細節(jié).GAN 技術的發(fā)展使得人臉的生成和屬性篡改都越來越真實,這也給人臉偽造的濫用留下了空間.

        1.2 表情偽造技術

        表情偽造是指不改變人臉的屬性,遷移其他人臉圖像的表情到目標人臉,從而達到目標人物做指定表情的目的.Thies 等人[23]基于一個消費級的RGB-D 相機,重建、追蹤源和目標演員的3D 模型并最后融合,從而進行實時的表情遷移.另外,Thies 等人[24]提出了Face2Face,通過利用3D 重建技術和圖像渲染技術,能夠在商業(yè)視頻流中進行人臉移動表情的修改.Head on[25]通過修改視角和姿態(tài)獨立的紋理實現(xiàn)視頻級的渲染方法,從而實現(xiàn)完整的人重建方法,包括表情眼睛、頭部移動等.Kim 等人[26]利用含有時空架構的生成網(wǎng)絡將合成的渲染圖轉換成真實圖,并能遷移頭部表情等動作.盡管現(xiàn)有的圖形學方法可以較好地合成或重建圖像,但是嚴重依賴于高質量的3D 內容.Thies 等人[27]提出了延遲神經(jīng)渲染的框架,與渲染網(wǎng)絡一起優(yōu)化神經(jīng)紋理而生成合成的圖像,此方法可以在不完美的3D 內容上操作.Suwajanakorn 等人[28]利用循環(huán)神經(jīng)網(wǎng)絡建立語音到嘴型動作的映射,可以匹配輸入的語音合成嘴型指定紋理動作.此外,還有針對人物特寫鏡頭中的圖像合成[29,30]、基于2D 仿射的源演員表情匹配[31]、基于網(wǎng)絡編碼空間的屬性修改的表情遷移[32]等相繼被研究者提出,不同場景的表情偽造技術日益成熟.

        1.3 語音偽造技術

        語音偽造也叫做語音版 Deepfakes,利用 AI 技術合成虛假語音.通常有文本到語音合成(text-to-speech synthesis,簡稱TTS)和語音轉換(voice conversion)兩種形式:文本到語音合成主要完成指定文本的語音信息輸出,而語音轉換是指轉換人的音色到目標音色.這些語音的合成不僅可以欺騙人的聽覺,還可以欺騙一些自動語音認證系統(tǒng).早期的語音合成主要依賴隱馬爾科夫模型和高斯混合模型,而隨著深度學習技術的發(fā)展,語音合成和轉化技術的質量有了大幅度提高.來自谷歌的Oord 等人提出了WaveNet[33],這是第一個端到端的語音合成器,一種基于音頻生成模型,能夠產(chǎn)生于人相似的音頻.相似的文本到語音合成系統(tǒng)有 Deep voice[34]和Tacotron[35],均在原始語音材料上訓練,速度比WaveNet 更快.隨后,百度對Deep voice 進行了擴展,提出了Deep voice2[36],通過使用低維度可訓練的說話者編碼來增強文本到語音的轉換,使得單個模型能生成不同的聲音.Ping 等人提出的Deep voice3[37]進一步改進了之前的Deep voice 系列,Deep voice3 是一個基于注意力機制的全卷積TTS 系統(tǒng),通過設計字符到頻譜圖的結構,能夠實現(xiàn)完全并行的計算,在不降低合成性能的情況下,速度更加快.Santiago 等人[38]則利用GAN 技術對語音的噪音進行過濾,提高了生成語音的質量.Chris 等人[39]提出了無監(jiān)督音頻合成模型,能夠從小規(guī)模語音庫中學習生成可理解的詞匯.語音合成技術愈發(fā)成熟,且與視頻中的換臉偽造往往同時出現(xiàn),使得鑒別的難度更大.

        1.4 開源工具與商業(yè)軟件

        隨著對深度偽造生成技術的深入研究,網(wǎng)絡上逐漸出現(xiàn)了眾多開源軟件和商業(yè)應用.已有文獻[40]做了部分總結,但是不夠全面.本文對其進行擴充和比較,結果見表1,主要分為人臉偽造和語音偽造.其中,人臉偽造主要分為兩類:一類是以Faceswap 為代表的在GitHub 網(wǎng)站上開源的偽造項目,此類項目均是對原始項目進行改進,或在新的深度學習框架下實現(xiàn);另一類是商業(yè)化的APP,如Zao[1]、FakeAPP[41]、FaceApp[42]等提供換臉、修改表情或者人類屬性等功能.網(wǎng)上開源軟件需要使用者對深度學習相關知識比較熟悉,需要使用者擁有一定數(shù)量的人物圖像并在GPU 上進行訓練,訓練的穩(wěn)定結果取決于使用者的專業(yè)水平.而商業(yè)化軟件的使用門檻很低,只需使用者上傳一張圖像就可以實現(xiàn)偽造目的.其中,FakeAPP 需要用戶安裝在有GPU 的電腦上使用.總的來說,開源軟件使用復雜,適合專業(yè)人士,并對生成效果進行改造;而商業(yè)軟件適合大部分普通非專業(yè)用戶,但是生成效果也取決于開發(fā)軟件的公司或組織.語音合成偽造已逐漸成熟,被大多數(shù)云服務廠商開發(fā)為接口服務向大眾開發(fā),這里選取有代表性的軟件展示.這些軟件的流行和傳播使得深度偽造變得更加低門檻、大眾化,也進一步加劇了惡意用戶帶來的負面影響.

        Table 1 Summary of Deepfakes tools表1 深度偽造工具匯總

        2 深度偽造數(shù)據(jù)集

        隨著深度偽造的泛濫,研究人員開始了針對這些偽造視頻、圖像和語音的研究,逐漸有新的數(shù)據(jù)集被開源以促進此領域的研究.數(shù)據(jù)集的質量和規(guī)模對深度偽造領域的研究尤為重要,學術界和工業(yè)界均開源了部分數(shù)據(jù)集以促進該領域的研究.本節(jié)將逐一介紹這些數(shù)據(jù)集(見表2).

        Table 2 Open source dataset of the Deepfake表2 深度偽造開源數(shù)據(jù)集

        Table 2 Open source dataset of the Deepfake (Continued)表2 深度偽造開源數(shù)據(jù)集(續(xù))

        2.1 深度偽造視頻數(shù)據(jù)集

        · UADFV:此數(shù)據(jù)集素材取自YouTube,分別有49 個真實視頻和49 個合成視頻,合成視頻由FakeAPP[41]生成,每個視頻的平均長度是大約11s.然而,作為早期深度偽造研究的數(shù)據(jù)集之一,視頻分辨率較低、生成質量差,有較明顯的換臉痕跡,數(shù)量規(guī)模過于少,篡改類型比較單一.

        · FaceForensics(FF):早期的大規(guī)模深度偽造數(shù)據(jù)集之一,素材來源于Youtube8M[62],選取該數(shù)據(jù)集中標簽為人臉、新聞播報員、新聞聯(lián)播的視頻以及YouTube 上有類似標簽的視頻共1 004 個,所有選取的視頻分辨率大于480p.除此之外,作者用人臉檢測器抽取視頻中的人臉序列,確保所選視頻連續(xù)300 幀中含有人臉,并手動過濾掉人臉遮擋過多的視頻以確保視頻質量.最后,采用Face2Face 的換表情的方法構造1 004 個假視頻.此數(shù)據(jù)集視頻規(guī)模大、源視頻人臉質量高,但是篡改痕跡明顯,篡改方式單一.

        · FaceForensics++(FF++):目前較大規(guī)模、種類最多的深度偽造數(shù)據(jù)集之一.素材與FaceForensics 相似,取自YouTube 的1 000 個視頻.在篩選素材的過程中,同樣用人臉檢測器進行檢測,確保連續(xù)幀含有人臉,并手動過濾掉人臉遮擋過多的視頻以確保視頻質量.在這個數(shù)據(jù)集中,作者共采用4 種類型的人臉篡改來制作假視頻.

        ? Deepfakes:采用基于自動編碼器的Deepfakes 方法實現(xiàn),訓練一對一的生成模型,可以實現(xiàn)一對一的換臉.

        ? Face2Face:采用Face2Face 方法實現(xiàn).

        ? FaceSwap:采用FaceSwap 方法實現(xiàn),基于3D 圖像的方法.

        ? Neural Textures:利用延遲神經(jīng)渲染網(wǎng)絡優(yōu)化紋理的方法實現(xiàn).

        其中,Deepfakes 與FaceSwap 屬于換臉偽造,Face2Face 與Neural Textures 屬于換表情偽造.4 種類型均在1 000 個原始視頻上生成對應的1 000 個假視頻,并對真假視頻均做了H.264 codec 壓縮方式中的C0、C23、C40 這3 種壓縮水平的壓縮.另外,數(shù)據(jù)集中還提供了對應人臉篡改位置的mask.然而這些篡改的質量不是很高,人眼能明顯觀察出篡改痕跡,修改的輪廓很明顯;同時,在合成的假視頻中還存在人臉閃爍現(xiàn)象.

        · Deepfake-TIMIT:由Faceswap-GAN 方法生成,是第一個GAN 版本的Deepfakes 數(shù)據(jù)集.源數(shù)據(jù)是在VidTIMIT 中選取的32 個人(16 對相似的人)兩兩相互替換組成的視頻,每個人有10 個動作視頻,生成的假視頻有高清(128×128)和低清(64×64)兩個版本,共有640 段假視頻.生成質量比FaceForensics++要好,但是視頻分辨率不高,在臉部邊界處有少量痕跡.

        · Mesonet data:早期深度偽造研究數(shù)據(jù)集,數(shù)據(jù)量較小,由YouTube 渠道搜集的網(wǎng)絡愛好者制作的偽造視頻與圖像.

        · Celeb-DF:針對UADFV、FaceForensics++、Deepfake-TIMIT 等數(shù)據(jù)集的一些缺陷,如圖片分辨率不高、合成的視頻質量差、篡改痕跡粗糙、視頻人臉閃爍感過多等缺陷,對Deepfakes 生成方法進行改進,增大生成圖像的大小,并在訓練階段增加色調亮度、對比度等,以減小篡改區(qū)域與周邊區(qū)域的不一致性.此外,使用更加精準的人臉關鍵點定位信息減輕人臉閃爍現(xiàn)象.數(shù)據(jù)集由從YouTube 渠道下載的408個原始視頻和生成的795 假視頻組成,視頻的平均長度是13s,幀率是30.

        · DeepfakeDetection(DFD):為了填充深度偽造數(shù)據(jù)的多樣性,谷歌公司征集28 個演員拍攝了363 個原始視頻,并將這些視頻截取成一個個場景不同的片段,最后對這些片段進行相互換臉,生成3 068 個假視頻.同樣,此數(shù)據(jù)集也提供了H.264 codec 壓縮方式中的C0,C23,C40 這3 種壓縮水平的壓縮版本.

        · DFDC preview Dataset:為了推進深度偽造領域的研究,Facebook 舉辦了 The Deepfake Detection Challenge,在比賽前夕公開了預賽數(shù)據(jù)集,由5 214 個視頻組成,真假比例1:0.28,原始視頻均由66 個演員拍攝而成,假視頻有兩種篡改方式,大量的替換在相似人臉之間進行,如皮膚顏色、頭發(fā)、眼睛等.每個視頻均是15s 左右的小片段.

        · DFDC:The Deepfake Detection Challenge 的正式數(shù)據(jù)集,共有119 196 個視頻,真假視頻比例約為1:5.原始視頻均由演員拍攝,視頻長度約為10s.視頻分辨率跨度很大,視頻場景涵蓋了多種復雜場景,如黑人黑背景、側臉、走動、強光、多人等.

        · DeeperForensics-1.0:為了應對深度偽造研究數(shù)據(jù)量少的問題,南洋理工大學和商湯科技推出了大規(guī)模深度偽造數(shù)據(jù)集.研究人員從26 個國家收集了100 名演員的面部數(shù)據(jù),演員在9 種燈光條件下轉頭做各種表情,并使用FaceForensics++中的1 000 個原始視頻作為目標視頻,其中,100 個演員的臉中的每一個都被交換為10 個目標.他們故意以35 種不同的方式扭曲每個視頻,以模擬現(xiàn)實情況,從而最終數(shù)據(jù)集包含50 000 個未修改的視頻和10 000 個修改的視頻.

        以上深度偽造數(shù)據(jù)集的示例如圖2 所示.

        Fig.2 Exmaples of Deepfakes datasets圖2 深度偽造數(shù)據(jù)集示例

        2.2 深度偽造語音數(shù)據(jù)集

        · ASVspoof 2015 database

        為了應對語音合成欺騙的攻擊威脅,2015 年舉辦了第1 屆自動說話人認證競賽.該競賽上開放了第一個大規(guī)模偽造語音數(shù)據(jù)集,以期發(fā)現(xiàn)多樣的防御應對策略.數(shù)據(jù)集由10 種不同的語音合成和語音轉換欺騙算法生成,包含原始的和欺騙的語音數(shù)據(jù).原始語音是由106 個人(45 男與61 女)說話記錄構成,這些記錄沒有噪音影響.其中,訓練集由3 750 個原始話語片段和12 625 個欺騙話語片段組成,驗證集由3 497 個原始話語片段和49 875個欺騙話語片段組成,測試集由9 404 個原始話語片段和184 000 個欺騙話語片段組成.

        · ASVspoof 2019 database

        2019 年,自動說話人認證競賽包含了所有語音欺騙類型的攻擊,如語音合成、語音轉換、語音重放等.將攻擊分類為兩種場景:第1 種場景是邏輯訪問,即直接將欺騙攻擊的語音注入到自動說話人認證系統(tǒng),這些語音由最新的語音合成和語音轉換技術生成;另一種是物理訪問場景,語音數(shù)據(jù)由麥克風等設備捕捉到,再經(jīng)一些專業(yè)設備重放.這些語音數(shù)據(jù)由107 個人(46 男與61 女)說話組成,其中,訓練集、驗證集、和測試集分別由20,10,48個人的語音數(shù)據(jù)構成.測試集中的攻擊類型與訓練驗證集中均不相同.

        3 深度偽造檢測技術

        隨著深度偽造技術的發(fā)展,互聯(lián)網(wǎng)上充斥著大量包含偽造人臉和語音的虛假視頻,Deepfakes 類技術的濫用帶來巨大的負面影響,如損壞他人名譽、偽造證據(jù)、傳播謠言,影響政客形象干涉選舉等.這也吸引了一批研究者對深度偽造檢測技術的重視.本節(jié)將綜述現(xiàn)有的一些代表性檢測工作,其中,前5 小節(jié)重點介紹研究較多的深度偽造視頻檢測,第6 小節(jié)概述偽造語音的檢測工作,并在第7 小節(jié)對這些工作進行總結.

        3.1 基于傳統(tǒng)圖像取證的方法

        傳統(tǒng)的圖像取證初始主要是基于傳統(tǒng)的信號處理方法,大多數(shù)依賴于特定篡改的證據(jù),利用圖像的頻域特征和統(tǒng)計特征進行區(qū)分,如局部噪音分析、圖像質量評估、設備指紋、光照等,解決復制-移動[63]、拼接[64]、移除這些圖像篡改問題.而深度偽造視頻本質也是一系列偽造合成的圖片合成,因此可以將此類方法應用到深度偽造檢測.Lukas 等人[65]提出了數(shù)字圖像的相機設備指紋光響應不均勻性(PRNU),Chierchia 等人[66]進一步利用光響應不均勻性檢測小的篡改圖像.Jessica 等人[67]通過組裝噪聲分量模型提出了數(shù)字圖像的隱寫特征,隨后,噪聲特征被廣泛運用在圖像取證領域.此外,還存在諸多基于信號處理的取證方法,如利用JPEG 壓縮分析篡改痕跡[68]、向JPEG 壓縮的圖像中添加噪聲提升檢測性能[69,70]、利用局部噪音方差分析拼接痕跡[71]、利用色彩過濾矩陣(color filter array,簡稱CFA)模型[72]進行篡改定位等.然而隨著人工智能技術的發(fā)展,基于卷積神經(jīng)網(wǎng)絡的深度學習技術在諸多任務上均超過了傳統(tǒng)方法,取證方法逐漸融合了機器學習方法特別是深度學習技術.此類方法檢測成功率高,不依賴特定類型的篡改痕跡,比傳統(tǒng)的信號處理方法魯棒性更好.Cozzolino 等人[73]設計了一個孿生網(wǎng)絡,在來自不同相機的圖像塊上訓練來提取圖片的噪音指紋,從而實現(xiàn)檢測.Zhou 等人[74]提出了基于雙流的Faster R-CNN 網(wǎng)絡,其中,RGB 流主要從RGB 圖像中輸入提取特征,從而發(fā)現(xiàn)強烈對比差異與不自然的篡改痕跡;而噪音流利用噪聲特征發(fā)現(xiàn)篡改區(qū)域與源區(qū)域的噪聲不一致性.最后,融合兩條流的特征進行學習兩個模態(tài)空間的信息.利用深度學習技術提取關鍵取證特征的工作也被不斷探究[75].Liu 等人[76]提出一個新的深度融合網(wǎng)絡通過追蹤邊界來定位篡改區(qū)域.Minyoung 等人[77]通過訓練照片所包含的相機EXIF 源數(shù)據(jù)指紋信息來區(qū)分圖片是否被拼接.Xiaodong 等人[78]根據(jù)全局與局部塊的特征不一致性學習一個半-全局網(wǎng)絡實現(xiàn)拼接定位.Cozzolino 等人[79]提出使用卷積神經(jīng)網(wǎng)絡來學習基于殘差的特征,此類特征可以有效提升取證檢測和定位的性能.Chen 等人[80]則利用神經(jīng)網(wǎng)絡學習自然模糊和人為模糊帶來的光直方圖不一致性.Zhou 等人[81]將隱寫噪聲特征和卷積網(wǎng)絡學習邊界特征結合,提出了一個雙流神經(jīng)網(wǎng)絡的方法.具體是用一個臉分類流訓練一個GoogleNet[82]檢測篡改的人工痕跡,利用捕捉的局部噪音特征和拍照特征訓練一個基于塊的三元組(triplet)網(wǎng)絡,用這兩條流的得分,綜合判斷是否圖像被篡改.這是因為基于同一張圖像的隱藏特征是相似的,距離小;不同圖像的塊之間的隱藏特征距離大,用三元組訓練出塊的距離編碼后,用一個SVM 分類得到概率分數(shù).

        盡管基于取證的技術很成熟,但是在應對新的深度偽造視頻時仍存在很多短板,因為此類偽造視頻通常會被不同的后處理,如不同的壓縮方式、不同的壓縮率、不同的放縮合成.針對圖片級的取證技術更多關注局部的異常特征,仍然應對乏力,很容易被繞過,并不能直接應用到日益升級的深度偽造視頻檢測上.

        3.2 基于生理信號特征的方法

        生成的偽造視頻往往忽略人的真實生理特征,無法做到在整體上與真人一致,因此,基于生理信號的特征不斷被研究者挖掘.Yang 等人[83]認為Deepfakes 創(chuàng)造的是分離的合成臉區(qū)域,這樣在計算3D 頭部姿態(tài)評估的時候就會引入錯誤.因為Deepfakes 是交換中心臉區(qū)域的臉,臉外圍關鍵點的位置仍保持不變,中心和外圍位置的關鍵點坐標不匹配,會導致3D 頭部姿態(tài)評估的不一致,故用中心區(qū)域的關鍵點計算一個頭方向向量,整個臉計算的頭方向向量,衡量這兩個向量之間的差異.針對視頻計算所有幀的頭部姿態(tài)差異,最后訓練一個支持向量機(SVM)分類器來學習這種差異.Yang 等人[84]同時發(fā)現(xiàn),GAN 網(wǎng)絡生成的假人臉在關鍵點位置分布上與真實人臉不盡相同,盡管生成的假人臉在臉部細節(jié)上與真人相似,但是自然性和連貫性還是與真人有很大的不同之處,通過將關鍵點歸一化的位置坐標作為特征喂入SVM 分類器進行學習.Li 等人[85]發(fā)現(xiàn),正常人的眨眼頻率和時間都有一定的范圍,而Deepfakes 偽造視頻的人基本沒有眨眼現(xiàn)象,或者頻率跟正常視頻有較大差別,這可能是偽造視頻在生成時沒有豐富多樣的眨眼素材導致的.因此,作者將CNN 和循環(huán)神經(jīng)網(wǎng)絡聯(lián)合一起,設計了長期循環(huán)卷積網(wǎng)絡來識別視頻中的狀態(tài)是否閉眼,從而最終判斷是否是偽造的假視頻.Ciftci 等人[86]從臉部抽取3 塊區(qū)域來測量光電容積脈搏波信號,并將信號轉換為一致性和連貫性特征,最后使用SVM 對特征進行二分類.類似的,Fernandes 等人[87]利用心率生物信號來區(qū)分偽造視頻,先通過血流造成的臉部皮膚顏色變化、前額的平均光密度、歐拉影像變化等3 種方法來提取心率,然后采用神經(jīng)常微分方程模型訓練,最后測試Deepfakes 視頻時,主要依據(jù)正常視頻與異常視頻的心率分布不同.

        基于生理信號特征的檢測方法大部分利用深度偽造技術的局限性,但是隨著生成技術的改進,如眨眼數(shù)據(jù)、頭部轉動、眼球轉動等的加入,使得此類方法失效.此外基于脈搏、心率等生物信號的方法會因為偽造視頻的壓縮等處理而準確度大大降低.

        3.3 基于圖像篡改痕跡的方法

        深度偽造圖像受限于早期深度網(wǎng)絡的生成技術,在生成的人臉在細節(jié)上存在很多不足.因此,有研究者對此展開了探索.Li 等人[88]認為Deepfakes 算法生成的圖像分辨率有限,之后需要被轉換到匹配替換的臉,這使得Deepfakes 的視頻中留下更多可以辨別的人工痕跡,這個可以被深度神經(jīng)網(wǎng)絡有效地捕捉.作者人工構造了大量的負樣本,如將要替換的人臉進行高斯模糊、旋轉等操作后放縮到源位置,這個扭曲的人臉人工痕跡就保存了,最后使用Resnet50[89]網(wǎng)絡區(qū)分這些偽造視頻或圖像.同標記視覺人工痕跡篡改視頻類似,Matern 等人[49]利用真假臉的不一致性來區(qū)分,如:

        (1) 全局不一致性:新的人臉的生成,圖像的數(shù)據(jù)點插值是隨機的,并不是很有意義,這會導致的全局眼睛的左、右顏色不一致,鼻子的左、右色彩等.

        (2) 光照不一致性:篡改區(qū)域和正常區(qū)域對光照的反射不一樣,如眼睛區(qū)域,Deepfakes 生成的視頻大多丟失這個眼睛反射細節(jié).

        (3) 幾何位置不一致:細節(jié)位置缺失,如牙齒,只有一些白色斑點,這個細節(jié)沒有建模.通過對這些特定區(qū)域(牙齒、眼睛等)提取的特征向量訓練多層感知機進行分類.

        盡管基于篡改痕跡的方法在一些數(shù)據(jù)集上表現(xiàn)良好的檢測能力,但是這些數(shù)據(jù)集大多是早期的生成器生成的,隨著生成技術的提升,高分辨率和更多細節(jié)處理的偽造圖像不斷出現(xiàn),同時容易受到一些對抗措施的影響,如加噪、壓縮、放縮,會使得這類方法的檢測能力大大減弱.

        3.4 基于GAN圖像特征的方法

        由于當前的深度偽造視頻大部分借助了GAN[13]技術,因此研究GAN 生成技術的特點也成為了檢測偽造圖像的方法之一.研究[90,91]發(fā)現(xiàn):GAN 生成技術改變了圖像的像素和色度空間統(tǒng)計特征,通過對特征共生矩陣的學習來區(qū)分生成圖像的差異.Xuan 等人[92]使用圖像預處理,如濾波、噪音等預處理方法破壞GAN 圖像低級別的生成缺陷,迫使模型學習高級別的固有的線索.Scott 等人[93]發(fā)現(xiàn):GAN 生成器的中間值通常通過歸一化來限制輸出,這一定程度上也會限制飽和像素的頻率.此外,生成器在多通道使用的權重與真實相機的光敏感度有很大不同,通過對這兩個指標進行量化提取分類特征.也有相關研究嘗試用GAN 指紋[94,95]來區(qū)分偽造,不同的GAN 生成的圖片在中間分類層具有唯一的特征,可以作為GAN 生成器的辨別指紋.

        Wang 等人[96]提出了FakeSpotter,利用神經(jīng)元監(jiān)控的方法來進行分類,原理如圖3 所示.使用神經(jīng)元覆蓋的方法觀察真假圖像經(jīng)過人臉識別器中的神經(jīng)元激活變化情況,用SVM 去學習神經(jīng)元激活的差異,而假臉在神經(jīng)元覆蓋的行為上表示相似.

        Fig.3 Using neuron coverage method to track fake face features[96]圖3 利用神經(jīng)元覆蓋方法追蹤假臉特征[96]

        此類基于GAN 特征的方法會依賴GAN 的結構,使得特征分類器在已有的生成器行為上過擬合,而無法處理未知的生成器,泛化能力很差.研究不同GAN 結構生成偽造圖像的共同特點,依然是一個研究難題.

        3.5 基于數(shù)據(jù)驅動的方法

        新的偽造生成算法和數(shù)據(jù)量的規(guī)模都在不斷增加,使得研究者開始關注用基于數(shù)據(jù)驅動的方式來學習這些Deepfakes.基于數(shù)據(jù)驅動的學習方法主要分為兩大類:一類是圖片級,將視頻處理成幀,設計不同的網(wǎng)絡結構,對幀進行判別,實現(xiàn)幀級的識別,最終對視頻的幀進行綜合決策;另一類視頻級,利用循環(huán)神經(jīng)網(wǎng)絡學習幀序列的時序特征對一個視頻進行整體判斷.

        3.5.1 基于圖片級學習的方法

        Afchar 等人[54]設計了多個小的卷積模塊來捕捉篡改圖像的微觀特征,Rossler 等人[51]利用Xception[97]架構對視頻的全幀和人臉分別訓練.結果顯示,基于人臉訓練的模型效果遠遠好于全幀模型.同時,實驗結果顯示:在面對高度壓縮的圖片時,模型的訓練難度會上升且檢測率會下降.其中,利用人臉關鍵點信息提升性能的結論也被Songsri-in 等人[98]實驗證實.Nguyen 等人[99]設計了膠囊網(wǎng)絡來判別造假的圖片或視頻,通過抽取人臉,用VGG-19[100]提取特征編碼,然后輸入膠囊網(wǎng)絡進行分類.Mo 等人[101]增加高通濾波和背景作為CNN 輸入,對檢測結果有提升.Durall 等人[102]通過離散傅里葉變換提取特征學習,顯示了很好的效果.Ding 等人[103]利用遷移學習,使用Resnet18 進行調優(yōu);同時對于這些部署的關鍵系統(tǒng),對每個預測提供一個不確定水平,如每個神經(jīng)網(wǎng)層絡輸出值差異.現(xiàn)有的神經(jīng)網(wǎng)絡能夠快速地過擬合特定的篡改痕跡,學習到的features 有高度的區(qū)分性,但是缺乏遷移性.Cozzolino 等人[104]設計了一個新的基于自動編碼器的神經(jīng)網(wǎng)絡結構,能夠學習在不同的擾動域下的編碼能力,只需要在一個數(shù)據(jù)集上訓練,在另一個數(shù)據(jù)集上獲取小規(guī)模進行調優(yōu),就能達到很好的效果.在此基礎上,Nguyen 等人[105]設計了Y 型解碼器,在分類的同時融入分割和重建損失,通過分割輔助分類效果.此外,一些針對現(xiàn)有神經(jīng)網(wǎng)絡結構的修改也被研究:Hsu 等人[106,107]采用對比損失尋找不同生成器生成的圖像的特征,后面再連接一個分類器進行分類;Dang 等人[108]設計了特定的CGFace 網(wǎng)路,專門檢測計算機生成的人臉;Bayar 等人[109]設計了受限制的卷積層學習特定的篡改特征;Stehouwer 等人[110]通過在主干網(wǎng)絡增加注意力機制來聚焦篡改區(qū)域;Rahmouni 等人[111]加入了計算統(tǒng)計數(shù)據(jù)的全局池化層.Li 等人[112]則設計了基于圖片塊的雙流網(wǎng)路框架,如圖4 所示,一條流學習人臉塊的微觀特征,另一條流學習人臉和背景區(qū)域的差異性.通過多任務學習,能夠較好地提升模型的泛化能力.

        Fig.4 Multi-task forgery classification framework based on image patches[112]圖4 基于圖像塊的多任務偽造分類框架[112]

        基于圖片級的學習方法是現(xiàn)有研究較多的方向之一,借助深度學習強大的學習能力和日益大幅增長的數(shù)據(jù)集,學習篡改圖片的特點可行且高效.此類方法不僅可以判斷單幀圖像的真?zhèn)?還可以利用組合策略檢測視頻幀,應用范圍較廣,但是也存在很多局限性,學習到的模型大多數(shù)依賴相同的數(shù)據(jù)分布,在面對未知篡改類型時很乏力[113,114];同時,對高度壓縮的視頻幀檢測能力會大幅下降.此外,如果視頻中的篡改人臉非常少,這對基于圖片級方法的綜合決策策略提出了挑戰(zhàn).

        3.5.2 基于視頻級學習的方法

        Agarwal 等人[115]發(fā)現(xiàn):作為個體,他們有不一致的面部表情和移動,通過追蹤面部和頭部移動然后抽取特定動作集合的存在和強度,臉部肌肉的移動可以編碼成動作單元,再利用皮爾森系數(shù)對特征之間的相關性進行擴充,最后在擴充后的特征集合上建立一個新的單分類SVM 來區(qū)分各類造假視頻.然而實驗結果顯示:雖然AUC達到0.9 以上,但是召回普遍不高,實用性較差.

        Amerini 等人[116]探索幀間光流的不同,采用VGG16 學習光流的差異并進行分類,因為光流是連續(xù)幀間的運動差異計算的,自然拍攝和偽造的視頻之間的運動差異很大.

        Guera 等人[117]考慮用循環(huán)神經(jīng)網(wǎng)絡處理深度偽造的序列數(shù)據(jù),因為多個相機視角,光照條件的不同,不同的視頻壓縮率使得生成器很難產(chǎn)生實際真實的在不同條件下的臉,這個會導致交換的臉在剩下的場景下看起來不一致.此外,因為生成器沒辦法意識到皮膚或者其他場景信息,所以新臉和剩下幀之間的融合性差,不同幀場景間的光源會引起大多數(shù)臉部閃爍現(xiàn)象,這個可以被時序網(wǎng)絡較好地捕捉到.

        整體框架如圖5 所示,分為兩階段分析器,一個CNN 抽取幀內feature,輸入一個測試序列,CNN 獲取一個每一幀的特征集合,然后將這些多個連續(xù)的幀特征集串聯(lián)傳輸?shù)絃STM 分析,并產(chǎn)生一個概率估計.

        相似地,Sabir 等人[118]采用雙向時序網(wǎng)絡和人臉對齊結合的方法學習偽造序列,結果顯示,基于關鍵點的人臉對齊與Bidrectional-recurrent-denset 對視頻的篡改檢測最佳.

        基于視頻級的學習方法可以學習到視頻的時序特征,如前后幀的不一致、人臉區(qū)域的不穩(wěn)定等一些篡改視頻均會出現(xiàn)的缺陷,泛化性較好;同時,也能檢測到視頻中的少量篡改.但是基于時序特征的檢測依然對視頻的預處理很敏感,如視頻壓縮、背景光線的變化等,也無法判斷單幀的真?zhèn)?

        Fig.5 Frame sequences are learned by recurrent neural networks and convolutional neural networks圖5 循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡學習幀序列

        3.6 深度偽造語音檢測

        隨著合成偽造語音技術的發(fā)展,對偽造語音的檢測工作也在興起.尤其是2019 年自動說話人語音認證競賽(ASVspoof2019)的舉辦,產(chǎn)出了一些針對性的語音欺騙工作.初始偽造語音檢測主要是傳統(tǒng)的信號處理方法,研究者嘗試對不同低水平的頻譜特征進行建模,如Todisco 等人[119]提出的常量Q倒譜系數(shù)(constant-Qcepstral coefficients,簡稱CQCC)、Wu 等人提出的歸一化的余弦相位和修改的群延遲[120,121],在一些音頻處理技術上有效,但是在ASVspoof2019 數(shù)據(jù)集上泛化性很差.有研究[122]針對ASVspoof2019 數(shù)據(jù)集進行了數(shù)十種聲學特征分析,結果顯示,這些聲學特征均不能在未知類型欺騙攻擊有很好的泛化性.隨后,基于深度學習的檢測方法逐漸被研究者所關注.Zeinal 等人[123]利用CQT 特征[124]和功率譜圖特征進行學習,并分別使用網(wǎng)絡混合、VGG 與light CNN、VGG 與Sincnet 應對物理訪問和邏輯訪問場景的攻擊.目前,語音欺騙系統(tǒng)檢測的最大問題是泛化能力,Alejandro 等人[125]提出了基于光卷積門的循環(huán)神經(jīng)網(wǎng)絡來同時抽取幀級的淺層特征和序列依賴的深層特征,檢測率在ASVspoof2019 數(shù)據(jù)集上顯示有很大提升.Chen 等人[126]通過隨機掩去相鄰的頻率頻道、加入背景噪音和混合噪聲提高檢測系統(tǒng)的泛化性.

        偽造語音的檢測從傳統(tǒng)信號處理方法發(fā)展到深度學習方法,在應對語音欺騙領域取得了一定的成果,但是現(xiàn)有方法還是依賴特定攻擊類型,對未知類型攻擊檢測的泛化性提升還有很大的空間.

        3.7 檢測技術總結

        前述研究工作在提出的同時,大多在開源數(shù)據(jù)集上進行了評測,本文將主流的深度偽造檢測算法在公開數(shù)據(jù)集上的檢測表現(xiàn)總結見表3.所有數(shù)據(jù)均由論文的實驗整理而得,大多數(shù)是深度偽造視頻檢測的工作.其中,主要評估指標有準確率(Acc)、ROC 曲線面積(AUC)、等錯誤率(EER);Raw、HQ、LQ 分別代表原生態(tài)、高清和低清;DF/F2F/FS/NT 分別是FF+中4 種篡改類型的縮寫.

        Table 3 Performance evaluation of representative methods on major test sets表3 代表性方法在主要測試集上的性能評估

        Table 3 Performance evaluation of representative methods on major test sets (Continued)表3 代表性方法在主要測試集上的性能評估(續(xù))

        此外,如前文所述,深度偽造視頻檢測歸納為5 大類的檢測算法適用于不同的場景,也在不斷的推進發(fā)展中,但是都存在一定的局限性,各有優(yōu)劣,總結見表4.

        Table 4 Advantages and disadvantages of various detection methods are summarized表4 各類檢測方法優(yōu)劣總結

        4 深度偽造的對抗性研究

        4.1 深度偽造生成的對抗性

        基于深度偽造生成的人臉能夠修改人的身份屬性,還可以操控人臉做不同的表情,這使得依賴人臉識別的應用存在著重大威脅.而針對人臉識別的對抗性攻擊一直層出不窮.Goswami 等人[128]研究發(fā)現(xiàn):對人臉圖片的遮擋和加噪等操作,能夠一定程度欺騙人臉檢測器VGGface[129]和Openface[130].文獻[131,132]利用查詢優(yōu)化的方式對人臉圖片進行加噪,以此來繞過人臉識別引擎.Song 等人[133]使用注意力機制和生成對抗網(wǎng)絡生成指定語義信息的假人臉,使得人臉識別器誤判.Majumdar 等人[134]研究發(fā)現(xiàn):對人臉部分區(qū)域的修改和變形,可以讓人臉識別器有很高的誤識率.人臉識別系統(tǒng)的脆弱性,使得基于深度偽造的Deepfakes 類技術更容易攻擊成功.Korshunov 等人[52,135]測試了基于VGGnet[100]和FaceNet[136]的人臉檢測器的安全性,通過輸入生成的Deepfakes視頻,發(fā)現(xiàn)這兩類人臉檢測器分別有85.62%和95.00%的錯誤接受率,說明人臉檢測器分辨不出深度偽造人臉和源人臉.

        4.2 深度偽造檢測的對抗性

        深度偽造檢測算法大部分均采用了神經(jīng)網(wǎng)絡技術,而神經(jīng)網(wǎng)絡本身存在著對抗樣本攻擊[137-139].對抗樣本攻擊是一種對模型輸入進行擾動,從而使模型產(chǎn)生誤判的技術.這使得深度偽造技術在生成的時候可以隱藏自身的一些特征從而繞過檢測,因此對檢測算法進行對抗性評估也十分必要.Wang 等人[140]研究發(fā)現(xiàn):不同的GAN生成的偽造圖像都留下特定的指紋特征,雖然依賴于指紋特征訓練的檢測器泛化能力不好,但是對訓練數(shù)據(jù)進行預處理,如增加JPEG 壓縮、模糊等操作,大大提高模型的泛化性能,同時在檢測時對圖片進行后處理,可以增加模型的魯棒性.但是Neves 等人[141]設計了一個自動編碼器能夠將合成的偽造圖像移除指紋等信息,讓現(xiàn)有的偽造檢測系統(tǒng)失效.Brockschmidt 等人[113]對深度偽造檢測器(Xception[51]、Mesonet[54])進行了對抗性評估,作者采用6 個偽造數(shù)據(jù)集對檢測器的可靠性進行探測,結果顯示:在同分布的數(shù)據(jù)集上,檢測器均能達到非常高的檢測率;但是在未知篡改類型數(shù)據(jù)集上,只有特征重合程度高的數(shù)據(jù)集之間遷移性較好,否則檢測效果非常差.Marra 等人[142]則模擬了篡改圖片在社交網(wǎng)絡的場景中的檢測,結果顯示,現(xiàn)有的檢測器在現(xiàn)實網(wǎng)絡對抗環(huán)境下(未知壓縮和未知類型等)表現(xiàn)很差.Zhang 等人[143]尋找GAN的共有痕跡,提高檢測器的魯棒性.現(xiàn)有的檢測器對數(shù)據(jù)依賴強,泛化性不夠,Du 等人[144]利用局部性感知的自動編碼器實現(xiàn)造檢測,使得模型聚焦篡改區(qū)域,通用性更強.Huang 等人[145]則借鑒了對抗樣本的思想,對這些基于神經(jīng)網(wǎng)絡的檢測器進行對抗性攻擊,設計了單個對抗攻擊和通用對抗攻擊兩種方式,使得檢測器的篡改分類和定位失效.盡管現(xiàn)在已經(jīng)存在眾多的檢測器,在一些數(shù)據(jù)集上表現(xiàn)很好,但是攻擊者依然可以完善生成方法,隱藏一些標志性特征從而繞過檢測器,這是一個長期的攻防博弈過程.

        5 總結與展望

        5.1 技術風險

        深度偽造技術的發(fā)展給社會帶來了巨大的負面影響,從社會國家領導人到普通的互聯(lián)網(wǎng)公民,都有被此類技術侵害的可能性[146].對深度偽造技術帶來的技術風險如下.

        (1) 輿論負面影響:如色情電影的制作、政治家的謠言傳播,會嚴重損害個人名譽.

        (2) 對人臉認證的影響:目前大多依賴活體檢測來識別視頻攻擊,如果在沒有活體檢測的應用場景以及活體功能失效的場景,如端劫持,對換臉的人與本人的識別面臨挑戰(zhàn).

        (3) 對視頻人臉識別系統(tǒng)的影響:通過追蹤視頻人臉并識別的技術面對挑戰(zhàn),換臉的視頻與真人的視頻分辨不出來.

        (4) 影響司法體系:由于缺乏完全可靠的鑒別深度偽造數(shù)據(jù)的能力,法院需要重新審視圖片或者視頻證據(jù)的效力.

        (5) 影響經(jīng)濟活動:名人的假視頻能讓股市瞬間暴跌.

        而這些風險后面還隱藏著國家治安穩(wěn)定、倫理道德、經(jīng)濟發(fā)展、信任危機等更深層次的社會問題,亟需研究更有效的應對措施.

        5.2 研究難點

        從深度偽造技術誕生至今,有不少的研究工作展開對偽造圖像或視頻進行檢測,但是依然沒有完美的解決方案[40],在檢測領域依然存在著諸多研究難點問題.

        (1) 壓縮方式的不同、壓縮率的不同:視頻不同于圖片,在上傳到網(wǎng)站時會做不同的壓縮方式處理;同樣,視頻在線下制作時也可以做不同的后處理裁剪壓縮,這會使得很多篡改特征模糊甚至消失.制作者甚至可以對視頻中的部分幀進行壓縮處理,人為地增加檢測難度.此外,不同的壓縮方式和壓縮率下的數(shù)據(jù)分布也有很大不同,這也意味著基于學習的方法會很容易在已有的訓練集上過擬合.現(xiàn)有的檢測方法還無法有效地檢測未知壓縮的視頻,大多是在訓練集中擴充壓縮的數(shù)據(jù),增加模型的決策邊界以此來應對壓縮[51].此類方法本質還是基于同分布壓縮的假設.

        (2) 視頻分辨率的不同:互聯(lián)網(wǎng)上的視頻質量和大小各異,不同的視頻有著不同的分辨率,人臉大小跨度從幾百像素到百萬像素級別.如果統(tǒng)一放縮到指定大小處理,會喪失部分特征,在一定程度上影響著檢測器的特征提取,這就需要檢測算法從根本上考慮不同尺度特征的融合.

        (3) 篡改算法未知:生成算法層出不窮,不同的生成算法篡改的側重點不同,所具有的特征也不盡相同.基于學習的方法雖然能快速捕捉到訓練集中的人臉篡改特征,但是大多是擬合已有的生成器特征,對未知的篡改類型不魯棒.現(xiàn)有的應對方法大多是將新的生成算法數(shù)據(jù)集加入到訓練集[51,112],以此來提高跨生成算法之間的檢測率.如何設計魯棒性強、泛化性能高的檢測算法,依然是難點.

        (4) 一些復雜的對抗場景:真實網(wǎng)絡世界中的視頻遠遠比公開數(shù)據(jù)集的復雜度要高的多,而且存在較強的對抗性.一些在實驗數(shù)據(jù)上表現(xiàn)很好的模型,在面對真實網(wǎng)絡偽造數(shù)據(jù)集時可能束手無策.如多人臉的視頻如何無誤地檢測、針對只有部分幀部分區(qū)域篡改的視頻如何區(qū)分、視頻里過強或過暗的光線對人臉檢測的影響如何評估等,人臉生成偽造者在制作的同時也會考慮加入這些對抗性場景,以此來降低檢測效果,這些復雜場景對偽造檢測算法帶來巨大的挑戰(zhàn).

        5.3 未來研究方向

        雖然針對偽造圖像或語音的檢測已經(jīng)取得了一部分研究成果,但目前該領域的研究依然存在諸多關鍵問題尚待解決.同時,一些新的生成技術的發(fā)展成熟,會讓此類深度偽造的鑒別工作越來越困難.針對以上的難點和問題,我們可以考慮從多角度多層次來探索深度偽造檢測未來可行的方向.

        (1) 研究泛化性好的檢測算法:已有的檢測方法容易依賴特定的數(shù)據(jù)集和生成算法,泛化能力很弱.這往往是由于訓練數(shù)據(jù)的單一同分布所致.僅僅粗暴地對數(shù)據(jù)直接學習并不能滿足多樣的偽造類型,需要探索盡可能多的深度偽造類型,尋找其中的共性特征,如生成器的指紋[94,95]、不同偽造數(shù)據(jù)中人臉與嘴唇一致性差異等.通過對共性特征的學習,使得檢測模型能夠適用于更多的深度偽造類型.

        (2) 研究魯棒性強的檢測算法:論文中展現(xiàn)的檢測算法大多在單一的場景下測試,而現(xiàn)實世界中常常面對壓縮、噪音等復雜情況,使得檢測算法不魯棒.可以在訓練階段和測試階段對數(shù)據(jù)進行壓縮、放縮等預處理,探索不同預處理對檢測算法魯棒性的影響.同時,還可以將對抗樣本技術應用到檢測模型的魯棒性提升上,探索檢測模型在對抗樣本攻擊下的缺陷,進而可以利用對抗環(huán)境下生產(chǎn)的對抗樣本對模型進行對抗訓練以增加模型的魯棒性.此外,已有的數(shù)據(jù)集大多數(shù)都為單人臉的真?zhèn)舞b別,檢測模型缺乏應對視頻中多人臉的復雜場景.如何在保證準確率的同時對視頻中多人臉的篡改進行判斷,是一個具有挑戰(zhàn)性的課題.

        (3) 研究主動防御算法:現(xiàn)有的檢測算法總是依賴已發(fā)現(xiàn)的深度偽造類型,對未知類型的偽造數(shù)據(jù)檢測很被動,這使得檢測算法總是落后于生成技術.可以從兩個角度進行主動防御:第1 種思路是利用對抗樣本技術對上傳到互聯(lián)網(wǎng)上的媒體數(shù)據(jù)注入對抗噪音,如注入對抗人臉檢測的噪音,使得人臉檢測技術在預處理人臉數(shù)據(jù)時檢測錯位或失敗,從而使得依賴人臉檢測技術的深度偽造換臉技術不再精準,導致?lián)Q臉異?;蚴?第2 種思路是控制視頻傳播的源頭,對互聯(lián)網(wǎng)上的視頻進行溯源,研究視頻網(wǎng)站上的視頻追蹤技術,如Hasan 等人[147]嘗試用區(qū)塊鏈技術對互聯(lián)網(wǎng)上的視頻進行追蹤.

        (4) 研究深度偽造圖像和偽造語音的融合檢測技術:現(xiàn)有針對深度偽造的檢測技術基本只關注了一個單一的偽造領域,而偽造的多媒體數(shù)據(jù)通過圖像和語音結合能達到更逼真的效果.因此,對偽造數(shù)據(jù)進行圖像語音多模態(tài)的檢測是一個有意義的方向.如,Facebook 舉辦的深度偽造檢測競賽[58]已經(jīng)增加了同時篡改音頻和圖像的數(shù)據(jù)類型.這種偽造類型將會越來越普遍,帶來的負面影響也會更大.針對此類偽造的檢測研究也給單模態(tài)(圖像或語音)偽造的檢測提供了思路.

        (5) 建立研究性社區(qū):現(xiàn)有的研究資源沒有得到很好地共享,缺乏如全球研究者認可維護的研究性網(wǎng)站.對現(xiàn)有的研究數(shù)據(jù)集共享,需要建立統(tǒng)一的社區(qū),集中現(xiàn)有零散的數(shù)據(jù)資源,讓研究者們能更好地利用已有的資源和成果.現(xiàn)有網(wǎng)站[56]在開源部分數(shù)據(jù)集,但是力度不夠,需要集成大規(guī)模數(shù)據(jù)集并公開現(xiàn)有最好的評估指標,定期舉辦學術研討會和比賽,增加研究者們對深度偽造檢測領域的關注度.

        (6) 進行司法立法:深度偽造的檢測僅僅依靠技術手段可能不能完美地解決問題,因為生成與檢測是一個永恒博弈的過程,僅依靠一門檢測技術來杜絕深度偽造現(xiàn)象不太現(xiàn)實,需要社會建立完整的法律體系,對惡意制作或傳播的互聯(lián)網(wǎng)用戶進行一定的懲戒.如美國加州[148]已經(jīng)立法,禁止制作政治人物的偽造視頻,同時也明確規(guī)定了制作色情偽造人物視頻屬于違法行為.中國的互聯(lián)網(wǎng)信息辦公室也發(fā)行了《網(wǎng)絡信息內容生態(tài)治理規(guī)定》[149],其中明確規(guī)定,網(wǎng)絡信息內容服務使用者、內容生產(chǎn)者和內容服務平臺不得利用深度學習、虛擬現(xiàn)實等新技術新應用從事法律、行政法規(guī)禁止的活動.盡管已出臺了相關法律抑制深度偽造的濫用,但是此類法律還不健全,如何區(qū)分偽造視頻是屬于娛樂和惡性傳播等在法律邊界游走的現(xiàn)象,還需要相關部門建立更加完整細致的法律體系.

        (7) 培訓新聞工作者:法律和技術檢測能一定程度增加惡意偽造傳播的代價,但是給社會帶來的負面影響無法挽回,這需要在視頻傳播的源頭進行控制,如一些社交媒體,特別是主流媒體承擔著大量的視頻圖像的傳播任務,需要對這些新聞工作者進行專業(yè)培訓,培養(yǎng)鑒別一些假視頻的能力,從源頭減少偽造視頻的傳播,降低負面影響.同時,對本身制作視頻的新聞工作者,要明確在視頻上打上是否偽造的標簽,以減少新聞媒體的誤導能力.

        6 結束語

        隨著深度學習技術的發(fā)展,深度偽造技術會不斷完善,生成更加逼真難以鑒別的視頻和語音數(shù)據(jù).這對深度偽造的檢測提出了巨大的挑戰(zhàn).盡管已存在有一些針對深度偽造檢測的工作,但是都依賴特定的數(shù)據(jù)集或者場景,依然存在許多關鍵的科學問題尚待解決.為了理清現(xiàn)有研究的進展,明確未來研究方向,本文從生成技術、研究數(shù)據(jù)集、主流檢測方法進行總結,回顧了大量極具影響力的研究成果,并對相關研究進行了科學的分類、總結和分析.同時,本文指出了深度偽造檢測領域當前面臨的挑戰(zhàn),探討了未來可行的研究方向,旨在為推動深度偽造檢測領域的進一步發(fā)展和應用提供指導和參考.

        猜你喜歡
        人臉語音深度
        有特點的人臉
        深度理解一元一次方程
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        深度觀察
        深度觀察
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        深度觀察
        亚洲av无码专区在线观看成人| 国产啪啪视频在线观看| 亚洲中文字幕一区精品| 麻豆国产精品va在线观看不卡| 亚洲综合无码无在线观看| 国产高清吃奶成免费视频网站| 丰满人妻无套内射视频| 精品福利一区二区三区蜜桃| 内射少妇36p亚洲区| 超91精品手机国产在线| 色综久久综合桃花网国产精品| 日本熟妇另类一区二区三区| 日日婷婷夜日日天干| 国产欧美日韩午夜在线观看| 日本一区二区精品色超碰| 国产自拍av在线观看视频 | 精品久久久久久成人av| 秋霞午夜无码鲁丝片午夜精品| 久草视频华人在线观看| 精品人妻久久一区二区三区| 国内精品卡一卡二卡三| 亚洲国产精品久久久久秋霞1| 亚洲av午夜福利一区二区国产| 亚洲欧洲免费无码| 久久人人玩人妻潮喷内射人人 | 天堂网日韩av在线播放一区| 中文字幕一区日韩精品| 国产免费资源高清小视频在线观看| 日韩丝袜人妻中文字幕| 日韩精品中文一区二区三区在线 | 久久精品国产久精国产| 亚洲A∨无码国产精品久久网| 国产精品午夜福利亚洲综合网| 成人片黄网站a毛片免费| 真实国产乱啪福利露脸| 久久精品女人天堂AV一个| 精品高清免费国产在线| a级特黄的片子| 一区二区三区福利在线视频| 国产亚洲av综合人人澡精品| 国产va免费精品高清在线观看|