◎中國科學技術大學網(wǎng)絡空間安全學院 周文柏 俞能海 張衛(wèi)明 趙漢卿 劉泓谷 韋天一
當前世界大國將網(wǎng)絡空間視為“影響塑造對手行為”和“為對手創(chuàng)造即時困境”的持續(xù)對抗空間。在軍事領域,物理域、信息域和輿論、心理、決策、民心等認知域融合在一起,形成了“多域作戰(zhàn)”態(tài)勢,構成了遠超傳統(tǒng)對抗的嚴峻安全挑戰(zhàn)。在此背景下,結合人工智能的多媒體智能生成技術在認知域對抗、社會安全和政治安全方面展現(xiàn)了強大作用和潛力,成為了各大國為爭奪網(wǎng)絡空間主導權所重點關注的技術。
這其中最有影響的是以視頻換臉為代表的深度偽造(DeepFake)技術(見圖1 示例)。尤其是針對國家政要、商界名流、公眾人物的深度偽造人臉視頻數(shù)據(jù)在境內(nèi)外社交軟件和內(nèi)容分享平臺中快速散播,引起社會輿論廣泛關注。深度偽造技術可用于誤導輿情,或修改政治人物的講話影響國家的政治、外交。因而美國發(fā)布的《2019年全球威脅評估》指出:“深度偽造已對美國國家安全造成嚴重威脅”。
圖1 Deepfake換臉效果展示
2017年12月,一位名為“Deepfakes”的用戶在全球流量排名第四的國際互聯(lián)網(wǎng)社區(qū)“Reddit”上發(fā)布了一段好萊塢女星蓋爾·加朵的偽造人臉視頻,掀起了一陣轟動,這一事件作為開端,標志著人臉深度偽造技術的興起,而該用戶的用戶名也被引用成為了這一類技術的代名詞“Deepfake”。人臉的深度偽造主要針對成對的人臉進行,它可以將目標視頻人物的臉替換成指定的原始視頻人臉,或讓目標人臉重演、模仿原始人臉的動作、表情等,從而制作出目標人臉的偽造視頻。近年來,人臉深度偽造技術在深度學習技術的推動下取得了快速發(fā)展,自動編碼器、生成對抗網(wǎng)絡等深度學習中的生成模型均被應用到了該項技術中,實現(xiàn)了人臉的高真實度生成與替換。深度學習技術的普適性以及高度的開源性使得Deepfake相關技術只需要利用少量的原始人物與目標人物肖像便可以完成換臉過程,這帶來了很多換臉技術在娛樂中的應用,如2019年非常流行的“ZAO APP”和最近新上線的“去演APP”,用戶可以用自己的臉去替換部分影視劇片段中演員的臉,虛擬的體驗一把“當明星”的感覺,此外,“抖音”、“Avatarify”等知名的社交軟件也提供了換臉相關的新功能,用戶可以用自己的表情去驅動一些著名人物的靜態(tài)肖像,讓他們做出跟自己一致的表情,使靜態(tài)名人“活化”。
然而,人臉深度偽造技術在為人們帶來娛樂性的同時也帶來了巨大的安全威脅。由于深度學習的技術門檻相對較低,很多開源技術可以直接利用,因此一些不法分子能夠輕易未經(jīng)許可地偽造特定人物的假視頻并惡意使用,如將女明星的臉換到成人電影中,對當事人造成隱私和名譽的侵害,或操縱特定人物肖像發(fā)布虛假信息,誤導輿論,侵蝕社會信任度,甚至能夠將換臉技術用于國家政要,發(fā)布涉及國防外交的虛假視頻,導致嚴重的政治危機。因此對偽造人臉視頻的檢測鑒別至關重要。為了減輕人臉深度偽造技術帶來的危害,學術界和工業(yè)界都展開了對人臉偽造視頻檢測技術的深入探索,并提出了涵蓋空域、時域、頻域等多種維度的檢測方法,并在特定數(shù)據(jù)集上取得了一定成功。此外,F(xiàn)acebook(臉書)公司也聯(lián)合MicroSoft(微軟)等知名企業(yè)與高校,在著名競賽平臺Kaggle上發(fā)布了迄今為止人臉偽造檢測領域規(guī)模最大、影響力最高,也是Kaggle 競賽平臺有史以來獎金最豐厚的人臉偽造檢測挑戰(zhàn)賽(Deepfake Detection Challenge,DFDC),吸引了全球超過2200 支隊伍參賽,以期推動檢測技術的發(fā)展。其中,中國科學技術大學網(wǎng)絡空間安全學院人工智能與安全團隊在該項比賽中擊敗了如MIT(麻省理工)、NVIDIA(英偉達)、清華、阿里等知名校企,取得了全球第二,獲30 萬美元獎金,這也是國內(nèi)最好成績。該項比賽成果被中國信通院在2020年《人工智能安全框架》中評選為2014年以來中國在人工智能安全領域的8 項代表性成果之一。
盡管眾多學者在人臉深度偽造檢測領域做出了不小的努力,但由于高質量數(shù)據(jù)集缺乏、評價機制不統(tǒng)一、實驗環(huán)境與真實場景數(shù)據(jù)失配情況嚴重等問題,導致相關檢測技術的實用性受到極大制約,F(xiàn)acebook 官方也在DFDC 比賽后宣稱:“人臉深度偽造檢測的問題仍尚未得到解決”。
事實上,盡管目前人臉深度偽造所帶來的負面影響遠大于積極效應,但人臉深度偽造技術本身卻依舊值得研究。現(xiàn)有的人臉深度偽造技術在生成質量的真實感和自然度上仍有可以提升的空間,且偽造技術的進步將帶來數(shù)據(jù)集質量的大幅提升,從而進一步推動檢測技術的發(fā)展。
對于人臉的相關研究已經(jīng)有數(shù)十年的歷史,“換臉”技術也是計算機視覺和計算機圖形學領域的一項經(jīng)典任務,但以“Deepfake”為代表的深度換臉技術首次將深度學習技術應用到了換臉任務中,將這一傳統(tǒng)任務變得智能化和高度真實化,形成了巨大的轟動效應。在“換臉”的發(fā)展歷程中,主要有三類技術代表,即以“人臉變換(Face Morphing)”為代表的經(jīng)典換臉技術、以“計算機圖形學技術(Computer Graphics,CG)”為代表的高真實度換臉技術,以及以“生成模型(Generative model)”為核心的智能化換臉技術。這三類技術的發(fā)展階段不同,也具有不同的特點和適用場景。其中,以深度生成模型為核心的智能技術,成為了當前各行業(yè)關注的主流技術。
深度生成模型是以Deepfake 為代表的人臉視頻深度偽造技術的核心。深度生成模型可以簡單描述成一個使用深度神經(jīng)網(wǎng)絡進行數(shù)據(jù)生成的模型,屬于一種概率模型。使用生成模型可以生成出不包含在訓練數(shù)據(jù)集中的新數(shù)據(jù)。目前深度學習主要包含兩大類生成模型:自編碼器(AutoEncoder,AE)和生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)。
其中,GAN 模型的訓練包含了對抗博弈的過程,這個過程同時訓練了兩個模型:捕捉數(shù)據(jù)分布的生成器G 以及判別器D,D 用于評估輸入的樣本來源于真實數(shù)據(jù)分布還是生成數(shù)據(jù)分布。GAN 模型可以類比為一個造假團隊,其中生成器生產(chǎn)假鈔并在未經(jīng)偵測的情況下使用,而判別器類似于警察,從真實數(shù)據(jù)中找出并區(qū)分這些假鈔。整個博弈過程如同一場競賽,迫使生成器與判別器的博弈對抗中不斷提升雙方性能,取得良好的視覺質量,直至真假數(shù)據(jù)無法被分辨。部分由最先進的生成模型StyleGAN。生成的人臉如圖2所示,其生成的效果非常逼真,已經(jīng)達到了人眼難以區(qū)分真假的程度。
圖2 StyleGAN模型生成的人臉示例
生成模型為人臉深度偽造奠定了技術基礎,隨著生成技術的不斷完善,人臉偽造過程中所產(chǎn)生的假臉質量也在不斷提升,這為人臉深度偽造的快速發(fā)展奠定了良好的基礎。但這類生成技術也存在明顯的缺點,由于其概率模型的特性,人臉的生成過程往往存在一定隨機性,導致人臉偽造的過程不可控,且這類生成模型在生成連續(xù)視頻幀時較難保持幀間一致性,從而使得合成的人臉視頻存在較大的抖動,最終的偽造效果仍有待進一步提升。
綜上所述,“換臉”技術的發(fā)展,實際上是學術化與工業(yè)化不斷碰撞、螺旋上升的過程,經(jīng)典的CG 技術盡管能夠取得高度的真實性,但其代價巨大且技術通常用于盈利,并不開源。而以Deepfake 為代表的人臉深度偽造技術的實現(xiàn)門檻與代價都較低,但實際的效果仍有待提升?,F(xiàn)階段,深度學習技術已經(jīng)被部分應用于電影工業(yè)中的CG 特效,在未來,人臉的合成也將繼續(xù)沿著這個方向發(fā)展,通過深度學習技術與部分CG 技術的有機結合,在實現(xiàn)人臉偽造效果提升的同時也保持較低的技術門檻與高程度的開放性。
現(xiàn)階段,全智能化的人臉深度偽造技術發(fā)展并不完備,其中主流的偽造技術主要從人臉圖像域的角度出發(fā),通過對人臉圖像進行特征編碼、重構的操作方式實現(xiàn)篡改,篡改類型可以概括為面部替換和屬性編輯兩大類。其中面部替換旨在用原始人臉面部替換目標人臉的面部區(qū)域,涉及目標圖像身份屬性的變化。而屬性編輯主要針對目標人臉身份信息外的各類屬性進行編輯篡改,如使用表情遷移、唇形篡改等。
面部替換的經(jīng)典算法是“Deepfakes”,主體結構基于自動編碼器實現(xiàn)。對于原始人臉A 和目標人臉B,訓練權值共享的編碼器用于編碼人臉特征,解碼端A 和B 各自訓練獨立解碼器用于重構人臉。在測試階段,用訓好的編碼器對目標B 進行編碼,再用訓好的A 解碼器來解碼B 的特征,以實現(xiàn)A 與B 之間的人臉替換。為了達到更好的替換效果和更佳的可操控性,對抗損失和人臉解耦重構等技術也被用于深偽算法進行約束與監(jiān)督,并產(chǎn)生了很多變體方法,如FSGAN、FaceShifter 等,使得生成的偽造人臉質量大幅提高。屬性編輯算法的基本原理與面部替換類似,但該類算法以人臉屬性為對象進行篡改,不涉及到目標人物身份信息的改變,通常用來進行人臉的表情遷移、唇形篡改等應用。代表算法包括早期的表情遷移方法Face2Face、特定人唇形篡改方法ObamaNet 近期應用火熱的表情遷移方法First Order Motion 以及唇形篡改方法Wave2Lip等。
人臉深度偽造作為一項應用技術,可用于電影行業(yè)或一般的大眾娛樂領域,此外也可作為技術反制手段,用于針對特殊政治、公眾人物的人臉視頻塑造。很多相關的工具和商業(yè)軟件已經(jīng)被開發(fā),包括以DeepFaceLab 為代表的支持人工干預的全流程人臉偽造開源項目和以風靡一時的ZAO 為代表的換臉應用軟件。開源工具對人臉深度偽造技術的發(fā)展起到了巨大的推動作用,表1 列舉了部分高影響力的人臉深度偽造工具與商業(yè)軟件??傮w來說,人臉深度偽造相關的開源項目大多從技術角度出發(fā),使用方式的靈活性較高,但對工作的硬件環(huán)境和使用者的技術能力有一定要求,而商業(yè)軟件主要面向不具備專業(yè)技術的大眾用戶,使用便利程度高,但僅能用于指定場景的娛樂用途。
表1 部分人臉深度偽造工具與軟件
在人臉偽造相關技術中,有一類方法基于對抗生成網(wǎng)絡(GAN)來實現(xiàn)。與基于圖像域特征編碼的方法不同,基于GAN 實現(xiàn)的方法依賴于已訓練好的GAN 網(wǎng)絡,探索人臉圖像各屬性在隱空間中對應的隱變量,找到待篡改的語義方向,再利用預訓練好的GAN 生成器來生成編輯后的人臉。這類方法需要在圖像隱空間進行操作,對于已知分布的生成人臉圖像可以實現(xiàn)高自由度的編輯和高真實感的偽造,但對于真實人臉圖像,首先需要將其映射到隱空間,此時非常依賴GAN 翻轉(GAN Inversion)技術的效果。這類方法可探索性強,且思路多樣化,近期在學術界得到了快速發(fā)展。
現(xiàn)階段的Deepfake 防御主要指針對深偽媒體的被動式檢測,即在無輔助信息的條件下對偽造人臉視頻進行檢測與鑒別,這個任務本質上是一個二分類任務,判斷給定的人臉媒體文件是真還是假。二分類任務在多媒體取證、計算機視覺等領域都已有深入研究,但深度偽造的檢測具有其特殊性,既不同于一般取證場景下像素級的修改檢測,也不同于計算機視覺中語義級的理解分類,而是與二者都有關聯(lián)但又有實質差別的一種技術。現(xiàn)階段的Deepfake 的被動式檢測方法也大多從這兩個領域中借鑒思路,根據(jù)檢測方法的特點,可以概括為三類。
有偽造樣本學習方法
這類方法的核心特點是利用真假成對數(shù)據(jù)作為訓練驅動,模型學習的過程需要有偽造人臉樣本的參與。通過人工設計或神經(jīng)網(wǎng)絡挖掘的形式提取到真假人臉的可區(qū)分特征,從而進行分類。根據(jù)提取特征方式的不同,這類方法可分為基于人工特征的方法和基于深度學習方法兩種。其中基于人工特征的檢測方法多見于早期階段,針對偽造技術不完善導致的篡改痕跡進行特征提取,如利用傳統(tǒng)圖像取證中的隱寫分析特征,或捕捉眨眼異常、頭面姿勢不一致、異瞳和牙齒細節(jié)異常等。而基于深度學習的方法則更多建立在深度神經(jīng)網(wǎng)絡強大的圖像理解能力之上,從媒體的空域、時域、頻域等角度挖掘可鑒別的細節(jié)特征。一些經(jīng)典的網(wǎng)絡結構如XceptionNet、EfficientNet 等在deepfake 檢測任務中發(fā)揮了良好的效果。在此基礎上,Two-branch 采用了雙向LSTM 來尋找偽造視頻的時序偽像,F(xiàn)3-Net 通過精心設計的局部頻域統(tǒng)計模塊從頻域的角度放大了偽造帶來的可檢測痕跡,MPSM 為特征圖設計了塊相似度計算模塊以捕捉空域和頻域特征上的篡改痕跡,均取得了良好的效果。Multi-Attention 首次將deepfake檢測定義為細粒度分類任務,采用了多個注意力圖來響應人臉圖像的不同區(qū)域和不同注意力點,以定位局部且細微的篡改偽像。SPSL 則通過分析偽造算法中普遍存在的采樣過程,從相位譜中捕捉頻域偽造痕跡,實現(xiàn)了更為通用的檢測。
無偽造樣本學習方法
與“有偽造樣本學習”的方法相對應,“無偽造樣本學習”方法的模型訓練過程不需要使用偽造人臉的負樣本,而是抓住了人臉這一特殊信息載體的某些特性,或抓住了深度偽造過程中某一固有的流程漏洞實現(xiàn)檢測與鑒別。典型的方法是Face X-ray,其抓住了偽造方法大多需要進行融合操作這一固有流程,進行針對融合操作痕跡的檢測,模型訓練只需要使用真臉數(shù)據(jù)和部分人工制作的非人臉融合圖像,不需成對的真假臉。類似的還有PCL,通過預測融合面具的方式,判斷給定人臉是否有融合痕跡或邊界的不一致性。這類方法由于不依賴于真假成對數(shù)據(jù),因此對不同的偽造算法具有較強的遷移檢測能力。
基于多任務遷移的方法
這是最近新興起的一類方法,其核心分類器依舊是依賴于成對真假數(shù)據(jù)進行訓練,與前述方法最大的不同在于,該類方法會利用其它任務中的預訓練模型或預篩選特征,在deepfake 的真假數(shù)據(jù)對上進行微調(diào)。代表方法為Lip-forensics,利用了唇讀模型這一與人臉相關的分類模型,遷移到deepfake檢測的任務中來,特征提取過程與唇讀任務一致,但最終的目標是利用精準的唇讀,區(qū)分真假唇的差別,從而實現(xiàn)真?zhèn)舞b別。
常用數(shù)據(jù)集
Deepfake 數(shù)據(jù)集主要用來訓練以及評估檢測模型的性能。Deepfake發(fā)展至今,出現(xiàn)過很多數(shù)據(jù)集。目前最常用的數(shù)據(jù)集主要有四個,各數(shù)據(jù)集的基本情況如表2所示。其中,衡量算法的庫內(nèi)檢測性能通常用FaceForensics++,而衡量算法跨庫性能時則多使用Celeb-DF 測試。隨著領域內(nèi)技術的進步和研究視角的轉變,不同類型的數(shù)據(jù)集還將繼續(xù)產(chǎn)生和發(fā)展,如近期中國科學技術大學和微軟亞研院聯(lián)合組建的包含人物身份參考的特定人偽造鑒別數(shù)據(jù)集“Vox-Deepfake”和Zi 等人提出的真實場景下的數(shù)據(jù)集“WildDeepfake”。
表2 Deepfake主要數(shù)據(jù)集基本情況
主流的偽造防御技術大多通過事后取證的方式進行,屬于被動式檢測方法,但此時往往偽造多媒體的危害已經(jīng)形成。因此,近期一些主動式防御的工作被提出。如Huang 等人提出的基于對抗攻擊和數(shù)據(jù)毒化的人臉主動干擾方法,在不影響人臉多媒體數(shù)據(jù)視覺質量的前提下,干擾偽造者的模型訓練過程,使其難以利用被保護的數(shù)據(jù)進行偽造。此外,主動式防御也可結合信息隱藏中的魯棒水印以及模型水印等技術,鎖定偽造數(shù)據(jù)的泄露途徑,實現(xiàn)主動取證。
Deepfake 偽造及其防御是人工智能安全領域中的熱點問題,由于其在安全與倫理問題上的特殊性,受到了科研、政治、社會、經(jīng)濟等多個領域的廣泛關注。而解決Deepfake 相關問題,絕不僅僅是技術上的問題,更應該從立法監(jiān)管、新聞宣傳、知識科普等多個角度協(xié)同攻堅。Deepfake 技術的發(fā)展依舊存在如下研究難點。
1、偽造的智能化與真實感的權衡。智能化的偽造技術帶來的是便捷性和自由度,但由于場景需求不同,統(tǒng)一的偽造框架無法很好的適應需求,因此結合人工干預的后處理手段可能是深度偽造更高級的形態(tài)。
2、多維度協(xié)同防御。事后取證的檢測技術難以抵消已經(jīng)發(fā)生的危害,因此事前保護的主動防御技術是值得期待的發(fā)展方向。目前相關的研究較少,且由于數(shù)據(jù)來源不可控,這類方法的應用受到了極大制約。
3、真實場景防御問題。當前Deepfake 檢測技術的一大難點就是真實偽造場景下的魯棒檢測方法。由于傳播場景復雜,對抗因素多,現(xiàn)有技術的泛化能力尚未達到實用,這一點也被2020年Facebook 牽頭舉辦的DFDC比賽結論所驗證。為了解決這一難題,發(fā)展多樣化且高度真實的數(shù)據(jù)集和偽造方法也是一大關鍵問題。