閆嘉樂,徐 洋,張思聰,李克資
貴州師范大學(xué) 貴州省信息與計算科學(xué)重點實驗室,貴陽 550001
近年來,深度學(xué)習(xí)作為人工智能的核心技術(shù)被廣泛使用在大量的場景和應(yīng)用中,它在許多任務(wù)中取得先進的性能和快速的發(fā)展,例如計算機視覺[1]、自然語言處理[2]、語音辨識[3]、自動駕駛[4]、醫(yī)療診斷[5]等任務(wù),有些領(lǐng)域甚至超過人類的處理能力。在計算機視覺領(lǐng)域,自從Krizhevsky等人[6]利用AlexNet網(wǎng)絡(luò)在圖像分類任務(wù)上取得了劃時代的突破以來,卷積神經(jīng)網(wǎng)絡(luò)成為該領(lǐng)域最先進的模型,雖然深度學(xué)習(xí)模型性能很優(yōu)越,但不幸的是,Szegedy等人[7]研究發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)模型在對抗樣本面前非常脆弱,此后的研究工作發(fā)現(xiàn)深度學(xué)習(xí)模型在語音識別[8]、文本分類[9]、惡意軟件檢測[10]等不同的任務(wù)中也存在對抗樣本現(xiàn)象。由于圖像分類模型的對抗攻擊在文獻中是最常見的,因此這是本文梳理的重點。
卷積神經(jīng)網(wǎng)絡(luò)模型和其他的深度學(xué)習(xí)模型在面對對抗攻擊時的脆弱性,促使機器學(xué)習(xí)社區(qū)重新審視與模型構(gòu)建相關(guān)的所有過程,試圖找到模型缺乏魯棒性可能的原因。對抗攻擊與防御之間的軍備競賽最終形成了一個對抗機器學(xué)習(xí)的最新研究領(lǐng)域,該領(lǐng)域致力于構(gòu)建更可信、更魯棒的深度學(xué)習(xí)模型。
圖像分類的對抗機器學(xué)習(xí)目前是一個非常活躍的研究領(lǐng)域,它占據(jù)了該領(lǐng)域的大部分研究工作,幾乎每天都有新的論文發(fā)表,但迄今為止還沒有一個有效的解決方案來確保深度學(xué)習(xí)模型的安全性。本文梳理和總結(jié)了圖像分類領(lǐng)域的研究工作,整理了該領(lǐng)域的核心分類體系,以便為讀者更好地探索該領(lǐng)域打下堅實的基礎(chǔ)。
雖然對抗樣本領(lǐng)域已經(jīng)存在多篇在圖像領(lǐng)域的綜述論文[11-13],但本文相比這些綜述文章對該領(lǐng)域的介紹更加全面,可以讓讀者對圖像分類領(lǐng)域的全貌有一個清晰的了解。本文相比2020年文獻[11]梳理總結(jié)了對抗樣本防御相關(guān)的工作,相比2022年文獻[12]梳理總結(jié)了解釋對抗樣本存在性的相關(guān)工作,以期為讀者拋磚引玉,相比2021年文獻[13]梳理總結(jié)了物理世界的對抗樣本相關(guān)的工作。本文梳理和回顧了圖像分類領(lǐng)域?qū)箻颖竟艉头烙陌l(fā)展歷程,如圖1所示。
圖1 對抗樣本的發(fā)展歷程Fig.1 Development process of AE
本節(jié)以圖像分類模型為例,介紹對抗樣本的定義。一個圖像對抗樣本可以形式化定義如下:f表示由正常圖像訓(xùn)練得到的分類模型,x表示正常的輸入圖像,敵手(adversary)尋找一個對抗擾動δ(adversarial perturbation,AP),使得x"=x+δ,x"即為對抗樣本(adversarial example,AE),其中對抗擾動δ使得x跨越了分類模型f的決策邊界導(dǎo)致f(x)≠f(x"),如圖2所示。綜上,對抗樣本的簡單形式化定義如公式(1):
圖2 對抗樣本在2維決策空間下示例Fig.2 Example of AE in 2D decision space
圖3展示了一個圖像對抗樣本生成的示例,敵手在分類模型的測試階段使用FGSM攻擊[14]方法精心制作一個對抗擾動,添加在正常樣本上生成對抗樣本,輸入給分類模型,使得本來以57%置信度分類為大熊貓的圖像被以99%的置信度誤分類為長臂猿。
圖3 圖像對抗樣本的生成Fig.3 Generation of image AE
(1)白盒攻擊和黑盒攻擊
根據(jù)敵手對目標(biāo)模型的先驗知識掌握情況,攻擊可以被分類為白盒攻擊(white-box attack)和黑盒攻擊(black-box attack)。在白盒攻擊中,敵手可以完全訪問目標(biāo)模型的訓(xùn)練數(shù)據(jù)、參數(shù)和結(jié)構(gòu),甚至是防御的參數(shù)和結(jié)構(gòu)。在黑盒攻擊中,敵手并不知道目標(biāo)模型和訓(xùn)練模型的參數(shù),以及防御方法的有關(guān)信息。
(2)目標(biāo)攻擊和無目標(biāo)攻擊
根據(jù)對抗攻擊是否設(shè)置目標(biāo)結(jié)果,攻擊被分為目標(biāo)攻擊(targeted attack)和無目標(biāo)攻擊(non-targeted attack)。目標(biāo)攻擊是敵手旨在誘導(dǎo)目標(biāo)模型將輸入樣本分類為特定目標(biāo)結(jié)果。無目標(biāo)攻擊是敵手旨在誘導(dǎo)目標(biāo)模型將輸入樣本分類為非正常樣本的真實結(jié)果的其他任何結(jié)果。(3)單步攻擊和迭代攻擊
根據(jù)生成對抗樣本的計算復(fù)雜度,攻擊被分為單步攻擊(one-step attack)和多步攻擊(iterative attack)。單步攻擊使用梯度一步計算得到對抗擾動,迭代攻擊利用更多的迭代步驟來制作和微調(diào)對抗擾動。
(4)置信度和類別標(biāo)簽
置信度(confidence)是輸入樣本經(jīng)過模型分類為某種類別的概率。類別標(biāo)簽(class label)指圖片分類模型得到的類別標(biāo)簽結(jié)果。
(5)目標(biāo)模型和替代模型
目標(biāo)模型(target model)是被敵手攻擊的模型。替代模型(substitute model)是一個由敵手設(shè)法訓(xùn)練的模型,用來重現(xiàn)目標(biāo)模型的預(yù)測行為。
(6)對抗樣本的遷移性
對抗樣本的遷移性(transferability)是指對抗樣本在原始被計算的模型之外的模型進行泛化的能力。
(7)數(shù)字攻擊和物理世界攻擊
數(shù)字攻擊(digital attack)是可以完全訪問模型的實際數(shù)字輸入的攻擊。物理世界攻擊(physical-world attack)是攻擊真實世界的系統(tǒng)。
(8)擾動約束度量
由于對于人類視覺系統(tǒng)來說,很難定義一個不易察覺的標(biāo)準(zhǔn),Lp范數(shù)經(jīng)常被用來控制添加到圖像中擾動的大小。L1和L2范數(shù)分別表示正常圖像和對抗圖像在輸入空間中的曼哈頓距離和歐幾里德距離,L0范數(shù)表示對抗圖像在正常圖像中修改的像素數(shù)量,L∞范數(shù)衡量的是正常圖像和對抗圖像之間對應(yīng)位置上所有像素的最大差異。
本章主要梳理和總結(jié)了深度學(xué)習(xí)圖像分類領(lǐng)域?qū)箻颖镜南嚓P(guān)攻擊方法,總體上按白盒和黑盒兩大類攻擊進行介紹,最后為了強調(diào)物理世界中對抗樣本的嚴(yán)峻性,回顧了相關(guān)研究工作。圖4根據(jù)敵手對模型的不同訪問程度描述了攻擊的大致分類。在本章中,白盒(基于梯度的)攻擊和黑盒(基于遷移的、基于置信度分數(shù)的和基于決策邊界的攻擊)會被詳細地介紹。表1和表2中對白盒攻擊進行了總結(jié)和分析。
表1 對抗樣本的攻擊方法總結(jié)Table 1 Summarization of adversarial attack methods
表2 對抗攻擊方法分析Table 2 Analysis of adversarial attack methods
圖4 敵手對模型不同訪問程度的攻擊類別分類Fig.4 Classification of attack categories of adversaries with different access degrees to model
本節(jié)根據(jù)對抗樣本的制作機理,將白盒攻擊總結(jié)為3個方向進行介紹分別是:基于梯度的攻擊、基于優(yōu)化的攻擊和其他的白盒攻擊方法。
2.1.1 基于梯度的攻擊
基于梯度的攻擊算法主要利用目標(biāo)模型關(guān)于給定輸入的梯度信息來尋找一個使模型損失值更大的對抗擾動,從而使加入該對抗擾動的正常圖像導(dǎo)致模型誤分類,這種攻擊方式在文獻中使用得最多。由于基于梯度的攻擊通常需要獲取目標(biāo)模型內(nèi)部結(jié)構(gòu)的信息,因此絕大多數(shù)基于梯度的攻擊都是白盒攻擊。
Goodfellow等人[14]開創(chuàng)性地提出了基于梯度的單步攻擊方法:快速梯度符號方法(fast gradient sign method,F(xiàn)GSM)。FGSM方法在給定上限范數(shù)約束ε的一次迭代中,沿著正常樣本梯度的反方向添加擾動來最大化目標(biāo)模型的訓(xùn)練損失誤差,降低分類的置信度,增加類間混淆的可能性,使得模型分類錯誤。給定一個輸入圖像x,F(xiàn)GSM根據(jù)公式(2)生成一個對抗樣本x"。FGSM算法簡單有效,在圖像攻擊領(lǐng)域發(fā)揮著重要的作用,很多后續(xù)的研究都是基于該算法進行的。
鑒于單步攻擊的FGSM的擾動較大,成功率較低。Kurakin等人[15]在FGSM方法的原理上進行優(yōu)化,提出了基本迭代攻擊方法(basic iterative method,BIM),有些文獻中也稱為I-FGSM方法(iterative fast gradient sign method),該攻擊在本質(zhì)上是迭代的FGSM算法,將FGSM的單次計算對抗擾動轉(zhuǎn)換為迭代小步計算對抗擾動,BIM攻擊通過迭代公式(3)來生成對抗圖像,該攻擊方法是引入物理世界攻擊的一個有影響力的貢獻。
雖然I-FGSM方法提高了對抗樣本攻擊的成功率,但是該方法生成的對抗圖像容易陷入優(yōu)化的局部極值點,且易過擬合到攻擊模型上,因此會減弱生成的對抗樣本的遷移性。針對該問題,Dong等人[16]在I-FGSM的基礎(chǔ)上添加一個動量項,從而加速了收斂以及避免落入優(yōu)化的局部極小值,形成了MI-FGSM方法(momentum iterative fast gradient sign method),該方法添加動量的巧妙思路解決了以往迭代攻擊的缺點:隨著迭代次數(shù)的增加,黑盒攻擊的可遷移性減弱,該思路不僅增強了對白盒模型的攻擊能力,而且提高了對于黑盒模型的攻擊成功率。MI-FGSM攻擊方法的非定向攻擊可以被歸納為公式(4)所示,其中g(shù)i的初始值為0,且gi使用衰減因子μ累積前i次迭代的梯度,從而穩(wěn)定了梯度的更新。
I-FGSM由于對有效對抗擾動的多次搜索,因此被認為是強大的攻擊之一,但它計算代價高昂。后來,Madry等人[17]提出了投影梯度下降(projected gradient descent,PGD)方法,本質(zhì)是I-FGSM的一種變體,與I-FGSM相比,PGD使用均勻的隨機噪聲初始化,增加攻擊的迭代輪數(shù),并且提出在I-FGSM中對梯度進行投影,而不是對梯度進行裁剪操作。經(jīng)過大量實驗驗證,PGD攻擊被對抗機器學(xué)習(xí)領(lǐng)域頂級學(xué)術(shù)會議的學(xué)者們廣泛認為是最強大的一階攻擊。PGD攻擊的非定向攻擊如公式(5)所示:
雖然基于梯度的攻擊方法在白盒環(huán)境中取得了令人難以置信的成功率,但大多數(shù)現(xiàn)有的基于梯度的攻擊方法在黑盒環(huán)境中往往表現(xiàn)出較弱的可遷移性,特別是在攻擊具有防御機制的模型的情況下。針對該問題,Wang等人[18]提出了VMI-FGSM(variance tuning MI-FGSM)方法,以增強基于梯度的迭代攻擊方法類的可遷移性。具體來說,在梯度計算的每次迭代中,不直接使用當(dāng)前的梯度進行動量積累,而是進一步考慮之前迭代的梯度方差來調(diào)整當(dāng)前梯度,以穩(wěn)定更新方向擺脫糟糕的局部最優(yōu)值。
前邊介紹的基于梯度的攻擊都集中在從整體上擾動圖像,并且限制擾動的L2或者L∞范數(shù),Papernot等人[19]提出JSMA方法(Jacobian-based saliency map attack)則將擾動限制在圖像的一個較小的區(qū)域。JSMA攻擊引入顯著性映射來評估每個輸入特征對模型類預(yù)測的影響,利用該信息來篩選在改變模型預(yù)測時最有影響力的像素,通過擾動一些顯著特征來引起模型的錯誤分類,該攻擊方法傾向于找到稀疏的對抗擾動,生成的對抗樣本的視覺質(zhì)量很高。
綜上所述,目前基于梯度的攻擊中,主要有基于FGSM攻擊進行發(fā)展和改進的路線(I-FGSM、MI-FGSM、PGD、VMI-FGSM),以及基于稀疏性擾動的發(fā)展路線(JSMA等)。FGSM計算成本低,但是生成的對抗擾動通常比迭代攻擊(例如I-FGSM、MI-FGSM、PGD、VMI-FGSM等)生成的對抗擾動更大,生成的對抗樣本的視覺質(zhì)量較差,并且對模型的欺騙效果更差。MI-FGSM和PGD都改進了I-FGSM方法,MI-FGSM在優(yōu)化過程中使用動量,增強了對抗樣本的可遷移性,PGD嘈雜的初始點和投影梯度產(chǎn)生了更強的攻擊,VMI-FGSM改進MIFGSM,使用梯度的方差調(diào)整更新,進一步增強了對抗樣本的可遷移性。
2.1.2 基于優(yōu)化的攻擊
生成對抗樣本的核心問題是如何找到有效的對抗擾動,尋找對抗擾動可以被形式化為一個優(yōu)化問題,因此可以通過對優(yōu)化問題的求解來實現(xiàn)攻擊。通常來說,基于優(yōu)化的攻擊相比于基于梯度的攻擊生成的對抗擾動添加在正常圖像上視覺效果要好,并且生成的擾動范數(shù)更小,但相比基于梯度的方法更耗時。
2014年Szegedy等人[7]首次發(fā)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)模型在對抗擾動下的脆弱性,首次引入對抗樣本的概念,其工作是對抗樣本領(lǐng)域的開山之作,文中提出了L-BFGS攻擊算法,通過尋找導(dǎo)致神經(jīng)網(wǎng)絡(luò)誤分類的最小損失函數(shù)加性擾動項,將問題轉(zhuǎn)化為凸優(yōu)化問題,形式化為公式(6)所示的優(yōu)化問題來尋找對抗擾動。L-BFGS攻擊尋找人類感知最小的對抗擾動,因此生成對抗擾動的計算開銷很大,速度很慢,并且攻擊的成功率不高。文中也證明了對抗樣本在不同的深度神經(jīng)網(wǎng)絡(luò)分類模型之間具有很好的遷移性。
Carlini和Wagner[20]提出了基于優(yōu)化的相對較強的一階攻擊CW攻擊,本質(zhì)是基于L-BFGS攻擊的改進,具體的CW攻擊相對于L-BFGS攻擊有以下三個改進:(1)使用模型中實際輸出的梯度,而不是經(jīng)過softmax操作后的梯度。(2)應(yīng)用不同的擾動約束度量L0、L2、L∞范數(shù)。(3)應(yīng)用不同的目標(biāo)函數(shù)?(·),通過實驗分析選擇出了最優(yōu)的目標(biāo)函數(shù)來生成對抗樣本。相比L-BFGS攻擊,CW方法可以改變目標(biāo)函數(shù)中的超參數(shù)來擴大最優(yōu)解的搜索空間,進而顯著提高對抗攻擊的成功率。由于CW攻擊需要對算法的一些參數(shù)進行優(yōu)化,速度極慢,并且不具有黑盒可遷移性,但是一種非常強的白盒攻擊方法,可以攻破防御性蒸餾防御方法。
稀疏的對抗攻擊只擾動幾個像素來欺騙深度神經(jīng)網(wǎng)絡(luò)。與逐像素的整體擾動相比,高度稀疏的對抗攻擊更危險,因為不易被人眼所察覺。Zhu等人[21]通過提出一種同倫(homotopy)優(yōu)化算法在一個統(tǒng)一的框架內(nèi)同時解決了對抗擾動的稀疏性和擾動約束問題。同倫攻擊(homotopy-attack)方法利用不同區(qū)域的特性,施加不同程度的L∞范數(shù)擾動上界,其中該上界的計算依賴于不同坐標(biāo)軸的像素飽和度水平,以最小化地對抗樣本與正常樣本之間的L0距離。實驗表明該方法與最先進的方法相比,可以產(chǎn)生非常稀疏的對抗擾動,同時保持相對較低的擾動強度。
2.1.3 其他白盒攻擊方法
除了基于梯度和基于優(yōu)化的攻擊方法外,活躍的研究者們還想出了DeepFool和UAP這種基于超平面思想的攻擊方法,以下將簡要介紹。
為了解決FGSM攻擊中擾動大小ε不確定的問題,Moosavi-Dezfooli等人[22]提出DeepFool方法,該方法思路是計算正常樣本和目標(biāo)模型分類邊界之間最小距離來生成對抗擾動,該方法是一種基于L2范數(shù)的非目標(biāo)攻擊方法,該方法巧妙利用以直代曲、化繁就簡、迭代解決的思路,將正常圖像周圍的類邊界線性化,形成一個凸多面體,然后向最優(yōu)方向更新一小步,將正常圖像推向最近的分類超平面,直到其跨過分類超平面改變類標(biāo)簽,具體如圖5所示。由于DeepFool攻擊產(chǎn)生近似最小擾動,因此生成的擾動相比于基于梯度和基于優(yōu)化的攻擊方法都要小,相比于基于優(yōu)化的攻擊方法速度更快。
圖5 DeepFool分類超平面示例Fig.5 DeepFool classification hyperplane example
上邊介紹的對抗攻擊生成的對抗擾動僅可以在特定的圖像上欺騙目標(biāo)模型,是否存在圖像上的通用對抗擾動呢?Moosavi-Dezfooli等人[23]經(jīng)過研究提出了UAP(universal adversarial perturbations),攻擊者只需在相同分布的所有樣本中添加UAP算法生成的擾動即可生成對抗樣本。UAP方法利用分類超平面思想依次迭代推導(dǎo)出每個樣本的擾動向量Δνi,將Δνi進行聚合,最終產(chǎn)生一個擾動ν讓所有的樣本xi跳出分類決策邊界Ri之外生成對抗樣本,如圖6所示。
圖6 通用對抗擾動示意圖Fig.6 Schematic diagram of UAP
從現(xiàn)實的對抗的角度來看,黑盒攻擊是最實用的一類,因為黑盒攻擊假設(shè)不了解目標(biāo)模型相關(guān)的信息,它的實用性使得在對抗機器學(xué)習(xí)社區(qū)中非常受歡迎。本節(jié)總結(jié)和梳理形成了3個方向的黑盒攻擊方法,主要是:基于遷移的攻擊、基于置信度分數(shù)查詢的攻擊和基于決策邊界的攻擊。表1和表2中對黑盒攻擊進行了總結(jié)和分析。
2.2.1 基于遷移的攻擊
基于遷移的攻擊允許攻擊者進行目標(biāo)模型的查詢和訪問目標(biāo)模型的一部分訓(xùn)練數(shù)據(jù)集,然后攻擊者使用這些信息構(gòu)建一個合成模型,攻擊者在合成模型上使用白盒攻擊生成對抗樣本,最后將該對抗樣本遷移到目標(biāo)模型上進行攻擊。基于遷移的攻擊是介于黑盒攻擊和白盒攻擊之間的一種攻擊。這種攻擊的條件假設(shè)較強,因此不貼合真實場景,對抗樣本更好的可遷移性是基于遷移的攻擊研究的一個重要目標(biāo)。
Papernot等人[24]提出了最早的黑盒攻擊被稱為本地替代模型攻擊(local substitute model attack,LSMA),在該攻擊中,敵手被允許訪問用于訓(xùn)練分類模型的部分原始訓(xùn)練數(shù)據(jù)以及對分類模型的查詢訪問。LSMA攻擊通過生成替代模型(substitute model)來模擬被攻擊模型的近似決策邊界,并基于當(dāng)前的替代模型生成對抗樣本,這些對抗樣本最終被用于攻擊原始目標(biāo)模型。在訓(xùn)練過程中,雅可比矩陣(Jacobian matrix)被用來有效利用,以減少目標(biāo)模型的查詢次數(shù)。LSMA方法使梯度掩蔽防御策略無效,因為它不需要梯度信息。
后來,Liu等人[25]在LSMA方法中引入了集成(ensemble)的思想,即同時選擇多個模型并結(jié)合其損失值來生成相應(yīng)的對抗樣本。該方法考慮了不同模型之間決策邊界的相似性,從而首次實現(xiàn)了在不同模型之間大范圍遷移對抗性樣本的目標(biāo)。
Shi等人[26]為了增強黑盒攻擊場景下對抗樣本的多樣性和可遷移性,受MI-FGSM攻擊方法的啟發(fā),提出了Curls&Whey黑盒攻擊方法。Curls&Whey攻擊方法通過在替代模型上生成對抗樣本,然后運用在黑盒模型中,主要包含兩個步驟:(1)利用卷曲迭代法(curls iteration)沿梯度上升方向或下降方向添加對抗擾動到原始正常圖像,優(yōu)化迭代軌跡多樣性和適應(yīng)性。(2)Whey優(yōu)化主要用來在對抗樣本中去除過多的冗余對抗擾動,提升了對抗圖像的視覺質(zhì)量。
此外,Huang和Zhang[27]結(jié)合了基于遷移和基于置信度分數(shù)的攻擊思想提出了TREMBA。該方法首先通過替代模型在白盒攻擊中生成一個初始的對抗樣本,然后以這個初始的對抗樣本為搜索起點,繼續(xù)使用基于置信度分數(shù)的攻擊方法進行查詢,最后迭代出遷移效果較好的對抗樣本。這種方法有效減少了查詢次數(shù),同時提高了黑盒攻擊的成功率。
在過去提出的攻擊中,分類模型對圖片中的像素點一視同仁,沒有區(qū)別對待,學(xué)到了很多缺乏遷移性的噪聲特征,這很容易導(dǎo)致局部最優(yōu)。Wang等人[28]提出了特征重要性感知攻擊(feature importance-aware attack,F(xiàn)IA),用梯度來表示特征的重要性,通過抑制重要特征和促進瑣碎特征來優(yōu)化加權(quán)特征映射,使模型決策錯誤,從而獲得更強的可遷移性對抗樣本。
2.2.2 基于置信度分數(shù)查詢的攻擊
基于置信度分數(shù)查詢的攻擊相對于基于遷移的攻擊擁有更強的假設(shè),不需要任何關(guān)于數(shù)據(jù)集的知識,它會反復(fù)查詢看不見的分類器,得到分類器輸出的置信度向量,以嘗試生成合適的對抗擾動來完成攻擊?;谥眯哦确謹?shù)查詢的攻擊相對于基于遷移的攻擊更加符合現(xiàn)實場景。
Chen等人[29]開創(chuàng)性地發(fā)展了基于梯度估計的黑盒攻擊方法,即零階優(yōu)化(zeroth order optimization,ZOO)來估計目標(biāo)模型的梯度,以此來生成對抗圖像。ZOO方法受CW方法的啟發(fā),其優(yōu)化的方案一致,由于黑盒攻擊方法,不能獲得模型梯度,因此使用對稱差商的零階優(yōu)化方法來估計梯度和Hessian矩陣,如公式(7)所示。因為深度學(xué)習(xí)中輸入樣本的維度較高,因此ZOO方法的近似計算開銷較大,需要較多的模型查詢次數(shù),后續(xù)的研究工作也都進一步朝著降低計算開銷的方向改進。
為了解決ZOO攻擊方法的估算梯度開銷較大的問題,Ilyas等人[30]巧妙利用投影梯度下降(PGD)和自然進化策略(natural evolution strategies,NES),估算梯度來降低置信度獲取成本,在黑盒場景下構(gòu)造對抗樣本,成功地攻擊了當(dāng)時谷歌的云視覺API。
為了進一步地降低置信度分數(shù)的獲取成本以及加快梯度的估算速度,Tu等人[31]提出了基于自動編碼器的零階優(yōu)化方法(autoencoder-based zeroth order optimization method,AutoZOOM),該方法是一個通用的查詢效率高的黑盒攻擊框架,它可以在黑盒場景下有效地產(chǎn)生對抗性樣本。AutoZOOM利用自適應(yīng)隨機梯度估計策略來降低查詢的次數(shù)和減小擾動的失真度,同時,使用未標(biāo)記的數(shù)據(jù)離線訓(xùn)練自動編碼器,從而加快了對抗性樣本的生成速度。AutoZOOM方法與標(biāo)準(zhǔn)的ZOO攻擊方法相比,可以大大減少模型的查詢次數(shù),同時保持攻擊的有效性以及對抗性樣本的視覺質(zhì)量較高。
Su等人[32]提出的One-pixel攻擊和前邊介紹的JSMA攻擊一樣,將對抗擾動限制在圖像較小的區(qū)域內(nèi),只需要擾動幾個或單個像素點便可以獲得較好的攻擊效果。為了提高攻擊像素點的查找效率,引入了差分進化(differential evolution)的查找策略,使得攻擊簡單高效。
Du等人[33]提出了meta attack,該攻擊使用基于自動編碼器結(jié)構(gòu)的元學(xué)習(xí)來近似梯度,并使用爬蟲元學(xué)習(xí)(reptile meta-learning)訓(xùn)練方法進行訓(xùn)練,通過訓(xùn)練元攻擊者并將其納入優(yōu)化過程,該方法可以在不降低攻擊成功率和失真度的情況下大幅減少所需的查詢次數(shù)。
最近,Ma等人[34]提出了查詢更加高效的simulator attack,其主要做法是訓(xùn)練一個模擬器(simulator),其中基于知識蒸餾(knowledge distillation)的均方誤差損失函數(shù)被應(yīng)用于元學(xué)習(xí)中的內(nèi)部和外部更新,以學(xué)習(xí)許多不同網(wǎng)絡(luò)模型的輸出,從而可以模擬任何未知模型的輸出。一旦訓(xùn)練完成,模擬器只需要少量的查詢數(shù)據(jù)進行微調(diào),就可以準(zhǔn)確地模擬未知網(wǎng)絡(luò)的輸出,這使攻擊需要的大量查詢轉(zhuǎn)移到模擬器上,有效地降低了攻擊中目標(biāo)模型的查詢次數(shù),使得攻擊更加符合現(xiàn)實場景。
2.2.3 基于決策邊界的攻擊
基于決策邊界的攻擊既不依賴于替代模型,也不需要置信度分數(shù)向量。相比于基于置信度分數(shù)查詢的攻擊,基于決策的攻擊代表了一個更受限制的對抗場景,即只需要來自黑盒分類器輸出的類別標(biāo)簽便可以成功攻擊。這種攻擊更加符合真實世界的場景,因此更具研究價值,但攻擊難度更大,通常需要較多的查詢次數(shù)。
為了更加符合現(xiàn)實世界中的黑盒場景限制,Brendel等人[35]提出了基于決策邊界的攻擊的開山之作Boundary Attack,該攻擊只依賴于分類模型輸出的類別標(biāo)簽,無需梯度或者置信度分數(shù)等信息。Boundary Attack生成對抗樣本的具體的示例如圖7所示,Boundary Attack的思路是尋找與原始圖像x相似的對抗圖像x",主要的做法是反復(fù)擾動一個初始對抗圖像x0",x0"和x屬于不同的類別,然后沿著x和x0"所屬類別之間的決策邊界進行隨機游走,使用拒絕采樣進行優(yōu)化,僅需要對對抗圖像x"i查詢模型輸出的類別標(biāo)簽,直到最小化原始圖像x和對抗圖像x"之間的距離度量d(x,x")即可生成對抗圖像。由于拒絕采樣優(yōu)化方式的蠻力性質(zhì),因此Boundary Attack需要較多的迭代搜索次數(shù)(例如數(shù)十萬次迭代)才能找到高質(zhì)量的對抗圖像,因此后來對于Boundary Attack的研究主要集中在如何找到更小擾動值的搜索方向和如何加快其搜索速度兩個方面的工作。
圖7 邊界攻擊的示意圖Fig.7 Schematic diagram of boundary attack
為了提高攻擊的查詢效率,Cheng等人[36]提出了基于決策邊界的Opt-Attack,由于只能獲得目標(biāo)模型輸出的類別標(biāo)簽,因此攻擊的目標(biāo)函數(shù)不是連續(xù)的,故難以進行優(yōu)化,作者等人重新將問題形式化為實數(shù)值優(yōu)化問題,使得目標(biāo)函數(shù)變得連續(xù),因此可以使用任何的零階優(yōu)化算法求解,解決了Boundary Attack需要超多次的模型查詢以及無法保證收斂性的問題,使得攻擊具有更高的查詢效率。
Chen等人[37]為了解決邊界攻擊的查詢次數(shù)較多的問題,提出了一種基于決策邊界的攻擊HSJA(hop skip jump attack),HSJA攻擊在Boundary Attack的基礎(chǔ)上進行改進,由于在模型決策邊界的邊緣實現(xiàn)了梯度估計技術(shù),解決Boundary Attack的查詢次數(shù)較多的問題,因此可以更有效地生成對抗樣本,具有較高的成功率和較低的查詢次數(shù)。
減少基于決策邊界的攻擊所需的查詢次數(shù)的挑戰(zhàn)是如果不進行多次查詢,就很難探索高維數(shù)據(jù)的決策邊界。Li等人[38]提出QEBA(query-efficient boundary-based blackbox attack)試圖通過向圖像添加擾動來生成查詢,從而減少所需的查詢次數(shù)。因此,探測決策邊界被簡化對每個生成的查詢搜索一個更小的、有代表性的子空間,基于子空間的梯度估計與原始空間的估計相比是最佳的。QEBA大大減少了模型所需的查詢次數(shù),針對離線模型和現(xiàn)實世界中的在線API均能產(chǎn)生高質(zhì)量的對抗樣本。
Li等人創(chuàng)新性地克服了黑盒攻擊的梯度不可獲得,提出了一種查詢高效的NonLinear-BA[39](nonlinear black-box attack)方法,該方法是一種基于非線性梯度投影的邊界黑盒攻擊,通過利用矢量投影進行梯度估計。高維梯度估計的計算成本很高,需要大量的查詢,NLBA將梯度投射到低維的支持物上,極大地提高了估計效率,可以高效地生成對抗樣本。
本文第2.1和2.2節(jié)詳細介紹了在實驗室環(huán)境下數(shù)字世界的白盒和黑盒的關(guān)于圖像分類場景下的對抗攻擊方法,人工智能研究社區(qū)很多樂觀的研究者認為對抗樣本僅能存在于數(shù)字世界中,物理世界中受光照條件、距離、拍攝角度、曝光程度、設(shè)備差異以及標(biāo)志遮擋等諸多因素都會導(dǎo)致對抗樣本的失效,確實第2章中的很多對抗攻擊方法直接用在物理世界中的攻擊效果大多都不理想,但不幸的是,人工智能安全研究者經(jīng)過研究發(fā)現(xiàn)對抗樣本在物理世界中也能成功地攻擊深度學(xué)習(xí)模型。因此,本節(jié)從自動駕駛、通用目標(biāo)檢測以及圖像分類等方面梳理了物理世界中對抗樣本的工作,以期為后續(xù)的研究者提供一些研究靈感。表1對物理世界中的對抗樣本攻擊進行了總結(jié)。
Eykholt等人[40]在無人駕駛系統(tǒng)中提出了一種在物理世界中生成對抗擾動的白盒攻擊方法,被稱為魯棒物理擾動(robust physical perturbations,RP2),該方法在一系列的動態(tài)物理環(huán)境中產(chǎn)生魯棒的對抗擾動,其中動態(tài)物理環(huán)境包括距離、角度和分辨率等物理條件的變化,該方法在無人駕駛系統(tǒng)的道路標(biāo)識識別系統(tǒng)中實現(xiàn)了很高的欺騙率。文中采用兩種方法攻擊路標(biāo)分類模型,分別是海報(poster)攻擊和貼紙(sticker)攻擊,如圖8所示從左圖到右圖依次為兩種類型的攻擊方法,深度學(xué)習(xí)模型的分類模型會將“停車”路標(biāo)識別為限速“60 km/h”的路標(biāo),這些黑白貼紙模仿了生活中常見的涂鴉,不容易引起人們的注意,具有很強的隱蔽性,這給使用深度學(xué)習(xí)模型的無人駕駛系統(tǒng)帶來了巨大挑戰(zhàn),可能會導(dǎo)致嚴(yán)重的交通事故。
圖8 無人駕駛系統(tǒng)的兩種路牌識別攻擊Fig.8 Two types of road sign recognition attacks for autonomous driving systems
Kong等人[41]提出一種基于GAN[47]的PhysGAN方法來生成范數(shù)約束的對抗圖像,打印后的圖像顯示出對物理世界條件的魯棒性,例如光照條件、視角等變化。PhysGAN方法專門被設(shè)計用來欺騙無人駕駛車的轉(zhuǎn)向模型,該模型是一個基于回歸公式的角度預(yù)測問題。PhysGAN計算駕駛視頻的視覺特征流的擾動,但忽略場景的背景,這樣的策略允許對動態(tài)場景條件進行有效的擾動,從而避免了文獻[40]中靜態(tài)場景假設(shè)的需要。
保證自動駕駛安全的重要感知系統(tǒng)主要由攝像機和激光雷達等組成,以往的對抗攻擊的研究大多集中在基于攝像頭的感知上,基于激光雷達(LiDAR)感知的探索很少。Cao等人[42]首次展示了激光雷達在白盒場景下實現(xiàn)的假點欺騙(fake point spoofing)攻擊,該攻擊在模擬場景中取得了很好的攻擊效果,然而在真實的道路場景中,實現(xiàn)該攻擊需要將攻擊裝置動態(tài)地對準(zhǔn)受害者汽車上的激光雷達,因此對激光發(fā)射裝置的精度要求非常高。同年內(nèi),Cao等人[43]使用基于梯度的優(yōu)化方法,即LiDAR-Adv攻擊方法生成一個3D可打印的物理對抗物體,可以導(dǎo)致激光雷達無法檢測到打印出的3D對抗物體,因此給激光雷達系統(tǒng)檢測障礙物帶來了新的挑戰(zhàn)。
Thys等人[44]成功地將對抗樣本攻擊應(yīng)用到目標(biāo)檢測模型中,提出了一種行人檢測攻擊(pedestrian detection attack),在白盒環(huán)境下,作者使用對抗補?。╝dversarial patch)攻擊部署的YOLOv2[48]目標(biāo)檢測器,具體做法是使用40×40大小的對抗補丁貼在人的身上,就可以成功避開目標(biāo)檢測器的檢測,具體的示例如圖9所示,圖像左邊沒有對抗補丁的人被目標(biāo)檢測器成功檢測出來,圖像右邊拿著對抗補丁的人成功地攻擊了目標(biāo)檢測器,使其被目標(biāo)檢測器忽略掉。
圖9 利用對抗補丁的行人檢測攻擊Fig.9 Pedestrian detection attacks using adversarial patches
Ho等人[49]實驗研究表明,在對物理世界的物體進行成像時,隨著相機的抖動和姿勢的變化,可以獲得輕易騙過深度學(xué)習(xí)模型的圖像,該研究中擾動的不可感知性通過語義的形式呈現(xiàn),即上下文的不可感知性圖像中的抖動和姿勢看起來很自然,不易被人察覺。
對抗補丁攻擊[45]也是一種發(fā)動物理世界攻擊的有效方法,一個對抗補丁通常是一個清晰可見的圖案,它可以放置在被攻擊對象旁邊從而導(dǎo)致模型輸出錯誤的結(jié)果,具體效果如圖10(c)所示,在桌子上香蕉的旁邊放置對抗補丁,圖像分類模型以很高的置信度將香蕉誤分類為烤面包機。近來,Duan等人[46]提出了一種基于神經(jīng)風(fēng)格遷移技術(shù)[50]的AdvCam方法來計算不受約束的擾動,這種擾動以偽裝目標(biāo)對象的形式來進行物理世界的攻擊,該方法能夠生成比先前工作[40]如圖10(a)和文獻[45]如圖10(c)更隱秘的擾動,因為生成的擾動對人眼來說更自然,如圖10(b)所示[46],AdvCam方法以偽裝自然污漬的形式對停車標(biāo)志添加對抗擾動來攻擊深度學(xué)習(xí)分類模型,如圖10(d)所示[46],AdvCam方法在香蕉旁邊以偽裝產(chǎn)品標(biāo)簽的形式來達到攻擊的目的。AdvCam方法生成的物理世界的對抗擾動不僅具有很強的隱蔽性,同時對物理世界的各種條件具有很強的魯棒性和適應(yīng)性。
圖10 三種物理世界對抗攻擊的效果Fig.10 Effect image of three physical worlds adversarial attack
對抗樣本自發(fā)現(xiàn)以來,就受到研究人員的廣泛關(guān)注,文獻中有大量的假設(shè)來解釋深度神經(jīng)網(wǎng)絡(luò)的對抗脆弱性,但是很多的解釋都不能很好地泛化,并且很多解釋之間互相沖突,到目前為止,對于對抗樣本存在的原因還沒有達成共識。研究人員普遍認為對抗樣本現(xiàn)象仍未被充分地理解,關(guān)于其成因方面的工作仍然具有吸引力,本章回顧和梳理了該方向的貢獻和主要的假設(shè)。
(1)高維非線性假設(shè)
Szegedy等人[7]認為對抗樣本是數(shù)據(jù)流形(data manifold)上形成的低概率的盲區(qū)(pockets),這些盲區(qū)通常很難通過簡單的隨機抽樣被找到,他們認為難以采樣的盲區(qū)正是深度神經(jīng)網(wǎng)絡(luò)的高度非線性導(dǎo)致的,因此模型的泛化能力較差,如圖11所示,樣本空間中的類別?和+被分類模型很好地分開,但是每個類別的每個元素周圍都密布著另外一個類別的元素,因為低概率的對抗性盲區(qū)密集地分布在圖像空間中。Gu等人[51]和Song等人[52]認為這種盲區(qū)的出現(xiàn)主要是由于目標(biāo)函數(shù)、訓(xùn)練過程以及訓(xùn)練樣本的多樣性和數(shù)據(jù)集的規(guī)模受限等的一些缺陷導(dǎo)致的,進而導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型的泛化性較差。
圖11 對抗樣本存在的非線性解釋Fig.11 Non-linear explanation for existence of AE
(2)線性假設(shè)
Goodfellow等人[14]的假設(shè)與Szegedy等人的非線性假設(shè)相反,他們認為深度神經(jīng)網(wǎng)絡(luò)中對抗樣本的存在恰恰是線性原因?qū)е碌模捎谏疃壬窠?jīng)網(wǎng)絡(luò)學(xué)習(xí)高維特征空間的映射,因此在輸入上的微小擾動經(jīng)過高維空間的變換后會導(dǎo)致最終的輸出結(jié)果大相徑庭。Fawzi等人[53]表明神經(jīng)網(wǎng)絡(luò)模型的對抗魯棒性是獨立于訓(xùn)練過程的,深度神經(jīng)網(wǎng)絡(luò)表示的高階模型中類別之間的距離比線性分類器更大,他們認為更深層次的模型中更難找到對抗樣本,這種解釋也與Szegedy等人的非線性假設(shè)相違背。除此之外也有研究結(jié)果與線性假設(shè)相反,Tabacof等人[54]發(fā)現(xiàn)對抗樣本現(xiàn)象可能是一個更復(fù)雜的問題,實驗結(jié)果表明淺層的模型比深層模型更容易受到對抗樣本的影響。雖然有些研究對線性假設(shè)提出了批評,但一些相關(guān)的攻擊(例如FGSM[14]和DeepFool[22])和防御(例如thermometer encoding[55])都是建立在線性假設(shè)的基礎(chǔ)上的。
(3)邊界傾斜假設(shè)
Tanay等人[56]否定了Goodfellow等人提出的線性假設(shè),認為其不充分且沒有說服力,他們提出了一個邊界傾斜假設(shè)來解釋對抗樣本現(xiàn)象,具體的假設(shè)是深度神經(jīng)網(wǎng)絡(luò)雖然學(xué)習(xí)能力很強,但是通常學(xué)到的訓(xùn)練數(shù)據(jù)的類邊界與訓(xùn)練數(shù)據(jù)的數(shù)據(jù)流形并非完全重合,而是存在一個傾斜的角度,因此在正常樣本上添加的微小擾動容易導(dǎo)致對抗樣本的產(chǎn)生。隨著傾斜度的降低,所需的擾動量也更小,生成的對抗樣本也具有更高的置信度和誤導(dǎo)率,作者認為這種效果可能是模型過擬合的結(jié)果,如圖12展示了邊界傾斜假設(shè)的示意圖,對抗樣本存在于傾斜的邊界之間,即訓(xùn)練數(shù)據(jù)學(xué)到的類邊界和訓(xùn)練數(shù)據(jù)的數(shù)據(jù)流形之間。
圖12 對抗樣本存在的邊界傾斜解釋Fig.12 Boundary tilting explanation for existence of AE
(4)高維流形假設(shè)
Gilmer等人[57]、Mahloujifar等人[58]、Shafahi等人[59]和Fawzi等人[60]一致認為對抗樣本現(xiàn)象是數(shù)據(jù)流形高維性導(dǎo)致的結(jié)果,為了提供證據(jù),Gilmer等人創(chuàng)建了一個合成數(shù)據(jù)集來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,以便更好地控制實驗,模型被訓(xùn)練好以后,作者觀察到被模型正確分類的輸入接近于附近被錯誤分類的對抗性輸入,基于該實驗結(jié)果Gilmer等人否認對抗樣本和正常樣本的數(shù)據(jù)分布不同的假設(shè)[52,61]。
(5)缺乏足夠的訓(xùn)練數(shù)據(jù)
Schmidt等人[62]認為經(jīng)過訓(xùn)練學(xué)習(xí)到的模型必須具有很強的泛化性,需要借助魯棒優(yōu)化實現(xiàn)對抗魯棒性。作者觀察到對抗樣本的存在并非神經(jīng)網(wǎng)絡(luò)分類模型的缺陷,而是統(tǒng)計學(xué)習(xí)的場景下無法避免的結(jié)果,迄今為止仍然沒有可行的策略來實現(xiàn)模型的對抗魯棒性。作者通過實驗認為現(xiàn)存的數(shù)據(jù)集規(guī)模太小,不足以支撐訓(xùn)練魯棒的神經(jīng)網(wǎng)絡(luò)模型。
(6)非魯棒特征的假設(shè)
Ilyas等人[63]提出了一種不同的假設(shè)解釋,他們認為對抗樣本是神經(jīng)網(wǎng)絡(luò)的基本數(shù)據(jù)特征,而不是沒有根據(jù)的錯誤。他們證明了對抗樣本的存在可以歸因于非魯棒的特征,與標(biāo)準(zhǔn)訓(xùn)練框架無關(guān),這與研究人員普遍認為的結(jié)論相反。非魯棒的特征在數(shù)據(jù)集中普遍存在,這些特征有可能是深度學(xué)習(xí)模型實現(xiàn)更高準(zhǔn)確性的有效來源。作者研究還證明了解耦魯棒和非魯棒特征的可能性,并且表明魯棒的特征比非魯棒的特征更加符合人類的感知。
對抗樣本的存在嚴(yán)重威脅了深度學(xué)習(xí)模型在現(xiàn)實場景中的大量應(yīng)用,甚至打擊了研究者對于深度學(xué)習(xí)前景的信心。幸運的是,自對抗樣本發(fā)現(xiàn)以來有許多研究工作來針對對抗攻擊進行防御,總結(jié)起來可以大致分為4個大的方向:增強模型魯棒性的防御、輸入預(yù)處理的防御、對抗樣本的檢測防御和可驗證魯棒性的防御。
4.1.1 對抗訓(xùn)練
對抗訓(xùn)練框架被學(xué)術(shù)界普遍認為是對抗攻擊的最強有力的防御策略,該策略的主要的做法是讓模型在訓(xùn)練過程中暴露在對抗樣本中,以獲得對對抗樣本的免疫力。對抗訓(xùn)練最初在文獻[7]和[14]中使用,Madry等人[17]首次從理論上研究并且通過魯棒優(yōu)化的視角來表述它,隨后很多研究工作專注于對抗訓(xùn)練。
Ding等人[64]指出對抗訓(xùn)練對訓(xùn)練數(shù)據(jù)分布很敏感。Song等人[65]強調(diào)對抗訓(xùn)練有很差的泛化性。對抗訓(xùn)練雖然有不足之處,但仍然被許多研究者關(guān)注。在近來的幾年里,改進對抗訓(xùn)練的多種變體出現(xiàn)。Wang等人[66]提出了MART(misclassification aware adversarial training)方法,將正常樣本的錯誤分類結(jié)果在訓(xùn)練過程中的顯著影響考慮在內(nèi),進一步提升了對抗訓(xùn)練模型的魯棒性。Vivek等人[67]提出了一種dropout調(diào)度方法,用單步方法提高對抗訓(xùn)練的有效性。Song等人[68]提出了對抗訓(xùn)練的魯棒局部特征(robust local features for adversarial training,RLFAT),在訓(xùn)練過程中使用輸入的隨機塊洗牌,提升了對抗訓(xùn)練模型的泛化能力。Zheng等人[69]提出在訓(xùn)練過程的多個迭代中使用相同的對抗擾動,在減少整個訓(xùn)練過程計算量的同時取得可接受的性能,使得對抗訓(xùn)練更加有效。
考慮對抗訓(xùn)練的進一步變體,Dong等人[70]提出了對抗分布訓(xùn)練(adversarial distributional training),該方法也將對抗訓(xùn)練形式化為極大極小化問題,但不同的是內(nèi)部最大化的目的是在熵正則化下學(xué)習(xí)對抗分布,外部的最小化問題使最壞情況下對抗分布的損失最小化。Jia等人[71]提出了可學(xué)習(xí)攻擊策略的對抗訓(xùn)練LAS-AT方法,通過學(xué)習(xí)自動生成攻擊策略,在不同的訓(xùn)練階段采用不同的攻擊策略來提升對抗訓(xùn)練方法的魯棒性。
文獻中關(guān)于對抗訓(xùn)練還有很多側(cè)重于分析對抗訓(xùn)練,而不是設(shè)計其變體。Xie等人[72]報告了對抗訓(xùn)練的一些有趣的特性,其中最引人注意的是對正常圖像和對抗圖像進行單獨的批量歸一化(batch normalization)導(dǎo)致對抗魯棒性的改善,以及不受視覺模型中網(wǎng)絡(luò)深度的限制,更深模型的對抗魯棒性會持續(xù)地改善。Wong等人[73]研究表明,F(xiàn)GSM攻擊結(jié)合隨機初始化的對抗訓(xùn)練相比于PGD攻擊的對抗訓(xùn)練同樣有效。但Andriushchenko等人[74]對FGSM攻擊結(jié)合隨機初始化的對抗訓(xùn)練方面的改進表示了否定。
文獻中還包含對抗訓(xùn)練被使用來滿足特定任務(wù)的需要。Wu等人[75]提出了一種對抗訓(xùn)練方法,該方法中的對抗樣本是專門針對物理世界的攻擊生成的。作者指出,通常用于數(shù)字世界攻擊的對抗訓(xùn)練和隨機平滑對于物理世界的攻擊效果不佳。
4.1.2 其他增強魯棒性的防御
除了對抗訓(xùn)練通過專注于對抗樣本來修改模型的權(quán)重外,還有許多方法通過正常的訓(xùn)練數(shù)據(jù)改變模型的相關(guān)結(jié)構(gòu),從而增強了模型的對抗魯棒性。Pang等人[76]建議使用最大化馬氏中心損失(maxMahalanobis center loss)替換softmax的交叉熵損失,以此來增強模型的對抗魯棒性。Xiao等人[77]提出使用k-Winner-Takes-All(k-WTA)的不連續(xù)激活函數(shù)替換ReLU激活函數(shù),從而保護模型不受基于梯度的攻擊。
基于輸入預(yù)處理的防御旨在通過輸入的變換來清除或者減輕對抗擾動對輸入模型的影響。文獻[78-80]研究了基于JPEG的輸入壓縮來消除圖像中的對抗擾動,經(jīng)過壓縮處理的對抗圖像顯著失去了他們的模型欺騙能力。通常來說,輸入預(yù)處理的防御的優(yōu)點在于它可以很容易與其他防御機制結(jié)合使用,例如與對抗訓(xùn)練模型結(jié)合使用。Raff等人[81]提出將多個輸入變換隨機組合,從而確保他們對自適應(yīng)攻擊的防御,但作者也發(fā)現(xiàn)更多的輸入變換會導(dǎo)致模型在正常圖像上的性能顯著下降。
輸入數(shù)據(jù)的隨機化變換有助于提升對抗魯棒性。Xie等人[82]研究表明隨機調(diào)整對抗樣本的大小會降低攻擊能力,作者還發(fā)現(xiàn)在對抗樣本中添加隨機填充會降低攻擊性能。Wang等人[83]使用單獨的數(shù)據(jù)變換模塊對模型的輸入數(shù)據(jù)進行變換來消除圖像中可能存在的對抗擾動。在文獻[84]中發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中的高斯數(shù)據(jù)增強也有助于提升對抗魯棒性,雖然效果很微小。
Samangouei等人[85]首次使用GAN進行輸入的變換,他們的方法Defense-GAN學(xué)習(xí)正常圖像的分布,在推理階段,它計算一個接近輸入圖像的輸出,來消除潛在的對抗擾動。Gupta等人[86]提出了一種基于去噪的防御,它有選擇地去噪圖像的顯著影響區(qū)域,確保模型正常的輸出結(jié)果。Akhtar等人[87]提出了一種針對通用擾動[23]生成的對抗圖像的防御框架,該框架在目標(biāo)網(wǎng)絡(luò)添加了相關(guān)的預(yù)輸入層,這些預(yù)輸入層被訓(xùn)練來修正經(jīng)過擾動的圖像,從而使得分類器獲得正確的預(yù)測。
檢測防御技術(shù)主要是為預(yù)先訓(xùn)練的模型提供相應(yīng)的機制或者模塊,來檢測對抗樣本,以保護模型免受對抗攻擊。在大多數(shù)情況下,這些方法僅限于在模型的推理階段檢測輸入的對抗樣本的存在。
Xu等人[88]認為輸入特征空間大得過于冗余,因此提出特征壓縮(feature squeezing)機制,通過剔除不必要的輸入特征來減少敵手可用的冗余特征自由度。特征壓縮機制是一種簡單的對抗樣本檢測框架,它將模型對原始正常圖像的預(yù)測與壓縮后的模型預(yù)測進行比較,如果前后兩次的預(yù)測差異高于指定的閾值,則判定該圖像是對抗圖像,因此將被丟棄。作者的工作提出了兩種技術(shù),分別是壓縮顏色位(squeezing color bits)和空間平滑(spatial smoothing),前者可以在不損失太多信息的情況下顯著降低比特深度,后者是一種降低圖像噪聲的處理技術(shù)。
Meng等人[89]提出了神經(jīng)網(wǎng)絡(luò)檢測對抗樣本的框架MagNet,該框架由兩個部分組成,分別是檢測器(detector)和重整器(reformer),前者主要用于拒絕遠離不同類別決策邊界的樣本,后者主要用于給定一個輸入樣本,尋找輸入樣本的近似值,該近似值靠近正常樣本的決策邊界,使用上述的構(gòu)件來進行對抗樣本的檢測。
Liang等人[90]將圖像的對抗擾動視為噪聲,采用標(biāo)量量化和空間平滑濾波檢測對抗擾動。Feinman等人[91]提出利用不確定性估計和在神經(jīng)網(wǎng)絡(luò)的特征空間中執(zhí)行密度估計來檢測對抗擾動。
雖然文獻中有很多防御方法,但隨著后來的研究表明存在更強的攻擊可以擊敗現(xiàn)有的防御方法。盡管對抗訓(xùn)練被研究者廣泛認可是一種相對出色的防御策略,但其也存在缺陷,例如研究發(fā)現(xiàn)在L∞范數(shù)約束的擾動下對抗訓(xùn)練的模型對于Lp范數(shù)約束的擾動下的攻擊仍然很脆弱,其中的p≠∞??沈炞C的魯棒性防御試圖保證在正常圖像的Lp范數(shù)球內(nèi)目標(biāo)模型不存在對抗攻擊可以使模型出錯。這個可驗證的魯棒性保證要么是提供打破給定防御的最小的Lp范數(shù)擾動[92-93],要么是提供范數(shù)的下界[94-96]。還有一些工作,旨在提高網(wǎng)絡(luò)的魯棒性,并推動產(chǎn)生更適合魯棒性驗證技術(shù)的模型[97-98]。目前大多數(shù)的可驗證防御僅能證明針對一種范數(shù)約束擾動的魯棒性,卻很難同時證明針對多種范數(shù)約束擾動的魯棒性,但也存在一些工作可以同時證明針對多種范數(shù)約束擾動的魯棒性[99-100]。
Croce等人[99]對使用ReLU激活函數(shù)的神經(jīng)網(wǎng)絡(luò)提出了一個正則化方法,以此來增強模型對于L1和L∞攻擊的魯棒性,并且表明了它的結(jié)果對于任何的Lp范數(shù)(p≥1)都是可證明的,都能保證構(gòu)建可證明的魯棒模型。相較于為模型的top-1預(yù)測提供可驗證的魯棒性,Jia等人[101]使用高斯隨機平滑(Gaussian randomized smoothing)方法為模型的top-k預(yù)測推導(dǎo)出L2范數(shù)約束擾動下的嚴(yán)格魯棒性,該方法建立在文獻[102]介紹的隨機平滑概念上。Zhai等人[103]也基于隨機平滑的想法提出了一種模型的MACER(maximizing the certified radius)方法,該方法可以擴展到大型模型上。Fischer等人[104]擴展了隨機平滑的概念,將平移、旋轉(zhuǎn)等參數(shù)化轉(zhuǎn)換納入其中,并且驗證了模型在參數(shù)空間的魯棒性。Zhang等人[105]將隨機分類器中的高斯平滑噪聲擴展至非高斯噪聲,他們設(shè)計了一個非高斯的平滑分布族,該工作對L1、L2和L∞攻擊的防御更加有效。文獻[106-107]中研究了更多的針對對抗補丁攻擊[45]的可驗證防御。
近來可驗證魯棒性防御的研究方向在對抗機器學(xué)習(xí)領(lǐng)域逐漸變得熱門起來,吸引了機器學(xué)習(xí)社區(qū)的眾多研究人員的關(guān)注,該領(lǐng)域未來是極有前景的研究方向,必將促進可信機器學(xué)習(xí)領(lǐng)域的進一步的發(fā)展。
綜上所述,對抗樣本的防御可以被分為4個大的方向,表3對其進行了分類總結(jié)。
表3 圖像分類領(lǐng)域?qū)箻颖镜姆烙椒偨Y(jié)Table 3 Summary of adversarial defense methods in image classification field
最近的對抗攻擊方法通常旨在進一步減小對抗擾動的范數(shù)約束大小以及增強黑盒攻擊中對抗樣本的可遷移性,使攻擊對現(xiàn)實場景中更具威脅性。近來的黑盒攻擊研究比較活躍,根據(jù)基于遷移的黑盒攻擊的相關(guān)文獻的報告,它在具有相似網(wǎng)絡(luò)架構(gòu)的模型之間可以更好遷移。基于決策邊界的攻擊相比于基于置信度分數(shù)查詢的攻擊更受歡迎。通常基于置信度分數(shù)查詢的攻擊優(yōu)化兩個相互矛盾的目標(biāo):(1)通過使用更少的查詢次數(shù)獲得更高的錯誤率;(2)限制對抗擾動的范數(shù)約束盡可能得小,以確保不可察覺性。通常基于決策邊界的攻擊最常用的策略是先查詢黑盒模型得到較大的擾動,然后在保持錯誤預(yù)測的同時,通過微調(diào)來減小擾動的范數(shù)。
盡管針對攻擊的防御層出不窮,但對抗機器學(xué)習(xí)社區(qū)公認的相對有前途的防御仍然是對抗訓(xùn)練。比較有趣的是,在對抗樣本的開山之作Szegedy等人[7]的工作中,對抗樣本的概念和對抗訓(xùn)練的概念同時被提出,后來的關(guān)于防御方面的大多數(shù)文獻都偏離了最初的增強模型自身魯棒性的想法,大多防御策略依賴于特定的規(guī)則和啟發(fā)式的方法,因此在更強的攻擊或者不同的攻擊條件下,它們中的許多會被攻破。事實上,Tramer等人[108]表明頂級學(xué)術(shù)會議上的十三種不同的防御措施可以被適應(yīng)性攻擊(adaptive attack)所攻破。對抗機器學(xué)習(xí)社區(qū)從防御角度來看更關(guān)注于對抗訓(xùn)練和可驗證魯棒性的防御上,因為這兩個方向相對來說最有發(fā)展前景,但是也存在經(jīng)過訓(xùn)練的魯棒模型在正常圖像上的精度下降的挑戰(zhàn),在文獻中很容易觀察到一般經(jīng)受住較強攻擊的方法在正常圖像上的精度會降低。
自對抗樣本發(fā)現(xiàn)以來,其論文就如雨后春筍般大量涌現(xiàn),世界各國都推出相應(yīng)的可信人工智能計劃,為構(gòu)建可信人工智能做好了頂層設(shè)計,為人工智能在安全至關(guān)重要場景中的大量應(yīng)用鋪平了道路。由于該領(lǐng)域仍有很多懸而未決的重大挑戰(zhàn),因此可以預(yù)見該方向仍然會是非?;钴S的研究領(lǐng)域,以下將探討一些未來有前景的研究方向。
深度神經(jīng)網(wǎng)絡(luò)在安全關(guān)鍵領(lǐng)域的大量應(yīng)用使得模型需要更好的魯棒性,大多數(shù)的對抗防御策略僅限于經(jīng)驗評估,并不聲稱對未知攻擊具有魯棒性,可驗證魯棒性的防御雖然提供了魯棒性的下限,確保被評估的防御系統(tǒng)的性能不會低于下限,但可驗證魯棒性防御的評估通常缺乏通用性和可擴展性[109],因此研究其通用性和可擴展性是有前景的方向。
在對抗機器學(xué)習(xí)領(lǐng)域,即使在小的數(shù)據(jù)集上,生成高質(zhì)量對抗樣本的計算代價依然很高,因此對于響應(yīng)時間要求很高的應(yīng)用系統(tǒng)來說,攻擊算法的效率至關(guān)重要[110]。對于防御而言,一個優(yōu)秀的防御評估需要測試大量的攻擊,因為計算效率的問題,這些攻擊在給定數(shù)據(jù)集(例如ImageNet數(shù)據(jù)集)上的計算是不可行的,因此設(shè)計強大且高效的攻擊算法勢在必行。
目前存在大量針對經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)攻擊和防御的研究,但鮮有針對新穎網(wǎng)絡(luò)架構(gòu)的研究,例如二值化神經(jīng)網(wǎng)絡(luò)模型(binarized neural networks,BNNs)、神經(jīng)常微分方程模型(neural ordinary differential equations,Neural ODEs)以及在計算機視覺領(lǐng)域越來越受歡迎Transformer模型及其變體。近來的研究指出,BNN模型[111]、Neural ODEs模型[112]以及Transformer模型[113-114]都可以在保證正常樣本上精度的前提下,在對抗魯棒性上超越傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型。雖然有一些積極的結(jié)果,但是并沒有被大家接受的答案來解釋這些模型魯棒性優(yōu)越的根本原因,該方向的深入研究有利于設(shè)計更高效更魯棒的模型,因此是一個充滿希望的研究領(lǐng)域。
基于前文的文獻梳理和總結(jié)可以發(fā)現(xiàn)對抗樣本研究中還存在一些具有挑戰(zhàn)性的研究問題,例如關(guān)于對抗樣本存在性和可遷移性公認的可證明解釋[115],尋找具有內(nèi)在魯棒性的新型網(wǎng)絡(luò)架構(gòu)模型[116],模型對抗魯棒性和準(zhǔn)確性的平衡[117],模型對抗魯棒性和公平性的平衡[118],有前景的對抗訓(xùn)練相關(guān)問題的深入研究[119]以及對抗樣本和可解釋性相結(jié)合方向的研究[120],希望未來有工作可以解決這些有趣且重要的開放問題。
事物都有兩面性,對抗樣本樣本也不例外。近期的許多研究表明對抗樣本也可以有積極的作用。例如對抗樣本被用來進行個人隱私保護[121],被用來生成數(shù)據(jù)或模型水印[122]和指紋[123]保護深度學(xué)習(xí)模型免受知識產(chǎn)權(quán)侵害。對抗樣本也可以被很好地利用來提升不平衡學(xué)習(xí)的性能[124],適當(dāng)設(shè)計的對抗樣本也是有效的數(shù)據(jù)增強工具,可以同時提高模型的泛化性和對抗魯棒性[125]。此外,值得注意的是對抗樣本也可以被用來設(shè)計更加魯棒的文本驗證碼[126]。綜上,在未來的研究中,如何合理地利用對抗樣本來達到“對抗向善”的效果也是一個非常有前景的研究方向。
基礎(chǔ)模型采用與任務(wù)無關(guān)的大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練來進行表征學(xué)習(xí),然后根據(jù)特定下游任務(wù)進行微調(diào)適應(yīng),因為基礎(chǔ)模型的缺陷會被下游的所有適應(yīng)性模型繼承,因此如何將對抗魯棒性納入基礎(chǔ)模型的預(yù)訓(xùn)練,以及如何從預(yù)訓(xùn)練到微調(diào)最大化遷移對抗魯棒性是至關(guān)重要的。Fan等人[127]和Wang等人[128]在元學(xué)習(xí)和對比學(xué)習(xí)中對抗魯棒性保存和遷移方面展示了有前景的結(jié)果?;A(chǔ)模型的快速增長和日益強烈的需求創(chuàng)造了一個獨特的機會,其對抗性魯棒性被倡導(dǎo)作為下一代可信人工智能原生屬性,因此基礎(chǔ)模型對抗魯棒性的研究是一個有前景的研究問題。
對抗樣本的出現(xiàn)影響了深度神經(jīng)網(wǎng)絡(luò)在安全至關(guān)重要領(lǐng)域的部署,導(dǎo)致一些研究者甚至出現(xiàn)了對深度學(xué)習(xí)發(fā)展持悲觀的態(tài)度,從目前來看,對抗樣本的痛點似乎要長期留在深度學(xué)習(xí)研究中,解決對抗樣本問題仍然任重而道遠。
本文旨在總結(jié)和梳理對抗樣本在圖像分類領(lǐng)域的攻擊和防御方法,以期促進對抗機器學(xué)習(xí)領(lǐng)域構(gòu)建更加可信、更加魯棒的深度學(xué)習(xí)模型。為了增強研究人員對現(xiàn)實世界中的對抗樣本的重視,簡單梳理了物理世界中的對抗樣本。對抗樣本為什么會存在這個問題,迄今為止沒有達成一個有理論依據(jù)的統(tǒng)一共識,這仍然是一個有趣且具有挑戰(zhàn)性的問題,因此梳理和總結(jié)了解釋對抗樣本存在性相關(guān)的工作,以期為后續(xù)的研究者解決該問題提供一些概況和靈感。最后,基于梳理的大量文獻,思考和分析了對抗樣本的總體發(fā)展趨勢和面臨的挑戰(zhàn)以及未來研究展望。