亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于通用逆擾動(dòng)的對(duì)抗攻擊防御方法

        2023-10-30 10:13:52陳晉音吳長安鄭海斌
        自動(dòng)化學(xué)報(bào) 2023年10期
        關(guān)鍵詞:優(yōu)化效果方法

        陳晉音 吳長安 鄭海斌 王 巍 溫 浩

        隨著計(jì)算機(jī)硬件計(jì)算力的發(fā)展,深度學(xué)習(xí)技術(shù)[1]憑借其良好的性能和較強(qiáng)的擬合能力廣泛應(yīng)用于計(jì)算機(jī)視覺[2]、自然語言處理[3]、語音識(shí)別[4]、工業(yè)控制[5]等領(lǐng)域.然而,近期研究發(fā)現(xiàn),深度學(xué)習(xí)模型容易受到精心制作的微小擾動(dòng)的影響[6].對(duì)抗攻擊可以定義為:在模型測(cè)試階段,攻擊者通過在原始數(shù)據(jù)上添加精心設(shè)計(jì)的微小擾動(dòng)得到對(duì)抗樣本,從而使得深度學(xué)習(xí)模型完全失效并以較高置信度誤判的惡意攻擊.在應(yīng)用深度模型的各個(gè)領(lǐng)域,對(duì)抗樣本均可實(shí)現(xiàn)較高概率的攻擊,如何設(shè)計(jì)高效的防御方法提高深度學(xué)習(xí)模型的魯棒性是其進(jìn)一步推廣應(yīng)用的安全保障[7].

        已有大量面向深度學(xué)習(xí)的對(duì)抗攻擊研究工作,根據(jù)其對(duì)抗樣本生成原理不同,可分為基于梯度的攻擊方法、基于優(yōu)化的攻擊方法和其他攻擊方法[7].其中,基于梯度的攻擊方法利用模型的參數(shù)信息,通過目標(biāo)損失函數(shù)對(duì)輸入的求導(dǎo)得到梯度信息,獲取對(duì)抗擾動(dòng),例如:快速梯度符號(hào)法(Fast gradient sign method,FGSM[8])、動(dòng)量迭代的快速梯度符號(hào)法(Momentum iterative fast gradient sign method,MI-FGSM[9])、基于雅克比的顯著圖攻擊(Jacobian-based saliency map attack,JSMA)[10]等.基于優(yōu)化的攻擊方法通過多次查詢樣本的輸出置信度或類標(biāo),優(yōu)化對(duì)抗擾動(dòng),或者通過等價(jià)的梯度信息進(jìn)行攻擊,例如:基于零階優(yōu)化的攻擊(Zeroth order optimization,ZOO)[11]和基于邊界的攻擊(Boundary)[12].相比于基于梯度的攻擊,基于優(yōu)化的攻擊方法由于需要多次查詢計(jì)算,因此算法復(fù)雜度和運(yùn)行成本都較高.除此之外,還有基于生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)的攻擊[13]、基于遷移的攻擊[14]等.

        隨著對(duì)抗攻擊研究的深入,相應(yīng)的對(duì)抗攻擊防御方法的研究也相繼展開,根據(jù)防御方式的差異,可分為基于數(shù)據(jù)修改的防御、基于模型修改的防御和基于附加網(wǎng)絡(luò)的防御[7].其中,基于數(shù)據(jù)修改的防御對(duì)模型的輸入進(jìn)行修改,包括數(shù)據(jù)重編碼、數(shù)據(jù)變換、對(duì)抗訓(xùn)練等;基于模型修改的防御包括修改模型的目標(biāo)損失、在模型中加入隨機(jī)層、“蒸餾”得到新的網(wǎng)絡(luò)等;基于附加網(wǎng)絡(luò)的防御包括添加擾動(dòng)整流網(wǎng)絡(luò)、自編碼器網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)等.已有的防御方法研究大多關(guān)注防御成功率,在實(shí)際應(yīng)用中仍面臨以下一些挑戰(zhàn):

        1)對(duì)抗樣本依賴,即防御的效果依賴于預(yù)先已知的對(duì)抗樣本的數(shù)量和質(zhì)量,如對(duì)抗訓(xùn)練,當(dāng)遇到新的攻擊方法時(shí)防御效果不明顯;

        2)影響良性樣本的識(shí)別精度,即防御的效果以犧牲良性樣本的識(shí)別精度為代價(jià),如隨機(jī)縮放圖像操作雖然能夠破壞對(duì)抗擾動(dòng),但也干擾了良性樣本識(shí)別;

        3)參數(shù)敏感性與防御實(shí)時(shí)性,即需要根據(jù)數(shù)據(jù)集和攻擊方法調(diào)整參數(shù),如數(shù)據(jù)變換中的圖像縮放和圖像旋轉(zhuǎn)需要多次測(cè)試得到合適的參數(shù),附加網(wǎng)絡(luò)防御方法增加了計(jì)算步驟,降低了模型的處理速度.

        通用對(duì)抗擾動(dòng)攻擊方法[15]是不斷對(duì)對(duì)抗樣本的擾動(dòng)進(jìn)行疊加和優(yōu)化,得到通用擾動(dòng),隨后疊加到任意良性樣本上都能夠?qū)崿F(xiàn)攻擊.受到通用對(duì)抗擾動(dòng)攻擊[15]的啟發(fā),本文提出一種基于通用逆擾動(dòng)(Universal inverse perturbution,UIP)的對(duì)抗樣本防御方法(UIP defense,UIPD),通過設(shè)計(jì)具有通用逆擾動(dòng)的矩陣,疊加到對(duì)抗樣本,實(shí)現(xiàn)對(duì)抗樣本的重識(shí)別防御.此外,對(duì)抗樣本魯棒特征的提出[16],認(rèn)為樣本包含魯棒特征和非魯棒特征,且都會(huì)影響預(yù)測(cè)結(jié)果.良性樣本中兩者一致因此得到正確識(shí)別結(jié)果;而對(duì)抗樣本中魯棒特征不受影響,非魯棒特征變化較大,影響了識(shí)別結(jié)果.因此,可以通過設(shè)計(jì)強(qiáng)化樣本中的非魯棒特征,即類相關(guān)特征,實(shí)現(xiàn)對(duì)對(duì)抗樣本的防御,抵消對(duì)抗擾動(dòng)對(duì)非魯棒特征的影響;而且根據(jù)非魯棒特征在數(shù)據(jù)分布中的相似性和通用性,設(shè)計(jì)生成通用逆擾動(dòng)進(jìn)行抵消.

        本文的主要貢獻(xiàn)如下:

        1)設(shè)計(jì)一種基于通用逆擾動(dòng)的對(duì)抗樣本防御方法UIPD,僅依據(jù)良性樣本即可快速生成通用逆擾動(dòng)矩陣,有效防御多種未知的攻擊方法;

        2)UIPD 不影響良性樣本的識(shí)別,在生成UIP的過程中,通過對(duì)良性樣本的類相關(guān)特征進(jìn)行強(qiáng)化,實(shí)現(xiàn)良性樣本識(shí)別精度提升的效果;

        3)UIPD 的參數(shù)敏感性低且防御速度快,在多個(gè)數(shù)據(jù)集和多個(gè)模型上的實(shí)驗(yàn)結(jié)果表明了UIPD對(duì)各類攻擊都具有良好的防御效果.

        本文其余部分結(jié)構(gòu)如下:第1 節(jié)介紹了對(duì)抗攻防的相關(guān)工作;第2 節(jié)詳細(xì)說明了UIPD 方法;第3 節(jié)實(shí)驗(yàn)從多個(gè)角度驗(yàn)證UIPD 的性能;最后對(duì)全文進(jìn)行總結(jié)和展望,更多的通用逆擾動(dòng)可視化圖示例參見附錄A.

        1 相關(guān)工作

        本節(jié)主要介紹實(shí)驗(yàn)中涉及到的對(duì)抗攻擊方法與已有的防御方法.

        1.1 對(duì)抗攻擊方法

        已有的對(duì)抗攻擊方法眾多,根據(jù)對(duì)抗樣本的生成機(jī)理,可以分為以下兩類:

        1)基于梯度的攻擊:指在基于梯度的迭代過程中,尋找圖像中關(guān)鍵的像素點(diǎn)進(jìn)行擾動(dòng).Szegedy 等[6]首次證明了可以通過對(duì)圖像添加無法察覺的擾動(dòng)誤導(dǎo)網(wǎng)絡(luò)做出錯(cuò)誤分類.但由于問題的復(fù)雜度太高,于是轉(zhuǎn)而求解簡(jiǎn)化后的問題,將其稱為約束型擬牛頓法(Box-constrained limited memory Broyden-Fletcher-Goldfarb-Shanno,L-BFGS).Goodfellow 等[8]在此基礎(chǔ)上,提出快速梯度符號(hào)法(FGSM),通過計(jì)算單步梯度快速生成對(duì)抗樣本.Madry 等[17]提出投影梯度下降法(Project gradient descent,PGD),可以將其看作是FGSM 的改進(jìn)版——KFGSM (K 表示迭代的次數(shù)),每次迭代都會(huì)將擾動(dòng)限制到規(guī)定范圍,提高攻擊的有效性.Kurakin 等[18]提出基本迭代法(Basic iterative methods,BIM),將一大步運(yùn)算擴(kuò)展為通過多個(gè)小步增大損失函數(shù),從而提高對(duì)抗樣本的攻擊成功率并且減小對(duì)抗擾動(dòng).Carlini 等[19]提出一種對(duì)抗攻擊方法C&W,通過梯度迭代優(yōu)化的低擾動(dòng)對(duì)抗樣本生成算法,限制L∞、L2和L0范數(shù)使得擾動(dòng)無法被察覺,但是攻擊速度較慢.Moosavi-Dezfooli 等[20]提出了深度欺騙攻擊(DeepFool),通過迭代計(jì)算的方法生成最小規(guī)范對(duì)抗擾動(dòng),將位于分類邊界內(nèi)的圖像逐步推到邊界外,直到出現(xiàn)錯(cuò)誤分類.此方法添加的對(duì)抗性擾動(dòng)比FGSM 更小,同時(shí)能夠達(dá)到相似的攻擊效果.一般攻擊方法均采用限制L2或L∞范數(shù)的值控制擾動(dòng),而Papernot 等[10]提出基于雅克比的顯著圖攻擊(JSMA),采取限制L0范數(shù)的方法,即僅改變良性樣本幾個(gè)像素生成對(duì)抗樣本,使得添加的擾動(dòng)更小.一般的攻擊方法只能針對(duì)單個(gè)樣本生成對(duì)抗擾動(dòng),Moosavi-Dezfooli 等[15]研究并設(shè)計(jì)了一種通用對(duì)抗擾動(dòng)(Universal adversarial perturbation,UAP)攻擊,與DeepFool 攻擊相似,使用對(duì)抗擾動(dòng)將圖像推出分類邊界,但是同一個(gè)擾動(dòng)針對(duì)的是所有的圖像,結(jié)果顯示即使是當(dāng)時(shí)最優(yōu)的深度網(wǎng)絡(luò)模型也難以抵抗通用擾動(dòng)的攻擊.此外,通用的對(duì)抗擾動(dòng)具有很強(qiáng)的遷移性,即跨數(shù)據(jù)集、跨模型有效.

        2)基于優(yōu)化的攻擊:通過將對(duì)抗樣本的生成問題轉(zhuǎn)化為多目標(biāo)的優(yōu)化問題,使分類模型損失最大化,對(duì)抗擾動(dòng)最小化,導(dǎo)致模型分類錯(cuò)誤.Brendel 等[12]提出邊界攻擊,通過對(duì)樣本引入最小擾動(dòng)來改變模型對(duì)樣本的決策.受C&W 攻擊的啟發(fā),Chen 等[11]提出基于零階優(yōu)化的攻擊(ZOO),使用對(duì)稱差商來估計(jì)梯度,進(jìn)行對(duì)抗擾動(dòng)的優(yōu)化更新.通過在樣本中添加噪聲并進(jìn)行對(duì)抗擾動(dòng)優(yōu)化是一種常見的對(duì)抗攻擊方法,Rauber等[21]提出在樣本中添加高斯噪聲(Additive Gaussian noise attack,AGNA)使分類器出錯(cuò),添加的擾動(dòng)是通過多次迭代優(yōu)化直到使分類器出錯(cuò)的最小擾動(dòng).除此以外,Rauber 等[21]通過改變添加的噪聲類型,提高攻擊的效率,如添加均勻噪聲(Additive uniform noise attack,AUNA)和添加椒鹽噪聲(Salt and pepper noise attack,SPNA).

        本文提出的UIPD 在上述的對(duì)抗攻擊中均取得了良好的防御效果,除了上述的對(duì)抗攻擊方法以外,還有很多其他優(yōu)秀的對(duì)抗攻擊方法:Su 等[22]提出單像素攻擊(One pixel attack),使用差分進(jìn)化算法,對(duì)每個(gè)像素進(jìn)行迭代的修改生成子圖像,并與原圖像對(duì)比,根據(jù)選擇標(biāo)準(zhǔn)保留攻擊效果最好的子圖像,僅改變圖樣本中的一個(gè)像素值就可以實(shí)現(xiàn)對(duì)抗攻擊.Baluja 等[23]訓(xùn)練了多個(gè)對(duì)抗性轉(zhuǎn)移網(wǎng)絡(luò)(Adversarial transformation networks,ATNs)來生成對(duì)抗樣本,可用于攻擊一個(gè)或多個(gè)網(wǎng)絡(luò)模型.Cisse 等[24]通過生成特定于任務(wù)損失函數(shù)的對(duì)抗樣本實(shí)現(xiàn)對(duì)抗攻擊,即利用網(wǎng)絡(luò)的可微損失函數(shù)的梯度信息生成對(duì)抗擾動(dòng).Sarkar 等[25]提出了兩種對(duì)抗攻擊算法:精確目標(biāo)的通用擾動(dòng)(Universal perturbations for steering to exact targets,UPSET)攻擊和生成惡意圖像的對(duì)抗網(wǎng)絡(luò)(Antagonistic network for generating rogue images,ANGRI)攻擊.UPSET 攻擊為針對(duì)原始樣本生成具有通用擾動(dòng)的對(duì)抗樣本,且可以使模型誤分類為指定的目標(biāo)類別,而ANGRI 攻擊為針對(duì)原始樣本生成具有特定擾動(dòng)的對(duì)抗樣本,且可以使模型誤分類為指定的目標(biāo)類別.

        以上攻擊方法都是基于肉眼不可見擾動(dòng)的對(duì)抗攻擊,除了基于對(duì)抗擾動(dòng)的攻擊外,還有一類基于對(duì)抗補(bǔ)丁的攻擊.Brown 等[26]提出一種在物理空間的對(duì)抗圖像補(bǔ)丁的方法.Karmon 等[27]利用修改后的損失函數(shù),使用基于優(yōu)化的方法提升對(duì)抗補(bǔ)丁的魯棒性.為了提高視覺保真度,Liu 等[28]提出了PSGAN 框架來生成類似涂鴉的對(duì)抗補(bǔ)丁,以愚弄自動(dòng)駕駛系統(tǒng).為了解決對(duì)抗補(bǔ)丁泛化能力差的問題,Liu 等[29]利用模型的感知和語義上的偏見,提出了一個(gè)基于偏見的框架生成具有強(qiáng)泛化能力的通用對(duì)抗補(bǔ)丁方法.綜上,基于補(bǔ)丁的對(duì)抗攻擊也是一種有效的攻擊方法.

        1.2 對(duì)抗防御方法介紹

        根據(jù)防御效果,防御方法可分為僅檢測(cè)防御和重識(shí)別防御,僅檢測(cè)防御是對(duì)檢測(cè)出的攻擊樣本進(jìn)行甄別,而不做進(jìn)一步處理;重識(shí)別防御則是將對(duì)抗樣本進(jìn)行還原處理,重新識(shí)別其正確類標(biāo),UIPD屬于重識(shí)別防御方法,因此在實(shí)驗(yàn)中采用的對(duì)比算法同樣都屬于重識(shí)別防御.而根據(jù)防御作用對(duì)象的不同,可以進(jìn)一步分為以下三類:

        1)基于數(shù)據(jù)預(yù)處理的防御:指在模型訓(xùn)練前,或模型測(cè)試的過程中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從而提高模型對(duì)于對(duì)抗樣本的防御性.Xie 等[30]研究發(fā)現(xiàn),對(duì)圖像進(jìn)行尺寸變換或者空間變換能有效降低對(duì)抗樣本的攻擊性能,這是一種非常簡(jiǎn)單有效的數(shù)據(jù)預(yù)處理防御方法,但無法從根本上提升模型的防御能力.Song 等[31]提出了對(duì)抗訓(xùn)練方法,通過生成的大量對(duì)抗樣本,然后將對(duì)抗樣本作為模型的訓(xùn)練集執(zhí)行對(duì)抗訓(xùn)練,從而不斷提升模型的魯棒性,該方法需要使用大量高強(qiáng)度的對(duì)抗樣本,并且網(wǎng)絡(luò)架構(gòu)要有充足的表達(dá)能力,高度依賴于對(duì)抗樣本的數(shù)量和質(zhì)量,面對(duì)多種攻擊組合時(shí)防御的泛化能力較弱.為此,Miyato 等[32]和Zheng 等[33]分別提出了虛擬對(duì)抗訓(xùn)練和穩(wěn)定性訓(xùn)練方法提升防御效果.Dziugaite等[34]提出基于數(shù)據(jù)壓縮的方法,使用JPG 圖像壓縮的方法,減少對(duì)抗擾動(dòng)對(duì)于模型的干擾,但同時(shí)也會(huì)降低對(duì)良性樣本的分類準(zhǔn)確率.此外,Das 等[35]通過研究數(shù)據(jù)中的高頻成分,提出了集成防御技術(shù).Luo 等[36]提出基于“Foveation”機(jī)制的防御方法提高顯著魯棒性.對(duì)抗訓(xùn)練能夠提高深度模型的魯棒性,但是需要生成大量的對(duì)抗樣本,存在防御代價(jià)大、無法防御沒有出現(xiàn)過的攻擊等問題.

        2)基于網(wǎng)絡(luò)修正的防御:指通過添加或者改變多層/子網(wǎng)絡(luò)、改變損失/激活函數(shù)等方式,改變模型的架構(gòu)和參數(shù),從而濾除擾動(dòng),提高模型的防御性.受到將去噪自編碼器(Denoising auto encoders,DAE)堆疊到原來的網(wǎng)絡(luò)上會(huì)使其變得更加脆弱這一特性的啟發(fā),Gu 等[37]引入深度壓縮網(wǎng)絡(luò)(Deep compression network,DCN),減少對(duì)抗樣本的擾動(dòng).Rifai 等[38]通過添加平滑操作訓(xùn)練DCN 濾除擾動(dòng).Ross 等[39]提出使用輸入梯度正則化以提高對(duì)抗攻擊魯棒性,該方法和對(duì)抗訓(xùn)練結(jié)合有很好的效果,但防御代價(jià)以及防御的復(fù)雜度都會(huì)提高一倍以上.Hinton 等[40]提出可以使用“蒸餾”的方法將復(fù)雜網(wǎng)絡(luò)的知識(shí)遷移到簡(jiǎn)單網(wǎng)絡(luò)上后,Papernot 等[41]基于“蒸餾”的概念設(shè)計(jì)對(duì)抗防御方法,通過解決數(shù)值不穩(wěn)定問題擴(kuò)展了防御性蒸餾方法.Nayebi 等[42]受生物啟發(fā),使用類似于生物大腦中非線性樹突計(jì)算的高度非線性激活函數(shù)以防御對(duì)抗攻擊.Cisse 等[43]提出了在一層網(wǎng)絡(luò)中利用全局Lipschitz 常數(shù)加以控制,利用保持每一層的Lipschitz 常數(shù)來減少對(duì)抗樣本的干擾的防御方法.Gao等[44]提出DeepCloak 方法,在分類層的前一層加上特意為對(duì)抗樣本訓(xùn)練的額外層以掩蓋對(duì)抗擾動(dòng).此外,Jin 等[45]通過引入前饋神經(jīng)網(wǎng)絡(luò)添加額外噪聲減輕攻擊的影響.Sun 等[46]基于統(tǒng)計(jì)濾波設(shè)計(jì)了超網(wǎng)絡(luò)提高網(wǎng)絡(luò)魯棒性.Madry 等[17]從魯棒優(yōu)化角度研究了對(duì)抗防御性.通過網(wǎng)絡(luò)修正的方式改變模型內(nèi)部結(jié)構(gòu)和參數(shù)的優(yōu)化能夠有效提高模型的魯棒性,采取梯度隱蔽、蒸餾結(jié)構(gòu)、激活函數(shù)重設(shè)計(jì)等措施提高模型防御性能.

        3)基于附加網(wǎng)絡(luò)的防御:指在保持原始深度學(xué)習(xí)模型結(jié)構(gòu)不變的前提下,添加外部模型作為附加網(wǎng)絡(luò)來提高原始模型防御性能.針對(duì)對(duì)抗攻擊的防御,Akhtar 等[47]通過添加擾動(dòng)整流網(wǎng)絡(luò),利用一個(gè)單獨(dú)訓(xùn)練的網(wǎng)絡(luò)附加到目標(biāo)網(wǎng)絡(luò)上,以抵御通用擾動(dòng)產(chǎn)生的對(duì)抗性攻擊,達(dá)到不需要調(diào)整原本的網(wǎng)絡(luò)參數(shù)也能對(duì)對(duì)抗樣本產(chǎn)生良好的防御效果的目的.Hlihor 等[48]在訓(xùn)練過程中將對(duì)抗樣本提供給自動(dòng)編碼器,從而濾除對(duì)抗性擾動(dòng),并減少輸出樣本與干凈樣本之間的距離.孔銳等[49]研究了基于GAN 框架訓(xùn)練目標(biāo)模型的魯棒性.Samangouei 等[50]使用GAN 生成與對(duì)抗樣本相似但不含擾動(dòng)的樣本,實(shí)現(xiàn)防御.Lin 等[51]在Samangouei 等[50]的工作基礎(chǔ)上,在GAN 結(jié)構(gòu)中引入自編碼器,提高防御效率.Jin 等[52]提出對(duì)抗擾動(dòng)濾除的生成式對(duì)抗網(wǎng)絡(luò)(Adversarial perturbation elimination with GAN,APE-GAN),利用對(duì)抗樣本訓(xùn)練基于GAN 的防御模型,達(dá)到正確識(shí)別對(duì)抗樣本,同時(shí)不影響干凈樣本的識(shí)別的目的.Xu 等[53]提出特征壓縮法,用兩個(gè)近似模型檢測(cè)圖像中的對(duì)抗擾動(dòng).Ju 等[54]研究了多個(gè)模型的集成決策防御,提出了一種集成對(duì)抗防御方法.

        本文提出的通用逆擾動(dòng)對(duì)抗防御方法與貝葉斯案例模型(Bayesian case model,BCM)[55]通過選擇數(shù)據(jù)中具有代表性的典型樣本,然后提取典型樣本中的重要特征,達(dá)到對(duì)基于案例推理算法和原型分類算法的解釋,在思想上相似,但是主要任務(wù)、技術(shù)方法與應(yīng)用場(chǎng)景均不同.

        2 基于通用逆擾動(dòng)的防御方法

        2.1 基本定義

        通常,神經(jīng)網(wǎng)絡(luò)的前向傳播過程表示為f:RM →RN,其中M表示輸入的維度,N表示輸出的維度.進(jìn)一步,可以將整個(gè)模型表示為:f(x,θ):X →Y,其中x∈X表示模型輸入,Y表示模型的輸出,θ表示模型的內(nèi)部參數(shù).進(jìn)一步將θ表示為深度模型的各層非線性權(quán)重與偏置組合:θ=w×?(x)+b,其中w表示權(quán)重矩陣,在訓(xùn)練的過程中更新,x∈X表示輸入矩陣,即原始數(shù)據(jù)集中的良性樣本,b表示偏置,?(x)表示輸入樣本特征.y∈Y表示良性樣本的真實(shí)類標(biāo)經(jīng)過one-hot 編碼后的數(shù)組,l=arg max(y),arg max(·)表示數(shù)組元素值最大的位置的坐標(biāo)作為真實(shí)類標(biāo),l∈{0,1,2,···,N-1}.=f(x,θ)表示良性樣本的預(yù)測(cè)置信度數(shù)組,表示預(yù)測(cè)類標(biāo),.當(dāng)時(shí),則預(yù)測(cè)正確,反之則預(yù)測(cè)錯(cuò)誤.以交叉熵為例,定義模型訓(xùn)練的損失函數(shù)為

        其中,m表示訓(xùn)練樣本數(shù),分別表示數(shù)組y和在位置i處的值,log(·)表示對(duì)數(shù)函數(shù).訓(xùn)練的優(yōu)化目標(biāo)是最小化損失,即arg minLossCE,一般采用梯度下降法,梯度計(jì)算式為

        進(jìn)一步得到權(quán)重的更新式為

        其中,lr表示學(xué)習(xí)率.

        當(dāng)模型受到攻擊后,攻擊者會(huì)在良性樣本上添加精心設(shè)計(jì)的擾動(dòng)得到對(duì)抗樣本,表示為x*=x+Δx,其中Δx表示對(duì)抗擾動(dòng).將對(duì)抗樣本輸入模型后,得到是對(duì)抗樣本的預(yù)測(cè)置信度數(shù)組,表示預(yù)測(cè)類標(biāo),={0,1,2,···,N-1}.當(dāng)時(shí),則無目標(biāo)攻擊成功;當(dāng)時(shí),其中l(wèi)t是攻擊者預(yù)設(shè)的攻擊目標(biāo),則目標(biāo)攻擊成功;當(dāng)時(shí),則攻擊失敗.攻擊的目的是實(shí)現(xiàn)損失的增大,即arg maxLossCE,同樣采用梯度下降計(jì)算

        進(jìn)一步得到對(duì)抗樣本的更新式為

        其中,ε表示迭代步長,“+”運(yùn)算表示樣本與對(duì)抗擾動(dòng)疊加.

        最后,使用防御方法加固模型后,重新實(shí)現(xiàn)損失的最小化.根據(jù)前面的定義,可以采用對(duì)權(quán)重更新,也可以采用對(duì)樣本更新,UIPD 方法是對(duì)樣本進(jìn)行更新實(shí)現(xiàn)防御,恰好是式(5)的逆過程,可以粗略表示為

        2.2 通用逆擾動(dòng)生成方法

        通用逆擾動(dòng)的通用性體現(xiàn)在:測(cè)試階段,只需單個(gè)逆擾動(dòng),就可以對(duì)不同攻擊方法生成的任意對(duì)抗樣本實(shí)現(xiàn)防御;訓(xùn)練階段,不涉及到攻擊方法和對(duì)抗樣本.生成過程如圖1 所示,其中UIP 與訓(xùn)練集樣本的尺寸和維度一致,首先初始化為0;然后分別和訓(xùn)練集中的每一張樣本疊加后輸入到深度模型中,計(jì)算損失函數(shù);最后根據(jù)損失的趨勢(shì)得到逆擾動(dòng)在特征空間中的位置,反饋訓(xùn)練更新通用逆擾動(dòng).

        圖1 通用逆擾動(dòng)防御方法框圖Fig.1 The framework of UIPD method

        圖1的方法框圖中包括UIP、良性樣本和深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)模型三部分,UIP 通過對(duì)圖像空間的特征進(jìn)行不斷迭代強(qiáng)化,提取良性樣本的特征,并通過反饋訓(xùn)練對(duì)UIP 不斷進(jìn)行加強(qiáng).在迭代過程中,圖1 形象地展示了通用逆擾動(dòng)與良性樣本、特征空間的關(guān)系.在前文中提到,通用逆擾動(dòng)強(qiáng)化了良性樣本的類相關(guān)特征,因此能夠保持良性樣本的識(shí)別準(zhǔn)確率,甚至在一定范圍內(nèi)提升識(shí)別準(zhǔn)確率.但是通用逆擾動(dòng)不是直接采樣自樣本空間,而是通過損失反饋訓(xùn)練學(xué)習(xí)其在高維特征空間中的分布,這解釋了通用逆擾動(dòng)對(duì)數(shù)據(jù)樣本和攻擊方法具有較好的通用性,但是對(duì)同一個(gè)數(shù)據(jù)集的訓(xùn)練模型的通用性則較差.

        根據(jù)式(6)和圖1 的說明可以得到通用逆擾動(dòng)的生成式.首先令,則深度模型變?yōu)?/p>

        其中,xi表示原樣本,表示通用逆擾動(dòng)矩陣,表示原樣本疊加上通用逆擾動(dòng)矩陣后的樣本.

        此時(shí)的梯度是損失函數(shù)對(duì)疊加后的輸入進(jìn)行求導(dǎo),得到

        其中,gxi表示此時(shí)的梯度,LossCE表示交叉熵?fù)p失函數(shù).

        進(jìn)一步得到修改后的UIP 迭代式

        因?yàn)槠渲辛夹詷颖驹诘昂蟛蛔?所以兩邊減去一個(gè)xi,得到最終UIP 迭代式其中,εuip表示通用逆擾動(dòng)矩陣的迭代步長.

        需要說明的是,圖1 中的UIP 即是在Image-Net 數(shù)據(jù)集、VGG19 模型上優(yōu)化得到的通用逆擾動(dòng),為了更好的可視化,將其歸一化到[0,1]的范圍內(nèi)進(jìn)行可視化,原始的UIP 的均值為:-0.0137,方差為:0.0615,是十分微小的.UIPD 方法的詳細(xì)偽代碼如算法1 所示.

        算法 1.UIPD 方法

        2.3 算法復(fù)雜度分析

        對(duì)算法的時(shí)間復(fù)雜度進(jìn)行分析,UIPD 的時(shí)間復(fù)雜度包括訓(xùn)練時(shí)間復(fù)雜度和測(cè)試時(shí)間復(fù)雜度,根據(jù)算法1 可知,其訓(xùn)練的時(shí)間復(fù)雜度和測(cè)試的時(shí)間復(fù)雜度都是O(n),都是與樣本數(shù)呈一階增長關(guān)系.盡管在算法1 中存在兩個(gè)“For”循環(huán)語句,但是最大epoch 數(shù)是一個(gè)常數(shù),因此訓(xùn)練時(shí)間復(fù)雜度是O(ntrain);而測(cè)試時(shí),只需要將良性樣本與UIP 做“+”運(yùn)算操作(“+”運(yùn)算操作是指將訓(xùn)練完成的UIP 與良性樣本進(jìn)行像素上的疊加,即將UIP 以一種“擾動(dòng)”的形式添加到良性樣本圖像上去,在完成“+”操作的過程中,需要先將UIP 與良性樣本轉(zhuǎn)化為數(shù)組像素值,完成“+”操作后再以圖像形式輸出),因此也是O(ntest),其中ntrain和ntest表示訓(xùn)練樣本數(shù)和測(cè)試樣本數(shù).相比于數(shù)據(jù)修改防御中的數(shù)據(jù)變換操作,如resize、rotate 等,UIPD 方法多了訓(xùn)練的時(shí)間復(fù)雜度,但是由于UIP 能夠進(jìn)行離線訓(xùn)練和在線防御,訓(xùn)練樣本是有限的,即ntest?ntrain,因此其訓(xùn)練時(shí)間復(fù)雜度是可以忽略的;相比于對(duì)抗訓(xùn)練,UIPD 方法不需要使用大量的對(duì)抗樣本進(jìn)行訓(xùn)練,節(jié)省了大量的對(duì)抗樣本生成時(shí)間.

        分析空間復(fù)雜度,無論是在訓(xùn)練過程,還是在測(cè)試過程,UIPD 方法都是只需要占據(jù)一個(gè)UIP 存儲(chǔ)的空間,因此空間復(fù)雜度是O(1).

        2.4 通用逆擾動(dòng)有效性分析

        本文從高維特征的決策邊界和樣本的魯棒安全邊界兩個(gè)角度說明通用逆擾動(dòng)的有效性.基于樣本在高維特征空間中的分布和決策邊界,分析UIP 具有防御效果的原因.如圖2 所示,UIPD 方法不改變模型的決策邊界,因此決策邊界是固定的,但樣本在決策空間的位置與決策邊界是相對(duì)而言的,UIP導(dǎo)致樣本在決策空間中的位置發(fā)生了變化,導(dǎo)致樣本與決策邊界的相對(duì)位置發(fā)生了變化,使得原本在錯(cuò)誤決策空間的樣本重新回到正確決策空間.當(dāng)訓(xùn)練好一個(gè)模型,良性樣本被正確分為C1 類和C2類,其中還存在C2 類的一個(gè)樣本被誤分類為C1(圖中的灰色方塊).當(dāng)良性樣本疊加了UIP 后,能夠促使樣本在特征空間中的分布向類中心移動(dòng),從而改善良性樣本識(shí)別結(jié)果 (即將原本分類錯(cuò)誤的樣本進(jìn)行正確識(shí)別).當(dāng)模型受到攻擊,原本處在決策邊界附近的樣本越過邊界進(jìn)入錯(cuò)誤類的特征空間(即圖中的紅色圓點(diǎn)).此時(shí),當(dāng)對(duì)抗樣本疊加了UIP 后,能夠重新回到正確的特征空間并向類中心移動(dòng).

        圖2 基于特征分布和決策邊界的UIPD 分析示意圖Fig.2 The UIPD analysis based on feature distribution and decision boundary

        基于樣本的魯棒安全邊界說明UIP 具有防御效果的原因,具體如圖3 所示.最優(yōu)化觀點(diǎn)認(rèn)為,模型的魯棒性可以等價(jià)為一個(gè)最大最小模型.最大化攻擊者的目標(biāo)函數(shù),其物理意義是尋找合適的擾動(dòng)使損失函數(shù)在(x+Δx,y)這個(gè)樣本點(diǎn)上的值越大越好;最小化防御者的目標(biāo)函數(shù),其目的是為了讓模型在遇到對(duì)抗樣本的情況下,整個(gè)數(shù)據(jù)分布上的損失的期望還是最小.基于最優(yōu)化觀點(diǎn)建模的計(jì)算式為

        圖3 基于魯棒安全邊界的UIPD 分析示意圖Fig.3 The UIPD analysis based on robust security boundaries

        其中,ρ(·)是需要最小化的防御目標(biāo),w表示權(quán)重矩陣,x表示輸入矩陣,y表示樣本標(biāo)簽,E(x,y)~D[·]表示平均損失,D(x,y)表示輸入和標(biāo)簽所在的聯(lián)合概率分布,Δx表示對(duì)抗擾動(dòng),L(·,·,·)表示損失函數(shù).式中Δx∈Sx,即此時(shí)對(duì)抗樣本的擾動(dòng)落在Sx范圍內(nèi)都是安全的,因此將Sx稱為輸入擾動(dòng)的安全邊界.

        圖3中,良性樣本的安全邊界原本是r,即Sx ≤r時(shí)為安全;受到攻擊后,發(fā)生了樣本點(diǎn)落在半徑r以外的事件,但是若此時(shí)能夠?qū)踩吔缬蓃拓展到R,則可以實(shí)現(xiàn)新的魯棒邊界;UIPD 方法的防御過程就是通過學(xué)習(xí)數(shù)據(jù)樣本在高維特征空間中的類相關(guān)重要特征,然后反映在圖像空間中,最后等效于將Sx ≤r的安全邊界拓展為Sx ≤R.

        3 實(shí)驗(yàn)與結(jié)果

        本節(jié)首先介紹實(shí)驗(yàn)基本設(shè)置,包括軟硬件環(huán)境、數(shù)據(jù)集、深度模型、攻擊方法、防御方法、評(píng)價(jià)指標(biāo)等.然后,從UIP 在攻擊方法上的通用性、數(shù)據(jù)樣本上的通用性,與不同防御方法的防御效果比較,在良性樣本識(shí)別中的性能改善、參數(shù)敏感性和時(shí)間復(fù)雜度等方面進(jìn)行實(shí)驗(yàn)和分析.

        3.1 基本實(shí)驗(yàn)設(shè)置

        1)實(shí)驗(yàn)硬件及軟件平臺(tái):i7-7700K 4.20 GHz×8 (CPU),TITAN Xp 12GiB×2 (GPU),16 GB×4 memory (DDR4),Ubuntu16.04 (OS),Python3.7,Tensorflow-gpu 1.1.14,Tflearn 0.3.2.2.

        2)數(shù)據(jù)集:實(shí)驗(yàn)采用MNIST、Fashion-MNIST (FMNIST)、CIFAR-10 和ImageNet 四個(gè)公共數(shù)據(jù)集.其中,MNIST 數(shù)據(jù)集包括10 類共60 000張訓(xùn)練樣本及10 類共10 000 張測(cè)試樣本,樣本大小是28×28 的灰度圖像;CIFAR-10 數(shù)據(jù)集由10類共50 000 張訓(xùn)練樣本及10 類共10 000 張測(cè)試樣本組成,樣本是大小為32×32×3 的彩色圖片;FMNIST 數(shù)據(jù)集包括10 類共60 000 張訓(xùn)練樣本及10 類共10 000 張測(cè)試樣本,樣本大小是28×28的灰度圖像;ImageNet 數(shù)據(jù)集由1 000 多類共計(jì)200 多萬張樣本組成,本文隨機(jī)挑選訓(xùn)練集中的10類圖片進(jìn)行實(shí)驗(yàn),每類1 300 張樣本,其中70%作為訓(xùn)練樣本,30%作為測(cè)試樣本.實(shí)驗(yàn)中的所有圖像像素值都?xì)w一化到[0,1].

        3)深度模型:針對(duì)MNIST 數(shù)據(jù)集,分別使用AlexNet、LeNet 和自己搭建的網(wǎng)絡(luò)結(jié)構(gòu)(M_CNN);針對(duì)FMNIST 數(shù)據(jù)集,分別使用AlexNet 和自己搭建的網(wǎng)絡(luò)(F_CNN);針對(duì)CIFAR-10 和Image-Net 數(shù)據(jù)集,都使用VGG19 網(wǎng)絡(luò).由于MNIST 和FMNIST 數(shù)據(jù)集十分相似,實(shí)驗(yàn)中M_CNN 和F_CNN 使用相同的結(jié)構(gòu),如表1 所示.深度模型的訓(xùn)練參數(shù)采用Tflearn 提供的默認(rèn)參數(shù).

        表1 自行搭建的網(wǎng)絡(luò)模型結(jié)構(gòu)Table 1 The network structure built by ourselves

        4)攻擊方法:為了證明生成的UIP 對(duì)于不同攻擊方法的通用性,采用了FGSM[8]、BIM[18]、MIFGSM[9]、PGD[17]、C&W[19]、L-BFGS[6]、JSMA[10]、DeepFool[20]、UAP[15]、Boundary[12]、ZOO[11]、AGAN[21]、AUNA[21]、SPNA[21]共14 種攻擊方法,攻擊調(diào)用foolbox[21]的函數(shù),參數(shù)默認(rèn).

        5)防御方法:實(shí)驗(yàn)選擇了8 種防御方法作為對(duì)比算法,分別是resize[30]、rotate[30]、Distillation Defense (Distil-D)[41]、Ensemble Defense (Ens-D)[54]、Defense GAN (D-GAN)[50]、添加Gaussian 噪聲(GN)、DAE[37]和APE-GAN[52].為了使對(duì)比實(shí)驗(yàn)更全面,選取的對(duì)比算法包含了重識(shí)別防御的3 類防御方法,其中resize、rotate 和GN 是基于數(shù)據(jù)預(yù)處理的防御;Distil-D 是基于網(wǎng)絡(luò)修正的防御;Ens-D、D-GAN、DAE 和APE-GAN 是基于附加網(wǎng)絡(luò)的防御.以下對(duì)參數(shù)進(jìn)行具體說明,其中選定的縮放尺寸和旋轉(zhuǎn)角度參數(shù)都是經(jīng)過多次修改測(cè)試,挑選出最優(yōu)的參數(shù).

        a)resize1:對(duì)于MNIST 和FMNIST,首先將樣本縮小為6 × 6,再放大回28 × 28.對(duì)于CIFAR-10,首先將樣本縮小為16 × 16,再放大回32 × 32;對(duì)于ImageNet,首先將樣本縮小為128 × 128,再放大回224 × 224.

        b)resize2:對(duì)于MNIST 和FMNIST,首先將樣本放大為32 × 32,再縮小回28 × 28;對(duì)于CIFAR-10,首先將樣本放大為56 × 56,再縮小回32 ×32;對(duì)于ImageNet,首先將樣本放大為512 × 512,再縮小回224 × 224.

        c)rotate:對(duì)于MNIST、FMNIST、CIFAR-10和ImageNet 數(shù)據(jù)集,首先將樣本順時(shí)針旋轉(zhuǎn)45°,再逆時(shí)針旋轉(zhuǎn)45°.

        d)Distil-D:對(duì)于MNIST、FMNIST 和CIFAR-10 數(shù)據(jù)集,蒸餾訓(xùn)練epoch 設(shè)置為20,批尺寸為64,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于Image-Net 數(shù)據(jù)集,蒸餾訓(xùn)練epoch 設(shè)置為50,批尺寸為16,學(xué)習(xí)率為0.0001,優(yōu)化器為Adam.

        e)Ens-D:對(duì)于MNIST、FMNIST,集成3 種模型:AlexNet、LeNet 和M_CNN;對(duì)于CIFAR-10 和ImageNet,集成3 種模型:AlexNet、VGG16和VGG19.

        f)D-GAN:對(duì)于MNIST、FMNIST,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為10,批尺寸為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于CIFAR-10,生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為30,批尺寸為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于Image-Net,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為50,批尺寸為16,學(xué)習(xí)率為0.001,優(yōu)化器為Adam.

        g)GN:在樣本上添加均值為0、方差為1 的隨機(jī)高斯噪聲,作為UIP 的對(duì)照,說明UIP 具有一定的規(guī)律.

        h)DAE:對(duì)于MNIST、FMNIST,訓(xùn)練編碼器和解碼器的參數(shù):epoch 設(shè)置為10,批尺寸為64,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于CIFAR-10,訓(xùn)練編碼器和解碼器的參數(shù):epoch 設(shè)置為20,批尺寸為64,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于ImageNet,訓(xùn)練編碼器和解碼器的參數(shù):epoch 設(shè)置為50,批尺寸為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam.

        i)APE-GAN:對(duì)于MNIST、FMNIST,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為20,批尺寸為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于CIFAR-10,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為40,批尺寸為32,學(xué)習(xí)率為0.001,優(yōu)化器為Adam;對(duì)于ImageNet,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)的參數(shù):epoch 設(shè)置為50,批尺寸為16,學(xué)習(xí)率為0.001,優(yōu)化器為Adam.

        6)評(píng)價(jià)指標(biāo):本文采用分類準(zhǔn)確率(Accuracy,ACC)、攻擊成功率(Attack success rate,ASR)、防御成功率(Defense success rate,DSR)和相對(duì)置信度變化(Rconf)來評(píng)價(jià)UIPD.具體為

        其中,N表示待分類的良性樣本數(shù),nright表示分類正確的良性樣本數(shù),nadv表示攻擊成功的對(duì)抗樣本數(shù),即成功被深度模型錯(cuò)誤識(shí)別的樣本數(shù)量,表示防御后重新分類正確的對(duì)抗樣本數(shù)量.

        其中,confD(ltrue)表示防御后真實(shí)類標(biāo)的預(yù)測(cè)置信度,confA(ltrue)表示攻擊后真實(shí)類標(biāo)的預(yù)測(cè)置信度,confA(ladv)表示攻擊后對(duì)抗類標(biāo)的預(yù)測(cè)置信度,confD(ladv)表示防御后對(duì)抗類標(biāo)的預(yù)測(cè)置信度.

        7)實(shí)驗(yàn)步驟:首先,如圖1 所示,通過良性樣本的特征空間與深度學(xué)習(xí)模型的損失進(jìn)行迭代訓(xùn)練,生成通用逆擾動(dòng),具體算法如算法1 所示:輸入包括良性樣本集X,分類器f(x),逆擾動(dòng)步長εuip和最大epoch 數(shù)N,接著初始化通用逆擾動(dòng)ρuip,利用良性樣本集的樣本特征和標(biāo)簽對(duì)通用逆擾動(dòng)進(jìn)行迭代訓(xùn)練,訓(xùn)練完成后得到通用逆擾動(dòng).隨后,在不同的攻擊算法下針對(duì)深度模型分類器f(x)生成各類型的對(duì)抗樣本.最后,訓(xùn)練得到的通用逆擾動(dòng)添加到對(duì)抗樣本中,完成識(shí)別防御.

        3.2 UIPD 的攻擊方法通用性

        本文主要驗(yàn)證了同一個(gè)數(shù)據(jù)集和模型的UIP在不同攻擊方法下的通用性.具體實(shí)驗(yàn)結(jié)果如表2所示,實(shí)驗(yàn)中采用DSR 來衡量UIPD 方法對(duì)不同攻擊的防御有效性.

        表2 UIPD 針對(duì)不同攻擊方法的防御成功率(%)Table 2 The defense success rate of UIPD against different attack methods (%)

        由表2 可知,在MNIST、FMNIST 和CIFAR-10 這三個(gè)小數(shù)據(jù)集上,每個(gè)模型訓(xùn)練得到的UIP在不同攻擊方法下都能達(dá)到50%以上的防御成功率,大部分情況下能達(dá)到70%以上.對(duì)于Image-Net 大數(shù)據(jù)集,通用逆擾動(dòng)防御在不同攻擊方法下的防御成功率也能達(dá)到30%以上.UIP 對(duì)不同攻擊方法的防御能力在小數(shù)據(jù)集上普遍優(yōu)于大數(shù)據(jù)集,這是因?yàn)樾?shù)據(jù)集的圖像尺寸小,所包含的特征信息也遠(yuǎn)小于ImageNet 大數(shù)據(jù)集中的圖像,所以訓(xùn)練UIP 時(shí)更容易收斂,而且包含的非魯棒性特征更加全面,導(dǎo)致UIP 的防御效果更優(yōu).

        除此之外,還可以觀察到,同一個(gè)UIP 雖然對(duì)不同的攻擊方法都有效果,但是防御效果在不同攻擊方法上也是有差異的.同一個(gè)UIP 在DeepFool和PGD 上的防御效果明顯優(yōu)于JSMA,這是因?yàn)椴煌舴椒ㄉ傻膶?duì)抗擾動(dòng)的大小和約束條件不同.DeepFool 和PGD 要求擾動(dòng)的L2范數(shù)盡可能小,這導(dǎo)致了雖然這些攻擊方法生成的對(duì)抗樣本更加隱蔽,但對(duì)抗樣本中包含的非魯棒性特征更容易被UIP 抵消,所以防御效果更好.但是JSMA 的攻擊中限制擾動(dòng)的個(gè)數(shù)而不限制單個(gè)像素點(diǎn)的擾動(dòng)大小,攻擊時(shí)一旦發(fā)現(xiàn)非魯棒性特征的像素點(diǎn),就會(huì)改變很大的像素值去激活非魯棒性特征,所以UIP很難完全抵消被激活的非魯棒性特征,這就導(dǎo)致了防御效果更差一點(diǎn).基于優(yōu)化的攻擊通過不斷優(yōu)化對(duì)抗擾動(dòng),生成擾動(dòng)較小但攻擊性強(qiáng)的對(duì)抗樣本,因此,UIPD 在針對(duì)基于優(yōu)化的攻擊上的防御效果普遍低于基于梯度的攻擊.

        在式(11)的基礎(chǔ)上,使用最優(yōu)化觀點(diǎn)看待UIP的防御過程,具體為

        其中,ρ(·)是需要最小化的優(yōu)化目標(biāo),x表示輸入,y表示樣本標(biāo)簽,E(x,y)~D[·]表示平均損失,D(x,y)表示輸入和標(biāo)簽所在的聯(lián)合概率分布,Δxuip表示通用逆擾動(dòng),L(·,·,·)表示損失函數(shù).上述建模中Δxuip∈Sx,即此時(shí)擾動(dòng)落在Sx范圍內(nèi)都是安全的,因此將Sx稱為安全邊界.UIP 使用梯度下降的優(yōu)化算法進(jìn)行迭代訓(xùn)練,在已訓(xùn)練好的模型基礎(chǔ)上進(jìn)一步朝著損失函數(shù)下降的方向進(jìn)行UIP 的擾動(dòng)優(yōu)化,這一過程中能夠提取更多的樣本特征,強(qiáng)化良性樣本中的類相關(guān)特征,使得樣本向著類中心移動(dòng),UIP 的訓(xùn)練使用的是全局樣本,即訓(xùn)練集所有樣本,因此同一個(gè)全局UIP 能夠?qū)Σ煌惗寄苁褂?

        綜合而言,UIP 在不同攻擊方法上都有較好的防御效果.

        3.3 UIPD 對(duì)數(shù)據(jù)樣本的通用性

        本節(jié)主要介紹UIPD 方法在同一個(gè)模型和數(shù)據(jù)集上對(duì)所有樣本數(shù)據(jù)的通用性.表3 展示了UIPD 在M_CNN 模型上、MNIST 數(shù)據(jù)集中不同樣本的通用性(更多模型上的數(shù)據(jù)集通用性展示見附錄A).圖4 展示了MNIST 數(shù)據(jù)集中不同模型的UIP 可視化圖(更多數(shù)據(jù)集中不同模型的UIP可視化圖見附錄A).

        圖4 MNIST 數(shù)據(jù)集中不同模型的 UIP 可視化圖Fig.4 The UIP visualization of MNIST dataset in different models

        由表3 的前兩組數(shù)據(jù)可知,MNIST 數(shù)據(jù)集中0 到9 個(gè)良性樣本在加上同一個(gè)UIP 后,類標(biāo)和置信度都沒有改變,體現(xiàn)了UIPD 在不損失良性樣本分類準(zhǔn)確率上的通用性.表3 的第3 組表示分類錯(cuò)誤的0~9 個(gè)對(duì)抗樣本.由第4 組可知,在加上同一個(gè)UIP 后,9 張對(duì)抗樣本都以較高的置信度重新正確分類,這體現(xiàn)了UIPD 在防御同一數(shù)據(jù)集中的對(duì)抗樣本的通用性.

        圖4中的UIP 可視化圖由python 中的matplotlib 庫里面的pyplot 以rainbow 的涂色形式繪制,像素值歸一化到[0,1].由圖4 可知,同一數(shù)據(jù)集下的不同模型的UIP 都不相同,但是UIP 的均值和方差都很小,所以圖像加上UIP 后的效果不影響人的視覺感受.由式(5)和式(6)可知,UIP 通過對(duì)樣本進(jìn)行更新生成的過程是對(duì)抗樣本生成的逆過程,對(duì)抗樣本與UIP 的生成過程都是通過樣本反饋到損失函數(shù),進(jìn)而完成對(duì)模型預(yù)測(cè)輸出的影響,不同之處在于,對(duì)抗樣本生成擾動(dòng)的方向是損失函數(shù)增大的方向,而UIP 生成擾動(dòng)的方向是損失函數(shù)減小的方向,因此,UIP 不僅不會(huì)對(duì)模型的預(yù)測(cè)準(zhǔn)確率產(chǎn)生不良影響,反而能夠?qū)δP头诸惥扔幸欢ㄌ嵘饔?由算法1 可知,在UIP 的迭代過程中,輸入深度模型分類器f(x)是已經(jīng)訓(xùn)練完成的收斂模型,因此UIP 在較小的逆擾動(dòng)步長εuip下,最終生成的UIP 的擾動(dòng)大小在較小范圍內(nèi)就能夠使模型達(dá)到收斂.

        3.4 不同防御方法的防御效果比較

        在本節(jié)中,本文主要比較了UIPD 與其他防御方法針對(duì)不同模型、不同數(shù)據(jù)集,采用不同攻擊方法生成的對(duì)抗樣本的防御效果.具體實(shí)驗(yàn)結(jié)果如表4 和表5 所示,其中表4 是不同防御方法針對(duì)基于梯度的各種攻擊方法的防御效果,表5 是不同防御方法針對(duì)基于優(yōu)化的各種攻擊方法的防御效果.本文用DSR 和Rconf 來衡量不同防御方法之間的防御有效性.表4 和表5 中的DSR 均是兩類攻擊方法中不同攻擊的平均防御成功率.

        表4 不同防御方法針對(duì)基于梯度的攻擊的防御效果比較Table 4 The performance comparison of different defense methods against gradient-based attacks

        表5 不同防御方法針對(duì)基于優(yōu)化的攻擊的防御效果比較Table 5 The performance comparison of different defense methods against optimization-based attacks

        首先,本文比較表4 和表5 中不同防御方法在不同模型和不同數(shù)據(jù)集下的DSR.在任意模型和數(shù)據(jù)集中,UIPD 的DSR 均高于圖像縮放、圖像旋轉(zhuǎn)、基于GAN 的防御、基于自編碼器的防御、高斯噪聲、蒸餾防御和集成防御,本文提出的UIPD 不需要依賴大量的對(duì)抗樣本,也不改變模型的結(jié)構(gòu)和訓(xùn)練量,與這些同樣不依賴對(duì)抗樣本的對(duì)比算法相比,本文提出的UIPD 防御效果是最好的.圖像縮放和圖像旋轉(zhuǎn)這些簡(jiǎn)單的預(yù)處理操作也能對(duì)攻擊起到較好的防御效果,這間接說明了造成對(duì)抗攻擊的非魯棒性特征的脆弱性,激活效果能夠被UIP 所抵消,說明了UIPD 方法的防御可行性.添加高斯隨機(jī)噪聲起到的防御效果微乎其微,這體現(xiàn)了用訓(xùn)練的方法獲得UIP 的必要性.此外,小數(shù)據(jù)集的ASR 和DSR均高于大規(guī)模的數(shù)據(jù)集,這是由于大規(guī)模數(shù)據(jù)集圖像所包含的特征信息遠(yuǎn)多于小數(shù)據(jù)集中的特征信息.

        其次,本文比較表4 和表5 中不同防御方法在不同模型和不同數(shù)據(jù)集中的Rconf 指標(biāo).在任意模型數(shù)據(jù)集下,UIPD 的Rconf 均高于圖像縮放、圖像旋轉(zhuǎn)、蒸餾防御、基于GAN 的防御、基于自編碼器的防御、高斯噪聲和集成防御.置信度變化越大,表示防御后的對(duì)抗樣本越魯棒,體現(xiàn)了防御的可靠性.不同防御方法在不同模型數(shù)據(jù)集下的置信度變化與防御成功率保持高度的一致,這顯示了UIPD在防御成功率和防御可靠性上都有很好的表現(xiàn).由表4 和表5 可知集成防御的防御效果也優(yōu)于其他防御,但是集成防御需要訓(xùn)練多個(gè)模型,訓(xùn)練代價(jià)更大,所以相較之下,UIPD 方法是一個(gè)更好的防御選擇.

        3.5 不同防御方法對(duì)良性樣本識(shí)別的影響

        本節(jié)主要分析UIPD 與其他防御方法對(duì)良性樣本識(shí)別的準(zhǔn)確率的影響.具體實(shí)驗(yàn)結(jié)果如表6 所示,本文統(tǒng)計(jì)了不同數(shù)據(jù)集中的良性樣本在不同防御方法下的分類準(zhǔn)確率(ACC).

        表6 不同防御方法處理后良性樣本的識(shí)別準(zhǔn)確率 (%)Table 6 The accuracy of benign examples after processing by different defense methods (%)

        由表6 可知,不同數(shù)據(jù)集的良性樣本在UIPD防御和集成防御后分類準(zhǔn)確率有了略微的上升,但在其他防御方法防御后都有了一定程度的下降.為了抵抗對(duì)抗攻擊,各種高性能的防御方法相繼提出,但是防御方法在提供防御有效性的同時(shí),會(huì)犧牲一定程度的良性樣本分類精度.然而UIPD 防御后不僅沒有損失良性樣本的分類性能,反而有略微的改善效果,這得益于UIPD 在訓(xùn)練時(shí)用良性樣本作為訓(xùn)練數(shù)據(jù)集,進(jìn)一步的訓(xùn)練提升了原有的分類精度.集成防御雖然同樣能夠提高分類準(zhǔn)確率,但是需要訓(xùn)練多個(gè)模型,增大了訓(xùn)練成本.

        3.6 參數(shù)敏感性和時(shí)間復(fù)雜度分析

        在本節(jié)中,主要對(duì)UIPD 方法迭代步長的敏感性和時(shí)間復(fù)雜度進(jìn)行分析.

        圖5展示了迭代步長敏感性實(shí)驗(yàn)結(jié)果,橫坐標(biāo)表示訓(xùn)練UIPD 的迭代步長,縱坐標(biāo)表示UIPD 的防御成功率.實(shí)驗(yàn)使用MNIST 數(shù)據(jù)集,目標(biāo)模型是AlexNet.本文選擇BIM、PGD、C&W、L-BFGS 和DeepFool 五種方法進(jìn)行敏感性實(shí)驗(yàn).從實(shí)驗(yàn)的結(jié)果可以看出,當(dāng)生成UIP 的迭代步長變化時(shí),UIPD 對(duì)于各攻擊方法的防御成功率變化幅度都在0.3%以內(nèi).實(shí)驗(yàn)結(jié)果表明,UIPD 是一種穩(wěn)定的迭代訓(xùn)練方法,當(dāng)訓(xùn)練UIPD 的迭代步長產(chǎn)生變化,并不會(huì)影響最后UIPD 的防御效果.所以,UIPD是一種穩(wěn)健的防御方法,具有一定的魯棒性.

        圖5 參數(shù)敏感性實(shí)驗(yàn)結(jié)果圖Fig.5 The results of Parameter sensitivity experiment

        圖6展示了不同防御方法實(shí)施1 000 次防御的測(cè)試階段時(shí)間消耗對(duì)比,數(shù)據(jù)集是MNIST,采用的模型結(jié)構(gòu)是LeNet.由圖6 可知,UIPD 所消耗的時(shí)間少于或十分接近其他的防御方法,可知UIPD 屬于時(shí)間復(fù)雜度低、防御速度快的一種對(duì)抗防御方法.

        圖6 不同防御方法實(shí)施1 000 次防御的時(shí)間消耗Fig.6 The time cost in 1 000 defenses of different defense methods

        3.7 對(duì)抗補(bǔ)丁攻擊的防御分析

        在本節(jié)中,主要對(duì)UIPD 方法在基于對(duì)抗補(bǔ)丁的攻擊下的防御進(jìn)行分析.

        圖7是針對(duì)基于補(bǔ)丁的攻擊的防御結(jié)果,攻擊方法是Adversarial-Patch (AP)[26]攻擊,在AP 攻擊后,樣本識(shí)別準(zhǔn)確率大幅度下降,可見基于補(bǔ)丁的對(duì)抗攻擊是一種強(qiáng)大的攻擊方法.UIPD 方法對(duì)于基于補(bǔ)丁的攻擊有著一定的防御效果,但是相比于基于擾動(dòng)的防御效果而言,性能略差.這是由于基于擾動(dòng)的對(duì)抗攻擊生成的擾動(dòng)是肉眼不可見的,而基于補(bǔ)丁的攻擊添加的擾動(dòng)是肉眼可見的局部大范圍補(bǔ)丁,兩者在擾動(dòng)的量級(jí)上是存在明顯差異的.

        圖7 UIPD 對(duì)AP 攻擊的防御實(shí)驗(yàn)結(jié)果Fig.7 The results of UIPD against AP attacks

        4 總結(jié)與展望

        本文提出了一種基于通用逆擾動(dòng)的對(duì)抗樣本防御方法,對(duì)數(shù)據(jù)樣本、攻擊方法都具有通用性.在訓(xùn)練生成UIP 的過程中,只需要使用良性樣本,不需要任何關(guān)于對(duì)抗樣本的先驗(yàn)知識(shí),即不依賴于對(duì)抗樣本;UIP 會(huì)強(qiáng)化樣本的類相關(guān)特征,因此不會(huì)影響良性樣本的識(shí)別,甚至能夠在一定范圍內(nèi)提升良性樣本識(shí)別精度;UIP 的生成涉及到迭代步長的設(shè)置,實(shí)驗(yàn)發(fā)現(xiàn)在一定范圍內(nèi),不同的迭代步長對(duì)UIP 的防御效果幾乎沒有影響,說明參數(shù)敏感性低;在測(cè)試過程中,只需要單個(gè)UIP 疊加在任意待測(cè)試的樣本上,就能實(shí)現(xiàn)防御,只需增加一個(gè)矩陣的“+”運(yùn)算操作,大大加快了防御速度.因此,UIPD 方法防御對(duì)抗攻擊是可行且高效的.

        此外,研究中也發(fā)現(xiàn)UIPD 方法存在針對(duì)基于對(duì)抗補(bǔ)丁的攻擊防御效果較差的問題,這是由于基于對(duì)抗補(bǔ)丁的攻擊生成的是局部大范圍的擾動(dòng),UIP 無法完全抵消由對(duì)抗補(bǔ)丁帶來的擾動(dòng)干擾,如何提升UIP 對(duì)基于補(bǔ)丁的對(duì)抗攻擊的防御效果,是需要在后續(xù)工作中繼續(xù)研究的.同時(shí),研究中還發(fā)現(xiàn)UIPD 方法雖然在數(shù)據(jù)樣本上有較好的通用性,但在模型間通用性不佳,這是算法采用迭代優(yōu)化造成的,使得對(duì)模型具有較好的魯棒性,但是模型間泛化能力較差.因此,在未來的研究中,將繼續(xù)研究基于生成式對(duì)抗網(wǎng)絡(luò)的通用逆擾動(dòng)生成方法,改善在模型間的通用性與泛化能力.

        附錄A UIPD 不同數(shù)據(jù)樣本的通用性舉例和可視化

        UIPD 方法在不同數(shù)據(jù)集上針對(duì)不同數(shù)據(jù)樣本的通用性比較參見表A1~A3.在不同數(shù)據(jù)集上,不同模型的UIP 可視化圖見圖A1.

        圖A1 不同數(shù)據(jù)集和模型的UIP 可視化圖Fig.A1 The UIP visualization of different datasets and models

        表A1 UIPD 針對(duì)不同數(shù)據(jù)樣本的通用性(FMNIST,F_CNN)Table A1 The universality of UIPD for different examples (FMNIST,F_CNN)

        猜你喜歡
        優(yōu)化效果方法
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        按摩效果確有理論依據(jù)
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        可能是方法不對(duì)
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        欧美亚洲一区二区三区| 亚洲中文字幕无线乱码va | 国产午夜激无码av毛片| 国产精品反差婊在线观看| 国产一区二区三区成人av| 亚洲中国精品精华液| 999久久久无码国产精品| 97日日碰日日摸日日澡| 亚洲综合偷拍一区二区| aaa日本高清在线播放免费观看| 亚洲av日韩综合一区在线观看 | 国产99久久精品一区二区| 日韩中文在线视频| 亚洲国产精品一区二区| 国产精品亚洲一区二区三区| 四川老熟妇乱子xx性bbw| 91情侣视频| 精品国产日产av在线| 免费观看a级毛片| 精品无码一区二区三区亚洲桃色| 69天堂国产在线精品观看| 亚洲中文字幕乱码在线观看| 人成午夜大片免费视频77777| 久久久久久久久久久国产| 成人无码网www在线观看| 日本一区二区三区女优在线| 欧美不卡一区二区三区| 亚洲影院天堂中文av色| av黄片免费在线观看| 日本一区二区视频高清| 69sex久久精品国产麻豆| 国产精品无码久久久久免费AV | 偷拍一区二区三区四区| 中文字幕被公侵犯的漂亮人妻| 亚洲中文欧美日韩在线人| 青青草精品在线免费观看| 亚洲成av人片天堂网无码| 亚洲欧美日韩国产综合一区二区 | 国产爆乳美女娇喘呻吟| 亚洲精品毛片一区二区三区 | 中文字幕成人精品久久不卡91 |