林大權(quán),范睿,張良峰
(1 上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院, 上海 201210; 2 中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所, 上海 200050; 3 中國科學(xué)院大學(xué), 北京 100049) (2020年4月23日收稿; 2020年5月18日收修改稿)
近年來,隨著人工智能技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)在身份驗(yàn)證[1]、金融服務(wù)[2]、自動(dòng)駕駛[3]等和生命財(cái)產(chǎn)息息相關(guān)的領(lǐng)域已經(jīng)得以成功應(yīng)用,并且在這些應(yīng)用中都扮演著至關(guān)重要的角色。盡管如今的神經(jīng)網(wǎng)絡(luò)模型精度越來越高,甚至有些已經(jīng)超過人類,但是仍然存在被對抗樣本攻擊的隱患,這種情況不僅出現(xiàn)在圖像識別[4]中,也出現(xiàn)在目標(biāo)檢測和語音識別中[5]。對抗攻擊[4]是神經(jīng)網(wǎng)絡(luò)模型中常見的攻擊方法,它通過給輸入的圖像添加人眼察覺不到的微小噪聲擾動(dòng),使分類器錯(cuò)誤分類,甚至可以根據(jù)設(shè)計(jì)的噪聲擾動(dòng),輸出攻擊者想要的分類結(jié)果。如果這種攻擊技術(shù)被犯罪份子用在關(guān)鍵場景[6],造成的后果難以想象。因此,神經(jīng)網(wǎng)絡(luò)模型安全性的研究具有很強(qiáng)的現(xiàn)實(shí)意義。
自從Szegedy等[7]于2014年第一次提出神經(jīng)網(wǎng)絡(luò)容易被攻擊,學(xué)術(shù)界便致力于研究對應(yīng)的防御方法。然而剛提出的防御方法很快就被新出現(xiàn)的攻擊方法所攻破,起初Papernot等利用防御蒸餾法(defensive distillation)[8]來防御對抗樣本。但是很快就被Carlini&Wagner(CW)攻擊[9]所攻破。緊接著,許多研究者利用混淆梯度(obfuscated gradients)[10]作為防御手段,但是隨即被Athalye等的向后傳遞可微分近似(backward pass differentiable approximation, BPDA)[10]所攻破。因此,很長一段時(shí)間內(nèi)都是攻擊者獲勝,直到Madry等提出基于對抗訓(xùn)練(adversarial training, AT)的防御方法[11],它在CIFAR10測試集上,20步投影梯度下降(projected gradient descent, PGD)[11]攻擊方法下仍保有47.0%的魯棒準(zhǔn)確度(robust accuracy)[12]。盡管隨后Zhang等提出新的防御方法TRADES(tradeoff-inspired adversarial defense via surrogate-loss minimization)[13],將魯棒準(zhǔn)確度提升至56.6%,但是相比于不做攻擊情況下90%以上的準(zhǔn)確度,TRADES的防御性能仍然不夠理想,實(shí)用價(jià)值不高。
最近,兩種新穎的防御方法,雙側(cè)對抗訓(xùn)練法(bilateral adversarial training, BAT)[14]和特征打散法(feature scattering, FS)[15]被提出。它們的防御性能大大超越之前的防御方法,將魯棒準(zhǔn)確度猛地提升至68.9%,引起了學(xué)術(shù)界廣泛的關(guān)注。然而,我們最近的工作顯示BAT和FS所帶來的革命性提升更像是海市蜃樓,在本文提出的新攻擊方法下,BAT和FS的防御效果大打折扣。具體來說,在新攻擊方法下,BAT和FS在CIFAR10數(shù)據(jù)集上準(zhǔn)確度分別僅有20.8%和36.8%,明顯弱于AT和TRADES,且在其他數(shù)據(jù)集上也觀察到類似情況。因此,我們認(rèn)為目前值得信賴的防御方法仍只有AT和TRADES。
評價(jià)模型防御性能的常見攻擊方法有快速梯度符號法(fast gradient sign method, FGSM)[16]、CW和PGD,它們本質(zhì)上都是基于圖像標(biāo)簽的攻擊方法。如前文所述,對于BAT和FS兩種最先進(jìn)的防御方法,這些攻擊方法并不能正確反映出它們真實(shí)的防御性能。為此,本文提出一種新的攻擊方法——基于特征的投影梯度法(feature based projected gradient descent, FB-PGD)。它通過迭代的方式給待攻擊圖像添加擾動(dòng),不斷使待攻擊圖像和類別相異的目標(biāo)圖像的高維特征相似,從而產(chǎn)生欺騙分類器的對抗樣本,這里高維特征指卷積神經(jīng)網(wǎng)絡(luò)中全局平均池化層的輸出。FB-PGD與上述3種攻擊方法主要區(qū)別有如下兩點(diǎn):
1)FB-PGD利用高維的、信息更豐富的特征設(shè)計(jì)損失函數(shù),而上述3種攻擊方法本質(zhì)上利用低維的、信息貧瘠的圖像標(biāo)簽設(shè)計(jì)攻擊所需的損失函數(shù)。
2)FB-PGD利用選定的某一張目標(biāo)圖片作為攻擊目標(biāo)生成對抗樣本,這里的對抗樣本與選定的這張目標(biāo)圖片相關(guān)聯(lián)。而上述3種攻擊方法根據(jù)特定的類別標(biāo)簽生成對抗樣本,這里的對抗樣本與這個(gè)類別包含的大量圖片相關(guān)聯(lián)。
實(shí)驗(yàn)結(jié)果表明,本文提出的FB-PGD攻擊方法對于BAT和FS兩種最先進(jìn)的防御方法,在多個(gè)數(shù)據(jù)集上均表現(xiàn)出遠(yuǎn)超F(xiàn)GSM、PGD和CW的攻擊性能,攻擊成功率較這3種攻擊方法提升超過20%。
對于圖像分類任務(wù)來說,干凈樣本是那些從原始圖像數(shù)據(jù)分布中采集出來的樣本,對抗樣本則是在干凈樣本基礎(chǔ)上經(jīng)過精心設(shè)計(jì)的讓分類器分類錯(cuò)誤的樣本。精心設(shè)計(jì)指的是給干凈樣本添加人眼察覺不到微小擾動(dòng),人無法區(qū)分干凈樣本和對應(yīng)的對抗樣本。圖 1展示了干凈樣本和使用快速梯度符號法生成的對抗樣本,最左邊圖片表示干凈樣本,中間圖片表示通過快速梯度符號法產(chǎn)生的微小噪聲擾動(dòng),最右邊的圖片表示最終生成的對抗樣本。圖中干凈樣本被分類器以57.7%的概率識別為熊貓,而添加擾動(dòng)的對抗樣本則被分類器以99.3%的概率錯(cuò)誤分類為長臂猿。從計(jì)算機(jī)的角度來說,干凈樣本上的噪聲擾動(dòng)強(qiáng)弱需要特定的度量標(biāo)準(zhǔn)去描述,研究者們通常使用如下3種度量標(biāo)準(zhǔn)來模擬人的感官:L0、L2和L∞。上述3種擾動(dòng)度量標(biāo)準(zhǔn)其實(shí)是Lp范數(shù)的特殊形式,對于樣本x有
(1)
圖1 快速梯度符號法生成對抗樣本的示意圖[16]Fig.1 Adversarial examples generated by fast gradient sign method[16]
Goodfellow等最早發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)中存在對抗樣本[16],之后研究者提出各種不同的方法生成對抗樣本,其中絕大多數(shù)的攻擊方法是基于梯度優(yōu)化生成對抗樣本,其本質(zhì)上屬于基于梯度的局部搜索,通過梯度方向在干凈樣本的鄰域內(nèi)搜索可能存在的對抗樣本。能否找到合適的梯度方向是攻擊成功與否的關(guān)鍵。本文提出的FB-PGD攻擊方法和常見的攻擊方法類似,也是基于梯度優(yōu)化的方法,不同的是FB-PGD針對某一具體圖像生成對抗擾動(dòng),而常見的攻擊方法針對某一特定類生成對抗擾動(dòng)。在損失函數(shù)的設(shè)計(jì)上也與常見的方法不同,F(xiàn)B-PGD利用神經(jīng)網(wǎng)絡(luò)中中間層輸出的高維特征設(shè)計(jì)損失函數(shù),而常見攻擊方法采用低維的圖像標(biāo)簽信息設(shè)計(jì)損失函數(shù)。直觀上講,上述兩點(diǎn)創(chuàng)新使FB-PGD更容易找到精準(zhǔn)的梯度方向,利于更好地生成對抗樣本。本文用如下3種攻擊方法與FB-PGD相比較,說明FB-PGD的攻擊性能更強(qiáng)。
1.2.1 快速梯度符號法FGSM
FGSM[16]屬于L∞范數(shù)限制下的對抗攻擊方法,通過在干凈圖像的L∞鄰域內(nèi)找到對抗樣本使分類器錯(cuò)誤分類,F(xiàn)GSM定義了損失函數(shù)L(x,y)表示輸入的干凈樣本x被分類器分類成真實(shí)標(biāo)簽y的損失,攻擊過程中通過最大化這個(gè)損失函數(shù)來生成對抗樣本。具體來說,F(xiàn)GSM通過反向傳播得到損失函數(shù)對于輸入x的梯度,然后對于輸入圖像上的每個(gè)像素加上梯度方向ε大小的擾動(dòng),進(jìn)而得到對抗樣本,可以表示為
(2)
當(dāng)擾動(dòng)步長ε增加時(shí),對抗樣本x′的擾動(dòng)大小增加,攻擊成功率增加。FGSM的優(yōu)點(diǎn)是可以快速生成對抗樣本,但是不能保證生成的對抗樣本一定能被分類器分類錯(cuò)誤。
1.2.2 投影梯度下降法PGD
(3)
其中:i為PGD的步數(shù),截?cái)嗪瘮?shù)clip(·)確保生成的對抗樣本滿足L∞范數(shù)約束和圖像本身的像素值值域約束。與FGSM類似,PGD也不能保證生成對抗樣本一定能攻擊成功,但是相較于FGSM攻擊成功率更高,且生成的對抗樣本對于干凈的樣本來說,修改幅度小。從式 (2)和式(3)可以看出FGSM和PGD都是根據(jù)圖像標(biāo)簽設(shè)計(jì)損失函數(shù),本文后續(xù)實(shí)驗(yàn)中PGD方法采用此方案。
1.2.3 CW攻擊方法
CW攻擊方法[9]是目前最先進(jìn)的攻擊方法,該攻擊方法根據(jù)不同范數(shù)設(shè)置可以生成全部3種范數(shù)限制下的對抗樣本。這里用L∞范數(shù)限制下的攻擊方法說明該攻擊方法的大致思路。該攻擊方法主要優(yōu)化如下優(yōu)化目標(biāo):
x′=x+δ,
s.t.x′∈[0,1]n,
(4)
自從Madry等提出AT方法[11]之后,其他研究者提出了各種不同的改進(jìn)方法,但都提升有限,之前改進(jìn)效果最好的是ZHANG等提出的TRADES,但在CIFAR10上也僅提升了9.6%[13]。最近提出的BAT和FS提升效果驚人,分別提升了16.7%[14]和21.9%[15],但在本文提出的攻擊方法FB-PGD上,BAT與FS的防御性能變得很差,甚至不如AT。本文主要實(shí)驗(yàn)了如下3種防御方法,來說明FB-PGD的攻擊性能優(yōu)異。
1.3.1 對抗訓(xùn)練法AT
如何防御對抗樣本,一個(gè)直觀的想法是把對抗樣本加入訓(xùn)練集去訓(xùn)練分類器,訓(xùn)練時(shí)使用正確的標(biāo)簽,以此讓分類器能夠像對待干凈樣本一樣正確分類對抗樣本,該方法即為AT法[12]。Madry等用PGD生成對抗樣本來訓(xùn)練分類器,數(shù)學(xué)上來說,就是解決一個(gè)min-max優(yōu)化問題,公式如下
(5)
其中:max優(yōu)化函數(shù)的優(yōu)化目標(biāo)即1.2.2節(jié)中的投影梯度法,δ表示添加的擾動(dòng),通過優(yōu)化在‖δ‖∞≤ε范圍內(nèi)找到使損失函數(shù)L(·)值最大的擾動(dòng),得到對抗樣本,并用對抗樣本訓(xùn)練模型參數(shù)θ。該方法原理簡單,易于實(shí)現(xiàn)。
1.3.2 雙側(cè)對抗訓(xùn)練法BAT
BAT[14]是在AT基礎(chǔ)上改進(jìn)得到,與AT不同的是,BAT在做對抗訓(xùn)練的時(shí)候不但給圖像添加擾動(dòng),同時(shí)也給獨(dú)熱標(biāo)簽(one-hot label)添加擾動(dòng),這點(diǎn)類似于標(biāo)簽平滑[17](label smoothing)。該方法在給圖像生成擾動(dòng)的時(shí)候,也是通過投影梯度法得到對抗擾動(dòng)。在給標(biāo)簽添加擾動(dòng)的時(shí)候,一方面稍微抑制正確標(biāo)簽的概率值,另一方面根據(jù)其余各錯(cuò)誤標(biāo)簽的梯度值大小,稍微提升錯(cuò)誤標(biāo)簽的概率值。最后利用生成的對抗樣本和添加擾動(dòng)的標(biāo)簽訓(xùn)練分類器。
1.3.3 特征打散法FS
FS[15]也是在對AT基礎(chǔ)上改進(jìn)得到,對AT通過最大化輸入樣本與正確標(biāo)簽之間的交叉熵?fù)p失函數(shù)生成擾動(dòng),進(jìn)而得到對抗訓(xùn)練所需的對抗樣本。而FS通過無監(jiān)督的方式生成對抗訓(xùn)練所需的對抗樣本,即通過最大化干凈樣本與對應(yīng)的對抗樣本之間邏輯值向量的最優(yōu)傳輸距離(optimal transport distance)[15]生成擾動(dòng)。作者認(rèn)為對AT中對抗擾動(dòng)的生成過度依賴決策邊界(即標(biāo)簽)會(huì)導(dǎo)致標(biāo)簽泄露(label leaking),即生成的對抗樣本聚集在決策邊界附近,當(dāng)用這些偏見嚴(yán)重的對抗樣本訓(xùn)練分類器后,會(huì)導(dǎo)致分類器泛化能力變差,防御效果也隨之變差。而采用無監(jiān)督的方式,在生成對抗樣本時(shí),考慮樣本之間的聯(lián)系可以使生成的對抗樣本更合理地分布在整個(gè)樣本空間中,繼而利用這些對抗樣本訓(xùn)練出來的防御模型,防御效果也會(huì)更好。
對于圖像分類任務(wù)下神經(jīng)網(wǎng)絡(luò)為什么易受攻擊,很多研究者認(rèn)為是神經(jīng)網(wǎng)絡(luò)更偏向于關(guān)注圖像上的非魯棒特征[18]、紋理特征[19]和低頻特征[20],這3種特征本質(zhì)上一樣。如何提取目標(biāo)圖像上能被神經(jīng)網(wǎng)絡(luò)所關(guān)注的非魯棒特征并在待攻擊圖像上生成它們顯然是攻擊成功與否的關(guān)鍵。FB-PGD中使用的特征,即經(jīng)過全局平均池化層輸出的特征,包含了圖像經(jīng)過卷積提取出來的豐富信息,被廣泛應(yīng)用于人臉識別和驗(yàn)證[21]。本文提出的FB-PGD攻擊受上述工作啟發(fā),用圖像的特征而不是標(biāo)簽信息來生成擾動(dòng),在BAT和FS兩種最先進(jìn)的防御方法上表現(xiàn)出了很強(qiáng)的攻擊性能。
目前常用的攻擊方法有FGSM,PGD和CW,其中FGSM和PGD利用圖像標(biāo)簽通過最大化損失函數(shù)生成對抗樣本,CW則利用對應(yīng)標(biāo)簽的邏輯值構(gòu)造出新的損失函數(shù),通過抑制正確類的邏輯值同時(shí)提升目標(biāo)類的邏輯值生成對抗樣本。這3種攻擊方法在構(gòu)造損失函數(shù)時(shí)都直接或者間接利用了非常低維的圖像標(biāo)簽,這些圖像標(biāo)簽顯然丟失了圖像本身的許多信息。根據(jù)Ilyas等的非魯棒特征理論(non-robust features)[18],圖像本身包含魯棒特征和非魯棒特征。卷積神經(jīng)網(wǎng)絡(luò)傾向于識別圖像上的非魯棒特征,而人眼傾向于感知圖像上的魯棒特征并忽視非魯棒特征。正是這些人眼不易察覺但是神經(jīng)網(wǎng)絡(luò)偏愛的非魯棒特征導(dǎo)致了對抗樣本的產(chǎn)生。能否在待攻擊的圖像上生成其他類別圖像的非魯棒特征決定了攻擊的成功與否。因此,直覺上來看,如果在攻擊階段利用更多的目標(biāo)圖像信息,或許能更提高攻擊成功率。
受前述猜想啟發(fā),為了利用目標(biāo)圖像更多的信息,本文提出一種基于高維特征的圖像對抗攻擊算法FB-PGD。算法具體流程如圖 2所示。
(6)
Dc(xtar)=1-Sc((xtar)).
(7)
圖2 FB-PGD攻擊算法示意圖Fig.2 Feature based projected gradient descent attack pipeline
(8)
其中:sign(·)為符號函數(shù),α為每次添加擾動(dòng)的步長,截?cái)嗪瘮?shù)clip{·}確保生成的對抗樣本滿足L∞范數(shù)約束和圖像本身的像素值值域約束。
算法偽代碼如下:
算法1 FB-PGD算法
輸入:特征提取模型, 待攻擊圖像x, 待攻擊圖像真實(shí)標(biāo)簽y, 目標(biāo)圖像xtar, 目標(biāo)圖像真實(shí)標(biāo)簽ytar,迭代次數(shù)T,擾動(dòng)步長α,擾動(dòng)邊界ε。
輸出:對抗樣本x′
1: 在鄰域內(nèi)選取隨機(jī)一點(diǎn)作為初始化
2: 提取目標(biāo)圖像的特征:xtar←(xtar);
3:fort=0toT-1do; ∥T步迭代攻擊
4:Dc←1-cos(xtar);
8:endfor
10:returnx′.
本文評測的數(shù)據(jù)集有CIFAR10[22]、SVHN[23]和CIFAR100[22]。CIFAR10數(shù)據(jù)集有10個(gè)類別,5萬張訓(xùn)練圖像(每個(gè)類5千張)和1萬張測試圖像。SVNH數(shù)據(jù)集取自街景門牌號碼,10個(gè)阿拉伯?dāng)?shù)字對應(yīng)10個(gè)類別,包含73 257張訓(xùn)練圖像和26 032張測試圖像。CIFAR100數(shù)據(jù)集作為比CIFAR10更有挑戰(zhàn)性的數(shù)據(jù)集,不僅類別數(shù)是CIFAR10的10倍,而且每個(gè)類的樣本數(shù)只有CIFAR10的1/10。CIFAR100有100個(gè)類別,5萬張訓(xùn)練圖像和1萬張測試圖像。本文中攻擊算法的評測皆是在3個(gè)數(shù)據(jù)集的測試集上進(jìn)行。
為了公平地比較幾種攻擊方法的性能,本次實(shí)驗(yàn)中防御模型的網(wǎng)絡(luò)結(jié)構(gòu)都選用Wide ResNet(WRN28-10)[24],詳細(xì)結(jié)構(gòu)如表 1所示。表中k表示網(wǎng)絡(luò)的寬度因子,本次實(shí)驗(yàn)k為10。N表示塊的數(shù)量,輸出大小(CHW)表示對應(yīng)層輸出特征張量的通道數(shù)(C)、寬(W)和高(H)。防御模型訓(xùn)練過程中超參設(shè)置與BAT和FS的論文中一致,共訓(xùn)練200個(gè)epoch。對于數(shù)據(jù)集CIFAR10和CIFAR100初始學(xué)習(xí)率為0.1,分別在60和90個(gè)epoch處衰減為之前的1/10;對于數(shù)據(jù)集SVHN初始學(xué)習(xí)率為0.01,同樣在60和90個(gè)epoch衰減為之前的1/10。對于BAT防御模型,采用R-MC-LA(random start and most confusing targeted attack with label adversarial)[14]結(jié)合一步對抗訓(xùn)練得到,其中因子β=9。實(shí)驗(yàn)中共訓(xùn)練了4種防御模型,包含原始的僅使用干凈樣本訓(xùn)練的標(biāo)準(zhǔn)模型(Standard)和Madry等的對抗訓(xùn)練模型(Madry),以及基于BAT和FS防御方法訓(xùn)練的模型。實(shí)驗(yàn)中比較4種模型在干凈樣本和不同攻擊方法下的分類準(zhǔn)確度,這里分別簡稱為原始準(zhǔn)確度和魯棒準(zhǔn)確度。魯棒準(zhǔn)確度越低,說明攻擊成功率越高,攻擊性能越好。
攻擊方面,本次實(shí)驗(yàn)選擇FGSM、PGD和CW共3種攻擊方法與FB-PGD作對比。如不額外說明,默認(rèn)對于單步攻擊FGSM,攻擊步長與擾動(dòng)上限相等α=ε=8;對于多步攻擊的PGD、CW和FB-PGD,攻擊步長α=2,擾動(dòng)上限ε=8,迭代次數(shù)T=20。
表1 Wide ResNet結(jié)構(gòu)示意圖Table 1 The architecture of Wide ResNet
3.3.1 不同擾動(dòng)上限
通過固定其他參數(shù),僅選取不同的擾動(dòng)上限,對比PGD、CW和FB-PGD這3種攻擊方法在相同防御模型上的攻擊成功率。具體來說,選取7種不同的擾動(dòng)上限ε={2, 4, 6, 8, 12, 16, 20}。攻擊階段,對于不同的擾動(dòng)上限,實(shí)驗(yàn)中采用固定的攻擊參數(shù),其中攻擊步長α為2,最大迭代次數(shù)T為20。實(shí)驗(yàn)結(jié)果如圖 3(a)所示。圖中反映了在數(shù)據(jù)集CIFAR10上,3種不同攻擊算法在防御模型FS上的攻擊效果,其中縱坐標(biāo)Accuracy表示防御模型FS在攻擊算法下的魯棒準(zhǔn)確度。從圖中可以看出,橫向上,隨著擾動(dòng)上限的不斷增大,F(xiàn)S防御模型在3種不同攻擊算法下的魯棒準(zhǔn)確度隨之降低。這表明,隨著擾動(dòng)上限的增加,F(xiàn)B-PGD與PGD和CW表現(xiàn)出相似的性質(zhì),即在FS上的攻擊性能增加,符合攻擊強(qiáng)度與擾動(dòng)上限成正相關(guān)這一準(zhǔn)則[25]??v向上,對于相同的擾動(dòng)上限,防御模型FS在FB-PGD攻擊下的魯棒準(zhǔn)確度始終遠(yuǎn)低于PGD和CW,表明FB-PGD攻擊算法在防御模型FS上的攻擊性能明顯優(yōu)于PGD和CW。同樣的實(shí)驗(yàn)結(jié)果也出現(xiàn)在BAT上,如圖 3(b)所示。所以,對于FS和BAT兩種最先進(jìn)的防御方法,在不同的擾動(dòng)上限下,F(xiàn)B-PGD攻擊性能均強(qiáng)于PGD和CW。
3.3.2 不同攻擊步數(shù)
通過固定其他參數(shù),僅選取不同的最大攻擊步數(shù),對比PGD、CW和FB-PGD這3種攻擊方法在相同防御模型上的攻擊成功率。具體來說,選取7個(gè)不同的最大攻擊步數(shù)T={1, 2, 5, 10, 20, 50, 100}進(jìn)行實(shí)驗(yàn)。攻擊參數(shù)設(shè)置上,所有攻擊選用相同的擾動(dòng)上限ε=8和攻擊步長α=2。在CIFAR10數(shù)據(jù)集上,3種對抗攻擊算法在不同攻擊步數(shù)設(shè)置下,攻擊FS防御模型的的結(jié)果如圖 4(a)所示。
從圖4(a)可以看出,橫向上,隨著攻擊步數(shù)的增加,3種攻擊方法均表現(xiàn)出相同變化情況。在最大攻擊步數(shù)小于20步的情況下,F(xiàn)S防御模型在3種攻擊方法下的魯棒準(zhǔn)確度急劇下降,而在大于20步的情況下,魯棒準(zhǔn)確度趨于收斂??v向上,當(dāng)最大攻擊步數(shù)大于等于2步時(shí),可以觀察到FB-PGD的攻擊性能比PGD和CW表現(xiàn)出絕對優(yōu)勢。當(dāng)最大步數(shù)小于2步時(shí)FB-PGD卻弱于PGD和CW,這一反常現(xiàn)象是由于FB-PGD利用高維的特征向量(本實(shí)驗(yàn)中特征向量的元素?cái)?shù)量為640),它比PGD和CW利用的標(biāo)簽信息(元素?cái)?shù)量不超過2)維度更高,需要稍多一點(diǎn)的迭代步數(shù)去優(yōu)化。在防御模型BAT上的實(shí)驗(yàn)結(jié)果也與FS上的一致,如圖 4(b)所示。所以,對于FS和BAT兩種最先進(jìn)的防御方法,在攻擊步數(shù)不少于1的情況下,F(xiàn)B-PGD攻擊性能均強(qiáng)于PGD和CW。
3.3.3 不同網(wǎng)絡(luò)結(jié)構(gòu)
通過固定其他參數(shù),僅選取不同的網(wǎng)絡(luò)結(jié)構(gòu),對比PGD、CW和FB-PGD這3種攻擊方法在相同防御方法上的攻擊成功率。具體來說,選取除WRN28-10外3種不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),分別為MobileNetV2[26]、ResNet18[27]和DenseNet121[28]。攻擊參數(shù)設(shè)置上,所有攻擊選用相同的擾動(dòng)上限ε=8、攻擊步長α=2和最大迭代次數(shù)T=20。在CIFAR10數(shù)據(jù)集上,3種對抗攻擊方法攻擊利用不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的FS防御模型,攻擊結(jié)果如圖 5(a)所示。從圖中可以看出,F(xiàn)B-PGD攻擊方法相比于PGD和CW,在4種不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練出的FS防御模型上,均取得最低的魯棒準(zhǔn)確度。這表明FB-PGD在不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的FS防御模型上,攻擊性能均明顯強(qiáng)于PGD和CW,同樣的實(shí)驗(yàn)結(jié)果也出現(xiàn)在利用不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的BAT防御模型上,如圖 5 (b)所示。因此,對于不同的網(wǎng)絡(luò)結(jié)構(gòu)下的FS和BAT,F(xiàn)B-PGD攻擊性能也均強(qiáng)于PGD和CW。
圖3 不同擾動(dòng)上限的結(jié)果Fig.3 The results in different attack budgets
圖4 不同攻擊步數(shù)的結(jié)果Fig.4 The results in different attack iterations
3.3.4 不同數(shù)據(jù)集和防御方法
前3個(gè)小節(jié)主要表述在CIFAR10數(shù)據(jù)集上,對于FS和BAT,F(xiàn)B-PGD比PGD和CW攻擊性能強(qiáng)。本小節(jié)分析在更多的數(shù)據(jù)集和防御方法下,F(xiàn)B-PGD的攻擊性能。通過在CIFAR10、CIFAR100和SVHN這3個(gè)不同數(shù)據(jù)集上,比較FB-PGD與常見攻擊算法在7種不同模型上的攻擊性能,7種模型分別為標(biāo)準(zhǔn)訓(xùn)練模型(Standard)、基于交叉熵?fù)p失函數(shù)的PGD對抗訓(xùn)練防御模型(Madry)、基于FB-PGD對抗訓(xùn)練的防御模型(FB-PGD-D)、改進(jìn)的對抗訓(xùn)練防御模型(TRADES)、非對抗訓(xùn)練防御模型(guided complement entropy, GCE)[29],以及基于FS和BAT訓(xùn)練的防御模型。實(shí)驗(yàn)結(jié)果如表 2所示。
表 2中的結(jié)果為特定攻擊下對應(yīng)防御模型的準(zhǔn)確度。其中Clean表示不做任何攻擊,對應(yīng)欄為每個(gè)模型的原始準(zhǔn)確度。PGD20和PGD100分別指20步和100步的PGD攻擊,對應(yīng)欄為每個(gè)模型的魯棒準(zhǔn)確度,魯棒準(zhǔn)確度越低說明對應(yīng)欄的攻擊方法在對應(yīng)列的防御模型上攻擊性能越強(qiáng),CW20等同理。表格被2條豎線分為3欄,每一欄里,每行中最好的攻擊結(jié)果用黑體標(biāo)出(攻擊成功率最高),δ列中結(jié)果由左側(cè)欄里的黑體數(shù)字減去中間欄里的黑體數(shù)字得出,表示FB-PGD相對于左側(cè)最強(qiáng)攻擊方法能提升多少攻擊成功率,數(shù)字越大表示FB-PGD比其他攻擊方法攻擊性能越強(qiáng)。
圖5 不同網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)果Fig.5 The results in different network architectures
表2 不同攻擊方法攻擊不同防御模型的結(jié)果Table 2 The results of different attack methods against different defense models
從表 2可以看出,本文提出的FB-PGD攻擊算法在標(biāo)準(zhǔn)訓(xùn)練的模型(Standard)上攻擊性能與PGD和CW相似,在3個(gè)數(shù)據(jù)集上幾乎能完全攻擊成功。且FB-PGD攻擊算法在Madry、TRADES和FB-PGD-D等3種基于對抗訓(xùn)練的防御模型上也表現(xiàn)良好,在3個(gè)不同的數(shù)據(jù)集上攻擊效果與PGD和CW幾乎持平。從δ列可以看出,F(xiàn)B-PGD相比于PGD和CW兩種攻擊方法,它們的攻擊性能在Madry、TRADES和FB-PGD-D上差距不超過1%。在非基于對抗訓(xùn)練的在防御模型GCE上,同樣可以觀察到FB-PGD與PGD和CW有相近的攻擊性能。
此外,從δ列中結(jié)果可以看出,F(xiàn)B-PGD對于BAT和FS這兩種最先進(jìn)的防御方法,攻擊性能顯著超過FGSM、PGD和CW等3種攻擊方法。具體來說,在3個(gè)數(shù)據(jù)集上,對于BAT和FS防御方法,F(xiàn)B-PGD比FGSM、PGD和CW,攻擊成功率都至少提高20%。綜上所述,在不同數(shù)據(jù)集和不同防御模型下,實(shí)驗(yàn)結(jié)果顯示FB-PGD是一個(gè)比FGSM、PGD和CW攻擊性能更強(qiáng)的攻擊方法。它不僅在標(biāo)準(zhǔn)訓(xùn)練的模型、Madry、FB-PGD-D、TRADES和GCE防御模型上攻擊性能表現(xiàn)優(yōu)異,而且對于最先進(jìn)的FS和BAT防御方法,比FGSM、PGD和CW的攻擊成功率提升超過20%。因此,F(xiàn)B-PGD可以成為檢驗(yàn)防御方法的新基準(zhǔn)。
圖6 不同特征層的結(jié)果Fig.6 The results in different layers
選取WRN28-10上6個(gè)不同位置的輸出特征,討論FB-PGD在不同特征層上的攻擊性能,如表 1所示,6個(gè)位置分別位于第1~4層卷積層(conv1~4)、全局平均池化層(avg-pool)和最后分類的全聯(lián)接層(fc)。攻擊階段,對于不同層,實(shí)驗(yàn)中采用固定的攻擊參數(shù),其中擾動(dòng)上限ε為8,攻擊步長α為2,最大迭代次數(shù)T為20。在CIFAR10上,對BAT、FS和Madry這3種防御方法的攻擊結(jié)果如圖 6(a)所示。從圖中可以看出,曲線大致呈“S”型,表明隨著選取的特征層越來越靠近WRN28-10的輸入層,特征維度升高,F(xiàn)B-PGD攻擊方法在BAT、FS和Madry這3種不同的防御方法上都表現(xiàn)出攻擊成功率下降的趨勢(魯棒準(zhǔn)確度上升)。同時(shí),在左端曲線趨于平緩,這說明FB-PGD在最靠近網(wǎng)絡(luò)輸出層的3層(fc、avg-pool和conv4)上有著相近的攻擊性能。當(dāng)FB-PGD特征層位置選取為全局平均池化層(avg-pool)時(shí),此時(shí)3種防御方法的魯棒準(zhǔn)確度皆最低。此外,在SVHN和CIFAR100 2個(gè)數(shù)據(jù)集也進(jìn)行了相同的實(shí)驗(yàn),均觀察到與在CIFAR10數(shù)據(jù)集上大致類似的現(xiàn)象,如圖 6(b)和6(c)所示。因此,當(dāng)特征層選取在全局平均池化層時(shí),F(xiàn)B-PGD攻擊性能最強(qiáng)。
本文提出一種全新的基于高維特征的圖像對抗攻擊算法FB-PGD,它通過給待攻擊圖像添加擾動(dòng)使待攻擊圖像與目標(biāo)圖像的高維特征相似,從而生成對抗樣本。本文介紹了該算法的原理和具體流程,還給出了該算法的優(yōu)化版本。實(shí)驗(yàn)結(jié)果表明,該攻擊算法不僅在標(biāo)準(zhǔn)訓(xùn)練的模型和Madry等的防御模型上攻擊性能優(yōu)異,而且對于最先進(jìn)的FS和BAT兩種防御方法,在不同擾動(dòng)上限、不同攻擊迭代次數(shù)和不同網(wǎng)絡(luò)結(jié)構(gòu)下,均表現(xiàn)出優(yōu)于FGSM、PGD和CW的攻擊性能,且在慣常的攻擊參數(shù)下,攻擊成功率較這3種攻擊方法提升超過20%。因此,F(xiàn)B-PGD可以成為檢驗(yàn)防御方法性能的新基準(zhǔn)。
中國科學(xué)院大學(xué)學(xué)報(bào)2022年3期