劉昊 張澤輝 夏曉帆 高鐵杠
(南開大學軟件學院 天津 300350)
深度學習在生活中的應用愈發(fā)廣泛,在圖像分類[1-5]、語音識別[6]、推薦系統(tǒng)[7]、行為建模[8]等領域均取得了優(yōu)異的工作成績.圖像分類作為一項較為基礎的研究工作,有大量的工程問題可以歸類于圖像分類與識別問題,如車牌識別[9]、路牌識別[10]、人臉識別[11]等.目前這些工作基本上都應用了一部分基于深度學習的圖像分類技術.研究表明,計算機領域的技術存在著不同程度的安全風險[12-14],基于深度學習的技術亦存在安全風險.若這些應用底層的圖像分類模型遭受到攻擊,那么上層應用也將受到相當大的影響,給商業(yè)公司帶來巨大的風險.而好的攻擊算法的提出,可以給這些已經(jīng)商業(yè)部署的深度學習模型進行風險評估,令其可以提前防范被攻擊的風險.針對商業(yè)應用系統(tǒng)的安全性問題,當前已有工作[15-16]對此展開深入研究.Szegedy 等人[17]于2013 年發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡存在安全性漏洞,通過在圖像上添加微小的擾動噪聲,就可以讓神經(jīng)網(wǎng)絡模型分類錯誤,自此,關于對抗攻擊和對抗防御的研究拉開序幕.
目前關于對抗攻擊的形式可以分為白盒攻擊[18-21]與黑盒攻擊[22-25].白盒攻擊可以獲取到模型內部的相關信息,如梯度信息、模型結構等;黑盒攻擊則被限制無法獲取這些信息,僅能夠獲取到模型的輸出結果,而輸出結果可分為Score-based 和Hard-label 這2 種.Score-based 是指攻擊者可以獲取到模型輸出的完整數(shù)據(jù)標簽以及標簽對應的概率;Hard-label 是指攻擊者只能獲得模型輸出的top-1 標簽,攻擊者無法依賴任何豐富的信息來對樣本的生成進行有效的指向性操作,給攻擊增加了相當?shù)碾y度.基于Hard-label的黑盒攻擊工作是相當具有挑戰(zhàn)性的.
2017 年,Brendel 等人[22]提出的邊界攻擊算法是一種基于決策邊界的對抗攻擊算法,并且可以應對Hard-label 問題,該算法從具有較大擾動的對抗性樣本點開始,在保證樣本對抗性的同時減小擾動以降低圖像失真.邊界攻擊需要使用已經(jīng)具備對抗性的樣本作為初始樣本,并從某種分布中采樣,如高斯分布,該算法通常需要數(shù)十萬次查詢才能夠將圖像擾動降低到一個令人滿意的程度.雖然邊界攻擊算法的查詢量是一個巨大的量,但其給解決Hard-label 問題指出了一個新的研究方向.2018 年,Cheng 等人[26]提出了opt 攻擊算法,該算法在邊界攻擊的基礎之上將問題轉化為了一個優(yōu)化問題,即在圖像距離較遠時采用二分逼近來大幅度降低圖像距離,在決策邊界附近使用梯度估計策略,極大地降低了邊界攻擊所需要的查詢次數(shù),但也依舊需要數(shù)萬次查詢.2019 年,Cheng 等人[27]在opt 攻擊算法的基礎之上提出了signopt 攻擊算法,這也是一種基于梯度估計的算法,通過在當前對抗點附近不斷地進行查詢,最終估計出一個合適的方向,再向著這個方向前進一小步,這一算法同樣大大降低了邊界攻擊所需要的查詢次數(shù),然而查詢次數(shù)依舊在數(shù)萬級別.2020 年,Chen 等人[24]在邊界攻擊的基礎之上提出了HSJA(hop skip jump attack)攻擊算法,這是一種基于無偏梯度估計的攻擊算法,它提出了一種控制偏離邊界誤差的方法.HSJA攻擊算法成功地將模型查詢次數(shù)控制在了萬次以內,然而相對實際場景而言,近萬次的查詢依舊難以接受.2021 年,Maho 等人[25]提出了SurFree 攻擊算法,這是一種基于幾何性質的攻擊算法,其最大的特點是沒有使用任何梯度估計去判斷前進的方向,該算法不僅將查詢次數(shù)限制在了2 000 次以內,而且成功地超越了眾多基于梯度估計的邊界攻擊算法,達到當前最優(yōu).但通過實驗發(fā)現(xiàn),將實驗次數(shù)控制在千次以內時,SurFree 攻擊算法的成功率出現(xiàn)明顯下降;而將攻擊次數(shù)控制在千次以內,才更加貼近于解決Hardlabel 問題的實際場景.
本文提出了FastGBA(fast geometric boundary attack)攻擊算法:一種新的黑盒攻擊算法,是一種在樣本空間內針對決策邊界的幾何攻擊算法.FastGBA 算法相比于SurFree 攻擊算法,在相同的查詢次數(shù)限制下,可以產(chǎn)生L2距離更小的對抗樣本.在查詢次數(shù)限制在千次以內時,其成功率較SurFree 攻擊算法也有著大幅度的提升.
本文的主要貢獻有4 個方面:
1)提出了FastGBA 攻擊算法.這是一種在樣本空間內針對決策邊界的幾何探測的攻擊算法,它能夠很好地解決Hard-label 問題.
2)引入了基于自注意力機制的注意力圖生成方案,利用注意力圖作為掩模,探究了掩模的處理方式與算法效率的關系,為后續(xù)掩模的使用提供了新的使用思路與方案.
3)在4 個不同的深度學習模型上進行了攻擊實驗,實驗結果表明,F(xiàn)astGBA 攻擊算法具有很強的泛化性和穩(wěn)定性,更加適用于模型的風險評估工作.
4)與近期表現(xiàn)最優(yōu)的2 種攻擊算法(HSJA,SurFree)進行了比較,在低查詢量(查詢次數(shù)不大于500 次);中低擾動(L2距離不大于10)的條件下,在4個模型上的攻擊成功率相較于SurFree 攻擊算法提升了14.5%~ 24.4%,相較于HSJA 攻擊算法提升了28.9%~36.8%.
給定一個預訓練模型,記其函數(shù)形式為:
對于一個給定的樣本x0,輸入模型可得到top-1分類結果,即k=F(x0),k∈{1,2,…,C}.
對于攻擊者而言,需要找到對抗樣本xadv,令xadv足夠接近x0,但二者卻可令分類器產(chǎn)生截然不同的分類結果,數(shù)學描述為:
由于F(x)只給出top-1 分類結果,因此該問題為Hard-label 問題,即每次添加完擾動后,只能通過查詢模型來獲取結果擾動結果,需要在查詢次數(shù)盡可能低的情況下,找到一個較為接近x0的對抗樣本xadv.
在本節(jié)中,首先對所提出算法的總體架構進行介紹,其次對所提算法中各個主要部分進行說明.
算法首先通過計算獲取到掩模,以掩模和原始樣本作為問題的輸入,而后通過2 個階段來求解該問題.算法主要流程如下.
1)先將原始圖像輸入到基于自注意力機制實現(xiàn)的網(wǎng)絡模型中,再通過基于深度泰勒分解的方法來獲取到原始圖像的注意力圖,并以注意力圖作為掩模,進入第1 階段.
2)第1 階段為線性方向的二分逼近,其過程為:在以原始樣本點為中心的超球面O1上進行隨機采樣,采樣分布為一個低頻分布,采樣所得到的噪聲為低頻噪聲.將采樣得到的噪聲與掩模進行Hadamard運算,再對噪聲進行線性方向上的二分逼近,找到離樣本點相對較近的一個對抗點.該過程反復進行多次,取最終L2距離最小的對抗樣本點作為第2 階段的輸入.
3)第2 階段為基于幾何探測的邊界逼近,其過程為:在以原始樣本點和對抗點連線的中點為中心的超球面O2上取點,取點位置在對抗點的鄰域附近,取得的點為待檢測樣本點.若探測的點為對抗樣本點,則以探測到的對抗樣本點為新的對抗點;若探測的點不為對抗樣本點,則對抗樣本點位置不變.該過程也執(zhí)行多次,直至查詢次數(shù)耗盡,最終獲得的對抗樣本點即為該問題的解.FastGBA 算法的架構流程如圖1所示.
Brunner 等人[28]的工作證明了柏林噪聲[29]在對抗攻擊中的作用,陳偉等人[30]的工作證明了Simplex噪聲[31]在對抗攻擊中的作用.柏林噪聲與Simplex 噪聲均屬于低頻噪聲,在連續(xù)的空間內具有相近的像素值,像素值變化緩慢,具有較強的低頻屬性,在對抗攻擊中效果顯著優(yōu)于高斯噪聲等白噪聲.
Fig.1 FastGBA algorithm architecture圖1 FastGBA 算法架構
Guo 等人[32-33]的工作進一步提出了控制低頻噪聲頻率的方法,可以通過離散余弦變換及其逆變換來控制低頻系數(shù).首先生成一個全0 矩陣;其次將矩陣左上角的數(shù)值進行隨機賦值;再將矩陣經(jīng)過離散余弦變換或逆離散余弦變換來獲得低頻噪聲;最后通過控制0 像素值的比例,就可以控制低頻噪聲的生成.
在本文中,采樣方式與Guo 等人[32-33]的方式一致,首先生成一個與原圖像尺寸相同的全0 矩陣,記圖像大小為W×W;其次將矩陣的左上角大小為(W/8)×(W/8)的矩陣的數(shù)值全部替換為從高斯分布中采樣所得的數(shù)值;最后對此矩陣進行逆離散余弦變換,便得到一個低頻噪聲.低頻噪聲圖如圖2 所示:
Fig.2 Low frequency noise obtained by inverse discrete cosine transform圖2 經(jīng)逆離散余弦變換所得的低頻噪聲
目前,在對抗樣本的生成方案中,大多數(shù)的算法都是將擾動施加到整個圖像中,幾乎每一個像素都會受到擾動.Brunner 等人[28]提出了使用掩模的方法來控制擾動,并且成功證明了將擾動限制在特定區(qū)域是有利于攻擊的.但該方法的掩模生成方案較為粗糙,即該掩模直接通過2 張圖像的減法運算得到,因此這種方案所標示的特定區(qū)域十分依賴于跟當前圖像相減的那張圖像,故而生成的掩模只能夠單一地應用于有目標攻擊.在進行無目標攻擊時,這種方案并不能準確地指示出特定區(qū)域.
最近關于視覺Transformer 的相關工作[34-35]表明,不論是人類視覺系統(tǒng)還是神經(jīng)網(wǎng)絡對圖像進行識別,必然都有重點關注的特征區(qū)域,即興趣區(qū)域(region of interest,ROI).對感興趣的區(qū)域進行攻擊,同時盡量減小對其他區(qū)域像素的擾動,可以得到L2距離更小的對抗樣本.
本文引入了基于自注意力機制生成的注意力圖,并利用注意力圖作為掩模.Chefer 等人[35]近期提出了一種新的關于Transformer 的解釋機制的方法來生成注意力圖,本文引用此方法生成的注意力圖作為掩模,令掩模與每次生成的低頻噪聲進行Hadamard 乘積運算.圖3 展示了原圖、注意力圖以及二者的疊加可視化圖像.
實驗發(fā)現(xiàn),通過計算所得到的掩模在非ROI 區(qū)域的權值不一定為0,這需要設定一個閾值δ,將小于δ的數(shù)值變?yōu)?,計算方式可表述為:
其中sgn(·)為符號函數(shù),mask與δ的運算借助Python的廣播機制來進行,得到的掩模對采樣的噪聲計算方式為:
邊界攻擊通常需要從一個已經(jīng)是對抗性的樣本點出發(fā),逐漸減小與原樣本的距離.我們發(fā)現(xiàn)Cheng等人[27]在sign-opt 算法中所使用的基于二分逼近的快速算法十分有效,它直接從高斯分布中采樣,通過100 次循環(huán)來查找相對原樣本較近的對抗樣本點.但這樣做存在的一個明顯的缺點是采樣的高斯噪聲與原圖像疊加后不能確保得到的圖像是對抗性的.
本文對文獻[27]中這一操作進行了改進:首先從高斯分布中采樣隨機噪聲θ,對θ使用逆離散余弦變換,令噪聲轉換至低頻空間中;其次對θ和掩模進行Hadamard 運算并進行向量單位化,得到一個新的擾動方向,在此方向上,與以原始圖像為中心、初始距離為300 的超球面上所得的交點進行二分逼近,得到該方向上L2距離最小的對抗點.反復進行上述過程,直至設定的二分逼近次數(shù)耗盡.操作如圖4 所示.
Fig.3 Illustration of attention mechanism圖3 注意力機制的圖示
Fig.4 Binary approximation diagram圖4 二分逼近示意圖
算法1.一次線性方向的二分逼近算法.
輸入:原始圖像x0,原始圖像標簽y0,神經(jīng)網(wǎng)絡分類器F,當前最小L2距離dbest,最小距離所對應的方向θbest,圖像尺寸大小w,圖像掩模mask;
輸出:噪聲較大的對抗樣本xadv.
在經(jīng)過線性二分逼近后,所找到的對抗點已經(jīng)十分靠近決策邊界,最大程度地利用好查詢次數(shù),也就是每經(jīng)過一次查詢后,都可以找到一個距離原圖像更近的對抗點,這樣就可以極大程度地減小距離.經(jīng)過SurFree 攻擊算法這種基于幾何性質的算法啟發(fā),本文提出了基于幾何性質的鄰域探測算法.
考慮當前對抗點xadv與x0的中點xmid,以xmid為中心、d(x0,xadv)/2 為半徑的超球面O2,由幾何性質可知,球內的任意一條弦的長度都不超過球的直徑,即性質1.
性質1.?xcandidate∈O2,d(xcandidate,x0) ≤d(xadv,x0),當且僅當xcandidate=xadv時,d(xcandidate,x0)=d(xadv,x0).
在當前對抗點的鄰域中,可以大概率地找到令圖像距離減小且保持對抗性的點.本文提出算法2 來選取具體的待檢測樣本點,具體思路為:通過構建正交單位向量u和v來計算出待檢測樣本點.u為原始樣本點指向對抗樣本點的方向的一個單位向量,v為與u正交的一個單位向量.通過u和v不斷地進行矢量相加,再單位化的計算,令指向方向與超球面O2的交點更加靠近xadv,在交點靠近xadv的鄰域后,選取當前方向與超球面O2的交點作為待檢測樣本點,此過程中無需進行模型查詢,計算的詳細過程參見算法2.
算法2.待檢測樣本點選取算法.
輸入:原始圖像x0,圖像掩模mask,對抗樣本xadv,圖像尺寸大小w;
輸出:待檢測樣本點xcandidate,對抗樣本點與原始樣本點的中點xmid,單位向量u和v.
由算法2 所計算出的候選樣本點存在概率不具有對抗性,面對這種情況,需要繼續(xù)執(zhí)行基于幾何性質的鄰域探測.令算法2 得到的u和v進行矢量疊加,得到新的方向,計算此方向與超球面的交點,查詢此樣本點是否為對抗點,不為對抗點則繼續(xù)執(zhí)行算法2.詳細的探測過程見算法3.待檢測樣本點選取示意圖如圖5 所示.
算法3.一次鄰域探測算法.
輸入:原始圖像x0,原始圖像標簽y0,神經(jīng)網(wǎng)絡分類器F,對抗樣本點xadv,圖像掩模mask,圖像尺寸大小w;
輸出:一個新的對抗樣本點xadv.
Fig.5 Schematic diagram of candidate sample point selection圖5 待檢測樣本點選取示意圖
由算法2 可知,待檢測樣本點都處于以對抗樣本點和原始樣本點連線的中點為球心的超球面上.由性質1 可知,這種待檢測樣本點與原始樣本點的距離都小于當前對抗樣本點與原始樣本點的距離.由算法3 可以不斷檢查待檢測樣本點,當發(fā)現(xiàn)檢測的樣本點具有對抗性,更新此樣本點為當前對抗樣本點.不斷重復算法3 過程,便可以不斷逼近黑盒模型的決策邊界,即不斷縮小L2距離.
選用4 個深度學習神經(jīng)網(wǎng)絡模型作為黑盒攻擊的替代模型,網(wǎng)格模型分別為ResNet-18[1],ResNet-152[1],DenseNet-161[4],EfficientNet-B4[5].這4 個模型 的top-1 正確率如表1 所示.
實驗的側重點是評估在相同限制條件下不同算法的攻擊成功率,故本文僅從ImageNet 數(shù)據(jù)集中每個標簽挑選一張可以被表1 中4 個模型正確分類的圖像來進行實驗,共計1 000 張圖像,并且將圖像大小放縮至3×224×224.
Table 1 Black Box Substitutive Models and Their top-1 Accuracies表1 黑盒替代模型及其top-1 準確率
實驗平 臺環(huán)境:Intel Xeon Gold 5 218 2.30 GHz(CPU),NVIDIA Tesla V100S ×2(GPU),188 GB 內 存(DDR4),Ubuntu 18.04.5 LTS(操作系統(tǒng)),Python 3.8,Pytorch 1.7.1(深度學習框架).
算法采用L2距離作為擾動評價標準,并以攻擊成功率作為算法優(yōu)越性的衡量標準.針對單張圖像,每一種攻擊算法的攻擊效果都不盡相同,不能夠準確地反映出算法效率,因此在數(shù)據(jù)集上總體的攻擊成功率更加能夠說明算法效率的指標.總體的攻擊成功率計算公式為:
其中N表示樣本總數(shù),本文中N=1 000,Nadv表示經(jīng)過有限次查詢后產(chǎn)生的對抗樣本的L2距離小于給定L2距離的樣本數(shù)量.
首先對FastGBA 算法閾值δ的取值進行實驗,并提出了δ的動態(tài)改變方案.隨后,選取發(fā)表于CVPR 2021 的SurFree[25]攻擊算法以及發(fā)表于IEEE S&P 2020 的HSJA[24]攻擊算法作為基準(baseline),進行了對比實驗.其中SurFree 攻擊算法采用原作者的開源代碼,HSJA 攻擊算法采用Foolbox[36]中的開源代碼.最后進行了消融實驗,分析了本文算法對實驗結果的影響.
經(jīng)過多次實驗,發(fā)現(xiàn)將δ設置為一個固定數(shù)值時,無法得到一個較優(yōu)的勝率,即δ不存在一個固定的最優(yōu)值.對每張不同的圖像,最優(yōu)的δ值都各不相同,故此設計了一個逐步遞減的δ值動態(tài)改變方案,即在前100 輪隨機查找最近點時,每10 輪令δ值遞減0.05,δ初始值設置為0.5.
Fig.6 Changes curves of attack success rate under different ranges of disturbance圖6 不同范圍內擾動下攻擊成功率的變化曲線
在500 次查詢次數(shù)的限制下,如圖6(b)所示,在小擾動范圍內(擾動大小處于0~10)時,固定δ值時的效果幾乎差不多,沒有明顯的分化.如圖6(c)所示,在中等擾動范圍內(擾動大小在10~20)時,開始出現(xiàn)分化,呈現(xiàn)出固定δ值取值較小時,效果越好.如圖6(d)所示,在大擾動范圍內(擾動大小超過20),分化變得很明顯,也是固定δ值取值較小時效果越好.
而通過圖6 可以發(fā)現(xiàn)δ值動態(tài)改變方案可以在每一個階段都超越固定值方案,效果優(yōu)于固定值方案.在擾動大小大于5 時,動態(tài)改變方案效果顯著優(yōu)于固定值方案,成功率的提升在5%~10%,擾動越大,攻擊成功率的提升越明顯.
同時還可以發(fā)現(xiàn),若δ值取值過大,在中等擾動以及大擾動的情況下,攻擊成功率會顯著下降.這一現(xiàn)象說明基于自注意力機制所產(chǎn)生的掩模所標識的擾動區(qū)域基本上是準確的,其以大數(shù)值所標識的區(qū)域基本上是深度學習模型所較為關注的特征區(qū)域,應當予以保留并在這些區(qū)域上進行擾動添加.
本文所提出的動態(tài)改變方案旨在尋找到最適合單張圖像的δ值,抹除掉掩模中對于非重要特征區(qū)域的擾動,從而減小圖像的整體擾動,提升成功率.
表2 展示了在500 次、1 000 次、2 000 次的查詢次數(shù)限制下,3 種算法在4 個深度學習模型上所產(chǎn)生的對抗樣本小于目標L2距離的成功率.通過表2 可知:
1)FastGBA 攻擊算法具有更強的泛化性.在查詢次數(shù)為2 000 且L2距離小于等于20 的限制下,F(xiàn)astGBA攻擊算法在4 種模型上的攻擊成功率均超過了90%,而HSJA 攻擊算法以及SurFree 攻擊算法在相同的限制下,在4 種模型上的表現(xiàn)并不穩(wěn)定.在ResNet-18 模型上,二者都可以達到90%以上的成功率;與之不同的是在ResNet-152 以及EfficientNet-B4 模型上,二者的成功率甚至都沒有超過80%;在DenseNet-161 模型上,F(xiàn)astGBA 攻擊算法的成功率領先HSJA 攻擊算法18%,領先SurFree 攻擊算法11.8%,這表明FastGBA攻擊算法的泛化性要優(yōu)于HSJA 攻擊算法以及SurFree 攻擊算法.
2)FastGBA 攻擊算法具有更強的攻擊性能.在查詢次數(shù)限制在1 000 次內時,F(xiàn)astGBA 攻擊算法的成功率優(yōu)于HSJA 攻擊算法以及SurFree 攻擊算法.限制條件越苛刻,F(xiàn)astGBA 攻擊算法的優(yōu)勢就越明顯.在攻擊EfficientNet-B4 這個高準確率模型時,限制查詢次數(shù)為500 且L2距離小于等于1 時,F(xiàn)astGBA 攻擊算法的成功率是HSJA 攻擊算法的1.28 倍,是SurFree攻擊算法的4.63 倍.
Table 2 Success Rate of Reaching the Target Distance Under the Limitation of Query Times表2 在有限查詢次數(shù)下達到目標距離的成功率
3)FastGBA 攻擊算法產(chǎn)生的對抗樣本具有更好的視覺效果.對人類視覺系統(tǒng)而言,L2距離小于等于10 時,對抗樣本與原圖像已經(jīng)非常相似;L2距離小于等于5 時,人眼已經(jīng)幾乎無法區(qū)分對抗樣本與原圖像.通過表2 數(shù)據(jù)可以發(fā)現(xiàn),在限制L2距離小于等于10 的條件下,F(xiàn)astGBA 攻擊算法的表現(xiàn)全面超越了HSJA 攻擊算法以及SurFree 攻擊算法.
4)FastGBA 攻擊算法更加 穩(wěn)定.ResNet-152 模型相比于ResNet-18 模型,神經(jīng)網(wǎng)絡層數(shù)更多,可以擬合更加復雜的數(shù)據(jù)分布,能夠學習到的數(shù)據(jù)特征也就越多.攻擊算法在面臨網(wǎng)絡層數(shù)加深的此類情況時會面臨攻擊性能下降的問題,在查詢次數(shù)為1 000 次、L2距離限制為20 時,HSJA 攻擊算法成功率下降了21.8%,SurFree 攻擊算法成功率下降了24%,而Fast-GBA 攻擊算法成功率僅下降了5.7%,這表明Fast-GBA 攻擊算法相較于HSJA 攻擊算法以及SurFree 攻擊算法更加穩(wěn)定.
圖7 展示了在500 次、1 000 次、2 000 次查詢限制下,3 種攻擊算法在4 個深度學習模型上的攻擊成功率與擾動大小間的關系.圖7 結果表明,3 種算法均是擾動越大,攻擊率成功率越高.
通過圖7 可以發(fā)現(xiàn):
1)4 個模型上都存在在擾動大小相同的情況下,F(xiàn)astGBA 攻擊算法的攻擊成功率基本上都高于SurFree攻擊算法以及HSJA 攻擊算法.在成功率一致的情況下,F(xiàn)astGBA 攻擊算法所產(chǎn)生的擾動總體上都小于SurFree 攻擊算法以及HSJA 攻擊算法.
2)FastGBA 攻擊算法的收斂速度更快.在低查詢量時(查詢次數(shù)為500),3 種算法在4 個模型上都未表現(xiàn)出收斂的趨勢,但FastGBA 攻擊算法的成功率均一直領先于HSJA 攻擊算法和SurFree 攻擊算法;在中等查詢量時(查詢次數(shù)為1 000),F(xiàn)astGBA 攻擊算法與SurFree 攻擊算法在ResNet-18 模型上已經(jīng)表現(xiàn)出收斂趨勢,在其余3 個高正確率模型上尚未表現(xiàn)出收斂趨勢,HSJA 攻擊算法尚未表現(xiàn)出收斂趨勢;在查詢次數(shù)較高時(查詢次數(shù)為2 000),可以發(fā)現(xiàn)FastGBA 攻擊算法在4 個模型上都已經(jīng)表現(xiàn)出明顯的收斂趨勢,而SurFree 攻擊算法在ResNet-18 模型上已經(jīng)表現(xiàn)出收斂趨勢,在其余3 個高正確率模型上尚未表現(xiàn)出明顯的收斂趨勢,HSJA 攻擊算法的收斂趨勢一直不明顯.以上表明了FastGBA 攻擊算法相比SurFree 攻擊算法以及HSJA 攻擊算法具有更快的收斂速度.
Fig.7 The change curve between disturbance sizes and attack success rates圖7 擾動大小與攻擊成功率的變化曲線
在較深的神經(jīng)網(wǎng)絡模型上,即ResNet-152,DenseNet-161,EfficientNet-B4 上,查詢次數(shù)為500 時,SurFree 攻擊算法與HSJA 攻擊算法的成功率與擾動大小呈現(xiàn)出明顯的線性相關,F(xiàn)astGBA 攻擊算法的成功率則呈現(xiàn)出曲線上升.這進一步說明了FastGBA 攻擊算法的效率更高,收斂速度更快.
3) FastGBA 存 在2 個不足.一是想 要接近100%成功率地攻破一個深度學習模型,3 種算法均需要使用較大的擾動.因此,如何在低查詢量、低擾動的情況下,盡可能地提高攻擊成功率需要進一步研究.二是在較淺的神經(jīng)網(wǎng)絡模型ResNet-18 上使用高查詢量(查詢次數(shù)為2 000)和高擾動(L2距離大于20)時,SurFree 攻擊算法略優(yōu)于FastGBA 攻擊算法,盡管在此時二者差距不超過1%.這可能是由于FastGBA 攻擊算法采用鄰域探測進行對抗樣本,發(fā)現(xiàn)導致FastGBA 攻擊算法容易陷入局部最優(yōu)解.這表明在此種條件下,F(xiàn)astGBA 攻擊算法將來還需要進一步優(yōu)化與提高.
表3 展示了分別為在500 次、1 000 次、2 000 次查詢限制下,3 種算法在4 個深度學習模型上產(chǎn)生的對抗樣本.在中低查詢量時(查詢次數(shù)小于等于1 000),F(xiàn)astGBA 攻擊算法所產(chǎn)生的圖像由于應用了掩模的緣故,擾動較為集中,常常會集中在圖像的某一區(qū)域內,隨著查詢次數(shù)的增加,這些擾動也在逐漸減小,所產(chǎn)生的對抗樣本質量逐漸提高.SurFree 攻擊算法與HSJA 攻擊算法所產(chǎn)生的擾動則會均勻地作用在整張圖像上,隨著查詢次數(shù)的增加,二者所產(chǎn)生的對
抗樣本的質量也在逐漸提高.
Table 3 Attack Results on the Same Images Under the Limit of Same Query Times表3 相同查詢次數(shù)限制下對同一圖像的攻擊結果
在實驗中,F(xiàn)astGBA 攻擊算法與SurFree 攻擊算法都使用了低頻噪聲來進行攻擊,HSJA 攻擊算法使用的則為高斯噪聲.低頻噪聲的平滑性可以令圖像產(chǎn)生更加逼近真實圖像的紋理特征.分類器會將低頻噪聲所添加的特征提取出來與圖像原本特征一同進行分類,大大降低了正確類別所對應的置信度;而高斯噪聲較為尖銳,不易組成更加貼近真實圖像的特征,且也容易被線性濾波器濾除,造成攻擊失效.這也是在低查詢量時(查詢次數(shù)為500),HSJA 攻擊算法表現(xiàn)較差的原因之一.SurFree 攻擊算法雖然使用了低頻噪聲來進行實驗,但其在初始化對抗樣本時直接使用了基于均勻噪聲的線性初始化,而導致生成的對抗樣本在視覺上無法體現(xiàn)出其使用了低頻噪聲.
本文對算法中的組成模塊進行了消融實驗,分析了低頻噪聲與掩模對算法性能的影響.
圖8 展示了針對ResNet-18 模型,在查詢次數(shù)為500 的限制下,各種模塊對于成功率的影響.當同時使用了低頻噪聲與自注意力機制生成的掩模時,F(xiàn)astGBA 攻擊算法的效果最好;低頻噪聲和掩模2 個模塊都不使用時,攻擊成功率最低.
Fig.8 Ablation study圖8 消融實驗
可以發(fā)現(xiàn),F(xiàn)astGBA 攻擊算法在僅使用高頻噪聲即高斯噪聲時,攻擊效率明顯低于僅使用低頻噪聲.在僅使用低頻噪聲的情況下,攻擊成功率有了大幅度的提高.在使用高頻噪聲與掩模的情況下,攻擊成功率也同樣明顯優(yōu)于僅使用高頻噪聲.
在將低頻噪聲與掩模結合至FastGBA 攻擊算法中時,成功率得到進一步提升,超過其余的3 種情形.
實驗證明,低頻噪聲和掩模會對攻擊成功率造成較大的影響,也給對抗防御提供了新的思路,可以從消除低頻噪聲和區(qū)域噪聲這兩點入手,進行防御訓練.
針對Hard-label 問題本文提出了FastGBA 攻擊算法,其核心思想為:在當前對抗樣本的鄰域,通過幾何性質,快速發(fā)現(xiàn)新的對抗樣本.實驗結果表明本文所提出的算法能夠有效地提高對抗攻擊的成功率,并且相比于當前的最好算法能夠在較低查詢率下有著更加明顯的效果.
本研究仍然存在不足之處:FastGBA 攻擊算法采取鄰域探測,易陷入局部最優(yōu)解.因此,下一步擬對FastGBA 攻擊算法如何跳出局部最優(yōu)解做進一步探究.并且,在本文所提出算法中,低頻噪聲的生成采取了固定頻率的生成,沒有結合樣本的原始紋理特征去做考慮,因此未來將對低頻噪聲的自適應生成做進一步的研究,探究噪聲生成頻率對攻擊算法成功率的影響.
作者貢獻聲明:劉昊提出了算法思路和實驗方案;張澤輝、夏曉帆對實驗方案提出了改進意見并修改論文;高鐵杠提出了指導意見并修改論文.