基于邊界值不變量的對(duì)抗樣本檢測(cè)方法

2020-04-15 03:47:50嚴(yán)飛張銘倫張立強(qiáng)

網(wǎng)絡(luò)與信息安全學(xué)報(bào) 2020年1期

嚴(yán)飛，張銘倫，張立強(qiáng)

嚴(yán)飛，張銘倫，張立強(qiáng)

（武漢大學(xué)國(guó)家網(wǎng)絡(luò)安全學(xué)院空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室，湖北武漢 430072）

目前，深度學(xué)習(xí)成為計(jì)算機(jī)領(lǐng)域研究與應(yīng)用最廣泛的技術(shù)之一，在圖像識(shí)別、語(yǔ)音、自動(dòng)駕駛、文本翻譯等方面都取得良好的應(yīng)用成果。但人們逐漸發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)容易受到微小擾動(dòng)圖片的影響，導(dǎo)致分類(lèi)出現(xiàn)錯(cuò)誤，這類(lèi)攻擊手段被稱(chēng)為對(duì)抗樣本。對(duì)抗樣本的出現(xiàn)可能會(huì)給安全敏感的應(yīng)用領(lǐng)域帶來(lái)災(zāi)難性的后果?，F(xiàn)有的防御手段大多需要對(duì)抗樣本本身作為訓(xùn)練集，這種對(duì)抗樣本相關(guān)的防御手段是無(wú)法應(yīng)對(duì)未知對(duì)抗樣本攻擊的。借鑒傳統(tǒng)軟件安全中的邊界檢查思想，提出了一種基于邊界值不變量的對(duì)抗樣本檢測(cè)防御方法，該方法通過(guò)擬合分布來(lái)尋找深度神經(jīng)網(wǎng)絡(luò)中的不變量，且訓(xùn)練集的選取與對(duì)抗樣本無(wú)關(guān)。實(shí)驗(yàn)結(jié)果表明，在LeNet、vgg19模型和Mnist、Cifar10數(shù)據(jù)集上，與其他對(duì)抗檢測(cè)方法相比，提出的方法可有效檢測(cè)目前的常見(jiàn)對(duì)抗樣本攻擊，并且具有低誤報(bào)率。

深度神經(jīng)網(wǎng)絡(luò)；邊界檢查；不變量；對(duì)抗樣本檢測(cè)

1 引言

深度神經(jīng)網(wǎng)絡(luò)（DNN）在許多應(yīng)用中取得了非常明顯的成功，如人臉識(shí)別[1]、自動(dòng)駕駛汽車(chē)[2]、惡意軟件分類(lèi)[3]和專(zhuān)用網(wǎng)絡(luò)連接歸屬[4]。但隨著時(shí)間的推移，研究人員發(fā)現(xiàn)了DNN容易受到對(duì)抗樣本的影響[5]，即攻擊者可以干擾良性輸入，加入擾動(dòng)，使DNN出現(xiàn)分類(lèi)錯(cuò)誤的情況。目前對(duì)抗樣本的攻擊方法主要分為兩種：基于梯度的方法和基于內(nèi)容的方法。在基于梯度的方法中，攻擊者將生成對(duì)抗樣本視為優(yōu)化問(wèn)題，并進(jìn)行梯度搜索以找到對(duì)抗樣本[6-10]。在基于內(nèi)容的方法中，攻擊者更追求現(xiàn)實(shí)世界中的可用性，通常為輸入數(shù)據(jù)加入補(bǔ)丁，這些補(bǔ)丁與現(xiàn)實(shí)世界相符，如圖像上的水印和由攝像機(jī)鏡頭上的污垢造成的黑點(diǎn)等[11]。

目前對(duì)這類(lèi)問(wèn)題的解決思路主要包括兩個(gè)方向：提升DNN系統(tǒng)自身穩(wěn)健性和檢測(cè)對(duì)抗樣本。在提升DNN穩(wěn)健性方面，比較典型的工作包括對(duì)抗訓(xùn)練[7]和梯度遮掩[12]。對(duì)抗訓(xùn)練主要是將對(duì)抗樣本加入DNN的訓(xùn)練過(guò)程中，以此來(lái)增強(qiáng)DNN模型本身，這種技術(shù)對(duì)于已知攻擊十分有效，對(duì)于未知攻擊效果有限。梯度遮掩則是通過(guò)對(duì)于梯度進(jìn)行遮掩，使攻擊者難以利用梯度進(jìn)行對(duì)抗樣本生成。然而，攻擊者已經(jīng)開(kāi)發(fā)了針對(duì)此類(lèi)防御更高級(jí)的攻擊手段。文獻(xiàn)[13-16]不試圖加強(qiáng)模型本身，而是在操作過(guò)程中檢測(cè)對(duì)抗樣本。例如，Ma等[15]提出使用基于局部?jī)?nèi)在維度的異常檢測(cè)度量來(lái)檢測(cè)對(duì)抗樣本；Xu[16]等使用精心構(gòu)造的濾波器來(lái)檢查原始圖像與轉(zhuǎn)換后圖像的預(yù)測(cè)的不一致性；MagNet[17]和HGD[18]則通過(guò)訓(xùn)練編碼器和解碼器來(lái)去除對(duì)抗樣本的附加噪聲。

調(diào)查發(fā)現(xiàn)目前多數(shù)針對(duì)對(duì)抗樣本的防御，往往考慮的是正常圖片與對(duì)抗樣本之間基于圖片像素之間的差異，通過(guò)這些差異進(jìn)行對(duì)抗樣本的檢測(cè)防御。同時(shí)，大多數(shù)方法都需要對(duì)抗樣本作為訓(xùn)練數(shù)據(jù)，由于新式對(duì)抗樣本攻擊方法層出不窮，因此并不能有效防御未知對(duì)抗樣本攻擊手段。本文借鑒軟件安全中的邊界檢查概念，僅僅通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行檢測(cè)器的訓(xùn)練，提出了基于邊界值不變量的對(duì)抗樣本檢測(cè)方法（簡(jiǎn)稱(chēng)BVI），該方法通過(guò)擬合分布來(lái)尋找深度神經(jīng)網(wǎng)絡(luò)中的不變量，具備對(duì)抗樣本攻擊手法無(wú)關(guān)的檢測(cè)能力。實(shí)驗(yàn)表明，該方法與同類(lèi)工作相比，不僅可以檢測(cè)未知新型對(duì)抗樣本攻擊，還具有誤報(bào)率低的優(yōu)勢(shì)。

2 對(duì)抗樣本簡(jiǎn)介及相關(guān)工作

本節(jié)將對(duì)深度神經(jīng)網(wǎng)絡(luò)以及常見(jiàn)的對(duì)抗樣本攻擊和防御手段進(jìn)行介紹。

2.1 神經(jīng)網(wǎng)絡(luò)

本文集中于-class分類(lèi)模型。對(duì)于-class分類(lèi)模型，模型輸出是一個(gè)維的vector，每一維表示輸入被分類(lèi)為該類(lèi)別的概率。定義一個(gè)神經(jīng)網(wǎng)絡(luò)，如式(1)所示。

2.2 對(duì)抗樣本分類(lèi)介紹

DNN受到對(duì)抗樣本的影響。對(duì)抗樣本是在被正常分類(lèi)的輸入上加入一些擾動(dòng)，使分類(lèi)器對(duì)其分類(lèi)錯(cuò)誤。目前的工作主要有兩種不同類(lèi)別的生成對(duì)抗樣本的方法：基于梯度的方法與基于內(nèi)容的方法。

（1）基于梯度的方法

因此，生成對(duì)抗樣本可以被看作優(yōu)化問(wèn)題，targeted攻擊如式(4)所示，untargeted攻擊如式(5)所示。

（2）基于內(nèi)容的攻擊

2.3 常見(jiàn)對(duì)抗樣本攻擊手段

本節(jié)將討論針對(duì)DNN模型的4種現(xiàn)有的代表性攻擊，包括基于梯度的攻擊和基于內(nèi)容的攻擊。雖然一般情況下機(jī)器學(xué)習(xí)模型存在對(duì)抗性攻擊[23]，但本文主要關(guān)注DNN模型上的對(duì)抗性樣本。

（1）快速梯度符號(hào)方法(FGSM，fast gradient sign method)

（2）DeepFool

Moosavi等[24]設(shè)計(jì)了DeepFool攻擊，首先假設(shè)模型是完全線(xiàn)性的。在這個(gè)假設(shè)下，有一個(gè)多面體可以分離各個(gè)類(lèi)。生成對(duì)抗樣本成為一個(gè)更簡(jiǎn)單的問(wèn)題，因?yàn)轭?lèi)的邊界是線(xiàn)性平面，整個(gè)區(qū)域（對(duì)于這個(gè)類(lèi)）是一個(gè)多面體。DeepFool攻擊通過(guò)使用2距離搜索特定區(qū)域內(nèi)具有最小擾動(dòng)的對(duì)抗樣本，采用幾何中的方法來(lái)指導(dǎo)搜索對(duì)抗樣本的過(guò)程。對(duì)于模型不完全線(xiàn)性的情況，通過(guò)利用迭代線(xiàn)性化過(guò)程導(dǎo)出近似多面體，并在找到真正的對(duì)抗樣本時(shí)終止該過(guò)程。該攻擊的變化是在原始對(duì)象附近。DeepFool是untargeted攻擊。

（3）基于雅可比的顯著性圖攻擊（JSMA，Jacobian-based saliency map attack）方法

（4）Carlini and Wagner attacks(C&W)

2.4 現(xiàn)有的對(duì)抗樣本防御與檢測(cè)手段

目前，主流防御手段主要分為模型本身防御與外置的檢測(cè)手段。

對(duì)于現(xiàn)有的防御手段，防御技術(shù)通過(guò)強(qiáng)化DNN模型以防止對(duì)抗樣本攻擊[27-29]。Papernot等[30]全面研究了現(xiàn)有的防御機(jī)制，并將其分為兩大類(lèi)：對(duì)抗性訓(xùn)練和梯度掩蔽。

Goodfellow等[7]介紹了對(duì)抗性訓(xùn)練的思想。對(duì)抗訓(xùn)練擴(kuò)展了訓(xùn)練數(shù)據(jù)集，包括帶有正確標(biāo)簽的對(duì)抗樣本。但是，對(duì)抗訓(xùn)練需要事先了解所有可能的攻擊，因此無(wú)法處理新的攻擊方法。

梯度遮掩[12]的基本思想是通過(guò)訓(xùn)練具有微?。ㄈ缃咏?）梯度的模型來(lái)增強(qiáng)訓(xùn)練過(guò)程，使模型對(duì)輸入中的微小變化不敏感。然而，實(shí)驗(yàn)表明梯度遮掩可能導(dǎo)致正常輸入樣本的準(zhǔn)確性降低。Papernot等[31]引入防御性蒸餾來(lái)強(qiáng)化DNN模型。它通過(guò)平滑現(xiàn)有DNN的預(yù)測(cè)結(jié)果來(lái)訓(xùn)練模型。通過(guò)將softmax函數(shù)平滑，來(lái)隱藏來(lái)自攻擊者的梯度信息。然而，此類(lèi)模型可以通過(guò)高級(jí)攻擊[9-10,32]來(lái)打破。Athalye等[33]研究表明，通過(guò)梯度近似可以避免混淆梯度。Papernot等[30]得出結(jié)論，由于對(duì)抗樣本的可傳遞性，在訓(xùn)練中控制梯度信息對(duì)防御對(duì)抗性攻擊的影響有限，傳遞性意味著從某模型生成的對(duì)抗樣本可用于攻擊不同的模型。

對(duì)于現(xiàn)有檢測(cè)方面，對(duì)抗樣本檢測(cè)用于確定特定輸入樣本是否是對(duì)抗樣本。許多之前的研究[14,34-37]已經(jīng)建立了檢測(cè)系統(tǒng)?，F(xiàn)有的檢測(cè)手段可分為兩大類(lèi)：基于度量的方法與基于預(yù)測(cè)不一致的方法。

（1）基于度量的方法

有關(guān)研究人員已經(jīng)提出對(duì)輸入（和激活值）進(jìn)行統(tǒng)計(jì)測(cè)量以檢測(cè)對(duì)抗樣本。FEINMAN等[13]提出使用核密度估計(jì)（KD）和貝葉斯不確定性（BU）來(lái)識(shí)別對(duì)抗子空間，以分離正常輸入和對(duì)抗樣本。Carlini等[38]表明這種方法可以被繞過(guò)，但也認(rèn)為這種方法是有希望的方向。受到來(lái)自異常檢測(cè)社區(qū)的想法的啟發(fā)，Ma等[15]最近提出使用被稱(chēng)為局部?jī)?nèi)在維度（LID）的測(cè)量。對(duì)于給定的樣本輸入，該方法估計(jì)LID值，該LID值通過(guò)計(jì)算樣本的距離分布和各個(gè)層鄰居的數(shù)量來(lái)評(píng)估樣本周?chē)鷧^(qū)域的空間填充能力。該文獻(xiàn)表明，對(duì)抗樣本往往具有較大的LID值。他們的研究結(jié)果表明，LID在對(duì)抗樣本檢測(cè)中優(yōu)于BU和KD，目前代表了這類(lèi)型探測(cè)器的最精確水平。這些技術(shù)的關(guān)鍵挑戰(zhàn)是如何定義高質(zhì)量的統(tǒng)計(jì)指標(biāo)，使該指標(biāo)可以清楚地分辨正常樣本和對(duì)抗樣本之間的差異。Lu等[39]研究表明LID對(duì)攻擊部署的置信參數(shù)很敏感，并且容易受到對(duì)抗樣本傳遞性的影響。

（2）基于預(yù)測(cè)不一致的方法

許多其他工作[6,40-41]都基于預(yù)測(cè)不一致的方法，即對(duì)抗樣本具有擾動(dòng)，利用其他檢測(cè)手段與原輸出進(jìn)行比較，一致為正常樣本，不一致則為對(duì)抗樣本。TAO等[41]提出通過(guò)測(cè)量原始神經(jīng)網(wǎng)絡(luò)和用人類(lèi)可感知屬性增強(qiáng)的神經(jīng)網(wǎng)絡(luò)之間的不一致來(lái)檢測(cè)對(duì)抗性的例子，然而，這種方法需要人類(lèi)定義的檢測(cè)屬性。最先進(jìn)的檢測(cè)技術(shù)Feature Squeezing[16]可以實(shí)現(xiàn)對(duì)各種攻擊非常高的檢測(cè)率，文獻(xiàn)指出，DNN具有不必要的大輸入特征空間，這允許對(duì)手產(chǎn)生對(duì)抗樣本。因此，他們提出使用擠壓技術(shù)（即減小圖像的顏色深度和平滑圖像），以產(chǎn)生一些壓縮圖像。特征擠壓限制了對(duì)手可用的自由度，然后DNN模型獲取所有壓縮圖像和原始種子圖像，并單獨(dú)進(jìn)行預(yù)測(cè)。通過(guò)測(cè)量原始種子輸入的預(yù)測(cè)矢量和每個(gè)壓縮圖像之間的距離來(lái)檢測(cè)對(duì)抗性樣本。如果其中一個(gè)距離超過(guò)閾值，則種子輸入被視為惡意。然而，根據(jù)文獻(xiàn)[16]，該技術(shù)在FGSM、BIM和一些基于內(nèi)容的攻擊方法在CIFAR和ImageNet上表現(xiàn)不佳。這是因?yàn)槠湫阅芨叨纫蕾?lài)于設(shè)計(jì)的擠壓器的質(zhì)量。

3 對(duì)抗樣本檢測(cè)器分析與實(shí)現(xiàn)

3.1 威脅模型

假設(shè)對(duì)手知道原始分類(lèi)器的所有內(nèi)容（包括訓(xùn)練的權(quán)重），以便攻擊者可以構(gòu)建強(qiáng)攻擊，如CW攻擊。同時(shí)檢測(cè)器不知道用于生成對(duì)抗樣本的方法。根據(jù)攻擊者對(duì)于檢測(cè)器的了解程度，可以分成多種場(chǎng)景。最弱的攻擊場(chǎng)景是對(duì)手對(duì)探測(cè)器一無(wú)所知，在這種情況下，攻擊者僅了解原始分類(lèi)器。最強(qiáng)大的攻擊場(chǎng)景是對(duì)手完全了解使用的探測(cè)器。

由于探測(cè)器本身也是一個(gè)分類(lèi)器，這使它容易受到對(duì)抗性樣本的影響[42]。不過(guò)，此限制并非特定于本文的技術(shù)，因?yàn)槠渌F(xiàn)有檢測(cè)技術(shù)也遇到相同的問(wèn)題。在如此強(qiáng)大的威脅模型下，與其他技術(shù)相比，本文的技術(shù)具有更好的彈性。如第3.2節(jié)所述，本文采用的檢測(cè)器基于多個(gè)子特征。在檢測(cè)器的訓(xùn)練期間，在激活的神經(jīng)元上分別擬合分布以產(chǎn)生多個(gè)分布函數(shù)，這能夠靈活地生成多個(gè)檢測(cè)器。在運(yùn)行時(shí)，可以使用不同的檢測(cè)器（或它們的組合）來(lái)檢測(cè)對(duì)抗樣本，這大大提高了產(chǎn)生對(duì)抗樣本的難度。但是，完全防止對(duì)抗樣本對(duì)于所有的DNN是幾乎不可能的。本文的目標(biāo)是建立一個(gè)通用而實(shí)用的解決方案來(lái)大幅提高攻擊者的攻擊門(mén)檻。

3.2 基于邊界值檢查的不變量

邊界檢查在程序設(shè)計(jì)中是指在使用某一個(gè)變量前，檢查該變量是否處在一個(gè)特定范圍之內(nèi)。最常見(jiàn)的是數(shù)組的下標(biāo)檢查，防止下標(biāo)超出數(shù)組范圍而覆蓋其他數(shù)據(jù)。若邊界檢查未能有效發(fā)現(xiàn)錯(cuò)誤，最常見(jiàn)的結(jié)果是程序出現(xiàn)異常并終止運(yùn)行，但也可能出現(xiàn)其他現(xiàn)象。將邊界檢查應(yīng)用到神經(jīng)網(wǎng)絡(luò)中，每一個(gè)神經(jīng)元經(jīng)過(guò)訓(xùn)練集的訓(xùn)練后，都可以得到一組該神經(jīng)元關(guān)于訓(xùn)練集的輸出集合，如式(7)所示。

同時(shí)，由于DNN擁有多層結(jié)構(gòu)與大量神經(jīng)元，因此通過(guò)計(jì)算每個(gè)神經(jīng)元的邊界值開(kāi)銷(xiāo)過(guò)大?；趯?duì)抗樣本是對(duì)于原圖片擾動(dòng)的假設(shè)，在神經(jīng)網(wǎng)絡(luò)開(kāi)始的層擾動(dòng)帶來(lái)的影響更大。后續(xù)的層擾動(dòng)經(jīng)過(guò)傳遞逐漸減弱，每一層點(diǎn)的分布開(kāi)始和正常樣本趨于一致。

3.3 檢測(cè)器的實(shí)現(xiàn)

對(duì)抗樣本本質(zhì)是在正常圖片中加入擾動(dòng)，該擾動(dòng)造成傳遞過(guò)程中輸出值的改變，從而最終影響分類(lèi)結(jié)果。在神經(jīng)網(wǎng)絡(luò)中，低層往往提取的是最基本的特征。對(duì)抗樣本為了造成分類(lèi)錯(cuò)誤，對(duì)于低層擾動(dòng)更大，更可能造成其分布與正常樣本不同，因此可以通過(guò)擬合前面幾層的數(shù)據(jù)分布作為訓(xùn)練監(jiān)測(cè)模型的特征。

對(duì)于輸入，需要了解是否符合中的所有分布。由于是對(duì)單個(gè)輸入，并且目標(biāo)中的分布不一定是正態(tài)分布，所以采用K-S（Kolmogorov- Smirnov）檢驗(yàn)。K-S檢驗(yàn)是以?xún)晌惶K聯(lián)數(shù)學(xué)家Kolmogorov和Smirnov的名字命名的，它是一個(gè)擬合優(yōu)度檢驗(yàn)，研究樣本觀(guān)察值的分布和設(shè)定的理論分布是否吻合，通過(guò)對(duì)兩個(gè)分布差異的分析確定是否有理由認(rèn)為樣本的觀(guān)察結(jié)果來(lái)自所假定的理論分布總體。因此，對(duì)于輸入，計(jì)算關(guān)于所有分布的K-S檢驗(yàn)，得到的pvalue值為輸入關(guān)于分布f的置信度，也就是關(guān)于神經(jīng)元的邊界檢查置信度。該置信度值為后面訓(xùn)練檢測(cè)器所使用的特征。

本文檢測(cè)器的一大特點(diǎn)是僅使用良性樣本，也就是只使用訓(xùn)練樣本作為檢測(cè)器的訓(xùn)練集，這使該檢測(cè)器不同于那些基于對(duì)抗訓(xùn)練的防御方法以及需要對(duì)抗樣本作為訓(xùn)練集的檢測(cè)器。因此，本文的檢測(cè)器是與對(duì)抗樣本攻擊無(wú)關(guān)的，不需要考慮具體的對(duì)抗樣本攻擊手段，這樣對(duì)于未知的對(duì)抗樣本也具有很好的防御效果。

本文將不含對(duì)抗樣本的訓(xùn)練任務(wù)建模為一個(gè)單分類(lèi)任務(wù)。在單分類(lèi)任務(wù)中，大部分訓(xùn)練樣本是正例，在測(cè)試時(shí)包含所有種類(lèi)輸入（如不同環(huán)境下的對(duì)抗樣本攻擊）。單分類(lèi)任務(wù)在文獻(xiàn)[37,43]中經(jīng)過(guò)詳細(xì)討論。盡管單分類(lèi)不如正負(fù)分類(lèi)精確，但在本文的場(chǎng)景中非常適合，因?yàn)槭褂昧硕嘟M不變量聯(lián)合作為決策依據(jù)，因此可以有效緩和單分類(lèi)的不精確問(wèn)題。

本文使用One-class SVM[37]算法作為分類(lèi)器。One-class SVM的基本思想是在不同類(lèi)別之間假設(shè)一個(gè)決策邊界，通過(guò)訓(xùn)練集來(lái)學(xué)習(xí)決策邊界的參數(shù)。對(duì)于OSVM來(lái)說(shuō)，最常用到的是RBF核，在本文的條件中，大部分輸入是不合法的（如大多數(shù)隨機(jī)圖片是不真實(shí)的），合法輸入都聚集在一個(gè)小空間中，因此使用RBF可以得到很好的效果。使用之前得到的輸入關(guān)于中分布的K-S檢驗(yàn)置信度作為特征進(jìn)行OSVM的訓(xùn)練，核為RBF核，由此得到本文的檢測(cè)器。其正例輸出為1，則為正常樣本；輸出?1，則為對(duì)抗樣本。

4 實(shí)驗(yàn)測(cè)試與分析

4.1 實(shí)驗(yàn)設(shè)置

1) 數(shù)據(jù)集。本文采用兩個(gè)流行的圖像數(shù)據(jù)集MNIST[44]，CIFAR-10[45]。MNIST是用于手寫(xiě)數(shù)字識(shí)別的灰度數(shù)據(jù)圖像。CIFAR-10是用于對(duì)象識(shí)別的彩色圖像數(shù)據(jù)集。本文選擇這兩個(gè)數(shù)據(jù)集是因?yàn)樗鼈兪谴巳蝿?wù)中使用最廣泛的數(shù)據(jù)集，并且目前大部分攻擊都是針對(duì)它們執(zhí)行的。其中MNIST數(shù)據(jù)集具有60 000張訓(xùn)練圖片，10 000張測(cè)試圖片。CIFAR-10具有50 000張彩色訓(xùn)練圖片，10 000張測(cè)試圖片。MNIST和CIFAR-10均為多分類(lèi)問(wèn)題。

2) 對(duì)抗樣本攻擊手段。本文評(píng)估了第2節(jié)描述的4種攻擊的檢測(cè)。對(duì)于FGSM、JSMA攻擊，使用Foolbox庫(kù)[46]來(lái)生成對(duì)抗樣本，而對(duì)于其他攻擊，參考了文獻(xiàn)[24-25]。對(duì)于這4種攻擊，F(xiàn)GSM采用untargeted攻擊方式，因?yàn)橄啾萾argeted方式，untargeted修改的幅度更小，更難被檢測(cè)出來(lái)。對(duì)于CW和JSMA攻擊，采用兩種攻擊配置：下一類(lèi)別攻擊（記作Next），即使圖片錯(cuò)誤分類(lèi)成它的下一個(gè)類(lèi)別（如將2分類(lèi)成3）最小類(lèi)別攻擊（記作LL），將圖片錯(cuò)誤分類(lèi)成其差異最大的類(lèi)別（如將1分類(lèi)成8）。

3) 模型。本文在兩種流行的模型上評(píng)估提出的技術(shù)。對(duì)于MNIST數(shù)據(jù)集，使用LeNet家族中的LeNet-5模型[45]；對(duì)于CIFAR-10數(shù)據(jù)集，采用VGG19模型[47]。

4) 比較。同樣和頂尖的檢測(cè)器進(jìn)行對(duì)比?；诙攘康姆烙椒ㄟx取LID[15]；降噪的防御方法選取MagNet[17]；基于預(yù)測(cè)不一致的防御方法，選取Feature Squeezing[16]。

4.2 實(shí)驗(yàn)結(jié)果

本文方法對(duì)于對(duì)抗樣本檢測(cè)的結(jié)果如表1所示。從結(jié)果可以看出，除了JSMA攻擊，其余都基本全部檢測(cè)出來(lái)。由于JSMA是0攻擊，修改的像素點(diǎn)較少，因此邊界檢查即分布擬合的違反較小，所以準(zhǔn)確率相較于其他方法較低。

本文方法與其他檢測(cè)器的檢測(cè)結(jié)果的比較如表2所示。每一行代表一個(gè)檢測(cè)器方法，每一列代表一種攻擊手段。從表2可以看出，本文的檢測(cè)手段基本達(dá)到了目前最高水準(zhǔn)的準(zhǔn)確率。同時(shí)，具有目前最低的誤報(bào)率，這是基于測(cè)試集分布與訓(xùn)練集基本一樣得到的，這意味著本文的檢測(cè)器模型最大程度上避免將良性樣本分類(lèi)成對(duì)抗樣本，因此本文的分類(lèi)器分類(lèi)結(jié)果最為可信。

表1 本文方法對(duì)于對(duì)抗體檢測(cè)的結(jié)果

表2 本文方法與其他檢測(cè)器的檢測(cè)結(jié)果的比較

5 結(jié)束語(yǔ)

本文基于傳統(tǒng)軟件安全領(lǐng)域的邊界檢查，通過(guò)擬合輸出的分布，構(gòu)建了一種不依賴(lài)于攻擊方式的對(duì)抗樣本防御手段。本文的防御手段只使用了訓(xùn)練集和圖像本身的信息，而不需要任何特定對(duì)抗樣本攻擊知識(shí)。實(shí)驗(yàn)結(jié)果表明，采用邊界不變量的檢測(cè)手段達(dá)到了目前最好的檢測(cè)效果級(jí)別，同時(shí)擁有極低的誤報(bào)率，可以更有效地進(jìn)行對(duì)抗樣本檢測(cè)。

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2012: 1097-1105.

[2] BOJARSKI M, Del TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[J]. arXiv preprint arXiv:1604.07316, 2016.

[3] DAHL G E, STOKES J W, DENG L, et al. Large-scale malware classification using random projections and neural networks[C]// 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 3422-3426.

[4] MIRSKY Y, DOITSHMAN T, ELOVICI Y, et al. Kitsune: an ensemble of autoencoders for online network intrusion detection[J]. arXiv preprint arXiv:1802.09089, 2018.

[5] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.

[6] DHILLON G S, AZIZZADENESHELI K, LIPTON Z C, et al. Stochastic activation pruning for robust adversarial defense[J]. arXiv preprint arXiv:1803.01442, 2018.

[7] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[J]. arXiv: preprint arXiv: 1412. 6572, 2014.

[8] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

[9] CARLINI N, WAGNER D. Defensive distillation is not robust to adversarial examples[J]. arXiv preprint arXiv:1607.04311, 2016.

[10] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). 2016: 372-387.

[11] LIU Y, MA S, AAFER Y, et al. Trojaning attack on neural networks[C]// Network and Distributed System Security Symposium. 2018.

[12] GU S, RIGAZIO L. Towards deep neural network architectures robust to adversarial examples[J]. arXiv preprint arXiv:1412.5068, 2014.

[13] FEINMAN R, CURTIN R R, SHINTRE S, et al. Detecting adversarial samples from artifacts[J]. arXiv preprint arXiv:1703.00410, 2017.

[14] GROSSE K, MANOHARAN P, PAPERNOT N, et al. On the (statistical) detection of adversarial examples[J]. arXiv preprint arXiv:1702.06280, 2017.

[15] MA X, LI B, WANG Y, et al. Characterizing adversarial subspaces using local intrinsic dimensionality[J]. arXiv preprint arXiv: 1801.02613, 2018.

[16] XU W, EVANS D, QI Y. Feature squeezing: detecting adversarial examples in deep neural networks[J]. arXiv preprint arXiv: 1704.01155, 2017.

[17] MENG D, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//The 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 135-147.

[18] LIAO F, LIANG M, DONG Y, et al. Defense against adversarial attacks using high-level representation guided denoiser[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1778-1787.

[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[20] BROWN T B, MANé D, ROY A, et al. Adversarial patch[J]. arXiv preprint arXiv:1712.09665, 2017.

[21] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning models[J]. arXiv preprint arXiv:1707.08945, 2017.

[22] PEI K, CAO Y, YANG J, et al. Deepxplore: automated whitebox testing of deep learning systems[C]//The 26th Symposium on Operating Systems Principles. 2017: 1-18.

[23] BIGGIO B, ROLI F. Wild patterns: ten years after the rise of adversarial machine learning[J]. Pattern Recognition, 2018, 84: 317-331.

[24] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2574-2582.

[25] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 39-57.

[26] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

[27] ROUHANI B D, SAMRAGH M, JAVAHERIPIM, et al. Deepfense: online accelerated defense against adversarial deep learning[C]//IEEE/ACM International Conference on Computer-Aided Design (ICCAD). 2018: 1-8.

[28] SONG Y, KIM T, NOWOZIN S, et al. Pixeldefend: leveraging generative models to understand and defend against adversarial examples[J]. arXiv preprint arXiv:1710.10766, 2017.

[29] XIE C, WANG J, ZHANG Z, et al. Mitigating adversarial effects through randomization[J]. arXiv preprint arXiv:1711.01991, 2017.

[30] PAPERNOT N, MCDANIEL P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv:1611.03814, 2016.

[31] PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy (SP). 2016: 582-597.

[32] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.

[33] ATHALYE A, CARLINI N, WAGNER D. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples[J]. arXiv preprint arXiv:1802.00420, 2018.

[34] BHAGOJI A N, CULLINA D, MITTAL P. Dimensionality reduction as a defense against evasion attacks on machine learning classifiers[J]. arXiv preprint arXiv:1704.02654, 2017.

[35] GONG Z, WANG W, KU W S. Adversarial and clean data are not twins[J]. arXiv preprint arXiv:1704.04960, 2017.

[36] HENDRYCKS D, GIMPEL K. Early methods for detecting adversarial images[J]. arXiv preprint arXiv:1608.00530, 2016.

[37] TAX D M J, DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11-13): 1191-1199.

[38] CARLINI N, WAGNER D. Adversarial examples are not easily detected: bypassing ten detection methods[C]//The 10th ACM Workshop on Artificial Intelligence and Security. 2017: 3-14.

[39] LU P H, CHEN P Y, YU C M. On the limitation of local intrinsic dimensionality for characterizing the subspaces of adversarial examples[J]. arXiv preprint arXiv:1803.09638, 2018.

[40] GUO C, RANA M, CISSE M, et al. Countering adversarial images using input transformations[J]. arXiv preprint arXiv:1711.00117, 2017.

[41] TAO G, MA S, LIU Y, et al. Attacks meet interpretability: attribute-steered detection of adversarial samples[C]//Advances in Neural Information Processing Systems. 2018: 7717-7728.

[42] GILMER J, METZ L, FAGHRI F, et al. Adversarial spheres[J]. arXiv preprint arXiv:1801.02774, 2018.

[43] PERERA P, PATEL V M. Learning deep features for one-class classification[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5450-5463.

[44] TAX D M J, DUIN R P W. Data domain description using support vectors[C]//ESANN. 1999, 99: 251-256.

[45] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[R]. Technical Report, University of Toronto, 2009.

[46] RAUBER J, BRENDEL W, BETHGE M. Foolbox: a Python toolbox to benchmark the robustness of machine learning models[J]. arXiv preprint arXiv:1707.04131, 2017.

[47] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

Adversarial examples detection method based on boundary values invariants

YAN Fei, ZHANG Minglun, ZHANG Liqiang

Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education, School of Cyber Science and Engineering, Wuhan University, Wuhan 430072, China

Nowadays, deep learning has become one of the most widely studied and applied technologies in the computer field. Deep neural networks(DNNs) have achieved greatly noticeable success in many applications such as image recognition, speech, self-driving and text translation. However, deepneural networks are vulnerable to adversarial examples that are generated by perturbing correctly classified inputs to cause DNN modes to misbehave. A boundary check method based on traditional programs by fitting the distribution to find the invariants in the deep neural network was proposed and it use the invariants to detect adversarial examples. The selection of training sets was irrelevant to adversarial examples. The experiment results show that proposed method can effectively detect the current adversarial example attacks on LeNet, vgg19 model,Mnist, Cifar10 dataset, and has a low false positive rate.

deep neuron network, boundary checking, invariant, adversarial examples detecting

s: The National Basic Research Program of China (973 Program) (2014CB340601),The National Natural Science Foundation of China (No.61272452 )

TP309.2

10.11959/j.issn.2096?109x.2020012

嚴(yán)飛（1980? ），男，湖北武漢人，武漢大學(xué)副教授、碩士生導(dǎo)師，主要研究方向?yàn)橄到y(tǒng)安全、可信計(jì)算、系統(tǒng)安全驗(yàn)證與形式化分析和移動(dòng)目標(biāo)防御。

張銘倫（1995? ），男，江蘇連云港人，武漢大學(xué)碩士生，主要研究方向?yàn)槿斯ぶ悄芟到y(tǒng)本身的安全防護(hù)問(wèn)題。

張立強(qiáng)（1979? ），男，黑龍江哈爾濱人，武漢大學(xué)講師，主要研究方向?yàn)橄到y(tǒng)安全、可信計(jì)算和安全測(cè)評(píng)。

論文引用格式：嚴(yán)飛, 張銘倫, 張立強(qiáng). 基于邊界值不變量的對(duì)抗樣本檢測(cè)方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(1): 38-45.

YAN F, ZHANG M L, ZHANG L Q. Adversarial examples detection method based on boundary values invariants [J]. Chinese Journal of Network and Information Security, 2020, 6(1): 38-45.

2019?09?11；

2020?02?02

張立強(qiáng)，zhanglq@whu.edu.cn

國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃（“973”計(jì)劃）基金資助項(xiàng)目(No.2014CB340601 )；國(guó)家自然科學(xué)基金資助項(xiàng)目（No.61272452）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于邊界值不變量的對(duì)抗樣本檢測(cè)方法

1 引言

2 對(duì)抗樣本簡(jiǎn)介及相關(guān)工作

2.1 神經(jīng)網(wǎng)絡(luò)

2.2 對(duì)抗樣本分類(lèi)介紹

2.3 常見(jiàn)對(duì)抗樣本攻擊手段

2.4 現(xiàn)有的對(duì)抗樣本防御與檢測(cè)手段

3 對(duì)抗樣本檢測(cè)器分析與實(shí)現(xiàn)

3.1 威脅模型

3.2 基于邊界值檢查的不變量

3.3 檢測(cè)器的實(shí)現(xiàn)

4 實(shí)驗(yàn)測(cè)試與分析

4.1 實(shí)驗(yàn)設(shè)置

4.2 實(shí)驗(yàn)結(jié)果

5 結(jié)束語(yǔ)