李杉
摘? ?要:如今,作為人工智能應(yīng)用方面關(guān)鍵之一的深度學(xué)習(xí)被廣泛應(yīng)用于圖像分類和圖像識(shí)別的問題中。近期,研究人員提出了“對(duì)抗樣本”的概念。對(duì)抗樣本是通過深度學(xué)習(xí)方法產(chǎn)生的普遍存在于機(jī)器學(xué)習(xí)模型中的問題之一。文章介紹了對(duì)抗樣本的基本概念及其相關(guān)概念。對(duì)近年來有關(guān)于對(duì)抗樣本的研究和論文進(jìn)行了簡(jiǎn)單總結(jié),按照各自的算法原理將經(jīng)典的生成算法分成基于梯度優(yōu)化損失函數(shù),基于優(yōu)化目標(biāo)函數(shù)和GAN 3大類進(jìn)行簡(jiǎn)單介紹,并對(duì)一些方法的對(duì)抗性進(jìn)行了分析與對(duì)比。
關(guān)鍵詞:深度學(xué)習(xí);對(duì)抗樣本生成;機(jī)器學(xué)習(xí)
近年來,人工智能發(fā)展勢(shì)頭迅猛。深度學(xué)習(xí)的概念也被廣泛應(yīng)用到當(dāng)今研究的諸多方面。對(duì)抗樣本是由Szegedy等[1]提出的、常見于深度神經(jīng)網(wǎng)絡(luò)中、能夠使得深度學(xué)習(xí)出現(xiàn)錯(cuò)誤的一類合成樣本。目前,對(duì)對(duì)抗樣本的研究逐漸引發(fā)了人們對(duì)深度學(xué)習(xí)安全問題的思考,深度學(xué)習(xí)模型將某些人類無法識(shí)別的樣本以高置信度進(jìn)行分類從而暴露了其極大的脆弱性。對(duì)抗樣本的生成技術(shù)是研究對(duì)抗樣本的關(guān)鍵之一,通過對(duì)生成對(duì)抗樣本的各種技術(shù)的總結(jié)與歸納,不但可以發(fā)現(xiàn)基本的生成規(guī)律,還可以發(fā)現(xiàn)一些創(chuàng)新點(diǎn)與應(yīng)用價(jià)值。
1? ? 簡(jiǎn)介
1.1? 對(duì)抗樣本的基本概念
對(duì)抗樣本(Adversarial Examples,AE)是指在人類能夠辨識(shí)出來目標(biāo)物體的前提下,向原有樣本中添加微小擾動(dòng),導(dǎo)致模型以高置信度給出一個(gè)錯(cuò)誤的輸出。人類觀察者不會(huì)察覺原始樣本和對(duì)抗樣本之間的差異,但是網(wǎng)絡(luò)會(huì)作出非常不同的預(yù)測(cè)[2]。
1.2? 相關(guān)概念
黑盒測(cè)試[3](Black Box Test,BBT):未知模型(包括網(wǎng)絡(luò)結(jié)構(gòu)及權(quán)值參數(shù)等信息)的情況下,從輸入和輸出數(shù)據(jù)的對(duì)應(yīng)關(guān)系進(jìn)行測(cè)試的方法。
白盒測(cè)試[3](White Box Test,WBT):已知模型(包括網(wǎng)絡(luò)結(jié)構(gòu)及權(quán)值參數(shù)等信息)的情況下進(jìn)行的測(cè)試方法,與黑盒測(cè)試相對(duì)。
目標(biāo)定向攻擊(Targeted Attack,TA):通過對(duì)輸入樣本進(jìn)行一定的擾動(dòng),使得模型誤分類為某個(gè)特定類別。
目標(biāo)非定向攻擊(Non-targeted Attack,NTA):對(duì)輸入樣本進(jìn)行一定的擾動(dòng),使得模型產(chǎn)生誤分類。
2? ? 對(duì)抗樣本生成方法
近年來,學(xué)術(shù)界針對(duì)不同的優(yōu)化算法提出了很多的對(duì)抗樣本生成算法。文章僅挑選幾個(gè)經(jīng)典的算法簡(jiǎn)單介紹。
2.1? 基于梯度優(yōu)化損失函數(shù)
2.1.1? FGSM
FGSM是一種對(duì)抗樣本的快速生成的方法,僅對(duì)輸入進(jìn)行一次擾動(dòng),它將輸入x的每個(gè)像素修改一個(gè)小幅度,以最大化預(yù)測(cè)損失。因此,它不能保證成功改變輸入的類別。通過增加擾動(dòng)幅度可以提高成功率,但這可能會(huì)導(dǎo)致人眼可見的較大擾動(dòng)。FGSM在對(duì)抗樣本領(lǐng)域被廣泛使用,由于它具有極高的效率和較高的攻擊成功率,所以通常作為新的防御策略的基準(zhǔn)攻擊方法或基準(zhǔn)評(píng)估方法[4]。
2.1.2? I-FGSM
I-FGSM即Itersative FGSM,是迭代版FGSM算法,其基本的思想是把優(yōu)化區(qū)間減小,也就是假設(shè)優(yōu)化的目標(biāo)函數(shù)在很小的區(qū)間內(nèi)是線性的,就可以在這個(gè)很小的區(qū)間內(nèi)采用FGSM的優(yōu)化算法。I-FGSM通過迭代的方式使得生成的對(duì)抗樣本的攻擊性能更好,也極大地提高了對(duì)抗樣本的魯棒性[5]。
2.1.3? MI-FGSM
MI-FGSM是由Yinpeng Dong等[6]在借鑒I-FGSM和ILCM兩種算法以后提出的基于定向目標(biāo)的黑盒攻擊方法。該方法把梯度迭代部分用動(dòng)量迭代來替代,并在Iterative的基礎(chǔ)上引入了Momentum,在保證樣本攻擊能力的同時(shí)提升了對(duì)抗樣本的遷移性。
2.2? 基于優(yōu)化目標(biāo)函數(shù)
2.2.1? C&W attacks
C&W attacks是由Carlini等[7]在總結(jié)了L-BFGS、FGSM和JSMA幾個(gè)對(duì)抗樣本生成的方法后提出的算法。該方法是前3種方法的拓展,并且比以往的攻擊方式更加有效。這個(gè)算法被公認(rèn)為是目前最強(qiáng)的攻擊算法。
2.2.2? DeepFool
DeepFool是由Seyed-Mohsen等[8]提出的目標(biāo)非針對(duì)性的方法。該方法對(duì)深度網(wǎng)絡(luò)有很強(qiáng)的對(duì)抗性和魯棒性,并且在保持與FGSM差不多的對(duì)抗性的同時(shí)產(chǎn)生更小的擾動(dòng)。
2.2.3? Curls&Whey
Curls&Whey是由Yucheng Shi等提出的針對(duì)黑盒攻擊設(shè)計(jì)的方法。該方法采用卷曲迭代和過濾擾動(dòng)結(jié)合的解決算法,以期解決在沿梯度上升方向單調(diào)地添加擾動(dòng)所生成的迭代軌跡缺乏多樣性和適應(yīng)性的缺陷及容易添加過多擾動(dòng)的問題。
2.2.4? Box-constrained L-BFGS
Box-constrained L-BFGS是由Szegedy等提出的基于L-BFGS的對(duì)抗樣本生成算法,該算法成功對(duì)MNIS和ImageNet(Alexnet分類模型)的數(shù)據(jù)進(jìn)行攻擊[10]。
2.3? 基于GAN
PS-GAN[11]是針對(duì)攻擊力的增強(qiáng)和逼真程度的提高而提出的一種感知敏感生成對(duì)抗網(wǎng)絡(luò)。PS-GAN將patch的生成轉(zhuǎn)化為一個(gè)patch到另一個(gè)patch的翻譯以提高視覺逼真度,進(jìn)而輸出與被攻擊圖像具有高度感知相關(guān)性的類似對(duì)抗patch。在對(duì)抗樣本的生成中引入attention機(jī)制以增強(qiáng)對(duì)抗樣本的攻擊能力,預(yù)測(cè)出合適的攻擊區(qū)域作為patch,進(jìn)而產(chǎn)生更真實(shí)、更有攻擊性的對(duì)抗樣本。
3? ? 結(jié)語(yǔ)
近年來,機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用,對(duì)抗樣本作為機(jī)器學(xué)習(xí)模型普遍存在的問題之一,受到了更多的重視。文章簡(jiǎn)單介紹了基于梯度優(yōu)化損失函數(shù)、優(yōu)化目標(biāo)函數(shù)、GAN 3種分類的8種對(duì)抗樣本生成方法,對(duì)一些方法的對(duì)抗性進(jìn)行了分析與對(duì)比,可為對(duì)抗樣本生成技術(shù)的研究與應(yīng)用提供參考。
[參考文獻(xiàn)]
[1]SZEGEDY C,ZAREMBA W,SUTSKEVER I,et al.Intriguing properties of neural networks[J].Computer Science,2013(4):1312.
[2]MIYATO T,MAEDA S,KOYAMA M,et al.Distributional smoothing by virtual adversarial examples[C].Kyoto:International Conference on Learning Representations,2015.
[3]ZHAO C.Analysis of black box testing and white box testing[J].Silicon Valley,2010(11):39.
[4]潘文雯,王新宇,宋明黎,等.對(duì)抗樣本生成技術(shù)綜述[J].軟件學(xué)報(bào),2016(2):1-17.
[5]劉雨佳.針對(duì)神經(jīng)網(wǎng)絡(luò)的圖像對(duì)抗樣本生成及應(yīng)用研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2019.
[6]DONG Y,LIAO F,PANG T,et al.Boosting adversarial attacks with momentum[J].Springer,2017(3):1085.
[7]CARLINI N,WAGNER D.Towards evaluating the robustness of neural networks[J].2017 IEEE Symposium on Security and Privacy,2016(2):39-57.
[8]MOOSAVIDEZFOOLI S M,F(xiàn)AWZI A,F(xiàn)ROSSARD P.DeepFool:a simple and accurate method to fool deep neural networks[C].Las Vegas:Processing of the IEEE Conference On Computer Vision and Pattern recognition(CVPR) IEEE,2016.
[9]SHI Y,WANG S,HAN Y.Curls&Whey:boosting black-box adversarial attacks[EB/OL].(2019-04-02)[2020-01-01].https://arxiv.org/abs/1904.01160v1.
[10]陳岳峰,毛瀟鋒,李裕宏,等.AI安全—對(duì)抗樣本技術(shù)綜述與應(yīng)用[J].信息安全研究,2019(11):1000-1007.
[11]AISHAN L,XIANGLONG L,JIAXIN F,et al.Perceptual-sensitive GAN for generating adversarial patches[EB/OL].(2019-07-10)[2020-01-01].https://www.researchgate.net/publication/335800857_Perceptual-Sensitive_GAN_for_Generating_Adversarial_Patches.