基于幾何關(guān)系的跨模型通用擾動生成方法

2023-11-29 12:11:10張濟慈范純龍李彩龍鄭學(xué)東

計算機應(yīng)用 2023年11期

關(guān)鍵詞：模型

張濟慈，范純龍，李彩龍，鄭學(xué)東

張濟慈，范純龍*，李彩龍，鄭學(xué)東

（沈陽航空航天大學(xué) 計算機學(xué)院，沈陽 110136）（ ? 通信作者電子郵箱FanCHL@sau.edu.cn）

對抗攻擊通過在神經(jīng)網(wǎng)絡(luò)模型的輸入樣本上添加經(jīng)設(shè)計的擾動，使模型高置信度地輸出錯誤結(jié)果。對抗攻擊研究主要針對單一模型應(yīng)用場景，對多模型的攻擊主要通過跨模型遷移攻擊來實現(xiàn)，而關(guān)于跨模型通用攻擊方法的研究很少。通過分析多模型攻擊擾動的幾何關(guān)系，明確了不同模型間對抗方向的正交性和對抗方向與決策邊界間的正交性，并據(jù)此設(shè)計了跨模型通用攻擊算法和相應(yīng)的優(yōu)化策略。在CIFAR10、SVHN數(shù)據(jù)集和六種常見神經(jīng)網(wǎng)絡(luò)模型上，對所提算法進行了多角度的跨模型對抗攻擊驗證。實驗結(jié)果表明，給定實驗場景下的算法攻擊成功率為1.0，二范數(shù)模長不大于0.9，相較于跨模型遷移攻擊，所提算法在六種模型上的平均攻擊成功率最多提高57%，并且具有更好的通用性。

深度學(xué)習；對抗樣本生成；對抗攻擊；跨模型攻擊；分類器

0 引言

對抗攻擊的提出，更加凸顯了神經(jīng)網(wǎng)絡(luò)在實際生活和生產(chǎn)中的安全問題，因此，研究對抗攻擊算法，不僅能夠理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部機制和脆弱性，還能進一步探索如何提升神經(jīng)網(wǎng)絡(luò)的安全性和魯棒性，對神經(jīng)網(wǎng)絡(luò)可解釋性的發(fā)展也有著重要的意義。

在經(jīng)典的圖像分類領(lǐng)域中，對抗攻擊可以根據(jù)攻擊的場景分為白盒和黑盒算法，二者的區(qū)別在于攻擊者是否可以獲得所攻擊模型的詳細信息，如網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)等?，F(xiàn)有的一些攻擊方法是針對單樣本-單模型設(shè)計的，如在典型的白盒應(yīng)用場景中，快速梯度下降法（Fast Gradient Sign Method， FGSM）［1］認為神經(jīng)網(wǎng)絡(luò)因為具有線性性質(zhì)而容易受對抗擾動的影響，采用了一種基于梯度符號進行單步攻擊的方法；PGD（Projected Gradient Descent）［2］采用了一種min-max最優(yōu)化框架，利用多步迭代的方式尋找對抗樣本，解決了FGSM可能在極小范圍內(nèi)變化劇烈的復(fù)雜非線性模型上，解無法收斂的問題；DeepFool［3］同時考慮了梯度信息和神經(jīng)網(wǎng)絡(luò)分類器的函數(shù)景觀，將對抗擾動的求解從多元仿射分類器推廣到多元可微分類器中，這種迭代的貪心策略在實踐中取得了不錯的效果；CW［4］同時兼顧高攻擊成功率和低對抗擾動兩個方面，是攻破模型蒸餾防御的有效方法。在黑盒場景中，One pixel［5］針對單模型進行攻擊，采用差分進化算法求得最優(yōu)解，該方法僅改變一個像素點就能使神經(jīng)網(wǎng)絡(luò)分類器決策失誤；受CW啟發(fā)，ZOO（Zeroth Order Optimization）［6］采用了一種基于零階優(yōu)化的算法，以無導(dǎo)數(shù)的方式對梯度進行估計，并對一批坐標進行隨機梯度下降，提高了計算效率；NATTACK［7］通過求出對抗樣本的空間分布，可以針對一個樣本生成無數(shù)個對抗樣本。

以上單樣本-單模型的方法在單模型上表現(xiàn)較好，但沒有考慮到樣本級別的通用性，即擾動對樣本集中大部分樣本是通用的。因此研究者們又針對多樣本-單模型的場景提出大量的樣本通用攻擊方法，如UAP（Universal Adversarial Perturbation）［8］以及UAP的改進算法［9-10］，UAP表明了分類器高維決策邊界之間的幾何相關(guān)性，并利用每個樣本決策邊界的相關(guān)性和冗余性得到整個樣本集的通用擾動。還有一些數(shù)據(jù)無關(guān)的工作被提出，如FFF（Fast Feature Fool）［11］采用一種數(shù)據(jù)無關(guān)的方法生成目標數(shù)據(jù)不可知的擾動，證明了對網(wǎng)絡(luò)中單個層的特征激活進行改變就可以改變分類的結(jié)果；AAA（Ask， Acquire， and Attack）［12］通過引入生成對抗網(wǎng)絡(luò)計算通用擾動。

以上研究在樣本級別上考慮充分，但都只考慮了單模型。目前針對多模型的研究主要集中在對抗樣本的遷移性上，它衡量了一個模型生成的對抗樣本在另一個模型上的表現(xiàn)。文獻［13］中利用局部平滑梯度代替?zhèn)鹘y(tǒng)梯度，提出了一個方差減小攻擊來提高對抗樣本的遷移性；文獻［14］中通過結(jié)合生成對抗網(wǎng)絡(luò)進行對抗攻擊；文獻［15］中通過調(diào)整輸入的多樣性提高遷移成功率；文獻［16］中通過結(jié)合優(yōu)化方法和數(shù)據(jù)增強來提高對抗樣本的遷移性，具體是利用Nesterov算法跳出局部最優(yōu)解，同時加入縮放不變性；文獻［17］中對基于動量的攻擊進行改進，不僅考慮了圖像時域的梯度，還考慮了圖像空間域的梯度，獲得了較好的遷移成功率；文獻［18］的研究考慮了前一次迭代的梯度方差，通過方差調(diào)整當前梯度，從而穩(wěn)定更新方向，提高對抗樣本的遷移性。也有部分研究深入探索了對抗樣本具有遷移性的內(nèi)在機制，如文獻［19］中通過大量實驗對神經(jīng)網(wǎng)絡(luò)模型的決策邊界和幾何特性進行分析，發(fā)現(xiàn)不同模型之間梯度方向是近似正交的；文獻［20］的研究從類感知的可轉(zhuǎn)移性進行分析，認為對抗樣本使不同模型出現(xiàn)相同錯誤和不同錯誤的原因是對非魯棒性特征的使用方式不同。

這些針對對抗樣本遷移性的研究取得了大量的優(yōu)秀成果，但實質(zhì)上還是沒有針對多模型進行攻擊，這就意味著這些方法僅針對單樣本-單模型或者多樣本-單模型。盡管這些研究在單模型上有著優(yōu)異的效果，但當場景轉(zhuǎn)換為多模型時，這些方法的攻擊效率并不能得到保證。在圖像分類領(lǐng)域中，跨模型攻擊的研究還較少，其中文獻［21］中提出了一種集成機制，能保證非目標攻擊的成功率，但它攻擊成功的評價標準并不是擾動同時在多個模型上生效，因此并不是完全意義上的跨模型通用攻擊；文獻［22］中設(shè)計一種自適應(yīng)模型權(quán)重的方法在集成模型中進行部分像素攻擊，對擾動模長和模型的組合權(quán)重進行自適應(yīng)選擇，但是實驗的分析和評價指標略有欠缺。從目前的研究現(xiàn)狀來看，跨模型通用攻擊還有很多細節(jié)值得探索。

綜上所述，本文將研究重點放在單樣本-多模型的對抗樣本生成方法上。根據(jù)兩個幾何特性，提出了一種基于幾何關(guān)系的維度累加跨模型通用白盒攻擊算法，并提出對抗樣本的二范數(shù)模長優(yōu)化方法，實驗結(jié)果表明，本文算法可以有效地解決跨模型通用攻擊問題，并在攻擊成功率和效率方面均取得了良好的效果。本文的主要工作如下：

1）分析了不同模型間對抗性方向的關(guān)系和對抗性方向與決策邊界間的關(guān)系，得到兩個幾何特性結(jié)論，證明了跨模型通用攻擊的可解性；

2）提出基于幾何關(guān)系的維度累加跨模型通用攻擊方法，利用樣本點到?jīng)Q策邊界的最短距離確定單模型擾動向量，從多角度驗證方法在多模型上的有效性；

3）提出基于二分搜索策略的擾動二范數(shù)模長優(yōu)化方法，可以有效地降低擾動的二范數(shù)模長大小，并保證擾動仍是跨模型通用的。

1 跨模型攻擊方法

1.1　問題描述

根據(jù)式（3），跨模型通用攻擊成功的評價指標是所施加的擾動必須在多模型上同時生效，顯然，這個問題在多個深度神經(jīng)網(wǎng)絡(luò)中是高度復(fù)雜的，需要更深入地研究對抗樣本的本質(zhì)以及神經(jīng)網(wǎng)絡(luò)模型的性質(zhì)。

文獻［16］的研究發(fā)現(xiàn)，不同模型之間梯度方向是近似正交的，此外，文獻［23-24］的研究從兩種角度詮釋了對抗樣本存在的原因，其中文獻［23］構(gòu)建了一種更容易被人類理解的方法，從特征的魯棒性與非魯棒性出發(fā)，提出了對抗擾動是一種特征的本質(zhì)；文獻［24］則從幾何流形的角度分析對抗樣本的特性，文中提到的流形數(shù)據(jù)與非流形數(shù)據(jù)與魯棒和非魯棒特征是理解問題的兩種不同角度，這兩篇文章都對對抗樣本的內(nèi)在特性進行了深入解讀。

受上述研究的啟發(fā)，本文設(shè)計了一種基于幾何關(guān)系的維度累加白盒方法解決跨模型通用攻擊問題。該方法集成了不同模型的敏感擾動，使最終的擾動包含多個模型的擾動特性。

1.2　兩個幾何特性

1）對抗擾動與模型邊界的關(guān)系。如圖1（a）所示，對于一個二元線性分類器，沿著梯度的方向可以以最快速度找到對抗性擾動，最小的擾動可以用式（4）表示，直觀的理解就是樣本點到?jīng)Q策平面的距離。

在非線性的情況下，根據(jù)神經(jīng)網(wǎng)絡(luò)決策邊界近似線性性質(zhì)，同樣可以通過樣本點到?jīng)Q策平面的距離得到對抗性擾動的方向和大小。這與文獻［24］中對樣本點和決策邊界的分析一致，該文中通過凹槽流形解釋對抗樣本的內(nèi)在性質(zhì)及其存在的原因，作者認為訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)通過在圖像流形中引入凹槽形成了神經(jīng)網(wǎng)絡(luò)的決策邊界，而樣本的對抗性方向近似垂直于圖像流形。通過該理論解釋和圖1（b）中直觀的幾何關(guān)系，可以推斷出在一個逼近復(fù)雜非線性關(guān)系的神經(jīng)網(wǎng)絡(luò)模型中，一個樣本點的梯度方向即對抗性方向，垂直于該點的決策邊界。

圖1　二元線性分類器和二元非線性分類器下的對抗擾動求解

不同訓(xùn)練方式下的同種模型（NiN模型）的對抗性方向夾角值如圖3所示，可以看出，模型之間的對抗性方向的夾角范圍在76°～90°，在這種情況下，本文方法依然可以找到跨模型擾動的可行解，因為將擾動疊加之后，仍然可以保證最終的擾動中包含其他模型的擾動特性。

圖3　不同訓(xùn)練方式下同種模型（NiN）的對抗性方向夾角值

1.3　線性分類器下的跨模型通用攻擊

根據(jù)1.2節(jié)的描述，可以推出兩個有關(guān)幾何特性的結(jié)論：

結(jié)論1 在單個模型中，一個樣本點的對抗性方向與決策邊界近似正交。

結(jié)論2 在多個模型中，模型間的對抗性方向即梯度方向近似正交。

圖4　跨兩個二元線性分類器的對抗擾動求解

圖5　跨三個二元線性分類器的對抗擾動求解

2 跨模型的通用對抗樣本生成算法

2.1　非線性分類器下的跨模型通用攻擊

前面分析了線性分類器中跨模型通用對抗樣本的可解性，根據(jù)神經(jīng)網(wǎng)絡(luò)局部決策邊界近似線性這一依據(jù)，將多維線性分類器中擾動生成的思想進一步向深度神經(jīng)網(wǎng)絡(luò)的非線性場景中推廣，可以得出一個跨模型通用攻擊的可行策略。

圖6　跨兩個二元非線性分類器的對抗擾動求解

2.2　跨模型通用攻擊算法原理

算法1 候選擾動算法。

8） end if

9） end for

算法1中的new_deepfool算法的輸入為待攻擊樣本、攻擊模型和已攻擊過的標簽列表，它與原DeepFool算法的區(qū)別是不會再次攻擊之前攻擊過的標簽，這就保證了它不會在原始攻擊點和當前攻擊點之間停留，而是繼續(xù)向前尋找下一個可能存在的對抗樣本。該算法的攻擊原理與DeepFool相同，都是通過迭代地找到將輸入圖像推向分類模型的決策邊界的最小擾動量來工作，該擾動是在最接近決策邊界的方向上添加的，然后重復(fù)該過程直到圖像被錯誤分類。

算法2 跨模型對抗樣本生成算法。

13） end for

14） end for

15） end for

2.3　擾動模長優(yōu)化

前面具體描述了跨模型的通用攻擊方法，為了提高生成的對抗樣本的圖像質(zhì)量，設(shè)計了二分模長縮減算法對擾動的二范數(shù)模長進行優(yōu)化。

圖7　跨模型擾動與跨模型決策邊界關(guān)系

3 實驗與結(jié)果分析

3.1　實驗設(shè)置

本文選用CIFAR10［26］和SVHN［27］數(shù)據(jù)集，以及NiN［28］、VGG11［29］、ResNet18［30］、DenseNet121［31］、GoogleNet［32］、MobileNet［33］六種典型神經(jīng)網(wǎng)絡(luò)分類器，每個分類器通過設(shè)置不同的網(wǎng)絡(luò)參數(shù)初始化方式和學(xué)習率得到24種神經(jīng)網(wǎng)絡(luò)分類器，具體可以分為四種訓(xùn)練方式：方式1（Kaiming初始化+學(xué)習率1）；方式2（Kaiming初始化+學(xué)習率2）；方式3（Xavier初始化+學(xué)習率1）；方式4（Xavier初始化+學(xué)習率2）。從測試集中隨機選取了1 000張圖片進行對抗攻擊實驗，對本文算法的有效性及性能進行了驗證。所有實驗均在一臺搭載NVIDIA GeForce RTX 2080Ti GPU 的 Linux 工作站上完成，算法采用Python3.8開發(fā)環(huán)境及PyTorch1.6框架編程實現(xiàn)。

3.2　評價指標

為驗證本文攻擊算法的效果和性能，設(shè)置了如下幾個指標，分別為攻擊成功率、二范數(shù)平均模長、圖像質(zhì)量評估。

3）圖像質(zhì)量評估指標。

b）峰值信噪比（Peak Signal-to-Noise Ratio， PSNR）是一種評價圖像的客觀標準，它的值越大，說明失真越少。

3.3　性能驗證

為了驗證設(shè)計算法的攻擊質(zhì)量，從CIFAR10、SVHN測試集中隨機抽取1 000個樣本進行性能測試，實驗分別從兩個方面進行測試：第一個方面是采用不同訓(xùn)練方式下的同種模型（模型共4個，具體見表1，每一行為一個模型組）的算法性能；第二個方面是同種訓(xùn)練方式的不同模型（模型共6個，具體見表1，每一列為一個模型組）的算法性能，對比算法選擇旨在提高對抗樣本遷移性的SINIFGSM［16］、VMIFGSM［18］和VNIFGSM［18］，這些算法在跨模型遷移攻擊中表現(xiàn)良好。

表1　模型訓(xùn)練方式

具體結(jié)果見表2、3，從第一個方面（表2）可以看出無論是CIFAR10還是SVHN數(shù)據(jù)集，算法的攻擊成功率都是1.0，且生成的對抗樣本圖像質(zhì)量良好；從第二個方面（表3）看，無論是在CIFAR10還是SVHN數(shù)據(jù)集中，算法的跨模型攻擊成功率也同樣為1.0，生成的對抗樣本圖像質(zhì)量良好；無論從哪個方面來看，生成的對抗樣本圖像質(zhì)量良好，二范數(shù)模長均不大于0.9；SVHN的擾動二范數(shù)模長和平均樣本迭代次數(shù)均略大于CIFAR10數(shù)據(jù)集，其中采用Kaiming初始化方法訓(xùn)練的模型攻擊效果更好。以上的實驗結(jié)果說明，本文算法在有限個不同模型和相同模型之間的跨模型對抗樣本生成問題中都有著良好的效果。

對于表2、3中CIFAR10數(shù)據(jù)集上的表現(xiàn)效果略優(yōu)于SVHN數(shù)據(jù)集的結(jié)果，可以解釋如下：在模型訓(xùn)練中，實驗中用到的模型在SVHN數(shù)據(jù)集上的收斂速度和測試正確率都高于CIFAR10數(shù)據(jù)集，這意味著SVHN數(shù)據(jù)集上的預(yù)測值更具有魯棒性，不易被攻擊，因此，它的跨模型通用擾動的二范數(shù)模長和平均樣本迭代次數(shù)會高于CIFAR10。圖8是算法生成的跨模型對抗樣本的二模長范數(shù)分布情況，可以看出在CIFAR10上生成的擾動模長更集中于數(shù)值較小的區(qū)間，相對于CIFAR10，SVHN數(shù)據(jù)集下的擾動模長分布跨度較大。

表2　算法2在不同種訓(xùn)練方式下的同種模型間跨模型攻擊性能

表3　算法2在同種訓(xùn)練方式下的不同模型間跨模型攻擊性能

圖8　對抗樣本模長分布情況

在算法2的基礎(chǔ)上加入二分模長縮減策略的攻擊質(zhì)量如表4、5所示，可以看出，加入二分模長搜索策略后攻擊成功率仍然與原始性能相當。從跨不同訓(xùn)練方式的相同模型攻擊的角度看，在CIFAR10、SVHN數(shù)據(jù)集中，平均二范數(shù)模長下降了10%左右；從跨不同模型攻擊的角度看，在CIFAR10數(shù)據(jù)集中平均二范數(shù)模長下降了10%，在SVHN數(shù)據(jù)集中，平均二范數(shù)模長下降了9%；同時，在這兩個數(shù)據(jù)集上，生成的跨模型通用對抗樣本的圖片質(zhì)量較之前也有提升，由此可見該策略對于模長的縮減是有效的。

表6顯示的是三種對比算法在CIFAR10數(shù)據(jù)集和六種常見模型（方式1模型組）上的攻擊成功率，通過將三種算法在源模型產(chǎn)生的對抗樣本遷移到目標模型來獲得跨模型遷移成功率，從表中數(shù)據(jù)可以看出本文算法在攻擊成功率上比SINIFGSM、VMIFGSM、VNIFGSM這三種算法都更好，在六種模型上的平均攻擊成功率最多提高57%。圖9展示了部分對抗樣本，從生成的對抗樣本質(zhì)量來看，本文算法相較于對比算法有著更低的人眼敏感度。

表4　模長優(yōu)化在不同種訓(xùn)練方式下的同種模型間的跨模型攻擊性能

表5　模長優(yōu)化在同種訓(xùn)練方式下的不同模型間的跨模型攻擊性能

圖9　對抗樣本示例

3.4　結(jié)果分析

如圖10，實驗中發(fā)現(xiàn)一個有趣的現(xiàn)象，在CIFAR10數(shù)據(jù)集上，將每個模型上的分擾動和跨模型擾動分別在模型上的攻擊結(jié)果進行比較，發(fā)現(xiàn)單模型擾動與跨模型擾動的攻擊預(yù)測標簽值在分布上是基本一致的。這說明單模型擾動與跨模型擾動在同一模型上的預(yù)測表現(xiàn)基本一致，這一現(xiàn)象可能是由于跨模型擾動是由多個正交的單模型擾動組合而來，這個組合的跨模型擾動保留了多個模型產(chǎn)生擾動的特征，使它可以在多個模型中生效。而在SVHN數(shù)據(jù)集上，這種現(xiàn)象變得不那么明顯，我們推測是SVHN數(shù)據(jù)集簡單、模型的決策邊界更魯棒所導(dǎo)致的。本實驗結(jié)果表現(xiàn)出來的預(yù)測一致性，也可以用非魯棒性特征［21］解釋，即跨模型擾動保留了不同模型最敏感的非魯棒性特征。

除此之外，還分析了本文算法下的跨模型攻擊之間的類別敏感度，圖11展示了跨不同模型攻擊場景下，模型原始預(yù)測類別和算法攻擊后的預(yù)測類別之間的分布關(guān)系。可以看出，在CIFAR10數(shù)據(jù)集中，原始預(yù)測類別到攻擊后預(yù)測類別的轉(zhuǎn)換有著明顯的傾向性，攻擊后預(yù)測類別為3的樣本最多；而在SVHN數(shù)據(jù)集中，這種傾向性表現(xiàn)為攻擊后預(yù)測類別為2的樣本最多。

表6　對比算法在CIFAR10數(shù)據(jù)集和六種常見模型上的攻擊成功率

注：*表示源模型與目標模型相同。

圖10　實驗數(shù)據(jù)集上不同訓(xùn)練方式下的單模型攻擊與跨不同模型攻擊預(yù)測結(jié)果對比

4 結(jié)語

本文面向跨模型的通用對抗攻擊場景，根據(jù)模型之間和模型內(nèi)部的正交性，在DeepFool算法的基礎(chǔ)上，提出了一種基于幾何關(guān)系的跨模型通用攻擊方法，并有針對性地提出了一種二分模長優(yōu)化方法，在保證有效愚弄多個模型的同時，降低了人眼對擾動的可察覺性。

使用CIFAR10、SVHN數(shù)據(jù)集和NiN、VGG11、ResNet18、DenseNet121、GoogleNet、MobileNet六種典型卷積神經(jīng)網(wǎng)絡(luò)模型進行性能驗證，實驗結(jié)果表明本文算法在攻擊成功率和二范數(shù)模長上都具有很好的效果。但需要指出的是，本文算法在跨模型個數(shù)的方面仍有限制，未來工作的一個重要方向是圍繞更加通用的跨模型攻擊框架展開設(shè)計。

圖11　實驗數(shù)據(jù)集上跨不同模型的對抗樣本類別敏感度

[1] GOODFELLOW I J， SHLENS J， SZEGEDY C. Explaining and harnessing adversarial examples［EB/OL］. （2015-03-20）［2022-12-16］.https：//arxiv.org/pdf/1412.6572.pdf.

[2] M?DRY A， MAKELOV A， SCHMIDT L， et al. Towards deep learning models resistant to adversarial attacks［EB/OL］. （2019-09-04）［2022-12-16］.https：//arxiv.org/pdf/1706.06083.pdf.

[3] MOOSAVI-DEZFOOLI S M， FAWZI A， FROSSARD P. DeepFool： a simple and accurate method to fool deep neural networks［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 2574-2582.

[4] CARLINI N， WAGNER D. Towards evaluating the robustness of neural networks［C］// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway： IEEE， 2017： 39-57.

[5] SU J， VARGAS D V， SAKURAI K. One pixel attack for fooling deep neural networks［J］. IEEE Transactions on Evolutionary Computation， 2019， 23（5）： 828-841.

[6] CHEN P Y， ZHANG H， SHARMA Y， et al. ZOO： zeroth order optimization based black-box attacks to deep neural networks without training substitute models［C］// Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York： ACM， 2017： 15-26.

[7] LI Y， LI L， WANG L， et al. NATTACK： learning the distributions of adversarial examples for an improved black-box attack on deep neural networks［C］// Proceedings of the 36th International Conference on Machine Learning. New York： JMLR.org， 2019： 3866-3876.

[8] MOOSAVI-DEZFOOLI S M， FAWZI A， FAWZI O， et al. Universal adversarial perturbations［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 86-94.

[9] ZHANG C， BENZ P， IMTIAZ T， et al. CD-UAP： class discriminative universal adversarial perturbation［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 6754-6761.

[10] MOPURI K R， GANESHAN A， BABU R V. Generalizable data-free objective for crafting universal adversarial perturbations［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2019， 41（10）： 2452-2465.

[11] MOPURI K R， GARG U， BABU R V. Fast feature fool： a data independent approach to universal adversarial perturbations［C］// Proceedings of the 2017 British Machine Vision Conference. Durham： BMVA Press， 2017： No.30.

[12] MOPURI K R， UPPALA P K， BABU R V. Ask， acquire， and attack： data-free UAP generation using class impressions［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11213. Cham： Springer， 2018： 20-35.

[13] WU L， ZHU Z， TAI C， et al. Understanding and enhancing the transferability of adversarial examples［EB/OL］. （2018-02-27）［2022-12-16］.https：//arxiv.org/pdf/1802.09707.pdf.

[14] LI Y， ZHANG Y， ZHANG R， et al. Generative transferable adversarial attack［C］// Proceedings of the 3rd International Conference on Video and Image Processing. New York： ACM， 2019： 84-89.

[15] XIE C， ZHANG Z， ZHOU Y， et al. Improving transferability of adversarial examples with input diversity［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 2725-2734.

[16] LIN J， SONG C， HE K， et al. Nesterov accelerated gradient and scale invariance for adversarial attacks［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1908.06281.pdf.

[17] WANG G， YAN H， WEI X. Improving adversarial transferability with spatial momentum［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/2203.13479.pdf.

[18] WANG X， HE K. Enhancing the transferability of adversarial attacks through variance tuning［C］// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2021：1924-1933.

[19] LIU Y， CHEN X， LIU C， et al. Delving into transferable adversarial examples and black-box attacks［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1611.02770.pdf.

[20] WASEDA F， NISHIKAWA S， LE T N， et al. Closer look at the transferability of adversarial examples： how they fool different models differently［C］// Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway： IEEE， 2023： 1360-1368.

[21] HE Z， WANG W， XUAN X， et al. A new ensemble method for concessively targeted multi-model attack［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1912.10833.pdf.

[22] WU F， GAZO R， HAVIAROVA E， et al. Efficient project gradient descent for ensemble adversarial attack［EB/OL］.［2022-12-16］.https：//arxiv.org/pdf/1906.03333.pdf.

[23] ILYAS A， SANTURKAR S， TSIPRAS D， et al. Adversarial examples are not bugs， they are features［C］// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2019： 125-136.

[24] SHAMIR A， MELAMED O， BenSHMUEL O. The dimpled manifold model of adversarial examples in machine learning［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/2106.10151.pdf.

[25] KNUTH D E. The Art of Computer Programming： Volume 3， Sorting and Searching［M］. Reading， MA： Addison Wesley， 1973.

[26] KRIZHEVSKY A. Learning multiple layers of features from tiny images［R/OL］. ［2022-12-16］.https：//www.cs.toronto.edu/～kriz/learning-features-2009-TR.pdf.

[27] NETZER Y， WANG T， COATES A， et al. Reading digits in natural images with unsupervised feature learning［EB/OL］. ［2022-12-16］.http：//ufldl.stanford.edu/housenumbers/nips2011_housenumbers.pdf.

[28] LIN M， CHEN Q， YAN S. Network in network［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1312.4400.pdf.

[29] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1409.1556.pdf.

[30] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition［C］// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 770-778.

[31] HUANG G， LIU Z， MAATEN L van der， et al. Densely connected convolutional networks［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 2261-2269.

[32] SZEGEDY C， LIU W， JIA Y， et al. Going deeper with convolutions［C］// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2015： 1-9.

[33] HOWARD A G， ZHU M， CHEN B， et al. MobileNets： efficient convolutional neural networks for mobile vision applications［EB/OL］. ［2022-12-16］.https：//arxiv.org/pdf/1704.04861.pdf.

Cross-model universal perturbation generation method based on geometric relationship

ZHANG Jici， FAN Chunlong*， LI Cailong， ZHENG Xuedong

（，，110136，）

Adversarial attacks add designed perturbations to the input samples of neural network models to make them output wrong results with high confidence. The research on adversarial attacks mainly aim at the application scenarios of a single model， and the attacks on multiple models are mainly realized through cross-model transfer attacks， but there are few studies on universal cross-model attack methods. By analyzing the geometric relationship of multi-model attack perturbations， the orthogonality of the adversarial directions of different models and the orthogonality of the adversarial direction and the decision boundary of a single model were clarified， and the universal cross-model attack algorithm and corresponding optimization strategy were designed accordingly. On CIFAR10， SVHN datasets and six common neural network models， the proposed algorithm was verified by multi-angle cross-model adversarial attacks. Experimental results show that the attack success rate of the algorithm in a given experimental scenario is 1.0， and the L2-norm is not greater than 0.9. Compared with the cross-model transfer attack， the proposed algorithm has the average attack success rate on the six models increased by up to 57% and has better universality.

deep learning; adversarial sample generation; adversarial attack; cross-model attack; classifier

1001-9081（2023）11-3428-08

10.11772/j.issn.1001-9081.2022111677

2022?11?11；

2023?04?06；

國家自然科學(xué)基金資助項目（61972266）。

張濟慈（1998—），女，遼寧海城人，碩士研究生，CCF會員，主要研究方向：深度學(xué)習、對抗攻擊；范純龍（1973—），男，遼寧沈陽人，教授，博士，CCF會員，主要研究方向：神經(jīng)網(wǎng)絡(luò)可解釋性、復(fù)雜網(wǎng)絡(luò)分析、智能系統(tǒng)驗證；李彩龍（1997—），男，江西上饒人，碩士研究生，主要研究方向：深度學(xué)習、對抗攻擊；鄭學(xué)東（1977—），男，黑龍江五常人，教授，博士，主要研究方向：DNA計算、人工智能。

TP391

2023?04?11。

This work is partially supported by National Natural Science Foundation of China （61972266）.

ZHANG Jici， born in 1998， M. S. candidate. Her research interests include deep learning， adversarial attack.

FAN Chunlong， born in 1973， Ph. D.， professor. His research interests include neural network interpretability， complex network analysis， intelligent system validation.

LI Cailong， born in 1997， M. S. candidate. His research interests include deep learning， adversarial attack.

ZHENG Xuedong， born in 1977， Ph. D.， professor. His research interests include DNA computing， artificial intelligence.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于幾何關(guān)系的跨模型通用擾動生成方法

0 引言

1 跨模型攻擊方法

1.1 問題描述

1.2 兩個幾何特性

1.3 線性分類器下的跨模型通用攻擊

2 跨模型的通用對抗樣本生成算法

2.1 非線性分類器下的跨模型通用攻擊

2.2 跨模型通用攻擊算法原理

2.3 擾動模長優(yōu)化

3 實驗與結(jié)果分析

3.1 實驗設(shè)置

3.2 評價指標

3.3 性能驗證

3.4 結(jié)果分析

4 結(jié)語

1.1　問題描述

1.2　兩個幾何特性

1.3　線性分類器下的跨模型通用攻擊

2.1　非線性分類器下的跨模型通用攻擊

2.2　跨模型通用攻擊算法原理

2.3　擾動模長優(yōu)化

3.1　實驗設(shè)置

3.2　評價指標

3.3　性能驗證

3.4　結(jié)果分析