胡 耿,蔡延光
廣東工業(yè)大學(xué)自動化學(xué)院,廣州 510006
2019年12月起,武漢地區(qū)部分醫(yī)院出現(xiàn)多起新型冠狀病毒肺炎(COVID-19)[1],隨后席卷全國。COVID-19歸為“β 冠狀病毒”屬,具有診斷困難、診斷周期長等特點,為了節(jié)省醫(yī)務(wù)人員的寶貴時間,文獻[2]利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,智能識別COVID-19 患者的胸部CT影像[3],進行自動化診斷。
隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)[4]在圖像數(shù)據(jù)相關(guān)任務(wù)上的顯著成功引人矚目,越來越多的研究人員參與其中,出現(xiàn)了許多性能優(yōu)越的神經(jīng)網(wǎng)絡(luò)架構(gòu)。然而,當(dāng)運用于如醫(yī)療這種安全等級高的領(lǐng)域時,深度神經(jīng)網(wǎng)絡(luò)的安全性顯得尤為重要。DNN對抗攻擊研究表明,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)系統(tǒng)存在安全性問題、魯棒性存在問題。例如,基于梯度的對抗攻擊算法,為針對相關(guān)圖像數(shù)據(jù),利用梯度信息,向良性樣本中增加各種各樣的擾動,達到梯度異常的效果,進而制作出各種不同的對抗樣本。這部分的對抗樣本對比良性樣本,不易被人類感知系統(tǒng)所察覺,但卻能被神經(jīng)網(wǎng)絡(luò)系統(tǒng)的決策體系判定成假陰樣本。相對于其他基于梯度的對抗攻擊方法,本文方法不需要增加額外的計算負擔(dān),同時也不需要增加額外的人類先驗知識,且具有通用性的優(yōu)點。
在卷積神經(jīng)網(wǎng)絡(luò)中,通過局部連接將所有的神經(jīng)元關(guān)聯(lián)起來,取代人工提取圖像特征。VGGNet[5]憑借7.3%的Top-5 錯誤率在2014 年ILSVRC 取得了第二名的成績,其擁有卷積層13個以及全連接層2個。相比于2012年ILSVRC的冠軍網(wǎng)絡(luò)——包含5個卷積層和3個全連接層的AlexNet[4],VGGNet 一方面通過加深網(wǎng)絡(luò),另一方面提出了增加正則后的7×7卷積層效果,其相當(dāng)于疊加3個3×3的卷積層,從而獲得了更佳的性能和更少的參數(shù)。He等[6]首先提出使用Resnet block(殘差塊)解決深度網(wǎng)絡(luò)性能退化問題;文獻[7]在inceptionV3 結(jié)構(gòu)中提出了通過連續(xù)非對稱卷積核,同時增加卷積與池化并行的設(shè)計,提升網(wǎng)絡(luò)性能,達到優(yōu)化結(jié)構(gòu)的目的。對于硬注意力機制,簡單地對圖像特定區(qū)域進行擦除,就可實現(xiàn)硬注意力;但是,其不可微的問題導(dǎo)致梯度下降算法進行學(xué)習(xí),為了解決此問題,大量軟注意力機制被提出。文獻[8]通過將Squeeze結(jié)合Excitation,實現(xiàn)了通道維度的參數(shù)可學(xué)習(xí)的注意力機制。
早在2014 年,文獻[9]就提出了深層矩陣空間中線性關(guān)系的觀點,引起了廣泛的關(guān)注。首先,根據(jù)攻擊者對于攻擊的目標模型獲取信息的多少,對抗攻擊可分為黑盒威脅攻擊、白盒威脅攻擊、灰盒威脅攻擊。獲取信息包括網(wǎng)絡(luò)結(jié)構(gòu)、梯度數(shù)字空間信息、參數(shù)權(quán)重等。文獻[10]提出了一種如何生成對抗樣本的方法,針對的是良性樣本的梯度空間,通過生成有效擾動的對抗樣本,以達到誤導(dǎo)神經(jīng)網(wǎng)絡(luò)使其錯誤預(yù)測的目的,屬于基于梯度的方法;如果能夠持續(xù)通過FGSM進行更新攻擊目標的梯度,所以文獻[11]提出了一種I-FGSM算法,解決了單次攻擊的問題,從而實現(xiàn)了可迭代式,但對于緩解梯度下降過程中陷入局部最優(yōu)的問題,并沒有提供解決方案,但是文獻[12]中,討論了添加動量后的梯度攻擊算法的有效性,提出的MI-FGSM大大提高算法的效率。
2.1.1 殘差單元與空洞殘差卷積單元
對于新冠肺炎CT圖像分類網(wǎng)絡(luò)深度與性能退化的矛盾,如圖1 所示。通過使用殘差結(jié)構(gòu),其中的跳躍連接,解決了因網(wǎng)絡(luò)加深而產(chǎn)生的網(wǎng)絡(luò)性能退化問題。其組成包括兩部分:第一部分為恒等映射;第二部分為瓶頸結(jié)構(gòu),即首先經(jīng)過一個卷積核為1×1 的2D Conv,隨后通過3×3卷積核的2D Conv,然后又進過一個卷積核為1×1 的2D Conv,與此同時,不同卷積操作之間均進行BN[13]操作與Relu操作。
圖1 殘差單元Fig.1 Residual unit
對于新冠肺炎CT 圖像分辨率與感受野的矛盾,本文算法通過設(shè)計擴張殘差結(jié)構(gòu),如圖2所示。其與殘差結(jié)構(gòu)不同的是,如圖3所示,通過增加3×3的擴張卷積,成功建模更大的感受野,一定程度上解決了感受野單一的缺陷。
圖2 殘差空洞單元Fig.2 Residual dilated unit
圖3 3×3卷積和3×3殘差卷積Fig.3 3×3 conv and 3×3 dilated conv
2.1.2 整體結(jié)構(gòu)
對于DNN 中基礎(chǔ)卷積操作,其天然存在過于關(guān)注新冠肺炎CT 圖像局部區(qū)域計算的缺陷。針對此缺陷,AMDRC-Net中的MS(長短注意力引導(dǎo)的多路聚合空間編碼)大大緩解了其不足。相比較一般的通道注意力機制,本文長短注意力特點在于使用了并行的通道注意力與空間注意力,將特征圖Conv4_x分別與并行注意力模塊得到的縮放系數(shù)進行相乘,然后進行對經(jīng)過注意力模塊后的新特征圖Conv4_x進行concat(拼接)操作。如圖4所示,在通道注意力模塊中:著重關(guān)注不同通道的權(quán)重分配,如式(4),輸入尺寸為H×W×C的Conv4_x,經(jīng)過AvgPool(平均池化)和MaxPool(最大池化),大小轉(zhuǎn)換為1×1×C,考慮到需要充分利用兩個池化操作獲取到的不同信息,故增加參數(shù)共享的MLP(多層感知機),然后通過激活函數(shù)σ得到縮放因子,最后與最初的新冠肺炎CT 圖像特征圖Conv4_x 進行相乘;空間注意力模塊與之不同的是:著重關(guān)注空間信息的權(quán)重分配,具體操作為輸入尺寸H×W×C的Conv4_x,轉(zhuǎn)換后的大小為H×W×1;最后,自注意力模塊網(wǎng)絡(luò)提供新冠肺炎CT圖像長距離建模的作用。其具體計算過程如下:
圖4 注意力引導(dǎo)機制示意圖Fig.4 Diagram of attention mechanism
式(1)為通道注意力模塊表達式;如(2)所示,其為激活函數(shù)sigmoid 表達式;式(3)為MLP 公式,其中,σ表示sigmoid,F(xiàn)為特征圖,如Conv4_x,同時,其中3×3表示使用的為3×3卷積核,AvgPool為平均池化操作,MaxPool為最大池化操作;式(4)為自注意力公式,yi,C(x),f(xi,xj),g(xj)依次表示輸出矩陣、標準化操作、輸入矩陣、特征值。
2.1.3 損失函數(shù)
如圖5 所示,AMDRC-Net 中的S(a)模塊建模過程分為五階段,最后的新冠肺炎CT 圖像特征進入全連接層進行3 分類。分類器使用softmax loss,本質(zhì)上為:將輸入新冠肺炎CT圖像轉(zhuǎn)化為在概率空間中的對數(shù)似然的大小。其通過前向傳播和反向傳播將損失值(loss value)最小化,softmax 損失函數(shù)可以有效區(qū)分類間差異,為網(wǎng)絡(luò)提供非線性化表達能力,此時,softmax 將全連接層輸出的N維向量(N=3)進行歸一化(所有維度值之和為1)處理,N維向量中的值分別表示預(yù)測標簽的概率值。
圖5 多重聚合空間編碼結(jié)構(gòu)Fig.5 Coding structure of multiple aggregation space
具體計算過程如(5)所示,在表達式中,LS表示對softmax 的結(jié)果采用梯度下降的損失函數(shù),n表示總輸入訓(xùn)練數(shù)據(jù),xi表示輸入數(shù)據(jù),yj表示輸入新冠肺炎CT 圖像所屬類別,C表示訓(xùn)練數(shù)據(jù)所屬類別總數(shù),W與b表示網(wǎng)絡(luò)模型訓(xùn)練學(xué)習(xí)的參數(shù)。
隨著對抗攻擊方法的研究,基于梯度方法往往存在單一性問題,即沿著梯度增大、增加噪聲等單一方向設(shè)計方法。受啟發(fā)于DNN 對抗攻擊最新研究,考慮到卷積神經(jīng)網(wǎng)絡(luò)中存在的長距離語義關(guān)系問題,本文研究通過注意力機制為新冠CT 圖像自適應(yīng)增減擾動,降低人為感知性,同時導(dǎo)致DNN誤判。
其他很多研究通過迭代的方法沿著梯度上升,尋找對抗擾動生成對抗樣本,最后成功進行攻擊,其通過將單步改為迭代尋求最優(yōu)解,雖然一定程度緩解了梯度方法的邊界性,但并沒有很好地解決運行速度和實用性問題。不同于需要基于物理空間的對抗攻擊方法,本文針對注意力引導(dǎo)神經(jīng)網(wǎng)絡(luò)的特點,通過在數(shù)字空間設(shè)計軟約束性模塊,達到誤導(dǎo)神經(jīng)網(wǎng)絡(luò)的效果,直接效果就是降低其識別新冠肺炎CT圖像的準確率。
對于迭代式的梯度攻擊方法,針對的是良性樣本全局數(shù)字空間,最后求得梯度攻擊的最優(yōu)解,得到的新冠肺炎CT 圖像存在易被人為感知的問題。與此同時,不需要生成人眼可辨的對抗擾動,且不需要在良性樣本生成全局特定噪聲,本文研究一種基于松弛化的攻擊器,只在網(wǎng)絡(luò)關(guān)注的區(qū)域增加對抗擾動,降低攻擊被發(fā)現(xiàn)的風(fēng)險;且通過其中的注意力感知器,確保了攻擊器針對模型關(guān)注的新冠肺炎CT 圖像部分信息,確保合適的感知損失函數(shù)的有效性。不需要引入額外約束,從而緩解時間復(fù)雜的問題,且保證有效性。本文提出的A-IM-FGSM具體過程如下:
算法注意力引導(dǎo)機制DNN對抗攻擊算法
本實驗采用的數(shù)據(jù)來自COVID-19 Chest X-ray Database 的新冠肺炎CT 影像數(shù)據(jù),數(shù)據(jù)庫中的數(shù)據(jù)收集于40 余篇論文,其中的圖像數(shù)據(jù)均為RGB 三通道圖像,如圖7所示,為訓(xùn)練數(shù)據(jù)中部分數(shù)據(jù)樣本示意圖,其中三類CT影像樣本數(shù)量分別為:新冠肺炎病例219張,其他肺炎病例1 345 張,正常1 341 張??紤]COVID-19 Chest X-ray Database的特點,實驗訓(xùn)練集、驗證集劃分為80%和20%。通過模型從圖像中提取特征信息,使用ImageNet 1000分類的預(yù)訓(xùn)練權(quán)重,在CT影像數(shù)據(jù)上遷移訓(xùn)練,進行3 分類,最后在驗證集上進實驗測試。此外,模型訓(xùn)練時均使用同樣的數(shù)據(jù)增強方法。
針對新冠肺炎圖像數(shù)據(jù)完成模型訓(xùn)練的實驗設(shè)備:CPU為Intel@CoreTMi7-8700 CPU @ 3.20 GHz×12;GPU為NVIDIA GeForce 1080Ti;操作系統(tǒng)為ubuntu16.04;實驗實現(xiàn)通過python,圖形顯卡驅(qū)動依賴為cuda 9.0。
在模型分類性能方面,使用的直觀有效的性能評估指標acc1(average precision),如(6)所示;在對抗攻擊算法方面,如(7)所示(為降低人為發(fā)現(xiàn)圖像變化的可能性,使用的距離度量公式為L2范數(shù),即良性樣本與對抗樣本對應(yīng)像素空間的最大差別不超過32):
首先,實驗中將AMDRC-Net 與其他幾種深度神經(jīng)網(wǎng)絡(luò)模型進行對比;隨后,進行注意力可視化實驗;然后通過使用A-I-FGSM進行單一模型攻擊實驗,其分為白盒攻擊和黑盒攻擊。
3.3.1 對比實驗
為了進一步分析文中網(wǎng)絡(luò)結(jié)構(gòu)的性能,在本文所用的圖像數(shù)據(jù)集上,設(shè)計對比實驗,從不同模型配置和消融實驗雙方面衡量,其分為兩部分:在第一部分中,對AMDRC-Net 等模型進行對比測試;在第二部分中,進行注意力消融實驗。其均使用預(yù)訓(xùn)練模型,控制batch size(批處理大?。┫嗤坑?xùn)練一輪記錄一次數(shù)據(jù)。通過本文網(wǎng)絡(luò)架構(gòu)取得了最高的性能。如圖6 所示,分別表示本文網(wǎng)絡(luò)的訓(xùn)練輪數(shù)與acc 關(guān)系曲線、訓(xùn)練輪數(shù)與loss 關(guān)系曲線、訓(xùn)練集混淆矩陣、驗證集混淆矩陣。
圖6 訓(xùn)練曲線和混淆矩陣Fig.6 Training curve and confusion matrix
表1 展示了不同網(wǎng)絡(luò)之間的測評結(jié)果,分別為GoogleNet、VGG16、Resnet50、SE、AMDRC-Net 的驗證集top-1 準確率;表2 為AMDRC-Net 中注意力機制的消融實驗,測試模型分別表示:MS(無注意力機制AMDRC-Net)、channel attention、spatial attention、longshort guided attention。
表1 圖像分類模型對比實驗Table 1 Comparison experiment of image classification model
表2 針對注意力機制的消融實驗Table 2 Ablation experiment for attention mechanism
3.3.2 可視化實驗
為了緩解DNN存在的黑盒問題,在可視化實驗中,通過對模型參數(shù)使用激活熱力圖[14],可以直觀顯示DNN網(wǎng)絡(luò)模型關(guān)注區(qū)域,如圖7 所示,分別為普通注意力的激活圖、原圖、本文網(wǎng)絡(luò)注意力的激活圖。從中可以看出,本文注意力對CONVID-19、NORMAL、Viral Pneumonia三類特征學(xué)習(xí)得更好,學(xué)到的類別特征更精確、更豐富,即注意力熱圖中的激活點更精確、更豐富。
圖7 本文模型和普通注意力的熱力圖對比Fig.7 Comparison of activation maps between this model and normal attention
3.3.3 對抗攻擊實驗
如圖8所示,本文提出基于改進注意力機制的對抗攻擊算法,通過對良性樣本添加對抗擾動,生成對抗樣本。從而導(dǎo)致DNN 對測試目標失去分類能力。如表2所示,最后進行的實驗表明,白盒攻擊實驗中,準確率下降達97%,黑盒攻擊實驗中,準確率下降達47%,對抗攻擊效果顯著。
圖8 A-IM-FGSM生成的對抗樣本Fig.8 Adversarial examples generated by A-IM-FGSM
本文提出了一種AMDRC-Net 結(jié)構(gòu),在新冠肺炎圖像數(shù)據(jù)集上達到最高準確率;提出了一種注意力引導(dǎo)機制的DNN對抗攻擊策略A-IM-FGSM,保證高效攻擊性能的同時,解決其他同類算法的單一性問題,且一定程度上針對新冠肺炎CT 影像數(shù)據(jù),進一步降低攻擊被發(fā)現(xiàn)的風(fēng)險。目前,只在三大類的新冠肺炎圖像數(shù)據(jù)進行模型訓(xùn)練,接下來研究將從細粒度任務(wù)角度出發(fā),設(shè)計網(wǎng)絡(luò)訓(xùn)練模型進行識別。在對抗攻擊任務(wù)方面,未來可針對約束損失問題展開研究,通過增加額外的約束損失來逼近對抗擾動矩陣空間;也可針對數(shù)字空間和物理空間的區(qū)別,將物理空間擾動考慮在內(nèi)。希望通過本文的研究,推動智能醫(yī)療,期待未來研究出更具魯棒性、理論性更強的人工智能系統(tǒng)。