曹恩龍, 劉赫炎, 孫智孝, 羅 慶, 劉環(huán)宇
1.航空工業(yè)沈陽飛機設計研究所,遼寧 沈陽 110000; 2.哈爾濱工業(yè)大學 電子與信息工程學院 自動化測試與控制研究所,黑龍江 哈爾濱 150001; 3.哈爾濱工業(yè)大學 計算學部 信息對抗技術研究所,黑龍江 哈爾濱 150001)
目標分類系統(tǒng)相比于傳統(tǒng)計算系統(tǒng)而言,系統(tǒng)結構復雜、具有自主學習能力且對數據的應用更為多元化,例如智能識別網絡的“數據驅動”“不可測”“難評估”的“黑盒”特性,給可信性評估帶來極大困難。實測數據難以完全獲得,嚴重制約著智能目標分類系統(tǒng)的完備性測試。采用目前現(xiàn)有的樣本擴充和樣本構建方法,難以保證系統(tǒng)可信性評估效果。目前,對可信性評估的方法較為單一,缺少專門的可信性評估技術規(guī)范和標準,一般只采用簡單的準確率作為評估依據,指標單一,無法作為可信性評估的完備指標,需要同時考慮系統(tǒng)泛化性、魯棒性和自主能力等級的問題。因此,依托現(xiàn)有的可信性評估方法不能滿足目標分類系統(tǒng)的評估要求。目標分類系統(tǒng)是復雜的系統(tǒng)工程,如果對其工作狀態(tài)不能進行評估,就無法從根本上保證智能系統(tǒng)的可靠性。
目標分類系統(tǒng)的泛化性評估模型依賴于訓練和測試數據獨立分布[1],魯棒性評估依賴于不同類型和強度的輸入擾動[2-3]。對于微小的擾動,雖然人類視覺不可分辨,但是對于卷積目標分類網絡來說,可能會帶來巨大的波動變化,從而導致分類錯誤,這給卷積目標分類網絡的可信性帶來了巨大的隱患[4-6]。
近年來,美國、歐盟等高度關注人工智能可信評估技術的發(fā)展。美國對智能系統(tǒng)可信評估技術領域的研發(fā)戰(zhàn)略、國際基準、關鍵技術和評測標準等四個方面均進行了規(guī)劃與研究。美國《國家人工智能研發(fā)戰(zhàn)略計劃》在2016年6月發(fā)布[7]。2019年6月,美國《國家人工智能研發(fā)戰(zhàn)略計劃:2019年更新版》提出“確保人工智能系統(tǒng)可靠”的戰(zhàn)略發(fā)展目標,指出在廣泛使用人工智能系統(tǒng)前,需要創(chuàng)建可靠、可信賴的人工智能系統(tǒng),同時需要提高可信性、透明度并建立信任等[8]。同年,美國國防創(chuàng)新委員會在2019年10月提出“加強人工智能測試和評估技術”,在美國發(fā)展測試和評估辦公室(ODT)的領導下,建立人工智能技術測試和評估基準。美國國防高級研究計劃局(DARPA)重點支持了“可信性的人工智能”“確保人工智能對抗欺騙的可信性”等項目,將可信賴作為確保自主系統(tǒng)可靠性的重要手段,在此基礎上再將自主系統(tǒng)推廣到軍事領域應用[9]。2019年3月,歐盟委員會公布了《可信賴的人工智能道德準則草案》,構建了“可信賴人工智能”框架,為部署、開發(fā)和使用人工智能的企業(yè)、政府、研究機構、社會組織和個人提供了實現(xiàn)“可信賴人工智能”的指南[10]。2019年9月,國際測試委員會(BenchCouncil)發(fā)布了人工智能測試標準、HPC AI500測試基準等五項新人工智能裝備評測標準[11]。
在標準化方面,國際標準組織人工智能分委會(ISO/IEC JTC1 SC42)于2020年11月成立了WG3可信賴工作組,開展算法可信性、神經網絡魯棒性評估、倫理關切等標準和報告的研制。我國國家人工智能標準化總體組、全國信標委人工智能分委會也在組織開展可信賴等標準研究工作。2021年3月,給出了評估神經網絡魯棒性的流程,并列舉了3種理論評估方法:基于統(tǒng)計的評估方法、基于形式化理論證明的評估方法和基于經驗的評估方法。
基于以上的研究可知,建立可靠的目標分類系統(tǒng)可信性評估體系是必不可少的,同時為了方便用戶,可以搭建集數據、算法、指標于一體的目標分類系統(tǒng)可信性評估軟件平臺。
針對目標分類網絡的結果,可以使用基于黑盒的目標分類性能評估模型。針對數據生成系統(tǒng)產生的目標數據,構建訓練集和測試集,從樣本稀疏性、均衡性來實現(xiàn)泛化能力的評估,對于稀疏性的樣本,采用等價類劃分、成對邊界劃分質心定位方法、樣本邊界評估方法,對稀疏性進行定義;采用正負樣本均衡性、類別樣本均衡性、場景/目標均衡性分布評估方法,實現(xiàn)對均衡性進行評價,采用不同的均衡性和平衡性的測試樣本集,對分類決策系統(tǒng)進行目標準確率等10種表征指標的計算,最后對性能指標進行融合,生成對泛化能力和魯棒能力的評價以及最終評價。
基于黑盒的目標分類性能評估模型包括以下10個評價指標。其中TP表示預測為1,實際為1,預測正確;FP表示預測為1,實際為0,預測錯誤;FN表示預測為0,實際為1,預測錯誤;TN表示預測為0,實際為0,預測正確。
① 準確率(ACC)。準確率是指預測正確的樣本數與樣本總數之比。
(1)
② 精確率(P)。精確率是指所有被判別為正的樣本中,真正為正的樣本所占的比例。
(2)
③ 召回率(R)。召回率是覆蓋面的度量,度量有多個正例被分為正例。
(3)
④ F1值。F1值是統(tǒng)計學中用于衡量二分類模型精確度的一種指標,用于測量不均衡數據的精度。它的最大值是1,最小值是0。
(4)
⑤ 混淆矩陣?;煜仃嚳梢苑从愁悇e之間相互誤分的情況。對于包含多個類別的任務,混淆矩陣能很清晰地反映出各類別之間的錯分概率。
⑥ 受試者操作特性曲線(Receiver Operating Characteristics Curve,ROC)。ROC是反映敏感性和特異性連續(xù)變量的綜合指標。
⑦ AUC(Area Under Curve,曲線下面積)。 AUC的值就是處于ROC曲線下方的那部分面積的大小。通常,AUC的值介于0.5~1.0之間,AUC值越大的分類器,判斷準確性越高。
⑧ Kappa系數(k)。Kappa系數是一種度量分類結果一致性的統(tǒng)計量,是度量分類器性能穩(wěn)定性的依據,Kappa系數值越大,分類器性能越穩(wěn)定。
(5)
式中:po為每一類正確分類的樣本數量之和除以總樣本數,也就是總體分類精度。假設每一類真實樣本個數為a1,a2,…,ac,而預測出來的每一類的樣本個數為b1,b2,…,bc,總樣本個數為n,則有
(6)
(7)
① 神經元覆蓋率(Neuron Coverage,NC)。
神經元覆蓋率是所有測試輸入中唯一激活的神經元數量與深度神經網絡(Deep Neural Networks,DNN)中神經元總數的比值。
② 神經元邊界覆蓋(Neuron Boundary Coverage,NBC)。
神經元邊界覆蓋度量了給定的測試輸入集T覆蓋了多少個拐角區(qū)域,包括上邊界和下邊界值。
③ 噪聲容量估計(Noise Tolerance Estimation,NTE)。
噪聲容量估計反映了對抗樣本在保持分類類別不變的情況下可容忍的噪聲量,計算公式為
(8)
④ 對圖像壓縮魯棒性(Robustness to Image Compression,RIC)。
對圖像壓縮魯棒性常被用于評價計算機視覺算法中的圖像去噪情況。正常情況下,一個高魯棒性的對抗樣本在進行圖像壓縮后應保持其誤分類效果,計算公式為
(9)
式中:UA表示非定向攻擊;TA表示定向攻擊;函數IC表示圖像壓縮處理。
⑤ 對高斯模糊魯棒性(Robustness to Gaussian Blur,RGB)。
對高斯模糊魯棒性常被用于評價計算機視覺算法中的圖像去噪情況。正常情況下,一個高魯棒性的對抗樣本在高斯模糊后應保持其誤分類效果,計算公式為
(10)
式中:UA表示非定向攻擊;TA表示定向攻擊;函數GB表示高斯模糊處理。
⑥ 最大邊界距離(Worst Case Boundary Distance,BD)。
最大邊界距離表示數據點之間到決策邊界的距離,用于衡量模型在最壞情況下的穩(wěn)定性和魯棒性,計算公式為
(11)
式中:V為一個隨機生成的集合;φi(V)為到模型決策邊界的RMS距離;di為到決策邊界距離的最大值。
⑦ 平均置信度(Average Confidence of Adversarial Class,ACAC)。
平均置信度表示對錯誤類別的平均預測置信度為經過對抗攻擊后,對于所有攻擊成功對抗樣本,所有誤分類類別的平均概率,計算公式為
(12)
⑧ 正確類別平均置信度(Average Confidence of True Class,ACTC)。
正確類別平均置信度通過對對抗攻擊樣本的真實類計算預測可信度的平均值來評估攻擊在多大程度上偏離真實值,計算公式為
(13)
⑨ 對抗攻擊失真度(Average Lp Distortion,ALDp)。
對抗攻擊失真度為所有攻擊成功的對抗樣本的平均歸一化Lp失真度,計算公式為
(14)
⑩ 平均結構相似性(Average Structural Similarity,ASS)。
平均結構相似性為所有攻擊成功對抗樣本與其原始樣本間的平均相似性,計算公式為
(15)
式中:SSIM表示結構相似度。
擾動敏感距離用于評測人類對擾動的感知能力,計算公式為
(16)
式中:m為像素點總數;δi,j為第i個樣例的第j個像素點;R(xi,j)為xi,j附近平方區(qū)域;std為標準偏差函數。
K-多節(jié)神經元覆蓋表示給定一個神經元n,K個多段神經元覆蓋度量給定的測試輸入集合T覆蓋范圍[lown,highn]的徹底程度。
強神經元激活覆蓋度量了給定的測試輸入集合T覆蓋了多少個角落情況。
經驗噪聲敏感性表示綜合對抗攻擊和自然噪音的一個測試集。
Top-k神經元覆蓋表示前k個神經元的覆蓋測量了每層上曾經最活躍的k個神經元的數量,定義為每一層的Top-k神經元總數與DNN中神經元總數的比值。
Top-k神經元模式代表了每一層頂層過度活躍神經元的不同激活場景。
2.1.1 泛化性測試用例生成
為了測試分類任務的泛化能力,需要根據任務需求生成測試用例。首先要選擇原始數據集,其次在關鍵參數處設置抽取比例參數,從原始數據集中每一個圖像類別抽取相應比例的圖像作為測試集,對訓練樣本進行分布調整,從而使數據具有較好的均衡性和稀疏性,將測試集樣本存放在指定的文件夾下,并且測試圖像的類別和數量應與所設置參數一致。
2.1.2 魯棒性測試用例生成
為了測試分類任務的魯棒能力,需要根據任務需求生成測試用例。首先選取已經具有較好的均衡性和稀疏性的泛化性數據的測試集,對其進行加噪處理,隨機將圖像中的像素點置白或者置黑,或者隨機在圖像上加入不同面積的黑塊對目標進行遮擋,從而測試不同強度噪聲下分類網絡的魯棒性。
2.2.1 泛化性評估過程
將測試用例生成得到的泛化性測試集作為分類算法的輸入。再使用分類網絡將測試集中的每一張圖像進行分類得到測試解和對應的標準解。將測試解和標準解作為評估模型的輸入,設置評估指標對應參數,進而得到目標分類系統(tǒng)各個指標的計算結果,將每個指標的計算結果進行融合分析得到最終結論,在可視化平臺上進行顯示。目標分類泛化性能力評估流程如圖1所示。
圖1 目標分類系統(tǒng)泛化能力評估流程
在進行泛化性評估時選擇基于黑盒的目標分類性能評估模型,其中包括準確率、精確率、召回率、F1值、混淆矩陣、ROC曲線、AUC面積、Kappa系數、海明距離、杰卡德相似系數10個指標。
2.2.2 魯棒性評估過程
將生成的魯棒性測試用例作為分類算法的輸入,不同噪聲強度的測試集經過分類網絡可以分別得到對應的測試解和標準解。將多組測試解和標準解作為魯棒能力評估模型的輸入,經計算可以得到每種噪聲強度下不同指標對應的值,同時可以得到評價指標隨噪聲強度變化的曲線,針對以上結果進行綜合分析得到最終結論,顯示在可信性評估平臺上。目標分類系統(tǒng)魯棒能力評估流程如圖2所示。
圖2 目標分類系統(tǒng)魯棒能力評估流程
除此之外,基于白盒的目標分類性能評估模型也可以用于評估目標分類系統(tǒng)的魯棒能力,其中KMNC、NBC、SNAC、ALDp、ASS、PSD是基于數據層面進行評估的,ACAC、ACTC、NTE、ENI是基于模型層面的。
2.3.1 泛化性結果評價
在進行目標分類系統(tǒng)泛化性評估結果的評價時,對泛化能力評價體系中的10個指標進行了綜合分析,得到了每一個指標的具體評價標準,具體如表1所示。其中,準確率、精確率、召回率、F1值、AUC面積、Kappa系數、杰卡德相似系數是極大型指標,海明距離是極小型指標,可將算法評價劃分為四擋。
表1 泛化性結果評價
2.3.2 魯棒性結果評價
在進行目標分類系統(tǒng)魯棒性評估結果的評價時,對魯棒能力評價體系中的3個指標進行了綜合分析,同時設置了可用閾值和失效閾值,認為指標數值高于可用閾值所對應的噪聲強度為可忽略噪聲,指標數值低于失效閾值所對應的噪聲強度為徹底失效噪聲,魯棒性結果評價可劃分四擋,具體如表2所示。
表2 魯棒性結果評價
本次實驗選取了NWPU-RESISC45數據集,該數據集包含分辨率為256像素×256像素的圖像共計31500張,涵蓋45個場景類別,其中每個類別有700張圖像。分類網絡選取了ResNet50進行仿真實驗。
為了方便用戶進行可視化使用,搭建了目標分類系統(tǒng)可信性評估軟件平臺。圖3為目標分類系統(tǒng)可信性評估軟件平臺界面圖。左側部分為泛化性評估模塊,中間部分為魯棒性評估模塊,右側部分上方為測試用例生成模塊,右側下方為特異性魯棒評估指標模塊。軟件界面圖中為選取NWPU-RESISC45數據集和ResNet50網絡的可信性評估結果。具體的泛化性指標實驗結果和魯棒性指標實驗結果分別如表3和表4所示。魯棒性數據選取的是隨機遮擋作為噪聲進行實驗。
圖3 目標分類系統(tǒng)可信性評估軟件平臺界面圖
表3 泛化性指標實驗結果
表4 魯棒性指標實驗結果
本文開發(fā)了一套目標分類系統(tǒng)可信性評估軟件平臺,提供測試用例生成、泛化性指標分析、魯棒性指標分析等功能。針對目標分類系統(tǒng)的泛化性指標主要包含10個,魯棒性指標主要包含16個,自主能力等級評估指標主要包含5個。所開發(fā)的目標分類系統(tǒng)可信性評估系統(tǒng)集成了測試用例生成、泛化性指標、魯棒性指標等功能,提供了便捷的測試用例生成、指標評估等接口,方便用戶對目標分類系統(tǒng)進行全面評估,為使用目標分類系統(tǒng)的軍工武器產品提高可信性、可靠性和安全性提供了支持。