亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

影像解譯中的深度學(xué)習(xí)可解釋性分析方法

2022-07-05 08:12:06龔健雅宦麟茜鄭先偉

測(cè)繪學(xué)報(bào) 2022年6期

關(guān)鍵詞：方法模型

龔健雅，宦麟茜，鄭先偉

1.武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室，武漢 430079；2.武漢大學(xué)遙感信息工程學(xué)院，武漢 430079

算法的可解釋性一直是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究問(wèn)題。可解釋性研究的目的在于讓人類(lèi)能理解算法的運(yùn)行機(jī)理，以及做出某種推斷的原因。如果一個(gè)算法具備良好的可解釋性，不僅有利于開(kāi)發(fā)者改進(jìn)算法，增強(qiáng)使用者對(duì)該算法的信任度，同時(shí)可進(jìn)一步在使用中確定是否需要人機(jī)交互以避免錯(cuò)誤的決策。

近年來(lái)，隨著深度學(xué)習(xí)對(duì)大量研究問(wèn)題智能化的推進(jìn)，可解釋人工智能系統(tǒng)(XAI)受到越來(lái)越多的重視。由于依賴(lài)大量數(shù)據(jù)誤差后向傳播而實(shí)現(xiàn)參數(shù)優(yōu)化，深度學(xué)習(xí)模型通常被比喻為“黑箱”，即難以用人類(lèi)思維直接理解模型的具體含義和行為。事實(shí)上，在機(jī)器學(xué)習(xí)領(lǐng)域，復(fù)雜的算法(如隨機(jī)森林)雖然通常比簡(jiǎn)單的算法(如線性回歸)在較難的問(wèn)題上有更好的表現(xiàn)，但同時(shí)也會(huì)帶來(lái)較低的可解釋性，如圖1所示。而相比于傳統(tǒng)的機(jī)器學(xué)習(xí)模型，深度神經(jīng)網(wǎng)絡(luò)中每個(gè)隱含層的神經(jīng)元輸出基本由上層輸出特征的線性組合經(jīng)過(guò)一個(gè)非線性變換產(chǎn)生，神經(jīng)元的龐大數(shù)量、強(qiáng)波動(dòng)性、復(fù)雜組合均使得直接理解深度神經(jīng)網(wǎng)絡(luò)參數(shù)含義和運(yùn)作方式變得十分困難。因此，對(duì)深度學(xué)習(xí)算法進(jìn)行可解釋性分析以判斷模型的決策原理，也成為一個(gè)極具挑戰(zhàn)性的問(wèn)題。

圖1 模型可解釋性與模型復(fù)雜度的關(guān)系

在影像解譯領(lǐng)域，對(duì)深度學(xué)習(xí)模型的可解釋性研究主要集中于研究不同的可視化算法，從而以人類(lèi)可理解的方式揭示一個(gè)訓(xùn)練好的深度網(wǎng)絡(luò)模型所學(xué)習(xí)的信息。雖然，當(dāng)前可解釋性的研究尚未能使深度學(xué)習(xí)模型完全透明化，但已有一些實(shí)踐證明可解釋性的研究對(duì)理解模型運(yùn)作機(jī)制有良好的促進(jìn)作用。例如，文獻(xiàn)[1]發(fā)現(xiàn)，在PASCAL VOC數(shù)據(jù)[2]上表現(xiàn)良好的模型會(huì)以圖片上的水印作為判斷圖中目標(biāo)物體是馬的依據(jù)。而文獻(xiàn)[3]則發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)模型會(huì)根據(jù)圖上場(chǎng)景中是否有雪來(lái)區(qū)分狼和哈士奇。文獻(xiàn)[4]則通過(guò)圖像紋理信息(如給貓的圖像換上象皮的紋理)，發(fā)現(xiàn)網(wǎng)絡(luò)模型主要通過(guò)紋理來(lái)判斷目標(biāo)類(lèi)別，并基于這一發(fā)現(xiàn)改進(jìn)了分類(lèi)算法的分類(lèi)精度及對(duì)噪聲的穩(wěn)健性。

因此，通過(guò)可視化方法研究深度學(xué)習(xí)模型的可解釋性，對(duì)模型的設(shè)計(jì)、優(yōu)化和安全性提升等方面有著重要意義。

1 可解釋性分析方法

深度學(xué)習(xí)可解釋性方法主要探究一個(gè)已訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型如何進(jìn)行推斷。當(dāng)前影像解譯相關(guān)的可解釋方法主要可分為：激活值最大化分析法(activation maximization methods)、代理模型分析方法(surrogate models)、歸因分析法(attribution methods)、擾動(dòng)分析法(perturbation-based method)、類(lèi)激活圖分析法(class activation map)和樣例分析法(example-based methods)。激活值最大化和代理模型分析法主要通過(guò)優(yōu)化或者近似的手段可視化網(wǎng)絡(luò)模型學(xué)習(xí)到的特征；歸因分析法、擾動(dòng)分析法和類(lèi)激活圖分析法生成顯著圖(saliency map)來(lái)反映影像中不同像素對(duì)推斷結(jié)果的影響；樣例分析法關(guān)注尋找具有代表性的正、負(fù)樣本?？山忉屝苑治龇椒赏茢嗄Ｐ妥龀鰶Q策的原因，從而為模型改進(jìn)、數(shù)據(jù)分析、人機(jī)交互以及決策等提供重要輔助信息。

1.1 激活值最大化分析法

給定模型中的一個(gè)神經(jīng)元(neuron)，激活值最大化分析法通過(guò)反向傳播的方式(back-propagation)，合成可最大化該神經(jīng)元激活值的影像，以可視化該神經(jīng)元所偏好的模式，從而反映其編碼的特征[5]。文獻(xiàn)[6]認(rèn)為，如果一個(gè)神經(jīng)元對(duì)某種影像模式有極大的響應(yīng)值，那么該模式可視為是此神經(jīng)元所學(xué)習(xí)內(nèi)容的一個(gè)良好一階表達(dá)?；谶@個(gè)思想，文獻(xiàn)[6]在2009年提出激活值最大化分析法，以獲得深度網(wǎng)絡(luò)中高層特征的定量解釋。由于激活值最大化分析法易生成能帶來(lái)高激活值的不真實(shí)圖像(圖2)，部分研究向目標(biāo)函數(shù)中加入圖像先驗(yàn)約束(如表1(b)所示)，以減少合成影像中出現(xiàn)難以解釋的高頻噪聲模式[5,7]，從而通過(guò)梯度上升迭代生成人類(lèi)可理解的圖片。比如，L2正則項(xiàng)常用于減少合成圖像中數(shù)值過(guò)高的像素值[8](arXiv:1506.06579.2015)，則高斯模糊(Gaussian blur)和全變分(total variation)約束則可在優(yōu)化迭代中懲罰高頻信息[9](arXiv:1506.06579.2015)。在采用全變分正則項(xiàng)的基礎(chǔ)上，有學(xué)者進(jìn)一步設(shè)計(jì)基于數(shù)據(jù)驅(qū)動(dòng)的圖像塊先驗(yàn)正則項(xiàng)(arXiv:1507.02379,2015)，以約束網(wǎng)絡(luò)模型可視化中的色彩分布；而文獻(xiàn)[9]則引入了隨機(jī)圖像抖動(dòng)操作(random jitter)[10](arXiv:1602.03616,2016)來(lái)間接約束圖像的合成。雖然施加正則化處理有助于生成可解釋性高的特征影像，但生成的影像傾向包含重復(fù)性的局部物體特征，故主要反映給定神經(jīng)元所偏好的局部特征，而無(wú)法展現(xiàn)網(wǎng)絡(luò)是否學(xué)習(xí)到全局結(jié)構(gòu)信息[5]。因此，部分學(xué)者探索加強(qiáng)合成影響的全局一致性(global coherence)，以合成更自然易讀的特征影像(arXiv:1602.03616,2016)。

表1 激活值最大化分析法的3種類(lèi)型[5]

注：藍(lán)色虛線表示前向傳播，橙色虛線表示后向傳播

圖4對(duì)比了兩種基于人工先驗(yàn)的激活值最大分析法和DGN-AM所生成的影像，由圖可見(jiàn)DGN-AM可以生成強(qiáng)真實(shí)性的合成影像，從而易于使用者識(shí)別網(wǎng)絡(luò)模型所學(xué)習(xí)的信息。

圖4 文獻(xiàn)[7,9]為兩種使用人工先驗(yàn)的方法，文獻(xiàn)[11]為DGN-AM方法

1.2 代理模型分析方法

代理模型分析法通過(guò)使用可解釋的算法來(lái)局部近似復(fù)雜的模型，從而解釋復(fù)雜模型的預(yù)測(cè)原理。文獻(xiàn)[3]提出了局部解釋法LIME(local interpretable model-agnostic explanations)，以一組可解釋的模型(如線性模型和決策樹(shù)等)來(lái)解釋復(fù)雜算法，并證明所提出的LIME可用于任意分類(lèi)器。如谷歌的Inception網(wǎng)絡(luò)和支持向量機(jī)SVM。文獻(xiàn)[13]通過(guò)無(wú)監(jiān)督的方法從卷積神經(jīng)網(wǎng)絡(luò)的卷積層中自動(dòng)分離出不同的物體部分模式，從而構(gòu)造出一個(gè)解釋圖，以揭示卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部的知識(shí)層次結(jié)構(gòu)。如圖5所示，解釋圖中的每個(gè)節(jié)點(diǎn)代表一個(gè)部件模式，且圖中的每條邊編碼共同激活關(guān)系和模式間的空間關(guān)系。類(lèi)似地，文獻(xiàn)[14]通過(guò)決策樹(shù)對(duì)隱藏在神經(jīng)網(wǎng)絡(luò)全卷積層中的決策模式進(jìn)行由精到細(xì)的編碼，從而對(duì)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)進(jìn)行語(yǔ)義級(jí)的解釋。通過(guò)這樣的決策樹(shù)，使用者可以確定不同物體的部件對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。由于尋找近似的代理模型與用于模型壓縮的知識(shí)蒸餾技術(shù)相似，部分學(xué)者通過(guò)知識(shí)蒸餾的方法將龐大的神經(jīng)網(wǎng)絡(luò)模型所學(xué)習(xí)的知識(shí)提取到可解釋的模型中，從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)模型的解釋。例如，文獻(xiàn)[15]利用知識(shí)蒸餾技術(shù)讓決策樹(shù)模型擁有與深度神經(jīng)網(wǎng)絡(luò)相近的知識(shí)，以同時(shí)獲得較好的任務(wù)表現(xiàn)和可解釋性，而文獻(xiàn)[16]采用將卷積神經(jīng)網(wǎng)絡(luò)模型所學(xué)習(xí)的知識(shí)蒸餾到一個(gè)可解釋的加性模型中，從而定量地解釋網(wǎng)絡(luò)模型的預(yù)測(cè)。

圖5 用解釋圖表示卷積神經(jīng)網(wǎng)線的卷積層中所學(xué)習(xí)到的不同物體部分的知識(shí)[13]

1.3 歸因分析法

基于逐層傳播的方法主要通過(guò)設(shè)計(jì)反向傳播的方式(back-propagation)，來(lái)尋找輸入圖像中能最大激活某種特征的模式[21]。DeConvNet[22]使用一個(gè)多層反卷積網(wǎng)絡(luò)[23]，將模型學(xué)習(xí)到的特征投射回輸入像素空間以觀察不同階段神經(jīng)元所學(xué)習(xí)到的信息；指導(dǎo)型反向傳播技術(shù)(guided back-propagation)[24]通過(guò)限制負(fù)梯度的回傳，以剔除可視化的特征中的噪聲;文獻(xiàn)[25]提出激勵(lì)反向傳播(excitation backprop)，并通過(guò)一個(gè)概率贏家通吃的過(guò)程(probabilistic winner-take-all process)在網(wǎng)絡(luò)中傳遞自上而下的信號(hào)，來(lái)獲得類(lèi)似顯著性圖的網(wǎng)絡(luò)注意力圖；逐層相關(guān)性傳播技術(shù)(layer-wise relevance propagation)[26]借由設(shè)定局部反向傳播規(guī)則來(lái)計(jì)算相鄰層間神經(jīng)元的相關(guān)度，并根據(jù)相關(guān)度將高層信息傳播到低層；DeepLIFT[27]設(shè)計(jì)}“中性”參考輸入(reference input)以通過(guò)輸入圖與參考圖之間的差異來(lái)解釋模型的決策，由此來(lái)減少由于函數(shù)飽和問(wèn)題造成的反向傳播結(jié)果的偽影。雖然基于梯度的方法與基于逐層信號(hào)傳播的方法在獲得顯著性圖的思路上有所不同，但文獻(xiàn)[20]指出LRP和DeePLIFT實(shí)際上是通過(guò)特殊的梯度公式來(lái)獲得顯著性圖，并給出了LRP和DeepLIFT對(duì)應(yīng)的改寫(xiě)梯度公式，見(jiàn)表2。

表2 文獻(xiàn)[20]中部分歸因分析法顯著性圖計(jì)算公式

1.4 擾動(dòng)分析法

擾動(dòng)分析法(perturbation-based method)通過(guò)對(duì)輸入使用擾動(dòng)或者遮擋的操作，觀察預(yù)測(cè)的變化，來(lái)判斷輸入中與給定類(lèi)別關(guān)系緊密的模式，從而解釋模型預(yù)測(cè)的機(jī)理。文獻(xiàn)[22]用灰色塊遮擋輸入圖像的不同部分，從而證明了模型識(shí)別了圖像中物體的位置，而非只是使用了物體周?chē)纳舷挛男畔?。沿用文獻(xiàn)[29]所提出的基于遮擋信息差模型解釋技術(shù)，文獻(xiàn)[30]用滑動(dòng)窗口的方法對(duì)輸入圖像進(jìn)行區(qū)域采樣，來(lái)尋找對(duì)預(yù)測(cè)結(jié)果影響大的圖像塊。給定一個(gè)訓(xùn)練好的分類(lèi)器、一張輸入圖像與其對(duì)應(yīng)的類(lèi)別，文獻(xiàn)[31]通過(guò)迭代優(yōu)化來(lái)獲得一個(gè)對(duì)分類(lèi)影響最大的最小區(qū)域掩膜，以代表的區(qū)域是分類(lèi)器決策時(shí)所依賴(lài)的顯著區(qū)，從而反映分類(lèi)模型的決策原理?；谙嗤难谀_動(dòng)思路，文獻(xiàn)[32]提出訓(xùn)練掩膜生成模型來(lái)尋找對(duì)分類(lèi)器分類(lèi)影響較大的輸入圖像中的掩膜M，且M所遮擋的區(qū)域滿(mǎn)足兩個(gè)條件：①該區(qū)域是分類(lèi)器能進(jìn)行可靠預(yù)測(cè)所依賴(lài)的最小區(qū)域；②當(dāng)該區(qū)域的信息被移除時(shí)，會(huì)破壞分類(lèi)的可靠性。類(lèi)似地，文獻(xiàn)[33]提出極端擾動(dòng)(extremal perturbation)的概念，即在固定區(qū)域的所有擾動(dòng)中對(duì)網(wǎng)絡(luò)預(yù)測(cè)有最大影響的擾動(dòng)。文獻(xiàn)[33]通過(guò)尋找滿(mǎn)足一定平滑度的極端擾動(dòng)來(lái)確定輸入中的顯著區(qū)域。與文獻(xiàn)[31]和文獻(xiàn)[32]等依賴(lài)優(yōu)化的擾動(dòng)分析方法不同，文獻(xiàn)[34]首先隨機(jī)生成多種掩膜與其對(duì)應(yīng)的被遮擋輸入，然后基于輸出的分?jǐn)?shù)計(jì)算不同掩膜對(duì)應(yīng)的權(quán)重，最后對(duì)掩膜進(jìn)行加權(quán)平均獲得顯著性圖。擾動(dòng)分析法的思想不僅可用于解釋神經(jīng)網(wǎng)絡(luò)模型，也可用于評(píng)估可解釋性方法的可靠性，及弱監(jiān)督或者全監(jiān)督的目標(biāo)定位任務(wù)[35-37]。

1.5 類(lèi)激活圖分析法

(1)

(2)

1.6 樣例分析法

樣例分析法是一種根據(jù)給定法則生成或者從訓(xùn)練集中選取對(duì)模型預(yù)測(cè)有顯著影響的樣本，從而解釋模型決策的方法。樣例分析法所尋找的樣本類(lèi)型主要有表3所示的幾種。給定一個(gè)模型，基于原型的可解釋性法通常關(guān)注目標(biāo)類(lèi)別的最具代表性的樣本，而基于影響樣本和反事實(shí)樣本的方法則更關(guān)注模型對(duì)某個(gè)輸入進(jìn)行分類(lèi)決策的依據(jù)。因此，基于原型的方法可給出較為全局的解釋?zhuān)谟绊憳颖竞头词聦?shí)樣本的方法可偏向給出局部解釋。早期樣例分析法主要尋找原型樣本[44-47]，文獻(xiàn)[48]認(rèn)為僅使用原型樣本集來(lái)解釋模型只適用于較為干凈的數(shù)據(jù)，而面對(duì)存在噪聲的真實(shí)數(shù)據(jù)，依賴(lài)原型樣本容易導(dǎo)致不正確的解釋。因此，文獻(xiàn)[48]提出同時(shí)使用原型樣本和不能被原型樣本集概括的批判樣本來(lái)對(duì)模型進(jìn)行解釋?zhuān)⑹褂米畲笃骄町愔笜?biāo)(maximum mean discrepancy)完成兩種樣本的選取。文獻(xiàn)[49]認(rèn)為原型不一定必須在于已有的觀測(cè)數(shù)據(jù)中，并使用自編碼器(auto-encoder)實(shí)現(xiàn)在隱空間中學(xué)習(xí)原型樣本的低維編碼，然后通過(guò)解碼器(decoder)還原出對(duì)應(yīng)的原型樣本圖像。

表3 樣例分析法的目標(biāo)樣本的主要類(lèi)型

為提供局部解釋?zhuān)诮?jīng)典機(jī)器學(xué)習(xí)可解釋性算法里，有大量工作采用刪減診斷法(deletion diagnostics)，即刪除某些樣本后重新訓(xùn)練模型，來(lái)確定對(duì)模型訓(xùn)練影響較大的樣本[50]；而在深度學(xué)習(xí)領(lǐng)域，文獻(xiàn)[51]則提出使用基于一階泰勒近似的影響函數(shù)(influence function)以在無(wú)須重新訓(xùn)練模型的情況下，評(píng)估剔除某個(gè)訓(xùn)練樣本對(duì)模型的影響。文獻(xiàn)[52]進(jìn)一步驗(yàn)證了影響函數(shù)不僅可選取單獨(dú)的影響樣本，也可用于選取影響樣本群。

與解釋模型做出某種預(yù)測(cè)的原因的方法不同，基于反事實(shí)樣本的可解釋性方法主要考慮如何通過(guò)輕微的擾動(dòng)，使給定輸入對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果發(fā)生預(yù)定的改變[53-54]。雖然基于反事實(shí)樣本的方法在金融、醫(yī)療健康等方面有著大量的應(yīng)用(arXiv:2010.10596,2020.)，但在影像解譯領(lǐng)域，由于其關(guān)注如何修改輸入以獲得期望的預(yù)測(cè)，故常用于模型安全問(wèn)題，而非模型解釋。然而，仍有部分工作通過(guò)反事實(shí)樣例來(lái)探究為何模型對(duì)輸入不做出某種預(yù)測(cè)，從而解釋模型決策的原理。如文獻(xiàn)[55]提出尋找反事實(shí)視覺(jué)樣本，從而研究模型做不同決策時(shí)所關(guān)注的目標(biāo)特征的不同。

2 解釋質(zhì)量評(píng)估

對(duì)可解釋性分析方法的評(píng)估主要可分為定性和定量評(píng)估。定性評(píng)估指標(biāo)包括連貫性(coherence)、類(lèi)敏感性(class sensitivity)和連續(xù)性(explanation continuity)[5,7,20]，下面列出了幾種常用指標(biāo)的定義。

(1)連貫性(coherence)：指可解釋性方法所給出與預(yù)測(cè)密切相關(guān)的輸入模式應(yīng)當(dāng)是具有區(qū)分性的特征。如對(duì)歸因分析法而言，其所給出的顯著性圖所高亮顯示的像素應(yīng)該集中于具有代表性的特征，而非噪聲。

(2)類(lèi)敏感性(class sensitivity)：指可解釋性方法給出的解釋?xiě)?yīng)該對(duì)類(lèi)別敏感，對(duì)不同的類(lèi)別可給出不同的解釋。

(3)選擇性(selectivity)：對(duì)于一張輸入影像而言，當(dāng)方法所生成的顯著性圖中被認(rèn)為重要的像素被刪除后，對(duì)應(yīng)的模型預(yù)測(cè)類(lèi)別概率應(yīng)當(dāng)下降。

(4)連續(xù)性(explanation continuity)：對(duì)于相似的輸入，可解釋性方法應(yīng)給出相似的解釋。

(5)不變性(implementation invariance)：當(dāng)兩個(gè)待解釋模型等價(jià)時(shí)，即對(duì)同一輸入給出相同預(yù)測(cè)結(jié)果，可解釋性方法應(yīng)該對(duì)這兩個(gè)模型給出相同的解釋。

(6)N階敏感性(sensitivity-N)：對(duì)于顯著性圖的分析方法而言，任給N個(gè)像素，若其對(duì)應(yīng)的分值之和等于輸入中遮蔽這些信號(hào)后預(yù)測(cè)值的變化差值，則該方法認(rèn)為滿(mǎn)足N階敏感性。式(3)給出了N階敏感性的定義

(3)

定量評(píng)估的方法有ROAR法(remove and retrain)，KAR法(keep and retrain)，網(wǎng)絡(luò)分解法等[56-57]。ROAR法和KAR法由文獻(xiàn)[57]提出，這兩種方法衡量當(dāng)被可解釋性方法給出的重要特征被移除或者針對(duì)性保留時(shí)，對(duì)模型的預(yù)測(cè)造成影響，且常用于基于顯著性圖的可解釋性方法。這兩種方法的具體操作如下。

(1)ROAR法：該評(píng)估方法研究當(dāng)顯著性圖中最重要的N%個(gè)像素特征被移除時(shí)，重新訓(xùn)練的模型的精度變化。

(2)KAR法：該評(píng)估方法研究當(dāng)顯著性圖中最不重要的N%個(gè)像素特征被移除時(shí)，重新訓(xùn)練的模型的精度變化。

文獻(xiàn)[38]和文獻(xiàn)[39]通過(guò)使用生成的類(lèi)激活圖進(jìn)行弱監(jiān)督的目標(biāo)定位任務(wù)，以證明其類(lèi)激活圖的解釋準(zhǔn)確度。

雖然上述評(píng)估指標(biāo)與方法能在一定程度上反映可解釋性方法的表現(xiàn)，但這些指標(biāo)對(duì)算法的衡量通常并不全面，具有一定的局限性。比如，一些指標(biāo)只適用于簡(jiǎn)單或者特定類(lèi)型的算法，并且驗(yàn)證一個(gè)方法是否普遍地滿(mǎn)足定性評(píng)估指標(biāo)并不容易；同時(shí)，并非滿(mǎn)足的指標(biāo)越多，該方法就越可靠[58]。不同工作所使用的定量評(píng)估方法也并不完全統(tǒng)一，使用者難以進(jìn)行對(duì)比，故現(xiàn)有衡量指標(biāo)難以廣泛用于評(píng)估多種算法的解釋質(zhì)量。因此，如何設(shè)計(jì)適用性更廣泛、更具統(tǒng)一性的評(píng)估方法尚待進(jìn)一步研究。

3 相關(guān)開(kāi)源軟件

隨著深度學(xué)習(xí)的發(fā)展，可解釋性領(lǐng)域中已有部分工作提供了公開(kāi)可用的工具和代碼。本節(jié)主要給出部分可解釋性方法的開(kāi)源軟件和代碼，以供研究者深入了解當(dāng)前可解釋性研究的進(jìn)展。文獻(xiàn)[59]提供了基于逐層相關(guān)性傳播技術(shù)的工具箱(layer-wise relevance propagation)；文獻(xiàn)[60]發(fā)布了基于Keras框架的開(kāi)源可解釋庫(kù)INNvestigate，其中包含SmoothGrad、DeConvNet和深度泰勒分解多種經(jīng)典歸因分析法；文獻(xiàn)[61]將多種可解釋性方法實(shí)現(xiàn)為T(mén)ensorflow(arXiv:1603.04467,2015.)的回調(diào)函數(shù)，以簡(jiǎn)化可解釋性方法的使用；有文獻(xiàn)提出了基于Pytorch[62]的Captum可解釋性方法庫(kù)(arXiv:2009.07896,2020)，其中包含了多種基于梯度和擾動(dòng)的可解釋性分析算法，以及相關(guān)的一組評(píng)估指標(biāo)，并且提供了基于庫(kù)的交互式可視化工具Captum Insights；還有學(xué)者提出了開(kāi)源的AI Explainability 360工具包(arXiv:1909.03012,2019.)，其中包含了較為全面的可解釋性算法種類(lèi)。除了上述集合了多種解釋性方法的開(kāi)源庫(kù)，大量研究工作也開(kāi)源了其相關(guān)方法的代碼，如LIME[3]、IG[19]和Group-CAM(arXiv:2103.13859,2021.)等。但由于不同工作使用的深度學(xué)習(xí)框架并不統(tǒng)一，前沿工作的方法不易于整合入已有開(kāi)源庫(kù)中，因此，研究具有較強(qiáng)擴(kuò)展性的開(kāi)源庫(kù)對(duì)可解釋性研究領(lǐng)域有重要意義。

4 可解釋深度學(xué)習(xí)與遙感影像

近年來(lái)，人工智能算法極大地推進(jìn)了測(cè)繪遙感技術(shù)的發(fā)展[63-64]，尤其是在遙感智能解譯任務(wù)上，取得了顯著的性能提升[65]。隨著影像解譯可解釋性方法研究的進(jìn)展，部分學(xué)者使用已有可解釋性方法對(duì)遙感影像進(jìn)行分析和算法改進(jìn)。當(dāng)前深度學(xué)習(xí)可解釋性研究主要面向自然影像，而對(duì)遙感影像的特性缺少相關(guān)的研究，故如何針對(duì)遙感影像設(shè)計(jì)可靠的可解釋性算法仍需深入的探索。本節(jié)以使用ResNet50[66]分類(lèi)網(wǎng)絡(luò)進(jìn)行土地利用分類(lèi)為例，開(kāi)展相關(guān)可解釋性分析試驗(yàn)，以展示如何將可解釋性方法運(yùn)用于遙感影像分析中。

4.1 試驗(yàn)設(shè)置

試驗(yàn)使用UC Merced Land Use數(shù)據(jù)集[67]對(duì)ResNet50網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測(cè)試。該數(shù)據(jù)集共包含21種土地利用類(lèi)別，每個(gè)類(lèi)別有100張像素分辨率為1英尺且尺寸為256×256的圖像。本試驗(yàn)將每個(gè)類(lèi)別數(shù)據(jù)的80%劃分為訓(xùn)練數(shù)據(jù)，20%劃分為測(cè)試數(shù)據(jù)，從而得到1680個(gè)訓(xùn)練樣本和420個(gè)測(cè)試樣本。試驗(yàn)使用一張GeForce RTX 3090對(duì)ResNet50進(jìn)行訓(xùn)練，并使用IG[19]、指導(dǎo)型反向傳播技術(shù)(GuidedBP)[24]、SmoothGrad(arXiv:1706.03825,2017)、遮擋分析技術(shù)(occlusion)[22]、Grad-CAM++[40]和Score-CAM[42]對(duì)訓(xùn)練好的ResNet50模型進(jìn)行可解釋性分析。

4.2 試驗(yàn)結(jié)果與分析

圖6給出了由IG、指導(dǎo)型反向傳播技術(shù)(GuidedBP)、SmoothGrad、遮擋分析技術(shù)(Occlusion)、Grad-CAM++和Score-CAM共6種可解釋性方法生成的顯著性圖。由圖6可見(jiàn)，6種可解釋性方法生成的顯著性圖具有一定的一致性。試驗(yàn)中所比較的方法皆能對(duì)不同的目標(biāo)給出對(duì)應(yīng)的解釋?zhuān)识加休^好的類(lèi)敏感性。這6種方法的顯著性圖雖然都能突出目標(biāo)物體的代表性特征，但也會(huì)在不同程度給噪聲高分值。相較于其他方法而言，由于基于類(lèi)激活圖技術(shù)的Grad-CAM++與Score-CAM通常以區(qū)域響應(yīng)的形式定位目標(biāo)物體，故在面對(duì)目標(biāo)分布范圍廣的影像時(shí)，易給更多的噪聲賦予高分值，如圖6(c)、(d)、(f)、(g)的顯著性圖所示；而面對(duì)目標(biāo)較集中的情況，則能顯示出較好的連貫性，甚至在一些場(chǎng)景中給出更好的顯著性圖(如圖6(b))。因此Grad-CAM++與Score-CAM的連貫性會(huì)隨場(chǎng)景特性發(fā)生明顯變化。

進(jìn)一步詳細(xì)橫向?qū)Ρ榷鄠€(gè)方法可以發(fā)現(xiàn)，作為歸因分析法的IG、GuidedBP和SmoothGrad，可給出細(xì)節(jié)較多的顯著性圖，且GuidedBP和SmoothGrad比IG更為清晰，噪聲更少；與IG等方法不同，遮擋分析法、Grad-CAM++和Score-CAM生成的顯著性圖主要尋找對(duì)決策重要性高的片狀區(qū)域。因此，當(dāng)面對(duì)具體物體的分類(lèi)解釋時(shí)(如圖6(a)原圖被分為飛機(jī)類(lèi))，這后3種方法可以給出較好解釋?zhuān)捶诸?lèi)器的決策依賴(lài)目標(biāo)物體所在區(qū)域的信息；然而，當(dāng)面對(duì)用地類(lèi)型和場(chǎng)景分類(lèi)時(shí)(如圖6(c)和(g))，由于與決策相關(guān)的信息在影像中較為分散，遮擋分析法、Grad-CAM++和Score-CAM難以確定對(duì)決策重要的區(qū)域，故給出的顯著性圖不能較好地解釋分類(lèi)器的決策原理。進(jìn)一步縱向?qū)Ρ炔煌跋竦慕忉尳Y(jié)果可發(fā)現(xiàn)，分類(lèi)器對(duì)于不同的影像特性依賴(lài)不同的信息。由圖6(a)和(b)的試驗(yàn)結(jié)果可見(jiàn)，ResNet50分類(lèi)器主要關(guān)注目標(biāo)物體所覆蓋的像素，來(lái)判斷場(chǎng)景中物體的類(lèi)別。圖6(c)和(d)的顯著性圖說(shuō)明，在對(duì)農(nóng)業(yè)用地與森林用地分類(lèi)時(shí)，分類(lèi)器主要依賴(lài)圖中的紋理信息。換言之，分類(lèi)器在對(duì)大面積用地進(jìn)行分類(lèi)時(shí)，影像中土地的紋理信息具有較高的重要性。與前兩種情況不同，圖6(e)、(f)、(g)結(jié)果則說(shuō)明，與場(chǎng)景關(guān)系密切的物體是分類(lèi)器進(jìn)行決策的重要依據(jù)。例如，在多個(gè)可解釋性方法的顯著性圖中，十字路口的交叉中心、飛機(jī)跑道的地標(biāo)和港口的船舶對(duì)決策都有較高的重要性。

圖6 不同可解釋性方法生成的顯著性圖對(duì)比(顯著性圖中，像素顏色越深(黑)，重要性越高；顏色越淺(白)，重要性越低)

綜上所述，當(dāng)前的可解釋性方法可用于遙感影像土地利用分類(lèi)模型，且能解釋分類(lèi)模型對(duì)不同類(lèi)型的影像進(jìn)行決策時(shí)，所依賴(lài)的不同信息。然而，在對(duì)大場(chǎng)景用地分類(lèi)時(shí)，部分方法的適用性仍舊有限。

5 未來(lái)與展望

可解釋性研究是當(dāng)前深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一，對(duì)“黑箱”深度學(xué)習(xí)網(wǎng)絡(luò)模型的可解釋性研究在優(yōu)化模型結(jié)構(gòu)、增強(qiáng)安全性、提供決策信息等方面有著重要意義。本文總結(jié)了當(dāng)前影像解譯領(lǐng)域中的6種主流可解釋性方法、相關(guān)定性與定量評(píng)估方法，以及部分集成了6種可解釋性方法的開(kāi)源庫(kù)。為驗(yàn)證當(dāng)前可解釋性方法在遙感影像解譯研究中的適用性，本文給出了部分具有代表性的方法在遙感數(shù)據(jù)上進(jìn)行分類(lèi)網(wǎng)絡(luò)模型的可解釋性分析。盡管試驗(yàn)表明當(dāng)前可解釋性方法可用于光學(xué)遙感影像分析，但由于當(dāng)前可解釋性方法的研究主要集中于普通自然影像，已有可解釋性方法對(duì)遙感影像中大型場(chǎng)景的適用性有限，并且無(wú)法運(yùn)用先驗(yàn)知識(shí)集成地學(xué)抽象規(guī)則，也難以為非RGB遙感影像(如InSAR數(shù)據(jù)和高光譜影像等)的解譯提供可靠解釋。同時(shí)，由于當(dāng)前可解釋性方法以解釋分類(lèi)模型為主，而對(duì)如目標(biāo)檢測(cè)和語(yǔ)義分割等高級(jí)任務(wù)的可解釋性研究較少，現(xiàn)有可解釋性方法適用任務(wù)范圍狹窄，難以與當(dāng)前智能AI的發(fā)展齊頭并進(jìn)。故而，要可靠地解釋用于遙感影像分析的深度網(wǎng)絡(luò)模型，亟須研究涵蓋多任務(wù)多遙感影像種類(lèi)，且可嵌入遙感地學(xué)先驗(yàn)知識(shí)的可解釋性統(tǒng)一框架，從而為模型結(jié)構(gòu)優(yōu)化提供科學(xué)依據(jù)。