于芝枝
(國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作廣東中心,廣州 510535)
隨著深度學(xué)習(xí)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像分類、目標(biāo)檢測等領(lǐng)域取得了重要成果[1]。神經(jīng)網(wǎng)絡(luò)依舊存在系統(tǒng)的理論基礎(chǔ)缺乏、需大規(guī)模訓(xùn)練數(shù)據(jù)等缺點(diǎn),人們對其工作機(jī)制缺乏足夠的理解,導(dǎo)致在安全性、可靠性要求較高的領(lǐng)域尚未得到實質(zhì)性應(yīng)用。為了更好地理解神經(jīng)網(wǎng)絡(luò),研究其模型工作機(jī)理以及改進(jìn)現(xiàn)有模型策略,可視化工作關(guān)注其神經(jīng)元提取特征和特征間關(guān)聯(lián),有助于理解模型,學(xué)習(xí)到知識,以及內(nèi)在工作機(jī)理。同時可視化工作使得整個神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程和訓(xùn)練信息具體化,有助于設(shè)計和訓(xùn)練一個更好的模型。
根據(jù)可視化方法適配神經(jīng)網(wǎng)絡(luò)中模型部位、階段,可視化方法可大致分為:特征可視化、關(guān)系可視化和過程可視化等三種方法。
特征可視化指神經(jīng)網(wǎng)絡(luò)提取特征具象化。Zeiler 等[2]提出采用多層反卷積網(wǎng)絡(luò),將激活值投影到輸入空間,通過遮擋方式找到圖像對分類結(jié)果影響較大的部分區(qū)域。Girshick 等[3]提出使用圖像不同部位區(qū)域輸入網(wǎng)絡(luò),通過觀察特征變化進(jìn)行可視化。
關(guān)系可視化指模型學(xué)習(xí)到的特征間關(guān)系以及神經(jīng)元間關(guān)系可視化操作。關(guān)系可視化通常需要降維或聚類算法輔助。朱衛(wèi)坪等[4]結(jié)合t-SNE 降維與K-means 聚類算法,對海量、高維、多元的化工產(chǎn)品數(shù)據(jù)進(jìn)行降維可視化,分析實現(xiàn)節(jié)能減排的重要指標(biāo)。Liu 等[5]將CNN 定義為有向無環(huán)圖,提出混合可視化,解釋神經(jīng)元學(xué)習(xí)到的特征及相互作用。
過程可視化指可視化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練信息。其目的是厘清深度學(xué)習(xí)模型的工作機(jī)制。過程可視化通常需要可視化工具或系統(tǒng)輔助實現(xiàn)。Yosinski 等[6]利用深度可視化工具箱實時地、交互式可視化網(wǎng)絡(luò)中神經(jīng)元對輸入圖像或視頻的影響。Chung 等[7]利用ConvNetJS 系統(tǒng)動態(tài)調(diào)整神經(jīng)元、增加或刪除網(wǎng)絡(luò)層等操作,引導(dǎo)網(wǎng)絡(luò)過程訓(xùn)練。
Grad-CAM(Gradient-weighted Class Activa?tion Mapping)[8]利用網(wǎng)絡(luò)反向傳播的梯度計算出特征圖每一個通道的權(quán)重,從而得到熱力圖,屬于特征可視化范疇。Grad-CAM 無需重新訓(xùn)練,可用于不同任務(wù)的網(wǎng)絡(luò),如圖像分類、看圖說話、圖像問答等。Grad-CAM 計算見公式(1)和公式(2)。
其中,A表示最后一層卷積層輸出特征層,k表示特征層A的第k個通道,c表示類別,Ak表示特征層A第k個通道數(shù)據(jù),表示Ak對應(yīng)類別c的權(quán)重(其計算見公式(2))。
式(2)中,yc表示針對類別c的預(yù)測概率,表示特征層A第k個通道坐標(biāo)(i,j)處的數(shù)據(jù),Z表示特征層的寬度×高度。
Grad-CAM可視化流程如下:
(1)首先通過歸一化指數(shù)函數(shù)softmax 得到分類概率yc,對最后一層卷積層的所有特征圖A求偏導(dǎo),得到和A大小相同的偏導(dǎo)矩陣。
(4)將二維矩陣進(jìn)行激活函數(shù)Relu 處理,把負(fù)數(shù)變?yōu)?,得到矩陣。
在文獻(xiàn)[8]中,為了識別圖1 中的類別“狗”,利用Grad-CAM 獲得一個粗糙的熱力圖,并與原圖進(jìn)行疊加,效果如圖2所示。
圖1 原圖
圖2 效果圖
神經(jīng)網(wǎng)絡(luò)可解釋性促進(jìn)深度學(xué)習(xí)在現(xiàn)實中的應(yīng)用,同時也會擴(kuò)展深度學(xué)習(xí)領(lǐng)域知識邊界。依據(jù)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),本文把其可解釋性可視化方法分類為:特征可視化、關(guān)系可視化和過程可視化,并對其概念進(jìn)行了解釋。最后利用Grad-CAM 特征可視化方法舉例,闡述其工作原理。