亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向分類網(wǎng)絡(luò)的視覺語義解釋模型

        2023-11-18 03:32:50呂學(xué)強(qiáng)趙興強(qiáng)賈智彬
        計(jì)算機(jī)工程 2023年11期
        關(guān)鍵詞:類別神經(jīng)元語義

        呂學(xué)強(qiáng),趙興強(qiáng),賈智彬,韓 晶

        (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京信息科技大學(xué) 機(jī)電系統(tǒng)測(cè)控北京市重點(diǎn)實(shí)驗(yàn)室,北京 100192)

        0 概述

        近年來,隨著以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為代表的深度學(xué)習(xí)的發(fā)展,顯著提高了計(jì)算機(jī)視覺相關(guān)任務(wù)的執(zhí)行能力。然而,由于卷積神經(jīng)網(wǎng)絡(luò)內(nèi)在的黑盒特性,解釋深層CNN仍存在巨大的挑戰(zhàn)。即使模型能產(chǎn)生正確的輸出,也需要合理推理以防止人們對(duì)結(jié)果不信任。因此,除了性能之外,神經(jīng)網(wǎng)絡(luò)的可解釋性至關(guān)重要,尤其在高風(fēng)險(xiǎn)的軍事領(lǐng)域[1-2]。

        目前,國內(nèi)外研究人員提出了幾種不同的深層神經(jīng)網(wǎng)絡(luò)理論和解釋方法,一些綜述性論文對(duì)此進(jìn)行了總結(jié)[3-4]。為了理解網(wǎng)絡(luò)學(xué)習(xí)到的特征,越來越多的研究利用可視化的方式探索神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[5]提出的類別激活映射(Class Activation Mapping,CAM)方法,通過提取特征圖與目標(biāo)類別全連接層之間的權(quán)重,直接加權(quán)求和并通過歸一化獲得類激活圖,但該方法需要調(diào)整模型結(jié)構(gòu)、插入全局平均池化層以及重新訓(xùn)練網(wǎng)絡(luò),靈活性較差;文獻(xiàn)[6]提出了Score-CAM,將每個(gè)特征圖作為掩碼干擾原始輸入圖像來獲得權(quán)重并加權(quán),以便獲得最終的解釋圖像。但上述方法只探索了最后一層特征的感興趣區(qū)域,對(duì)于網(wǎng)絡(luò)如何根據(jù)這個(gè)區(qū)域進(jìn)行分類并沒有給出明確的解釋。

        在判斷一張圖片是哪一類的過程中,并不是所有神經(jīng)元都起到了正面的作用,通過CGNIS 算法,嘗試針對(duì)某一類別進(jìn)行實(shí)驗(yàn),找出對(duì)判斷這一類別起到重要作用的神經(jīng)元,進(jìn)一步挖掘神經(jīng)元關(guān)注區(qū)域,更加細(xì)化可視化區(qū)域的關(guān)注點(diǎn)。

        通過觀察重要神經(jīng)元的關(guān)注區(qū)域,發(fā)現(xiàn)這些區(qū)域多為某個(gè)物體關(guān)鍵部位,但該部位的概念具有一定的主觀性。神經(jīng)網(wǎng)絡(luò)只是對(duì)圖像背后像素點(diǎn)數(shù)值特征進(jìn)行學(xué)習(xí),把擁有相似特征的圖片歸為一類,此過程并不能使人理解,人類則是通過圖像中表達(dá)的各種信息理解圖像,傾向于用文字描述圖像[7]。因此,嘗試模擬人對(duì)物體的分類過程,將這些部位的視覺特征轉(zhuǎn)換成語義特征,使解釋網(wǎng)絡(luò)的判斷過程更符合人的思維。為了讓轉(zhuǎn)換過程更加客觀,設(shè)計(jì)一個(gè)新的網(wǎng)絡(luò),將各個(gè)重要神經(jīng)元關(guān)注的區(qū)域進(jìn)行標(biāo)注訓(xùn)練,使網(wǎng)絡(luò)可以得到語言化的結(jié)論。該網(wǎng)絡(luò)融合目前較為主流的殘差思想和多尺度思想,提出簡(jiǎn)化Inception 殘差模塊(Simplified Inception Residual Module,SIRM),將網(wǎng)絡(luò)中間層的3×3 卷積替換掉,使網(wǎng)絡(luò)可以獲得更多的特征。同時(shí)該算法在網(wǎng)絡(luò)中采用有效通道注意力機(jī)制(Efficient Channel Attention,ECA)[8],提高了算法性能,并在重要神經(jīng)元類激活圖分類的任務(wù)中表現(xiàn)出良好的泛化能力。在得到重要神經(jīng)元的語義特征后,結(jié)合其視覺特征以及CGNIS 獲得的對(duì)應(yīng)權(quán)重,可以生成解釋性語句,對(duì)分類網(wǎng)絡(luò)的判定過程進(jìn)行更好的詮釋。

        綜上所述,本文提出一種面向分類網(wǎng)絡(luò)的視覺語義解釋模型。綜合考慮前向與反向傳播,提出CGNIS 算法獲取分類過程對(duì)結(jié)果重要的神經(jīng)元。在得到重要神經(jīng)元的基礎(chǔ)上,采用類激活圖映射的方式生成重要神經(jīng)元關(guān)注區(qū)域,完成從抽象的數(shù)學(xué)特征到視覺特征的轉(zhuǎn)換。隨后嘗試將得到的視覺特征轉(zhuǎn)換成語義特征。為了保證轉(zhuǎn)換過程的客觀性,設(shè)計(jì)一種圖像分類網(wǎng)絡(luò)——IRENet,在VGG16 網(wǎng)絡(luò)中間層添加簡(jiǎn)化Inception 殘差模塊與有效通道注意力機(jī)制,將分類結(jié)果視為重要神經(jīng)元的語義特征,并將各個(gè)重要神經(jīng)元的權(quán)重信息、視覺特征、語義特征相結(jié)合生成解釋性語句。

        1 相關(guān)工作

        1.1 基于反向傳播的視覺解釋方法

        基于反向傳播的視覺解釋方法通過計(jì)算特定類別相對(duì)于輸入梯度的預(yù)測(cè)得分,將可視化的解釋結(jié)果作為每個(gè)像素對(duì)預(yù)測(cè)結(jié)果的重要程度,文獻(xiàn)[9]提出的可視化和理解卷積網(wǎng)絡(luò)方法是這種思路的代表方法,由于反向傳播產(chǎn)生的誤差,使得上述方法效果不佳;文獻(xiàn)[10]通過積累落在圖像距離向量上圖像梯度的方式來克服由于不連續(xù)梯度的存在以及梯度彌散消失產(chǎn)生的誤導(dǎo)作用;文獻(xiàn)[11]在輸入圖像上進(jìn)行多次加噪處理,再對(duì)多個(gè)噪聲樣本的解釋結(jié)果圖像進(jìn)行平均,降低解釋結(jié)果圖像的噪聲;文獻(xiàn)[12]引入導(dǎo)向系數(shù),使其在計(jì)算反向傳播時(shí)只保留正梯度;文獻(xiàn)[13]提出全梯度的概念,將中間層偏差梯度和輸入梯度結(jié)合,得到最終的解釋結(jié)果?;诜聪騻鞑サ慕忉尫椒ㄓ?jì)算速度相對(duì)較快,且可以獲得高分辨率的解釋結(jié)果圖,但其結(jié)果通常存在噪聲,很難確定哪些像素在預(yù)測(cè)時(shí)發(fā)揮了重要作用。

        1.2 基于類激活圖映射的解釋方法

        基于類激活圖映射的解釋方法通過特定方式計(jì)算出特征圖對(duì)應(yīng)的權(quán)重信息,并對(duì)特征圖進(jìn)行加權(quán)求和獲得最終的解釋信息。CAM[5]方法通過提取特征圖與目標(biāo)類別全連接的權(quán)重,直接加權(quán)求和并歸一化獲得類激活圖,但該方法需要調(diào)整模型結(jié)構(gòu)、插入全局平均池化層和重新訓(xùn)練網(wǎng)絡(luò),靈活性較差;文獻(xiàn)[6]提出的Score-CAM 方法將每個(gè)特征圖作為掩碼干擾原始輸入圖像獲得其權(quán)重并加權(quán),以便獲得最終的解釋結(jié)果圖像;此外,Ablation-CAM[14]以及Salience-CAM[15]也取得了不錯(cuò)的效果。文獻(xiàn)[16]提出權(quán)重向量的二步優(yōu)化方式,第一步盡量縮短原始圖像與干擾圖像的特征間距,第二步提高對(duì)干擾圖像的估計(jì)得分。此外,類激活映射的方式還可以與反向傳播方法(如Guided back propagation)相結(jié)合,獲得效果更好的解釋性圖像。上述方法獲得權(quán)重的方式不同,其計(jì)算速度和解釋圖噪聲也不盡相同,且方法傾向于激活圖像中某一個(gè)重要區(qū)域[17],往往忽略其他可能存在的重要區(qū)域。

        本文提出的模型利用類激活圖首先獲取網(wǎng)絡(luò)關(guān)注的整體視覺特征,然后結(jié)合前向與反向傳播尋找重要神經(jīng)元,獲取重要神經(jīng)元的關(guān)注區(qū)域,將整體視覺特征細(xì)化為局部視覺特征,最后將局部視覺特征轉(zhuǎn)換成語義特征。

        2 視覺語義解釋模型

        本文首先提出CGNIS 算法,綜合考慮前向與反向傳播獲取對(duì)分類結(jié)果起重要作用的神經(jīng)元,并利用CAM 將重要神經(jīng)元的關(guān)注區(qū)域映射到原圖,獲取更加細(xì)化的視覺特征。然后提出IRENet 網(wǎng)絡(luò),更加客觀地將視覺特征轉(zhuǎn)換成語義特征。最終結(jié)合重要神經(jīng)元權(quán)重、視覺、語義等信息生成解釋性語句。具體結(jié)構(gòu)如圖1 所示。首先將圖片送入訓(xùn)練好的分類網(wǎng)絡(luò),獲取分類網(wǎng)絡(luò)在分類過程中的數(shù)據(jù),然后經(jīng)過CGNIS 算法計(jì)算最后一層特征圖中對(duì)分類過程起到重要作用的神經(jīng)元,并保留權(quán)重信息,利用CAM 提取視覺特征,隨后將特征送入IRENet 中,提取機(jī)頭、機(jī)身等語義信息,最后將權(quán)重信息、視覺信息、語義信息生成解釋性語句。下文將詳細(xì)介紹重要神經(jīng)元視覺特征和語義特征提取。

        圖1 視覺語義解釋模型Fig.1 Visual semantic interpretation model

        2.1 重要神經(jīng)元視覺特征提取

        2.1.1 基于前向與反向傳播的重要神經(jīng)元獲取方法

        圖像分類是將輸入圖像經(jīng)過卷積和池化操作,提取特征向量并將特征向量傳入全連接層中得到分類結(jié)果的過程。在前向傳播中,每個(gè)神經(jīng)元都或多或少地對(duì)分類結(jié)果造成影響,神經(jīng)元提取的特征越重要,該神經(jīng)元對(duì)網(wǎng)絡(luò)的影響越大。同時(shí),反向傳播也體現(xiàn)出神經(jīng)元存在一定依賴程度:即第l+1 層的每個(gè)神經(jīng)元誤差和第l層每個(gè)神經(jīng)元相關(guān),如誤差的20%由導(dǎo)致,50%由導(dǎo)致,30%由導(dǎo)致,這些值是連接的權(quán)重值,在反向計(jì)算誤差時(shí),第l層每個(gè)神經(jīng)元將對(duì)應(yīng)的誤差值成比例地推向前一層,且比例越大,對(duì)應(yīng)的神經(jīng)元對(duì)當(dāng)前神經(jīng)元的影響越大?;诖擞^點(diǎn),提出一種基于前向傳播與反向傳播的重要神經(jīng)元獲取方法,首先采用置信度思想,利用前向傳播獲取高層卷積的重要神經(jīng)元信息,然后利用鏈?zhǔn)角髮?dǎo)法反向推導(dǎo)出高層卷積層每個(gè)神經(jīng)元的重要程度,將兩者按位相乘得到最終的分?jǐn)?shù)。

        此方法對(duì)分類網(wǎng)絡(luò)普遍適用,本文僅以VGG16網(wǎng)絡(luò)為例進(jìn)行分析。文獻(xiàn)[18-19]的研究表明,最后一層卷積識(shí)別特征最多且此卷積對(duì)最后的分類也最重要,所以CGNIS 算法主要挖掘高層卷積的重要神經(jīng)元。

        給定一個(gè)訓(xùn)練好的VGG16 網(wǎng)絡(luò),利用CAM 算法得到最后一層卷積的置信度,其結(jié)果是一個(gè)512 維的向量,分別對(duì)應(yīng)最后一層每個(gè)神經(jīng)元在前向傳播過程中的重要程度。

        本文從結(jié)果出發(fā),反推輸出層對(duì)結(jié)果的影響,綜合評(píng)判置信度分?jǐn)?shù)。VGG16 網(wǎng)絡(luò)具體計(jì)算公式的推導(dǎo)過程如圖2 所示。

        圖2 VGG16 CGNIS 網(wǎng)絡(luò)推導(dǎo)過程Fig.2 VGG16 CGNIS network derivation process

        經(jīng)過VGG16 第18 層的卷積核池化操作后可獲得7×7×512 的特征圖,將其轉(zhuǎn)化為25 088 維的向量以便作為全連接層的輸入,該過程輸出為a18:

        其中:w、a、b分別表示權(quán)重、輸入值、偏置。

        最后輸出層采用Softmax 激活函數(shù),如式(3)所示:

        得到分類結(jié)果后,利用反向傳播推導(dǎo)出高層卷積層每個(gè)神經(jīng)元的重要程度。

        首先該網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù),如式(4)所示:

        其中:aL是輸出層的激活向量;y是樣本標(biāo)簽向量;i為神經(jīng)元數(shù)。

        其中:zL表示當(dāng)前層的輸入值。

        然后根據(jù)鏈?zhǔn)角髮?dǎo)法則,計(jì)算出第l個(gè)隱含層第j個(gè)節(jié)點(diǎn)的反向傳播誤差,得到第l個(gè)全連接層的反向傳播誤差公式如式(6)所示:

        當(dāng)反向傳播傳到第19 層時(shí),會(huì)存在由全連接層到池化層的反向傳播誤差,如式(7)所示:

        其中:F-1表示全連接的逆運(yùn)算;δ18為第18 層的池化層。

        由δ18推導(dǎo)第18 層的反向傳播誤差時(shí),對(duì)于最大池化,需要上采樣將δ18中每個(gè)通道的元素放在之前前向傳播最大值處,其他元素值設(shè)置為0。反向傳播公式如式(8)所示:

        算法1 描述了實(shí)現(xiàn)整個(gè)算法的全部細(xì)節(jié)。

        算法1CGNIS 算法

        2.1.2 重要神經(jīng)元視覺特征區(qū)域裁剪

        第2.1.1 節(jié)獲得對(duì)分類結(jié)果起重要作用的神經(jīng)元,本節(jié)將可視化神經(jīng)元的關(guān)注區(qū)域,通過借鑒類激活圖的方式將神經(jīng)元映射到原圖,實(shí)現(xiàn)細(xì)化關(guān)注點(diǎn)的目的。具體來說,利用全局平均池化層將輸出層中某個(gè)類別標(biāo)簽所對(duì)應(yīng)的權(quán)值映射到前一層卷積特征圖上并重復(fù)多次,得到每個(gè)通道卷積特征圖對(duì)輸出結(jié)果的重要性,并將每個(gè)卷積特征圖線性相加得到整體類激活圖。該圖大小與原始圖像相同,且像素取值從0 到1,其取值越大表示原始圖片對(duì)應(yīng)區(qū)域?qū)W(wǎng)絡(luò)的響應(yīng)越高,貢獻(xiàn)越大。而在本節(jié)中主要提取最后一層卷積特征圖的類激活映射圖,以獲得某個(gè)重要神經(jīng)元的視覺特征,不需要進(jìn)行最后線性相加操作。

        為了提取更具判別性的局部視覺特征,對(duì)映射區(qū)域進(jìn)行裁剪,首先設(shè)置超參數(shù)閾值θ1,然后對(duì)神經(jīng)元計(jì)算其所需的掩碼,如式(10)所示:

        其中:A表示上采樣后的神經(jīng)元類激活圖;(i,j)代表像素點(diǎn)的位置;M代表處理后的特征圖。

        令xmin和xmax分別表示M中值為1 的橫坐標(biāo)的最小值和最大值,ymin和ymax分別表示M中值為1 的縱坐標(biāo)的最小值和最大值。根據(jù)這4 個(gè)坐標(biāo)即可定位出當(dāng)前神經(jīng)元的關(guān)注區(qū)域。若X為原始輸入圖像,高和寬分別為h和w,p為填充尺寸,則所需裁剪的區(qū)域邊界框坐標(biāo)的計(jì)算公式如式(11)所示:

        在確定出裁剪區(qū)域后,將處理好的卷積特征圖與原圖相乘并裁剪對(duì)應(yīng)區(qū)域,如式(12)所示:

        最后將裁剪后的圖像上采樣到原始圖像尺寸。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來說,圖像的分辨率越大,提取的特征越豐富,模型效果的上限也就越高;將裁剪后的圖像上采樣為原始圖像尺寸,可以作為統(tǒng)一輸入圖像,添加對(duì)比實(shí)驗(yàn)證明提出網(wǎng)絡(luò)的可行性與優(yōu)越性。圖3 所示反映了針對(duì)某張飛機(jī)圖像生成整體類激活圖,某個(gè)神經(jīng)元的掩碼、裁剪并上采樣生成擴(kuò)充圖像的過程和結(jié)果。

        圖3 神經(jīng)元映射區(qū)域裁剪和生成流程Fig.3 Procedure of neuron mapping region cropping and generation

        裁剪并上采樣的圖像代表該神經(jīng)元的視覺特征,下一步嘗試將此特征轉(zhuǎn)換為語義特征。

        2.2 隱含層重要神經(jīng)元語義信息生成

        采用第2.1.2 節(jié)的神經(jīng)元映射方式,可以將神經(jīng)元抽象的數(shù)學(xué)特征轉(zhuǎn)換為關(guān)鍵區(qū)域的視覺特征,本節(jié)在此基礎(chǔ)上,將這些視覺特征轉(zhuǎn)換為便于人類理解的語義特征,并生成描述分類過程的可解釋性語句。觀察第2.1.2 節(jié)獲得的神經(jīng)元映射圖可以發(fā)現(xiàn),這些圖像包含的特征較少,四周存在大量黑邊,僅憑這些圖像得到對(duì)應(yīng)的語義特征無異于盲人摸象。針對(duì)這一問題,設(shè)計(jì)分類網(wǎng)絡(luò)IRENet 將這些圖像識(shí)別出來,從而使語義特征的生成更加客觀。

        本文設(shè)計(jì)的網(wǎng)絡(luò)基于VGG16 網(wǎng)絡(luò),在此基礎(chǔ)上,融 合ResNet 和Inception 的優(yōu)點(diǎn),結(jié) 合VGG 網(wǎng)絡(luò)自身易解釋和可塑性強(qiáng)的特點(diǎn),對(duì)VGG 網(wǎng)絡(luò)進(jìn)行優(yōu)化。具體的網(wǎng)絡(luò)特征提取部分結(jié)構(gòu)如圖4所示。

        圖4 IRENet 特征提取網(wǎng)絡(luò)Fig.4 IRENet feature extraction network

        網(wǎng)絡(luò)特征提取部分將VGG16 中間層3×3 卷積替換為SIRM 模塊。卷積神經(jīng)網(wǎng)絡(luò)淺層主要學(xué)習(xí)簡(jiǎn)單的特征,比如顏色、形狀等[20-22]。網(wǎng)絡(luò)在中間幾層關(guān)注的特征逐漸抽象,這些復(fù)雜的特征需要較深的神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,若只使用簡(jiǎn)單的3×3 卷積提取特征,可能導(dǎo)致關(guān)鍵特征丟失,對(duì)分類結(jié)果產(chǎn)生巨大影響。在網(wǎng)絡(luò)的最后幾層,由于感受野的降低,無須再使用多尺度特征提取,過多提取反而會(huì)降低分類準(zhǔn)確性。所以,本文嘗試改變中間層卷積模塊,提高網(wǎng)絡(luò)分類準(zhǔn)確率。此外,本文網(wǎng)絡(luò)還使用了有效通道注意力機(jī)制ECA,ECA 克服注意力模塊為了獲得較好性能忽略其復(fù)雜程度和計(jì)算量的問題,實(shí)現(xiàn)超輕量級(jí)注意模塊,該模塊可以靈活地整合到現(xiàn)有的CNN 架構(gòu)中。

        圖5 所示為SIRM 模塊,在理想狀態(tài)下,通常假設(shè)輸入圖片為x,f(x) ?Rn表示網(wǎng)絡(luò)中某一個(gè)特定中間層的特征,網(wǎng)絡(luò)的輸出為y=D(f(x))?Rc,c指代分類任務(wù)中類別的數(shù)量,D表示在f(x)之上的網(wǎng)絡(luò)模塊。而在真實(shí)情況下,網(wǎng)絡(luò)中某一層特征應(yīng)表示如下:

        圖5 SIRM 模塊Fig.5 SIRM module

        其中:f′表示某一層實(shí)際特征;Δf表示卷積提取時(shí)網(wǎng)絡(luò)未關(guān)注的特征,此特征因圖像信息位置存在巨大差異,難以選擇合適卷積核大小而產(chǎn)生。信息分布分散的圖像適合大的卷積核,反之則適合小的卷積核,若只是簡(jiǎn)單串聯(lián)各種尺度的卷積,不僅會(huì)加深網(wǎng)絡(luò)深度使網(wǎng)絡(luò)更容易過擬合,還會(huì)使梯度更新變得困難,SIRM 模塊采用1×1 卷積和3×3 卷積進(jìn)行多尺度組合,代替原始的3×3 卷積,并且減少了多尺度分支,提高了推理速度。除此之外,該模塊采用ResNet的殘差思想,如圖5 所示,該模塊中存在兩種殘差結(jié)構(gòu),一種在1×1 卷積和3×3 卷積處添加殘差結(jié)構(gòu),另一種在各分支融合處添加殘差結(jié)構(gòu),使深層網(wǎng)絡(luò)能夠獲得更魯棒的特征表示。

        IRENet 獲取到重要神經(jīng)元的語義特征之后,通過模板將CGNIS 得到的重要神經(jīng)元權(quán)重、視覺特征、語義特征相結(jié)合,生成解釋性語句,相對(duì)于CAM,更加便于理解,且語義特征可以在NLP 領(lǐng)域作為先驗(yàn)知識(shí)組成知識(shí)庫,為后續(xù)的研究和應(yīng)用提供便利。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        CGNIS 算法獲取重要神經(jīng)元實(shí)驗(yàn)采用PyTorch框架提供的VGG16 模型,數(shù)據(jù)集為ImageNet2012 數(shù)據(jù)集,分類準(zhǔn)確率為88.6%。實(shí)驗(yàn)在ImageNet2012 數(shù)據(jù)集中隨機(jī)抽取10類圖像,數(shù)據(jù)集樣例如圖6所示。

        圖6 ImageNet2012 數(shù)據(jù)集樣例Fig.6 Sample of ImageNet2012 dataset

        針對(duì)IRENet 進(jìn)行的實(shí)驗(yàn)可以提取指定類別語義特征,本文只以飛機(jī)與坦克為例,從fgvc-aircraft-2013b和ImageNet2012 數(shù)據(jù)集中分別抽取10 000 張圖片進(jìn)行網(wǎng)絡(luò)的二分類訓(xùn)練。

        在二分類網(wǎng)絡(luò)訓(xùn)練結(jié)束后,使用第2.1 節(jié)的方法獲取重要神經(jīng)元,找出神經(jīng)元的關(guān)注區(qū)域,映射到原圖并遮蓋不重要的區(qū)域。最后將獲取到的神經(jīng)元類激活圖對(duì)應(yīng)原圖信息進(jìn)行人工標(biāo)注,并對(duì)訓(xùn)練好飛機(jī)、坦克二分類的VGG16 網(wǎng)絡(luò)中的重要神經(jīng)元類激活圖進(jìn)行分類,類激活圖樣例如圖7 所示。

        圖7 數(shù)據(jù)集劃分樣例Fig.7 Sample of dataset partition

        3.2 評(píng)價(jià)指標(biāo)

        本文提出的IRENet 網(wǎng)絡(luò)的有效性主要通過網(wǎng)絡(luò)分類效果進(jìn)行評(píng)估。對(duì)于分類算法的效果評(píng)估,本節(jié)使用以下4 項(xiàng)評(píng)價(jià)指標(biāo):即精確率(P)、F1 值(F1)、召回率(R)、準(zhǔn)確率(ACC)。

        3.3 實(shí)驗(yàn)環(huán)境配置

        本節(jié)實(shí)驗(yàn)使用PyTorch 框架,在具體實(shí)驗(yàn)中使用隨機(jī)梯度下降優(yōu)化器進(jìn)行模型優(yōu)化,其動(dòng)量設(shè)置為0.9,學(xué)習(xí)率設(shè)置為0.001。IRENet 網(wǎng)絡(luò)模型與對(duì)比實(shí)驗(yàn)?zāi)P偷牡螖?shù)均為100 次。實(shí)驗(yàn)相關(guān)具體配置如表1 所示。

        表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration

        3.4 基于前向傳播與反向傳播的重要神經(jīng)元獲取方法結(jié)果分析

        3.4.1 重要神經(jīng)元在分類過程中的作用

        實(shí)驗(yàn)在VGG16 網(wǎng)絡(luò)進(jìn)行特征提取的最后一層卷積使用CGNIS 算法獲得神經(jīng)元的重要程度,以此為基礎(chǔ)進(jìn)行探索。在神經(jīng)元可視化方面,本實(shí)驗(yàn)將每個(gè)神經(jīng)元對(duì)應(yīng)的特征圖與原圖相乘,獲得神經(jīng)元的對(duì)應(yīng)區(qū)域。

        CGNIS 計(jì)算結(jié)果表明,每個(gè)類別的重要神經(jīng)元會(huì)在此類圖片分類過程中重復(fù)出現(xiàn),本文猜測(cè)這些神經(jīng)元就是對(duì)分類起到作用的重要神經(jīng)元,并嘗試進(jìn)一步證實(shí)這個(gè)猜想。表2 展示的是“飛機(jī)”、“汽車”、“貓”等類別重要神經(jīng)元出現(xiàn)的次數(shù),神經(jīng)元按所在層數(shù)從上到下依次編號(hào),實(shí)驗(yàn)對(duì)每個(gè)類別均隨機(jī)選取100 張圖片,對(duì)每個(gè)圖片均計(jì)算CGNIS 分?jǐn)?shù),并統(tǒng)計(jì)重要神經(jīng)元出現(xiàn)的頻率。

        表2 重要神經(jīng)元出現(xiàn)的次數(shù)Table 2 Number of important neuron occurrences

        從表2 可以看出:對(duì)“飛機(jī)”而言,重要神經(jīng)元出現(xiàn)次數(shù)最多的是6 號(hào)神經(jīng)元;對(duì)“狗”而言,重要神經(jīng)元出現(xiàn)次數(shù)最多的是129 號(hào)神經(jīng)元。

        圖8 展示了每個(gè)類別重要神經(jīng)元主要關(guān)注的特征?!帮w機(jī)”最重要的6 號(hào)神經(jīng)元,將其可視化,發(fā)現(xiàn)此神經(jīng)元對(duì)“飛機(jī)”這個(gè)類而言,關(guān)注的特征是“機(jī)艙”。本實(shí)驗(yàn)還發(fā)現(xiàn),對(duì)于同一類型的特征,不同種類的重要神經(jīng)元也不同,比如“人”的“頭部”和“鳥頭”。

        圖8 多類別重要神經(jīng)元關(guān)注區(qū)域可視化展示Fig.8 Visualization of important neuronal regions of interest in multiple categories

        為了了解這些神經(jīng)元是對(duì)每個(gè)類別都重要還是針對(duì)特定類別才會(huì)有較高的貢獻(xiàn)度,本節(jié)嘗試對(duì)多個(gè)類別進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用100 張圖像,其中50 張同一類別,另外50 張不同于上一類別,每張圖像獲取某個(gè)特定神經(jīng)元的重要程度。

        圖9 分別展示對(duì)飛機(jī)和坦克重要的神經(jīng)元是否對(duì)其他類別也重要的實(shí)驗(yàn)結(jié)果,其中重要程度數(shù)值越高影響程度越大。實(shí)驗(yàn)結(jié)果表明,對(duì)某個(gè)特定類別最重要的神經(jīng)元,在其他類別中不一定會(huì)起到關(guān)鍵作用。

        圖9 神經(jīng)元對(duì)各類別的重要程度Fig.9 Importance of neurons for each category

        3.4.2 重要神經(jīng)元影響程度

        為了深入了解這些重要神經(jīng)元對(duì)網(wǎng)絡(luò)準(zhǔn)確率的影響,本節(jié)測(cè)試移除一些神經(jīng)元對(duì)網(wǎng)絡(luò)分類的影響。將需要測(cè)試的神經(jīng)元權(quán)重設(shè)置為0,且保持其他神經(jīng)元輸出,實(shí)現(xiàn)刪除神經(jīng)元的效果,并不對(duì)網(wǎng)絡(luò)重新訓(xùn)練,直接測(cè)試這些神經(jīng)元對(duì)當(dāng)前類別和整體網(wǎng)絡(luò)的影響。

        網(wǎng)絡(luò)分類準(zhǔn)確率的高低由神經(jīng)元提取的特征是否重要決定。例如,對(duì)“飛機(jī)”這一類別,最后一層卷積的6 號(hào)神經(jīng)元主要檢測(cè)到的目標(biāo)是“機(jī)艙”,而將該神經(jīng)元?jiǎng)h除后,網(wǎng)絡(luò)在訓(xùn)練集和驗(yàn)證集上對(duì)該類別的圖像識(shí)別準(zhǔn)確率均有所下降,如表3所示。

        表3 刪除神經(jīng)元后準(zhǔn)確率的變化Table 3 Change in accuracy after deleting neurons %

        在表3 中,神經(jīng)元分別對(duì)應(yīng)各個(gè)類別的重要神經(jīng)元,當(dāng)這些神經(jīng)元被刪除時(shí),均會(huì)造成對(duì)應(yīng)類別的準(zhǔn)確率下降。

        本節(jié)還對(duì)某個(gè)具體類別嘗試去掉一些重要和不重要的神經(jīng)元進(jìn)行實(shí)驗(yàn),觀察該類別分類準(zhǔn)確率變化。首先,將CGNIS 得分按遞增和遞減進(jìn)行排序,前者表示重要神經(jīng)元,后者表示不重要神經(jīng)元,然后每次按順序選擇一定數(shù)量的神經(jīng)元進(jìn)行刪除來判斷對(duì)分類準(zhǔn)確率造成的影響。實(shí)驗(yàn)結(jié)果如圖10 所示,該圖展示了在“飛機(jī)”和“坦克”兩個(gè)類別中去掉重要和不重要神經(jīng)元準(zhǔn)確率發(fā)生的變化。從圖10 可以看到,當(dāng)刪除一些重要神經(jīng)元時(shí),對(duì)應(yīng)類別的準(zhǔn)確率均會(huì)下降,刪除的越多準(zhǔn)確率下降的越大。然而,在刪除不重要的神經(jīng)元時(shí),準(zhǔn)確率變化不大,有時(shí)反而有所提升,說明網(wǎng)絡(luò)在分類時(shí)受到不重要神經(jīng)元的干擾。從該實(shí)驗(yàn)可以得出,網(wǎng)絡(luò)僅從最重要的神經(jīng)元中獲得了分類的大部分性能,甚至可以通過刪除最不重要的神經(jīng)元達(dá)到提高單類別精度的效果。

        圖10 刪除重要與不重要神經(jīng)元對(duì)兩類別準(zhǔn)確率的影響Fig.10 The effect of removing significant and insignificant neurons on the accuracy of two categories

        為了測(cè)試網(wǎng)絡(luò)對(duì)某一類別進(jìn)行分類的能力是否可以歸因于這些重要神經(jīng)元,刪除選定的神經(jīng)元集合來驗(yàn)證這些神經(jīng)元對(duì)當(dāng)前類別和整體的影響程度,如表4 所示。

        表4 刪除相關(guān)神經(jīng)元后多類別準(zhǔn)確率的變化Table 4 Change in multi category accuracy after removing related neurons %

        從表4 可以看出,刪除少量相關(guān)神經(jīng)元對(duì)自身類別準(zhǔn)確率影響較大,對(duì)整個(gè)數(shù)據(jù)集影響不大,說明CGNIS 算法確實(shí)提取到單類重要神經(jīng)元。但當(dāng)刪掉100 個(gè)神經(jīng)元時(shí),對(duì)“飛機(jī)”的影響達(dá)到了86.8%,對(duì)整體的影響也達(dá)到了26.5%,分析得出此次整體準(zhǔn)確率下降主要原因是移除的神經(jīng)元過多,包含了其他類別中的重要神經(jīng)元,從而損害網(wǎng)絡(luò)對(duì)其他類別進(jìn)行分類的能力。

        從上述實(shí)驗(yàn)可以發(fā)現(xiàn),CGNIS 算法提取到的重要神經(jīng)元?jiǎng)h除后確實(shí)對(duì)相關(guān)類的分類準(zhǔn)確率有影響??梢暬匾窠?jīng)元關(guān)注區(qū)域發(fā)現(xiàn),在網(wǎng)絡(luò)分類過程中,主要依靠重要神經(jīng)元對(duì)物體關(guān)鍵部位的學(xué)習(xí)。某個(gè)類別對(duì)應(yīng)的重要神經(jīng)元對(duì)其他類的貢獻(xiàn)度很小,且刪除后減少了噪聲,準(zhǔn)確率有時(shí)不降反升。當(dāng)刪除少量某個(gè)類別的重要神經(jīng)元時(shí),對(duì)整個(gè)數(shù)據(jù)集的分類準(zhǔn)確率影響不大。

        3.5 隱含層語義信息生成實(shí)驗(yàn)分析

        3.5.1 語義特征識(shí)別網(wǎng)絡(luò)IRENET 消融實(shí)驗(yàn)

        本節(jié)采用消融實(shí)驗(yàn)來驗(yàn)證對(duì)網(wǎng)絡(luò)中間層卷積的改進(jìn)以及在高層添加通道注意力機(jī)制是否有助于提升分類準(zhǔn)確度。首先本節(jié)在RESNET18 網(wǎng)絡(luò)上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示,對(duì)于未采用任何模塊的RESNET18 來講,無論采用SIRM 和ECA 中的任何一個(gè)模塊,其實(shí)驗(yàn)得到的評(píng)價(jià)指標(biāo)均有一定的提升,這說明這兩個(gè)模塊均可以作為單獨(dú)方法使用。而在兩個(gè)模塊一起使用的情況下,網(wǎng)絡(luò)分類的精度和單獨(dú)使用相比又有了進(jìn)一步的提升,這也說明了本節(jié)算法能夠更加準(zhǔn)確地學(xué)習(xí)和獲取到圖像的重要特征,使分類結(jié)果更準(zhǔn)確。

        表5 消融實(shí)驗(yàn)1 結(jié)果Table 5 Results of ablation experiment 1

        同時(shí),在IRENet 模型上做了相同的消融實(shí)驗(yàn),該實(shí)驗(yàn)將本文提出的SIRM 模塊和使用的ECA 模塊單獨(dú)使用,探討這兩個(gè)模塊的有效性。實(shí)驗(yàn)結(jié)果表明,在單獨(dú)使用時(shí),兩模塊對(duì)神經(jīng)元的類激活映射圖的分類也能達(dá)到不錯(cuò)的效果,結(jié)果如表6 所示。實(shí)驗(yàn)結(jié)果表明,較單獨(dú)使用其中模塊的情況下,同時(shí)使用兩者會(huì)使網(wǎng)絡(luò)效果更好,這也進(jìn)一步證實(shí)了提出的IRENet 網(wǎng)絡(luò)的有效性。

        3.5.2 語義特征識(shí)別網(wǎng)絡(luò)IRENet 分類對(duì)比實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文提出的網(wǎng)絡(luò)對(duì)當(dāng)前神經(jīng)元映射區(qū)域圖像分類任務(wù)的有效性與優(yōu)越性,利用現(xiàn)有經(jīng)典卷積網(wǎng)絡(luò)算法進(jìn)行對(duì)比實(shí)驗(yàn)。其中,使用的主流卷 積網(wǎng)絡(luò) 框架包 括VGG16[23]、RESNET[24]、INCEPTIONNETV3[25]、MOBILENETV3[26]和EFFIC IENTNET[27]網(wǎng)絡(luò)。分類結(jié)果如表7 所示。

        表7 分類實(shí)驗(yàn)結(jié)果Table 7 Classification experimental results

        從表7 可以看出,本文提出的IRENET 與目前已有且比較主流的分類網(wǎng)絡(luò)相比,在相同的訓(xùn)練環(huán)境和參數(shù)設(shè)置下,在神經(jīng)元類激活圖的數(shù)據(jù)集上各項(xiàng)指標(biāo)均有提升。IRENET 在網(wǎng)絡(luò)中間層將3×3 卷積替換成由1×1 卷積和3×3 卷積構(gòu)成的輕量化模塊,使網(wǎng)絡(luò)更加關(guān)注中間層特征并更好地獲取特征,同時(shí)融入殘差連接思想,使IRENET 與VGG16 和RESNET101 兩個(gè)網(wǎng)絡(luò)相比均有不錯(cuò)的提升。在網(wǎng)絡(luò)分類時(shí),IRENET 在網(wǎng)絡(luò)高層的語義獲取層以及全局平均池化層中添加通道注意力機(jī)制,使網(wǎng)絡(luò)更加關(guān)注重要神經(jīng)元的貢獻(xiàn),進(jìn)一步提升性能。

        同時(shí),選取VGG16、RESNET101、IRENET 分別對(duì)“飛機(jī)”類別生成解釋性語句進(jìn)行比較,結(jié)果如圖11 所示,VGG16 將機(jī)頭錯(cuò)誤分類為機(jī)尾,將機(jī)尾錯(cuò)誤分成機(jī)身,將機(jī)翼錯(cuò)誤分成機(jī)頭,RESNET101把機(jī)頭錯(cuò)誤分成機(jī)身,IRENET 則準(zhǔn)確地提取各個(gè)重要神經(jīng)元視覺特征對(duì)應(yīng)的語義特征,使生成的解釋性語句更加客觀。

        圖11 各模型生成的解釋性語句對(duì)比Fig.11 Comparison of explanatory statements generated by each model

        4 結(jié)束語

        本文提出的視覺語義解釋模型首先綜合考慮前向傳播與反向傳播,然后給出CGNIS 算法,得到分類過程中起重要作用的神經(jīng)元,利用類激活圖的方式可視化并裁剪出重要神經(jīng)元的視覺特征,最后提出IRENet,在VGG16 的基礎(chǔ)上添加SIRM 和ECA,利用IRENet 識(shí)別視覺特征對(duì)應(yīng)的語義特征。實(shí)驗(yàn)結(jié)果表明,刪除CGNIS 算法得到的某一類別的重要神經(jīng)元后,對(duì)應(yīng)類別的分類準(zhǔn)確率下降3%以上,在語義特征提取任務(wù)上,IRENet 的F1 值、準(zhǔn)確率、精確率和召回率4 項(xiàng)指標(biāo)較ResNet101 等分類網(wǎng)絡(luò)提升2%以上。下一步將對(duì)語義提取部分進(jìn)一步優(yōu)化,嘗試將原始數(shù)據(jù)進(jìn)行更細(xì)粒度的標(biāo)注,通過計(jì)算IoU達(dá)到獲取語義特征的目的。

        猜你喜歡
        類別神經(jīng)元語義
        《從光子到神經(jīng)元》書評(píng)
        自然雜志(2021年6期)2021-12-23 08:24:46
        語言與語義
        躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于二次型單神經(jīng)元PID的MPPT控制
        毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
        認(rèn)知范疇模糊與語義模糊
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        国产精品亚洲一区二区三区正片 | 无码熟妇人妻av在线c0930| 亚洲永久精品日韩成人av| 国产精品国产亚洲精品看不卡| 人妻夜夜爽天天爽一区| 精品国产av无码一道| 熟女乱乱熟女乱乱亚洲| 自拍偷拍一区二区三区四区| 免费在线观看草逼视频| 日本视频在线观看一区二区 | 久久无码潮喷a片无码高潮 | 人妻丝袜中文无码av影音先锋专区| 品色永久免费| 亚洲五月婷婷久久综合| 女同舌吻互慰一区二区| 加勒比精品视频在线播放| 蜜臀av999无码精品国产专区| 国产性生交xxxxx免费| 日韩啪啪精品一区二区亚洲av| 精品久久免费国产乱色也| 在线观看中文字幕二区| 天堂а√在线最新版中文在线| 国产在线高清视频| 国产乱人伦AⅤ在线麻豆A| 日韩中文字幕一区在线| 精品久久久久久综合日本| 亚洲国产av导航第一福利网| 欧美1区二区三区公司| 日韩av一区二区三区精品久久| 午夜无遮挡男女啪啪免费软件| 女同亚洲女同精品| 亚洲在中文字幕乱码熟女| 亚洲综合第一页中文字幕| 亚洲日产精品一二三四区| 久久频精品99香蕉国产| 丝袜美腿一区二区在线观看| 午夜免费观看日韩一级视频| 国产精品久久久久9999吃药| 亚洲三级黄色| av网站一区二区三区| 久久精品国产亚洲av无码偷窥|