亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識蒸餾的特定知識學習

        2022-01-05 02:31:04戴朝霞曹堉棟朱光明沈沛意
        計算機應(yīng)用 2021年12期
        關(guān)鍵詞:類別注意力分類

        戴朝霞,曹堉棟,朱光明,3,沈沛意,3,徐 旭,4,梅 林,4,張 亮,3*

        (1.中國電子科技集團公司第三十研究所,成都 610041;2.西安電子科技大學計算機科學與技術(shù)學院,西安 710071;3.西安市智能軟件工程重點實驗室,西安 710071;4.公安部第三研究所,上海 200031)

        (?通信作者電子郵箱liangzhang@xidian.edu.cn)

        0 引言

        不論是現(xiàn)實生活還是工業(yè)現(xiàn)場,嵌入式設(shè)備隨處可見,為使深度卷積神經(jīng)網(wǎng)絡(luò)運行在這些資源緊缺設(shè)備上,模型壓縮應(yīng)運而生。目前主流的模型壓縮方法主要分為四類:低秩分解、參數(shù)量化、模型剪枝和知識蒸餾。

        一般情況下,網(wǎng)絡(luò)模型訓(xùn)練完成后,卷積核存在低秩特性,因此需要去除冗余參數(shù)。常用低秩分解[1-5]方法多使用奇異值分解(Singular Value Decomposition,SVD)來對卷積核進行分解,從而達到模型壓縮效果。低秩分解一定程度壓縮了網(wǎng)絡(luò)模型,但其實現(xiàn)復(fù)雜,難以大規(guī)模推廣。參數(shù)量化方法通過減少模型參數(shù)的存儲位數(shù)達到模型壓縮的效果,以減少多余的存儲資源的消耗。Vanhoucke 等[6]和Gupta 等[7]分別采用8 bit 和16 bit 大小存儲模型參數(shù),且保證準確率基本不受影響。參數(shù)量化方法多適用于小型網(wǎng)絡(luò)的壓縮,對于大型網(wǎng)絡(luò)會導(dǎo)致準確率大幅下降。

        研究表明,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中存在著大量的冗余結(jié)構(gòu),這些結(jié)構(gòu)會導(dǎo)致網(wǎng)絡(luò)模型過擬合問題,降低泛化能力,對網(wǎng)絡(luò)性能造成影響。模型剪枝[8-12]算法就是通過裁剪這些冗余結(jié)構(gòu)來壓縮模型大小且適當?shù)靥嵘W(wǎng)絡(luò)性能。模型剪枝算法分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝兩大類,非結(jié)構(gòu)化剪枝直接對參數(shù)權(quán)重作置零操作,而結(jié)構(gòu)化剪枝對網(wǎng)絡(luò)結(jié)構(gòu)整體作裁剪操作。知識蒸餾是模型壓縮中最具特色的一種壓縮方式,它首先訓(xùn)練好分類性能強大的大型網(wǎng)絡(luò),稱之為教師網(wǎng)絡(luò);再通過蒸餾過程指導(dǎo)訓(xùn)練小型網(wǎng)絡(luò),稱之為學生網(wǎng)絡(luò)。該方法得到的學生網(wǎng)絡(luò)能夠代替教師網(wǎng)絡(luò)部署到工業(yè)現(xiàn)場,最終達到模型壓縮的效果。

        傳統(tǒng)知識蒸餾算法中教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)執(zhí)行的任務(wù)一致,本文側(cè)重于學生網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類效果,最終目的是得到網(wǎng)絡(luò)規(guī)模小但特定類分類性能等于甚至超過教師網(wǎng)絡(luò)的分類網(wǎng)絡(luò)。

        本文的主要工作包括:

        1)基于知識蒸餾提出新的特定知識學習概念,并結(jié)合注意力特征遷移蒸餾算法,提出僅使用特定數(shù)據(jù)訓(xùn)練的特定知識學習基礎(chǔ)算法;

        2)在特定知識學習基礎(chǔ)算法上引入抑制背景類知識的蒸餾策略;調(diào)整網(wǎng)絡(luò)抑制位置,僅在高層作抑制操作,得到蒸餾過程中特定知識含量更高的學生網(wǎng)絡(luò);

        3)使用常規(guī)數(shù)據(jù)集CIFAR-100,設(shè)置多組對照實驗,結(jié)合有先驗信息的評估方式,驗證本文所提特定知識學習算法在特定類別分類領(lǐng)域的優(yōu)越性。

        1 相關(guān)工作

        知識蒸餾的概念自Hinton 等[13]提出后,各種新的蒸餾算法層出不窮??v覽所有知識蒸餾算法,幾乎都圍繞著知識的定義以及傳遞知識的方式來提出研究的創(chuàng)新點。針對這兩個研究重點,本文將概述已有的表現(xiàn)不俗的知識蒸餾算法。

        Hinton 等最早提出知識蒸餾的概念,并確立了蒸餾過程中教師-學生的框架。該方法不僅利用原始的標簽信息,同時也結(jié)合了教師網(wǎng)絡(luò)產(chǎn)生的預(yù)測概率,而預(yù)測概率就是該方法傳遞的知識。在此基礎(chǔ)上,Romero 等[14]不僅僅使用教師網(wǎng)絡(luò)的預(yù)測概率,同時還利用了教師網(wǎng)絡(luò)的中間層特征圖。該方法強制讓學生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)中間層特征圖信息,一定程度上增加了知識傳遞的含量但是卻導(dǎo)致了過正則化問題,使得網(wǎng)絡(luò)難以收斂。為解決蒸餾過程中的強約束問題,Zagoruyko 等[15]引入注意力機制,該方法僅讓學生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)中間層的注意力特征圖,有效地提升了學生網(wǎng)絡(luò)的分類性能。

        除了直接利用教師網(wǎng)絡(luò)的輸出信息或者中間層信息外,其他蒸餾算法對傳遞的知識作了全新的定義。Yim 等[16]提出學生網(wǎng)絡(luò)學習教師網(wǎng)絡(luò)模型層與層之間的映射關(guān)系,這種映射關(guān)系可以解釋為解決問題的思路,即授人以魚不如授人以漁的哲學思想。Heo 等[17]提出學習教師網(wǎng)絡(luò)的邊界分布更有利于提升學生網(wǎng)絡(luò)的分類性能,通過最大化邊界誤差,使得學生網(wǎng)絡(luò)分類效果明顯提升。Zhang 等[18]提出了互相學習蒸餾算法,該方法脫離了教師-學生模式的約束,通過兩網(wǎng)絡(luò)互相并行訓(xùn)練學習共同提升網(wǎng)絡(luò)的分類能力。

        傳統(tǒng)知識蒸餾中教師網(wǎng)絡(luò)將所有的知識傳遞給學生網(wǎng)絡(luò),一定程度上提升了網(wǎng)絡(luò)的全分類性能,但在特定類別分類任務(wù)上提升效果并不明顯。本文提出的特定知識學習算法,將有效地提升學生網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類準確率,使其成為該領(lǐng)域的專家網(wǎng)絡(luò),且保證網(wǎng)絡(luò)規(guī)模足夠小,便于工業(yè)現(xiàn)場的部署。該算法訓(xùn)練得到的學生網(wǎng)絡(luò)完全契合工業(yè)現(xiàn)場場景單一、分類數(shù)目少的特點,對未來網(wǎng)絡(luò)模型在工業(yè)領(lǐng)域的部署有一定的啟發(fā)作用,具有非常重要的實用價值和意義。

        2 傳統(tǒng)知識蒸餾和特定知識學習

        本章將詳細介紹傳統(tǒng)知識蒸餾和特定知識學習之間的聯(lián)系和區(qū)別,并且指明特定知識學習最顯著的三個特點。

        傳統(tǒng)知識蒸餾的初衷是讓學生網(wǎng)絡(luò)替代教師網(wǎng)絡(luò),以達到模型壓縮的效果。為了追求較大的壓縮比,學生網(wǎng)絡(luò)規(guī)模通常遠小于教師網(wǎng)絡(luò)。當執(zhí)行簡單分類任務(wù)時,學生網(wǎng)絡(luò)通常表現(xiàn)不錯,但對于復(fù)雜的分類任務(wù),由于參數(shù)規(guī)模的差異,學生網(wǎng)絡(luò)的性能終究不會超過教師網(wǎng)絡(luò)。根本原因是層數(shù)少的學生網(wǎng)絡(luò)卷積層對圖像特征的提取和理解能力不強,無法全部消化掉教師網(wǎng)絡(luò)指導(dǎo)的知識特征。

        針對此種情況,減小學生網(wǎng)絡(luò)的分類任務(wù)復(fù)雜度,即只執(zhí)行特定類別的任務(wù)分類,使其能專注特定類別領(lǐng)域的分類。在知識蒸餾框架中,只允許學生網(wǎng)絡(luò)學習一些特定知識,并使其完全消化這部分知識,目的是使學生網(wǎng)絡(luò)執(zhí)行特定類別的分類任務(wù)時,效果將優(yōu)于普通學生網(wǎng)絡(luò)甚至教師網(wǎng)絡(luò)。綜上所述,本文提出特定知識學習,將教師網(wǎng)絡(luò)的部分或者特定種類的圖像特征知識傳遞給學生網(wǎng)絡(luò),使學生成為該特定知識領(lǐng)域的專家網(wǎng)絡(luò)。

        相對于傳統(tǒng)知識蒸餾算法,特定知識學習著重強調(diào)特定二字。首先學生網(wǎng)絡(luò)執(zhí)行特定的分類任務(wù),其必須是教師網(wǎng)絡(luò)分類任務(wù)的子集。通常認為教師網(wǎng)絡(luò)是一個功能強大的大型網(wǎng)絡(luò),其功能泛而不專;特定知識學習后的學生網(wǎng)絡(luò)功能更加專一,不考慮學生網(wǎng)絡(luò)對其他類別的分類性能,只驗證學生網(wǎng)絡(luò)對特定類別的分類能力,這便是任務(wù)上的特定。

        其次在蒸餾過程中,為避免其他無關(guān)類別知識干擾,特意讓學生網(wǎng)絡(luò)只接受教師網(wǎng)絡(luò)特定類別的知識。這樣做的目的有:1)學生網(wǎng)絡(luò)規(guī)模小而精,只學習特定知識使得學生網(wǎng)絡(luò)能夠使用更多神經(jīng)元參與特定類的分類,不必為其他無關(guān)知識分擔精力;2)教師網(wǎng)絡(luò)是一個復(fù)雜綜合的網(wǎng)絡(luò),其學習到的知識是豐富的,在訓(xùn)練教師網(wǎng)絡(luò)的過程中,訓(xùn)練數(shù)據(jù)集包含了豐富種類的圖片,在網(wǎng)絡(luò)底層能夠?qū)W習到種類和數(shù)量更多的基礎(chǔ)特征,因此教師網(wǎng)絡(luò)在網(wǎng)絡(luò)中間層能夠?qū)W習到更豐富的內(nèi)容,且該部分知識具有泛化性,這是一個學生網(wǎng)絡(luò)單獨訓(xùn)練不可能獲得的知識。

        最后實現(xiàn)特定知識學習的方式是讓學生網(wǎng)絡(luò)只使用特定類別數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。

        如圖1 所示,為特定知識學習簡圖,正如上文中所述,特定知識學習與傳統(tǒng)知識蒸餾之間存在著明顯的不同,即特定知識學習有著特定的數(shù)據(jù)集、執(zhí)行特定任務(wù)并且在蒸餾過程中傳遞特定知識。

        圖1 特定知識學習示意圖Fig.1 Schematic diagram of specific knowledge learning

        3 注意力特征遷移蒸餾算法

        在介紹特定知識學習算法之前,本章首先介紹注意力特征遷移蒸餾算法,本文所提算法皆基于該蒸餾算法,理解該算法便于閱讀后文內(nèi)容。

        研究表明,人類在圖像認知時,會選擇性地關(guān)注到完整信息的某一部分,忽略其他不重要的信息,這種信息處理方式大大提高了人類認知圖片的效率。受此啟發(fā),Zagoruyko 等將此種機制引入到知識蒸餾中,并將注意力特征圖當作學生網(wǎng)絡(luò)需要學習的知識。他提出讓學生網(wǎng)絡(luò)中間層對應(yīng)地學習教師網(wǎng)絡(luò)中間層生成的注意力特征圖,以保證學生網(wǎng)絡(luò)中間層特征圖和教師網(wǎng)絡(luò)相似。實驗結(jié)果表明,這種方式是科學、正確的,在大多數(shù)情況下,注意力特征遷移算法的蒸餾效果要優(yōu)于其他蒸餾算法。注意力特征遷移蒸餾算法架構(gòu)如圖2 所示,其中AM 表示注意力特征圖(Attention Map)。由圖2 可知,學生網(wǎng)絡(luò)架構(gòu)和教師網(wǎng)絡(luò)結(jié)構(gòu)需要類似,圖中網(wǎng)絡(luò)結(jié)構(gòu)有三處的注意力特征圖是一一對應(yīng)的。

        圖2 注意力特征遷移結(jié)構(gòu)Fig.2 Attention feature transfer structure

        注意力特征遷移蒸餾算法損失函數(shù)由兩部分組成:類概率損失和蒸餾損失,如式(1)、(2)所示:

        其中:L代表損失函數(shù),L(WS,x)代表學生網(wǎng)絡(luò)的類概率損失,LKD代表蒸餾損失;X為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)中間層對應(yīng)的集合,分別代表X集合中第j對學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的注意力特征圖;β是蒸餾損失權(quán)重,用來約束蒸餾損失對整個損失的影響。

        為了獲得更好的知識傳遞效果,注意力特征圖的定義并不唯一,不同定義適用于不同的場景,供實驗人員根據(jù)實驗結(jié)果選擇特征圖定義。特征圖定義公式如式(3)~(5)所示,A代表網(wǎng)絡(luò)中間層的激活響應(yīng)圖,其大小通常為W×H×C,其中W和H分別代表圖像的寬和高,C代表通道數(shù)量。本文實驗中選用是第2個公式,此時p=2。

        4 基于注意力遷移的特定知識學習算法

        前兩章介紹了特定知識學習的概念和傳統(tǒng)注意力特征遷移蒸餾算法,本章將重點介紹基于注意力特征遷移的三種特定知識學習算法,并表述其網(wǎng)絡(luò)架構(gòu)和損失函數(shù)。

        4.1 基礎(chǔ)算法

        為提升學生網(wǎng)絡(luò)在特定類別任務(wù)的分類性能,僅使用特定類別數(shù)據(jù)集去指導(dǎo)訓(xùn)練學生網(wǎng)絡(luò)。為敘述方便,本文將該算法稱為AT_Specific,其整體網(wǎng)絡(luò)架構(gòu)如圖3所示。如圖3中左側(cè)所示,將訓(xùn)練學生網(wǎng)絡(luò)的數(shù)據(jù)集作預(yù)處理,將全部數(shù)據(jù)集中無關(guān)類別的數(shù)據(jù)剔除,只留下特定類別的圖像數(shù)據(jù)。通過此方式,大大減弱了其他無關(guān)類別對特定類別分類任務(wù)的影響。當只使用特定類別數(shù)據(jù)訓(xùn)練學生網(wǎng)絡(luò)時,蒸餾過程中也僅傳遞特定類別的相關(guān)知識,網(wǎng)絡(luò)中間層模仿到的注意力特征圖也是教師網(wǎng)絡(luò)中特定類別樣本的注意力特征圖,所以通過知識蒸餾學生網(wǎng)絡(luò)學習到了教師網(wǎng)絡(luò)中傳遞的特定知識。觀察圖3 右側(cè),教師網(wǎng)絡(luò)是一個全分類的分類網(wǎng)絡(luò),學生網(wǎng)絡(luò)僅僅分類特定類別,這是特定知識學習算法中教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)之間的一個重要區(qū)別。

        圖3 特定知識學習基礎(chǔ)算法結(jié)構(gòu)Fig.3 AT_Specific structure

        4.2 背景類知識抑制算法

        在特定知識學習框架中,教師網(wǎng)絡(luò)是一個全分類網(wǎng)絡(luò),訓(xùn)練教師網(wǎng)絡(luò)時,使用的數(shù)據(jù)集是全體數(shù)據(jù)集,并未經(jīng)過特定類別的分組處理。因此教師網(wǎng)絡(luò)中不僅僅包含了特定類別的知識信息,還包含了其他非特定類別的圖像特征。教師網(wǎng)絡(luò)中豐富的圖像特征有利有弊,好處是指導(dǎo)的學生網(wǎng)絡(luò)有著不錯泛化能力,在分類全部類別時有不錯的分類性能;壞處是僅針對分類特定類別的任務(wù)時,其他無關(guān)類別的特征信息會造成干擾,影響分類效果?;谝陨戏治?,本文認為在特定知識學習中,削弱甚至剔除蒸餾過程中的其他無關(guān)類別的特征知識很有必要。

        將背景類的概念引申到特定知識學習中來,如果將全部類別數(shù)據(jù)當成一張圖像,特定類別當成前置物體,而其他類別當成一種背景類,對于特定類別的提純可能會有幫助?;谏鲜霾孪?,本文將全體數(shù)據(jù)集做預(yù)處理,全體數(shù)據(jù)將分為兩大類:特定類數(shù)據(jù)集和背景類數(shù)據(jù)集。特定類數(shù)據(jù)集為本文要檢測的特定類別數(shù)據(jù)集合,而背景類數(shù)據(jù)集為所有其他的非特定類數(shù)據(jù)。本文將該算法稱為AT_Background,整體算法框架如圖4 所示。圖4 左側(cè)顯示全體數(shù)據(jù)集經(jīng)預(yù)處理后生成了特定類數(shù)據(jù)和背景類數(shù)據(jù)。同時,在圖4 右側(cè)只有一個背景類標簽,將所有原先的無關(guān)類別全部分類為背景類。這樣改進的好處有兩點:其一是通過整合所有無關(guān)類別,并將這些類別統(tǒng)稱為背景類的操作,避免了人為選取不同非特定類導(dǎo)致性能差距較大的結(jié)果;其二是在蒸餾過程中,由于網(wǎng)絡(luò)的中間特征圖被抑制后,對網(wǎng)絡(luò)輸出影響較大,因此將其他無關(guān)類別統(tǒng)一為同一背景類標簽是有必要且合理的。

        圖4 背景類知識抑制算法結(jié)構(gòu)Fig.4 AT_Background structure

        中間傳遞過程中既包含學習特定類知識,又包含抑制非特定類知識,具體內(nèi)部細節(jié)如圖5 所示。圖5 蒸餾模塊中顯示,當學生網(wǎng)絡(luò)獲取到特定類樣本時,直接去模仿教師網(wǎng)絡(luò)對應(yīng)層的注意力特征圖;當學生網(wǎng)絡(luò)獲取到背景類樣本時,將教師網(wǎng)絡(luò)的注意力特征圖置零,通過學習零特征圖達到抑制背景類知識的目的,其損失函數(shù)表達式如式(6)。

        圖5 背景類知識抑制算法內(nèi)部蒸餾細節(jié)Fig.5 Internal distillation details of AT_Background

        其中:L代表損失函數(shù),Lspecific(WS,x)代表學生網(wǎng)絡(luò)的特定類類概率損失;X為教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)中間層對應(yīng)的集合,和分別代表X集合中第j對學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的注意力特征圖;a和b參數(shù)分別代表特定類損失和非特定類損失占總損失的權(quán)重。對于特定類,學生網(wǎng)絡(luò)注意力特征圖和教師網(wǎng)絡(luò)注意力特征圖越相似,其損失越低;對于非特定類,直接抑制學生網(wǎng)絡(luò)的注意力特征圖,使其激活值趨向0。最終結(jié)果使得學生網(wǎng)絡(luò)更好地學習到教師網(wǎng)絡(luò)特定類知識且對于非特定類敏感程度降低,減少非特定類圖像特征的干擾,提升分類性能。

        4.3 網(wǎng)絡(luò)高層背景類知識抑制算法

        根據(jù)神經(jīng)網(wǎng)絡(luò)可視化研究,網(wǎng)絡(luò)底層通常是線條、曲線等基礎(chǔ)的圖像特征,高層才慢慢細分成與任務(wù)種類相關(guān)的圖像特征。AT_Background 算法中在網(wǎng)絡(luò)低層和中層作抑制操作多有不妥。因此,本文提出僅在網(wǎng)絡(luò)高層作抑制操作的AT_Background_High 算法,該算法網(wǎng)絡(luò)整體架構(gòu)和損失函數(shù)和之前類似,在此不再贅述。

        5 實驗與結(jié)果

        本章將使用本文提出的特定知識學習算法在CIFAR-100數(shù)據(jù)集上執(zhí)行特定類別分類任務(wù),并分別與教師網(wǎng)絡(luò)、無知識蒸餾、有知識蒸餾學生網(wǎng)絡(luò)比較20 個特定任務(wù)的分類準確率Acc(Accuracy)均值、精確率Pre(Precision)均值、召回率Re(Recall)均值以及F1(F1-Measure)均值。

        5.1 度量標準

        評判網(wǎng)絡(luò)模型分類性能的常用指標Accuracy、Precision、Recall 和F1-Measure 多用于二分類任務(wù)中,計算公式如式(7)~(10)。依據(jù)數(shù)據(jù)集特性,本文實驗中每一個特定分類任務(wù)為多分類,須將多分類轉(zhuǎn)化為二分類。

        其中:all表示分類的總體樣本數(shù);N表示多分類任務(wù)中的分類數(shù);TPi表示分類網(wǎng)絡(luò)將圖像正確地預(yù)測成第i類的樣本數(shù);FPi表示分類網(wǎng)絡(luò)將圖像錯誤地預(yù)測成第i類的樣本數(shù);FNi表示分類網(wǎng)絡(luò)將圖像錯誤地預(yù)測成非第i類的樣本數(shù)。

        為更好地評估分類網(wǎng)絡(luò)的特定類別分類性能,依據(jù)數(shù)據(jù)集構(gòu)成,每次都會評估20 個特定類別任務(wù),并求其均值來體現(xiàn)分類網(wǎng)絡(luò)的特定類別分類性能。

        由前文可知,學生網(wǎng)絡(luò)執(zhí)行的任務(wù)通常是教師網(wǎng)絡(luò)執(zhí)行分類任務(wù)的子集,由于存在分類數(shù)目不一致,最終預(yù)測結(jié)果時教師網(wǎng)絡(luò)由于不知道樣本粗標簽信息導(dǎo)致評分下降。例如一個5分類的分類網(wǎng)絡(luò)隨機分類正確的概率為20%,而一個100分類的分類網(wǎng)絡(luò)隨機分類正確的概率為1%,如果直接進行不同分類數(shù)目的分類網(wǎng)絡(luò)結(jié)果對比,顯然是不正確的。為公平起見,在評估全分類網(wǎng)絡(luò)的特定類別分類性能時,提前告知預(yù)測標簽范圍,以保證全分類網(wǎng)絡(luò)和特定分類網(wǎng)絡(luò)之間的信息對等。本文實驗評估都是在有先驗信息的評估方式下進行。

        5.2 數(shù)據(jù)集

        本文選用CIFAR-100 作實驗數(shù)據(jù)集。CIFAR-100 數(shù)據(jù)集是極其常用的分類數(shù)據(jù)集,包含60 000 萬張訓(xùn)練和測試集數(shù)據(jù)。該數(shù)據(jù)集中包含100 類圖像,類別與類別之間不存在交叉,完全互斥。

        CIFAR-100 數(shù)據(jù)集有個獨特特點:對于每一張圖像,有粗粒度和細粒度兩個標簽,例如對于一張蜜蜂圖片,其細粒度標簽為bee,粗粒度標簽為insects。通過兩種標簽,使CIFAR-100 數(shù)據(jù)更具有結(jié)構(gòu)層次性。其中,CIFAR-100 數(shù)據(jù)集有20種粗粒度標簽,每個粗粒度對應(yīng)5種細粒度標簽。

        結(jié)合本文研究內(nèi)容,利用CIFAR-100的結(jié)構(gòu)特性,將分類一個粗粒度標簽中的5 個細粒度標簽作為一個特定類別分類任務(wù)。本文的主要目的就是提升學生網(wǎng)絡(luò)在特定類別分類任務(wù)的分類性能,因此最終將對比20 個特定類別分類指標的均值。

        5.3 實驗結(jié)果

        進行了多組對照實驗來驗證本文所提出的特定知識學習算法在特定類別分類領(lǐng)域的有效性和優(yōu)越性。

        首先選取編號為1 的特定分類任務(wù)結(jié)果來觀察,并列出了教師網(wǎng)絡(luò)、無知識蒸餾學生網(wǎng)絡(luò)100 分類(StudentFS-100)、無知識蒸餾學生網(wǎng)絡(luò)5 分類(StudentFS-5)以及結(jié)合了傳統(tǒng)注意力特征遷移蒸餾算法(AT)學生網(wǎng)絡(luò)的4 個指標,如表1 前四行所示。對比發(fā)現(xiàn)教師網(wǎng)絡(luò)由于存在參數(shù)規(guī)模大的優(yōu)勢,在特定分類領(lǐng)域依舊表現(xiàn)良好,高于StudentFS-100、StudentFS-5 和AT 學生網(wǎng)絡(luò)。對比結(jié)合傳統(tǒng)的AT 蒸餾算法后,分類性能上確實比無知識蒸餾學生網(wǎng)絡(luò)要高,對于StudentFS-5 準確率提升了2.20 個百分點(84.60% vs 82.40%),而對于StudentFS-100 甚至性能降低了0.60 個百分點(84.60% vs 85.20%),可見傳統(tǒng)知識蒸餾算法在分類特定任務(wù)時的局限性。

        表1 后三行代表本文提出的三種特定知識學習算法,AT_Specific 算法對比StudentFS-5 有2.8 個百分點(85.20%vs 82.40%)的性能提升,比AT 算法提升明顯,驗證了特定知識學習算法的有效性。為提升蒸餾過程中特定知識含量,本文又加入了抑制背景類知識的策略,實驗結(jié)果顯示效果提升明顯,AT_Background_High 算法達到了最優(yōu),準確率均值超過StudentFS-100 網(wǎng)絡(luò)分類性能3.6 個百分點(88.80% vs 85.20%);比傳統(tǒng)知識蒸餾AT 算法提升了4.2 個百分點(88.80%vs 84.60%);甚至超過了規(guī)模比其大超過6 倍(7.4×106vs 1.2×106)的教師網(wǎng)絡(luò)的分類性能,提升了0.8 個百分點(88.80%vs 88.00%)。

        表1 CIFAR-100上特定分類任務(wù)1的實驗結(jié)果Tab.1 Experimental results of specific category task 1 on CIFAR-100

        在特定任務(wù)1 中,實驗結(jié)果表明特定知識學習在特定任務(wù)分類上的優(yōu)越性,為了更直觀地表現(xiàn)本文所提算法在不同特定任務(wù)上的性能表現(xiàn),本文繪制準確率柱狀圖,如圖6 所示。圖中分別對比了無知識蒸餾StudentFS-100、無知識蒸餾StudentFS-5、有知識蒸餾AT、三種特定知識學習算法以及教師網(wǎng)絡(luò)的20個特定類別分類準確率。由圖6可以看到絕大部分特定任務(wù)中特定知識學習算法都有著不錯的提升,尤其對于任務(wù)編號14 的特定分類任務(wù)這種準確率低、分類難度大的任務(wù),準確率提升較為明顯。這說明特定知識學習更適用于分類難度相對較大的特定類任務(wù),讓學生網(wǎng)絡(luò)集中精力學習該特定類抽象特征的策略是有效的。觀察圖中算法結(jié)果對比,特定知識學習算法中,絕大多數(shù)情況下AT_Background_High算法表現(xiàn)更好。最終的結(jié)果也驗證了通過抑制其他無關(guān)類別即背景類知識以及僅在網(wǎng)絡(luò)高層作抑制操作的正確性。

        圖6 七種網(wǎng)絡(luò)在20個特定類別任務(wù)的準確率柱狀圖Fig.6 Histogram of accuracy of 7 networks in 20 specific category tasks

        6 結(jié)語

        本文結(jié)合知識蒸餾,首次提出特定知識學習,旨在提升分類網(wǎng)絡(luò)特定類別分類性能。在此基礎(chǔ)上,提出三種特定知識學習算法,并結(jié)合抑制背景類知識蒸餾策略以及僅高層作抑制的調(diào)整,有效地提升了分類網(wǎng)絡(luò)在特定類別領(lǐng)域的分類性能。大量對照實驗的結(jié)果表明,本文提出的特定知識學習算法對于網(wǎng)絡(luò)在特定類別分類領(lǐng)域的分類效果有著明顯提升,最優(yōu)結(jié)果甚至超越了規(guī)模超其6 倍的教師網(wǎng)絡(luò)性能。特定知識學習非常契合工業(yè)場景,本文所提算法具有一定的實用性和重要意義。

        猜你喜歡
        類別注意力分類
        讓注意力“飛”回來
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        97se在线| 无码人妻丰满熟妇啪啪网不卡 | 欧美怡红院免费全部视频| 国产欧美日韩a片免费软件| 91福利精品老师国产自产在线| 天堂女人av一区二区| 风韵人妻丰满熟妇老熟| 日韩精品久久久久久免费| 最新亚洲av日韩av二区| 免费观看视频在线播放| 精品人妻久久一日二个| 麻豆╳╳╳乱女另类| 在线国产小视频| 精品中文字幕手机在线| 日韩三级一区二区不卡| 99国产精品久久久蜜芽| 国产在线白丝DVD精品| 抖射在线免费观看视频网站| 男女啪啪视频高清视频| 插b内射18免费视频| 久久av无码精品人妻糸列| 国产精品久久久看三级| 极品少妇xxxx精品少妇偷拍| 精品亚洲欧美无人区乱码| 国产高清白浆| 亚洲在线精品一区二区三区| 一本久久a久久精品vr综合| 国产精品亚洲一区二区无码国产| 在线偷窥制服另类| 一本色道久久亚洲精品| 日韩精品久久久久久久电影蜜臀| 久久午夜无码鲁丝片直播午夜精品| 亚洲AⅤ无码国精品中文字慕| 国产亚洲三级在线视频| 中文字日产幕码三区国产| 国产精品无码久久久久成人影院| 精品无码久久久久久久动漫| 一区二区三区国产精品| 久久久国产精品123| 无码人妻av一区二区三区蜜臀| 久久免费大片|