亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)蒸餾的特征精煉相互學(xué)習(xí)方法

        2023-10-12 01:28:04李貴洋鄒俊穎
        關(guān)鍵詞:分類特征模型

        文 強(qiáng),郭 濤,王 濤,李貴洋,鄒俊穎

        (四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610101)

        0 引 言

        神經(jīng)網(wǎng)絡(luò)在解決很多復(fù)雜問題上的能力有了指數(shù)級(jí)的進(jìn)步,已經(jīng)應(yīng)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域[1-3]。由于訓(xùn)練模型包含大量參數(shù),部署運(yùn)行需要占用較大存儲(chǔ)空間且執(zhí)行速度緩慢,限制了其在移動(dòng)設(shè)備或嵌入式設(shè)備等低內(nèi)存或有快速執(zhí)行要求的應(yīng)用程序和平臺(tái)中的部署與運(yùn)行[4,5]。知識(shí)蒸餾是一種有效加速模型速度和壓縮模型大小的方法,在模型大小和準(zhǔn)確率上能取得很好的平衡,逐漸成為研究熱點(diǎn)。

        知識(shí)蒸餾是將知識(shí)從預(yù)訓(xùn)練的教師網(wǎng)絡(luò)轉(zhuǎn)移到未經(jīng)訓(xùn)練的學(xué)生網(wǎng)絡(luò)的模型壓縮方法,在部署階段,較小的學(xué)生網(wǎng)絡(luò)取代大型教師網(wǎng)絡(luò)。傳統(tǒng)的知識(shí)蒸餾通常采用單向知識(shí)轉(zhuǎn)移和兩階段訓(xùn)練程序,即提前訓(xùn)練好教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)再?gòu)慕處熅W(wǎng)絡(luò)單向獲取知識(shí)。然而,復(fù)雜容量的教師模型需要較長(zhǎng)訓(xùn)練時(shí)間且占用大量的存儲(chǔ)。為了減少訓(xùn)練大容量高性能的復(fù)雜網(wǎng)絡(luò)和在沒有預(yù)訓(xùn)練的教師網(wǎng)絡(luò)等情況下,提高小型輕量型網(wǎng)絡(luò)的準(zhǔn)確率以及降低模型大小,自我知識(shí)蒸餾和相互蒸餾等方法得到了快速發(fā)展。

        本文提出一種基于知識(shí)蒸餾的特征精煉相互學(xué)習(xí)方法(feature refining mutual learning,F(xiàn)RML)。該方法在沒有教師網(wǎng)絡(luò)的情況下,給相互學(xué)習(xí)的學(xué)生網(wǎng)絡(luò)配備輔助網(wǎng)絡(luò),通過對(duì)處理多尺度特征網(wǎng)絡(luò)的調(diào)整達(dá)到對(duì)知識(shí)提煉目的,生成精煉特征圖。輔助網(wǎng)絡(luò)將精煉的知識(shí)傳遞給其輔助的學(xué)生網(wǎng)絡(luò),而學(xué)生網(wǎng)絡(luò)之間通過協(xié)作訓(xùn)練,學(xué)習(xí)互相精煉后的知識(shí),優(yōu)化自身網(wǎng)絡(luò),提高網(wǎng)絡(luò)的泛化能力以及其對(duì)視覺任務(wù)的適用性。

        1 相關(guān)工作

        1.1 知識(shí)蒸餾

        知識(shí)蒸餾的主要思想源于Buciluǎ等提出的模型壓縮[6],即將信息從大模型或模型集合轉(zhuǎn)移到訓(xùn)練小模型,使得小模型近似大模型,從而不顯著降低準(zhǔn)確率。知識(shí)蒸餾是一種類似于遷移學(xué)習(xí)的模型壓縮方法,但知識(shí)蒸餾不同于遷移學(xué)習(xí)。知識(shí)蒸餾的目標(biāo)是提供較小的網(wǎng)絡(luò)模型來解決與較大網(wǎng)絡(luò)模型相同的任務(wù);而遷移學(xué)習(xí)的目標(biāo)是減少網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,以解決類似于其它網(wǎng)絡(luò)模型所解決的任務(wù)。知識(shí)蒸餾通過改變正在訓(xùn)練學(xué)生網(wǎng)絡(luò)的損失函數(shù)來實(shí)現(xiàn)其目標(biāo),以解釋預(yù)訓(xùn)練教師網(wǎng)絡(luò)的隱藏層輸出;而遷移學(xué)習(xí)通過將預(yù)訓(xùn)練網(wǎng)絡(luò)模型的參數(shù)遷移到新模型來實(shí)現(xiàn)其目標(biāo)。傳統(tǒng)知識(shí)蒸餾傳遞知識(shí)的方法為,給定一個(gè)logitsz向量作為教師網(wǎng)絡(luò)的最后一個(gè)全連接層的輸出,zi是第i類的logit,采用softmax函數(shù)估計(jì)輸入屬于第i類的概率pi, 引入溫度因子T控制每個(gè)軟標(biāo)簽的重要性,如式(1)

        (1)

        T越高在各類別上產(chǎn)生越弱的概率分布。通過以上方法,教師網(wǎng)絡(luò)獲得的軟標(biāo)簽預(yù)測(cè)包含暗知識(shí),并且可以用作監(jiān)督,以將知識(shí)從教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。教師網(wǎng)絡(luò)提供不同的軟標(biāo)簽會(huì)給同一個(gè)學(xué)生網(wǎng)絡(luò)帶來不同的表現(xiàn)。

        1.1.1 自我知識(shí)蒸餾

        自我知識(shí)蒸餾不同于傳統(tǒng)知識(shí)蒸餾,它不需要提前準(zhǔn)備大型復(fù)雜的教師網(wǎng)絡(luò),即學(xué)生網(wǎng)絡(luò)利用自身知識(shí)來提高訓(xùn)練自身網(wǎng)絡(luò)的有效性。Zhang等[7]提出在只有學(xué)生網(wǎng)絡(luò)的情況下,將深層網(wǎng)絡(luò)的部分知識(shí)蒸餾到網(wǎng)絡(luò)較淺部分,用中間隱藏層特征對(duì)輸出進(jìn)行分類。Hou等[8]提出用于通道檢測(cè)的自注意蒸餾方法,該網(wǎng)絡(luò)利用自身各層的注意力圖作為下層蒸餾目標(biāo),以減少模型參數(shù)量。Zhu等[9]為了降低計(jì)算成本,提出添加額外分支,使模型參數(shù)和中間隱藏層的估計(jì)特征多樣化,其中每個(gè)分支表示一個(gè)學(xué)生網(wǎng)絡(luò),最后集成所有的分支網(wǎng)絡(luò)進(jìn)行輸出。上述自我知識(shí)蒸餾方法基本上沒有對(duì)網(wǎng)絡(luò)進(jìn)行增強(qiáng),導(dǎo)致缺乏更精煉知識(shí)。Ji等[10]提出在理想的情況下,可以通過從復(fù)雜集成模型中提取精煉知識(shí)以改進(jìn)特征圖蒸餾。

        1.1.2 相互蒸餾

        相互蒸餾在沒有復(fù)雜預(yù)訓(xùn)練的教師網(wǎng)絡(luò)情況下,教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)同時(shí)學(xué)習(xí),教師網(wǎng)絡(luò)會(huì)隨著學(xué)生網(wǎng)絡(luò)的更新而更新。Zhang等[11]提出深度相互學(xué)習(xí),在訓(xùn)練過程中,任何一個(gè)網(wǎng)絡(luò)均可作為學(xué)生,其它網(wǎng)絡(luò)作為老師,相互教學(xué)以提高模型準(zhǔn)確率。Chen等[12]提出將輔助同伴(auxi-liary peers)和組長(zhǎng)(group leader)引入深度相互學(xué)習(xí)中,以形成一組多樣化的同伴網(wǎng)絡(luò)。Kim等[13]提出采用特征融合模塊構(gòu)建教師網(wǎng)絡(luò),將多個(gè)并行神經(jīng)網(wǎng)絡(luò)訓(xùn)練成子網(wǎng)絡(luò),利用融合模塊將子網(wǎng)絡(luò)知識(shí)結(jié)合起來,傳遞給教師網(wǎng)絡(luò),教師網(wǎng)絡(luò)再將其知識(shí)傳遞給每個(gè)子網(wǎng),以在線知識(shí)提取的方式相互教學(xué)。但是這種相互教學(xué)的方式,在訓(xùn)練過程中會(huì)丟失局部信息,阻礙了其對(duì)各種視覺任務(wù)適用性,這種知識(shí)提煉方法,單個(gè)教師網(wǎng)絡(luò)或者學(xué)生網(wǎng)絡(luò)均接收不到精煉的特征圖。

        1.2 特征網(wǎng)絡(luò)

        特征網(wǎng)絡(luò)又叫特征金字塔網(wǎng)絡(luò)[14](feature pyramid networks,F(xiàn)PN),是一種以任意尺寸的單尺度圖像為輸入,以全卷積方式在多個(gè)層次上輸出按比例大小的特征圖的特征提取器。自從FPN被提出來以后,均只有自上向下的單向融合。Liu等[15]提出路徑聚合網(wǎng)絡(luò)(path aggregation network,PANet),為FPN引入額外自下而上的融合路徑,以實(shí)現(xiàn)網(wǎng)絡(luò)中層和層之間的短路徑連接,從而實(shí)現(xiàn)二次融合。Tan等[16]提出一種加權(quán)雙向特征金字塔網(wǎng)絡(luò)(weighted bi-directional feature pyramid network,BiFPN),該網(wǎng)絡(luò)能簡(jiǎn)單快速地進(jìn)行多尺度特征融合。BiFPN采用與PANet相同的自上向下和自下向上網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)增加部分跳躍連接,并將該網(wǎng)絡(luò)結(jié)構(gòu)融合構(gòu)造為一個(gè)模塊,使其可以重復(fù)堆疊,增強(qiáng)特征融合。同時(shí),BiFPN為每個(gè)輸入特征增加額外權(quán)重,允許網(wǎng)絡(luò)學(xué)習(xí)每個(gè)輸入特征的重要性,從而獲得精煉的特征。

        2 FRML模型

        2.1 基本定義

        定義1 數(shù)據(jù)集:訓(xùn)練圖像數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xN,yN)}, 其中N為樣本大小,yi∈{1,2,…,M},M表示類別大小。

        定義2 學(xué)生網(wǎng)絡(luò):Θ1,Θ2為學(xué)生網(wǎng)絡(luò),并且Θ1=Θ2,Θ1有n個(gè)塊。設(shè)Sij為樣本i輸入Θ1的第j個(gè)塊的特征映射,cj為Θ1的第j個(gè)塊的通道維度。

        定義3 輔助網(wǎng)絡(luò):Θ′1、Θ′2分別為Θ1、Θ2的輔助網(wǎng)絡(luò),并且Θ′1=Θ′2,Θ′1有n個(gè)塊。設(shè)Tij為輸入特征映射,為了簡(jiǎn)化符號(hào),在本文的其余部分省略了索引i。學(xué)生網(wǎng)絡(luò)與輔助網(wǎng)絡(luò)的特征映射塊數(shù)量相同。

        定義4 logit與預(yù)測(cè)值:logitz1和z2分別為Θ1和Θ2的完全連接層的輸出;z′1和z′2分別為Θ′1和Θ′2完全連接層的輸出;p1和p2分別為Θ1和Θ2輸出預(yù)測(cè)值;p′1和p′2分別為Θ′1和Θ′2輸出預(yù)測(cè)值。

        2.2 模型結(jié)構(gòu)

        FRML模型由兩個(gè)對(duì)稱的學(xué)生網(wǎng)絡(luò)Θ1和Θ2以及其輔助網(wǎng)絡(luò)Θ′1和Θ′2構(gòu)成。首先圖像分別輸入該模型的Θ1和Θ2, 提取到n個(gè)特征圖塊Sj, 并輸出特征圖z1,z2; 其次將每個(gè)特征圖塊Sj分別輸入到Θ′1和Θ′2, 得到精煉的特征圖塊Tj, 并輸出特征圖z′1和z′2; 根據(jù)每個(gè)輸出特征圖z1,z′1,z2,z′2, 計(jì)算得到每個(gè)輸出預(yù)測(cè)值p1,p′1,p2,p′2。 最后Θ1和Θ2根據(jù)自身的特征圖塊Sj與Θ′1和Θ′2的特征圖塊Tj、 輸出預(yù)測(cè)值、真實(shí)標(biāo)簽,做出相應(yīng)計(jì)算,得到每個(gè)部分的損失,并計(jì)算總損失以及更新權(quán)重。兩個(gè)學(xué)生網(wǎng)絡(luò)相互訓(xùn)練,相互學(xué)習(xí)到精煉的特征,從而提高模型的性能。FRML結(jié)構(gòu)如圖1所示。

        圖1 FRML結(jié)構(gòu)

        2.2.1 學(xué)生網(wǎng)絡(luò)

        FRML中兩個(gè)學(xué)生網(wǎng)絡(luò)Θ1和Θ2采用相同的ResNet[17]網(wǎng)絡(luò),該網(wǎng)絡(luò)包含4層block,使用每個(gè)階段的最后一個(gè)殘差結(jié)構(gòu)的特征圖作為輸出,表示為 {S1,S2,S3,S4}, 通過完全連接層輸出特征圖z1和z2, 完成每個(gè)階段的特征提取,如圖1所示。

        Θ1和Θ2同時(shí)訓(xùn)練,相互傳遞知識(shí),進(jìn)行交流。樣本xi輸入Θ1之后所屬類別m的概率通過式(2)計(jì)算

        (2)

        對(duì)于多分類任務(wù),采用交叉熵函數(shù)計(jì)算預(yù)測(cè)值與真實(shí)標(biāo)簽的誤差,如式(3)、式(4)

        (3)

        指示函數(shù)I定義為

        (4)

        為提高Θ1在測(cè)試實(shí)例上的泛化性能,引入與Θ1相互學(xué)習(xí)的Θ2, 以Θ2后驗(yàn)概率p2的形式提供訓(xùn)練經(jīng)驗(yàn)。為量化Θ1和Θ2的預(yù)測(cè)值p1和p2, 使用Kullback Leibler(KL)散度。從p1到p2的KL散度計(jì)算如式(5)

        (5)

        至此,Θ1和Θ2相互學(xué)習(xí)損失LΘ1和LΘ2分別為式(6)、式(7)

        LΘ1=LCE1+DKL(p2‖p1)

        (6)

        LΘ2=LCE2+DKL(p1‖p2)

        (7)

        兩個(gè)學(xué)生網(wǎng)絡(luò)通過相互學(xué)習(xí)的方式,每個(gè)學(xué)生網(wǎng)絡(luò)均能學(xué)習(xí)訓(xùn)練實(shí)例的真實(shí)標(biāo)簽,即學(xué)生網(wǎng)絡(luò)受監(jiān)督損失LCE指導(dǎo)以及匹配其一起相互學(xué)習(xí)的概率估計(jì),即KL散度損失。

        2.2.2 輔助網(wǎng)絡(luò)

        為幫助Θ1提供精煉的特征映射和軟標(biāo)簽,給相互學(xué)習(xí)的Θ1添加Θ′1。 假定Θ1有n個(gè)塊,輔助網(wǎng)絡(luò)的輸入為學(xué)生網(wǎng)絡(luò)的特征映射S1,…,Sn。 輔助網(wǎng)絡(luò)采用來自PANet[15]自下而上的路徑和FPN[21]自上而下的路徑,以適應(yīng)分類任務(wù)。輔助網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 輔助網(wǎng)絡(luò)結(jié)構(gòu)

        在進(jìn)行自上而下的路徑之前,利用式(8)的橫向卷積層將特征映射輸入進(jìn)輔助網(wǎng)絡(luò)

        Lj=Conv(Sj;dj)

        (8)

        Conv為輸出維度為dj的卷積運(yùn)算。dj取決于Θ1輸出特征映射的通道維度cj。

        Sj經(jīng)過橫向卷積得到Lj后,通過自上而下路徑,融合不同層次特征,提取低層信息Pj, 再通過自下而上路徑,進(jìn)行二次特征融合,得到Tj, 如式(9)和式(10)所示

        (9)

        (10)

        通過圖2可以看出,首先,如果節(jié)點(diǎn)僅包含輸入,并沒有進(jìn)行特征融合,那么它對(duì)于特征網(wǎng)絡(luò)的貢獻(xiàn)是極小的。因此,將P4和P1移除,從而提高模型計(jì)算效率。其次,針對(duì)同一層級(jí),添加一條從起始輸入到輸出的連接,即L2到T2和L3到T3, 在不增加任何參數(shù)的同時(shí),融合更多特征。最后,添加L4到P3和P2到T1的連接,創(chuàng)建完整的自上而下路徑。其中,{P2,P3} 和 {T1,T2,T3,T4} 通過3×3 Conv得到。對(duì)于參數(shù)wP和wT, 使用快速歸一化融合技術(shù)[16],引入可學(xué)習(xí)的權(quán)重,用于學(xué)習(xí)不同輸入特征的重要性。Resize運(yùn)算符分別代表自上而下路徑上的上采樣和自下而上路徑上的下采樣;對(duì)上采樣使用雙向線性插值,即融合上一層2×UpSample的特征,對(duì)下采樣使用最大池化,即融合下一層3×3/2 Maxpool的特征。最后在自下而上路徑的頂部增加全連接層輸出z′1, 增加softmax層來輸出p′1預(yù)測(cè)類別。

        (11)

        與其它自我知識(shí)蒸餾方法類似,F(xiàn)RML通過軟標(biāo)簽進(jìn)行蒸餾,提供軟標(biāo)簽蒸餾損失,如式(12)所示

        (12)

        其中,T是溫度系數(shù)。此外,Θ′1使用交叉熵?fù)p失函數(shù)學(xué)習(xí)真實(shí)標(biāo)簽,通過式(3)計(jì)算得出L′CE1。

        2.2.3 損失函數(shù)

        (13)

        (14)

        其中,α和β為超參數(shù),本文選擇α∈[1,2,3] 和β∈[100,200]。 對(duì)于兩個(gè)學(xué)生網(wǎng)絡(luò)及其輔助網(wǎng)絡(luò),通過反向傳播算法進(jìn)行優(yōu)化。FRML模型通過交叉熵?fù)p失、KL散度損失、自特征蒸餾損失和軟標(biāo)簽蒸餾損失更新參數(shù)。

        2.3 算法流程

        精煉特征相互學(xué)習(xí)方法分為兩個(gè)階段:首先,兩個(gè)學(xué)生網(wǎng)絡(luò)通過輔助網(wǎng)絡(luò)分別獲取到精煉的知識(shí),然后,兩個(gè)學(xué)生網(wǎng)絡(luò)相互學(xué)習(xí)精煉的特征,兩個(gè)學(xué)生網(wǎng)絡(luò)互相微調(diào),以提高自身的泛化能力。FRML模型的算法的偽代碼如算法1所示。

        算法1:特征精煉相互學(xué)習(xí)算法

        輸入:學(xué)生網(wǎng)絡(luò)Θ1和Θ2; 輔助網(wǎng)絡(luò)Θ′1和Θ′2; 訓(xùn)練數(shù)據(jù)集;學(xué)習(xí)率、小批量尺寸以及α,β

        輸出:更高分類準(zhǔn)確率的學(xué)生網(wǎng)絡(luò)

        (1)隨機(jī)初始化Θ1和Θ2中所有網(wǎng)絡(luò)層的參數(shù)

        (2)for 每個(gè)小批量

        2.1 輸入樣本xi, 真實(shí)標(biāo)簽yi;

        2.2 輸入Θ1, 將Sj輸入到Θ′1, 得到Tj并得到特征圖z1,z′1;

        2.3 輸入Θ2, 將Sj輸入到Θ′2, 得到Tj并得到特征圖z2,z′2;

        2.4 特征圖通過式(2)分別得到預(yù)測(cè)值p1、p′1和p2、p′2;

        2.5 通過式(3)計(jì)算交叉熵?fù)p失LCE1, L′CE1和LCE2, L′CE2;

        2.10 計(jì)算Θ1的總損失

        2.11 使用反向傳播算法更新Θ1的權(quán)重;

        2.12 計(jì)算Θ2的總損失

        2.13 使用反向傳播算法更新Θ2的權(quán)重;

        (3)end for

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文使用了6種數(shù)據(jù)集,其中CIFAR100和TINY由小比例圖像組成,這里將TINY圖像的尺寸調(diào)整為與CIFAR100圖像尺寸相同,即32×32大小。CUB200、MIT67、Stanford40和Dogs均為細(xì)粒度視覺分類(fine-grained visual categorization,F(xiàn)GVC)任務(wù)的圖像數(shù)據(jù)集。實(shí)驗(yàn)使用數(shù)據(jù)集概況見表1。

        表1 本文所用數(shù)據(jù)集概況

        3.2 實(shí)驗(yàn)設(shè)置

        FRML模型在數(shù)據(jù)集CIFAR100和TINY上采用相同的ResNet18[17]和WRN-16-2[20]作為學(xué)生網(wǎng)絡(luò)。為了使ResNet18適應(yīng)小型數(shù)據(jù)集,將ResNet18的第一個(gè)卷積層修改為3×3的內(nèi)核大小,采用單個(gè)步長(zhǎng)和單個(gè)填充,并刪除最大池化操作。在FGVC任務(wù)數(shù)據(jù)集上采用標(biāo)準(zhǔn)的ResNet18作為學(xué)生網(wǎng)絡(luò)。

        實(shí)驗(yàn)基于深度學(xué)習(xí)框架Pytorch 1.8.0、Python 3.8.8 實(shí)現(xiàn),并在NVIDIA GeForce RTX 3090 GPU上完成。

        對(duì)于所有訓(xùn)練樣本,使用隨機(jī)裁剪和翻轉(zhuǎn)來增加數(shù)據(jù)的多樣性。在訓(xùn)練過程中,采用隨機(jī)梯度下降(SGD)方法,初始的學(xué)習(xí)率為0.099,動(dòng)量參數(shù)為0.9,優(yōu)化器中權(quán)重衰減參數(shù)為0.0001;溫度系數(shù)T為4;通道寬度參數(shù)w為2;超參數(shù)[10]的設(shè)置見表2。

        表2 超參數(shù)設(shè)置

        3.3 分類性能對(duì)比實(shí)驗(yàn)

        對(duì)于圖像分類任務(wù),采用測(cè)試集Top-1準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo)。本實(shí)驗(yàn)完成了FRML模型與Baseline、DML[11]、FRSKD[10]這3種分類方法在CIFAR100、TINY和FGVC任務(wù)數(shù)據(jù)集上的準(zhǔn)確率比較。實(shí)驗(yàn)結(jié)果見表3和表4。

        表3 FRML在CIFAR100和TINY數(shù)據(jù)集上的分類準(zhǔn)確率

        表4 FRML在FGVC任務(wù)數(shù)據(jù)集上的分類準(zhǔn)確率

        從表3可知,F(xiàn)RSKD和DML均提高了標(biāo)準(zhǔn)分類器網(wǎng)絡(luò)的性能,但FRML表現(xiàn)出更好的性能,與基線FRSKD相比,平均準(zhǔn)確率提高了1.49%,與基線DML相比,平均準(zhǔn)確率提高了2.30%。

        表4顯示了在FGVC任務(wù)數(shù)據(jù)集上的分類準(zhǔn)確率。在4種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可知,F(xiàn)RML表現(xiàn)出比其它方法更好的性能。與基線FRSKD相比,平均準(zhǔn)確率提高了1.85%,與基線DML相比,平均準(zhǔn)確率提高了8.08%。通過實(shí)驗(yàn)驗(yàn)證,F(xiàn)RML提高了相互學(xué)習(xí)在細(xì)粒度視覺任務(wù)的準(zhǔn)確率。

        3.4 知識(shí)蒸餾分類實(shí)驗(yàn)

        在知識(shí)蒸餾分類實(shí)驗(yàn)中,將FRML與FitNet[21]、ATT[18]、Overhaul[19]等知識(shí)蒸餾方法做對(duì)比實(shí)驗(yàn)。教師網(wǎng)絡(luò)設(shè)置為預(yù)訓(xùn)練的ResNet34,學(xué)生網(wǎng)絡(luò)設(shè)置為未經(jīng)訓(xùn)練的ResNet18。其中,分類準(zhǔn)確率的最大值用粗體標(biāo)識(shí),實(shí)驗(yàn)結(jié)果見表5。

        表5 知識(shí)蒸餾上分類準(zhǔn)確率

        從表5中可知,來自強(qiáng)大的教師網(wǎng)絡(luò)的傳統(tǒng)知識(shí)蒸餾方法雖然提高了學(xué)生的表現(xiàn)。但FRML在所有數(shù)據(jù)集上優(yōu)于使用教師網(wǎng)絡(luò)的知識(shí)蒸餾方法,這意味著在相互學(xué)習(xí)的過程中,通過精煉特征傳遞給學(xué)生網(wǎng)絡(luò),比預(yù)訓(xùn)練的教師網(wǎng)絡(luò)更好。

        3.5 擴(kuò)展不同學(xué)生網(wǎng)絡(luò)的實(shí)驗(yàn)

        為了進(jìn)一步提高模型的適用性,不限制模型架構(gòu),本實(shí)驗(yàn)將兩個(gè)學(xué)生網(wǎng)絡(luò)擴(kuò)展成不同結(jié)構(gòu)的網(wǎng)絡(luò)。其中,在數(shù)據(jù)集CIFAR100和TINY上分別采用WRN-16-2和ResNet18作為學(xué)生網(wǎng)絡(luò)Θ1和Θ2, 在FGVC任務(wù)數(shù)據(jù)集上分別采用ResNet18和ResNet32作為學(xué)生網(wǎng)絡(luò)Θ1和Θ2。 FRML模型在不同網(wǎng)絡(luò)架構(gòu)以及不同數(shù)據(jù)集上分類準(zhǔn)確率見表6。

        表6 不同學(xué)生網(wǎng)絡(luò)分類準(zhǔn)確率

        從表6可知,相比較獨(dú)立訓(xùn)練的網(wǎng)絡(luò)和DML,基于不同網(wǎng)絡(luò)的組合,F(xiàn)RML均提高了每個(gè)學(xué)生網(wǎng)絡(luò)的性能。與DML相比,在數(shù)據(jù)集CIFAR100和TINY上,WRN-16-2網(wǎng)絡(luò)的平均準(zhǔn)確率提高了1.65%,ResNet18網(wǎng)絡(luò)的平均準(zhǔn)確率提高了2.00%。在FGVC任務(wù)數(shù)據(jù)集上采用ResNet18網(wǎng)絡(luò)的平均準(zhǔn)確率提高了3.84%,采用ResNet32網(wǎng)絡(luò)的平均準(zhǔn)確率提高了4.03%。由此可知,不同網(wǎng)絡(luò)架構(gòu)或不同大小的網(wǎng)絡(luò),通過特征精煉相互學(xué)習(xí)后,性能均得到提高。實(shí)驗(yàn)結(jié)果表明,在不同網(wǎng)絡(luò)架構(gòu)上,本方法同樣能夠改進(jìn)相互學(xué)習(xí)的不足,提高不同網(wǎng)絡(luò)的泛化性能。

        3.6 模型收斂性實(shí)驗(yàn)

        本實(shí)驗(yàn)為FRML模型在FGVC任務(wù)數(shù)據(jù)集上訓(xùn)練次數(shù)以及測(cè)試分類準(zhǔn)確率上的收斂實(shí)驗(yàn),結(jié)果如圖3所示。圖3(a)~圖3(d)分別為模型在CUB200、MIT67、Dogs、Stanford40數(shù)據(jù)集上的收斂效果。

        圖3 FRML在FGVC任務(wù)數(shù)據(jù)集上的收斂曲線

        從圖3(a)~圖3(d)可以看出,F(xiàn)RML模型在FGVC任務(wù)數(shù)據(jù)集上均具有良好的收斂性。當(dāng)訓(xùn)練次數(shù)在100次之前,準(zhǔn)確率的提升速度較快;在訓(xùn)練到100次左右時(shí)有較大提升;在之后的訓(xùn)練次數(shù)中,分類準(zhǔn)確率小幅度振動(dòng),模型開始整體進(jìn)入收斂狀態(tài);訓(xùn)練到150次左右時(shí),可以看出準(zhǔn)確率有個(gè)小幅度的上升;在150次之后,分類準(zhǔn)確率波動(dòng)趨于穩(wěn)定,模型基本達(dá)到收斂。

        此外,從圖3(a)~圖3(d)可以看出,對(duì)比FRML和DML,F(xiàn)RML在FGVC任務(wù)數(shù)據(jù)集上的分類準(zhǔn)確率明顯高于DML。實(shí)驗(yàn)結(jié)果表明本方法解決了相互學(xué)習(xí)上的不足,提高了學(xué)生網(wǎng)絡(luò)在相互學(xué)習(xí)的泛化性能,以及其對(duì)視覺任務(wù)的適用性。

        4 結(jié)束語

        本文在沒有預(yù)訓(xùn)練的教師網(wǎng)絡(luò)的情況下,提出一種基于知識(shí)蒸餾的特征精煉相互學(xué)習(xí)方法,解決兩個(gè)學(xué)生網(wǎng)絡(luò)在相互學(xué)習(xí)時(shí)出現(xiàn)圖像局部信息丟失,而造成單個(gè)學(xué)生網(wǎng)絡(luò)接收精煉特征圖不完整的問題。通過對(duì)每個(gè)學(xué)生網(wǎng)絡(luò)配備特征提取輔助網(wǎng)絡(luò)進(jìn)行特征融合,利用輔助網(wǎng)絡(luò)輸出精煉特征映射和軟標(biāo)簽對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并保留圖像特征的局部信息,為學(xué)生網(wǎng)絡(luò)之間傳遞精華知識(shí),以達(dá)到最優(yōu)效果。通過改進(jìn)相互學(xué)習(xí)策略,提高了視覺任務(wù)的適用性。后續(xù)的研究是將學(xué)生網(wǎng)絡(luò)的數(shù)量擴(kuò)展到3個(gè)及以上以進(jìn)一步提高其性能。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        亚洲国产精品不卡av在线| 国产免费网站看v片元遮挡| 欧美xxxxx精品| 日日摸夜夜添夜夜添一区二区| 色综合久久加勒比高清88| 人妻少妇粉嫩av专区一| 校园春色综合久久精品中文字幕| 边喂奶边中出的人妻| 国产免费资源高清小视频在线观看| 亚洲免费无毛av一区二区三区| 男女调情视频在线观看| 未满十八勿入av网免费| 久久国产成人精品国产成人亚洲| 久久精品有码中文字幕1| 亚洲国产精品国自产拍性色| 国产色xx群视频射精| 国产成人精品电影在线观看18 | 99久久国产福利自产拍| 国产精品每日更新在线观看| 人妻秘书被社长浓厚接吻| 老妇高潮潮喷到猛进猛出| 美丽的熟妇中文字幕| 欧美破处在线观看| 国产一区二区三区 在线观看| 亚洲欧美一区二区成人片| 久久ri精品高清一区二区三区| 在线视频一区二区在线观看 | 人妖国产视频一区二区| 国产狂喷潮在线观看| 国产精品久久国产精品99gif| 91精品国产色综合久久不| 狠狠躁夜夜躁av网站中文字幕| 精品一区二区三区免费播放| 男性一插就想射是因为啥| 精品久久一品二品三品| 日本另类αv欧美另类aⅴ| 日韩视频第二页| 亚洲精品99久91在线| 日本韩国男男作爱gaywww| 日日噜噜夜夜狠狠久久无码区| 欧美性受xxxx狂喷水|