亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于拓?fù)湟恢滦詫够W(xué)習(xí)的知識蒸餾

        2023-01-16 07:36:06曲延云裴玉龍
        自動化學(xué)報 2023年1期
        關(guān)鍵詞:類別損失分類

        賴 軒 曲延云 謝 源 裴玉龍

        圖像分類是計算機(jī)視覺領(lǐng)域的一個經(jīng)典任務(wù),有廣泛的應(yīng)用需求,例如機(jī)場和車站閘口的人臉識別、智能交通中的車輛檢測等,圖像分類的應(yīng)用在一定程度上減輕了工作人員的負(fù)擔(dān),提高了工作效率.圖像分類的解決方法也為目標(biāo)檢測、圖像分割、場景理解等視覺任務(wù)奠定了基礎(chǔ).近年來,由于GPU等硬件和深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)[1]在各個領(lǐng)域取得了長足的進(jìn)展,比如,在ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽ILSVRC 比賽庫上的圖像分類,基于深度學(xué)習(xí)的圖像分類方法已經(jīng)取得了與人類幾乎相同甚至超越人類的識別性能.然而,這些用于圖像分類的深度學(xué)習(xí)模型往往需要較高的存儲空間和計算資源,使其難以有效的應(yīng)用在手機(jī)等云端設(shè)備上.如何將模型壓縮到可以適應(yīng)云端設(shè)備要求,并使得性能達(dá)到應(yīng)用需求,是當(dāng)前計算機(jī)視覺研究領(lǐng)域一個活躍的研究主題.輕量級模型設(shè)計是當(dāng)前主要的解決途徑,到目前為止,模型壓縮方法大致分為基于模型設(shè)計的方法[2]、基于量化的方法[3]、基于剪枝的方法[4]、基于權(quán)重共享的方法[5]、基于張量分解的方法[6]和基于知識蒸餾的方法[7]六類.

        本文主要關(guān)注知識蒸餾方法.知識蒸餾最初被用于模型壓縮[8].不同于剪枝、張量分解等模型壓縮方法,知識蒸餾(Knowledge distillation,KD)的方法,先固定一個分類性能好的大模型作為教師網(wǎng)絡(luò),然后訓(xùn)練一個輕量級模型作為學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)蒸餾出來的知識,在不增加參數(shù)量的情況下提升小模型的性能.基于知識蒸餾的模型壓縮方法,將教師網(wǎng)絡(luò)輸出的預(yù)測分布視為軟標(biāo)簽,用于指導(dǎo)學(xué)生網(wǎng)絡(luò)的預(yù)測分布,軟標(biāo)簽反映了不同類別信息間的隱關(guān)聯(lián),為新網(wǎng)絡(luò)的訓(xùn)練提供了更豐富的信息,通過最小化兩個網(wǎng)絡(luò)預(yù)測的Kullback-Leibler (KL)散度差異,來實現(xiàn)知識遷移.Romero 等[9]認(rèn)為讓小模型直接在輸出端模擬大模型時會造成模型訓(xùn)練困難,從而嘗試讓小模型去學(xué)習(xí)大模型預(yù)測的中間部分,該方法提取出教師網(wǎng)絡(luò)中間層的特征圖,通過一個卷積轉(zhuǎn)化特征圖大小來指導(dǎo)學(xué)生網(wǎng)絡(luò)對應(yīng)層的特征圖.Yim 等[10]使用FSP (Flow of solution procedure)矩陣計算卷積層之間的關(guān)系,讓小模型去擬合大模型層與層之間的關(guān)系.Peng 等[11]和Park等[12]同時輸入多個數(shù)據(jù),在原知識蒸餾模型的基礎(chǔ)上通過學(xué)習(xí)樣本之間的相關(guān)性進(jìn)一步提升學(xué)生網(wǎng)絡(luò)性能.

        考慮到知識蒸餾的本質(zhì)是知識的遷移,即將知識從一個模型遷移到另一個模型,Zhang 等[13]提出了深度互學(xué)習(xí)(Deep mutual learning,DML)方法,設(shè)計了一種蒸餾相關(guān)的相互學(xué)習(xí)策略,在訓(xùn)練的過程中,學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)可以相互學(xué)習(xí),知識不僅從教師網(wǎng)絡(luò)遷移到學(xué)生網(wǎng)絡(luò),也從學(xué)生網(wǎng)絡(luò)遷移到教師網(wǎng)絡(luò).

        協(xié)同學(xué)習(xí)也是常見的遷移學(xué)習(xí)方法之一,多用于半監(jiān)督學(xué)習(xí).在協(xié)同學(xué)習(xí)中,不同的模型或者在不同分組的數(shù)據(jù)集上學(xué)習(xí),或者通過不同視角的特征進(jìn)行學(xué)習(xí),例如識別同一組物體類別,但其中一種模型輸入RGB 圖像,而另一種模式輸入深度圖像.協(xié)同屬性學(xué)習(xí)[14]就是通過屬性矩陣的融合進(jìn)行屬性的挖掘,從而指導(dǎo)兩個模型的分類.而深度互學(xué)習(xí)方法中所有模型在同一數(shù)據(jù)集上訓(xùn)練完成相同的任務(wù).

        盡管現(xiàn)有的知識蒸餾的方法已經(jīng)取得了長足的進(jìn)展,但仍存在以下問題:1)現(xiàn)有的深度互學(xué)習(xí)方法僅關(guān)注教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)輸出的類分布之間的差異,沒有利用對抗訓(xùn)練來提升模型的判別能力;2)現(xiàn)有的深度互學(xué)習(xí)僅關(guān)注結(jié)果監(jiān)督,忽視了過程監(jiān)督.特別是沒有考慮高維特征空間中拓?fù)潢P(guān)系的一致性.針對問題1),本文設(shè)計對抗互學(xué)習(xí)框架,生成器使用深度互學(xué)習(xí)框架,通過對抗訓(xùn)練,提高教師和學(xué)生網(wǎng)絡(luò)的判別性;針對問題2),本文在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)互學(xué)習(xí)模型中,增加過程監(jiān)督,即對中間生成的特征圖,設(shè)計了拓?fù)湟恢滦远攘糠椒?通過結(jié)果和過程同時控制,提高模型的判別能力.

        總之,本文提出了一種基于拓?fù)湟恢滦缘膶够W(xué)習(xí)知識蒸餾方法(Topology-guided adversarial deep mutual learning,TADML),在生成對抗[15]網(wǎng)絡(luò)架構(gòu)下,設(shè)計知識蒸餾方法,教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)互相指導(dǎo)更新,不僅讓教師網(wǎng)絡(luò)的知識遷移到學(xué)生網(wǎng)絡(luò),也讓學(xué)生網(wǎng)絡(luò)的知識遷移到教師網(wǎng)絡(luò).本文的模型框架可以推廣到多個網(wǎng)絡(luò)的對抗互學(xué)習(xí).TADML 由深度互學(xué)習(xí)網(wǎng)絡(luò)構(gòu)成的生成器和一個判別器組成.生成器的每個子網(wǎng)絡(luò)都是分類網(wǎng)絡(luò).類似于知識蒸餾,任一子網(wǎng)絡(luò)都可以看作是其余網(wǎng)絡(luò)的教師網(wǎng)絡(luò),對其他網(wǎng)絡(luò)訓(xùn)練更新,進(jìn)行知識遷移.為方便計算,本文將所有子網(wǎng)絡(luò)組視為一個大網(wǎng)絡(luò)同時優(yōu)化更新.每個被看作生成器的子網(wǎng)絡(luò),生成輸入圖像的特征.判別器更新時判斷生成器的輸出特征屬于哪一個類別、來源于哪一個子網(wǎng)絡(luò),而生成器更新時盡量混淆判別器使其無法準(zhǔn)確判斷特征來源于哪一個生成器,進(jìn)而擬合網(wǎng)絡(luò)中隱含的信息.

        1 本文方法

        本節(jié)介紹如何通過對抗訓(xùn)練框架實現(xiàn)網(wǎng)絡(luò)間的知識轉(zhuǎn)移.首先概述TAMDL 網(wǎng)絡(luò)結(jié)構(gòu),然后討論所提的損失函數(shù)的構(gòu)成,最后描述模型的訓(xùn)練過程.

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)

        如圖1 所示,給出了基于拓?fù)湟恢滦缘膶够W(xué)習(xí)知識蒸餾(TADML)框架,該框架由生成器和判別器兩部分組成:

        圖1 本文方法框架Fig.1 The framework of the proposed method

        1)生成網(wǎng)絡(luò).該部分由兩個或多個分類子網(wǎng)絡(luò)組成,生成器中的分類網(wǎng)絡(luò)執(zhí)行相同的分類任務(wù),可以選取不同的模型結(jié)構(gòu),彼此間無需共享參數(shù).不失一般性,現(xiàn)有的深度分類模型都可作為生成器中的分類網(wǎng)絡(luò),例如ResNet和Wide-ResNet[16].由于所有的生成網(wǎng)絡(luò)使用相同的數(shù)據(jù)集執(zhí)行相同的分類任務(wù),對于輸入圖像x,定義第i個網(wǎng)絡(luò)的激活函數(shù)層Softmax 的類別分布概率值為fi(x,ωi),其中ωi是相應(yīng)的分類模型網(wǎng)絡(luò)參數(shù).

        2)判別器.在TADML 架構(gòu)中,將兩個或多個分類網(wǎng)絡(luò)看作生成器,而判別器只有一個.由于常見的判別器容易陷入過早收斂或難以訓(xùn)練兩種極端情況,本文設(shè)計了一個能較好平衡判別器穩(wěn)定性和辨別能力的判別器,相對于常見的多層感知器[17]更加穩(wěn)定.如圖2 所示,提出的判別器由三個全連接的層(128fc-256fc-128fc)組成,且判別器的第一層和與最后一層沒有批標(biāo)準(zhǔn)化處理(Batch normalization,BN)與LeakyRelu 激活函數(shù)操作.與常見的判別器不同,本文所設(shè)計判別器的輸出不是簡單的真假(自然圖像/偽造圖像),而是判斷輸入來源于哪個網(wǎng)絡(luò)且隸屬于哪個類別.受到條件GAN (Conditional-GAN,C-GAN[18])在圖像恢復(fù)領(lǐng)域中的啟發(fā),本文根據(jù)C-GAN 的對判別器的輸入進(jìn)行改造,在后續(xù)的消融實驗部分對判別器的輸入進(jìn)行不同程度的約束.

        圖2 判別器結(jié)構(gòu)圖Fig.2 The structure of discriminator

        1.2 損失函數(shù)

        所提方法考慮四種損失:標(biāo)簽監(jiān)督損失LS,對抗損失Ladv,分布一致性損失Lb,拓?fù)湟恢滦該p失LT.標(biāo)簽監(jiān)督損失LS是廣泛用于圖像分類中帶注釋數(shù)據(jù)分類任務(wù)的監(jiān)督損失,這對提取知識起著至關(guān)重要的作用.分布一致性損失Lb是直接匹配所有分類子網(wǎng)絡(luò)的輸出的顯式損失,而對抗性損失Ladv表示隱式損失,該損失將所有分類子網(wǎng)絡(luò)的邏輯分布之間經(jīng)過分類器判斷的差異最小化.換句話說,對抗性損失提供了一些通過傳統(tǒng)分布相似性度量而丟失的信息.拓?fù)湟恢滦該p失LT是樣本實例間隱藏的高階結(jié)構(gòu)信息.

        在訓(xùn)練對抗生成抗網(wǎng)絡(luò)時,為指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí),盡可能遷移分類網(wǎng)絡(luò)之間的知識,總的損失函數(shù)定義為:

        式中,α和β分別表示四項損失所占的權(quán)重,在本文中分別設(shè)定為α=0.6,β=0.4.下面依次對這四個部分進(jìn)行詳細(xì)說明.

        1)標(biāo)簽監(jiān)督損失.該損失為常用的監(jiān)督分類交叉熵?fù)p失.對于給定的圖像標(biāo)簽對 (x;l),優(yōu)化模型參數(shù)使得預(yù)測類別與標(biāo)簽的交叉熵降至最低,以正確預(yù)測每個訓(xùn)練實例的真實標(biāo)簽:

        2)分布一致性損失.考慮到互學(xué)習(xí)模型中的知識遷移,與之前的蒸餾網(wǎng)絡(luò)不同,本文沒有固定一個預(yù)訓(xùn)練網(wǎng)絡(luò)作為教師網(wǎng)絡(luò)進(jìn)行單向指導(dǎo),所提方法中任意一個網(wǎng)絡(luò)都接受其余網(wǎng)絡(luò)的監(jiān)督指導(dǎo),最小化分類網(wǎng)絡(luò)輸出特征的類別分布差異,輸出越相似則表示遷移效果越好.受到Knowledge squeezed adversarial network compression (KSANC)[19]的啟發(fā),本文考慮從結(jié)果導(dǎo)向和過程導(dǎo)向兩個方面同時進(jìn)行知識遷移.過程導(dǎo)向約束僅針對最后一個全連接層的輸出.最終輸出的邏輯分布作為結(jié)果導(dǎo)向,即各個網(wǎng)絡(luò)之間只保留網(wǎng)絡(luò)輸出之間的實例級對齊.

        考慮到網(wǎng)絡(luò)輸出的類別分布的差異性度量,本文使用Jensen-Shannon (JS) 散度衡量輸出分布的相似性:

        式中,fi表示由第i個網(wǎng)絡(luò)預(yù)測的邏輯分布.KL 散度定義為:

        3)對抗性損失.在TADML 的模型中,采用對抗學(xué)習(xí)(GAN)的方法,將從每個網(wǎng)絡(luò)中提取的知識轉(zhuǎn)移到另一個網(wǎng)絡(luò)中.在知識蒸餾中,學(xué)生網(wǎng)絡(luò)通過模仿教師網(wǎng)絡(luò)從而學(xué)習(xí)教師網(wǎng)絡(luò)中的知識,直到最后學(xué)生網(wǎng)絡(luò)的輸出與教師網(wǎng)絡(luò)相近則視為指導(dǎo)完成.TADML 網(wǎng)絡(luò)整體框架分為生成器和判別器兩個部分,多個分類網(wǎng)絡(luò)構(gòu)成生成器.對于一個輸入的樣本,經(jīng)過生成網(wǎng)絡(luò)得到多個類別概率,每一個分類網(wǎng)絡(luò)都對應(yīng)輸出一個概率分布(也可以視為圖像經(jīng)過這個網(wǎng)絡(luò)表征的特征編碼).這些概率分布作為判別器的輸入,判別器判斷類別概率分布是由哪個分類網(wǎng)絡(luò)產(chǎn)生.生成器與判別器交替迭代更新,固定判別器更新生成器時,盡量生成相似的特征編碼,使得判別器無法分辨特征編碼來自于生成器的哪一個子網(wǎng)絡(luò);而在固定生成器更新判別器時,盡量訓(xùn)練判別網(wǎng)絡(luò),使其可以輕易的分辨輸入來源于生成器中哪個分類子網(wǎng)絡(luò).二者交替迭代直到動態(tài)平衡,則視為收斂.

        到目前為止,基于GAN 的方法已在很多領(lǐng)域取得了顯著的效果,在TADML 方法中,每個分類子網(wǎng)絡(luò)都被視為GAN 中的生成器,并提供邏輯分布作為另一個分類子網(wǎng)絡(luò)的真實標(biāo)簽.相較于原始的GAN 網(wǎng)絡(luò)只輸出一個布爾值,即真或假,本文判別器判斷其輸入來源于哪個分類子網(wǎng)絡(luò):

        式中,gn(i) 是第i個元素為1,其余元素為0 的向量,表示生成器n個分類子網(wǎng)絡(luò)的第i個分類網(wǎng)絡(luò)的輸出作為判別器的輸入,Do(fj(x)) 表示判別器輸出的n位向量,代表判別器預(yù)測輸入來源于哪個網(wǎng)絡(luò),n為分類子網(wǎng)絡(luò)數(shù).

        此外,如果判別器僅僅區(qū)分輸入來自生成器的哪個子網(wǎng)絡(luò),則缺少類別信息可能導(dǎo)致錯誤的關(guān)聯(lián).為此,引入輔助分類來預(yù)測輸入所屬類別.即本文所提的判別器不僅需要判斷輸入來源于哪個分類子網(wǎng)絡(luò),還需要判斷輸入屬于哪一個類別標(biāo)簽,損失函數(shù)表示為:

        式中,gN(C) 表示真實的類別分布,DC(fi(x)) 表示判別器輸出的類別分布,N是類別總數(shù).

        鑒于GAN 網(wǎng)絡(luò)的判別器容易在極少的迭代次數(shù)后收斂和過度擬合.本文設(shè)計了懲罰項作為對模型的正則化處理,定義如下:

        式中,μ權(quán)重參數(shù)設(shè)為0.7,ωD是判別器的網(wǎng)絡(luò)參數(shù),g(0) 表示元素全為0 的向量,負(fù)號表示該項僅在式(5)最大化步驟中更新,前一項迫使判別器的權(quán)重緩慢增長,后一項則是對抗性樣本正則化.

        本文設(shè)計的對抗損失為:

        4)拓?fù)湟恢滦該p失.在過程導(dǎo)向的監(jiān)督學(xué)習(xí)中,考慮樣本組間的拓?fù)浣Y(jié)構(gòu)相似性,本文選擇計算樣本在高維空間嵌入特征的距離及其角度的一致性.對于輸入的樣本組{x1,x2,x3,···,xn},經(jīng)過第i個分類網(wǎng)絡(luò)的最后一層全連接輸出的特征映射看作高維嵌入特征{hi(x1),hi(x2),hi(x3),···,hi(xn)},則兩個網(wǎng)絡(luò)間基于特征距離的拓?fù)湟恢滦該p失可以表示為:

        1.3 訓(xùn)練步驟

        在訓(xùn)練過程中,本文交替更新判別器和生成器.在更新生成器參數(shù)時,固定判別器不動,將生成器的所有分類網(wǎng)絡(luò)視為一個整體,通過最小化式(1)同時更新生成器中所有的分類網(wǎng)絡(luò)參數(shù).在更新判別器參數(shù)時,所有的生成網(wǎng)絡(luò)都是固定的,以提供穩(wěn)定的輸入,通過最大化式(8)更新.交替迭代更新,每輸入一組數(shù)據(jù)交替一次,直至迭代次數(shù)滿足終止條件.在測試階段,本文僅考慮作為生成器的分類子網(wǎng)絡(luò),并將每個分類子網(wǎng)絡(luò)視為一個完整的分類網(wǎng)絡(luò)來對輸入圖像分別進(jìn)行分類.

        2 實驗設(shè)置

        2.1 數(shù)據(jù)集

        本文在3 個公開的分類數(shù)據(jù)集CIFAR10、CIFAR100和Tiny-ImageNet 上進(jìn)行訓(xùn)練和測試,進(jìn)一步在行人重識別數(shù)據(jù)集Market1501 上驗證所提方法的有效性.其中,CIFAR100和CIFAR10 數(shù)據(jù)集都包含60 000 張32 × 32 像素大小的圖像,分別由100 個類和10 個類組成,50 000 張用于訓(xùn)練,10 000 張用于驗證.Tiny-ImageNet 源于ImageNet dataset (1 000 個類別),從中抽取200 個類別,每個類別有500 個訓(xùn)練圖像,50 個驗證圖像和50個測試圖像,且所有圖片都被裁剪放縮為64 × 64像素大小.Market1501 是常用的行人重識別數(shù)據(jù)集,包含12 936 張訓(xùn)練圖像(751 個不同的行人)和19 732 張測試圖像(750 個不同的行人),圖像大小為64 × 128 像素.

        2.2 實現(xiàn)細(xì)節(jié)

        本文算法使用Torch0.4 在NVIDIA GeForce GTX 1 080 GPU 上實現(xiàn).對于所有分類數(shù)據(jù)集,均使用隨機(jī)梯度下降法進(jìn)行優(yōu)化,將權(quán)重衰減設(shè)置為0.0001,動量設(shè)置為0.9.對于CIFARs 的實驗,批量大小設(shè)置為64,生成網(wǎng)絡(luò)和判別器的初始學(xué)習(xí)率分別設(shè)置為0.1和0.001,每隔80 次迭代兩者都縮小為0.1 倍,總共訓(xùn)練了200 次迭代.對于Tiny-ImageNet 的實驗,批量大小設(shè)置為128,總迭代次數(shù)為330 代,生成網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為0.1,每隔60 代學(xué)習(xí)率乘以0.2,判別網(wǎng)絡(luò)初始學(xué)習(xí)率為0.001,每隔120 代乘以0.1.對于Market1501 的實驗,采用與DML 相同的實驗設(shè)置:使用Adam 優(yōu)化器,學(xué)習(xí)率為0.0002,β1設(shè)為0.5,β2設(shè)為0.999,批量大小設(shè)置為16,圖像輸入大小為64 × 160 像素,共迭代100 000 次.盡管使用預(yù)訓(xùn)練模型能得到更高的精度,在實驗中,所有網(wǎng)絡(luò)都采用隨機(jī)初始化的.由于訓(xùn)練前期網(wǎng)絡(luò)變化較大,僅在總迭代次數(shù)過半的時候才加入拓?fù)湟恢滦該p失更新網(wǎng)絡(luò),且用上一次迭代時分類精度高的網(wǎng)絡(luò)指導(dǎo)精度低的網(wǎng)絡(luò),而不是互相指導(dǎo)學(xué)習(xí).

        2.3 消融實驗

        關(guān)于損失函數(shù)的選擇,本文嘗試不同損失組合的效果.表1 展示了在CIFAR10和CIFAR100 上,將兩個ResNet32 設(shè)置為生成器中的教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),遵循相同的實驗方案進(jìn)行訓(xùn)練,并選擇這兩個子網(wǎng)絡(luò)的平均精度作為最終結(jié)果.其中,LS表示標(biāo)簽損失,Lp(p=1,2) 表示兩個網(wǎng)絡(luò)輸出分布之間的l1,l2范數(shù)損失,LJS表示兩個網(wǎng)絡(luò)輸出分布的LJS散度相似性,Ladv表示本章提出的對抗損失.從表中可知,單獨(dú)使用類別標(biāo)簽監(jiān)督損失LS在所有組合中結(jié)果最差,增加任意一種知識遷移的損失都能增加預(yù)測的精度,LS+LJS+Ladv取得最高的平均分類精度,在CIFAR10和CIFAR100 上增幅分別為0.62%和2.28%在固定類別標(biāo)簽監(jiān)督損失LS和對抗損失Ladv的情況下,對比增加L2和JS損失,前者增加LJS比增加L2使得分類性能有所提升,在兩個數(shù)據(jù)集上的增幅分別為0.48%和0.78%.綜上所述,在后續(xù)的實驗中,單獨(dú)使用LJS差異來計算Lb.

        表1 損失函數(shù)對分類精度的影響比較(%)Table 1 Comparison of classification performance with different loss function (%)

        進(jìn)一步討論判別器結(jié)構(gòu)對TAMDL 性能的影響.在CIFAR100 上進(jìn)行實驗,在分類子網(wǎng)絡(luò)固定為ResNet32 的情況下,討論判別器采用不同的架構(gòu)對最終網(wǎng)絡(luò)的分類誤差的影響.由表2 可以看出,不同結(jié)構(gòu)的判別器對結(jié)果的影響不大.嘗試了兩層到四層不同容量的全連接層模型,且為了盡可能保留輸入數(shù)據(jù)的差異性,僅在全連接層之間進(jìn)行BN與LeakyReLU 操作.實驗表明四層全連接層的效果普遍會略低于三層的效果,三層結(jié)構(gòu)的判別器取得了略優(yōu)的分類性能,128fc-256fc-128fc在CIFAR100 上取得了最好的分類性能,相比最差的四層結(jié)構(gòu)的判別器128fc-256fc-256fc-128fc 分類精度僅提高了0.28.為此,在后續(xù)實驗中,TAMDL采用三層結(jié)構(gòu)的判別器.

        表2 判別器結(jié)構(gòu)對分類精度的影響比較(%)Table 2 Comparison of classification performance with different discriminator structures (%)

        本節(jié)討論判別器的輸入對TAMDL 性能的影響.在2 個ResNet32 構(gòu)成的網(wǎng)絡(luò)上進(jìn)行了實驗.對比了不同的判別器的輸入:1) Conv4 表示圖像經(jīng)過第4 組卷積得到的特征;2) FC 表示單張圖像經(jīng)過全連接層轉(zhuǎn)化但未經(jīng)Softmax 的特征;3) DAE 表示原始圖像經(jīng)過深度自編碼器得到的壓縮特征;4)Label 表示分類標(biāo)簽的熱編碼;5) Avgfc 表示一組圖像經(jīng)過全連接層轉(zhuǎn)化但未經(jīng)Softmax 的特征的平均值.表3 對比了針對不同判別器輸入網(wǎng)絡(luò)的最終結(jié)果,表中的結(jié)果是經(jīng)過分類網(wǎng)絡(luò)輸出的平均值.由表3 可以看出,FC 得到的特征作為判別器的輸入取得了最好的判別性能,增加的條件約束信息對最終結(jié)果沒有正面的促進(jìn),如FC+Conv4 判別器的性能并沒有提升,反而下降了0.44%.FC+Label 作為輸入,判別器性能僅次于FC 作為輸入得到的結(jié)果.

        表3 判別器輸入對分類精度的影響比較(%)Table 3 Comparison of classification performance with different discriminator inputs (%)

        進(jìn)一步討論采樣數(shù)量對TAMDL 分類性能的影響.在訓(xùn)練過程中通常采用從訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣來訓(xùn)練網(wǎng)絡(luò).不加限制的隨機(jī)采樣器可能會導(dǎo)致所有樣本都來自不同類別的情況.盡管它是對實例一致性的真實梯度的無偏估計,但是在本節(jié)提出的樣本組間結(jié)構(gòu)相似性損失計算中,過多的樣本類別數(shù)容易導(dǎo)致組間關(guān)系過于復(fù)雜難以學(xué)習(xí)優(yōu)化,且過少的樣本類別數(shù)又容易導(dǎo)致類間相關(guān)性偏差較大.為了正確的傳遞樣本組間的真實相關(guān)信息,采樣策略十分重要.在批量輸入大小固定為64 的情況下,對樣本組中的類別數(shù)目進(jìn)行了限定.表4 給出了在CIFAR100 數(shù)據(jù)集上,學(xué)生和教師網(wǎng)絡(luò)為ResNet32和ResNet110 時的分類結(jié)果,其中每個樣本組中類別總數(shù)為K且每類的樣本數(shù)目為64/K,Random 表示不進(jìn)行采樣約束的互學(xué)習(xí)結(jié)果,Vanila表示原始網(wǎng)絡(luò)精度.由表4 可知,當(dāng)類別總數(shù)K取值過小時,網(wǎng)絡(luò)無法正常訓(xùn)練或過早陷入過擬合狀態(tài).如K=2,TADML 取得最低的分類性能.當(dāng)K取值剛好等于類別總數(shù)時,即每個類別樣本僅出現(xiàn)一次,網(wǎng)絡(luò)的性能與隨機(jī)采樣效果基本保持一致.在K=8,16,32 時,TAMDL 的性能均優(yōu)于隨機(jī)采樣的方式,增幅分別為0.31%、0.72%、0.38%.由此可知,樣本組的類別數(shù)在平衡類間內(nèi)相關(guān)一致性中有很重要的作用,選取適當(dāng)?shù)念悇e數(shù),后續(xù)實驗采用K=16.

        表4 采樣數(shù)量對分類精度的影響比較(%)Table 4 Comparison of classification performance with different sampling strategies (%)

        2.4 TAMDL 與DML 比較實驗

        本節(jié)討論TAMDL 與DML 的性能對比.為了說明TAMDL 的魯棒性和優(yōu)越性,實驗設(shè)置不同結(jié)構(gòu)的分類網(wǎng)絡(luò)作為生成器,并與原始分類網(wǎng)絡(luò)和深度互學(xué)習(xí)方法(DML)進(jìn)行比較.對比實驗的優(yōu)化器參數(shù)設(shè)置與本文提出算法保持一致,DML 算法優(yōu)化步驟按照原文的設(shè)置,使用KL 散度進(jìn)行知識遷移并交替訓(xùn)練子網(wǎng)絡(luò).為了進(jìn)一步說明本文所提兩個損失模塊的有效性,把僅加上對抗損失模塊的網(wǎng)絡(luò)(損失函數(shù)未加拓?fù)湟恢滦該p失度量)定義為ADML.實驗部分列出了ADML 算法與同時使用對抗性損失模塊、拓?fù)湟恢滦該p失模塊的TADML算法的測試結(jié)果.由表5 可以看出,本文方法在ResNet32,ResNet110和Wide-ResNet (WRN)之間的幾乎所有組合中,都比DML 表現(xiàn)更好,無論兩個網(wǎng)絡(luò)是同等大小,還是一大一小,大網(wǎng)絡(luò)幾乎都可以從小網(wǎng)絡(luò)中進(jìn)一步獲益,從而達(dá)到更高的精度.換句話說,ADML 進(jìn)一步提升了所有網(wǎng)絡(luò)的能力.表5 中除第1 行外,第2~5 行所有的教師和學(xué)生網(wǎng)絡(luò)結(jié)構(gòu)模型,ADML 的性能都優(yōu)于DML.學(xué)生網(wǎng)絡(luò)(第1 列)的第2~5 行增幅分別為1.04%、0.49%、0.71%、1.03%,教師網(wǎng)絡(luò)(第2 列)的第2~5 行增幅分別為0.1%、0.55%、0.74%、0.32%.當(dāng)在CIFAR10 上重復(fù)相同的實驗時,由于生成網(wǎng)絡(luò)的輸出過于簡單導(dǎo)致基于GAN的優(yōu)化難以收斂,提出的ADML 的性能幾乎等于DML.

        由表5 可以看出,TADML 在所有的網(wǎng)絡(luò)結(jié)構(gòu)試驗中幾乎都達(dá)到了最優(yōu)的結(jié)果,最優(yōu)值用黑體標(biāo)記,次優(yōu)值用下劃線標(biāo)記.相對于DML,TADML在所有設(shè)置的網(wǎng)絡(luò)結(jié)構(gòu)中都優(yōu)于DML,學(xué)生網(wǎng)絡(luò)的增幅分別為1.21%、1.52%、0.93%、0.91%和1.52%,教師網(wǎng)絡(luò)的增幅分別為1.24%、0.78%、1.16%、1.07%和1.01%.進(jìn)一步可以發(fā)現(xiàn),當(dāng)2 個分類子網(wǎng)絡(luò)大小不一致時,較大網(wǎng)絡(luò)的提升效果遠(yuǎn)沒有較小網(wǎng)絡(luò)明顯.

        表5 網(wǎng)絡(luò)結(jié)構(gòu)對分類精度的影響比較(%)Table 5 Comparison of classification performance with different network structures (%)

        將本文方法用于行人再識別,用平均識別精度mAP 進(jìn)行度量.為公平比較起見,采用了與DML[13]在行人在識別實驗中相同的網(wǎng)絡(luò)設(shè)置,設(shè)置了2 組不同網(wǎng)絡(luò)學(xué)生和教師的架構(gòu):網(wǎng)絡(luò)1(InceptionV,MobileNetV1)、網(wǎng)絡(luò)2 (MobileNetV1,MobileNetV1).對比DML、ADML和TADML,結(jié)果如表6所示.在行人重識別數(shù)據(jù)集上的性能進(jìn)一步表明了,本文算法的有效性和優(yōu)越性.ADML 相對于DML,2 組師生網(wǎng)絡(luò)性能分別提升了0.26%和0.35%、0.47%和1.01%;TADML 相對于DML,兩組師生網(wǎng)絡(luò)性能分別提升了0.59%和1.04%、0.89%和1.39%.實驗結(jié)果表明,ADML和TADML 方法在Market1501數(shù)據(jù)集上的mAP 普遍高于DML.

        表6 網(wǎng)絡(luò)結(jié)構(gòu)對行人重識別平均識別精度的影響比較(%)Table 6 Comparison of person re-identification mAP with different network structures (%)

        2.5 主流方法對比

        將本文TAMDL 方法與當(dāng)前流行的方法進(jìn)行比較,為比較公平,將模型壓縮的性能作為比較指標(biāo),在三個常見的分類數(shù)據(jù)集CIFAR10、CIFAR100、Tiny-ImageNet 上進(jìn)行比較.對比了9 種方法,分別為2 種廣泛使用的基于量化的模型壓縮方法:Quantization[20]、Binary Connect[21],4 種常見的知識蒸餾方法:解過程流方法(Flow of solution procedure,FSP)[10]、模擬淺層神經(jīng)網(wǎng)絡(luò)的SNN-MIMIC 方法[22]、KD[8]、用淺而寬的教師網(wǎng)絡(luò)訓(xùn)練窄而深的學(xué)生網(wǎng)絡(luò)的FitNet[9],3 種對抗訓(xùn)練的蒸餾方法:對抗網(wǎng)絡(luò)壓縮方法(Adversarial network compression,ANC[23]、用條件對抗學(xué)習(xí)加速訓(xùn)練學(xué)生網(wǎng)絡(luò)的TSANC 方法[24]、用知識擠壓進(jìn)行對抗學(xué)習(xí)的KSANC 方法[19].其中Quantization[20]將網(wǎng)絡(luò)權(quán)重的進(jìn)行三值化,Binary Connect[21]在前向和后向傳遞期間對權(quán)重進(jìn)行二值化.SNN-MIMIC[22]模擬學(xué)習(xí)L2損失,KD[8]通過KL 散度進(jìn)行軟目標(biāo)的知識轉(zhuǎn)移,Yim 等[10]使用FSP 矩陣進(jìn)行蒸餾,FitNet[9]使用更深但更薄的網(wǎng)絡(luò)嘗試遷移模型中間層的知識.ANC[23]首次將生成對抗網(wǎng)絡(luò)融入到知識蒸餾中對學(xué)生網(wǎng)絡(luò)的邏輯分布層進(jìn)行指導(dǎo),TSANC[24]在此基礎(chǔ)上對判別器的輸入進(jìn)行了條件約束,KSANC[19]進(jìn)一步加入了網(wǎng)絡(luò)中間層的監(jiān)督指導(dǎo).

        在對比實驗中,教師網(wǎng)絡(luò)使用ResNet164,學(xué)生網(wǎng)絡(luò)使用ResNet20.其中Tiny-ImageNet 的實驗結(jié)果由復(fù)現(xiàn)的代碼運(yùn)行得到,表中的其余結(jié)果均來自自文獻(xiàn)[19],一些對比方法未給出實驗結(jié)果,則標(biāo)記為 “-”.如表7 所示,第1 行ResNet20 為學(xué)生網(wǎng)絡(luò)的分類性能,第2 行ResNet164 為教師網(wǎng)絡(luò)的性能.從第2 行至最后一行為在相同的教師和學(xué)生網(wǎng)絡(luò)設(shè)置下,對比方法僅使用學(xué)生網(wǎng)絡(luò)進(jìn)行分類達(dá)到的分類性能.第1 列為對比方法,第2 列為模型大小.最優(yōu)值使用黑色粗體標(biāo)記,次優(yōu)值使用下劃線粗體標(biāo)記.本文方法TAMDL 在3 個數(shù)據(jù)集上均取得了最高的分類精度,與最新的對比方法KSANC比較,在CIFAR10、CIFAR100和Tiny-ImagNet上增幅分別為0.37%、2.23%和0.34%.

        表7 本文算法與其他壓縮算法的實驗結(jié)果Table 7 Experimental results of the proposed algorithm and other compression algorithms

        由表7 可以看出,學(xué)生網(wǎng)絡(luò)都沒能達(dá)到教師網(wǎng)絡(luò)的性能.對于CIFAR10,在相同規(guī)模下采用對抗學(xué)習(xí)后,學(xué)生網(wǎng)絡(luò)的性能得到改善,ANC、TSANC、KSANC、AMDL、TAMDL 的增幅分別為0.5%、0.75%、1.26%、0.81%和2.63%.對于類別復(fù)雜的CIFAR100,增幅更為明顯,以上5 種方法的增幅分別為0.92%、0.80%、1.95%、2.97%和4.81%.對于更為復(fù)雜的Tiny-ImageNet 數(shù)據(jù)集,以上五種方法的增幅分別為3.72%、3.75%、5.32%、4.55%和5.66%.比較實驗表明,數(shù)據(jù)集越復(fù)雜,對抗訓(xùn)練的提升效果越明顯,本文方法TAMDL 相對于其他對比方法優(yōu)勢越明顯.

        2.6 模型復(fù)雜性分析

        本節(jié)以ResNet164/ResNet20 做為教師網(wǎng)絡(luò)/學(xué)生網(wǎng)絡(luò)為例,來分析TAMDL 模型的復(fù)雜性.在訓(xùn)練階段,先固定判別器,此時優(yōu)化生成器—兩個分類網(wǎng)絡(luò)ResNet164和ResNet20,兩個模型的參數(shù)量分別為2.61 MB和0.27 MB,即生成器參數(shù)量為2.88 MB,耗時與傳統(tǒng)互學(xué)習(xí)網(wǎng)絡(luò)一致;優(yōu)化判別器時,生成器固定不動,此時優(yōu)化的是一個多層感知器—三個全連接層128-256-128,參數(shù)量為0.59 MB.在訓(xùn)練時生成器和判別器以1:1 的輪次交替迭代,在數(shù)據(jù)集CIFAR100 使用Pytorch0.4進(jìn)行實驗,生成器為ResNet164+ResNet20,判別網(wǎng)絡(luò)為三個維度為128-256-128 的全連接層,批尺寸Batchsize 設(shè)為64,即每個訓(xùn)練輪次Epoch 將訓(xùn)練集劃分為781個Batch,平均每訓(xùn)練輪次Epoch耗時82 s,其中每個Batch平均耗時0.1045 s,優(yōu)化生成器反向傳播耗時0.0694 s,優(yōu)化判別器反向傳播耗時0.0016 s.采用對抗訓(xùn)練,并沒有帶來太大的時間開銷.

        3 結(jié)束語

        本文提出了一種拓?fù)湟恢滦灾笇?dǎo)的對抗互學(xué)習(xí)知識蒸餾方法.該方法在GAN 框架下,對輕量級的學(xué)生網(wǎng)絡(luò)進(jìn)行知識遷移,所提方法設(shè)計了樣本組間拓?fù)湟恢滦远攘?依此設(shè)計的損失函數(shù)結(jié)合常規(guī)的實例級別的分布相似性,以及對抗損失及標(biāo)號損失,作為訓(xùn)練模型的總損失.文中評估了不同損失函數(shù)和不同模型架構(gòu)對分類精度的影響.在3 個公開的數(shù)據(jù)集上驗證了本文方法TAMDL 的有效性.本文方法效果穩(wěn)定且提升明顯,而且在壓縮模型的性能比較中,取得最好的結(jié)果.

        猜你喜歡
        類別損失分類
        少問一句,損失千金
        胖胖損失了多少元
        分類算一算
        分類討論求坐標(biāo)
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        一般自由碰撞的最大動能損失
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中文字幕高清视频婷婷| 国内少妇自拍区免费视频| 一区二区免费电影| 久久精品国产亚洲av日韩精品| 午夜视频国产在线观看| 亚洲日本va中文字幕| 99re免费在线视频| 青青草手机成人自拍视频| 国产女同va一区二区三区| 中字幕人妻一区二区三区| 亚洲区小说区图片区| 日本高清二区视频久二区| 人妖av手机在线观看| 久久国产精品精品国产色婷婷| 久久久久亚洲AV无码专| 一区二区三区av资源网| 日本添下边视频全过程| 国产精品白浆在线观看无码专区| 久久国产精品免费一区二区| 国内偷拍精品一区二区| 亚洲av成人片色在线观看高潮| 亚洲综合一区无码精品| 一本色道久久综合中文字幕| 人妻久久一区二区三区| 成人区人妻精品一区二区不卡网站| 日韩精品久久久一区| 白丝美女扒开内露出内裤视频| 国产精品久久久福利| 亚洲色欲色欲www在线播放| 亚洲日本国产乱码va在线观看 | 国产av剧情一区二区三区| 国产乱码一二三区精品| 欧美综合区| 蜜臀人妻精品一区二区免费| 国产精品毛片一区二区三区| 日韩毛片在线看| av网站免费在线不卡| 优优人体大尺大尺无毒不卡 | 视频一区视频二区亚洲| 亚洲国产精品久久久久秋霞小说| 蜜桃av噜噜一区二区三区|