張 旭,陳志奎,李秋岑,李 朋,高 靜
(大連理工大學(xué) 軟件學(xué)院,遼寧 大連 116620)
植株病蟲害的識(shí)別是農(nóng)業(yè)生產(chǎn)中一項(xiàng)重要的工作,需要及時(shí)準(zhǔn)確地對(duì)病害狀況進(jìn)行檢測(cè),從而采取有效的防治措施。傳統(tǒng)方法依賴經(jīng)驗(yàn)進(jìn)行人工觀察和鑒定,準(zhǔn)確率和效率都不盡人意[1]。應(yīng)用計(jì)算機(jī)技術(shù)對(duì)病蟲害進(jìn)行自動(dòng)識(shí)別,是實(shí)現(xiàn)智慧種植中不可或缺的一環(huán)。早期方法基于機(jī)器學(xué)習(xí)的分類方法,在小規(guī)模數(shù)據(jù)集上效果較好。近年來,伴隨著農(nóng)業(yè)大數(shù)據(jù)化,數(shù)據(jù)量不斷升級(jí),加上深度學(xué)習(xí)的高速發(fā)展,使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行病蟲害圖像識(shí)別在國(guó)內(nèi)外都取得了一定的成果:文獻(xiàn)[2-4]分別使用采集的病態(tài)和健康的植物葉片訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),得到的網(wǎng)絡(luò)識(shí)別精度高,分類效果明顯。文獻(xiàn)[5]使用基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural networks)的模型對(duì)水稻病葉進(jìn)行識(shí)別,精度達(dá)到了95. 48%,高于傳統(tǒng)的機(jī)器學(xué)習(xí)模式。文獻(xiàn)[6]使用faster R-CNN識(shí)別茶葉的褐斑病、水皰病等病變。文獻(xiàn)[7]使用GoogleLeNet建模水稻穗株的高光譜圖像,對(duì)病株進(jìn)行識(shí)別。文獻(xiàn)[8]綜合多種深度神經(jīng)網(wǎng)絡(luò)的特征提取器提出一種深度學(xué)習(xí)元體系結(jié)構(gòu),實(shí)現(xiàn)了對(duì)番茄病變的實(shí)時(shí)監(jiān)測(cè)。然而,這些基于深度神經(jīng)網(wǎng)絡(luò)的方法在提供優(yōu)秀的性能同時(shí),往往需要依靠大量的有標(biāo)簽數(shù)據(jù)樣本進(jìn)行訓(xùn)練,數(shù)據(jù)則需要專業(yè)人員進(jìn)行采集和標(biāo)注,帶來了高昂的訓(xùn)練成本,一定程度上限制了方法在實(shí)際問題中的應(yīng)用。
為了減少實(shí)際應(yīng)用中的數(shù)據(jù)需求和標(biāo)注成本,深度遷移學(xué)習(xí)(deep transfer learning)是經(jīng)常被選擇的方案,這一思路也已經(jīng)被擴(kuò)展到病蟲害識(shí)別工作中。文獻(xiàn)[9]應(yīng)用遷移學(xué)習(xí)方法訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行木薯病蟲害識(shí)別,在取得高識(shí)別精度的同時(shí)減少了訓(xùn)練開銷。深度遷移學(xué)習(xí)可以將知識(shí)從源域遷移到目標(biāo)域,將多任務(wù)中共享的知識(shí)進(jìn)行復(fù)用,并根據(jù)目標(biāo)任務(wù)更新學(xué)習(xí)模型,和人類的認(rèn)知策略類似[10]。在計(jì)算機(jī)視覺領(lǐng)域,卷積網(wǎng)絡(luò)提取的淺層視覺特征在多任務(wù)中往往可以復(fù)用,該理論已經(jīng)得到證明[11]。因此,通過復(fù)用在海量數(shù)據(jù)集和高性能硬件設(shè)備預(yù)訓(xùn)練模型的一部分,用于完成實(shí)際任務(wù)中的特征提取等工作,可以大幅減少所需的有標(biāo)簽數(shù)據(jù)量,縮短訓(xùn)練時(shí)間,從而減少訓(xùn)練的開銷。然而,遷移學(xué)習(xí)仍然無法解決需要訓(xùn)練網(wǎng)絡(luò)中海量參數(shù)的問題。先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)發(fā)展趨勢(shì)是,為了獲得更高的精度,需要訓(xùn)練更大和更深的網(wǎng)絡(luò),從而帶來更加高昂的內(nèi)存和計(jì)算開銷。一個(gè)簡(jiǎn)單的ResNet-18(具有18個(gè)卷積層的殘差卷積神經(jīng)網(wǎng)絡(luò))在每一輪訓(xùn)練過程中就有多達(dá)10.9 M(million)個(gè)參數(shù)需要訓(xùn)練,需要進(jìn)行的浮點(diǎn)數(shù)運(yùn)算(FLOP)次數(shù)多,對(duì)硬件設(shè)備要求高。這限制了深度學(xué)習(xí)方法應(yīng)用于移動(dòng)終端、低算力的邊緣計(jì)算設(shè)備等領(lǐng)域的可能性。
剪枝(pruning)是常用的削減卷積神經(jīng)網(wǎng)絡(luò)體量的方法之一[12-13]。雖然神經(jīng)網(wǎng)絡(luò)的性能和參數(shù)數(shù)量有關(guān),但并非所有的分支和對(duì)應(yīng)的參數(shù)都做出相同貢獻(xiàn),很多訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)是過參數(shù)的[14]。通過對(duì)冗余的參數(shù)進(jìn)行修剪,可以在只保留部分重要網(wǎng)絡(luò)結(jié)構(gòu)的前提下保證準(zhǔn)確率。已有少數(shù)工作把遷移和剪枝結(jié)合起來,以進(jìn)一步減少開銷和縮減網(wǎng)絡(luò)體量[15-16]。2019年,F(xiàn)rankle 和 Carbin提出了彩票假設(shè)(lottery ticket hypothesis)[17],該方法可以尋找原始網(wǎng)絡(luò)中最富代表性的子網(wǎng)絡(luò)、該稀疏子網(wǎng)絡(luò)重新訓(xùn)練后可以達(dá)到和原始任務(wù)相當(dāng)?shù)男阅芡瑫r(shí),最少可以僅保留原始參數(shù)量的5%~10%,這為遷移學(xué)習(xí)帶來了新的方向。顯而易見的,既然所有的網(wǎng)絡(luò)權(quán)重并非做出相等的貢獻(xiàn),如果能夠只遷移那些最重要的部分,就能大幅壓縮需要訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),從而實(shí)現(xiàn)一個(gè)準(zhǔn)確率高而且更加精煉的可遷移稀疏子網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)省開銷的同時(shí),使得任務(wù)更容易擴(kuò)展到邊緣計(jì)算等新興領(lǐng)域,更容易適應(yīng)實(shí)際生產(chǎn)和應(yīng)用中的需求。
基于彩票假設(shè),提出了一種稀疏子網(wǎng)絡(luò)遷移學(xué)習(xí),并嘗試應(yīng)用其解決植株病蟲害圖像識(shí)別的實(shí)際問題。首先,提出稀疏彩票遷移假設(shè),將彩票假設(shè)擴(kuò)展到深度遷移學(xué)習(xí)中,驗(yàn)證可以找到這樣可遷移的稀疏子網(wǎng)絡(luò)結(jié)構(gòu),在標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證可遷移性;隨后,應(yīng)用植株病蟲害數(shù)據(jù)集,對(duì)稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練,探索在實(shí)際問題上的應(yīng)用;最后,通過實(shí)驗(yàn)驗(yàn)證,使用該方法進(jìn)行訓(xùn)練的網(wǎng)絡(luò)在保留遷移學(xué)習(xí)對(duì)現(xiàn)有知識(shí)利用的優(yōu)勢(shì)同時(shí),可以使用更加精簡(jiǎn)的網(wǎng)絡(luò)架構(gòu)和更少的參數(shù)完成相當(dāng)(甚至更高的)的識(shí)別準(zhǔn)確率。
彩票假設(shè)(lottery ticket hypothesis)于2019年由Frankle和Carbin提出。其內(nèi)容是:對(duì)于一個(gè)前饋神經(jīng)網(wǎng)絡(luò),存在一個(gè)隱含的、可以重新訓(xùn)練的最優(yōu)稀疏子網(wǎng)絡(luò)結(jié)構(gòu),僅通過從零開始重新訓(xùn)練該稀疏子網(wǎng)絡(luò)即可獲得和原始稠密網(wǎng)絡(luò)相同的精確度,且迭代次數(shù)不超過原始網(wǎng)絡(luò)。該子網(wǎng)絡(luò)在整個(gè)網(wǎng)絡(luò)被隨機(jī)初始化時(shí)產(chǎn)生,并且可以簡(jiǎn)單地由非結(jié)構(gòu)化剪枝算法得到。Frankle和Carbin在最初的研究中發(fā)現(xiàn),只有當(dāng)使用原始網(wǎng)絡(luò)的初始化參數(shù)重新訓(xùn)練時(shí),該子網(wǎng)絡(luò)才能獲得更好的性能,用新的權(quán)重進(jìn)行隨機(jī)初始化則會(huì)導(dǎo)致效果不佳。換言之,剪枝的特定組合在原始網(wǎng)絡(luò)中找到了一個(gè)幸運(yùn)的被初始化成最佳形態(tài)的子網(wǎng)絡(luò),該子網(wǎng)絡(luò)因此被命名為“彩票子網(wǎng)絡(luò)”。原作者討論了彩票子網(wǎng)絡(luò)是否與所訓(xùn)練的任務(wù)結(jié)構(gòu)相關(guān),以及得到的子網(wǎng)絡(luò)是否總是能夠在任務(wù)之間進(jìn)行遷移,目前還沒有定論。筆者討論并驗(yàn)證該假設(shè)在圖像分類任務(wù)中不同數(shù)據(jù)集間遷移的可行性,探索彩票假設(shè)在遷移學(xué)習(xí)中的應(yīng)用。
原始彩票假設(shè)的形式化定義如下:對(duì)于一個(gè)神經(jīng)網(wǎng)絡(luò)f(x;θ),定義其初始化參數(shù)為θi。在網(wǎng)絡(luò)的訓(xùn)練優(yōu)化過程中,經(jīng)過j次迭代,f取得最低的代價(jià)函數(shù)損失l,此時(shí)網(wǎng)絡(luò)在當(dāng)前任務(wù)上達(dá)到α%的準(zhǔn)確率。存在這樣的子網(wǎng)絡(luò)f(x;m⊙θi),m∈{0,1},當(dāng)其代價(jià)函數(shù)最低時(shí),滿足迭代次數(shù)j′≤j且準(zhǔn)確率α′≥α,稱這樣的網(wǎng)絡(luò)為一個(gè)彩票子網(wǎng)絡(luò)。
所有的彩票子網(wǎng)絡(luò)都可以通過非結(jié)構(gòu)化剪枝得到,并且可以重新訓(xùn)練。當(dāng)使用原始網(wǎng)絡(luò)的參數(shù)θi進(jìn)行訓(xùn)練時(shí),子網(wǎng)絡(luò)的性能好于隨機(jī)初始化[17]。
基于彩票剪枝的稀疏子網(wǎng)絡(luò)遷移方法,該方法在應(yīng)用彩票假設(shè)尋找可訓(xùn)練稀疏子網(wǎng)絡(luò)的基礎(chǔ)上,將方法擴(kuò)展到深度遷移學(xué)習(xí),尋找一個(gè)可遷移的稀疏子網(wǎng)絡(luò),保留源域的重要信息并應(yīng)用其協(xié)助目標(biāo)域訓(xùn)練。首先,在源域上應(yīng)用彩票假設(shè),尋找最優(yōu)化的彩票子網(wǎng)絡(luò)結(jié)構(gòu);再將該網(wǎng)絡(luò)遷移至目標(biāo)域,嘗試僅使用目標(biāo)任務(wù)中的少量有標(biāo)簽數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),使之達(dá)到最優(yōu)。另外,在原始彩票剪枝算法的基礎(chǔ)上進(jìn)行改進(jìn),包括優(yōu)化其剪枝標(biāo)準(zhǔn)和子網(wǎng)絡(luò)的訓(xùn)練方法,從而進(jìn)一步提高最終得到網(wǎng)絡(luò)的精度。
深度遷移學(xué)習(xí)經(jīng)常應(yīng)用于將知識(shí)從源域遷移到目標(biāo)域,復(fù)用共享的知識(shí)并且根據(jù)目標(biāo)任務(wù)更新學(xué)習(xí)模型。其中,“域”定義為:D={χ,P(X)},包括特征空間χ以及邊緣分布概率分布P(X),X={x1,…,xn}∈χ;“任務(wù)”定義為T={y,f(x)},其中y代表標(biāo)簽空間,f(x)代表用于標(biāo)簽預(yù)測(cè)的目標(biāo)函數(shù)。在基于深度神經(jīng)網(wǎng)絡(luò)的任務(wù)中,可以用來反映神經(jīng)網(wǎng)絡(luò)的非線性損失函數(shù)。原始的彩票假設(shè)僅在當(dāng)前的目標(biāo)任務(wù)域DT上進(jìn)行。本方法結(jié)合深度遷移學(xué)習(xí),使用來自源域的信息輔助目標(biāo)域,從而同時(shí)大幅削減訓(xùn)練所需的有標(biāo)簽數(shù)據(jù)集和參數(shù)數(shù)量?jī)煞矫娴拈_銷,完成一個(gè)稀疏子網(wǎng)絡(luò)的遷移。因此,對(duì)于目標(biāo)域DT上的待解決的目標(biāo)任務(wù)TT,從選定的相對(duì)較大的源域DS上的現(xiàn)有任務(wù)TS尋求幫助,使用2個(gè)域的共同知識(shí)優(yōu)化目標(biāo)域的損失函數(shù)fT(x)。綜上所述,在基于彩票假設(shè)的遷移方法中,需要完成對(duì)目標(biāo)任務(wù)(DS,TS,DT,TT,f(x;m⊙θi),m∈{0,1})的最優(yōu)化工作。
給出稀疏彩票遷移假設(shè)的形式化定義:
使用神經(jīng)網(wǎng)絡(luò)f(x;θ)定義目標(biāo)域DT上的任務(wù)TT。在使用來自DT信息進(jìn)行訓(xùn)練優(yōu)化的過程中,經(jīng)過j次迭代,f取得最低的代價(jià)函數(shù)損失l,此時(shí)網(wǎng)絡(luò)達(dá)到α%的準(zhǔn)確率。定義源域DS的初始化參數(shù)為θs。存在這樣的子網(wǎng)絡(luò)f(x;m⊙θs),m∈{0,1},通過在源域任務(wù)TS上應(yīng)用彩票假設(shè)剪枝得到,當(dāng)其代價(jià)函數(shù)最低時(shí),在DT上仍能滿足迭代次數(shù)j′≤j且最終準(zhǔn)確率α′≥α。稱這樣的網(wǎng)絡(luò)為一個(gè)可以從源域遷移信息到目標(biāo)域的稀疏彩票子網(wǎng)絡(luò)。
改進(jìn)的基于彩票假設(shè)的稀疏子網(wǎng)絡(luò)遷移方法,其實(shí)施步驟如圖1所示。
圖1 基于彩票假設(shè)的稀疏子網(wǎng)絡(luò)遷移過程Fig.1 Process of lottery ticket-based sparse neural network transfer
首先,隨機(jī)初始化網(wǎng)絡(luò)參數(shù)θ。在使用非結(jié)構(gòu)化剪枝方法尋找彩票子網(wǎng)絡(luò)的過程中,為所有的參數(shù)約定一個(gè)初始化掩膜m(mask)和對(duì)應(yīng)的掩膜標(biāo)準(zhǔn)M,用于判斷并標(biāo)記剪枝操作后哪些權(quán)重將被保留。因此,可以將即將被遷移的原始網(wǎng)絡(luò)定義為f(x;m⊙θ)。
方法的具體實(shí)現(xiàn)步驟如下:
步驟1:在源域上隨機(jī)初始化網(wǎng)絡(luò),并且使用源域信息進(jìn)行訓(xùn)練直至其收斂,完成源任務(wù)的定義。該步驟嘗試通過對(duì)現(xiàn)有任務(wù)部分關(guān)鍵網(wǎng)絡(luò)結(jié)構(gòu)和對(duì)應(yīng)權(quán)重的復(fù)用實(shí)現(xiàn)知識(shí)遷移。因此當(dāng)源任務(wù)為其他領(lǐng)域已經(jīng)完成的工作,或者使用該領(lǐng)域富有代表性的海量通用數(shù)據(jù)集在高性能硬件設(shè)備上訓(xùn)練而來的已知網(wǎng)絡(luò)(ImageNet上訓(xùn)練的高質(zhì)量圖像數(shù)據(jù)集)時(shí),可以省略訓(xùn)練步驟,直接繼承源任務(wù)的權(quán)重和結(jié)構(gòu)。
步驟2:基于改進(jìn)后的彩票剪枝方法,在該網(wǎng)絡(luò)上應(yīng)用迭代的非結(jié)構(gòu)化剪枝算法,以尋找最優(yōu)的彩票子網(wǎng)絡(luò)。對(duì)于經(jīng)歷n次迭代的網(wǎng)絡(luò),記錄訓(xùn)練前的初始權(quán)重,表示為θi;訓(xùn)練完成后的權(quán)重表示為θn。此外,記錄訓(xùn)練開始后一段時(shí)間的權(quán)重,表示為θj(j 步驟3:在彩票剪枝算法運(yùn)行過程中,使用掩膜標(biāo)準(zhǔn)M對(duì)網(wǎng)絡(luò)中的每個(gè)權(quán)重進(jìn)行判斷。M可以視為對(duì)權(quán)重在神經(jīng)網(wǎng)絡(luò)中貢獻(xiàn)度的打分標(biāo)準(zhǔn),其定義如下 在網(wǎng)絡(luò)的每一層中,對(duì)于得分在前p%的權(quán)重,設(shè)置其掩膜m=1,表示將被保留;對(duì)于剩余的(100-p)%權(quán)重,其掩膜m將被設(shè)置為0,表示被剪去,并隨機(jī)破壞其連接。p代表保留權(quán)重的比例,將會(huì)影響剪枝的程度,可以根據(jù)具體的層數(shù)不同進(jìn)行分別定義。 步驟4:對(duì)于m=1的權(quán)重,使用θj重置其權(quán)重,準(zhǔn)備進(jìn)行下一步的訓(xùn)練;m=0的權(quán)重將被剪枝,這些被剪掉的權(quán)重在后續(xù)的訓(xùn)練中將被凍結(jié)(不參與訓(xùn)練)。與原始的彩票剪枝方法有所區(qū)別的是,只有當(dāng)即將被剪枝的權(quán)重在訓(xùn)練中的趨勢(shì)是趨近0時(shí),將其凍結(jié)為0;如果其趨勢(shì)是逐漸遠(yuǎn)離0,則將其凍結(jié)為初始權(quán)重。 步驟5:重復(fù)1—4的步驟,直到在源域上找到最優(yōu)的可遷移稀疏彩票子網(wǎng)絡(luò)f(x;m⊙θi)。 步驟6:在目標(biāo)域上,使用目標(biāo)任務(wù)的數(shù)據(jù)集對(duì)得到的子網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練,完成網(wǎng)絡(luò)的最優(yōu)化,從而完成遷移任務(wù)。在訓(xùn)練時(shí),使用θj初始化網(wǎng)絡(luò)中被保留的權(quán)重,被凍結(jié)的權(quán)重不參與訓(xùn)練。 此時(shí)得到的稀疏網(wǎng)絡(luò)繼承了來自源域的信息,并且能夠用于目標(biāo)域任務(wù),且需要訓(xùn)練的參數(shù)和訓(xùn)練用的真實(shí)數(shù)據(jù)集數(shù)量大幅減少。 相比原始的彩票假設(shè),為了將其應(yīng)用于遷移任務(wù)并且優(yōu)化其性能,在如下方面進(jìn)行改進(jìn): 1)原始的彩票假設(shè)僅能用于當(dāng)前域。則當(dāng)在目標(biāo)任務(wù)域上應(yīng)用彩票剪枝時(shí),按照原始的彩票假設(shè),應(yīng)該使用目標(biāo)任務(wù)上的初始權(quán)重作為子網(wǎng)絡(luò)的初始權(quán)重(而非隨機(jī)初始化網(wǎng)絡(luò))進(jìn)行訓(xùn)練,得到的子網(wǎng)絡(luò)才能盡快收斂并達(dá)到剪枝之前準(zhǔn)確率的水平。但在深度遷移學(xué)習(xí)中,顯而易見的,如果使用目標(biāo)任務(wù)上的初始權(quán)重,源域獲得的知識(shí)將會(huì)丟失,相當(dāng)于使用一個(gè)隨機(jī)值開始訓(xùn)練,使源域上的訓(xùn)練沒有意義。因此,為了從源域遷移現(xiàn)有的知識(shí),本方法使用源域訓(xùn)練得到的權(quán)重對(duì)子網(wǎng)絡(luò)進(jìn)行初始化并應(yīng)用于目標(biāo)任務(wù),實(shí)現(xiàn)彩票網(wǎng)絡(luò)的遷移。 3)在原始彩票假設(shè)的剪枝方法中,在剪枝結(jié)束后,將會(huì)使用剪枝開始前的初始權(quán)重θi對(duì)被保留的權(quán)重進(jìn)行初始化。后續(xù)研究發(fā)現(xiàn),使用訓(xùn)練一段時(shí)間后的權(quán)重θj(j 4)在原始彩票假設(shè)的剪枝方法中,和其他的剪枝方法類似,被剪枝的權(quán)重在后續(xù)的訓(xùn)練中將被一概凍結(jié)為0。一般認(rèn)為可以這么做的理由是這些權(quán)重在網(wǎng)絡(luò)中貢獻(xiàn)較少,屬于不重要的分支。這些權(quán)重應(yīng)該可以被設(shè)定成任意值——而不是特定的0值——而不會(huì)影響網(wǎng)絡(luò)的最終效果。實(shí)驗(yàn)中發(fā)現(xiàn),和晚重置方法類似,通過剪枝方法將特定權(quán)重凍結(jié)之所以有效,是因?yàn)樗鼈冊(cè)谝欢ǔ潭壬戏从沉藱?quán)重在訓(xùn)練中的變化趨勢(shì)。凍結(jié)為0的操作約等于令那些隨著訓(xùn)練會(huì)越來越接近0的權(quán)重提前達(dá)到其近似的最終值。因此,在本文方法中,只有當(dāng)一個(gè)權(quán)重的變化趨勢(shì)是趨近0時(shí),將其凍結(jié)為0;當(dāng)其在訓(xùn)練中的變化趨勢(shì)是不斷遠(yuǎn)離0時(shí),將其凍結(jié)為初始的值。 首先使用標(biāo)準(zhǔn)數(shù)據(jù)集,對(duì)提出的稀疏彩票子網(wǎng)絡(luò)可遷移假設(shè)進(jìn)行驗(yàn)證。對(duì)源域上的任務(wù)進(jìn)行剪枝,找到最優(yōu)彩票子網(wǎng)絡(luò)后,在目標(biāo)域的數(shù)據(jù)集上應(yīng)用該子網(wǎng)絡(luò),與直接在目標(biāo)數(shù)據(jù)集上訓(xùn)練完整網(wǎng)絡(luò)得到的結(jié)果相比較,分別對(duì)比平均準(zhǔn)確率(ACC, accuracy)和需要訓(xùn)練的參數(shù)數(shù)量,以檢驗(yàn)該假設(shè)是否成立。 選擇多類別圖像分類問題,使用CIFAR-10[19]訓(xùn)練遷移任務(wù)的源域。CIFAR-10是一個(gè)被廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集,用于識(shí)別普適物體,常作為基準(zhǔn)對(duì)各種模型進(jìn)行有效性檢驗(yàn)。目標(biāo)數(shù)據(jù)集選擇smallNORB[20],它是LeCun等人拍攝的不同照明及擺放方式下的玩具模型灰度圖像的小尺寸版本,常用于對(duì)3D生成模型進(jìn)行測(cè)試。數(shù)據(jù)集的具體屬性如表1所示。由于目標(biāo)域上的圖像尺寸和通道與源域不同,在實(shí)驗(yàn)中,使用4單位的像素填充/裁剪,并且進(jìn)行通道轉(zhuǎn)換。 表1 數(shù)據(jù)集屬性Table 1 Properties of datasets 網(wǎng)絡(luò)架構(gòu)方面,選擇ResNet18模型。這是經(jīng)典深度殘差網(wǎng)絡(luò)ResNet架構(gòu)的18層版本,也被Frankle等應(yīng)用于驗(yàn)證原始的彩票假設(shè),使用和作者相同的配置[17]。其原始版本有多達(dá)10.9M(million)個(gè)卷積層參數(shù)需要訓(xùn)練。在剪枝過程中,只對(duì)卷積層進(jìn)行操作。在目標(biāo)域上對(duì)遷移的子網(wǎng)絡(luò)微調(diào)使之最優(yōu)化時(shí),按照遷移學(xué)習(xí)中常用的方法,凍結(jié)卷積層的權(quán)重,只微調(diào)全連接層。實(shí)驗(yàn)使用3種不同的初始化方式初始化彩票子網(wǎng)絡(luò):晚重置方法,原始彩票假設(shè)中的方法,以及隨機(jī)初始化。 實(shí)驗(yàn)中的其他參數(shù)設(shè)定如下:應(yīng)用隨機(jī)梯度下降(SGD)進(jìn)行優(yōu)化,參數(shù)(5e-3,1e-3,1e-4);基礎(chǔ)學(xué)習(xí)率0.01;動(dòng)量參數(shù)momentum=0.9;權(quán)值衰減率decay=1e-4。在每一輪剪枝中,剪掉當(dāng)前參數(shù)的20%,總共進(jìn)行10輪迭代剪枝,批處理大小為128,最大迭代次數(shù)為30 000,每輪中最多進(jìn)行50次遍歷。實(shí)驗(yàn)全部在Dell PowerEdge R740(Silver 4110 2.1 GHz-8cores-16threads*2 NVIDIA Tesla M60*2 128G)服務(wù)器上運(yùn)行。 經(jīng)過在源域CIFAR-10上的訓(xùn)練后,網(wǎng)絡(luò)在測(cè)試集上取得89.43%的準(zhǔn)確率。彩票剪枝可以在保證準(zhǔn)確率的前提下大幅削減所需訓(xùn)練的參數(shù)數(shù)量,剪枝后只保留原始參數(shù)的10%時(shí),仍具有89.24%的準(zhǔn)確率。對(duì)于目標(biāo)域數(shù)據(jù)smallNORB,當(dāng)從頭訓(xùn)練同樣的稠密網(wǎng)絡(luò)時(shí),準(zhǔn)確率為89.9%。為了尋找最適合遷移的稀疏子網(wǎng)絡(luò)大小,將不同剪枝程度下每一輪產(chǎn)生的最優(yōu)子網(wǎng)絡(luò)分別遷移至目標(biāo)域,按照研究提出的稀疏彩票遷移假設(shè)進(jìn)行訓(xùn)練,并對(duì)結(jié)果進(jìn)行對(duì)比。 實(shí)驗(yàn)結(jié)果如圖2所示。 圖2 彩票遷移在標(biāo)準(zhǔn)數(shù)據(jù)集上的結(jié)果Fig. 2 experimental results of lottery ticket-based transfer on benchmark datasets 可以發(fā)現(xiàn),對(duì)源域剪枝得到的稀疏網(wǎng)絡(luò)可以用于目標(biāo)任務(wù)。在大幅節(jié)省參數(shù)訓(xùn)練開銷的同時(shí),總體精度能保持在剪枝前附近,實(shí)現(xiàn)了稀疏子網(wǎng)絡(luò)的遷移。并且當(dāng)進(jìn)行適當(dāng)剪枝時(shí),可以取得比直接訓(xùn)練稠密網(wǎng)絡(luò)更好的性能。相比原始彩票假設(shè)中的初始化方法和隨機(jī)初始化方法,改進(jìn)的方法能更有效實(shí)現(xiàn)稀疏子網(wǎng)絡(luò)的遷移。 在實(shí)際應(yīng)用中,可以進(jìn)行更細(xì)粒度的剪枝,以逐步尋找用于遷移的最優(yōu)稀疏網(wǎng)絡(luò)。同時(shí),實(shí)驗(yàn)結(jié)果表明,當(dāng)進(jìn)行深度剪枝,即僅保留原始網(wǎng)絡(luò)10%參數(shù)時(shí),其精度損失也可以接受。當(dāng)目標(biāo)任務(wù)可以接受性能的微弱損失時(shí),這為深度計(jì)算方法在移動(dòng)智能設(shè)備或者低算力的邊緣計(jì)算設(shè)備上的推廣提供了可能性??傮w而言,通過在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了提出的稀疏彩票可遷移假設(shè)的可行性。 應(yīng)用稀疏彩票遷移假設(shè)訓(xùn)練一個(gè)稀疏子網(wǎng)絡(luò),用于解決植株病蟲害的識(shí)別問題。具體的,對(duì)番茄葉片的常見病害進(jìn)行識(shí)別。使用在ImageNet上預(yù)訓(xùn)練完成的ResNet18模型作為源域網(wǎng)絡(luò),進(jìn)行15輪迭代剪枝,最少可以僅保留原始參數(shù)的3.6%。其它參數(shù)和實(shí)驗(yàn)設(shè)備設(shè)置與上一節(jié)相同。在目標(biāo)域上,使用PlantVillage數(shù)據(jù)集進(jìn)行訓(xùn)練。PlantVillage數(shù)據(jù)集是PlantVillage網(wǎng)站(https:∥www.plantvillage.org/en/plant_images)收集的14種農(nóng)作物、26類植株病蟲害的葉片(及其對(duì)應(yīng)的健康葉片)組成的開源圖像數(shù)據(jù)集。由于原始數(shù)據(jù)集中不同類別的樣本參差不齊,只選擇Tomato類,剔除樣本較少的類和質(zhì)量較差的圖片,再使用水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)手段,將每類的樣本大小調(diào)整到基本一致,共定義8類病害+1類健康葉片。同時(shí),圖像大小統(tǒng)一調(diào)整為64×64。數(shù)據(jù)集的具體屬性如表2所示。 表2 PlantVillage數(shù)據(jù)集屬性Table 2 Properties of PlantVillage dataset 實(shí)驗(yàn)結(jié)果如圖3所示。原始稠密網(wǎng)絡(luò)經(jīng)過訓(xùn)練,可以達(dá)到96.44%的準(zhǔn)確率。通過應(yīng)用稀疏彩票遷移假設(shè),分別獲得了一系列體量不同的稀疏子網(wǎng)絡(luò),識(shí)別準(zhǔn)確率最高可達(dá)97.69%,同時(shí)所需訓(xùn)練的參數(shù)數(shù)量大幅減少。在僅保留3.6%參數(shù)時(shí),仍可以達(dá)到93.16%的準(zhǔn)確率,為深度學(xué)習(xí)方法在低算力設(shè)備上的應(yīng)用提供了可能性,此時(shí)只需要訓(xùn)練406 495個(gè)參數(shù)(相比原始網(wǎng)絡(luò)的11 173 962個(gè));當(dāng)需要最佳性能時(shí),可以在最高準(zhǔn)確率附近通過更細(xì)粒度的剪枝進(jìn)一步尋找最優(yōu)子網(wǎng)絡(luò),此時(shí)所需訓(xùn)練的參數(shù)可能只有原始網(wǎng)絡(luò)的20%~50%,同時(shí)準(zhǔn)確率高于原始稠密網(wǎng)絡(luò)。 圖3 稀疏彩票遷移訓(xùn)練子網(wǎng)絡(luò)Fig. 3 Experimental results of lottery ticket-based transfer on Plant Village dataset 研究提出一種基于彩票假設(shè)的稀疏子網(wǎng)絡(luò)遷移方法,在借助源域知識(shí)遷移以減少訓(xùn)練對(duì)有標(biāo)簽數(shù)據(jù)樣本需求的同時(shí),可以大幅減少需要訓(xùn)練的參數(shù)數(shù)量并保持網(wǎng)絡(luò)精度,實(shí)現(xiàn)更加精簡(jiǎn)高效的深度遷移學(xué)習(xí)。在標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了應(yīng)用彩票假設(shè)剪枝得到的稀疏子網(wǎng)絡(luò)可遷移的假設(shè)。進(jìn)一步應(yīng)用該方法訓(xùn)練一個(gè)稀疏的深度網(wǎng)絡(luò),進(jìn)行番茄葉片病害的植株病蟲害識(shí)別工作,識(shí)別準(zhǔn)確率可達(dá)97.69%,且只需要訓(xùn)練原始參數(shù)的30%。 研究?jī)H驗(yàn)證了方法在ResNet網(wǎng)絡(luò)結(jié)構(gòu)上的可能性。該假設(shè)能否有效應(yīng)用于其他網(wǎng)絡(luò)結(jié)構(gòu),以及擴(kuò)展到目標(biāo)分類以外的任務(wù),將是下一步的研究方向。3 實(shí)驗(yàn)及分析
3.1 稀疏彩票遷移假設(shè)的驗(yàn)證
3.2 基于稀疏彩票遷移假設(shè)的植株病蟲害識(shí)別方法
4 結(jié) 論