亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙DDPG的全局自適應(yīng)濾波器剪枝方法

        2021-11-24 03:06:04王彩玲蔣國平
        關(guān)鍵詞:重要性方法模型

        王彩玲,王 炯,蔣國平

        (南京郵電大學(xué)自動化學(xué)院、人工智能學(xué)院,江蘇南京 210023)

        卷積神經(jīng)網(wǎng)絡(luò)憑借著卓越的性能表現(xiàn)在圖像分類[1]、目標(biāo)檢測[2-3]、語義分割[4]等計算機(jī)視覺任務(wù)中得到了廣泛的應(yīng)用。然而這些具有卓越性能的深度神經(jīng)網(wǎng)絡(luò)模型往往需要更高的算力開銷和更大的內(nèi)存空間,因此很難部署在算力和內(nèi)存資源受限的移動和穿戴設(shè)備上,這極大地限制了其實際應(yīng)用。為了將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于實際,研究人員開始把更多的目光聚集于深度網(wǎng)絡(luò)模型壓縮方法的研究。最近被證實這些深度神經(jīng)網(wǎng)絡(luò)通常都是過參數(shù)化的[5]。在刪除那些過渡參數(shù)化模型中的部分權(quán)值、激勵或者層的情況下,并不會引起網(wǎng)絡(luò)模型性能的顯著下降[6]。這使得在保證網(wǎng)絡(luò)性能良好的前提下,對網(wǎng)絡(luò)模型進(jìn)行壓縮成為可能。目前,眾多壓縮深度神經(jīng)網(wǎng)絡(luò)模型的方法被研究人員相繼提出。常用的 方法 有 網(wǎng)絡(luò) 剪 枝[7-9]、 低 秩分解[10]、 知識 蒸餾[11]、高效的神經(jīng)架構(gòu)[12]和參數(shù)量化[13]。

        剪枝,作為壓縮深度神經(jīng)網(wǎng)絡(luò)模型的主流方法之一,可以極大地減小內(nèi)存占用和推理運(yùn)算時間。在過去的十年內(nèi),激起了廣大研究者的興趣。剪枝主要分為結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝。非結(jié)構(gòu)化剪枝是將不重要的權(quán)值設(shè)置為0,從而實現(xiàn)高稀疏性,但是稀疏操作需要專門的硬件或者軟件庫來加快推理過程,因此限制了非結(jié)構(gòu)化剪枝的應(yīng)用。結(jié)構(gòu)化剪枝則是移除原始網(wǎng)絡(luò)中不重要的濾波器(通道)。這種濾波器(通道)級別的剪枝只是對網(wǎng)絡(luò)模型的架構(gòu)進(jìn)行修改,并不會影響它的實際可用性。本文致力于通過濾波器剪枝來減少模型參數(shù)和加速模型運(yùn)算,為低內(nèi)存和低計算力的設(shè)備提供一個通用的策略。

        濾波器剪枝的核心是根據(jù)設(shè)計好的評價標(biāo)準(zhǔn),在保證網(wǎng)絡(luò)的性能不出現(xiàn)顯著下降的情況下,選擇并移除網(wǎng)絡(luò)模型中評價出的不重要濾波器。本文采用的是濾波器權(quán)值的信息熵作為該濾波器的重要性評價標(biāo)準(zhǔn)。濾波器的信息熵越大,則該濾波器對整個網(wǎng)絡(luò)而言越重要。

        為了獲得具有緊湊性的模型,大多數(shù)方法是根據(jù)研究者的經(jīng)驗對網(wǎng)絡(luò)模型的每一層使用固定的壓縮率進(jìn)行剪枝[6,9]。 然而,這種根據(jù)經(jīng)驗設(shè)置剪枝率的策略無法得到網(wǎng)絡(luò)模型的最優(yōu)結(jié)構(gòu)。LEGR[14]算法率先引入了全局剪枝的概念,通過遺傳進(jìn)化算法將濾波器在當(dāng)前層中的局部重要性轉(zhuǎn)化成在整個網(wǎng)絡(luò)模型中的全局重要性。但是該算法充滿了不確定性,學(xué)習(xí)出的結(jié)果并不一定是最優(yōu)的。為此本文提出基于雙DDPG算法學(xué)習(xí)全局重要性的概念,即利用兩個DDPG分別學(xué)習(xí)出該卷積層中的每一個濾波器在整個網(wǎng)絡(luò)中的全局規(guī)模系數(shù)和全局偏差系數(shù),從而實現(xiàn)全局重要性轉(zhuǎn)換。

        最近,對剪枝得到的網(wǎng)絡(luò)從頭開始訓(xùn)練的效果比微調(diào)的效果好[15]已被證實。為了進(jìn)一步提高剪枝后網(wǎng)絡(luò)的表達(dá)能力,本文采用基于網(wǎng)絡(luò)參數(shù)自適應(yīng)加權(quán)的多個相同網(wǎng)絡(luò)聯(lián)合并行訓(xùn)練。

        1 相關(guān)研究

        作為模型壓縮的主流方法之一,剪枝在一定程度上可以壓縮模型或者加速模型推理運(yùn)算。網(wǎng)絡(luò)剪枝的主要思想是在不損失太多性能的情況下,減少原始網(wǎng)絡(luò)中冗余的權(quán)值和連接,得到一個緊湊的網(wǎng)絡(luò)。剪枝一般可分為兩大類:權(quán)重剪枝和濾波器剪枝(也稱通道剪枝)。

        權(quán)重剪枝是Lecun等[8]在1990年首次提出的消除神經(jīng)網(wǎng)絡(luò)中不重要的權(quán)值參數(shù)的概念,并且提出了根據(jù)網(wǎng)絡(luò)參數(shù)的二階偏導(dǎo)值作為評價參數(shù)重要性的方法。 Li等[6]提出了一種基于l?1范數(shù)重要性準(zhǔn)則的剪枝方法,然后對剪枝后的網(wǎng)絡(luò)進(jìn)行微調(diào)以恢復(fù)性能。Guo等[7]引入了動態(tài)剪枝的概念,利用動態(tài)剪枝來降低網(wǎng)絡(luò)的復(fù)雜度,將剪枝融入到訓(xùn)練過程中,從而避免了錯誤剪枝。Aghasi等[16]則是設(shè)計了一個求解凸優(yōu)化的程序,在每一層尋找一個稀疏的權(quán)值集,刪除層中不重要的連接,同時保持了層的輸入和輸出與最初訓(xùn)練的模型一致。Liu等[17]根據(jù)卷積層中空間的相關(guān)性提出了一種頻域動態(tài)剪枝的方案。在每次迭代中對頻域系數(shù)進(jìn)行動態(tài)剪枝,并根據(jù)不同頻帶對精度的重要性,對不同頻帶進(jìn)行區(qū)分剪枝。

        權(quán)重剪枝是非結(jié)構(gòu)化的剪枝,往往會產(chǎn)生稀疏權(quán)值矩陣,如果沒有專門的軟件庫或者硬件進(jìn)行輔助處理是無法直接提高推理效率和減少內(nèi)存空間占用。

        濾波器(通道)剪枝是一種結(jié)構(gòu)化的剪枝,在濾波器(通道)或者層的級別上刪除冗余的權(quán)值。通道剪枝能減少網(wǎng)絡(luò)模型占用的存儲空間和降低其在線推理的計算量。 Li等[6]提出了基于l?1范數(shù)的判斷準(zhǔn)則,通過這種準(zhǔn)則識別出對輸出精度較小影響的濾波器,從而移除該濾波器及其連接的特征圖,減少了計算開銷。He等[18]采用的是從零開始訓(xùn)練和同時修剪模型的軟濾波器剪枝策略,可以有更大的容量用于訓(xùn)練數(shù)據(jù)的學(xué)習(xí)。Huang等[19]把剪枝作為一個優(yōu)化問題,引入了一種新的參數(shù)縮放因子來縮放特定結(jié)構(gòu)的輸出,然后把稀疏正則化加入到這些因子上,用隨機(jī)加速近端梯度(APG)方法求解該優(yōu)化問題。通過將一部分因子置為0,則可以移除相應(yīng)的結(jié)構(gòu)。Luo等[20]提出了一個高效統(tǒng)一的ThiNet框架,從下一層中提取相關(guān)信息去評判當(dāng)前層中每一個濾波器的重要性。訓(xùn)練階段和推理階段均在加速和壓縮CNN模型。Lin等[9]利用低秩的特征映射包含更少的信息和剪枝后的結(jié)果可以很容易地復(fù)制的特點,提出了一種基于高秩特征映射(HRank)的濾波器剪枝方法。從網(wǎng)絡(luò)架構(gòu)角度出發(fā),結(jié)構(gòu)剪枝的目的就是架構(gòu)最優(yōu)的子網(wǎng)絡(luò)。但是這些方法均是預(yù)先定義好的體系架構(gòu),即根據(jù)經(jīng)驗提前設(shè)置好每一層的剪枝率。這樣得到的模型架構(gòu)并不是最優(yōu)的模型架構(gòu),存在一定偏差。He等[21]率先提出了基于強(qiáng)化學(xué)習(xí)的AutoML壓縮策略對模型進(jìn)行壓縮。Lin等[22]把尋找最優(yōu)的剪枝結(jié)構(gòu)作為目標(biāo),提出一種基于人工蜂群算法(ABC)的通道剪枝方法。Chin等[14]提出一種學(xué)習(xí)全局重要性剪枝的概念,即把濾波器在卷積層中的局部重要性經(jīng)過遺傳進(jìn)化算法(EA算法)轉(zhuǎn)換成全局重要性,從網(wǎng)絡(luò)整體角度對每一層中的濾波器進(jìn)行剪枝。

        在訓(xùn)練過程中由于參數(shù)的減少,網(wǎng)絡(luò)模型通常收斂于局部最優(yōu)解。Liu等[15]表明,從零開始訓(xùn)練修剪后的模型也可以取得與微調(diào)相當(dāng)甚至更好的性能。

        雖然這些方法取得了一定的效果,但仍存在剪枝過程耗時較長、未充分移除模型中的冗余參數(shù)以及未完全恢復(fù)剪枝后模型的性能等不足之處。針對上述問題,提出了一種基于雙DDPG的全局自適應(yīng)濾波器剪枝方法?;陔p深度確定性策略梯度(DDPG)算法,從全局角度對網(wǎng)絡(luò)模型進(jìn)行準(zhǔn)確剪枝。在剪枝完成后進(jìn)行多網(wǎng)絡(luò)聯(lián)合訓(xùn)練,充分恢復(fù)網(wǎng)絡(luò)模型的性能。

        2 本文方法

        本文方法主要分為基于濾波器權(quán)值?信息熵的局部重要性、基于雙DDPG學(xué)習(xí)全局重要性的剪枝和基于權(quán)值自適應(yīng)加權(quán)的多個相同網(wǎng)絡(luò)聯(lián)合并行訓(xùn)練3個部分。前者是負(fù)責(zé)計算出每個濾波器在當(dāng)前卷積層中的信息熵,并作為其局部重要性得分。中間的做法是利用雙DDPG算法學(xué)習(xí)出深度網(wǎng)絡(luò)模型中每一個卷積層的全局規(guī)模系數(shù)和全局偏差系數(shù),結(jié)合局部重要性得分即可求出每一個濾波器的全局重要性得分。隨后根據(jù)濾波器的全局重要性得分大小進(jìn)行排序,并移除得分較小的濾波器。后者是一種新的訓(xùn)練方法,對剪枝后的模型進(jìn)行復(fù)制。對復(fù)制得到的多個相同子網(wǎng)絡(luò)采用不同的學(xué)習(xí)率和權(quán)值衰減同步并行訓(xùn)練。在訓(xùn)練過程中基于網(wǎng)絡(luò)模型中每個卷積層權(quán)值的信息熵對多網(wǎng)絡(luò)之間卷積層的權(quán)值自適應(yīng)加權(quán)融合。

        2.1 基于濾波器權(quán)值?信息熵的局部重要性

        基于啟發(fā)式方法評估權(quán)值重要性是目前常用的剪枝策略,如基于輸出特征映射的秩作為權(quán)值的重要性判斷標(biāo)準(zhǔn)[9]。

        熵是許多啟發(fā)式方法的起源。熵值越大,表明系統(tǒng)越混亂,網(wǎng)絡(luò)模型能從輸入圖像中提取出的信息也就越多[23]。即對于網(wǎng)絡(luò)模型中的濾波器(通道)而言,其權(quán)值的信息熵越小,在網(wǎng)絡(luò)中其重要性就越低。與濾波器權(quán)值的大小相比,濾波器權(quán)值的信息熵更能代表當(dāng)前濾波器的重要性[24]。

        假設(shè) Wi,j∈ RNi×K×K為第 i個卷積層中第 j個濾波器的權(quán)值,其中Ni表示該層的輸入通道數(shù),K×K表示濾波器中卷積核的大小。即當(dāng)Wi,j的信息熵較小時,該濾波器從輸入中提取出的信息量就越少,對網(wǎng)絡(luò)模型的作用也就越小,可判定該濾波器為冗余的。假設(shè)Wi,j的元素值都是從隨機(jī)變量X的分布中采樣,并使用信息熵來度量該分布。為了進(jìn)一步計算卷積層中濾波器的信息熵,把Wi,j中元素值的范圍均勻地分成N個區(qū)間,然后計算出每個區(qū)間的概率。最后,可以計算出該濾波器的信息熵為

        其中,pk表示第k個區(qū)間內(nèi)的元素個數(shù)占總元素個數(shù)的比值。

        假設(shè)i層有C個過濾器,那么第i層的總信息熵為

        式(1)和式(2)均是從單個濾波器角度出發(fā)計算濾波器和卷積層的信息熵,卻忽略了層中濾波器與濾波器之間的相關(guān)性。于是從層的角度計算信息熵,則網(wǎng)絡(luò)模型第i層的信息熵為

        假設(shè)Ii,j為卷積神經(jīng)網(wǎng)絡(luò)模型第i層中第j個濾波器的局部重要性,即

        2.2 基于雙DDPG學(xué)習(xí)全局重要性的剪枝

        結(jié)構(gòu)化的濾波器剪枝方法通??梢员硎緸?/p>

        其中,L表示損失函數(shù),N和W分別表示神經(jīng)網(wǎng)絡(luò)模型及其參數(shù),ri表示第i層的剪枝率。假設(shè)ci表示模型N中第i個濾波器個數(shù),c′i表示剪枝后模型N′中第i個濾波器個數(shù),即

        大多數(shù)剪枝方法都是根據(jù)經(jīng)驗,固定每一層的剪枝率ri。 LEGR[14]中率先提出了學(xué)習(xí)全局重要性剪枝的概念,即利用遺傳進(jìn)化算法計算出每一層對應(yīng)的全局規(guī)模系數(shù)α和全局偏差系數(shù)κ。 其中 α ∈RL,κ ∈RL。 但是其采用的遺傳進(jìn)化算法迭代時間較久,且不能保證找到最優(yōu)解。設(shè)αi和κi分別表示第i層的全局重要性規(guī)模系數(shù)和全局偏差系數(shù)。為了快速而又準(zhǔn)確地計算出每一層的 αi和 κi,本文提出了一種基于雙DDPG的學(xué)習(xí)全局重要性剪枝算法。算法流程如圖1所示。

        圖1 基于雙DDPG的學(xué)習(xí)全局重要性剪枝算法流程圖

        首先把網(wǎng)絡(luò)模型N的每一層的信息熵集合H={E(W1),…,E(WL)} 作為 DDPG1和 DDPG2的初始化輸入s10和s20。 把DDPG1和DDPG2的第t次迭代的輸出a1t和a2t作為網(wǎng)絡(luò)模型N的全局規(guī)模系數(shù)α和全局偏差系數(shù)κ。 即

        即對于每一層,根據(jù)其αi和κi,可以計算出每一層中濾波器的全局重要性即

        然后基于全局重要性進(jìn)行排名,根據(jù)設(shè)置的剪枝率求出相應(yīng)的閾值t,即

        其中r表示對整個網(wǎng)絡(luò)模型的目標(biāo)剪枝率。由閾值t即可求出, 即

        結(jié)合式(6)和(10)可以得到每一層的剪枝率 (r1,r2,…,rL)。 剪枝過程如圖2所示。

        圖2 全局剪枝過程

        把剪枝后得到的子網(wǎng)絡(luò)模型 N′的準(zhǔn)確度Acc(N′)作為反饋約束 reward返回給 DDPG1和DDPG2。

        DDPG:采用DDPG的目的是尋找出連續(xù)變動空間中的最優(yōu)值(最優(yōu)的α和κ)。 DDPG的結(jié)構(gòu)如圖3所示。

        圖3 DDPG代理結(jié)構(gòu)

        本文策略與 AGMC[25]和 AMC[21]相似,采用截斷式正態(tài)分布進(jìn)行噪聲處理

        用損失函數(shù)更新DDPG代理

        其中rt=reward=Acc(N′)為反饋約束。

        Env:模擬環(huán)境,根據(jù)當(dāng)前的st和at生成下一個狀態(tài)的 st+1, 即

        其更新策略采用的是相應(yīng)DDPG代理中Actor optimizer的更新策略。

        2.3 基于權(quán)值自適應(yīng)加權(quán)的多個相同網(wǎng)絡(luò)聯(lián)合并行訓(xùn)練

        剪枝后的模型由于網(wǎng)絡(luò)參數(shù)的減少,在訓(xùn)練過程中極易陷入局部最優(yōu)解。為此采用了嫁接[26]的策略,即對得到的最優(yōu)子網(wǎng)絡(luò)進(jìn)行基于權(quán)值自適應(yīng)加權(quán)的多個相同網(wǎng)絡(luò)聯(lián)合并行訓(xùn)練。

        首先對剪枝得到的子網(wǎng)絡(luò)進(jìn)行復(fù)制,然后對復(fù)制得到的多個子網(wǎng)絡(luò)采用不同的學(xué)習(xí)率和權(quán)重衰減率同時進(jìn)行訓(xùn)練。當(dāng)所有子網(wǎng)絡(luò)使用訓(xùn)練樣本完成一輪迭代之后進(jìn)行一次網(wǎng)絡(luò)之間權(quán)值自適應(yīng)加權(quán),過程如圖4所示。

        圖4 多個相同網(wǎng)絡(luò)權(quán)值自適應(yīng)加權(quán)過程

        假設(shè)W1i為模型N1′的第i層的權(quán)重參數(shù),W2i為模型N2′的第i層的權(quán)重參數(shù),則加權(quán)融合后模型N2′的第i層的權(quán)重參數(shù)為

        其中β(0<β<1)為自適應(yīng)加權(quán)融合參數(shù),即

        其中A和c為超參數(shù)。

        最后,訓(xùn)練完成之后,從多個相同網(wǎng)絡(luò)模型中選取性能最優(yōu)的子網(wǎng)絡(luò)模型。

        3 實驗與分析

        為了分析和驗證本文所提方法的有效性,在CIFAR10、CIFAR100 和 ILSVRC?2012 ImageNet標(biāo)準(zhǔn)分類數(shù)據(jù)集上對幾種常用的卷積神經(jīng)網(wǎng)絡(luò)模型(VGG16,ResNet56,MobileNetV2,ResNet50)進(jìn)行實驗。其中 CIFAR10和 CIFAR100數(shù)據(jù)集,包含50 000張訓(xùn)練圖像和10 000張測試圖像。CIFAR10數(shù)據(jù)集中圖像類別為10類,CIFAR100數(shù)據(jù)集中圖像類別為100類。ILSVRC?2012 ImageNet是規(guī)模龐大的數(shù)據(jù)集,其中包含128萬張訓(xùn)練圖像和5萬張驗證圖像,圖像類別為1 000類。

        3.1 實驗環(huán)境

        深度學(xué)習(xí)框架為Pytroch,操作系統(tǒng)為Ubuntu 18.04,CPU 為 Intel@Veon(R) E5?1640 v4,運(yùn)行內(nèi)存為 8 GB,GPU 為 NVIDIA GeForce GTX2080Ti,GPU顯存為11 GB。

        3.2 性能指標(biāo)

        浮點運(yùn)算量(Float Points Operations, FLOPs),表示運(yùn)行該模型需要的浮點數(shù)運(yùn)算量。此外對于CIFAR10、CIFAR100 和 ILSVRC?2012 ImageNet數(shù)據(jù)集均采用Top?1的分類預(yù)測準(zhǔn)確度作為網(wǎng)絡(luò)模型的性能指標(biāo)。

        3.3 CIFAR?10/100 實驗設(shè)置

        在CIFAR?10/100數(shù)據(jù)集上,通過隨機(jī)裁剪、隨機(jī)拉伸和隨機(jī)旋轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng),把輸入圖像的尺寸大小統(tǒng)一為32?32?3。在利用雙DDPG算法學(xué)習(xí)全局規(guī)模系數(shù)和全局偏差系數(shù)過程中,epoch為300。在多個相同網(wǎng)絡(luò)并行訓(xùn)練過程中,優(yōu)化器是隨機(jī)梯度下降和梯度集中[27],epoch為 90,余弦退火調(diào)整學(xué)習(xí)率,每一子網(wǎng)絡(luò)的初始學(xué)習(xí)率從[0.1,0.01]區(qū)間內(nèi)隨機(jī)取值,權(quán)重衰減率從[1e-4,2e-3]區(qū)間內(nèi)隨機(jī)取值,c=600,A=0.2。

        3.4 ILSVRC?2012 ImageNet實驗設(shè)置

        在ILSVRC?2012 ImageNet數(shù)據(jù)集上,輸入圖像的尺寸大小統(tǒng)一為224?224?3。數(shù)據(jù)增強(qiáng)方法與CIFAR?10/100數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)方法相同。在利用雙DDPG學(xué)習(xí)網(wǎng)絡(luò)模型每一個卷積層的全局規(guī)模系數(shù)和全局偏差系數(shù)中,epoch為300。在多個相同網(wǎng)絡(luò)并行訓(xùn)練過程中,優(yōu)化器是隨機(jī)梯度下降和梯度集中[27],epoch為 60,學(xué)習(xí)率的調(diào)整策略為余弦退火,每一子網(wǎng)絡(luò)的初始學(xué)習(xí)率從[0.1,0.01]區(qū)間內(nèi)隨機(jī)取值,權(quán)重衰減率從[1e-4,1e-3]區(qū)間內(nèi)隨機(jī)取值,c=500,A=0.3。

        3.5 實驗結(jié)果與分析

        3.5.1 CIFAR10數(shù)據(jù)集

        為了驗證本文所提方法的通用性和有效性,本文對主流的深度神經(jīng)網(wǎng)絡(luò)模型 ResNet56、VGG16、MobileNetV2進(jìn)行結(jié)構(gòu)化剪枝,并與現(xiàn)有的先進(jìn)方法PF[6]、 HRank[9]、 GAL[28]、 AMC[21]、 DCP[29]、LEGR[14]、ABC[22]、MDP[30]、SSS[19]進(jìn)行對比,證明本文提出方法的有效性。結(jié)果如表1所示。

        對于ResNet56網(wǎng)絡(luò)而言,該網(wǎng)絡(luò)模型由殘差模塊組成,其包含55個卷積層。從表1可以看出,該方法得到的剪枝后的模型在FLOPs小于其他方法的情況下,網(wǎng)絡(luò)模型性能明顯優(yōu)于其他方法。最后還統(tǒng)計了剪枝后網(wǎng)絡(luò)模型中各個卷積層的剪枝率,如圖5所示。

        圖5 在CIFAR10數(shù)據(jù)集上ResNet56每一層的剪枝率

        對于VGG16網(wǎng)絡(luò)而言,該網(wǎng)絡(luò)模型包含3個全連接卷積層和13個順序卷積層。如表1所示,HRank方法在FLOPs降至73.7 M時,在CIFAR10測試數(shù)據(jù)集上的分類準(zhǔn)確度為91.23%。而該方法在FLOPs降至78 M時,在CIFAR10測試數(shù)據(jù)集上的分類準(zhǔn)確度為92.34%。

        表1 不同剪枝方法在CIFAR10數(shù)據(jù)集上的對比結(jié)果

        MobileNetV2是緊湊型網(wǎng)絡(luò),結(jié)構(gòu)為基于分離卷積的倒置殘差結(jié)構(gòu)。網(wǎng)絡(luò)模型中包含52個卷積層。由于MobileNetV2的計算成本極小,對其進(jìn)行剪枝是一件極具挑戰(zhàn)性的任務(wù)。盡管如此,本文所提出的方法是在減少30%FLOPs的條件下,通過相同多網(wǎng)絡(luò)并行訓(xùn)練使得模型的精度增至96.09%。本文方法的效果明顯優(yōu)于所對比的幾種先進(jìn)方法。

        3.5.2 CIFAR100數(shù)據(jù)集

        在CIFAR100數(shù)據(jù)集上對ResNet56網(wǎng)絡(luò)進(jìn)行剪枝,并與具有先進(jìn)代表性的方法 AMC[21]、LEGR?EA[14]以及 SFP[18]進(jìn)行對比,如表 2 所示。由表2可以看出,通過本文的方法把標(biāo)準(zhǔn)的ResNet56網(wǎng)絡(luò)的FLOPs降至63.8 M時,網(wǎng)絡(luò)的性能只降低了0.68%。并且通過定量對比,發(fā)現(xiàn)該方法依舊優(yōu)于所對比的主流方法。圖6為剪枝后網(wǎng)絡(luò)模型中各個卷積層的剪枝率。通過對比圖5和圖6,發(fā)現(xiàn)對于同一個網(wǎng)絡(luò),在FLOPs相近似的情況下,基于不同的數(shù)據(jù)集,每一層的剪枝率是不相同的。

        表2 不同剪枝方法在CIFAR100數(shù)據(jù)集上的對比結(jié)果

        圖6 CIFAR100數(shù)據(jù)集上ResNet56每一層的剪枝率

        3.5.3 ImageNet數(shù)據(jù)集

        表3為本文提出的剪枝方法與 HRank[9]、ThiNet?30[20]、MetaPruning[31]、ABC[22]等現(xiàn)有先進(jìn)算法在大規(guī)模數(shù)據(jù)集ImageNet上的實驗結(jié)果。模型的FLOPs由4.136 G減少至0.927 G,模型精度則減少至70.73%。通過表3可以看出該方法在大規(guī)模數(shù)據(jù)集上面的表現(xiàn)仍然優(yōu)于現(xiàn)有的先進(jìn)方法。

        表3 不同剪枝方法在ImageNet數(shù)據(jù)集上的對比結(jié)果

        4 結(jié)束語

        本文提出了一種基于雙DDPG的全局自適應(yīng)濾波器剪枝方法。首先計算出濾波器權(quán)值的信息熵,并作為該濾波器在當(dāng)前層中的局部重要性得分。接著,基于雙DDPG算法學(xué)習(xí)出每一層的全局規(guī)模系數(shù)和全局偏差系數(shù),從而計算出卷積層中每個濾波器的全局重要性得分。根據(jù)全局重要性得分進(jìn)行剪枝,得到結(jié)構(gòu)最優(yōu)的子網(wǎng)絡(luò)。最后為了恢復(fù)剪枝后得到子網(wǎng)絡(luò)的性能,采用了基于權(quán)值自適應(yīng)加權(quán)的多個相同網(wǎng)絡(luò)聯(lián)合并行訓(xùn)練。實驗結(jié)果表明,本文提出的方法在保證網(wǎng)絡(luò)性能良好的同時,能夠有效減少模型浮點計算量。在一些數(shù)據(jù)集上,子網(wǎng)絡(luò)模型的性能表現(xiàn)甚至超過了原始網(wǎng)絡(luò)模型。同時,通過該方法得到的剪枝后的模型具有較強(qiáng)的易用性,不需要特殊的硬件或軟件庫進(jìn)行輔助,可以輕松地部署在可移動設(shè)備上或者移植到下游的計算機(jī)視覺任務(wù)中。下一步將嘗試把模型剪枝與其他模型壓縮方法(如量化、神經(jīng)架構(gòu)搜索)相結(jié)合。

        猜你喜歡
        重要性方法模型
        一半模型
        “0”的重要性
        論七分飽之重要性
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        讀《邊疆的重要性》有感
        好男人社区影院www| 中文字幕精品乱码一区| av在线播放中文专区| 亚洲中文字幕久久精品蜜桃| 亚洲av日韩av高潮潮喷无码| 国产精品刮毛| 国产av一区二区三区日韩 | 国产精品白浆免费观看| 久久综合精品国产丝袜长腿| 18精品久久久无码午夜福利| 内射后入在线观看一区| 久久久精品中文无码字幕| 五月激情四射开心久久久| 少妇性bbb搡bbb爽爽爽| 18禁美女裸体网站无遮挡| 久久精品有码中文字幕1| 亚洲伊人av天堂有码在线| 亚洲妇女无套内射精| 最新国产拍偷乱偷精品| 中文字幕精品亚洲一区二区三区 | 国语自产精品视频在线看| 日本高清www无色夜在线视频| 四虎影视国产884a精品亚洲| 国产一区二区资源在线观看| 日韩av无码一区二区三区不卡| 亚洲欧美精品aaaaaa片| 国产男女乱婬真视频免费| av在线免费观看大全| 国产精品激情| 国产亚洲精久久久久久无码苍井空| 91精品啪在线观看国产色| 亚洲乱码无人区卡1卡2卡3| 囯产精品一品二区三区| 亚洲av午夜成人片精品| 亚州中文热码在线视频| 曰韩亚洲av人人夜夜澡人人爽| 国产成人精品三级麻豆| 麻豆国产成人av高清在线| 国产精品免费无遮挡无码永久视频 | 久久精品性无码一区二区爱爱| 91中文在线九色视频|