亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自動(dòng)修補(bǔ)策略的網(wǎng)絡(luò)剪枝

        2022-02-17 05:59:20蘇啟航錢燁強(qiáng)王春香
        模式識別與人工智能 2022年1期
        關(guān)鍵詞:每層剪枝變異

        蘇啟航 錢燁強(qiáng) 袁 偉 楊 明 王春香

        深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)已廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)中,如圖像分類[1]、目標(biāo)檢測[2]、語義分割[3]等.但是,DNN計(jì)算資源需求較大、功耗較高,導(dǎo)致其在智能駕駛系統(tǒng)、移動(dòng)設(shè)備處理等場景中應(yīng)用受限.為了減少內(nèi)存占用和加快推理時(shí)間,研究者們提出許多壓縮策略,主要分為權(quán)值量化[4]、知識蒸餾[5]、低秩分解[6]、剪枝[7].

        剪枝作為一種加速預(yù)訓(xùn)練較大模型的方法,可進(jìn)一步分為非結(jié)構(gòu)化剪枝[8]和結(jié)構(gòu)化剪枝[9].結(jié)構(gòu)化剪枝可簡化為2個(gè)問題:1)如何判斷是否應(yīng)該剪去一個(gè)指定的卷積核;2)確定每層中應(yīng)該剪去多少個(gè)卷積核.現(xiàn)有的剪枝方法試圖最大限度地壓縮網(wǎng)絡(luò)而不造成太大的精度損失,大多數(shù)遵循相同流程:訓(xùn)練、剪枝、微調(diào).

        對于問題1),通常使用人工規(guī)則選擇不重要的卷積核并將其剪去,剪枝過程方便快捷.一個(gè)典型的剪枝思想是:如果網(wǎng)絡(luò)中某個(gè)對象的值足夠小,就可對其進(jìn)行剪枝.這里的對象可是卷積核的L1范數(shù)[10]、批量歸一化層(Batch Normalization, BN)的比例因子[7]、輸出特征圖的重構(gòu)誤差[11]、網(wǎng)絡(luò)掩膜的值[12-13]、下一層輸出特征圖的變化[14]等.同時(shí),也有一些關(guān)于“越小越不重要”思想的正確性討論[15-16].另一個(gè)思想是刪減冗余的卷積核.冗余卷積核中包含的信息或知識可被其它卷積核替代.例如,一層中兩個(gè)權(quán)重完全相同的卷積核可被認(rèn)為是冗余的.在此基礎(chǔ)上,Ding等[17]研究卷積核之間的相似性評價(jià)方法.更進(jìn)一步,He等[15]利用幾何中值選擇冗余卷積核,Lin等[18]將低秩特征圖定義為冗余通道.實(shí)際上,不論“小”思想和“冗余”思想,都是一種選擇網(wǎng)絡(luò)保留參數(shù)的策略.

        對于問題2),其目標(biāo)等價(jià)于尋找最佳剪枝網(wǎng)絡(luò)子結(jié)構(gòu).最簡單的方法是使用預(yù)定義的剪枝率,直接確定每層中應(yīng)剪去多少個(gè)卷積核[11,14-15,18-19].常用方法是以相同比率修剪每層.然而,剪枝得到的網(wǎng)絡(luò)可能不是最佳的子結(jié)構(gòu).方法2)是使用迭代剪枝[10]逐層確定最優(yōu)剪枝率.這種策略通常耗時(shí)較長,并未充分研究外層間的剪枝順序.方法3)是使用全局閾值[7,20],可自動(dòng)確定每層中剪去的卷積核數(shù)量.該策略的問題是全局閾值對每層是否公平.方法4)是給網(wǎng)絡(luò)添加一個(gè)附屬掩膜[12-13],通過掩膜值確定待剪的卷積核.在訓(xùn)練時(shí),這些掩膜通常與網(wǎng)絡(luò)參數(shù)一起學(xué)習(xí).Lin等[12]交替更新掩膜和網(wǎng)絡(luò)參數(shù),獲得近似解.Huang等[13]利用正則化方法,使掩膜的某些值趨于0.然而,這種策略存在掩膜參數(shù)和網(wǎng)絡(luò)參數(shù)數(shù)量不平衡的問題.方法5)是使用網(wǎng)絡(luò)架構(gòu)搜索[9,21].受Liu等[22]工作的影響,減少剪枝任務(wù)與神經(jīng)架構(gòu)搜索(Neural Architecture Search, NAS)任務(wù)之間的差異.利用基于遺傳算法[23]和強(qiáng)化學(xué)習(xí)[24]的搜索策略,NAS可更公平地確定每層的通道數(shù).Liu等[21]通過元學(xué)習(xí)為剪枝子網(wǎng)絡(luò)分配權(quán)重,通過遺傳算法進(jìn)行搜索.Lin等[9]使用人工蜂群算法尋找最優(yōu)的剪枝結(jié)構(gòu).

        為了解決結(jié)構(gòu)化剪枝的問題,本文提出基于自動(dòng)修補(bǔ)策略的網(wǎng)絡(luò)剪枝(Network Pruning via Auto-matic Mending Strategy, PAM).不同于傳統(tǒng)的三階段網(wǎng)絡(luò)剪枝流程,本文方法在剪枝后增加一個(gè)修補(bǔ)階段,即流程包括訓(xùn)練、預(yù)剪枝、修補(bǔ)、微調(diào).對于預(yù)先訓(xùn)練好的模型,以相同的剪枝率對每層進(jìn)行剪枝,稱為預(yù)剪枝階段.該階段用于判斷不同卷積核的重要性,主要解決問題1).然而,在給定的剪枝率下,預(yù)剪枝模型通常不是最優(yōu)結(jié)構(gòu).因此,在保持整體剪枝率不變的前提下,在預(yù)剪枝網(wǎng)絡(luò)的每層添加或刪除卷積核,稱為修補(bǔ)階段.這個(gè)階段用于尋找最佳剪枝結(jié)構(gòu),主要解決問題2).此外本文還研究預(yù)訓(xùn)練較大模型中權(quán)重的價(jià)值.實(shí)驗(yàn)表明,使用這些權(quán)重可使性能估計(jì)策略更快、更可靠.

        1 基于自動(dòng)修補(bǔ)策略的網(wǎng)絡(luò)剪枝

        1.1 符號和說明

        1.2. 預(yù)剪枝

        (1)

        卷積核相似性度量常和聚類算法一起用于剪枝[17].一般來說,簇的數(shù)目等于保留卷積核的總數(shù),并且每簇中只保留一個(gè)卷積核.與此不同的是,本文使用式(1)和凝聚聚類算法對每層中的卷積核進(jìn)行重要性排序.卷積核的排序不僅可在預(yù)剪枝階段作為剪枝標(biāo)準(zhǔn),還對修補(bǔ)階段的設(shè)計(jì)起到重要作用.

        在某一卷積層實(shí)現(xiàn)聚類算法時(shí),在同簇內(nèi)可認(rèn)為模長最大的卷積核最重要[10,17],因此令每個(gè)簇中模長最大的卷積核作為簇的聚類中心,此外,聚合一層的卷積核直到只形成唯一一個(gè)簇,并記錄聚類過程.若卷積核或簇越早聚合,則簇的聚類中心卷積核越不重要,以此得到各層卷積核的重要性排序.以一層有A、B、C、D四個(gè)卷積核為例,初始集合

        I=[[A],[B],[C],[D]],

        首先劃分為4個(gè)簇,每個(gè)卷積核作為本簇的聚類中心.2個(gè)簇的距離等于聚類中心間的距離,2個(gè)聚類中心(2個(gè)卷積核)的距離按照式(1)計(jì)算.計(jì)算距離最近的2個(gè)簇,假設(shè)[A]、[B]之間距離最小且A的模長大于B,則A和B聚合成一個(gè)簇,

        I=[[A,B],[C],[D]],

        A為新簇的聚類中心,B放入排序隊(duì)列中.然后,假設(shè)簇[A,B]、[C]的距離最小,C的模長大于A,則

        I=[[C,A,B],[D]],

        C為新簇的聚類中心,A放入排序隊(duì)列中.最后聚合僅剩2個(gè)簇,假設(shè)C的模長大于D,則C為最終的簇的聚類中心,D放入排序隊(duì)列中.最終得到的卷積核重要性排序?yàn)锽

        1.3 修補(bǔ)

        在修補(bǔ)階段,本文使用NAS調(diào)整預(yù)剪枝模型中每層的卷積核數(shù)量,并保持網(wǎng)絡(luò)的卷積核總數(shù)不變,即本文的目標(biāo)是在保持剪枝率不變的條件下得到一個(gè)更好的剪枝結(jié)構(gòu).這里的剪枝率為被剪的數(shù)量除以總數(shù).由于不同層中卷積核的大小可能不同,導(dǎo)致不同子網(wǎng)絡(luò)在剪枝率相同的情況下依然可能具有不同的浮點(diǎn)運(yùn)算次數(shù)(Floating-Point Operations per Second, FLOPs).

        NAS設(shè)計(jì)的要素一般包括搜索空間、搜索策略和性能估計(jì)策略[25].搜索策略在搜索空間中發(fā)現(xiàn)一個(gè)新的結(jié)構(gòu),并利用性能估計(jì)策略對結(jié)構(gòu)進(jìn)行評估.

        本文采用基于遺傳算法的NAS進(jìn)行搜索,將剪枝子網(wǎng)絡(luò)結(jié)構(gòu)編碼為基因.具體地,將預(yù)剪枝的網(wǎng)絡(luò)結(jié)構(gòu)編碼為0號基因:

        G0=[0,0,…,0],len(G0)=L.

        基因G0給變異操作提供一個(gè)初始基因,性能也可作為參考基線.顯然,如果想給第l層增加2個(gè)卷積核,則只需將G0,l從0更改為2,其中G0,l表示G0的第l個(gè)值.

        值得注意的是:1)網(wǎng)絡(luò)的編碼基因只能代表一個(gè)子網(wǎng)絡(luò)的結(jié)構(gòu),即只能得到每層中卷積核的數(shù)量,而不能得到權(quán)重.2)不同剪枝率下的G0是相同的.只有同時(shí)根據(jù)預(yù)剪枝結(jié)構(gòu)和基因,才能得到目標(biāo)結(jié)構(gòu).

        圖1為修補(bǔ)階段使用基因和預(yù)剪枝結(jié)構(gòu)解碼出目標(biāo)結(jié)構(gòu)的一個(gè)例子.修補(bǔ)階段的任務(wù)是尋找最佳基因,以獲得最優(yōu)的精剪枝結(jié)構(gòu).

        圖1 修補(bǔ)預(yù)剪枝網(wǎng)絡(luò)示意圖Fig.1 Sketch map of mending pre-pruned network

        在NAS領(lǐng)域,利用遺傳算法尋找最優(yōu)結(jié)構(gòu)[23,26].變異操作是促進(jìn)種群適應(yīng)度不斷提高的重要操作.然而,在本文的搜索空間中使用變異操作會存在一個(gè)問題:典型的變異只發(fā)生在基因的一個(gè)位置,無論增加或減少卷積核的數(shù)量,都會引起整體剪枝率的變化.因此,本文設(shè)計(jì)新的變異方法,稱為成對變異.“對”意味著選擇一對位置同時(shí)變異,并產(chǎn)生一對后代.

        以基因Gk進(jìn)行成對變異操作為例:首先選擇2個(gè)互不相同的隨機(jī)變異位點(diǎn)i、j,1≤i≤L,1≤j≤L.然后,根據(jù)一個(gè)給定的變異尺度S,使父代基因產(chǎn)生2個(gè)子代基因,即

        Gchild1=[…,Gk,i+S,…,Gk,j-S,…],

        Gchild2=[…,Gk,i-S,…,Gk,j+S,…].

        成對變異操作的示意圖如圖2所示,S表示增加或減少的卷積核數(shù)量.最后,根據(jù)性能評估策略計(jì)算2個(gè)基因的適合度,將較好的一個(gè)基因加入群體中,直接丟棄另一個(gè)表現(xiàn)較差的基因.以這種變異方式,一個(gè)基因向量中所有值的和可始終保持為0,即整體剪枝率保持不變.此外,作為一種直觀的設(shè)計(jì),如果第i、j層中的一層需要更多的卷積核以提高子網(wǎng)絡(luò)的性能,并且減少另一層的卷積核數(shù)量,不會造成更多的性能損失,在兩個(gè)子代中將會有一個(gè)具有更好的性能.

        圖2 成對變異操作的示意圖Fig.2 Sketch map of pair-mutation operation

        本文采用錦標(biāo)賽選擇法對當(dāng)前種群進(jìn)行采樣.在每個(gè)周期中,刪除群體中最老的基因[26].這種刪除策略在NAS領(lǐng)域被證明可防止高適應(yīng)度基因永遠(yuǎn)留在群體中,從而產(chǎn)生大量后代.此外,本文采用逐步變小的變異尺度S實(shí)現(xiàn)從粗到精的搜索.特別地,如果變異操作導(dǎo)致第l層中的卷積核數(shù)量超過[1,Nl]的限制范圍,則限制此次循環(huán)中使用的變異尺度,使卷積核數(shù)量控制在合法范圍內(nèi).具體地:如果變異操作得到的結(jié)果小于1,將該層的卷積核數(shù)量置為1;如果結(jié)果大于Nl,將該層的卷積核數(shù)量置為Nl.

        本文還為搜索策略設(shè)計(jì)一個(gè)可選步驟——交叉操作.上述成對變異操作可在保持剪枝率不變的前提下快速提高種群適應(yīng)度,但本文還希望能尋找剪枝率更高但性能更優(yōu)的子網(wǎng)絡(luò),稱為幸運(yùn)子網(wǎng)絡(luò).此目標(biāo)類似于Chin等[20]的目標(biāo),旨在生成一組具有不同精度和延遲權(quán)衡的子網(wǎng)絡(luò).在本文的網(wǎng)絡(luò)編碼模式中,更高的剪枝率意味著基因向量所有值的和小于0.具體地,在候選基因中選擇2個(gè)不同的基因作為父代基因,隨機(jī)選擇一個(gè)位置交叉的2個(gè)基因,產(chǎn)生2個(gè)子代Gchild3和Gchild4.若2個(gè)父代基因向量的所有值的和都是0,不妨假設(shè)2個(gè)子代基因

        sum(Gchild3)≤sum(Gchild4),

        則一定可推導(dǎo)出

        sum(Gchild3)≤0,sum(Gchild4)≥0.

        本文直接丟棄Gchild4,計(jì)算Gchild3的適應(yīng)度,并放入種群中.在特殊情況下,如果將交叉操作產(chǎn)生的基因用作父代基因,則可能導(dǎo)致sum(Gchild3)和sum(Gchild4)同時(shí)小于0.假設(shè)

        sum(Gchild3)>sum(Gchild4),

        則直接舍棄Gchild4,保留和設(shè)定剪枝率更接近的子代,確保交叉操作只需要計(jì)算一個(gè)子代的適合度.

        性能評估策略用于計(jì)算基因的適應(yīng)度.評估網(wǎng)絡(luò)結(jié)構(gòu)性能的一種簡單方法是從頭開始訓(xùn)練網(wǎng)絡(luò),并在驗(yàn)證集上評估準(zhǔn)確率,但耗時(shí)較大.因此,NAS領(lǐng)域中已研究一些加速估計(jì)策略[27],或稱為代理度量,只需計(jì)算不同結(jié)構(gòu)的相對性能,即可對比好壞.Zhou等[28]綜合不同的加速方法,設(shè)計(jì)不同的代理度量,并通過基于網(wǎng)絡(luò)性能排名計(jì)算的Spearman系數(shù)評價(jià)不同代理度量的優(yōu)劣.

        本文的代理度量包括:1)只使用少量的訓(xùn)練輪數(shù)微調(diào)子網(wǎng)絡(luò)以計(jì)算它們的適合度,但會引入評估偏差.2)利用預(yù)剪枝階段的卷積核排序快速初始化新結(jié)構(gòu).使用卷積核排序?qū)ΡA舻木矸e核進(jìn)行初始化相當(dāng)于剪枝操作,即保留排序中重要的卷積核,刪掉不重要的結(jié)構(gòu).本文通過實(shí)驗(yàn)證實(shí)這種初始化方法可減少評估偏差,提高評估策略的穩(wěn)定性.對于由基因產(chǎn)生的目標(biāo)結(jié)構(gòu),可將其看作是對原大網(wǎng)絡(luò)進(jìn)行剪枝得到的子結(jié)構(gòu),不同于預(yù)剪枝的操作,每層卷積核的數(shù)量不再由剪枝率決定,而由基因決定.

        最終本文方法框圖如圖3所示.

        圖3 本文方法框圖Fig.3 Flow chart of the proposed method

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)設(shè)置

        為了驗(yàn)證本文方法(PAM)的有效性,在CIFAR-10[29]、CUB-200[30]數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).本文研究剪枝算法在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)上的性能,包括單分支網(wǎng)絡(luò)(V-GG)[1]和殘差網(wǎng)絡(luò)(Residual Network, ResNet)[31].

        本文選擇如下對比方法:Slim(Network Slim-ming)[7],Soft(Soft Pruning)[19],FPGM(Filter Pru-ning via Geometric Median)[15],HRank(High-Rank Feature)[18].Slim使用BN層比例因子和一個(gè)全局閾值.在高壓縮比的情況下,這種剪枝策略有可能剪掉一層中所有卷積核,導(dǎo)致網(wǎng)絡(luò)無法正確推理.在此次實(shí)驗(yàn)中,保證剪枝后網(wǎng)絡(luò)的每層至少保留一個(gè)卷積核.Soft和FPGM在每層都使用相同的剪枝率.HRank使用特征圖的秩判斷卷積核的重要性,在每層中使用一個(gè)預(yù)定義但各層不同的剪枝率.本文控制不同剪枝方法的壓縮情況(參數(shù)量和FLOPs)彼此之間相差不至過大,實(shí)現(xiàn)更公平的對比.

        本文采用動(dòng)量為0.9、權(quán)重衰減為0.000 1的隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)[32]作為優(yōu)化器.在修補(bǔ)階段,設(shè)置種群大小為50,候選集大小為15,迭代次數(shù)為200.此外,初始變異尺度為16,變異尺度在第80輪調(diào)整為8,在第160輪調(diào)整為4.在計(jì)算基因適合度時(shí),將代理度量的微調(diào)輪數(shù)設(shè)置為5.在最后的微調(diào)階段,訓(xùn)練160輪.在種群演化的每輪中,首先進(jìn)行成對變異操作,種群增加一個(gè)由變異得到的子代基因,刪除最老的一個(gè)基因.再執(zhí)行交叉操作,種群增加一個(gè)由交叉得到的子代基因,刪除最老的一個(gè)基因.

        2.2 實(shí)驗(yàn)結(jié)果對比

        對于VGG網(wǎng)絡(luò),使用深度為19的結(jié)構(gòu),基礎(chǔ)剪枝率為90%.除了Soft和FPGM以外,其它方法得到的網(wǎng)絡(luò)結(jié)構(gòu)各不相同.因此,剪枝模型的FLOPs和參數(shù)量存在差異.在CIFAR-10數(shù)據(jù)集上,各方法在VGG19網(wǎng)絡(luò)上的剪枝結(jié)果如表1所示,表中baseline表示原始的預(yù)訓(xùn)練模型.由表可知,PAM得到的網(wǎng)絡(luò)具有最高的精度、最少的FLOPs和最少的參數(shù)量.

        表1 各方法在VGG19網(wǎng)絡(luò)上的剪枝結(jié)果Table 1 Pruning results of different methods in VGG19 network

        為了更清晰地展示預(yù)剪枝和修補(bǔ)的作用,各階段模型的準(zhǔn)確率如下:預(yù)訓(xùn)練模型為93.76%,預(yù)剪枝模型為56.89%,精剪枝模型為85.96%,輸出模型為92.02%.PAM得到的剪枝網(wǎng)絡(luò)各層的剪枝情況如圖4所示.由圖可看出,網(wǎng)絡(luò)輸入端和輸出端卷積層的剪枝率存在較大差異,VGG19是一個(gè)不同層卷積核冗余度差異較大的網(wǎng)絡(luò).實(shí)驗(yàn)證實(shí)PAM對其搜索最佳剪枝結(jié)構(gòu)的有效性.

        圖4 VGG19網(wǎng)絡(luò)各層的剪枝率Fig.4 Pruning rate of each layer in VGG19 network

        在實(shí)驗(yàn)中,ResNet網(wǎng)絡(luò)的深度為18,基礎(chǔ)剪枝率為90%.因?yàn)樵跉埐顗K的輸出部分有一個(gè)加法運(yùn)算,所以必須保持輸入輸出通道的對應(yīng)關(guān)系.如同大多數(shù)剪枝策略,PAM不剪枝殘差塊最后的卷積層和跨連分支.在CIFAR-10數(shù)據(jù)集上,各方法在ResNet-18網(wǎng)絡(luò)上的剪枝結(jié)果如表2所示.由表可見,PAM的綜合性能最好.

        表2 各方法在ResNet18在網(wǎng)絡(luò)上的剪枝結(jié)果Table 2 Pruning results of different methods in ResNet18 network

        ResNet網(wǎng)絡(luò)各層的剪枝情況如圖5所示,圖中只展示可剪的卷積層.從網(wǎng)絡(luò)不同層的剪枝率差異可看出,ResNet18各層的冗余度差異小于VGG19,這可能是因?yàn)闅埐罱Y(jié)構(gòu)具有恢復(fù)剪枝造成的信息丟失的能力.

        圖5 ResNet18網(wǎng)絡(luò)各層的剪枝率Fig.5 Pruning rate of each layer in ResNet18 network

        對VGG19、ResNet18網(wǎng)絡(luò)通過交叉操作可獲得“幸運(yùn)子網(wǎng)絡(luò)”的結(jié)果.在搜索過程中增加交叉操作,可得到許多不同剪枝率的剪枝子網(wǎng)絡(luò).本文選擇幾種不同的剪枝率,并給出在每個(gè)選定的剪枝率下的最佳剪枝網(wǎng)絡(luò).結(jié)果見表3和表4.正如假設(shè)可見,在搜索過程中有一些幸運(yùn)的子網(wǎng)絡(luò).例如,剪枝率為90.83%的ResNet18比基礎(chǔ)剪枝率為90.00%的ResNet18性能更優(yōu).

        表3 對VGG19進(jìn)行交叉操作的結(jié)果Table 3 Crossover operation results of VGG19

        表4 對ResNet18進(jìn)行交叉操作的結(jié)果Table 4 Crossover operation results of ResNet18

        此外,針對VGG19修補(bǔ)的種群,演化過程如圖6所示.圖中橫坐標(biāo)是從初始化種群開始計(jì)數(shù)的基因數(shù)目,縱坐標(biāo)是使用性能評估策略得到的基因適應(yīng)度,水平虛線是0號基因,即預(yù)剪枝模型的適應(yīng)度.由圖可見變異操作和交叉操作對修補(bǔ)VGG19預(yù)剪枝網(wǎng)絡(luò)的影響,上述操作使種群適應(yīng)度逐步上升最后趨于收斂.

        圖6 修補(bǔ)階段的種群演化過程Fig.6 Evolutionary process of population in mending stage

        本文分析剪枝的ResNet18網(wǎng)絡(luò)在遷移學(xué)習(xí)中的性能.由于NAS技術(shù)資源消耗較大,在大數(shù)據(jù)集上搜索會耗時(shí)較多.所以一些工作[24,28]會將CIFAR-10數(shù)據(jù)集上搜索到的結(jié)構(gòu)遷移到較大數(shù)據(jù)集上,如ImageNet、CUB-200數(shù)據(jù)集,以間接證實(shí)有效性.本文采取類似的實(shí)驗(yàn)方法.針對已在CIFAR-10數(shù)據(jù)集上剪枝和微調(diào)的網(wǎng)絡(luò),改變第一個(gè)卷積層和最后一個(gè)全連接層,其它部分不變.基線網(wǎng)絡(luò)(baseline)訓(xùn)練160輪.使用相同的遷移學(xué)習(xí)超參數(shù)設(shè)置,PAM與baseline的剪枝結(jié)果如表5所示,PAM-TL表示PAM的遷移學(xué)習(xí)結(jié)果,PAM-scratch表示剪枝過的網(wǎng)絡(luò)從頭開始訓(xùn)練,Top-1準(zhǔn)確率(Top-1 Accuracy)指預(yù)測的最大概率類別與真實(shí)類別相同的樣本所占的比率.因?yàn)榛€和剪枝模型的訓(xùn)練計(jì)算量差異較大,本文參考文獻(xiàn)[22]的工作,對剪枝模型使用與baseline相同的計(jì)算量進(jìn)行訓(xùn)練,表示為PAM-TL-B.表5說明PAM的剪枝模型可較好地轉(zhuǎn)移到其它數(shù)據(jù)集.從PAM-TL-B的結(jié)果可知,當(dāng)剪枝率較高時(shí),最好使用更多的訓(xùn)練輪數(shù),提高模型的準(zhǔn)確率.

        表5 ResNet18剪枝網(wǎng)絡(luò)的遷移學(xué)習(xí)結(jié)果Table 5 Transfer learning results of pruned ResNet18 network

        2.3 代理度量分析

        本節(jié)討論剪枝后保留參數(shù)的價(jià)值,并說明本文性能估計(jì)策略的有效性.受Zhou等[28]的啟發(fā),本文使用Spearman系數(shù)評估代理度量.首先,隨機(jī)生成50個(gè)VGG19的剪枝子網(wǎng)結(jié)構(gòu)(剪枝率均為90%),并進(jìn)行充分訓(xùn)練(在CIFAR-10數(shù)據(jù)集上訓(xùn)練160輪),稱為原始設(shè)置.然后,對這50個(gè)子網(wǎng)絡(luò)結(jié)構(gòu),使用性能評估策略中的代理度量進(jìn)行訓(xùn)練微調(diào),并將這個(gè)簡化的設(shè)置表示為“我們的代理度量”.為了對比,還使用隨機(jī)權(quán)值初始化子網(wǎng)絡(luò),再進(jìn)行訓(xùn)練微調(diào),即這些網(wǎng)絡(luò)結(jié)構(gòu)不再使用保留參數(shù),將此簡化設(shè)置稱為“對比的代理度量”.最后,利用Spearman系數(shù)計(jì)算原始設(shè)置和每個(gè)簡化設(shè)置之間的相關(guān)性,結(jié)果如圖7所示,Spearman系數(shù)越高,說明代理度量越可靠.

        實(shí)驗(yàn)表明,相比隨機(jī)初始化方法,本文的代理度量方法能更好地保持不同子網(wǎng)絡(luò)精度的排序.在剪枝算法中,保留權(quán)重的一般作用是加速剪枝后的微調(diào)過程.該實(shí)驗(yàn)還說明保留權(quán)重的另一個(gè)作用,即當(dāng)使用少量的訓(xùn)練輪數(shù)評價(jià)不同子網(wǎng)的相對性能時(shí),可提高評價(jià)的可靠性.

        從實(shí)驗(yàn)結(jié)果可得出另一個(gè)結(jié)論:估計(jì)策略中使用的訓(xùn)練輪數(shù)越多,可靠性越強(qiáng).這對于調(diào)整搜索過程成本具有重要意義,可通過調(diào)整代理度量中使用的輪數(shù)控制整個(gè)算法的耗時(shí).

        3 結(jié) 束 語

        本文結(jié)合人工規(guī)則和自動(dòng)搜索方法,提出基于自動(dòng)修補(bǔ)策略的網(wǎng)絡(luò)剪枝.在預(yù)剪枝階段,基于角度和范數(shù)信息,識別冗余的卷積核,并在預(yù)剪枝后設(shè)計(jì)基于神經(jīng)架構(gòu)搜索實(shí)現(xiàn)的修補(bǔ)階段.相比基于貪心思想的經(jīng)典網(wǎng)絡(luò)剪枝算法,本文方法可求解更佳的網(wǎng)絡(luò)剪枝結(jié)構(gòu),獲得更高的網(wǎng)絡(luò)性能.同時(shí),基于預(yù)剪枝結(jié)構(gòu)的基因編碼策略及策略中的成對變異,結(jié)合預(yù)剪枝階段的先驗(yàn)知識都可提高本文方法的搜索效率.實(shí)驗(yàn)表明,本文方法能較好地剪枝分類任務(wù)的網(wǎng)絡(luò).

        從算法的搜索和評估策略的角度分析,還可進(jìn)一步改進(jìn)本文方法.在修補(bǔ)階段種群演化的初期,得到的剪枝網(wǎng)絡(luò)之間性能差距較大,因此在評估策略中只需設(shè)置少量的訓(xùn)練輪數(shù)就可區(qū)分不同剪枝網(wǎng)絡(luò)的優(yōu)劣.而在演化的后期,得到剪枝網(wǎng)絡(luò)之間性能差距較小,需要更多的訓(xùn)練輪數(shù),可考慮在種群演化過程中動(dòng)態(tài)調(diào)整評估策略使用的訓(xùn)練輪數(shù),更合理地分配計(jì)算資源,提高搜索效率.此外,相比本文實(shí)驗(yàn)部分的分類網(wǎng)絡(luò),目標(biāo)檢測、語義分割任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,需要進(jìn)一步驗(yàn)證剪枝算法的有效性.將本文方法應(yīng)用于更多的視覺任務(wù)是下一步研究的重點(diǎn).

        猜你喜歡
        每層剪枝變異
        人到晚年宜“剪枝”
        攀登腳手架
        基于YOLOv4-Tiny模型剪枝算法
        智取鉆石
        變異危機(jī)
        變異
        每層球有多重
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        變異的蚊子
        百科知識(2015年18期)2015-09-10 07:22:44
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        97se亚洲国产综合自在线观看| 精品国产乱码一区二区三区| 国产亚洲中文字幕久久网| 日本不卡高字幕在线2019| 极品av麻豆国产在线观看| 亚洲第一看片| 国产乱老熟视频乱老熟女1| 在线观看日本一区二区三区四区| 亚洲精品无码av人在线播放| 亚洲福利视频一区| 日韩人妻系列在线视频| 国产在线视频91九色| 在线播放免费播放av片| 日韩在线免费| 日本女优中文字幕四季视频网站 | 久久综合99re88久久爱| 国产涩涩视频在线观看| 中文字幕久久久人妻无码| 在线观看视频国产一区二区三区| 一边摸一边抽搐一进一出口述 | 亚洲中出视频| 亚洲第一女人的天堂av| 人妻中文字幕无码系列| 福利片福利一区二区三区| 亚洲成av在线免费不卡 | 亚洲AV日韩AV永久无码电影| 黄色三级视频中文字幕| 日本人妖熟女另类二区| 久久久久久久久蜜桃| 精品中文字幕制服中文| 亚洲av天堂一区二区| 日本大肚子孕妇交xxx| 亚洲熟妇无码av不卡在线播放| 亚洲精品国产主播一区二区| 亚洲天堂成人av影院| 18分钟处破好疼哭视频在线观看| 久久天堂av色综合| 亚洲男同免费视频网站| 国产丶欧美丶日本不卡视频| 无码日韩AⅤ一区二区三区| 国产精品二区三区在线观看|