亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無效卷積核權值回退的神經(jīng)網(wǎng)絡優(yōu)化方法

        2021-11-26 07:21:42顧上航張利軍郭越超
        計算機工程與應用 2021年22期
        關鍵詞:有效性方法模型

        顧上航,張利軍,郭越超,徐 勇

        哈爾濱工業(yè)大學(深圳)計算機科學與技術學院,廣東 深圳518000

        自從Alexnet[1]在ImageNet 圖像分類數(shù)據(jù)集上取得成功以來,卷積神經(jīng)網(wǎng)絡在計算機視覺任務[1-4]上取得了顯著的突破,有關卷積神經(jīng)網(wǎng)絡的研究也取得了很大的進展。2015 年之后,VGGNet[5]、GooLeNet[6]、ResNet[7]網(wǎng)絡的相繼出現(xiàn),使得卷積神經(jīng)網(wǎng)絡的深度和寬度得到了極大的拓展。但是近年的一些研究[8-9]發(fā)現(xiàn),在網(wǎng)絡規(guī)模和復雜度提升的同時,網(wǎng)絡中會出現(xiàn)部分卷積核不能被充分利用,成為無效卷積核的問題,即部分卷積核在神經(jīng)網(wǎng)絡推理中不起作用。這一問題導致模型的精度無法進一步地提升。

        為進一步提高神經(jīng)網(wǎng)絡模型的精度,許多學者對該問題做了相關的研究并提出相應的解決方案。模型剪枝方法[10-13]先將神經(jīng)網(wǎng)絡的卷積核進行有效性排序,然后剪去神經(jīng)網(wǎng)絡中無效的卷積核,并進行重訓練。模型剪枝方法在縮小模型的尺寸并加快推理速度的同時,它的良好效果也驗證了確實存在部分的卷積核對神經(jīng)網(wǎng)絡推理結果沒有影響或僅有微小的影響。但模型剪枝方法需要更改模型結構,不利于模型的部署,并且不可避免地損失了網(wǎng)絡的精度。Meng等[14]提出了模型嫁接的方法,在神經(jīng)網(wǎng)絡中,不停地將一個神經(jīng)網(wǎng)絡模型的有效卷積核替換給另一個神經(jīng)網(wǎng)絡的無效卷積核。該方法提高了模型的精度,并且不需要監(jiān)督函數(shù),但需要兩個神經(jīng)網(wǎng)絡同時進行訓練。

        此外,文獻[15]中提到,之前一些卷積神經(jīng)網(wǎng)絡優(yōu)化方法的實質(zhì)也是對卷積核的有效性進行強化。2015年,Hinton 等提出了知識蒸餾[16-18]的方法,該方法通過一個讓小網(wǎng)絡去學習大網(wǎng)絡的潛在知識來提高小網(wǎng)絡的模型能力。從卷積核角度看,該方法強化了原本就有效的卷積核的有效程度[15]。知識蒸餾在模型精度提高方面有明顯效果,但也需要訓練一個大網(wǎng)絡作為學習對象。類似于知識蒸餾,Zhang等[19]提出了互學習的方法,讓兩個同樣結構的網(wǎng)絡在訓練過程中不斷進行交互學習,但仍然需要多個網(wǎng)絡進行訓練,還需要在損失函數(shù)中添加對模型交互學習的監(jiān)督函數(shù)。

        針對上述問題,本文提出了基于無效卷積核權值回退的方法,該方法僅需單個神經(jīng)網(wǎng)絡,在不更改網(wǎng)絡結構,不額外設置監(jiān)督函數(shù)的前提下,就可將深度神經(jīng)網(wǎng)絡中的無效卷積核恢復為有效卷積核。針對模型訓練至收斂時刻的卷積核,提出兩種方式來衡量卷積核有效性,并按固定比例劃分出無效卷積核,然后選擇模型訓練初期t時刻對應位置的卷積核,將其替換給無效卷積核,替換完成后再進行一次T時刻的重訓練,此時模型的無效卷積核就已經(jīng)被恢復為有效卷積核。本文稱該方法為基于無效卷積核權值回退的神經(jīng)網(wǎng)絡性能提升方法,以下簡稱為權值回退方法。為體現(xiàn)權值回退方法的特點,表1將權值回退方法和其他神經(jīng)網(wǎng)絡優(yōu)化方法進行了對比,并展現(xiàn)了權值回退方法的優(yōu)勢。

        表1 權值回退算法與其他方法比較Table 1 Comparison between weight fallback method and other methods

        1 方法

        本文的算法流程如圖1所示,總共分為4個步驟,具體解釋如下:

        圖1 權值回退算法示意圖Fig.1 Schematic diagram of weight fallback algorithm

        (1)對模型進行初始訓練,并將收斂時刻記為T。

        (2)通過兩種方法對神經(jīng)網(wǎng)絡每一層內(nèi)的卷積核有效性進行排序,并通過固定比例將卷積核劃分為有效卷積核和無效卷積核,并為每層卷積核生成掩膜。

        (3)通過掩膜運算,將訓練t時刻的卷積核按對應位置替換給T時刻的無效卷積核。

        (4)重訓練,對模型再次訓練T時間,達到最佳效果。

        以下對關鍵步驟做出詳細解釋。

        1.1 卷積核有效性衡量

        卷積核有效性的衡量是剪枝工作中的關鍵步驟,大部分剪枝工作利用卷積核自身的數(shù)值通過L1正則(L1-norm)公式衡量卷積核的有效性,并通過設置閾值或按照固定比例劃分有效卷積核與無效卷積核。由于不同結構的神經(jīng)網(wǎng)絡初始化方式不同,初始數(shù)值差距較大,設置固定閾值難以對卷積核進行有效性劃分,因此目前主流的劃分方式是按固定比例進行卷積核有效性劃分。本文借鑒剪枝工作中的思路使用L1正則方式衡量權值回退算法中卷積核的有效性。除此之外,本文還提出利用卷積核之間的相關性來衡量卷積核的有效性。后續(xù)實驗證明L1正則方式與卷積核相關性方式都可以衡量卷積核的有效性。

        1.1.1 L1正則衡量法

        L1正則方法將一個卷積核權重的絕對值之和的大小作為衡量卷積核重要性的標準。設神經(jīng)網(wǎng)絡第i層第j個卷積核為Wi,j,有Ni-1個卷積單元,每個卷積單元大小為K×K,那么它的L1正則值為:

        該方法認為L1正則數(shù)值較大的卷積核可以提取更多的有效信息,是目前使用最廣泛的卷積核有效性衡量方法。但該方式僅考慮每個卷積核自身的性質(zhì),沒有考慮卷積核之間的關系。

        1.1.2 卷積核相關性衡量法

        本節(jié)將從卷積核相關性的角度出發(fā)去衡量卷積核的有效性。研究[20]發(fā)現(xiàn),在神經(jīng)網(wǎng)絡提取特征圖時,有大量的特征圖是相似或者重復的,這些特征圖互稱為對方的“幽靈特征”,而產(chǎn)生“幽靈特征”的原因是抽取這些特征的對應卷積核出現(xiàn)了權值相似或重復。事實上,對于一個與同一網(wǎng)絡層其他卷積核相關性最高的卷積核,即使去掉它,剩下的卷積核中也可以提取出同樣特征信息。Prakash 等[21]提出通過將每一層的卷積核從三維向量變化為一維向量,并與同層卷積核進行正交可以衡量卷積核間的相關性。

        具體步驟如下:對第i層的第j個卷積核,將其表示為將神經(jīng)網(wǎng)絡第i層每個卷積核變換為一維向量。那么對第i層卷積核權值,可將其變化為二維矩陣Ni表示行數(shù),Ni-1×K×K表示列數(shù)。然后把矩陣Di歸一化為

        之后對矩陣進行正交運算,并減去單位矩陣I以消去矩陣與自身的相關性,得到第i層各卷積核間的相關系數(shù)矩陣Pi:

        對于神經(jīng)網(wǎng)絡第i層第j個卷積核,只要將相關系數(shù)矩陣第j行合并,而后除以第i層卷積核個數(shù),即可得到該卷積核與其他卷積核的平均相關系數(shù)

        式中,Pi[j]表示矩陣Pi的第j行。

        1.2 權值回退時刻的選取

        權值回退方法另一個關鍵問題就是如何選擇一個合適的權值回退時刻。Renda等[22]提出在模型訓練的初期,神經(jīng)網(wǎng)絡的絕大部分卷積核仍是有效的,即卷積核的L1正則衡量下的權值較大,而在模型訓練的后期,就會出現(xiàn)一定比例的卷積核無效。本節(jié)通過L1正則方式衡量訓練收斂時刻模型MT的卷積核有效性,并觀察30%的無效卷積核在訓練過程中的L1正則數(shù)值變化來對上述觀點進行驗證。從圖2可以看到,對于ResNet110和MobileNetv2[23]模型,無效卷積核在訓練初期L1 正則的數(shù)值很高,而在訓練過程中快速下降,當訓練完成時ResNet110 的無效卷積核平均L1 正則值僅為訓練初始階段的50%,而MobileNetv2更是只為初始階段的25%。奇怪的是ResNet32的無效卷積核并沒有出現(xiàn)特別顯著的退化,這是因為對于小型神經(jīng)網(wǎng)絡模型來說,整個模型僅有少量冗余的卷積核。從圖中還能發(fā)現(xiàn)無效卷積核在t為20訓練批次(epoch)時已經(jīng)被訓練到無效的程度,因此即使對其采用權值回退算法性能也不會有明顯的提升。后續(xù)實驗2.2節(jié)中本文選取了不同的權值回退時刻t進行驗證。經(jīng)過大量實驗,本文發(fā)現(xiàn)t選擇為訓練時刻初期的效果最好。

        圖2 無效卷積核L1數(shù)值隨訓練時間變化Fig.2 L1-norm of invalid filters changes with training time

        1.3 無效卷積核權值回退

        假設神經(jīng)網(wǎng)絡收斂時刻為T,神經(jīng)網(wǎng)絡權值回退時刻為t,可令對應時刻的神經(jīng)網(wǎng)絡模型為MT與Mt。從兩種卷積核有效性衡量方法中選擇一種對模型MT每一層內(nèi)的卷積核進行排序,并按固定比例將卷積核劃分為有效卷積核和無效卷積核。根據(jù)劃分結果為MT每層卷積核生成掩膜。假設模型第i個網(wǎng)絡層有Ni個卷積核,每個卷積核表示為:

        那么可令該層網(wǎng)絡對應的掩膜為MSi,MSi表示為:

        通過掩膜運算,將訓練t時刻的卷積核按對應位置替換給T時刻的無效卷積核。掩膜運算過程表示為:

        掩膜運算后,再進行一次重訓練,權值回退算法就已完成。

        2 實驗結果及分析

        因為卷積神經(jīng)網(wǎng)絡廣泛地應用于圖像分類任務[24],本次實驗將在圖像分類的任務上驗證權值回退算法對神經(jīng)網(wǎng)絡的優(yōu)化效果。圖像分類數(shù)據(jù)集選擇CIFAR-10及CIFAR-100。CIFAR-10 包括60 000 張32×32 像素的彩色圖片,共有10個類別,每個類別包含6 000張圖片。整個數(shù)據(jù)集分為訓練集50 000 張和測試集10 000 張。CIFAR-100與CIFAR-10沿用同樣的數(shù)據(jù)圖片,不過CIFAR-100對物體類別的標記更為詳細,總共標記100個類別,其中每個類別600張圖片。

        由于神經(jīng)網(wǎng)絡的基礎學習率和訓練批次等因素會對模型測試精度產(chǎn)生較大影響[25],本文實驗各模型在同一個數(shù)據(jù)集上使用相同的數(shù)據(jù)增強方式和超參數(shù)。各模型均使用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器。在CIFAR-10 和CIFAR-100 中的數(shù)據(jù)增強方式相同,先對圖像進行邊緣填充(填充大小為4 個像素),采用隨機裁剪的方式將圖像調(diào)整為32×32;然后采用隨機水平翻轉;最后進行標準化。CIFAR-10 的超參數(shù)設置為:訓練批次為200,分批塊的大小為128,基礎學習率為0.1,動量為0.9,權重衰減系數(shù)為0.000 1,在第100 和150 個批次進行0.1 的調(diào)整。CIFAR-100 的超參數(shù)設置與CIFAR-10 基本相同,只是將權重衰減系數(shù)修改為0.000 5,每60個批次進行0.2的調(diào)整。

        2.1 卷積核有效性衡量方式的比對

        為了驗證L1 正則與卷積核相關性兩種卷積核有效性衡量方式應用在權值回退算法上的效果,本節(jié)在CIFAR-10和CIFAR-100數(shù)據(jù)集上對ResNet20、ResNet32、ResNet110 模型進行圖像分類準確率測試,權值回退時刻選為t=10,固定地選取30%的無效卷積核進行替換,比較了兩種卷積核衡量方式的效果,具體實驗結果見表2。由表2結果可得,兩種卷積核衡量方式都能有效地應用在權值回退算法中。在ResNet20、ResNet32 等小模型上,卷積核相關性的衡量策略效果更明顯,在ResNet110上,L1 正則的衡量策略效果更為明顯。即在規(guī)模小的模型上使用卷積核相關性的衡量方法效果更好,在規(guī)模大的模型上使用卷積核自身有效性的衡量方法效果更好??傮w而言,卷積核相關性的衡量策略更加穩(wěn)定。

        表2 兩種卷積核有效性衡量方式準確率比對Table 2 Comparison of accuracy of two filters efficiency measurement methods %

        2.2 權值回退時刻的選擇與結果

        為了驗證權值回退t時刻對最終結果的影響,分別選取了t=0,10,20,50,100 共5 個時刻在CIFAR-10、CIFAR-100數(shù)據(jù)集上對ResNet32、ResNet110及MobileNetv2進行實驗,卷積核衡量方式選擇L1正則方式,無效卷積核比例為30%。表3 為CIFAR10 數(shù)據(jù)集下權值回退時刻對圖像分類準確率的影響。表4為CIFAR100數(shù)據(jù)集下權值回退時刻對圖像分類準確率的影響。實驗結果表明,t=10 epoch 時,權值回退效果最為明顯。表中的random表示使用隨機初始化的卷積核對無效卷積核進行替換。隨機初始化的卷積核替換的實驗結果較差,說明了不是將訓練過程中無效卷積核隨機重初始化就能使無效卷積核恢復,而是要使用神經(jīng)網(wǎng)絡訓練初期的卷積核進行替換才能將其恢復。

        表3 CIFAR-10下權值回退時刻對準確率的影響Table 3 Influence of weight fallback time on accuracy in CIFAR-10 %

        表4 CIFAR-100下權值回退時刻對準確率的影響Table 4 Influence of weight fallback time on accuracy in CIFAR-100 %

        2.3 增加卷積核有效性方法的比對

        將本文方法與知識蒸餾、模型剪枝等神經(jīng)網(wǎng)絡優(yōu)化方法進行對比。由表5 與表6 可知,無論是殘差網(wǎng)絡還是輕量級網(wǎng)絡,權值回退方法在CIFAR-10和CIFAR-100數(shù)據(jù)集上,對于大部分模型都取得了最佳的圖像分類效果。從表5 與表6 可得,在CIFAR-10 和CIFAR-100 上ResNet56與ResNet110提升效果比ResNet20與ResNet32明顯,該結果說明權值回退方法對于大規(guī)模的神經(jīng)網(wǎng)絡提升效果更明顯。此外,幾乎所有的模型在CIFAR-100上使用本文方法的效果要比CIFAR-10 上明顯。換言之,圖像分類難度越大,本文方法所能達到的提升效果就越明顯。表5、表6中“—”表示有關論文未提供數(shù)據(jù)。

        表5 CIFAR-10下不同神經(jīng)網(wǎng)絡優(yōu)化方法準確率對比Table 5 Comparison of accuracy of different neural network optimization methods in CIFAR-10 %

        表6 CIFAR-100下不同神經(jīng)網(wǎng)絡優(yōu)化方法準確率對比Table 6 Comparison of accuracy of different neural network optimization methods in CIFAR-100 %

        2.4 權值回退算法效果驗證

        2.3節(jié)已經(jīng)充分證明了應用權值回退算法后,多種神經(jīng)模型在圖像分類任務上分類準確率得到提升,但是還無法驗證分類準確率的提升是因為無效的卷積核進行權值回退再訓練后得到了恢復。因此本節(jié)將分析無效卷積核在采用權值回退算法后是否得到了權值恢復,并恢復到了何種程度。本節(jié)實驗選擇t=10 時刻ResNet20 及ResNet110 在CIFAR-100 數(shù)據(jù)集上進行權值回退前后的卷積核權值變化作為驗證,卷積核有效性衡量方式選擇L1 正則方式。圖3 表示神經(jīng)網(wǎng)絡模型收斂時的無效卷積核經(jīng)權值回退后卷積核有效性的變化,圖4 表示神經(jīng)網(wǎng)絡模型收斂時的有效卷積核經(jīng)權值回退后卷積核有效性的變化??梢钥吹皆瓱o效卷積核權值經(jīng)權值回退后有效性得到了明顯的提升,有效性甚至超過了權值回退前的有效卷積核。而原有效卷積核在權值回退后有效性也沒有明顯的退化。充分說明了權值回退算法在保持原有效卷積核不退化的前提下,成功將原無效卷積核恢復為有效卷積核。

        圖3 原無效卷積核L1正則值變化Fig.3 L1-norm value change of original invalid filters

        圖4 原有效卷積核L1正則值變化Fig.4 L1-norm value change of original valid filters

        3 結束語

        為了提升神經(jīng)網(wǎng)絡的性能,本文提出了一個新的神經(jīng)網(wǎng)絡訓練方法,即神經(jīng)網(wǎng)絡的無效卷積核權值回退方法。詳細介紹了權值回退方法,討論了兩個關鍵點:如何確定并選擇有效的卷積核,在何時進行權值回退。針對第一個問題,提出了兩種選擇無效卷積核的方式,驗證了兩種方法的有效性和各自優(yōu)勢。針對第二個問題,論證了在模型初期進行權值回退的效果是最好的。從實驗結果可以看到,本文方法與其他增加神經(jīng)網(wǎng)絡能力的方法相比,不僅取得了最佳效果,而且具有較低的訓練復雜度。本文方法在較難的圖像分類任務中精度提升尤其明顯。未來將進一步探索無效卷積核比例劃分對權值回退算法的影響。

        猜你喜歡
        有效性方法模型
        一半模型
        重要模型『一線三等角』
        如何提高英語教學的有效性
        甘肅教育(2020年6期)2020-09-11 07:45:28
        制造業(yè)內(nèi)部控制有效性的實現(xiàn)
        重尾非線性自回歸模型自加權M-估計的漸近分布
        提高家庭作業(yè)有效性的理論思考
        甘肅教育(2020年12期)2020-04-13 06:24:56
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        粉嫩国产av一区二区三区| 久久国产欧美日韩高清专区| 国产精品爽爽VA吃奶在线观看| 精品老熟女一区二区三区在线| 中文字幕av中文字无码亚| 人禽伦免费交视频播放| 国产美女一级做a爱视频| 国产黄色三级三级三级看三级| 内射白浆一区二区在线观看| 午夜成人无码福利免费视频| 国产精品久久久久孕妇| 81久久免费精品国产色夜| 国产成人亚洲精品无码青| 亚洲国产av导航第一福利网| 在线毛片一区二区不卡视频| 国产精品女同一区二区免| 亚州国产av一区二区三区伊在| 亚洲精品毛片一区二区三区| 亚洲人成绝费网站色www| 99精品久久精品一区| 蜜臀av午夜一区二区三区| 尤物99国产成人精品视频| 国产av乳头久久一区| 亚洲一区二区三区高清在线| 国产成人一区二区三区影院动漫| 日韩秘 无码一区二区三区| 白色白色视频在线观看| 成人精品一区二区三区电影| 中文字幕无码不卡免费视频| 亚洲国产不卡av一区二区三区| 亚洲综合自拍偷拍一区| 亚洲人成77777在线播放网站| 99热免费观看| 精品久久一区二区av| 色欲色香天天天综合vvv| 国产99久久亚洲综合精品| 亚洲成AV人国产毛片| 亚洲av免费不卡在线观看| 亚洲国产精品久久久久婷婷老年| 一本一本久久a久久精品综合| 亚洲一区二区蜜桃视频|