范純龍,何宇峰,王翼新
沈陽(yáng)航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽(yáng)110136
近年來(lái),隨著與深度學(xué)習(xí)相關(guān)技術(shù)的不斷成熟和發(fā)展,計(jì)算機(jī)視覺(jué)[1-3]領(lǐng)域方面的相關(guān)研究和應(yīng)用也得到了巨大的提升。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)因其在圖像分類(lèi)和特征提取等方面相較于其他神經(jīng)網(wǎng)絡(luò)具有獨(dú)特的優(yōu)勢(shì),所以在學(xué)術(shù)界和工業(yè)界都受到了廣泛的關(guān)注。
CNN 作為深度學(xué)習(xí)領(lǐng)域中的重要研究方向,目前眾多學(xué)者和研究人員已經(jīng)提出了多種基于CNN 的模型,如Lecun等提出用于手寫(xiě)字符識(shí)別和圖像分類(lèi)領(lǐng)域的LeNet[4]、Krizhevsky 等提出在2012 年大型圖像數(shù)據(jù)庫(kù)ImageNet[5]的圖像分類(lèi)競(jìng)賽中獲得冠軍的AlexNet[6]、Google 提出的2014 年ILSVRC 挑戰(zhàn)賽冠軍GoogleNet[7]以及微軟提出的2015 年ImageNet 圖像分類(lèi)競(jìng)賽冠軍ResNet[1]等等。
CNN模型有比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)更好的特征學(xué)習(xí)和表達(dá)能力,但其缺點(diǎn)在于CNN 提取的訓(xùn)練數(shù)據(jù)特征容易受噪聲影響,會(huì)出現(xiàn)學(xué)習(xí)模型在訓(xùn)練過(guò)程中參數(shù)過(guò)度擬合訓(xùn)練數(shù)據(jù)集的現(xiàn)象,從而導(dǎo)致在測(cè)試數(shù)據(jù)集上損失函數(shù)不收斂,進(jìn)而影響了模型在測(cè)試數(shù)據(jù)集的泛化能力。訓(xùn)練數(shù)據(jù)特征中隱藏的噪聲對(duì)于結(jié)果的影響程度往往與訓(xùn)練方法、目標(biāo)函數(shù)等密切相關(guān)。
為降低這些噪聲的影響,研究了連接權(quán)值對(duì)網(wǎng)絡(luò)性能的影響,通過(guò)對(duì)比不同的訓(xùn)練過(guò)程和訓(xùn)練結(jié)果,驗(yàn)證了CNN模型參數(shù)存在較大的冗余性,發(fā)現(xiàn)CNN連接權(quán)值大小對(duì)模型性能的貢獻(xiàn)存在很大差異,權(quán)值越大的連接對(duì)模型性能的影響也越大。據(jù)此,提出了一種基于CNN大權(quán)值抑制(Weight Restrain of CNN,WR-CNN)的訓(xùn)練優(yōu)化方法。在訓(xùn)練過(guò)程中抑制大權(quán)值連接的增長(zhǎng)速度,控制連接權(quán)值分布,降低個(gè)別大權(quán)值連接對(duì)模型的負(fù)面影響,分散單獨(dú)的較大權(quán)值對(duì)訓(xùn)練結(jié)果的影響,提升CNN模型的魯棒性和泛化能力。另外,本文的訓(xùn)練方法還可以對(duì)已訓(xùn)練好的模型進(jìn)行再優(yōu)化,進(jìn)一步提升模型的泛化能力和魯棒性。
在CIFAR-10和CIFAR-100數(shù)據(jù)集對(duì)LeNet和AlexNet網(wǎng)絡(luò)應(yīng)用WR-CNN 方法訓(xùn)練,結(jié)果表明經(jīng)過(guò)WR-CNN方法訓(xùn)練后,模型的泛化能力和魯棒性得到普遍提升,Top1錯(cuò)誤率下降1.8%~5.0%。
CNN 基本訓(xùn)練過(guò)程中,首先通過(guò)訓(xùn)練樣本計(jì)算當(dāng)前網(wǎng)絡(luò)模型下的誤差或目標(biāo)函數(shù),然后利用反向傳播算法逐層從后向前更新多層網(wǎng)絡(luò)的連接參數(shù)權(quán)值,參數(shù)調(diào)整策略一般采用梯度下降方法,如此經(jīng)過(guò)多次迭代,直到獲得相對(duì)穩(wěn)定CNN 模型。因?yàn)镃NN 模型的參數(shù)數(shù)量多、迭代計(jì)算量大使訓(xùn)練成本較高且容易產(chǎn)生過(guò)擬合,所以相關(guān)學(xué)者從噪聲抑制、網(wǎng)絡(luò)設(shè)計(jì)和訓(xùn)練策略等方面提出多種優(yōu)化方法[8-9]。
Krizhevsky和Wan分別提出Dropout[10]和DropConnect[11]方法,通過(guò)隨機(jī)丟棄網(wǎng)絡(luò)中的卷積核或連接參數(shù),減少卷積核間的互相依賴,在提高網(wǎng)絡(luò)準(zhǔn)確率的同時(shí),也使網(wǎng)絡(luò)更具魯棒性。但這些訓(xùn)練方法,在隨機(jī)刪除卷積核或連接參數(shù)的時(shí)候,沒(méi)有考慮刪除內(nèi)容對(duì)模型結(jié)果的正面或負(fù)面影響,刪除過(guò)程缺乏對(duì)刪除內(nèi)容必要的選擇機(jī)制和策略,這樣的刪除過(guò)程主要通過(guò)增加卷積核或連接參數(shù)之間的獨(dú)立性,可理解為將大網(wǎng)絡(luò)訓(xùn)練轉(zhuǎn)化為多個(gè)小規(guī)模網(wǎng)絡(luò)訓(xùn)練,以達(dá)到抑制大網(wǎng)絡(luò)公共噪聲和過(guò)擬合的目的。
2016 年Iandola 等人提出SqueezeNet[12],通過(guò)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和采用模型壓縮技術(shù),將網(wǎng)絡(luò)參數(shù)數(shù)量減少到AlexNet 的1/50,而精確度基本與AlexNet 相近。SqueezeNet選用的網(wǎng)絡(luò)結(jié)構(gòu),其參數(shù)數(shù)量較常規(guī)網(wǎng)絡(luò)大幅減少,其尋求的網(wǎng)絡(luò)設(shè)計(jì)不是為了獲取最優(yōu)識(shí)別結(jié)果,而是在網(wǎng)絡(luò)設(shè)計(jì)和識(shí)別結(jié)果之間的一種平衡,另外,模型壓縮技術(shù)在小模型上又進(jìn)一步通過(guò)降低精度減小模型規(guī)模。Han等人提出DSD[13]訓(xùn)練方法,通過(guò)刪除網(wǎng)絡(luò)中小絕對(duì)值的連接參數(shù)提升網(wǎng)絡(luò)稀疏性,再通過(guò)重新訓(xùn)練提升精度,是從優(yōu)化參數(shù)訓(xùn)練方法的角度改進(jìn)訓(xùn)練結(jié)果。這些方法為降低網(wǎng)絡(luò)復(fù)雜性提供方案,同時(shí)也證實(shí)了CNN 網(wǎng)絡(luò)中連接參數(shù)具有較大的冗余性,即對(duì)于常規(guī)CNN網(wǎng)絡(luò)模型,存在冗余度更低的替代模型,但直接簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)或批量刪除連接參數(shù),對(duì)網(wǎng)絡(luò)訓(xùn)練效果帶來(lái)較大的不確定性,并且對(duì)刪除連接參數(shù)后訓(xùn)練效果改善的原因沒(méi)有深入說(shuō)明。
針對(duì)現(xiàn)有方法的不足,主要在優(yōu)化連接參數(shù)的更新策略方面改進(jìn)網(wǎng)絡(luò)訓(xùn)練方法。網(wǎng)絡(luò)中的不同連接參數(shù)對(duì)于網(wǎng)絡(luò)性能的影響也各不相同,采取了兩組實(shí)驗(yàn)方案檢測(cè)連接權(quán)值的絕對(duì)值大小對(duì)網(wǎng)絡(luò)性能的影響。(1)選擇刪除網(wǎng)絡(luò)中4%的連接參數(shù),具體過(guò)程是選擇訓(xùn)練好的CNN 模型,然后在各層內(nèi)依據(jù)連接權(quán)值絕對(duì)值的大小對(duì)連接進(jìn)行排序,接著從低到高依次刪除4%的連接參數(shù),測(cè)試集錯(cuò)誤率作為網(wǎng)絡(luò)性能變化的指標(biāo)。實(shí)驗(yàn)數(shù)據(jù)集為CIFAR-10和CIFAR-100,選擇基準(zhǔn)網(wǎng)絡(luò)為L(zhǎng)eNet,實(shí)驗(yàn)重復(fù)三次后取平均結(jié)果,實(shí)驗(yàn)結(jié)果如圖1(a)所示。(2)采用大端剪枝和小端剪枝對(duì)網(wǎng)絡(luò)性能進(jìn)行測(cè)試,從而探尋不同連接的貢獻(xiàn)度。大端剪枝是指刪除網(wǎng)絡(luò)中絕對(duì)值最大的部分連接;小端剪枝是指刪除網(wǎng)絡(luò)中絕對(duì)值最小的部分連接。實(shí)驗(yàn)中,分批刪除了LeNet中的不同連接,即首先刪除網(wǎng)絡(luò)中絕對(duì)值較大或較小前5%的連接,隨后將刪除比例逐漸增長(zhǎng)至40%得到不同的網(wǎng)絡(luò),接著觀察不同模型對(duì)于測(cè)試集的錯(cuò)誤率來(lái)比較不同連接的貢獻(xiàn)度,實(shí)驗(yàn)結(jié)果如圖1(b)所示。
從錯(cuò)誤率變化情況可以看出,刪除連接會(huì)造成錯(cuò)誤率上升,且這種影響呈現(xiàn)清晰的特點(diǎn),刪除權(quán)值絕對(duì)值越大的連接對(duì)錯(cuò)誤率增高的影響越大。當(dāng)刪除絕對(duì)值最小的4%連接,兩個(gè)測(cè)試集上的錯(cuò)誤率基本沒(méi)有變化,但刪除絕對(duì)值最大的4%連接,CIFAR-10 和CIFAR-100測(cè)試集的Top1錯(cuò)誤率分別迅速提升至70%和90%。這說(shuō)明刪除連接會(huì)影響錯(cuò)誤率,但因?yàn)闄?quán)值絕對(duì)值大的連接對(duì)網(wǎng)絡(luò)性能影響過(guò)大,所以通過(guò)逐步刪除大絕對(duì)值連接調(diào)整其影響的方法是不可行的。因此采用對(duì)大絕對(duì)值連接在反向傳播過(guò)程中權(quán)值增大的幅度進(jìn)行抑制的策略,達(dá)到由更多的連接權(quán)值決定CNN模型性能,而不是高度地集中在極少數(shù)大絕對(duì)值連接上,進(jìn)而抑制某些強(qiáng)噪聲干擾,提高網(wǎng)絡(luò)性能。
圖1 在LeNet上刪除不同連接
基于上述分析,提出CNN 大權(quán)值抑制策略(Weight Restrain of CNN,WR-CNN)訓(xùn)練方法。WR-CNN方法針對(duì)傳統(tǒng)訓(xùn)練過(guò)程中的權(quán)值更新部分進(jìn)行優(yōu)化,在經(jīng)過(guò)一定次數(shù)的訓(xùn)練后,每次反向傳播過(guò)程中進(jìn)行連接權(quán)值調(diào)整時(shí),根據(jù)連接權(quán)值的絕對(duì)值從小到大排序,然后根據(jù)給定需要抑制的絕對(duì)值大的連接比例(抑制率)選擇待抑制連接,并通過(guò)讓這些連接的梯度值與一個(gè)小于1的抑制系數(shù)相乘來(lái)達(dá)到抑制連接更新幅度的目標(biāo)。WR-CNN優(yōu)化訓(xùn)練方法通過(guò)抑制對(duì)網(wǎng)絡(luò)性能影響較大的連接權(quán)值變化速度來(lái)增加較大影響力連接數(shù)量,可以有效增強(qiáng)網(wǎng)絡(luò)的泛化能力和魯棒性。
絕對(duì)值較大的連接權(quán)值使網(wǎng)絡(luò)能夠更好地支持樣本數(shù)據(jù),同時(shí)也限制了其他較小連接權(quán)值對(duì)于網(wǎng)絡(luò)性能的貢獻(xiàn)。WR-CNN方法通過(guò)控制絕對(duì)值較大的連接權(quán)值更新幅度,使網(wǎng)絡(luò)中的權(quán)值參數(shù)趨于均衡,提升參與決策的參數(shù)權(quán)值數(shù)量,從而提高模型的泛化能力和魯棒性。
抑制操作是對(duì)網(wǎng)絡(luò)中貢獻(xiàn)度較大連接(記為wb)的權(quán)值更新幅度加以控制,即對(duì)反向傳播過(guò)程中計(jì)算出的Δw 乘以抑制系數(shù)p(0 <p <1),其中p 與連接的貢獻(xiàn)度成反比,即貢獻(xiàn)度越大的連接,權(quán)值更新幅度越小。設(shè)抑制方式為線性抑制,網(wǎng)絡(luò)中最大連接權(quán)值為wmax,λ為線性抑制率(λ >1),則:
反向傳播算法中網(wǎng)絡(luò)參數(shù)的迭代調(diào)整普遍采用隨機(jī)梯度下降法,該方法中參數(shù)的更新方向是網(wǎng)絡(luò)對(duì)多個(gè)樣本損失值的平均梯度方向,而非最優(yōu)調(diào)整方向,這使網(wǎng)絡(luò)容易被某些特定的樣本影響。抑制對(duì)網(wǎng)絡(luò)性能貢獻(xiàn)度較大的連接權(quán)值的增長(zhǎng)速度會(huì)使網(wǎng)絡(luò)參數(shù)更趨于平均,同時(shí)使網(wǎng)絡(luò)損失值E 的變化更加穩(wěn)定,避免網(wǎng)絡(luò)向某一參數(shù)的梯度方向大幅調(diào)整,提高了網(wǎng)絡(luò)的魯棒性和泛化能力。
算法1 WR-CNN算法的工作流程如下所示:
輸入:訓(xùn)練集D;抑制率r
輸出:連接值確定的神經(jīng)網(wǎng)絡(luò)模型
1. w(0)~N(0,1) /*隨機(jī)初始化網(wǎng)絡(luò)中所有連接*/
2. While 網(wǎng)絡(luò)不收斂do
3. Δw=?E/?w /*計(jì)算神經(jīng)元的梯度值*/
4. Sort(w) /*根據(jù)貢獻(xiàn)度對(duì)連接進(jìn)行排序*/
5. f(wb)=wb+Δw·p /*根據(jù)r 抑制貢獻(xiàn)度較大神經(jīng)元的更新速率*/
6. end
另外,針對(duì)已經(jīng)用傳統(tǒng)方法訓(xùn)練好的CNN模型,可以利用WR-CNN方法對(duì)上述模型進(jìn)行再優(yōu)化訓(xùn)練。首先,對(duì)于一個(gè)已經(jīng)用傳統(tǒng)方法訓(xùn)練完成的CNN 模型A進(jìn)行大權(quán)值壓縮處理。設(shè)計(jì)了一個(gè)大權(quán)值壓縮函數(shù),用于將模型A 中的絕對(duì)值較大的連接權(quán)值壓縮到絕對(duì)值較小的連接權(quán)值區(qū)間中。記模型A 中絕對(duì)值較大的連接權(quán)值為wb,其中絕對(duì)值最大的連接權(quán)值為wmax,需要壓縮的較大連接權(quán)值區(qū)間中最小的連接權(quán)值為wm,則大權(quán)值壓縮函數(shù)如下:
由上式可知連接權(quán)值的絕對(duì)值大于wm的這部分連接權(quán)值都將被壓縮到wm值以下,并且絕對(duì)值越大的連接權(quán)值被壓縮的比例越大。模型A 經(jīng)過(guò)大權(quán)值壓縮處理后得到模型B,模型B中的連接權(quán)值將會(huì)集中分布在較小區(qū)間,連接權(quán)值的影響被強(qiáng)制趨于均衡。然后將模型B 作為初始化的輸入網(wǎng)絡(luò),運(yùn)用WR-CNN 方法進(jìn)行優(yōu)化訓(xùn)練適當(dāng)?shù)妮啍?shù)(一般在20 輪以內(nèi)),最后將得到再優(yōu)化的目標(biāo)網(wǎng)絡(luò)模型C,通過(guò)實(shí)驗(yàn)表明模型C相較于模型A的泛化能力和魯棒性都得到了明顯的提升。
為驗(yàn)證WR-CNN 方法的有效性,使用基于Matlab平臺(tái)的MatConvNet[14]工具包,在LeNet 和AlexNet 模型上對(duì)CIFAR-10、CIFAR-100以及SVHN數(shù)據(jù)集進(jìn)行了多次實(shí)驗(yàn)。首先,將WR-CNN 方法與Dropout、DSD 方法進(jìn)行了綜合對(duì)比,其中DSD方法的稀疏率采用文獻(xiàn)[13]中對(duì)于多種卷積神經(jīng)網(wǎng)絡(luò)的推薦設(shè)置值30%,具體實(shí)驗(yàn)結(jié)果見(jiàn)表1。
由表1 數(shù)據(jù)可知DSD 方法對(duì)于網(wǎng)絡(luò)模型性能的提升效果不如WR-CNN優(yōu)化方法明顯。DSD方法在LeNet上對(duì)于CIFAR-10 的提升效果為4.22%,而WR-CNN 方法的提升效果為5.02%。而且該方法中稠密訓(xùn)練步驟使網(wǎng)絡(luò)中的參數(shù)數(shù)量與原模型相同,即并未減少訓(xùn)練網(wǎng)絡(luò)所需成本。WR-CNN方法對(duì)網(wǎng)絡(luò)性能的提升程度明顯優(yōu)于其他優(yōu)化方法,在同等級(jí)的訓(xùn)練數(shù)據(jù)集情況下,測(cè)試集的準(zhǔn)確率進(jìn)一步得到了提升,說(shuō)明該優(yōu)化方法增強(qiáng)了模型的泛化能力。
表1 CIFAR和SVHN數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
其次,將WR-CNN方法的抑制率設(shè)置為30%,觀察了不同稀疏率下多種優(yōu)化方法的Top1 錯(cuò)誤率,Dropout方法中,對(duì)于CIFAR-10和CIFAR-100數(shù)據(jù)集,當(dāng)稀疏率大于50%,其識(shí)別效果較差,故不在圖中展現(xiàn),具體結(jié)果見(jiàn)圖2、圖3。
圖2 不同方法下AlexNet錯(cuò)誤率對(duì)比(CIFAR-10)
結(jié)合圖2、圖3 可以看出,Dropout 方法對(duì)于網(wǎng)絡(luò)性能的影響與稀疏度密切相關(guān)。對(duì)于CIFAR-10 數(shù)據(jù)集,當(dāng)AlexNet 稀疏率大于50%,網(wǎng)絡(luò)的識(shí)別錯(cuò)誤率開(kāi)始出現(xiàn)明顯的上升;對(duì)于CIFAR-100 數(shù)據(jù)集,當(dāng)稀疏率大于30%之后,網(wǎng)絡(luò)性能就受到了明顯的影響。而WR-CNN方法對(duì)稀疏率的敏感性明顯要低于其他方法,同時(shí)保持了較好的準(zhǔn)確率。這說(shuō)明用WR-CNN方法優(yōu)化訓(xùn)練好的網(wǎng)絡(luò)模型具有很強(qiáng)的魯棒性。
圖3 不同方法下AlexNet錯(cuò)誤率對(duì)比(CIFAR-100)
然后,測(cè)試了上述幾種優(yōu)化方法訓(xùn)練好的網(wǎng)絡(luò)模型的魯棒性。將這些模型刪去部分大權(quán)值后在CIFAR-10數(shù)據(jù)集上的Top1錯(cuò)誤率變化。具體結(jié)果見(jiàn)圖4。
圖4所示的結(jié)果再次驗(yàn)證了本文的分析,用傳統(tǒng)訓(xùn)練方法訓(xùn)練好的網(wǎng)絡(luò)模型,其性能很大程度上依賴于網(wǎng)絡(luò)中少量的大權(quán)值連接參數(shù)。圖4中直觀地顯示出僅僅刪除了0.4%左右的大權(quán)值連接參數(shù),其網(wǎng)絡(luò)性能就會(huì)急劇下降,Top1錯(cuò)誤率接近未刪除大權(quán)值連接參數(shù)前的一倍,達(dá)到40%左右,體現(xiàn)了傳統(tǒng)訓(xùn)練方法訓(xùn)練好的網(wǎng)絡(luò)模型魯棒性較弱的特點(diǎn)。用Dropout方法優(yōu)化訓(xùn)練好的網(wǎng)絡(luò)模型在刪除了1.3%左右的大權(quán)值連接參數(shù)時(shí),Top1錯(cuò)誤率才達(dá)到40%左右,說(shuō)明該方法對(duì)于分散網(wǎng)絡(luò)模型中大權(quán)值連接參數(shù)的貢獻(xiàn)起到了作用,其優(yōu)化訓(xùn)練好的網(wǎng)絡(luò)模型魯棒性也得到了增強(qiáng)。而WR-CNN方法優(yōu)化訓(xùn)練好的網(wǎng)絡(luò)模型直到刪除了約2.3%的大權(quán)值連接參數(shù),其Top1錯(cuò)誤率才達(dá)到了40%,可見(jiàn)通過(guò)WR-CNN方法對(duì)于分散網(wǎng)絡(luò)模型大權(quán)值連接參數(shù)作用的能力明顯要高于其他方法,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)模型的魯棒性。
最后,在CIFAR-10 數(shù)據(jù)集上實(shí)現(xiàn)了對(duì)已經(jīng)訓(xùn)練好的LeNet 使用WR-CNN 方法再次優(yōu)化訓(xùn)練。該模型進(jìn)行權(quán)值壓縮前的權(quán)值分布如圖5(a)所示,壓縮后的權(quán)值分布如圖5(b)所示。對(duì)比兩圖中的權(quán)值分布可以發(fā)現(xiàn),在經(jīng)過(guò)壓縮前的LeNet 少部分大權(quán)值絕對(duì)值分布在0.2左右,而在經(jīng)過(guò)前述壓縮函數(shù)進(jìn)行壓縮后,這部分大權(quán)值絕對(duì)值被壓縮到了0.05左右。經(jīng)過(guò)17輪再優(yōu)化訓(xùn)練后的網(wǎng)絡(luò)模型在測(cè)試集上Top1 錯(cuò)誤率達(dá)到了17.45%,進(jìn)一步增強(qiáng)了模型的泛化能力,驗(yàn)證了WR-CNN 方法對(duì)于已訓(xùn)練好的CNN模型再優(yōu)化能力。
圖4 在LeNet上刪去大權(quán)值連接后的錯(cuò)誤率變化(CIFAR-10)
圖5 LeNet對(duì)權(quán)值壓縮前后的權(quán)值分布
優(yōu)化深度神經(jīng)網(wǎng)絡(luò)模型的難點(diǎn)之一在于鞍點(diǎn)的擴(kuò)散[15],WR-CNN方法通過(guò)對(duì)大權(quán)值連接參數(shù)更新策略的調(diào)整,打破隱藏層中神經(jīng)元的對(duì)稱(chēng)結(jié)構(gòu),使神經(jīng)元不依賴于其他特定神經(jīng)元,在網(wǎng)絡(luò)的優(yōu)化過(guò)程中擺脫局部最小值,跳離鞍點(diǎn)并收斂于全局最小值。網(wǎng)絡(luò)訓(xùn)練過(guò)程中分散大權(quán)值作用的思想將網(wǎng)絡(luò)的優(yōu)化轉(zhuǎn)移到對(duì)噪聲更具魯棒性的低維空間,從而減小方差并降低網(wǎng)絡(luò)的錯(cuò)誤率。權(quán)值絕對(duì)值較大的連接體現(xiàn)了網(wǎng)絡(luò)的整體需求,但它們限制了剩余權(quán)值絕對(duì)值較小的連接對(duì)于網(wǎng)絡(luò)的影響,最終使網(wǎng)絡(luò)依賴于少量參數(shù)。其過(guò)快的變化速率打破了初始化時(shí)的參數(shù)分布[16],破壞了網(wǎng)絡(luò)訓(xùn)練的平衡性和穩(wěn)定性。因?yàn)橐种撇僮髦辉黾右粋€(gè)超參數(shù)(抑制系數(shù))用于調(diào)整權(quán)值更新策略,并沒(méi)有增加反向傳播過(guò)程中的計(jì)算資源,所以WR-CNN 方法對(duì)于網(wǎng)絡(luò)的訓(xùn)練效率并沒(méi)有明顯降低。
本文提出了針對(duì)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的WR-CNN優(yōu)化訓(xùn)練方法,WR-CNN 方法通過(guò)對(duì)網(wǎng)絡(luò)中貢獻(xiàn)度較高連接的權(quán)值更新幅度進(jìn)行限制,最終提高了網(wǎng)絡(luò)的準(zhǔn)確率,抑制訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象的產(chǎn)生,優(yōu)化了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。綜合多項(xiàng)實(shí)驗(yàn)結(jié)果,WR-CNN方法對(duì)于CIFAR-10和CIFAR-100數(shù)據(jù)集,在LeNet模型上的Top1 精度分別提升5.02%和3.36%,在AlexNet 分別提升1.81%和3.69%。實(shí)驗(yàn)結(jié)果表明了傳統(tǒng)訓(xùn)練方法的不足,驗(yàn)證了現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型中廣泛存在泛化能力弱和魯棒性不足的事實(shí)。WR-CNN優(yōu)化訓(xùn)練方法可以將網(wǎng)絡(luò)模型的大權(quán)值連接參數(shù)作用分散到較小權(quán)值連接參數(shù)上,使網(wǎng)絡(luò)降低對(duì)于極少數(shù)大權(quán)值連接參數(shù)的依賴,增強(qiáng)了網(wǎng)絡(luò)的泛化能力和魯棒性。