亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AlexNet改進及優(yōu)化方法的研究

        2020-10-19 04:40:54郭敏鋼
        計算機工程與應用 2020年20期
        關鍵詞:梯度區(qū)間準確率

        郭敏鋼 ,宮 鶴

        1.吉林農業(yè)大學 信息技術學院,長春 130118

        2.吉林農業(yè)大學 吉林省智能環(huán)境工程研究中心,長春 130118

        3.吉林農業(yè)大學 吉林省農業(yè)物聯(lián)網科技協(xié)同創(chuàng)新中心,長春 130118

        1 引言

        AlexNet[1]在目標檢測[2-3]、語音識別[4]、醫(yī)學研究[5-6]等方面都有著較為突出的表現。

        AlexNet 雖然不是第一個卷積神經網絡(Convolutional Neural Networks,CNN)[7-10]模型,但卻是第一個引起眾多研究者注意的卷積神經網絡網絡模型。隨著機器學習研究領域的不斷拓展,AlexNet 也被眾多研究者作為首選的網絡模型,通過改進及優(yōu)化,使其魯棒性在不斷提高。

        LRN(Local Response Normalization)局部響應歸一化是AlexNet 網絡模型中的一個重要組成部分,其功能是能夠產生局部抑制,使被激活的神經元抑制相鄰的神經元,使得響應比較大的值更大,增加了模型的泛化能力,同時不改變數據的大小和維度。但是,由于LRN不存在可學習參數,因此提出了用WN(Weight Normalization)[11]權值歸一化來代替LRN,同時將WN置于池化層(Pooling layer)之后,并且增加一層卷積層,使權重值更大,梯度更小,進一步優(yōu)化了AlexNet的泛化性。

        優(yōu)化器(Optimizer)的主要作用是加速卷積神經網絡的訓練速度。隨著神經網絡復雜程度的加深以及計算量的增加,導致在模型訓練上的耗時增加。為了解決耗時上面的問題,對比分析了Adam[12]、RMSProp[13]、Momentum[14]三種優(yōu)化器在不同學習率(Learning rate)下對AlexNet 模型訓練的影響,并得出了相應的學習率的優(yōu)化區(qū)間,分別在不同區(qū)間上起到了優(yōu)化AlexNet 模型訓練的效果。

        激活函數(Activation Function)在卷積神經網絡中的作用是將神經元的輸入映射到輸出端,Krizhevsky等人在AlexNet中提出了ReLU激活函數[15-16],其優(yōu)勢在于正向區(qū)間為線性函數,加快了模型訓練的收斂速度的同時也解決了Softsign、TanHyperbolic(Tanh)、Softsign 等激活函數的梯度消失問題,但ReLU激活函數在模型訓練中容易造成部分神經元無法激活的現象。為了解決這一“壞死”現象,改進了ReLU 激活函數,使其在x<0負向區(qū)間部分由Swish 函數[17]代替,使ReLU 激活函數的負半軸函數稱為非線性激活函數,有效地解決了x<0 部分神經元無法激活的現象,并且在x>0 正向區(qū)間部分由ReLU6 函數代替,使其收斂速度更快的同時能夠增加參數的利用率,并且還降低了過擬合的現象發(fā)生,很好地提高了AlexNet的魯棒性。

        本文通過對AlexNet的Normalization[18]、優(yōu)化器、激活函數三方面進行了相關的優(yōu)化處理,在泛化性、模型訓練速度以及AlexNet整體的魯棒性等方面上都有所提高。在一定程度上成功地改進并優(yōu)化了AlexNet。

        2 AlexNet

        2.1 AlexNet結構

        AlexNet 是由多倫多大學教授Hinton 的學生Krizhevsky等人設計的,并在2012年刷新了image classification的記錄,取得了ImageNet Large Scale Visual Recognition Competition(ILSVRC)挑戰(zhàn)賽的冠軍。并且,AlexNet 在模型訓練提出了LRN(Local Response Normalization)局部響應歸一化、ReLU 激活函數、Dropout、GPU 加速等新的技術點,成功地推動了神經網絡的發(fā)展。

        現如今,隨著機器學習不斷的拓展,AlexNet在目標檢測、語音識別、醫(yī)學研究等方面都有著較為突出的表現。

        AlexNet 總共有 65 萬個神經元,630 000 000 個連接,60 000 000 個參數。AlexNet 結構如圖1 所示:自上而下共有八層,分別為五個卷積層和三個全連接層,其中還包含了LRN(Local Response Normalization)局部響應歸一化層以及Dropout層。

        第一、二層流程:卷積=>ReLU=>LRN歸一化=>池化;

        第三、四層流程:卷積=>ReLU;

        第五層流程:卷積=>ReLU=>池化;

        第六層流程:卷積(全連接)=>ReLU=>Dropout;

        第七層流程:全連接=>ReLU=>Dropout;

        第八層流程:全連接。

        圖1 AlexNet結構

        2.2 AlexNet的特點

        AlexNet 之所以能夠成功,主要有以下四個方面的特點:

        (1)使用ReLU激活,使計算量大大減少,由于ReLU激活函數為線性函數,其導數為1,使模型訓練的計算量減少,相較于常見的非線性S 型激活函數Softsign、Tanh、Sigmoid等收斂速度加快,如圖2所示。

        (2)AlexNet 在全連接層中使用了Dropout,在訓練時隨機忽略部分神經元,有效地 解決了過擬合問題。

        (3)局部響應歸一化層(LRN),創(chuàng)建了局部神經元的競爭機制,使響應大的值更大并且抑制響應小的值,增強了模型的泛化能力。

        (4)采用了GPU并行提高模型的訓練速度。

        圖2 ReLU與常見激活函數函數曲線對比圖

        3 AlexNet優(yōu)化

        3.1 AlexNet優(yōu)化流程

        AlexNet 優(yōu)化流程如圖3 所示,分別從以下三點進行了優(yōu)化處理。

        (1)局部歸一化層LRN 由權值歸一化層WN 優(yōu)化,并將權值歸一化層WN置于池化層之后。

        (2)ReLU 激活層由ReLU6_Swish 融合激活函數層優(yōu)化。

        (3)優(yōu)化器 Momentum、RMSProp、Adam 學習率Learning rate區(qū)間優(yōu)化。

        3.2 Normalization優(yōu)化

        3.2.1 LRN局部歸一化

        局部歸一化(Local Response Normalization),簡稱LRN,于2012年在AlexNet中提出。

        式中,為歸一化的結果,i為通道所在位置更新的值,j代表的是從j~i的像素值平方和,x,y代表待更新的像素的位置,而表示既是ReLU激活函數的輸出值又是LRN層的輸入值。a表示卷積層(包括卷積和池化操作)的輸出值,N表示通道數channel,α、β、κ、n/2、a分別代表函數的alpha、beta、bias、depth_radius、input。

        def lrn(input,depth_radius=None,bias=None,alpha=None,beta=None,name=None):

        sqr_sum[a,b,c,d]=sum(input[a,b,c,d-depth_radius:d+depth_radius+1]?? 2)

        output=input/(bias+alpha ?sqr_sum)??beta

        總體來講,就是對輸入值(aix,y)input除以一個定義的相對系數,最終達到標準化的目的。

        但后期研究者Simonyan等人[19]對LRN的應用上發(fā)現其對模型訓練的準確率實際提升得卻很少,并且通過測試LRN在ILSVRC-2012數據集(被用在ILSVRC2012—2014挑戰(zhàn)賽,數據包含1 000類圖像,訓練集1 300 000張、驗證集50 000 張和測試集100 000 張)上的圖像分類結果,得到了Top-1 和Top-5 錯誤率如表1 所示,證實了有無LRN 層對模型訓練的錯誤率幾乎沒有影響,因此LRN的作用效果一直飽受爭議。

        表1 有無LRN層錯誤率對比

        通過實驗測試也印證了部分觀點,在無LRN 層以及有LRN層時對模型訓練做出了三組模數據進行對比分析,得出的結論是LRN 對模型訓練的作用效果并不明顯,準確率變化一直保持在誤差范圍之內,并且三組準確率數據共六條準確率曲線在同一訓練模型上幾乎保持不變,意味著LRN 對測試結果幾乎沒有影響,如表2、圖4所示。

        表2 有無LRN層準確率對比

        圖3 AlexNet優(yōu)化流程

        圖4 三組有無RLN層準確率對比

        3.2.2 WN權值歸一化

        權值歸一化(Weight Normalization,WN)于2016 年由Salimans 等人提出。WN是將權重向量W 拆分成為向量方向和向量模g兩部分組成如圖5所示。

        圖5 WN權值歸一化

        通過實驗測試如圖6所示,在有WN層以及有LRN層時對模型訓練做出了三組模數據進行對比分析,并且在原AlexNet 模型基礎上進行改進,用WN 權值歸一化來代替LRN,同時將WN 層置于池化層(Pooling layer)之后,并且增加一層卷積層。將WN層全部置于池化層之后的目的是因為池化層降低了特征維度,并且通過WN 與 LRN 公式可以看出,由于 WN 相比 LRN 在歸一化算法的運算中不涉及冪運算β的同時只對神經網絡權值向量w記性參數重寫Reparameterization,從而減少了部分參數和計算量。但由于減少了樣本參數數量,在減少了參數的同時增加一層卷積層來增加神經元的數量,使模型訓練更準確。

        總體來講,WN引入了更少的參數對深度網絡的權重重寫來實現加速,并且對minibatch沒有任何的依賴,加快了收斂速度的同時,也提高了模型訓練的準確率如表3、圖6所示,達到了優(yōu)化AlexNet的目的。

        表3 LRN準確率VS.WN準確率

        圖6 WN對比LRN準確率

        3.3 優(yōu)化器(Optimizer)優(yōu)化

        優(yōu)化器(Optimizer)主要為了計算損失函數的梯度并且將所計算的梯度應用在模型訓練計算的變量更新中。簡單來講優(yōu)化器就是對AlexNet中梯度下降算法的優(yōu)化。

        選擇了動量優(yōu)化算法的Momentum 以及自適應學習率優(yōu)化算法的Adam和RMSProp這三種優(yōu)化器算法,并在AlexNet的CIFAR-10測試集上進行對比測試,對每個算法在不同學習率(Learning rate)上的最優(yōu)區(qū)間進行分析,目的是為了解決在模型訓練中由于對不同優(yōu)化器選擇學習率不準確而導致的模型收斂速度緩慢或波動過大的問題。

        3.3.1 Momentum

        Momentum 是引用了物理學中動量的方法來解決梯度下降的相關問題。其算法規(guī)則如下:

        其主要優(yōu)點是在梯度方向改變時降低超參數的更新速度,從而使震蕩受到抑制,在梯度方向一致時,加速超參數的更新,從而使收斂速度增加。

        通過實驗測試分析如圖7所示,在學習率為[0.001,1]區(qū)間上進行了數次的測試,得出了Momentum在學習率[0.17,0.398)區(qū)間上收斂性明顯優(yōu)于RMSProp和Adam,后兩種明顯地出現了波動的現象,無法對模型進行準確的訓練。

        圖7 學習率[0.17,0.398)區(qū)間內優(yōu)化器收斂性對比

        3.3.2 Adam

        Adam是Kingma和Lei Ba兩位學者在2014年12月提出的自適應學習率優(yōu)化算法的一種,其算法規(guī)則如下:

        其主要優(yōu)點是實現簡單,計算效率高,對內存需求相對較少,超參數的更新不受梯度伸縮變換的影響,適用于梯度稀疏的大噪聲問題。

        通過實驗測試分析如圖8所示,同樣是在學習率為[0.001,1]區(qū)間上進行了數次的測試,得出了Adam 在學習率[0.003,0.02)區(qū)間上收斂性明顯優(yōu)于Momentum 和RMSProp,雖然Adam 在大部分區(qū)間中收斂速度及波動都很穩(wěn)定,但RMSProp 在部分區(qū)間內的收斂性及波動性會有小概率的情況比Adam 的表現效果好,例如在0.007 9、0.008 8、0.009 4 三個學習率下收斂性要優(yōu)于Adam,因此Adam并非在[0.003,0.02)區(qū)間上絕對的優(yōu)異。

        圖8 學習率[0.003,0.02)區(qū)間內優(yōu)化器收斂性對比

        3.3.3 RMSProp

        RMSProp 是Hinton 提出的自適應學習率優(yōu)化算法的其中一種,也是相較于Adam在學習率區(qū)間上范圍更大且震蕩幅度較小的一種優(yōu)化器,其算法規(guī)則如下:

        其主要優(yōu)點是依賴于全局學習率,并解決當權重更新步長變小、學習率急劇下降的問題。

        通過實驗測試分析如圖9所示,同樣是在學習率為[0.001,1]區(qū)間上進行了數次的測試,得出了RMSProp在學習率[0.02,0.1)區(qū)間上收斂性明顯優(yōu)于Adam 和Momentum,雖然在此區(qū)間內RMSProp 表現得更優(yōu)異,但Adam也在此區(qū)間內有著良好的表現,略慢于RMSProp,波動情況略高。

        圖9 學習率[0.02,0.1)區(qū)間內優(yōu)化器收斂性對比

        總體來講,Momentum、RMSProp、Adam 三種優(yōu)化器算法都有各自適應的學習率區(qū)間,在模型訓練時需要根據項目需求對所需學習率進行仔細分析,從而選擇相適應的優(yōu)化器算法來解決實際問題,從而真正地達到優(yōu)化AlexNet的效果。

        4 激活函數(Activation functions)優(yōu)化

        激活函數(Activation functions)對于AlexNet 起著十分重要的作用,能夠給AlexNet增加一些非線性因素,使其能夠解決更多更復雜的問題,其根本作用是將神經元的輸入映射到輸出端。正是因為Krizhevsky 等人在AlexNet中提出了ReLU激活函數,并通過使用ReLU激活加快了收斂速度的同時,使模型訓練的計算量以及耗時大大減少。

        激活函數總體分為兩類如圖10 所示,一類是飽和激活函數,例如Tanh、Sigmoid 等,其劣勢之處在于計算量大,反向傳播求導時涉及除法,并且極易出現梯度消失現象,從而無法完成模型訓練;另一類則是非飽和激活函數,例如ReLU、ELU、Leaky ReLU、RReLU等,AlexNet使用非飽和激活函數ReLU 也是因為除了加快收斂速度外還能解決梯度消失問題。

        圖10 激活函數分類

        4.1 ReLU激活函數

        ReLU(Rectified Linear Units,線性修正單元)激活函數的提出是AlexNet 在2012 年ImageNet 競賽中奪冠的必要因素之一。

        其成功的關鍵因素在于,ReLU 激活函數在方向求導過程中導數不為0,如圖11所示,解決了AlexNet優(yōu)化參數時使用飽和激活函數(例如Tanh、Sigmoid 等)反向傳播求導過程中導數為0而造成的梯度消失現象,導致參數無法被更新,如圖12所示。

        圖11 ReLU導數圖像

        圖12 Sigmoid、Tanh導數圖

        4.2 ReLU激活函數優(yōu)化

        雖然ReLU 激活函數相較于Sigmoid、Tanh 在解決AlexNet在模型訓練過程中梯度消失問題取得了良好的效果,并且由于其在x>0 正向區(qū)間為線性函數,所以在一定程度上也加快了收斂速度。但是,ReLU在x<0 的負向區(qū)間上呈硬飽和,導數為0,如圖11所示,導致權重無法更新。其次,也正是因為ReLU激活函數在正向區(qū)間上呈線性函數,所以在某種程度上對較深層的神經網絡中效果并不是很突出。

        不少研究者不斷地研究改進ReLU 激活函數來優(yōu)化AlexNet,提出了一些ReLU激活函數的“升級”版,例如:LReLU、ELU等如圖13所示。雖然這些改進的ReLU激活函數在x<0 負向區(qū)間上盡可能地解決了無法更新權重(激活神經元)的作用,但是伴隨著參數的增加,同時也會出現過擬合的現象。不僅如此,由于隨著AlexNet 復雜程度的加深,當節(jié)點和層數過多輸出為正時,模型訓練計算的輸出與目標相差過大而導致無法收斂的情況。

        圖13 ReLu及其改進函數

        為此,提出了一種解決方案:利用2017年谷歌大腦提出的新的Swish 激活函數(也被稱為self-gated(自門控),如圖14)在x<0 負向區(qū)間上為半飽和函數,同時導數不為0 的特點,其與ReLU6 激活函數的x>0 正向區(qū)間結合成為分段函數,如圖15所示。

        圖14 Swish激活函數

        圖15 ReLU6、Swish融合函數

        Swish激活函數的導數為:

        圖16 ReLU6對比ReLU

        這兩種函數融合的主要優(yōu)點在于:一方面由于ReLU6激活函數對ReLU 激活函數的輸入數據上界進行了限制,如圖16所示,避免了AlexNet模型訓練過程中ReLU激活函數由于接受域過廣而導致的梯度爆炸現象的發(fā)生,收斂速度更快的同時能夠增加參數的利用率,并且還降低了過擬合的現象發(fā)生;另一方面,由于Swish 激活函數在x<0 負半軸上為半飽和函數,既解決了ReLU激活函數部分權重無法更新的情況,又不會造成過擬合的現象。總體來講,ReLU6與Swish的融合優(yōu)化了ReLU激活函數的同時能夠更好地增加AlexNet在模型訓練上的魯棒性。

        5 測試分析

        結合了本文提出的三點優(yōu)化AlexNet 的方法,在CIFAR-10、MNIST、Fashion-MNIST 數據集上進行了模型訓練測試,對比了經過本文提出的三點優(yōu)化方法優(yōu)化的AlexNet 和沒有經過本文提出的三點優(yōu)化方法優(yōu)化的AlexNet 在模型訓練中收斂性以及準確率上的不同。對比測試準確率、收斂性結果如圖17、18 以及表4 所示。

        圖17 優(yōu)化后對比無優(yōu)化準確率

        圖18 優(yōu)化后對比無優(yōu)化準確率

        表4 Swish激活函數谷歌測試 %

        從圖17 的測試結果可以看出,經過本文提出的三點優(yōu)化方法優(yōu)化后的AlexNet的數據集模型訓練準確率opt 曲線明顯高于未經過任何優(yōu)化的模型訓練準確率none曲線;從圖18的測試結果可以看出,經過本文提出的三點優(yōu)化方法優(yōu)化后的模型訓練收斂速度opt曲線也明顯快于未經過任何優(yōu)化的模型訓練收斂速度none曲線,波動情況也得到了明顯的緩解??傮w達到了優(yōu)化AlexNet的目的。

        6 結語

        本文通過對AlexNet的Normalization、優(yōu)化器、激活函數三方面進行了相關的優(yōu)化處理,主要在泛化性、模型訓練速度以及AlexNet整體的魯棒性等方面上都有所提高。在一定程度上成功地改進并優(yōu)化了AlexNet,但仍有些優(yōu)化改進不足的部分值得去繼續(xù)實驗研究,同時也為AlexNet的研究者們提供一些新的方法和思路。

        猜你喜歡
        梯度區(qū)間準確率
        解兩類含參數的復合不等式有解與恒成立問題
        你學會“區(qū)間測速”了嗎
        一個改進的WYL型三項共軛梯度法
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
        一種自適應Dai-Liao共軛梯度法
        應用數學(2020年2期)2020-06-24 06:02:50
        一類扭積形式的梯度近Ricci孤立子
        高速公路車牌識別標識站準確率驗證法
        區(qū)間對象族的可鎮(zhèn)定性分析
        亚洲国产精品久久艾草| 免费一本色道久久一区| 国产91AV免费播放| 淫秽在线中国国产视频| 手机在线观看日韩不卡av| 国产乱码精品一区二区三区四川人 | 无码中文日韩Av| 日本黄色高清视频久久| 欧美又大粗又爽又黄大片视频| 国产午夜伦鲁鲁| 亚洲在AV极品无码天堂手机版| 2020亚洲国产| 三级网站亚洲三级一区| 欧美乱妇高清无乱码免费| 蜜臀av性久久久久蜜臀aⅴ| 亚洲AV日韩AV无码A一区 | 国产一级av理论手机在线| 精品国产成人av久久| 欧洲女人性开放免费网站| 国产精品偷伦免费观看的| 日韩少妇人妻一区二区| 澳门蜜桃av成人av| 欧美大屁股xxxx| 日韩丝袜亚洲国产欧美一区| 亚洲一区二区三区码精品色| 性高朝久久久久久久3小时| 国产婷婷一区二区三区| 午夜亚洲国产精品福利| 日本加勒比精品一区二区视频| 久久久久亚洲av无码专区首| 中文字幕乱码人妻一区二区三区| 亚洲国产成人手机在线观看| 男女动态视频99精品| 日本顶级metart裸体全部| 一本加勒比hezyo无码人妻| 免费jjzz在线播放国产| 久久夜色精品国产三级| 久久99国产精品久久| 国产精品视频一区国模私拍| 中文字幕亚洲日本va| 妺妺窝人体色777777|