亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于非線性激活函數(shù)的深度學(xué)習(xí)分類方法研究

        2018-07-09 07:18:14楊國亮許楠李放龔曼
        關(guān)鍵詞:實(shí)驗(yàn)

        楊國亮, 許楠, 李放, 龔曼

        (江西理工大學(xué)電氣工程與自動(dòng)化學(xué)院,江西 贛州 341000)

        在過去幾年中,計(jì)算機(jī)視覺發(fā)展迅速,出現(xiàn)了如閾值處理[1]等先進(jìn)的技術(shù).已經(jīng)從工程特征體系發(fā)展至端到端特征學(xué)習(xí)架構(gòu),如深層神經(jīng)網(wǎng)絡(luò),以及其在語義分割[2]和圖像檢索[3]上的應(yīng)用.產(chǎn)生這種革命性變化的主要原因是大數(shù)據(jù)集、高性能硬件和新的有效模型等的迅速發(fā)展.其中,最關(guān)鍵的一個(gè)因素是激活函數(shù)對(duì)深層無監(jiān)督學(xué)習(xí)的影響.

        人工神經(jīng)網(wǎng)絡(luò)利用激活函數(shù)的歷史早于深度學(xué)習(xí),從初始的S型函數(shù) (Sigmod)、正切函數(shù)(tanh)到已知的目前應(yīng)用最廣泛的整流線性函數(shù)(ReLU)[4].而ReLU的出現(xiàn)使得深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練水平取得了新的突破.ReLU是一個(gè)分段線性函數(shù),可將負(fù)輸入保持為正輸入,輸出為零.這種形式使得它可以減輕梯度消失的問題,適合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò).然而,它也有一個(gè)潛在的缺點(diǎn),即一旦梯度達(dá)到零,神經(jīng)元將永遠(yuǎn)不會(huì)激活.針對(duì)這一缺陷,Maas 等[5]提出了漏整流線性單元(LReLU),將ReLU的零負(fù)部以線性函數(shù)代替.其后,LReLU被擴(kuò)展為參數(shù)整流線性單元(PReLU)[6],將負(fù)部的斜率改為由參數(shù)α控制,通過神經(jīng)網(wǎng)絡(luò)的反向傳遞不斷更新修正α的值,這一想法是突破性的,改變了以往激活函數(shù)沒有學(xué)習(xí)能力的性質(zhì).實(shí)踐表明PReLU能夠?qū)崿F(xiàn)更高的分類精度,并且?guī)缀醪粫?huì)出現(xiàn)因引入?yún)?shù)而引起過擬合的現(xiàn)象.在這之后,Clevert等[7]提出了指數(shù)線性單元(ELU),創(chuàng)新性地將負(fù)部的線性利用指數(shù)函數(shù)修正為非線性,使得負(fù)部具有了軟飽和特性,導(dǎo)致更深入的學(xué)習(xí)和更好的泛化性能,但是其參數(shù)無法反向更新.上述的兩類激活單元在最新的深度學(xué)習(xí)框架中已經(jīng)能夠直接調(diào)用,達(dá)到了公認(rèn)的效果.但是,指數(shù)單元和整流單元之間存在一種隔閡,致使其相互之間不具有統(tǒng)一性.整流單元只能夠很好地表達(dá)線性函數(shù)簇,而指數(shù)單元只能夠表達(dá)非線性指數(shù)函數(shù)簇,這些缺陷在某種程度上可能會(huì)破壞只能使用特定的激活函數(shù)的架構(gòu)的代表性能力.此外,大量研究表明,ELU與批次歸一化(Batch Normalization,BN)[8]結(jié)合使用可能會(huì)損害分類精度.目前,使用BN是非常深的網(wǎng)絡(luò)消除過擬合風(fēng)險(xiǎn)的主要手段之一.

        針對(duì)以上所述激活函數(shù)的優(yōu)缺點(diǎn),由PReLU和ELU啟發(fā),提出了一種新的激活單元.它相對(duì)于PReLU和ELU而言擁有更多參數(shù),能夠涵蓋現(xiàn)有的整流單元和指數(shù)單元,并且能夠在二者之間互相轉(zhuǎn)換.另外,函數(shù)正部分被做出了修改,其線性條件被修正為非線性,這可以實(shí)現(xiàn)在幾乎不影響訓(xùn)練精度的情況下適當(dāng)加快收斂速度的目標(biāo).

        1 非線性指數(shù)單元

        非線性指數(shù)單元 (Non-Linear Exponential Unit,NLEU)根本上是ELU的泛化,即它本身來源于ELU,具有ELU的所有優(yōu)點(diǎn),但其又不同于ELU.對(duì)于負(fù)部分,為了彌合ELU和PReLU的差異,在ELU的基礎(chǔ)上加入額外的參數(shù)β,以控制ELU的形狀變化.再者,ELU的參數(shù)值只能人為的調(diào)節(jié)而不具有反向自動(dòng)調(diào)整的能力,但NLEU則解決了這一不足;對(duì)于正部分,增加參數(shù)η使其線性轉(zhuǎn)化為指數(shù)非線性,不同于Sigmod和tanh函數(shù)可能會(huì)導(dǎo)致梯度消失,NLEU不會(huì)出現(xiàn)此現(xiàn)象.因?yàn)槠洳痪哂杏绎柡托再|(zhì),其導(dǎo)數(shù)不會(huì)趨近于0.通過反向傳遞隨機(jī)梯度下降算法(SGD)優(yōu)化參數(shù)β、α和η,使之能夠在指數(shù)單元、整流單元之間隨意切換.這種設(shè)計(jì)使NLEU比其前身ReLU、PReLU和ELU更加靈活,而后者均可視為NLEU的特殊情況.因此,通過學(xué)習(xí)參數(shù)α、β和η,負(fù)部分的線性和非線性空間可以在單個(gè)激活功能模塊中被覆蓋,正部分亦可調(diào)節(jié)覆蓋范圍,而其它激活則不具有此屬性.

        公式 (1)~(3) 分別為激活 ReLU、PReLU 和ELU的公式表達(dá)式.

        由公式(1)可見,ReLU 在 x<0時(shí)硬飽和,因此具有負(fù)部稀疏性;在x>0時(shí)導(dǎo)數(shù)恒為1,從而保證ReLU保持梯度不衰減,進(jìn)而緩解梯度消失問題.而PReLU引入可學(xué)習(xí)參數(shù)α調(diào)節(jié)負(fù)部斜率,并通過反向帶動(dòng)量方式[6]不斷更新,利用通道策略解決增加參數(shù)所帶來的過擬合風(fēng)險(xiǎn).ELU總結(jié)了整流單元的優(yōu)點(diǎn)與不足,提出將負(fù)部修正為指數(shù)函數(shù),具有左側(cè)軟飽和特性,它的總體輸出均值接近于零,所以收斂速度更快.

        以上三種激活方式對(duì)深度神經(jīng)網(wǎng)絡(luò)的發(fā)展產(chǎn)生巨大影響.但是正如引言所述,經(jīng)過仔細(xì)分析后發(fā)現(xiàn):指數(shù)單元與整流單元存在一種共性但缺乏理論上的統(tǒng)一.為此,提出了非線性指數(shù)單元,其形式上屬于指數(shù)單元但可以對(duì)整流單元全覆蓋.通過調(diào)整參數(shù)α、β的值可以實(shí)現(xiàn)在PReLU、ReLU和ELU之間的隨意轉(zhuǎn)換.如公式(4).

        進(jìn)一步,將公式(4)的正部分引入?yún)?shù)η修正為指數(shù)函數(shù),以縮減正部分均值,實(shí)現(xiàn)更好的總體均值,其梯度不再恒定為1,而是隨著訓(xùn)練的不斷深入逐漸降低.這并不用擔(dān)心梯度消失的問題,因?yàn)樗cSimgod和tanh不同,并不具有右飽和.通過對(duì)參數(shù)η的調(diào)節(jié)可以恢復(fù)為線性,提高了NLEU的覆蓋域調(diào)節(jié)能力.最終得出非線性指數(shù)單元的基本公式,如公式(5).ReLU、PReL、ELU 及 NLEU的函數(shù)圖像如圖1所示.值得注意的是,參數(shù)η的初始值理論上應(yīng)當(dāng)在0~1之間接近于1的范圍內(nèi)調(diào)節(jié),才能具有在幾乎不影響訓(xùn)練精度的情況下適當(dāng)提高收斂速度的作用.若超過1則會(huì)使梯度不斷上升從而導(dǎo)致可能的發(fā)散;如果遠(yuǎn)離1而接近于0,則會(huì)導(dǎo)致正部分信息的大量流失,使得訓(xùn)練精度急速下降,在學(xué)習(xí)率較大的情況下,致使過擬合的出現(xiàn).同理,負(fù)部在不具有同ReLU類似的稀疏能力的情況下,參數(shù)α和β的設(shè)置使得NLEU負(fù)部范圍的變化也可能會(huì)導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練到一定程度時(shí)發(fā)散.理論上講,上述可能的情況并不是由增加參數(shù)所帶來的,因?yàn)檫@些現(xiàn)象都能通過調(diào)節(jié)參數(shù)值而得到解決.在實(shí)驗(yàn)部分將有具體分析以證明以上理論的正確性.

        由公式(5)可見,當(dāng)η=1時(shí),NLEU正部分退化為線性x;當(dāng)β=1時(shí),NLEU負(fù)部分退化為ELU;當(dāng)β固定為很小的值時(shí),負(fù)部分近似為PReLU;當(dāng)α=0時(shí),負(fù)部等價(jià)于ReLU.

        圖1 4種激活函數(shù)圖像

        對(duì)于NLEU來說,其參數(shù)α、β和η的值通過類似于權(quán)重反向更新的方式更新.由于NLEU處處可微,因此使用NLEU的深度網(wǎng)絡(luò)可以端到端地訓(xùn)練.公式(6)為NLEU的參數(shù)更新法則,其中求偏導(dǎo)表示所對(duì)應(yīng)參數(shù)的梯度.

        對(duì)于參數(shù)更新而言,其初始值顯得不是很重要,但是參數(shù)初始化對(duì)于結(jié)果的影響是不可忽略的.根據(jù)前者的理論基礎(chǔ)[6-7],對(duì)于α,一般選用0.25、1或2為初始值進(jìn)行設(shè)置;對(duì)于β,選用1進(jìn)行初始化;對(duì)于η,在1~0之間以0.05為間距逐步取值作為其初始值.在實(shí)驗(yàn)中,將分析各參數(shù)不同初始值對(duì)結(jié)果的影響.另外,文中強(qiáng)調(diào)了激活函數(shù)參數(shù)更新的權(quán)重衰減的重要性,這不同于整流單元,權(quán)重衰減對(duì)于指數(shù)單元的影響不可忽略.

        此外,受到ELU不能使用BN的啟發(fā),增加了額外參數(shù)的NLEU,理論上能夠使用BN,這也大大提高了NLEU在更加深層的網(wǎng)絡(luò)中的優(yōu)化能力.在不考慮正部分非線性的情況下,NLEU可以固有的分為如公式(7)所示的結(jié)構(gòu).訓(xùn)練時(shí),數(shù)據(jù)信息流出BN后首先流入類似PReLU形式中,而PReLU對(duì)BN有效,所以能夠顯著提高激活性能.這種結(jié)構(gòu)使得NLEU擁有了良好的融合性能.在公式(7)的基礎(chǔ)上,再引入對(duì)正部分的非線性控制以使此函數(shù)的結(jié)構(gòu)完整.

        增加參數(shù)也帶來了可能出現(xiàn)的過擬合風(fēng)險(xiǎn).由于其參數(shù)更新與卷積權(quán)重更新方法相類似,所以采用了與PReLU相似的方法——多參數(shù)共享通道策略來解決可能的風(fēng)險(xiǎn).對(duì)于網(wǎng)絡(luò)中眾多的權(quán)重?cái)?shù)而言,增加的參數(shù)與權(quán)重共享通道后對(duì)結(jié)果的影響很小.在訓(xùn)練幾十萬以上的大數(shù)據(jù)的情況下,出現(xiàn)過擬合的可能性更低.在實(shí)驗(yàn)中可以發(fā)現(xiàn),只要參數(shù)值設(shè)置合理,則并不會(huì)導(dǎo)致過度擬合.值得一提的是,增加參數(shù)所導(dǎo)致的計(jì)算量的增加可能會(huì)導(dǎo)致訓(xùn)練時(shí)間的大幅增加.通過仔細(xì)的優(yōu)化代碼,最終的訓(xùn)練結(jié)果顯示,采用NLEU的網(wǎng)絡(luò)與采用PReLU的網(wǎng)絡(luò)用時(shí)近似,有略微增加.

        2 實(shí) 驗(yàn)

        為了驗(yàn)證NLEU在不同網(wǎng)絡(luò)結(jié)構(gòu)和不同數(shù)據(jù)庫下的實(shí)際效果,利用深度學(xué)習(xí)框架Caffe[9]分別在Cifar10和Cifar100數(shù)據(jù)集上做了具體實(shí)驗(yàn).這些實(shí)驗(yàn)針對(duì)最先進(jìn)的架構(gòu)、深淺不同的網(wǎng)絡(luò)以及不同的激活函數(shù).本節(jié)具體介紹了每項(xiàng)實(shí)驗(yàn)的實(shí)現(xiàn)過程,并對(duì)結(jié)果進(jìn)行分析以驗(yàn)證所提出的理論.另外,文中復(fù)現(xiàn)了不同先進(jìn)架構(gòu)的訓(xùn)練過程,并通過改進(jìn)其激活函數(shù),能夠?qū)崿F(xiàn)更為先進(jìn)的結(jié)果,這能夠證明NLEU的有效性.以下所有實(shí)驗(yàn),NLEU中的參數(shù)α的初始值設(shè)置為0.25、1或2;對(duì)于參數(shù)β,選用1進(jìn)行初始化;而η的初始值則根據(jù)每項(xiàng)實(shí)驗(yàn)的實(shí)際需要進(jìn)行調(diào)整.在此聲明,文中所有實(shí)驗(yàn)結(jié)果均取五次實(shí)驗(yàn)中的最優(yōu)結(jié)果登記.

        2.1 在Cifar10數(shù)據(jù)庫的實(shí)驗(yàn)

        本實(shí)驗(yàn)初步驗(yàn)證NLEU的效果.采用NIN(NetworkinNetwork)[10]架構(gòu)和密集卷積網(wǎng)絡(luò)DenseNet[11]在Cifar10數(shù)據(jù)庫上分別進(jìn)行實(shí)驗(yàn).首先,NIN架構(gòu)有9個(gè)卷積層,其中6個(gè)具有大小為1×1的內(nèi)核,且該架構(gòu)沒有完全連接(FC)層,易于訓(xùn)練,足以綜合評(píng)估可學(xué)習(xí)參數(shù)的作用.其次,密集卷積網(wǎng)絡(luò)是最新的CNN分類架構(gòu),可以驗(yàn)證NLEU在先進(jìn)架構(gòu)中的效果.Cifar10數(shù)據(jù)庫包含50000個(gè)大小為32×32的訓(xùn)練樣本和10000個(gè)同大小的驗(yàn)證樣本,共分為10類.

        在使用NIN架構(gòu)進(jìn)行試驗(yàn)時(shí),每組實(shí)驗(yàn)除激活層外網(wǎng)絡(luò)其他部分均保持相同.以整流單元ReLU、PReLU和指數(shù)單元ELU為具體的函數(shù)變量.網(wǎng)絡(luò)采用高斯初始化,對(duì)應(yīng)標(biāo)準(zhǔn)差為0.05,共進(jìn)行120000次迭代計(jì)算.激活參數(shù)權(quán)值更新不使用衰減策略,試驗(yàn)時(shí)改變的僅僅是參數(shù)初始值.學(xué)習(xí)率衰減方式可分為單步衰減和多步衰減方式.另外,文中復(fù)現(xiàn)了文獻(xiàn)[10]中NIN架構(gòu)在原始Cifar10數(shù)據(jù)集上的實(shí)驗(yàn),精度為89.72%(如表1中ReLU結(jié)果),原文為89.59%,結(jié)果近似.表1顯示了具體實(shí)驗(yàn)結(jié)果.

        表1 在Cifar10數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

        當(dāng)激活函數(shù)變?yōu)镹LEU,且α的初始值設(shè)置為0.25和1并采用單步學(xué)習(xí)率衰減方式時(shí),出現(xiàn)未迭代至100000次(該處為學(xué)習(xí)率第一次進(jìn)行衰減)便發(fā)散的情況.而使用其他激活函數(shù)并沒有出現(xiàn)這種情況.當(dāng)然,這種現(xiàn)象是在初始學(xué)習(xí)率設(shè)置為0.01的情況下出現(xiàn)的,將初始學(xué)習(xí)率減小10倍后,該現(xiàn)象消失,但訓(xùn)練結(jié)果明顯變差.為此,增設(shè)一組對(duì)比實(shí)驗(yàn),即多步學(xué)習(xí)率衰減實(shí)驗(yàn),即提前進(jìn)行學(xué)習(xí)率的衰減,迭代至100000次后再衰減一次.經(jīng)過對(duì)實(shí)驗(yàn)過程的分析觀察發(fā)現(xiàn),當(dāng)縮小η的值時(shí),發(fā)散的情況會(huì)愈加嚴(yán)重,即會(huì)縮短發(fā)散出現(xiàn)的迭代次數(shù).而如果增大α的初始值,則這種狀況會(huì)逐漸減輕,當(dāng)α增大到2時(shí),這種現(xiàn)象完全消失.該現(xiàn)象的出現(xiàn),原因可能是由于縮小正部范圍會(huì)導(dǎo)致部分正信息流失,從而加速了發(fā)散的出現(xiàn).而增加負(fù)部分的區(qū)域,則會(huì)導(dǎo)致負(fù)信息盡可能地被包括而減少信息流失.二者均從總體輸出均值接近零的方面來考慮,因而緩解了發(fā)散的出現(xiàn).但并非負(fù)部區(qū)域越大結(jié)果越好,當(dāng)α初始值被增加到3時(shí),與α=2相比,結(jié)果并無明顯差距,說明當(dāng)α增大到一定值后,即負(fù)部信息被盡可能的包含后,再做出增大α初始值的行為便無效.上述分析說明,這種狀況的出現(xiàn)并非是由于增加參數(shù)而導(dǎo)致,因?yàn)榇爽F(xiàn)象可以通過調(diào)節(jié)參數(shù)而得到解決.

        對(duì)表1數(shù)據(jù)分析可知,當(dāng)使用多步學(xué)習(xí)率衰減時(shí),NLEU展示了絕對(duì)的優(yōu)勢(shì),這恰恰證明了NLEU具有在學(xué)習(xí)率較小的情況下,能夠取得較高精度的優(yōu)點(diǎn).當(dāng)α增大至2時(shí),與ELU、ReLU及PReLU相比具有明顯的優(yōu)勢(shì),ENLU-NIN所取得的92.15%的訓(xùn)練精度顯著優(yōu)于文獻(xiàn)[10]中89.59%的精度.以上結(jié)果表明了增加參數(shù)所帶來的好處.另外,參數(shù)η的小幅度減小并未對(duì)結(jié)果造成很大影響,如果是在對(duì)精度要求較小的情況下,便可通過調(diào)節(jié)η加快收斂速度.經(jīng)過對(duì)不同η初始值的訓(xùn)練日志分析后發(fā)現(xiàn),當(dāng)η=1時(shí),在102000次迭代后精度達(dá)到0.9,而η=0.95時(shí)則在96000次達(dá)到該精度,η=0.85時(shí)則在76000次,在η=0.8時(shí)更是在62000次達(dá)到0.9的精度.這種調(diào)整和所帶來的現(xiàn)象在本實(shí)驗(yàn)中顯得沒有必要,但是在百萬級(jí)甚至上億級(jí)的數(shù)據(jù)訓(xùn)練之中顯得不可忽略.從表1中還可以發(fā)現(xiàn),ELU的參數(shù)初始值的變化對(duì)結(jié)果的影響幾乎可以忽略不計(jì),而NLEU則完全相反.圖2為ReLU、PReLU、ELU和NLEU最優(yōu)的精度和對(duì)應(yīng)的訓(xùn)練損失變化曲線.

        圖2 NIN架構(gòu)在Cifar10上使用不同激活的最好結(jié)果

        圖3 NLEU在密集卷積架構(gòu)中的實(shí)驗(yàn)變化曲線

        從圖2中可以發(fā)現(xiàn),NLEU能夠在收斂速度和訓(xùn)練精度上對(duì)其他激活方式取得雙重優(yōu)勢(shì).

        隨后,文中使用40層DenseNet架構(gòu)進(jìn)行了驗(yàn)證實(shí)驗(yàn).在使用NLEU改進(jìn)網(wǎng)絡(luò)后得到的精度為92.64%,優(yōu)于原始架構(gòu)復(fù)現(xiàn)得到92.26%.這說明NLEU能夠一定程度上改善網(wǎng)絡(luò),證明了NLEU優(yōu)秀的普遍性,其在先進(jìn)架構(gòu)中仍然能夠發(fā)揮優(yōu)勢(shì).圖3顯示了密集卷積網(wǎng)絡(luò)原始結(jié)構(gòu)、以NLEU有激活權(quán)值衰減方式改進(jìn)和無激活權(quán)值方式改進(jìn)后的訓(xùn)練損失和測(cè)試精度變化曲線.

        從圖3可以看出當(dāng)有激活參數(shù)權(quán)值衰減時(shí),NLEU略優(yōu)于原始密集卷積架構(gòu).當(dāng)無激活參數(shù)權(quán)重衰減時(shí)與前兩者有較大差距,權(quán)重衰減所導(dǎo)致的結(jié)果剛好與實(shí)驗(yàn)2.2中使用MNIN架構(gòu)相反,這里可能和架構(gòu)的組織有關(guān).盡管如此,NLEU仍然保持優(yōu)勢(shì).

        2.2 在Cifar100數(shù)據(jù)集中的實(shí)驗(yàn)

        為了實(shí)現(xiàn)更好的結(jié)果,首先改進(jìn)了NIN架構(gòu),使之能夠?qū)崿F(xiàn)更高的準(zhǔn)確率.改進(jìn)措施主要是:在原始架構(gòu)上增加了一個(gè)NIN單元;增加了原網(wǎng)絡(luò)沒有的全連接層;將第一個(gè)池化層改為平均池化;為了解決增加層數(shù)所帶來的損失,網(wǎng)絡(luò)增加了“退出(Dropout)”[12]單元,并根據(jù)數(shù)十次的實(shí)驗(yàn)結(jié)果優(yōu)化了卷積參數(shù);為了與激活更好的搭配,將卷積權(quán)重初始化方法改為 “Xavier”[13]初始化方法.最終使網(wǎng)絡(luò)結(jié)構(gòu)達(dá)到13層,將其命名為“MNIN”架構(gòu),并聲明所做的所有改進(jìn)都是以實(shí)驗(yàn)結(jié)果為依據(jù),以便實(shí)現(xiàn)更好的效果和驗(yàn)證NLEU.采用MNIN架構(gòu)訓(xùn)練Cifar100(共100類,50000訓(xùn)練樣本和10000驗(yàn)證樣本),主要針對(duì)不同激活、權(quán)重衰減與否以及不同參數(shù)的變化三個(gè)方面驗(yàn)證NLEU對(duì)于多分類任務(wù)的表現(xiàn).實(shí)驗(yàn)分別在60000、90000次迭代后使學(xué)習(xí)率衰減一次,基礎(chǔ)學(xué)習(xí)率為0.01,其他設(shè)置基本與實(shí)驗(yàn)2.1相同.值得注意的是,為了保證精度,在實(shí)驗(yàn)2.2和實(shí)驗(yàn)2.3當(dāng)中,參數(shù)η均被設(shè)置為1且不更新.結(jié)果發(fā)現(xiàn),MNIN較NIN架構(gòu)在各種情況下的準(zhǔn)確率普遍有了較為明顯的提升.表2顯示了具體的實(shí)驗(yàn)結(jié)果.

        表2 MNIN架構(gòu)在Cifar100上的結(jié)果

        通過表2發(fā)現(xiàn),NLEU具有一致的優(yōu)越性.結(jié)果顯示,激活參數(shù)的權(quán)重衰減與否會(huì)影響最終的分類效果.與實(shí)驗(yàn)2.1及2.3結(jié)果相聯(lián)系可以發(fā)現(xiàn),激活參數(shù)的權(quán)重衰減對(duì)于分類精度的影響可能是積極的也可能是消極的,具體的原因缺乏理論解釋.盡管這種影響在某些情況下表現(xiàn)的很微弱,但是仍然可以顯現(xiàn).圖4顯示了使用不同激活函數(shù)的MNIN架構(gòu)的準(zhǔn)確率及對(duì)應(yīng)訓(xùn)練損失變化曲線.從圖中可以發(fā)現(xiàn)NLEU的訓(xùn)練情況略優(yōu)于ELU,明顯優(yōu)于PReLU和ReLU.

        另外,文中使用NLEU并采用前面實(shí)驗(yàn)效果最優(yōu)的參數(shù)設(shè)置改進(jìn)了寬泛殘留架構(gòu)(Wide Residual Networks,WRN)[14],以訓(xùn)練原始 Cifar100 數(shù)據(jù)集,最終實(shí)現(xiàn)了非常先進(jìn)的結(jié)果.表3顯示了與其他經(jīng)典架構(gòu)的對(duì)比.

        2.3 經(jīng)典殘差網(wǎng)絡(luò)(ResNet)實(shí)驗(yàn)

        為了驗(yàn)證BN對(duì)NLEU的影響以及該函數(shù)在深層網(wǎng)絡(luò)中的效果,使用不同層數(shù)的殘差網(wǎng)絡(luò)訓(xùn)練原始Cifar10數(shù)據(jù)庫.此實(shí)驗(yàn)使用了與文獻(xiàn) [20]一致的非瓶頸殘差結(jié)構(gòu).為了提高實(shí)驗(yàn)的可靠性,首先復(fù)現(xiàn)文獻(xiàn)[20]中相關(guān)實(shí)驗(yàn).經(jīng)對(duì)比,結(jié)果與原文近似.求解文件設(shè)置10萬次迭代,初始學(xué)習(xí)率為0.1.表 4、表5、表6分別為20層、32層及56層殘差網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果.

        由表4可以看出NLEU在有權(quán)值衰減時(shí)對(duì)其它激活保持精度上的優(yōu)勢(shì),在α=0.25時(shí)達(dá)到最佳.盡管這種優(yōu)勢(shì)是微弱的,但這是在小數(shù)據(jù)集上的結(jié)果,如果在大數(shù)據(jù)集上可能會(huì)實(shí)現(xiàn)更明顯的優(yōu)勢(shì).

        圖4 架構(gòu)MNIN在Cifar100上不同激活的準(zhǔn)確率

        表3 NLEU-WRN與經(jīng)典架構(gòu)的結(jié)果對(duì)比

        表4 20層ResNet實(shí)驗(yàn)結(jié)果

        表6 56層ResNet實(shí)驗(yàn)結(jié)果

        表5 32層ResNet實(shí)驗(yàn)結(jié)果

        經(jīng)過實(shí)驗(yàn)可以看出,深層ResNet(56層)的精度相比于32層并無明顯優(yōu)勢(shì),潛在的原因可能是深層非瓶頸結(jié)構(gòu)對(duì)訓(xùn)練會(huì)產(chǎn)生不利的影響.這也是文獻(xiàn)[20-22]在56層以上的深層網(wǎng)絡(luò)中更多地采用瓶頸結(jié)構(gòu)來訓(xùn)練的原因.同時(shí)發(fā)現(xiàn),在網(wǎng)絡(luò)中對(duì)卷積采用不同的初始化,并配合不同的激活會(huì)有不同的效果.

        相比于本實(shí)驗(yàn)中的其它結(jié)果,只是簡(jiǎn)單地改變激活功能使得NLEU始終保持優(yōu)勢(shì),通過調(diào)節(jié)參數(shù)初始值可以實(shí)現(xiàn)最佳的效果.在實(shí)驗(yàn)過程中發(fā)現(xiàn),由于NLEU擁有參數(shù)可更新的性質(zhì),文中嘗試在NLEU后添加BN層訓(xùn)練,結(jié)果發(fā)現(xiàn)無法訓(xùn)練,證明了激活層不同于卷積,BN對(duì)于參數(shù)可更新的激活函數(shù)并無益處.雖然在原始ResNet(該網(wǎng)絡(luò)中每個(gè)卷積層后均使用了BN)中僅更改激活部分證明了BN對(duì)于NLEU激活并無害處,但那僅限于對(duì)卷積使用BN.

        根據(jù)所有實(shí)驗(yàn)結(jié)果表明:在不同網(wǎng)絡(luò)和不同數(shù)據(jù)集下使用NLEU取得最優(yōu)的結(jié)果所對(duì)應(yīng)的參數(shù)初始值的設(shè)置不同.另外,從本節(jié)表中可以發(fā)現(xiàn),隨著ResNet層數(shù)的增加,BN對(duì)ELU的影響越來越大.ELU在20層時(shí)優(yōu)于ReLU,但在56層時(shí)效果已明顯較差.總之,本實(shí)驗(yàn)證明了BN對(duì)NLEU無害.

        3 結(jié) 論

        激活函數(shù)是深層神經(jīng)網(wǎng)絡(luò)的重要組成部分,對(duì)特征提取的結(jié)果具有重大影響.文章推廣了一種新的非線性指數(shù)激活函數(shù),以應(yīng)用在深度學(xué)習(xí)分類中.通過使用經(jīng)典及最新的先進(jìn)架構(gòu)來進(jìn)行試驗(yàn),結(jié)果有力地證明了所提出的理論.另外,對(duì)NLEU在不同參數(shù)下的表現(xiàn)以及對(duì)其是否進(jìn)行權(quán)值衰減所造成的影響做了分析.所有的實(shí)驗(yàn)結(jié)果表明:NLEU能夠?yàn)樯顚泳W(wǎng)絡(luò)的融合帶來好處,在合適的情況下能夠改善神經(jīng)網(wǎng)絡(luò)的性能,為今后神經(jīng)網(wǎng)絡(luò)的發(fā)展提供一個(gè)進(jìn)步的方法.文中只專注了NLEU在深度學(xué)習(xí)分類任務(wù)中的作用,經(jīng)后的研究工作應(yīng)當(dāng)是對(duì)該激活功能進(jìn)行進(jìn)一步優(yōu)化,以實(shí)現(xiàn)更優(yōu)的效果,進(jìn)而將其推廣應(yīng)用到分割、檢測(cè)等其他任務(wù).

        [1]楊國亮,魯海榮,唐俊,等.基于迭代對(duì)數(shù)閾值的加權(quán)RPCA非局部圖像去噪[J].江西理工大學(xué)學(xué)報(bào),2016,37(1):57-62.

        [2]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2015:3431-3440.

        [3]Li Z,Tang J.Weakly supervised deep metric learning for community-contributed image retrieval[J].IEEE Transactions on Multimedia,2015,17(11):1989-1999.

        [4]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics,2011:315-323.

        [5]Maas A L,Hannun A Y,Ng A Y.Rectifier nonlinearities improve neural network acoustic models[C]//Proc.icml.2013,30(1):3.

        [6]He K,Zhang X,Ren S,et al.Delving deep into rectifiers:Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:1026-1034.

        [7]Clevert D A,Unterthiner T,Hochreiter S.Fast and accurate deep network learning by exponentiallinear units (elus)[J].arXiv preprint arXiv:1511.07289,2015.

        [8]Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[J].arXiv preprint arXiv:1502.03167,2015.

        [9]趙永科.深度學(xué)習(xí)21天實(shí)戰(zhàn)Caffe[M].北京:電子工業(yè)出版社,2016.

        [10]Lin M,Chen Q,Yan S.Network in network[J].arXiv preprint arXiv:1312.4400,2013.

        [11]Huang G,Liu Z,Weinberger K Q,et al.Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017,1(2):3.

        [12]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].arXiv preprint arXiv:1207.0580,2012.

        [13]Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[J].Journal of Machine Learning Research,2010(9):249-256.

        [14]Zagoruyko S,Komodakis N.Wide Residual Networks[C]//British Machine Vision Conference,2016:87.

        [15]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deepconvolutionalneuralnetworks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.

        [16]Lee C Y,Xie S,Gallagher P,et al.Deeply-supervised nets[C]//Artificial Intelligence and Statistics,2015:562-570.

        [17]Springenberg J T,Dosovitskiy A,Brox T,et al.Striving for simplicity:The all convolutional net[J].arXiv preprint arXiv:1412.6806,2014.

        [18]Srivastava R K,Greff K,Schmidhuber J.Training very deep networks[C]//Advances in Neural Information Processing Systems,2015:2377-2385.

        [19]Romero A,Ballas N,Kahou S E,et al.Fitnets:Hints for thin deep nets[J].arXiv preprint arXiv:1412.6550,2014.

        [20]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Computer Vision and Pattern Recognition.IEEE,2016:770-778.

        [21]He K,Zhang X,Ren S,et al.Identity mappings in deep residual networks[C]//European Conference on Computer Vision.Springer,Cham,2016:630-645.

        [22]Yang Li,Chunxiao Fan,Yong Li,et al.Improving deep neural network with multiple parametric exponential linearunits[J].arXiv preprint arXiv:1606.00305,2016.

        猜你喜歡
        實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記住“三個(gè)字”,寫好小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        我做了一項(xiàng)小實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        91成人午夜性a一级毛片| 色播亚洲视频在线观看| 无码av免费一区二区三区| 午夜性刺激免费视频| 加勒比东京热综合久久| 久久亚洲中文字幕伊人久久大| 久久国产精品偷任你爽任你| 久久日本三级韩国三级| 中文字幕无码高清一区二区三区 | 日韩av一区二区蜜桃| 狠狠摸狠狠澡| 高中生粉嫩无套第一次| 97久久综合区小说区图片专区| 日本免费一区二区在线| 亚洲s色大片在线观看| 国产成人综合亚洲精品| 国产自在自线午夜精品视频在| 毛片精品一区二区二区三区| 国产精品国产精品国产专区不卡| 区久久aaa片69亚洲| 无码一区二区三区人| 91久久国产香蕉熟女线看| 精品欧洲av无码一区二区14 | 欧美理论在线| 亚洲综合网中文字幕在线| 日本一区二区三区视频在线观看| 污污内射在线观看一区二区少妇 | 国产福利永久在线视频无毒不卡| 推油少妇久久99久久99久久| 国产主播一区二区在线观看| 亚洲一区二区刺激的视频| 亚洲精品久久久久中文字幕| 欧美日韩亚洲国产千人斩| 亚洲在中文字幕乱码熟女| 丰满少妇人妻无码| 少妇人妻真实偷人精品视频| 完整在线视频免费黄片| 男女av免费视频网站| 伊在人天堂亚洲香蕉精品区| 亚洲欧美日韩高清中文在线| 日本女同视频一区二区三区|