亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新型激活函數(shù):提高深層神經(jīng)網(wǎng)絡(luò)建模能力

        2019-09-19 12:30:18成凌飛2張培玲2
        測控技術(shù) 2019年4期
        關(guān)鍵詞:邊界值偏置權(quán)重

        賀 揚(yáng), 成凌飛2, 張培玲2, 李 艷

        (1.河南理工大學(xué) 電氣工程與自動化學(xué)院,河南 焦作 454000; 2.河南理工大學(xué) 物理與電子信息學(xué)院,河南 焦作 454000)

        深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)以其高效的學(xué)習(xí)和分類能力被廣泛地應(yīng)用于目標(biāo)識別、圖像識別、語音識別、手寫數(shù)據(jù)識別、信息檢索、自然語言處理以及其他的領(lǐng)域[1-3]。深層神經(jīng)網(wǎng)絡(luò)一般由不少于3層的多層神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)組成,每層網(wǎng)絡(luò)都包含大量的神經(jīng)元,這就決定了DNN擁有大量的參數(shù)需要表示。通常,線性部分的參數(shù)可由輸入數(shù)據(jù)學(xué)習(xí)得到,而網(wǎng)絡(luò)的非線性部分一般預(yù)先設(shè)定激活函數(shù)。一個足夠大的神經(jīng)網(wǎng)絡(luò)通過這些非線性函數(shù)可以逼近任意的復(fù)雜函數(shù),但在有限的網(wǎng)絡(luò)中,不同非線性函數(shù)的選擇則會影響網(wǎng)絡(luò)學(xué)習(xí)能力和表達(dá)能力的強(qiáng)弱。

        最近幾年,很多DNN激活函數(shù)被提出,其中最引人矚目的是修正線性單元(Rectified Linear Unit,ReLU)[4]。ReLU具有稀疏激活、無需預(yù)訓(xùn)練和學(xué)習(xí)周期短等優(yōu)點(diǎn)。然而ReLU雖有著諸多優(yōu)點(diǎn),且其出色的性能也得到了廣泛的認(rèn)可,但ReLU并非激活函數(shù)的終點(diǎn)。幾種基于ReLU的激活函數(shù)相繼被提出,如Leaky ReLU和Parametric ReLU在ReLU的負(fù)軸添加一個正斜率的函數(shù)[5-6],對Leaky ReLU進(jìn)行隨機(jī)正則化的Randomized Leaky ReLU[7],以及旨在解決ReLU偏置轉(zhuǎn)移問題的Exponential ReLU[8]和Parametric E-ReLU[9]。然而上述激活函數(shù)都只彌補(bǔ)了ReLU非零均值激活的不足之處,僅Parametric E-ReLU利用參數(shù)化的方法,使其正值和負(fù)值部分在原點(diǎn)處相切,改善了ReLU非零均值激活和在原點(diǎn)處不連續(xù)兩個缺陷,但是Parametric E-ReLU需要額外調(diào)節(jié)激活函數(shù)的參數(shù),更為遺憾的是,Parametric E-ReLU并未對正值激活值加以限制,當(dāng)ReLU激活一個極大的值時,容易造成網(wǎng)絡(luò)的數(shù)字溢出,這對網(wǎng)絡(luò)的訓(xùn)練是很不利的。

        本文提出了一種新的激活函數(shù)——Tanh ReLU,這個激活函數(shù)在ReLU激活函數(shù)的基礎(chǔ)上對其進(jìn)行優(yōu)化。針對ReLU存在非零均值激活的問題,Tanh ReLU添加了一個負(fù)值,而且Tanh ReLU的負(fù)值函數(shù)與正值函數(shù)在原點(diǎn)處相切,如此一來,其一階導(dǎo)數(shù)在原點(diǎn)處連續(xù);同時,為激活函數(shù)添加了一個邊界[10]。

        1 Tanh ReLU原理

        DNN由于其高度復(fù)雜的計(jì)算能力而受到關(guān)注,而DNN的計(jì)算單元是通過激活函數(shù)(即傳遞函數(shù),為網(wǎng)絡(luò)提供非線性表示)實(shí)現(xiàn)的,其可以使DNN訓(xùn)練快速、表達(dá)準(zhǔn)確。激活函數(shù)將網(wǎng)絡(luò)神經(jīng)元的輸入轉(zhuǎn)換為輸出信號,決定了一個神經(jīng)元產(chǎn)生信號和接收信號的振幅強(qiáng)度,所以激活函數(shù)影響著整個NN的性能;除此之外,激活函數(shù)提供的非線性可根據(jù)逼近原理來設(shè)計(jì)接近函數(shù),這對NN來說也是至關(guān)重要的。

        ReLU激活函數(shù)的提出大大提高了DNN的性能,然而ReLU沒有負(fù)值激活,所以其平均激活值大于零,神經(jīng)單元的非零均值激活作為偏置傳遞給了下一層神經(jīng)單元,如果這樣的神經(jīng)單元的影響不能相互抵消,學(xué)習(xí)的時候就會導(dǎo)致偏置轉(zhuǎn)移,然后傳遞到下一層。這樣的神經(jīng)單元越多,偏置轉(zhuǎn)移也就越多,從而引發(fā)振蕩,損害網(wǎng)絡(luò)的學(xué)習(xí);ReLU的正值激活可以產(chǎn)生很大的激活值,然而在DNN的訓(xùn)練階段,數(shù)字的穩(wěn)定性在很大程度上受激活函數(shù)輸出邊界的影響,這點(diǎn)如同物理計(jì)算機(jī)的數(shù)字表示。一個較大的邊界值引導(dǎo)神經(jīng)元產(chǎn)生更有效的傳播,但數(shù)字溢出的風(fēng)險(xiǎn)也隨之產(chǎn)生,這樣在訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)的時候就會引起網(wǎng)絡(luò)的不穩(wěn)定;而且ReLU在原點(diǎn)處是不連續(xù)的,而這種情況會引起梯度消失,損害網(wǎng)絡(luò)的反向傳播。

        針對ReLU激活函數(shù)提出的Tanh ReLU激活函數(shù)由3個分段函數(shù)組成,其公式表達(dá)為

        (1)

        Tanh ReLU的提出是為了克服ReLU激活函數(shù)非零均值激活、原點(diǎn)處不連續(xù)以及產(chǎn)生極大激活值的3個缺點(diǎn)。Tanh ReLU激活函數(shù)及其導(dǎo)函數(shù)圖形如圖1所示。

        圖1 Tanh ReLU激活函數(shù)及其導(dǎo)函數(shù)

        ① 為了減小偏置轉(zhuǎn)移對網(wǎng)絡(luò)學(xué)習(xí)的影響,Tanh ReLU增加了一個負(fù)值,使激活平均值更加接近于零值,在圖1中可以看出,Tanh ReLU既可以正值激活,也可以負(fù)值激活,使激活平均值接近于零值;同時,零均值激活也可以保證網(wǎng)絡(luò)梯度靠近自然梯度的時候能夠具有更快的收斂速度。

        ② 與ReLU不同的是,Tanh ReLU在原點(diǎn)處是連續(xù)的,Tanh ReLU的梯度也不再為零,如圖1中所示,Tanh ReLU在原點(diǎn)處的導(dǎo)數(shù)值DF(X)為1且連續(xù),這就避免了網(wǎng)絡(luò)訓(xùn)練時在原點(diǎn)處陷入梯度消失的情況。

        ③ 針對ReLU在網(wǎng)絡(luò)的預(yù)訓(xùn)練期間較大激活值造成的數(shù)字溢出風(fēng)險(xiǎn),由此帶給網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的缺點(diǎn),在Tanh ReLU激活函數(shù)中增加了一個邊界值,如圖1所示,在本文中,邊界值A(chǔ)的取值為1。

        2 實(shí)驗(yàn)結(jié)果

        2.1 實(shí)驗(yàn)設(shè)置

        通過MNIST手寫數(shù)據(jù)數(shù)據(jù)集來驗(yàn)證提出的激活函數(shù)。MNIST是一個廣泛用于測試機(jī)器學(xué)習(xí)算法基準(zhǔn)的數(shù)據(jù)集。MNIST作為圖像識別的常用數(shù)據(jù)集,它是由70000個28像素×28像素的手寫數(shù)據(jù)圖像組成的,其包括60000個訓(xùn)練圖像,10000個測試圖像。實(shí)驗(yàn)的目的是將數(shù)字圖像歸類到其正確的分類類別中。

        為了檢驗(yàn)兩種激活函數(shù)(Act:ReLU & Tanh ReLU)的分類性能,分別利用兩種不同的激活函數(shù)建立DNN模型,并用于MNIST手寫數(shù)據(jù)集的分類測試,建立的DNN模型的結(jié)構(gòu)如圖2所示。實(shí)驗(yàn)中,由于主要是為了測試Tanh ReLU激活函數(shù)在DNN中的性能,所以在MNIST分類實(shí)驗(yàn)中只將DNN模型中的ReLU激活函數(shù)替換掉,保證DNN模型的其他部分沒有被改變。

        圖2 DNN模型結(jié)構(gòu)圖

        實(shí)驗(yàn)所建立的DNN模型結(jié)構(gòu)的詳細(xì)設(shè)置如表1所示。建立的DNN模型為5層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)包含一個輸入層,一個Softmax分類層和3個隱藏層。網(wǎng)絡(luò)采用全連接。網(wǎng)絡(luò)的自由參數(shù)包括權(quán)重值和偏置值,自由參數(shù)可通過訓(xùn)練學(xué)習(xí)得到。

        表1 用于MNIST數(shù)據(jù)集分類測試的DNN模型結(jié)構(gòu)設(shè)置

        在由兩種不同激活函數(shù)所建立的DNN模型中,超參數(shù)的設(shè)置都保持一致。超參數(shù)的設(shè)置如下:學(xué)習(xí)速率為0.1,權(quán)重初始采用文獻(xiàn)[4]提出的初始化方法;偏置初始化為0;動量起始為0.5,經(jīng)過所有的訓(xùn)練數(shù)據(jù)迭代后增大到0.9;實(shí)驗(yàn)建立的DNN模型中未添加權(quán)重懲罰項(xiàng),目的是排除權(quán)重懲罰項(xiàng)對于訓(xùn)練輸出值的影響。在超參數(shù)設(shè)置完成后,用整個訓(xùn)練數(shù)據(jù)集訓(xùn)練DNN模型。

        在網(wǎng)絡(luò)訓(xùn)練階段,貪婪無監(jiān)督算法自下而上地分別訓(xùn)練每層的權(quán)重,每層參數(shù)用訓(xùn)練集迭代50次。在反向傳播(Back Propagation,BP)期間,選用共軛梯度(Conjugate Gradient,CG)法作為DNN的優(yōu)化算法,其線性搜索可以大大簡化和加速網(wǎng)絡(luò)的學(xué)習(xí)。反向迭代200次。

        損失函數(shù)(Loss Function,LF)在DNN的學(xué)習(xí)過程中也是必不可少的,它可以驗(yàn)證網(wǎng)絡(luò)訓(xùn)練的輸出值是否適當(dāng)。損失函數(shù)往往要和Softmax分類層結(jié)合起來應(yīng)用,以驗(yàn)證DNN模型的性能。Softmax分類層可以求得一個輸入樣本被歸類到預(yù)定義的類的概率,其公式為

        (2)

        運(yùn)用兩種不同的損失函數(shù)來驗(yàn)證網(wǎng)絡(luò)的性能,其為均方誤差(Mean Squared Eeeor,MSE)和交叉熵(Cross Entropy,CE),其公式為

        (3)

        (4)

        式中,dj為第j個神經(jīng)元的目標(biāo)值;N為訓(xùn)練樣本的個數(shù)。

        2.2 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證提出的激活函數(shù)——Tanh ReLU在DNN模型中的性能,利用兩種激活函數(shù)(Tanh ReLU & ReLU)分別建立DNN模型。特別地,為了進(jìn)一步提高Tanh ReLU的建模能力,增加Tanh ReLU在不同的損失函數(shù)、不同學(xué)習(xí)速率、不同權(quán)重代價以及不同邊界值下的分類測試實(shí)驗(yàn)。以上所述的實(shí)驗(yàn)都利用MNIST手寫數(shù)據(jù)集來對DNN模型進(jìn)行訓(xùn)練與測試的。

        2.2.1 Tanh ReLU vs.ReLU

        為了驗(yàn)證兩種不同激活函數(shù)(Tanh ReLU & ReLU)對DNN建模性能的影響,分別利用MSE和CE損失函數(shù)對建立的DNN模型進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同激活函數(shù)建立的DNN模型在均方誤差和

        激活函數(shù)Tanh ReLU和ReLU建立的DNN模型在MNIST手寫數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果顯示。在CE損失函數(shù)中,網(wǎng)絡(luò)的分類誤差率由0.9005%降低到0.8999%,降低了0.0006%;然而在MSE損失函數(shù)中,誤差率降低得更加小,僅有0.0001%??梢钥闯?,在ReLU基礎(chǔ)上提出的Tanh ReLU激活函數(shù)在損失函數(shù)CE下對網(wǎng)絡(luò)性能的提升更為顯著。

        2.2.2 不同學(xué)習(xí)速率的比較

        為了更進(jìn)一步地驗(yàn)證Tanh ReLU激活函數(shù)在DNN模型中的性能,在損失函數(shù)為CE的情況下,調(diào)節(jié)網(wǎng)絡(luò)的學(xué)習(xí)速率,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 不同學(xué)習(xí)速率下不同激活函數(shù)建立的DNN模型的分類誤差率 單位:%

        分析表3中兩種激活函數(shù)(Tanh ReLU & ReLU)分別和CE損失函數(shù)建立的DNN模型在MNIST手寫數(shù)據(jù)集中的分類誤差率,可以看出,將學(xué)習(xí)速率調(diào)節(jié)至0.001后,分類誤差率降低了0.843,遠(yuǎn)遠(yuǎn)大于學(xué)習(xí)速率為0.1時的0.0006。網(wǎng)絡(luò)的性能得到了極大的提升。

        2.2.3 不同權(quán)重代價的比較

        以上的實(shí)驗(yàn)為了排除權(quán)重懲罰項(xiàng)對于訓(xùn)練輸出值的影響,所以未添加權(quán)重懲罰項(xiàng)。現(xiàn)為了得到更好的網(wǎng)絡(luò)性能,為網(wǎng)絡(luò)添加上權(quán)重懲罰項(xiàng),以便可以更好地調(diào)節(jié)網(wǎng)絡(luò)的權(quán)重,得到更好的DNN模型。圖3為不同權(quán)重代價下DNN模型分類測試的實(shí)驗(yàn)結(jié)果。

        圖3 不同權(quán)重代價對于DNN模型性能的影響

        如圖3所示,權(quán)重代價(weightcost,wc)系數(shù)為0.00001時,比為添加權(quán)重代價的網(wǎng)絡(luò)的收斂速度更快,而且誤差率減小到了0.0294。表明權(quán)重代價可以有效地幫助網(wǎng)絡(luò)的訓(xùn)練,使網(wǎng)絡(luò)生成得更好。

        2.2.4 不同邊界值的比較

        特別地,嘗試改變另一個超參數(shù)——激活函數(shù)Tanh ReLU的邊界A的值。

        為了驗(yàn)證不同邊界值A(chǔ)對DNN建模性能的影響,僅改變激活函數(shù)邊界A的值,保證DNN模型其他超參數(shù)設(shè)置一致。DNN超參數(shù)設(shè)置如下:學(xué)習(xí)速率為0.001,權(quán)重初始采用文獻(xiàn)[4]提出的初始化方法;權(quán)重衰減調(diào)節(jié)為0.001;偏置初始化為0;動量起始為0.5,經(jīng)過所有的訓(xùn)練數(shù)據(jù)迭代后增大到0.9;邊界值A(chǔ)分別設(shè)置為0、1、2、4,分別利用4個不同的邊界值A(chǔ)建立DNN模型。超參數(shù)設(shè)置完成后,將建立的DNN模型應(yīng)用于MNIST手寫數(shù)據(jù)集的分類實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果如圖4所示。

        由圖4可以看出不同的邊界值A(chǔ)對于網(wǎng)絡(luò)性能的影響。未為網(wǎng)絡(luò)添加邊界值時的DNN分類誤差率最大,且網(wǎng)絡(luò)邊界值越小,誤差率也越小,這是因?yàn)樘砑拥倪吔缰悼梢杂行У胤乐辜せ詈瘮?shù)邊界的數(shù)字溢出。

        圖4 不同邊界值對于DNN網(wǎng)絡(luò)性能的影響

        綜上所述,針對激活函數(shù)ReLU在原點(diǎn)處不連續(xù)以及非零均值激活提出了Tanh ReLU激活函數(shù),并用其構(gòu)建DNN模型進(jìn)行MNIST手寫數(shù)據(jù)集的分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明Tanh ReLU激活函數(shù)具有更好的網(wǎng)絡(luò)泛化性能,能夠給網(wǎng)絡(luò)提供更好的分類性能。

        3 結(jié)束語

        提出了一種適用于DNN的新的激活函數(shù)——Tanh ReLU。為了克服偏置轉(zhuǎn)移的影響、減小標(biāo)準(zhǔn)梯度和自然梯度之間的差值,在Tanh ReLU激活函數(shù)上添加了一個負(fù)值,使得網(wǎng)絡(luò)的激活平均值接近于零,這樣能夠更好地生成網(wǎng)絡(luò);而且,在Tanh ReLU激活函數(shù)添加了一個邊界,這樣可以使網(wǎng)絡(luò)訓(xùn)練時更加穩(wěn)定,在MNIST實(shí)驗(yàn)中也可以看出邊界值可以大大改善網(wǎng)絡(luò)的性能。實(shí)驗(yàn)表明: Tanh ReLU可以使網(wǎng)絡(luò)具有更好的泛化性能,并提高了DNN的性能。

        猜你喜歡
        邊界值偏置權(quán)重
        基于40%正面偏置碰撞的某車型仿真及結(jié)構(gòu)優(yōu)化
        基于雙向線性插值的車道輔助系統(tǒng)障礙避讓研究
        中國信息化(2022年5期)2022-06-13 11:12:49
        權(quán)重常思“浮名輕”
        如何設(shè)計(jì)好的測試用例
        價值工程(2020年3期)2020-02-02 04:00:42
        巧用洛必達(dá)法則速解函數(shù)邊界值例讀
        讀寫算(2019年11期)2019-08-29 02:04:19
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        一級旋流偏置對雙旋流杯下游流場的影響
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        面向TIA和緩沖器應(yīng)用的毫微微安偏置電流運(yùn)放可實(shí)現(xiàn)500MHz增益帶寬
        我把护士日出水了视频90分钟| av中文字幕性女高清在线| av网站在线观看亚洲国产| 国产成人午夜无码电影在线观看 | 白嫩少妇激情无码| 日韩中文字幕无码av| 各类熟女熟妇激情自拍| 国产三级精品三级| 狠狠躁夜夜躁无码中文字幕| 中文一区二区三区无码视频| 日韩有码在线一区二区三区合集| 国产精品538一区二区在线| 丰满爆乳无码一区二区三区| 亚洲AV无码中文AV日韩A| 亚洲日本一区二区三区四区| 成年女人粗暴毛片免费观看| 欧洲综合色| 久久久成人av毛片免费观看| 日本av一区二区三区视频| 精品免费看国产一区二区| 久久频精品99香蕉国产| 亚洲一区二区av免费观看| 玩弄少妇人妻中文字幕| 国产乱人伦av在线无码| 亚洲AV秘 片一区二区三区| 亚洲视频专区一区二区三区| 欧美牲交a欧美牲交aⅴ免费真| 无码的精品免费不卡在线| 女同视频网站一区二区| 天天做天天爱夜夜夜爽毛片 | 中文字幕有码无码av| 亚洲中出视频| 日韩在线一区二区三区中文字幕| 亚洲av成人精品日韩在线播放| 精品国产看高清国产毛片| 亚洲最大的av在线观看| 精品亚洲a∨无码一区二区三区 | 国产成人亚洲综合无码品善网| jizz国产精品免费麻豆| 日韩精品有码中文字幕| 欧美xxxx做受欧美88|