亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學習算法的激活函數(shù)研究

        2021-02-26 03:19:54張有健王再見
        無線電通信技術(shù) 2021年1期
        關(guān)鍵詞:導數(shù)梯度神經(jīng)元

        張有健,陳 晨,王再見*

        (1.安徽師范大學 物理與電子信息學院,安徽 蕪湖241002;2.安徽省智能機器人信息融合與控制工程實驗室,安徽 蕪湖241002)

        0 引言

        近年來,深度學習(Deep Learning)算法漸漸成為人工智能熱點研究領(lǐng)域。因此如何改進深度學習算法,優(yōu)化現(xiàn)有算法的性能是眾多學者一直致力解決的問題。其中激活函數(shù)可以將非線性因素引入深度神經(jīng)網(wǎng)絡中,以此模擬非線性函數(shù)使得神經(jīng)網(wǎng)絡可以任意逼近任何非線性函數(shù)[1],這樣神經(jīng)網(wǎng)絡就可以應用到眾多的非線性模型中,大大提高了模型的泛化能力。

        由于激活函數(shù)的重要性,眾多學者通過對神經(jīng)網(wǎng)絡的研究,提出了多種不同類型的激活函數(shù)[2]。例如Sigmoid,Tanh,ReLU等經(jīng)典激活函數(shù)及其改進結(jié)構(gòu)。然而至今為止,對激活函數(shù)研究還沒有明確的指導性原則。

        為了使讀者能夠更加深入了解激活函數(shù)的性能、工作原理以及激活函數(shù)存在的不足。本文調(diào)研了現(xiàn)階段主流的幾種激活函數(shù)Sigmoid,Tanh,ReLU,P-ReLU,L-ReLU,并在不同的深度學習算法下測試激活函數(shù)的效果。在卷積神經(jīng)網(wǎng)絡(Covolutional Neural Network,CNN)[3-4]中使用MNIST,CIFAR-10經(jīng)典數(shù)據(jù)集測試不同激活函數(shù),并在循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[5-6]中使用大豆糧油數(shù)據(jù)集對大豆的產(chǎn)值進行預警,由實驗結(jié)果可知,S系激活函數(shù)比ReLU系激活函數(shù)收斂更快,而ReLU系激活函數(shù)則在精度上優(yōu)于S系激活函數(shù)。

        1 激活函數(shù)

        1.1 激活函數(shù)的概念

        深度學習網(wǎng)絡中,激活函數(shù)受中樞神經(jīng)系統(tǒng)中的生物神經(jīng)元[7]啟發(fā)而設(shè)計。如圖1所示,v1,v2,…,vi是神經(jīng)元的輸入值,wj1wj2,…,wji為神經(jīng)元傳遞的權(quán)值,bi為神經(jīng)元傳遞的函數(shù)偏置向量。

        圖1 人工神經(jīng)元結(jié)構(gòu)圖Fig.1 Structure of artificial neurons

        根據(jù)生物神經(jīng)元的特性將輸入值vi與權(quán)值wji相乘,加上函數(shù)偏置向量bi得到神經(jīng)元輸出x,量化后通過相應的激活函數(shù)f(·),最后由激活函數(shù)f(·)來決定特定神經(jīng)元是否被激活。

        為了挖掘數(shù)據(jù)之間的復雜關(guān)系,深度學習將激活層加入到之前隱藏層的非線性輸出中[7],原理如式(1)所示。

        y=f(wx+b),

        (1)

        式中,f(·)為w內(nèi)核的權(quán)值加上b的偏差,x為當前隱藏層的輸入,y為當前隱藏層輸出,同樣也是下一個隱藏層的輸入。

        1.2 S系激活函數(shù)

        S系激活函數(shù)是神經(jīng)網(wǎng)絡中最早提出的一批激活函數(shù),由于它與生物神經(jīng)元的激活率[8]有相似的表達,因此廣泛應用于早期的神經(jīng)網(wǎng)絡中。S系激活函數(shù)主要有兩種類型:Sigmoid函數(shù)和雙曲正切函數(shù)(Tanh)函數(shù)。S系激活函數(shù)是一個增長函數(shù),它在線性和非線性行為之間保持平衡,如圖2所示。Sigmoid函數(shù)的取值范圍為0~1,Tanh函數(shù)則關(guān)于零點對稱,取值范圍為-1~1。

        圖2 常用的激活函數(shù)示意圖Fig.2 Commonly used activation function diagram

        由Sigmoid為代表的有一些眾所周知的激活函數(shù),如Sigmoid,Tanh,如圖2 (a),式(2)~(3)所示。

        (2)

        (3)

        如圖2(a)所示,Sigmoid激活函數(shù)存在飽和區(qū)域和非原始對稱的缺點,當數(shù)據(jù)處于飽和區(qū)域時,反向傳播的梯度更新非常緩慢,非原點對稱的問題會阻礙和減慢訓練。激活函數(shù)克服了非原點對稱的缺點,但也存在飽和區(qū)的缺點。Sigmoid和Tanh的激活函數(shù)在反向傳播時也會出現(xiàn)梯度爆炸或梯度丟失的問題,因為它們的梯度相乘可能很大,也可能很小。基本激活函數(shù)的導數(shù)如式(4)~(5)所示。

        (4)

        (5)

        通過導數(shù)計算得到激活函數(shù)Sigmoid 導數(shù)最大值為0.25,激活函數(shù)Tanh導數(shù)最大值為1。通過梯度的疊加計算,由于Sigmoid的導數(shù)小于1,因此多個小于1的導數(shù)相乘導致梯度非常小。同理,Tanh函數(shù)雖然要優(yōu)于Sigmoid,然而其梯度仍然小于1,因此難以避免的存在梯度消失的問題,導致模型難以收斂。

        1.3 ReLU系激活函數(shù)

        針對上述問題,研究者提出了ReLU激活函數(shù)[9-10],ReLU是一個分段函數(shù),當輸入為負時,輸出為0;否則,輸出等于輸入。ReLU的梯度為1,如式(6)所示,不會導致梯度爆炸或梯度丟失的問題,但會導致另一個問題,輸出總是大于0,忽略了負的輸入。式(7)為ReLU的導數(shù)形式。

        (6)

        (7)

        針對ReLU激活函數(shù)的不足,學者們提出了許多改進的ReLU激活函數(shù),如Leaky ReLU (L-ReLU)、參數(shù)ReLU (P-ReLU)[11]。P-ReLU函數(shù)的參數(shù)和ELU函數(shù)的參數(shù)是可變的,因此它們可以更加適應不同的數(shù)據(jù)集,L-ReLU的參數(shù)是固定的,因此它泛化性則略有欠缺。文獻[12]提出一種新的激活函數(shù)方法——截斷線性單元(ELU),這種方法可以更好地捕捉到嵌入信號的結(jié)構(gòu),這些信號通常具有極低的圖像內(nèi)容信噪比,但如果截斷值很小,就會導致性能下降。改進后的ReLU激活函數(shù)如圖2(b),式(8)~(10)所示,其中α,β,?分別為ReLU系激活函數(shù)的參數(shù)。

        (8)

        (9)

        (10)

        文獻[13]研究發(fā)現(xiàn),新的組合激活函數(shù)可以通過結(jié)合基本的激活函數(shù)以數(shù)據(jù)驅(qū)動方式輸出,并提出了以分層組合基本激活函數(shù)集成適應不同的輸入。文獻[14]提出一種新的組合激活函數(shù),多參數(shù)指數(shù)線性單元MPELU。它由ReLU和ELU組合成,可以通過改變參數(shù)成為任何“ReLU家庭”成員,如ReLU,L-ReLU,P-ReLU。文獻[15-16]提出了基于ReLU改進版的激活函數(shù),它可以適應任何輸入,但仍存在梯度爆炸或梯度丟失的現(xiàn)象。

        文獻[17]提出一種可訓練的激活函數(shù)和一種多層結(jié)構(gòu)多層Maxout網(wǎng)絡(MMN),它具有非飽和區(qū)的特點,并且可以近似任何激活函數(shù),這樣可以適應任何輸入,并且可以解決梯度爆炸或梯度消失問題,但需要付出的代價是大量的計算。文獻[18]嘗試在ReLU本身不變的情況下,用偽導數(shù)代替原有的ReLU導數(shù)。偽導數(shù)的設(shè)計是為了緩解零導數(shù)的問題,并與一般的原始導數(shù)保持一致,通過實驗表明,在CIFAR-10測試中,使用偽導數(shù)ReLU (Pseudo Derivative ReLU,PD-ReLU)可以明顯改善AlexNet。文獻[19]使用一種雙邊ReLU激活函數(shù)針對圖像處理問題,并比傳統(tǒng)ReLU精度更高。然而在某種程度上卻增加ReLU函數(shù)梯度爆炸和梯度消失的風險。激活函數(shù)作為熱點研究領(lǐng)域,無法列舉所有的激活函數(shù),本文主要測試研究現(xiàn)階段使用廣泛的一些激活函數(shù)。表1列出了現(xiàn)階段常用激活函數(shù)的優(yōu)勢及不足。

        表1 主流激活函數(shù)的對比Tab.1 Comparison of mainstream activation functions

        2 卷積神經(jīng)網(wǎng)絡下測試

        2.1 實驗環(huán)境

        本節(jié)使用大量實驗來證明不同激活函數(shù)的有效性及其優(yōu)勢與不足。所有實驗均在本次實驗環(huán)境中,將Tensorflow作為本次深度學習實驗的框架模型。實驗環(huán)境:Inter(R) Core(TM) i5-4590 CPU@3.30 GHz RAM:8 GB GPU:NVIDIA GeForce GTX 1060 3 GB。實驗基于2,4,6,8,10,20層CNN。本節(jié)實驗選擇MNIST作為實驗測試的數(shù)據(jù)庫,手寫數(shù)字數(shù)據(jù)庫有一個包含60 000個示例的訓練集和一個包含10 000個示例的測試集。數(shù)字的大小已標準化并集中在固定大小的圖像中。通過計算像素的質(zhì)心,將圖像居中,并平移圖像,使該點位于28×28區(qū)域的中心。

        2.2 實驗結(jié)果

        如圖3(a)所示,在MNIST上測試了部分激活函數(shù)的有效性,各個激活函數(shù)的平均準確率高達99.3%,同時可得出在8層卷積層時對應的準確率更高。在圖3(b)中各個激活函數(shù)的準確率基本達到93%以上,但現(xiàn)有的激活函數(shù)在卷積層達到8~20層時,準確性下降較快。雙曲正切函數(shù)甚至只有33.83%的準確性。而L-ReLU和P-ReLU由于不涉及指數(shù)運算,且無死亡神經(jīng)元的問題,避免了梯度消失和梯度爆炸的問題,因此相比于ReLU和Tanh更具魯棒性。

        圖3 部分激活函數(shù)的精度比較Fig.3 Precision comparison of partial activation functions investigated

        表2和表3記錄了卷積層數(shù)分別2,6,10,20層下的CNN在MNIST數(shù)據(jù)集下的收斂時間。通過對比可知,由于每種激活函數(shù)涉及到的運算并不相同,不同的激活函數(shù)每次迭代所需的時間也不盡相同。相對于MNIST數(shù)據(jù)集,每次迭代的時間P-ReLU小于L-ReLU,大于Tanh和ReLU。且迭代的時間隨著卷積層數(shù)的變化而變化,例如當卷積層增至20層時,L-ReLU比P-ReLU慢2 000 000 μs左右,比Tanh要慢約5 999 167 μs。

        表2 4種激活函數(shù)在2,6層卷積層下的收斂時間Tab.2 Convergence time of four activation functions under 2 and 6 convolution layers was tested

        表3 4種激活函數(shù)在10,20層卷積層下的收斂時間Tab.3 Convergence time of four activation functions under 10 and 20 convolution layers was tested

        3 循環(huán)神經(jīng)網(wǎng)絡下測試

        3.1 實驗環(huán)境

        為了驗證不同激活函數(shù)的泛化性,本次實驗使用選擇擅長處理序列數(shù)據(jù)[20-21]的循環(huán)神經(jīng)網(wǎng)絡,使用Tensorflow作為本次深度學習實驗的框架模型。實驗環(huán)境:Inter(R) Core(TM) i5-4590 CPU@3.30 GHz RAM:8 GB GPU:NVIDIA GeForce GTX 1060 3 GB。實驗基于3層隱藏層的循環(huán)神經(jīng)網(wǎng)絡。

        本次實驗使用自收集大豆數(shù)據(jù)集,數(shù)據(jù)來源于國家糧食統(tǒng)計局、中國糧食年鑒等權(quán)威機構(gòu)。數(shù)據(jù)集分為訓練集及測試集兩部分。其中訓練集為1995—2007年中國大豆產(chǎn)值數(shù)據(jù),測試集為2008—2016年的大豆數(shù)據(jù)集,最后通過訓練后的RNN預測2008—2016年的大豆產(chǎn)值,并與實際的大豆產(chǎn)值對比得到最后的預測精度。其中訓練集為3 258條示例,測試集為2 172條示例。

        3.2 實驗結(jié)果

        由圖4中可知,在RNN下不同的激活函數(shù)對算法的精度同樣有很大的影響。可以看出使用Tanh激活函數(shù)時,對大豆的產(chǎn)值預測達到85%的精確度,而在P-ReLU激活函數(shù)下,達到了93%的預測精度,結(jié)合S激活函數(shù)存在較大飽和區(qū)的特點和最終的預測精度來看,S系激活函數(shù)應用在傳統(tǒng)的RNN中,造成的梯度消失問題嚴重的制約了算法的精度。同時在綜合上節(jié)卷積層中的實驗對比可得ReLU系激活函數(shù)的收斂時間可能更長,而其由于沒有梯度消失與梯度爆炸的問題,使得算法的精度要優(yōu)于S系激活函數(shù),其中P-ReLU由于其自適應性,無指數(shù)運算的特點在大豆數(shù)據(jù)集中達到了最高的精度預測。

        圖4 不同激活函數(shù)下的循環(huán)神經(jīng)網(wǎng)絡對大豆產(chǎn)值的預測結(jié)果Fig.4 Prediction results of cyclic neural network under different activation functions on soybean output value

        4 結(jié)束語

        本文調(diào)研了目前使用較為廣泛的激活函數(shù),并在CNN和RNN中進行了測試對比。通過部分實驗對比,得出S系激活函數(shù)在迭代時間上要比ReLU系激活函數(shù)更少,而在精度上ReLU系要遠遠高于S系激活函數(shù)。不同激活函數(shù)對深度學習算法的性能影響很大,現(xiàn)階段在激活函數(shù)的改進上還沒有指導性的理論原則,因此激活函數(shù)的優(yōu)化仍然是改進深度學習的重點領(lǐng)域。下一步將針對現(xiàn)有激活函數(shù)的不足提出一種新的激活函數(shù)來優(yōu)化深度學習算法。

        猜你喜歡
        導數(shù)梯度神經(jīng)元
        《從光子到神經(jīng)元》書評
        自然雜志(2021年6期)2021-12-23 08:24:46
        一個改進的WYL型三項共軛梯度法
        解導數(shù)題的幾種構(gòu)造妙招
        一種自適應Dai-Liao共軛梯度法
        一類扭積形式的梯度近Ricci孤立子
        躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        關(guān)于導數(shù)解法
        導數(shù)在圓錐曲線中的應用
        基于二次型單神經(jīng)元PID的MPPT控制
        毫米波導引頭預定回路改進單神經(jīng)元控制
        激情文学人妻中文字幕| 国产午夜福利100集发布| 中文无码制服丝袜人妻av| 欧美日韩一线| 精品人妻一区二区三区不卡毛片| 亚洲av无码专区国产乱码4se| 伊人久久大香线蕉综合网站| 成人欧美在线视频| 亚洲影院在线观看av| 亚洲欧洲综合有码无码| 国产免费激情小视频在线观看| 国产中文色婷婷久久久精品| 玖玖色玖玖草玖玖爱在线精品视频| 国产网红主播无码精品| 少妇高潮喷水正在播放| 亚洲色偷偷偷综合网另类小说 | 国产哟交泬泬视频在线播放| 成人性生交c片免费看| 中文字幕日韩有码在线| 国产女厕偷窥系列在线视频| 91麻豆精品激情在线观看最新| 免费啪啪av人妻一区二区| 国产一区二区三区成人av| 无遮挡1000部拍拍拍免费| 国产老熟女狂叫对白| 久久亚洲av成人无码软件| 女女同女同一区二区三区| 亚洲一区自拍高清亚洲精品| 巨大欧美黑人xxxxbbbb| 日本精品国产1区2区3区 | 国产精品白丝久久av网站| 欧美日本国产va高清cabal| 国产成人精品aaaa视频一区| 国产噜噜亚洲av一二三区| 手机看片久久第一人妻| 久久综合国产乱子伦精品免费| 亚洲国产精品自产拍久久蜜AV | 国产日产高清一区二区三区| 国产免码va在线观看免费| 无码熟熟妇丰满人妻啪啪| 日本国产在线一区二区|