亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        ReLU激活函數(shù)優(yōu)化研究*

        2018-01-26 09:27:21蔣昂波王維維
        傳感器與微系統(tǒng) 2018年2期
        關(guān)鍵詞:深度實(shí)驗(yàn)

        蔣昂波,王維維

        (浙江大學(xué) 超大規(guī)模集成電路設(shè)計(jì)研究所,浙江 杭州310027)

        0 引 言

        長(zhǎng)短期記憶模型[1](long short term memory,LSTM)作為遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)非常重要的一個(gè)改進(jìn),能夠有效記憶和利用歷史信息,已經(jīng)在文本分析、語音識(shí)別、圖像處理等眾多領(lǐng)域得到了成功應(yīng)用,極大促進(jìn)了深度學(xué)習(xí)領(lǐng)域的發(fā)展。但其結(jié)構(gòu)的復(fù)雜性導(dǎo)致訓(xùn)練模型的過程比較耗時(shí)。本文采用Cho K在2014年提出的門控循環(huán)單元[2](gated recurrent unit,GRU)結(jié)構(gòu),是一種在結(jié)構(gòu)上改動(dòng)比較大的LSTM變體,其將LSTM結(jié)構(gòu)中的遺忘門(forget gate)和輸入門(input gate)合并成一個(gè)更新門(update gate),使得深度神經(jīng)網(wǎng)絡(luò)在運(yùn)算的候少了很多矩陣乘法,從而改善了LSTM訓(xùn)練耗時(shí)的缺點(diǎn),在數(shù)據(jù)量很大的情況下,GRU能節(jié)省更多的時(shí)間。

        激活函數(shù)是GRU等深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的核心所在,目前常見的激活函數(shù)包括sigmoid[3]系的sigmoid和tanh函數(shù),ReLU系的ReLU[4],LReLU函數(shù)等。但sigmoid系的函數(shù)在后向傳遞的過程中出現(xiàn)了梯度消失[5](gradient vani-shing)問題,極大地降低了訓(xùn)練速度。

        ReLU函數(shù)能夠有效緩解梯度消失問題,其以監(jiān)督的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),無需依賴無監(jiān)督的逐層預(yù)訓(xùn)練,顯著提升了深度神經(jīng)網(wǎng)絡(luò)的性能。Krizhevsky A[6]等人對(duì)常用的激活函數(shù)ReLU,sigmoid和tanh函數(shù)進(jìn)行了測(cè)試,證明了ReLU函數(shù)的性能優(yōu)于sigmoid系函數(shù)。

        但ReLU也存在著致命的缺點(diǎn)。首先,ReLU函數(shù)的輸出大于0,使得輸出不是0均值,即均值偏移[7](bias shift),易導(dǎo)致后一層的神經(jīng)元得到上一層輸出的非0均值的信號(hào)作為輸入,使得網(wǎng)絡(luò)參數(shù)W計(jì)算困難。其次,隨著訓(xùn)練的推進(jìn),部分輸入會(huì)落入ReLU函數(shù)的硬飽和區(qū),導(dǎo)致對(duì)應(yīng)權(quán)重?zé)o法更新。均值偏移和神經(jīng)元死亡共同影響了深度神經(jīng)網(wǎng)絡(luò)的收斂性和收斂速度。

        本文在GRU結(jié)構(gòu)上對(duì)sigmoid系的激活函數(shù)和ReLU系的激活函數(shù)進(jìn)行了對(duì)比和研究,詳細(xì)分析了兩類激活函數(shù)存在的優(yōu)缺點(diǎn),并在此基礎(chǔ)上設(shè)計(jì)了一種新的激活函數(shù)雙曲正切線性單元(tanh linear unit,TLU),其綜合了sigmoid系和ReLU系函數(shù)的優(yōu)點(diǎn),既能有效緩解梯度消失問題,也有效地避免了均值偏移現(xiàn)象。實(shí)驗(yàn)證明:這種新的函數(shù)在提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度和降低誤差率方面的作用非常顯著。

        1 激活函數(shù)的對(duì)比與研究

        1.1 sigmoid系激活函數(shù)

        sigmoid系函數(shù)包括sigmoid和tanh。sigmoid函數(shù)定義為

        (1)

        其函數(shù)圖像如圖1所示。

        圖1 sigmoid函數(shù)

        從函數(shù)表達(dá)式和圖像可見,sigmoid函數(shù)具有軟飽和性[8]:在定義域內(nèi)處處可導(dǎo),當(dāng)輸入非常大或非常小時(shí),其圖像的斜率趨近于0,即導(dǎo)數(shù)逐漸趨近于0。這種性質(zhì)導(dǎo)致了梯度消失現(xiàn)象,使得深度神經(jīng)網(wǎng)絡(luò)一直難以得到有效訓(xùn)練,是阻礙神經(jīng)網(wǎng)絡(luò)發(fā)展的重要原因。

        具體地,深度神經(jīng)網(wǎng)絡(luò)在使用梯度下降算法求解網(wǎng)絡(luò)參數(shù)W時(shí),在后向傳遞過程中,sigmoid函數(shù)向下傳導(dǎo)的梯度包含了一個(gè)自身關(guān)于輸入的導(dǎo)數(shù)f'(x),當(dāng)輸入落入飽和區(qū)時(shí),f'(x)的值趨近于0,導(dǎo)致向底層網(wǎng)絡(luò)傳遞的梯度變得非常小,使網(wǎng)絡(luò)參數(shù)W很難得到有效訓(xùn)練。

        sigmoid函數(shù)也存在均值偏移的缺點(diǎn),從函數(shù)圖像可以看出,sigmoid函數(shù)的值域?yàn)閧?x,y=f(x)≥0)},則其輸出均值必然非負(fù),導(dǎo)致了sigmoid函數(shù)在訓(xùn)練一些超深網(wǎng)絡(luò)時(shí)會(huì)出現(xiàn)訓(xùn)練結(jié)果不收斂的問題。

        tanh函數(shù)是sigmoid函數(shù)的一個(gè)變體,緩解了sigmoid函數(shù)所遇到的均值偏移問題,定義為

        (2)

        其圖像如圖2所示。

        圖2 tanh函數(shù)

        從圖像以及函數(shù)表達(dá)式中可以看出,tanh函數(shù)也具有軟飽和性,因此,也存在梯度消失的缺點(diǎn)。但其值域?yàn)閇-1, 1],因此,輸出均值趨近于0,緩解了均值偏移問題,使得隨機(jī)梯度下降(stochastic gradient descent,SGD)更接近自然梯度(natrual gradient),從而降低了計(jì)算網(wǎng)絡(luò)參數(shù) 所需的迭代次數(shù),提高了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。

        1.2 ReLU系激活函數(shù)

        ReLU函數(shù)有效解決了sigmoid系函數(shù)的梯度消失問題,但依然存在均值偏移的缺點(diǎn)。定義為

        f(x)=max(0,x)

        (3)

        其函數(shù)圖像如圖3所示。

        圖3 ReLU函數(shù)

        從函數(shù)表達(dá)式和圖像可知,當(dāng)x≥0時(shí),其導(dǎo)數(shù)為1,因此,ReLU函數(shù)能夠在x≥0時(shí)保持梯度不衰減,可以有效地緩解梯度消失問題。

        當(dāng)x<0時(shí)硬飽和[8]。如果有輸入落入此區(qū)域,則該神經(jīng)元的梯度將永遠(yuǎn)為0,不會(huì)再對(duì)任何數(shù)據(jù)有激活作用,即神經(jīng)元死亡,直接導(dǎo)致計(jì)算結(jié)果不收斂。而且,ReLU函數(shù)在x<0時(shí)輸出為0,使得整體輸出均值大于0,無法緩解均值偏移問題。

        PReLU函數(shù)為ReLU函數(shù)的改進(jìn)版本,具有非飽和性,能夠緩解均值偏移問題和神經(jīng)元死亡問題,其定義為

        (4)

        其函數(shù)圖像如圖4所示。其中x<0部分的圖像根據(jù)其斜率α變化,一般α=0.25。

        圖4 PReLU函數(shù)

        與ReLU函數(shù)相比,PReLU函數(shù)中的負(fù)半軸斜率系數(shù)α可以學(xué)習(xí)而非固定,輸出均值趨近于0,而且x<0時(shí)函數(shù)非硬飽和,因此,PReLU函數(shù)的收斂速度更快,無神經(jīng)元死亡的問題。

        另外,其他激活函數(shù)如RReLU,ELU等亦能夠提高收斂速度。

        2 改進(jìn)的ReLU激活函數(shù)TLU

        對(duì)ReLU函數(shù)進(jìn)行了改進(jìn),將ReLU函數(shù)x<0的部分使用tanh函數(shù)代替,構(gòu)造出了一個(gè)新的激活函數(shù)TLU,函數(shù)定義為

        (5)

        其圖像如圖5,其中,x<0部分圖像根據(jù)斜率α變化。

        圖5 TLU函數(shù)

        從函數(shù)表達(dá)式和圖像中可以看出,TLU在右側(cè)的線性部分具有函數(shù)ReLU和LReLU的優(yōu)點(diǎn),在x≥0時(shí)導(dǎo)數(shù)為常數(shù),因此,在飽和區(qū)內(nèi)的梯度永遠(yuǎn)不會(huì)為0,能夠有效緩解梯度消失問題。

        1)TLU函數(shù)與ReLU函數(shù)對(duì)比,左側(cè)的非線性部分(x<0部分)不僅能夠使得均值更接近于0,避免均值偏移現(xiàn)象,而且由于其左側(cè)部分不具備硬飽和的性質(zhì),TLU不會(huì)出現(xiàn)神經(jīng)元死亡現(xiàn)象。

        2)雖然LReLU函數(shù)在x<0部分也能取值從而使均值趨近于0,但LReLU函數(shù)左側(cè)部分是線性的,對(duì)輸入變化或噪聲的魯棒性較弱,而TLU函數(shù)左側(cè)部分是非線性的具有軟飽和性,魯棒性更好,因此,可以預(yù)測(cè)TLU函數(shù)的性能必然強(qiáng)于LReLU函數(shù)。

        3 實(shí)驗(yàn)與結(jié)果分析

        采用字符集語言模型,在GRU型的深度網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為Ubuntu15.04LTS,Torch7,LuaRocks以及使用 NVIDIA推出的通用并行計(jì)算架構(gòu)CUDA Toolkit的NVIDIA GPU。訓(xùn)練數(shù)據(jù)集是部分Linux Ubuntu源代碼,約5 MB。

        由于使用sigmoid激活函數(shù)進(jìn)行實(shí)驗(yàn)時(shí)出現(xiàn)了結(jié)果不收斂的情況,所以實(shí)驗(yàn)結(jié)果僅使用了同為sigmoid系的tanh函數(shù)作為對(duì)照組,另外還增加了一個(gè)ELU激活函數(shù)作為對(duì)照組。使用不同的激活函數(shù)的GRU型深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果如圖6所示,實(shí)驗(yàn)結(jié)果表明:在相同的訓(xùn)練時(shí)間下,誤差率從低到高排序依次為TLU

        圖6 實(shí)驗(yàn)結(jié)果

        另一方面,在同等誤差率下,按照訓(xùn)練時(shí)間從小到大排序依次為TLU

        4 結(jié)束語

        設(shè)計(jì)了一種新的激活函數(shù)TLU,并與一些sigmoid系和ReLU系的激活函數(shù)進(jìn)行了比較,實(shí)驗(yàn)證明:TLU能顯著地加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度并有效地降低訓(xùn)練誤差。實(shí)驗(yàn)表明,TLU的系數(shù)α對(duì)訓(xùn)練時(shí)間和誤差有一定的影響,下一步研究工作將對(duì)參數(shù)α進(jìn)行優(yōu)化,以進(jìn)一步提高TLU函數(shù)的性能。

        [1] Gers F.Long short-term memory in recurrent neural network-s[D].Hannover,Germany:Universit?t Hannover,2001.

        [2] Cho K,Van Merri?nboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:2014,1406.1078.

        [3] 李宏偉,吳慶祥.智能傳感器中神經(jīng)網(wǎng)絡(luò)激活函數(shù)的實(shí)現(xiàn)方案[J].傳感器與微系統(tǒng),2014,33(1):46-48.

        [4] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]∥Proceedings of the 27th International Conference on Machine Learning(ICML),2010:807-814.

        [5] Hochreiter S.The vanishing gradient problem during learning recurrent neural nets and problem solutions[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,1998,6(2):107-116.

        [6] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]∥Neural Information Processing System,2012:1097-1105.

        [7] Clevert D E,Unterthiner T,Hochreiter S.Fast and accurate deep network learning by exponential linear units(elus)[J].arXiv preprint arXiv:2015,1511.07289.

        [8] Gulcehre C,Moczulski M,Denil M,et al.Noisy activation functions[J].arXiv preprint arXiv:2016,1603.00391.

        [9] He K,Zhang X,Ren S,et al.Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[Z].2015:1026-1034.

        猜你喜歡
        深度實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        深度理解一元一次方程
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        精品人妖一区二区三区四区| 日韩黄色大片免费网站 | 国产一区二区三区美女| 另类亚洲欧美精品久久不卡| 亚洲 无码 制服 丝袜 自拍| 久久99老妇伦国产熟女高清| 亚洲一区日本一区二区| 美女性色av一区二区三区| 日本女优激情四射中文字幕| 国产av自拍视频在线观看| 午夜精品久久久久久久无码| 69sex久久精品国产麻豆| 久久久久亚洲av无码专区体验| 日韩国产欧美视频| 伊人婷婷色香五月综合缴激情 | 亚洲国产天堂av成人在线播放| 偷拍韩国美女洗澡一区二区三区| 亚洲天堂成人av在线观看| 在教室伦流澡到高潮hgl动漫| 九一九色国产| 国产精品无码日韩欧| 偷亚洲偷国产欧美高清| 亚洲精品中文字幕二区| 女同亚洲一区二区三区精品久久| 手机av在线中文字幕| 天天躁日日躁狠狠躁欧美老妇小说| 国产成人亚洲精品青草天美 | av天堂一区二区三区精品| 日韩av水蜜桃一区二区三区| 亚洲一区二区三区中国| 国产乱xxⅹxx国语对白| 亚欧国产女人天堂Av在线播放| 亚洲av高清在线观看三区| 国产精品99久久不卡二区 | 亚洲精品国产精品乱码视色| 强奷乱码中文字幕| 国产乱子伦一区二区三区| 久久久久久久中文字幕| 国产麻豆剧传媒精品国产av蜜桃| 亚洲国产精品成人一区二区在线| 亚洲综合av一区二区三区蜜桃|