亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的研究

2021-09-28 10:11:10李一波郭培宜張森悅

計(jì)算機(jī)技術(shù)與發(fā)展 2021年9期

關(guān)鍵詞：模型

李一波，郭培宜，張森悅

(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院，遼寧沈陽(yáng) 110000)

0 引言

AlexNet網(wǎng)絡(luò)模型在圖像識(shí)別分類、目標(biāo)檢測(cè)、語(yǔ)音文字識(shí)別等方面都表現(xiàn)得十分突出[1]。AlexNet雖然不是首個(gè)被創(chuàng)建的卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural networks，CNN)，可是它是首個(gè)引起眾多研究者所關(guān)注的卷積神經(jīng)網(wǎng)絡(luò)，具有里程碑意義。AlexNet模型是由多倫多大學(xué)教授Geoffery Hinton同他的學(xué)生Krizhevsky等人共同設(shè)計(jì)，2012年創(chuàng)下Imageclassification比賽的新記錄，并獲得了ImageNet Large Scale Visual Recognition Challenge(ILSVRC)挑戰(zhàn)賽的冠軍[2]。同年，Krizhevesky等[3]在大型圖像數(shù)據(jù)庫(kù)ImageNet[4]的圖像分類競(jìng)賽中提出的AlexNet模型，以超越第二名11%的精確度獲得了冠軍，使得卷積神經(jīng)網(wǎng)絡(luò)成為學(xué)術(shù)界關(guān)注的焦點(diǎn)之一。隨著機(jī)器學(xué)習(xí)研究領(lǐng)域的不斷拓展，AlexNet也被許多學(xué)者作為首選的網(wǎng)絡(luò)模型，通過改進(jìn)和優(yōu)化，其分類精度不斷提高。

深度卷積神經(jīng)網(wǎng)絡(luò)的觀點(diǎn)起初來(lái)源于人工神經(jīng)網(wǎng)絡(luò)，而網(wǎng)絡(luò)中激活函數(shù)則是人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程和學(xué)習(xí)非線性函數(shù)過程中不能或缺的一部分。如果網(wǎng)絡(luò)模型不使用激活函數(shù)，神經(jīng)網(wǎng)絡(luò)每一層的輸出都將等價(jià)于前一層輸入的線性函數(shù)，那么無(wú)論神經(jīng)網(wǎng)絡(luò)將會(huì)有多少層，輸出都將是輸入的線性組合，這種情況使網(wǎng)絡(luò)模型成為最基本的感知器，深度神經(jīng)網(wǎng)絡(luò)將變得失去本身意義[5]。因此，使用激活函數(shù)作為神經(jīng)元來(lái)引進(jìn)非線性因素是十分必要的，可以使得神經(jīng)網(wǎng)絡(luò)能夠任意逼近任何非線性函數(shù)，進(jìn)而使神經(jīng)網(wǎng)絡(luò)能夠應(yīng)用到更多的非線性模型中。Krizhevsky等人在AlexNet中提出了ReLU激活函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)[6]，其優(yōu)點(diǎn)是前向區(qū)間為線性函數(shù)，加快了模型訓(xùn)練的收斂速度，解決了softsign、Softsign、Tanh等常見激活函數(shù)中的梯度消失問題，然而ReLU激活函數(shù)很可能導(dǎo)致一些神經(jīng)元在模型訓(xùn)練中無(wú)法激活。為了解決這種神經(jīng)元“死亡”現(xiàn)象，改進(jìn)了ReLU激活函數(shù)，使其在x小于零的負(fù)軸區(qū)間由Swish函數(shù)來(lái)替代，使負(fù)半軸的ReLU激活函數(shù)稱為非線性激活函數(shù)，有效地解決了x小于零的部分神經(jīng)元不能激活的問題，并且在x大于零的區(qū)間部分范圍內(nèi)由ReLU激活函數(shù)來(lái)替代，提高收斂速度的同時(shí)也能夠提升參數(shù)的利用率，并且降低了過擬合現(xiàn)象的發(fā)生率，很好地提高了AlexNet的魯棒性。

針對(duì)AlexNet網(wǎng)絡(luò)中激活函數(shù)ReLU在網(wǎng)絡(luò)訓(xùn)練中產(chǎn)生的神經(jīng)元死亡和均值偏移問題，結(jié)合反正切函數(shù)和對(duì)數(shù)函數(shù)的優(yōu)勢(shì)，在傳統(tǒng)激活函數(shù)ReLU基礎(chǔ)上提出了一種新的激活函數(shù)sArcReLU。將文中構(gòu)建的激活函數(shù)訓(xùn)練網(wǎng)絡(luò)模型并應(yīng)用于公開數(shù)據(jù)集分類實(shí)驗(yàn)中以驗(yàn)證其建立的網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果表明，利用sArcReLU激活函數(shù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)在分類精度和適應(yīng)性方面均有明顯的改善。

1 AlexNet模型結(jié)構(gòu)

AlexNet總共有650 000個(gè)神經(jīng)元，63 000萬(wàn)個(gè)神經(jīng)連接，60 000 000個(gè)網(wǎng)絡(luò)參數(shù)。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單，引入了許多新方法來(lái)達(dá)到穩(wěn)定的收斂速度[7]，網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)模型結(jié)構(gòu)共8層，其中分別含有五層卷積層和三層全連接層，包括了LRN局部響應(yīng)歸一化層和Dropout正則化。此網(wǎng)絡(luò)模型在圖像分類領(lǐng)域有著較為出色的優(yōu)勢(shì)[8]。

圖1 AlexNet結(jié)構(gòu)模型

圖像數(shù)據(jù)輸入格式是227×227×3，其中227表示輸入圖像的寬度和高度，3表示輸入圖像的三原色R、G、B通道模式，所以不需要對(duì)輸入的數(shù)據(jù)集進(jìn)行額外的格式裁剪。第一、二層計(jì)算均為卷積，ReLU，最大池化層和歸一化，第二層的輸出結(jié)果與256個(gè)特征圖進(jìn)行了卷積操作。網(wǎng)絡(luò)中的第三、四層只需要進(jìn)行卷積和ReLU操作。第五層的過程和第一層的過程類似，區(qū)別只在于沒有經(jīng)過歸一化處理。網(wǎng)絡(luò)最后將其第五層的輸出轉(zhuǎn)變?yōu)殚L(zhǎng)向量，輸入到三層全連接結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型中，再運(yùn)用Softmax回歸函數(shù)即可計(jì)算其分類準(zhǔn)確值。

2 模型的改進(jìn)

AlexNet網(wǎng)絡(luò)采用ReLU非飽和線性函數(shù)，激活值的獲取相對(duì)簡(jiǎn)單，只用一個(gè)閾值，省去了原本復(fù)雜的運(yùn)算過程，相較于常見的非線性S型激活函數(shù)Tanh、Sigmoid等收斂速度更快[9]，改善了梯度消失和收斂不穩(wěn)定的缺點(diǎn)。圖2為ReLU與其他常見激活函數(shù)的曲線對(duì)比。

圖2 ReLU與常見的激活函數(shù)曲線對(duì)比

Tanh函數(shù)換言之是Sigmoid函數(shù)的一種變換類型，Tanh函數(shù)的輸出值在[-1,1]區(qū)間內(nèi)，而Sigmoid函數(shù)的輸出值則在[0,1]區(qū)間[10]。Tanh和Sigmoid都擁有飽和區(qū)，ReLu函數(shù)在x大于零時(shí)導(dǎo)數(shù)一直是1且不變，十分有助于解決梯度消失、梯度爆炸等問題，促使加快訓(xùn)練速度。

一般地，當(dāng)網(wǎng)絡(luò)模型后向傳遞過程時(shí)，且使用梯度下降法求解網(wǎng)絡(luò)參數(shù)，Sigmoid激活函數(shù)向下傳導(dǎo)的梯度中包含了有關(guān)自身輸入的導(dǎo)數(shù)f'(x)，當(dāng)輸入值進(jìn)入飽和區(qū)時(shí)，f'(x)的輸出值逐漸接近于零。此特性十分容易導(dǎo)致梯度消失現(xiàn)象，所以深度神經(jīng)網(wǎng)絡(luò)一直很難得到有效的訓(xùn)練，也是阻礙神經(jīng)網(wǎng)絡(luò)發(fā)展的重要原因之一[11]。

其中ReLu激活函數(shù)的數(shù)學(xué)表達(dá)式為：

f(x)=max(0,x)

(1)

經(jīng)過圖2分析，ReLu激活函數(shù)曲線也存在很多不足，例如當(dāng)輸出值恒大于或等于零時(shí)，易導(dǎo)致均值偏移的缺點(diǎn)，均值偏移會(huì)導(dǎo)致神經(jīng)元將前一層網(wǎng)絡(luò)的非零均值輸出的信號(hào)作為輸入信號(hào)，使參數(shù)的計(jì)算復(fù)雜度大幅度增加。處于網(wǎng)絡(luò)模型訓(xùn)練過程的前向傳播過程時(shí)，“強(qiáng)制”稀疏性作用會(huì)使網(wǎng)絡(luò)中的某些神經(jīng)元一直不會(huì)被激活，與其相對(duì)應(yīng)的參數(shù)也一直不會(huì)被更新，所以會(huì)致使一些好的特征被屏蔽。眾所周知，神經(jīng)“死亡”和強(qiáng)制稀疏性的缺點(diǎn)對(duì)網(wǎng)絡(luò)模型的收斂速度和網(wǎng)絡(luò)性能影響很大[12]。

(2)

ArcReLU函數(shù)導(dǎo)數(shù)如下：

(3)

由圖3分析，ArcReLU激活函數(shù)導(dǎo)數(shù)值恒為正值。根據(jù)導(dǎo)數(shù)特征，可說(shuō)明函數(shù)明顯呈單調(diào)遞增特性。當(dāng)激活函數(shù)擁有單調(diào)特性時(shí)，單層網(wǎng)絡(luò)能保證其為凸函數(shù)，由此推斷出該函數(shù)在訓(xùn)練過程中更易收斂。

圖3 ArcReLU及其導(dǎo)數(shù)的圖像

由于ReLU歸類于分段線性非飽和的函數(shù)，其與傳統(tǒng)的S型激活函數(shù)作對(duì)比發(fā)現(xiàn)，ReLU函數(shù)隨機(jī)梯度下降收斂速度更快，而且函數(shù)計(jì)算過程更加簡(jiǎn)潔明了。相較于Sigmoid激活函數(shù)，ReLU稀疏特性更加明顯。然而稀疏性也將會(huì)帶來(lái)更高的錯(cuò)誤識(shí)別率并且降低了網(wǎng)絡(luò)模型的有效容量。通過分析激活函數(shù)，不僅計(jì)算過程更加簡(jiǎn)潔，而且負(fù)半軸的輸出會(huì)得以更好的保存。在負(fù)軸使用了反正切函數(shù)進(jìn)行替換，不僅可以使均值更趨向于零，緩解了函數(shù)均值易偏移的缺點(diǎn)，并且其負(fù)半軸部分具有軟飽和性，使其不會(huì)輕易出現(xiàn)神經(jīng)元“死亡”的現(xiàn)象，同時(shí)具備單調(diào)遞增的特性，進(jìn)一步提高了收斂速度。

文中結(jié)合ArcReLU激活函數(shù)設(shè)計(jì)了一種新的激活函數(shù)，記為sArcReLU，表達(dá)式如公式(4)所示，函數(shù)圖像如圖3所示。

(4)

上述公式中，系數(shù)s表示超參數(shù)，取值范圍為[0,1)。當(dāng)輸入為負(fù)值時(shí)，函數(shù)的梯度與參數(shù)s不相關(guān)；當(dāng)輸入為正值時(shí)，函數(shù)值取決于超參數(shù)。

改進(jìn)后激活函數(shù)的圖像如圖4所示。由函數(shù)圖像分析可以得到初步結(jié)論，該函數(shù)在其定義范圍內(nèi)可導(dǎo)并且單調(diào)遞增，現(xiàn)只需證明該函數(shù)在其原點(diǎn)處的可導(dǎo)特性。以下證明過程中將x大于零的部分稱為f1，x小于等于零的部分稱為f2，過程證明如下：

圖4 sArcReLU函數(shù)圖像

f(0)=f(0-)=f(0+)=0

(5)

(6)

(7)

式(5)說(shuō)明sArcReLU在原點(diǎn)連續(xù)且具有定義。由式(6)與式(7)的結(jié)果分析，函數(shù)都存在且相同，依據(jù)導(dǎo)數(shù)的定義，該函數(shù)在零點(diǎn)處可導(dǎo)。

sArcReLU的偏導(dǎo)數(shù)為：

從上述公式可看出，sArcReLU激活函數(shù)的導(dǎo)數(shù)值始終大于零。根據(jù)導(dǎo)數(shù)定義，證明函數(shù)具有單調(diào)遞增特性。當(dāng)激活函數(shù)始終具有單調(diào)特性時(shí)，單層網(wǎng)絡(luò)可以保證其為凸函數(shù)[14]。當(dāng)激活函數(shù)中x大于等于0，即神經(jīng)元處于興奮激活狀態(tài)時(shí)，梯度隨著x的增加而不斷下降，并且最終收斂于1。當(dāng)x小于零，即神經(jīng)元處于抑制區(qū)域時(shí)，具有接近于零的梯度s。

sArcReLU函數(shù)具有以下優(yōu)勢(shì)：

①負(fù)軸的輸出值保持非零值，因此激活函數(shù)擁有保留梯度變化的特性，即可以有效解決由ReLU強(qiáng)制置零特性導(dǎo)致的神經(jīng)元“死亡”缺點(diǎn)。

②超參數(shù)s使得激活函數(shù)輸出值可變，消除了當(dāng)ReLU取正值時(shí)的線性特性，使得網(wǎng)絡(luò)更新過程更接近于生物神經(jīng)元接收刺激信號(hào)時(shí)展現(xiàn)的生物特性，并且應(yīng)用于不同的數(shù)據(jù)集將會(huì)得到不同的最優(yōu)值，也使改進(jìn)后的激活函數(shù)更具備適應(yīng)性。

③由于超參數(shù)s的存在，正半軸的值保持可變性，可以實(shí)時(shí)修正數(shù)據(jù)的分布稀疏性，保留了網(wǎng)絡(luò)快速收斂的特性。

3 實(shí)驗(yàn)與分析

UC Merced Land Use(UCM)數(shù)據(jù)集為公開的遙感數(shù)據(jù)集。數(shù)據(jù)集中的遙感圖像由工作人員從美國(guó)地質(zhì)調(diào)查局“市區(qū)圖像”集合中的大圖像中手動(dòng)提取[15]。其中包括美國(guó)不同城市地區(qū)的21種地物的遙感圖像，數(shù)據(jù)集中每一類有一百幅，共2 100幅，空間分別率為1英尺，分別具有R、G、B三個(gè)顏色通道。21類場(chǎng)景分別為農(nóng)田、機(jī)場(chǎng)、棒球場(chǎng)、沙灘、建筑、叢林、密集住宅區(qū)、森林、高速公路、高爾夫球場(chǎng)、港口、十字路口、普通住宅區(qū)、房車停車場(chǎng)、立交橋、停車場(chǎng)、河流、跑道、高級(jí)住宅區(qū)、儲(chǔ)油罐、網(wǎng)球場(chǎng)。其中部分場(chǎng)景之間有部分重疊，比如住宅區(qū)分了密集住宅區(qū)、普通住宅區(qū)、高級(jí)住宅區(qū)三類。21類場(chǎng)景圖像的部分樣例如圖5所示。

圖5 UCM數(shù)據(jù)集樣例圖

實(shí)驗(yàn)采用開源框架Tensorflow-1.10.0，編程軟件python3.6.6實(shí)現(xiàn)模型結(jié)構(gòu)構(gòu)建，采用的CPU是Intel(R)Core(TM)i5-8500 CPU @3.00 GHz，8G內(nèi)存，64位windows10操作系統(tǒng)。

按照9∶1的比例將UCM數(shù)據(jù)集中每一個(gè)場(chǎng)景的高分辨率圖像隨機(jī)分為90張訓(xùn)練數(shù)據(jù)、10張測(cè)試數(shù)據(jù)。初始學(xué)習(xí)率選取0.000 1、0.001、0.01、0.1、1，實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 不同初始學(xué)習(xí)率對(duì)應(yīng)的loss值

隨著學(xué)習(xí)率不斷擴(kuò)大，網(wǎng)絡(luò)的損失值逐漸減小，隨后loss值又開始小幅度增大。由圖6分析選取0.1作為初始學(xué)習(xí)率最為合適。

為了驗(yàn)證激活函數(shù)參數(shù)s取值對(duì)分類結(jié)果的影響，s分別取值0,0.01,0.1,0.4,0.7,1進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果如表1所示。

表1 超參數(shù)s分析

實(shí)驗(yàn)結(jié)果表明，當(dāng)s=0時(shí)，激活函數(shù)退化為ReLU，準(zhǔn)確率就是AlexNet經(jīng)典網(wǎng)絡(luò)模型訓(xùn)練得出的結(jié)果，即73.4%。當(dāng)s=0.1時(shí)，網(wǎng)絡(luò)會(huì)在1 000次時(shí)最先達(dá)到收斂狀態(tài)，而且分類效果最好，網(wǎng)絡(luò)準(zhǔn)確率將會(huì)達(dá)到78.8%。

在數(shù)據(jù)集UCM和同等條件下對(duì)三種激活函數(shù)ReLU、ArcReLU、sArcReLU做了訓(xùn)練測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。

表2 數(shù)據(jù)集UCM下的準(zhǔn)確率

通過結(jié)果分析，用sArcReLU激活函數(shù)訓(xùn)練的AlexNet在分類準(zhǔn)確率上比受其他兩個(gè)激活函數(shù)的AlexNet更勝一籌。

為了驗(yàn)證提出的激活函數(shù)的適應(yīng)性，新建了一個(gè)數(shù)據(jù)集UCM-NWPU，選取NWPU-RESISC45和UCMerced_LandUse中相同15種場(chǎng)景，每種場(chǎng)景有900張，總有13 500張，對(duì)圖像尺寸歸一化，調(diào)整輸入圖像的尺寸統(tǒng)一為256×256×3。訓(xùn)練集是在每類圖像場(chǎng)景中隨機(jī)挑選出其中90%圖像，因此原有訓(xùn)練集共有12 150張圖像，剩下的1 350張圖像就將作為測(cè)試集。

若選取的學(xué)習(xí)率過大，十分有可能會(huì)直接越過最優(yōu)值；若選取的學(xué)習(xí)率過小，優(yōu)化的效率可能過低，長(zhǎng)時(shí)間就無(wú)法收斂。同上一個(gè)實(shí)驗(yàn)一致，經(jīng)過測(cè)試，本實(shí)驗(yàn)的學(xué)習(xí)率為0.1時(shí)測(cè)試結(jié)果最好，激活函數(shù)中超參數(shù)s選取0.1時(shí)效果最好。實(shí)驗(yàn)結(jié)果如下所示：

圖7和圖8分別是sArcReLU作為激活函數(shù)在數(shù)據(jù)集UCM-NWPU上訓(xùn)練驗(yàn)證的分類準(zhǔn)確率和損失函數(shù)曲線。

圖7 準(zhǔn)確率

圖8 損失函數(shù)曲線

4 結(jié)束語(yǔ)

文中設(shè)計(jì)了一種新激活函數(shù)sArcReLU，并且與ReLU和ArcReLU激活函數(shù)進(jìn)行了實(shí)驗(yàn)分析和比較。實(shí)驗(yàn)證明：sArcReLU激活函數(shù)能夠明顯提高網(wǎng)絡(luò)迭代速度并且有效降低訓(xùn)練的誤差率。表明sArcReLU中超參數(shù)s對(duì)迭代次數(shù)和準(zhǔn)確率有一定的影響。下一步研究工作的重點(diǎn)將放在激活函數(shù)中超參數(shù)s的優(yōu)化上，以進(jìn)一步提高激活函數(shù)sArcReLU的性能。