亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度神經(jīng)網(wǎng)絡代價函數(shù)選擇與性能評測研究

        2018-02-05 09:16:35郭萬鵬
        軟件 2018年1期
        關鍵詞:偏置代價交叉

        趙 宏,郭萬鵬

        (1. 蘭州理工大學計算機與通信學院,甘肅 蘭州 730050;2. 蘭州理工大學信息中心,甘肅 蘭州 730050)

        0 引言

        人工神經(jīng)網(wǎng)絡ANN(Artificial Neural Networks)的研究是人工智能領域的一個重要分支,在對生物神經(jīng)網(wǎng)絡結(jié)構及其機制研究的基礎上所構建的人工神經(jīng)網(wǎng)絡,使得機器能夠直接從數(shù)據(jù)中提取特征和學習規(guī)律,從而使機器具有一定的智能。ANN的研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型,后來出現(xiàn)的反向傳播 BP(Back Propagation)算法推動 ANN進入實用階段[1],但由于當時的ANN訓練數(shù)據(jù)缺乏、訓練方法及技巧不成熟、計算機運算能力不夠強大等原因,使得這個時期的ANN結(jié)構較為簡單,可等價為主要用來進行淺層學習的單隱層神經(jīng)網(wǎng)絡。2006年深度學習領域奠基人Hinton教授,根據(jù)人腦認知過程的分層特性,提出構建深度神經(jīng)網(wǎng)絡DNN(Deep Neural Networks),并取得成功[2]。

        近年來,深度神經(jīng)網(wǎng)絡在圖像識別、語音交互、自然語言處理等領域取得突破,進入實用階段。與淺層神經(jīng)網(wǎng)絡相比,深度神經(jīng)網(wǎng)絡訓練難度更大,其主要原因是梯度下降算法的殘差值在網(wǎng)絡中逐層傳播時變得越來越小,出現(xiàn)梯度消失的問題,使得底層網(wǎng)絡由于殘差值過小而無法得到有效的訓練。從模型訓練經(jīng)驗可知,選擇合適的代價函數(shù)并配合相應的激活函數(shù)能夠明顯改善梯度消失的問題,從而加快網(wǎng)絡的訓練速度。文獻[3]對如何提高深度神經(jīng)網(wǎng)絡的學習速率做了大量的研究,并指出交叉熵代價函數(shù)能夠避免深度神經(jīng)網(wǎng)絡學習速率緩慢的問題,但忽視了激活函數(shù)對代價函數(shù)性能的影響。文獻[4]給出了一種改善深度神經(jīng)網(wǎng)絡訓練效果的方法,指出改進激活函數(shù)能夠提高深度神經(jīng)網(wǎng)絡的訓練效果,但結(jié)果表明,僅對激活函數(shù)的改進,對于提高深度神經(jīng)網(wǎng)絡的學習速率效果并不明顯。

        利用概率論對模型訓練中常用的二次代價函數(shù)和交叉熵函數(shù)進行理論推導,揭示兩者在模型訓練過程中對梯度下降算法參數(shù)的影響,研究代價函數(shù)與激活函數(shù)的組合效果,對模型訓練過程中的經(jīng)驗進行理論解析并通過實驗平臺進行驗證。

        1 基本概念

        1.1 獨立同分布中心極限定理

        定理1[5]設隨機變量X1,X2,…,Xn相互獨立,服從同一分布,且有 E (Xi) = μ , D (Xi) = σ2>0,(i=1,2,…,n),其中E(Xi)為隨機變量 Xi的數(shù)學期望,D(Xi)為隨機變量Xi的方差,則隨機變量X1,X2,…,Xn之和Xi的標準化變量 Yn如式(1)所示。

        其中,對于任意的x,Yn的分布函數(shù) Fn(x)滿足式(2)。

        當n充分大時,若隨機變量X1,X2,…,Xn服從獨立同分布,期望為μ,方差為2σ ,則其和似地服從高斯分布N,如式(3)所示。

        1.2 高斯分布

        定義 1[6]如果隨機變量x的概率密度函數(shù)如式(4)所示,則 x服從高斯分布 N ( μ,σ2),記為x ~ N ( μ,σ2),稱x為高斯隨機變量。其中,μ和σ為常數(shù),且σ>0。

        1.3 似然函數(shù)

        定義2[7]樣本x1,…,xn的聯(lián)合概率函數(shù)可看作θ的函數(shù),用 L (θ; x1, x2,… ,xn)表示,稱L(θ)為樣本的似然函數(shù),簡記為L(θ),如式(5)所示。

        2 主要結(jié)論

        2.1 二次代價函數(shù)

        二次代價函數(shù)[8]的定義如式(6)所示。

        其中, (,)CWb表示神經(jīng)網(wǎng)絡的代價函數(shù);n表示訓練樣本的大??;W和b分別表示由神經(jīng)網(wǎng)絡權重和偏置構成的矩陣。x表示由神經(jīng)網(wǎng)絡的輸入構成的矩陣; ()yx表示由神經(jīng)網(wǎng)絡的預期輸出構成的矩陣;?()yx表示由神經(jīng)網(wǎng)絡的實際輸出構成的矩陣。其中,?()yx的表達式如式(7)所示。

        其中,()δz表示激活函數(shù)。

        由式(6)知,訓練神經(jīng)網(wǎng)絡的最終目的是獲得代價函數(shù) (,)CWb最小時的權重和偏置,即神經(jīng)網(wǎng)絡的實際輸出 ?()yx與預期輸出 ()yx的誤差最小時的權重和偏置。這是因為假設第i個神經(jīng)元的實際輸出為輸入特征的線性函數(shù)與誤差項之和,如式(9)所示。

        其中,θ為給定的參數(shù),ξ(i)為誤差項,由定理1得由式(4)得高斯分布的概率密度函數(shù)如式(11)所示。

        利用似然函數(shù)對參數(shù)θ進行估計。當θ為一定值時,以θ為參數(shù)的概率P取得最大值。由式(5)得

        令 ?(θ) = log L (θ),由式(13)得 ?(θ)

        當函數(shù)()θ?取得最大值時函數(shù)C取得最小值。對式(15)進行變換,令

        則由式(15)、式(16)可得:

        對式(6)進行鏈式求導得:

        其中,假設神經(jīng)網(wǎng)絡的輸入 x = 1,目標輸出y(x) =0,則由式(17)、式(18)知,激活函數(shù)的導函數(shù)δ′(z)是影響權重和偏置學習速率的重要因素。

        引入交叉熵代價函數(shù)能夠消除δ′(z)對權重和偏置學習速率的影響。

        2.2 交叉熵代價函數(shù)

        假設 y = y1, y2,…yn是神經(jīng)元上預期輸出值,,, …是神經(jīng)元上實際輸出值,定義多元神經(jīng) 元上交叉熵代價函數(shù)如式(19)所示。

        j的偏置;x表示神經(jīng)元的輸入。n表示訓練樣本的大小。引入交叉熵代價函數(shù)可以避免δ′(z)導致的神經(jīng)網(wǎng)絡學習速率緩慢的問題,這是因為在交叉熵代價函數(shù)中消除了參數(shù)δ′(z)的影響。由式(17)、式(18)得:

        由式(7)得:

        由式(6)得:

        由式(21)、式(22)、式(23)得:

        對式(24)求積分得:

        令 c = c1-yjc2,由式(25)化簡得:

        為了得到多元神經(jīng)網(wǎng)絡上整個交叉熵代價函數(shù),對所有訓練樣本求平均,得式(19)。同時進一步證明了交叉熵能夠解決多元神經(jīng)元上δ′(z)導致學習速率緩慢的真正原因。式(19)中對參數(shù)進

        行鏈式求導得:

        由式(19)得:

        由式(28)、式(29)、式(30)得:

        由式(22)、式(31)得:

        式(19)中對參數(shù)Ljb進行鏈式求導得

        同理可得:

        由式(32)、式(34)知,交叉熵代價函數(shù)消除了參數(shù)()δ′z,解決了多元神經(jīng)元上()δ′z導致學習速率緩慢的問題。

        通過對二次代價函數(shù)和交叉熵代價函數(shù)的推導可知,二次代價函數(shù)與非線性激活函數(shù)結(jié)合會導致權重和偏置的學習速率減慢,其真正原因是當()δ′z的值趨于0時,權重和偏置的學習速率受到抑制。引入交叉熵代價函數(shù)后,消除了()δ′z導致學習速率緩慢的問題,從而提高了權重和偏置的學習效率。另外,由式(20)、式(21)知,當神經(jīng)網(wǎng)絡的輸入為一定值時,參數(shù)的學習速率會隨輸出誤差的變化而變化,當輸出誤差較大時權重和偏置的學習速率也越快,這也是引入交叉熵代價函數(shù)后能夠提高神經(jīng)網(wǎng)絡學習速率的重要原因。

        由式(17)、式(18)知,不同激活函數(shù)導致代價函數(shù)學習速率的不同。因此,需要進一步分析代價函數(shù)和激活函數(shù)組合后的神經(jīng)網(wǎng)絡性能。

        2.3 激活函數(shù)

        神經(jīng)網(wǎng)絡中常用的激活函數(shù)分別為 Sigmoid、Tanh、ReLu和 PReLu。

        2.3.1 Sigmoid 激活函數(shù)

        Sigmoid函數(shù)表達式如式(35)所示,函數(shù)值在0到1之間,如圖1所示。Sigmoid激活函數(shù)具有雙向飽和的特性,當x→∞時,σ′(x) =0,具有這種性質(zhì)的激活函數(shù)稱為軟飽和激活函數(shù)[9],Sigmoid激活函數(shù)的軟飽和性是導致神經(jīng)網(wǎng)絡學習速率緩慢的重要原因。

        圖1 Sigmoid函數(shù)Fig.1 Sigmoid function

        2.3.2 Tanh激活函數(shù)

        Tanh函數(shù)與Sigmoid函數(shù)具有相似的性質(zhì),是典型的S型函數(shù),表達式如式(36)所示,函數(shù)值在-1到1之間,如圖2所示。相比Sigmoid函數(shù),Tanh函數(shù)延遲了飽和期。對比圖1和如圖2可知,Tanh函數(shù)與Sigmoid函數(shù)一樣具有軟飽和的特性,同樣會陷入局部最優(yōu)解,使神經(jīng)網(wǎng)絡訓練難度加大,但Tanh函數(shù)性能優(yōu)于Sigmoid函數(shù)。

        圖2 Tanh函數(shù)Fig.2 Tanh function

        2.3.3 ReLu激活函數(shù)

        Relu函數(shù)表達式如式(37)所示,函數(shù)值為 0或x,如圖3所示。Relu激活函數(shù)避免了S型激活函數(shù)飽和區(qū)對神經(jīng)網(wǎng)絡收斂速度的限制[10],但是Relu激活函數(shù)在訓練時非常脆弱,流經(jīng)ReLu神經(jīng)元的一個大梯度導致權重更新后該神經(jīng)元接收到的任何數(shù)據(jù)點都不會再被激活。

        圖3 ReLu函數(shù)Fig.3 ReLu function

        2.3.4 PReLu激活函數(shù)

        PReLu(Parametric ReLu)函數(shù)表達式如式(38)所示,函數(shù)值根據(jù)x的不同為斜率不同的直線,如圖4所示。PReLu激活函數(shù)在ReLu激活函數(shù)的基礎上作了進一步改進,當x為負值時其導數(shù)不再為0。

        圖4 PReLu函數(shù)Fig.4 PReLu function

        3 實驗分析

        3.1 CNN模型原理

        卷積神經(jīng)網(wǎng)絡 CNN(Convolutional Neural Network)作為神經(jīng)網(wǎng)絡最常見的形式,使用代價函數(shù)和激活函數(shù)的組合來提高網(wǎng)絡的訓練效率和精度。CNN通過激活函數(shù)映射網(wǎng)絡的輸出,利用代價函數(shù)對網(wǎng)絡的輸出誤差進行評價,進而使用反向傳播算法和隨機梯度下降算法不斷提高網(wǎng)絡的精度。同時CNN的局部感知域、權值共享和池化層等三個主要特征[11]對大型圖像的處理具有出色的表現(xiàn)。基于Hubel和Wiesel早期對貓初級視覺皮層(V1)的研究,CNN基本結(jié)構[12]如圖5所示,由輸入層、卷積層、池化層、全連接層和輸出層組成。其中,卷積層和池化層是卷積神經(jīng)網(wǎng)絡特有的屬性。卷積層通過卷積操作提取輸入的不同特征,池化層對卷積層提取的特征進行池化處理,保留最有用特征,減少神經(jīng)元數(shù)量,避免網(wǎng)絡發(fā)生過擬合,最后利用softmax分類器進行分類,并通過全連接層輸出結(jié)果。

        圖5 卷積神經(jīng)網(wǎng)絡的模型圖[13]Fig.5 The model of convolution neural network

        3.2 多通道卷積操作

        卷積層是CNN核心網(wǎng)絡層,卷積層基于圖像空間的局部相關性,利用卷積提取圖像的局部特征,如圖6所示。

        圖6 多通道卷積網(wǎng)絡結(jié)構[14]Fig.6 The network structure of multi-channel convolutional

        第L層特征的計算公式如式(39)所示。

        其中,z表示第L層特征的輸入;WjLk-1表示第L- 1層的第j個神經(jīng)元與第k個神經(jīng)元之間的權重;bLj-1表示第L- 1層上第j個神經(jīng)元的偏置;x表示第L- 1層的輸入。

        輸出圖像特征的計算如式(40)所示[14]。

        其中,L×H表示輸出圖像尺寸;Lj×Hj表示第j個神經(jīng)元上輸入圖像尺寸;l×h表示濾波器尺寸;s表示滑動步長。

        3.3 池化操作

        池化操作是對卷積層提取的特征進行處理,其目的是降低卷積層輸出的特征向量,避免網(wǎng)絡發(fā)生過擬合,同時改善網(wǎng)絡訓練效果。理論上,可以用所有提取到的特征去訓練分類器,但這樣做面臨計算量的挑戰(zhàn)。例如,對于一個96×96像素的圖像,假設已經(jīng)學習得到了400個定義在8×8輸入上的特征,每一個特征和圖像卷積都會得到(96 - 8 + 1 )×(96 - 8+ 1 ) = 7 921維的卷積特征,由于有400個特征,所以每個樣例都會得到7921×400=3168400維的卷積特征向量,訓練這樣一個超過3000000特征輸入的分類器容易出現(xiàn)過擬合。根據(jù)圖像的“靜態(tài)性”屬性,池化操作對卷積層進行如圖7所示的處理,可以有效防止特征過多造成過擬合的問題,其池化的主要策略有mean-pooling、max-pooling、stochasticpooling等。

        圖7 池化過程Fig.7 Pooling process

        3.4 模型構建

        通過對CNN模型原理的分析,利用Google深度學習平臺TensorFlow構建了以CNN模型為基礎的深度神經(jīng)網(wǎng)絡,其中,網(wǎng)絡的構建采用了代價函數(shù)和激活函數(shù)不同組合的方式,并利用 notMNIST數(shù)據(jù)作為實驗數(shù)據(jù)集。notMNIST數(shù)據(jù)集是一組按字符分類的圖像文件夾,有A、B、C、D、E、F、G、H、I、J共10個文件夾,其可視化后的效果如圖8、圖9所示,其中,訓練數(shù)據(jù)集中含有部分非字符的噪聲圖像,如圖9所示。

        3.5 實驗結(jié)果

        表1、表2、表3、表4分別為 Sigmoid、Tanh、Relu和PReLu為激活函數(shù)時與二次代價函數(shù)和交叉熵代價函數(shù)的組合效果,表5為實驗中采用的超參數(shù)值。

        圖8 notMNIST測試數(shù)據(jù)集Fig.8 Test dataset of notMNIST

        圖9 notMNIST訓練數(shù)據(jù)集Fig.9 Training dataset of notMNIST

        表1 Sigmoid作為激活函數(shù)時性能對比Tab.1 Performance comparison while Sigmoid as the activation function

        表2 Tanh作為激活函數(shù)時性能對比Tab.2 Performance comparison while Tanh as the activation function

        表3 ReLu作為激活函數(shù)時性能對比Tab.3 Performance comparison while ReLu as the activation function

        表4 PReLu ReLu作為激活函數(shù)時性能對比Tab.4 Performance comparison while PReLu as the activation function

        表5 實驗中超參數(shù)的具體值Tab.5 The specific value of the over-parameter in the experiment

        3.6 實驗結(jié)果分析

        實驗探索了不同代價函數(shù)和激活函數(shù)組合下模型訓練的性能,發(fā)現(xiàn)代價函數(shù)和激活函數(shù)的優(yōu)選會影響模型的訓練效率。通過實驗結(jié)果的對比發(fā)現(xiàn),線性激活函和非線性激活函數(shù)對二次代價函數(shù)的性能有不同的效果,究其原因,線性激活函數(shù)的導函數(shù)是一個常數(shù),對二次代價函數(shù)的性能并不產(chǎn)生影響,而Sigmoid和Tanh等非線性函數(shù)容易達到飽和導致梯度消失,所以導致學習速率緩慢。實驗也表明系統(tǒng)采用 ReLu函數(shù)以及 ReLu函數(shù)的變體函數(shù)PReLu與代價函數(shù)結(jié)合使用,會明顯改善訓練的效果,這是因為Relu函數(shù)可以通過簡單的零閾值矩陣進行激活,并且不受飽和的影響,但是,Relu函數(shù)在訓練時非常脆弱,流經(jīng) ReLu神經(jīng)元的一個大梯度導致權重更新后該神經(jīng)元接收到的任何數(shù)據(jù)點都不會再激活。為了解決這個問題,研究者們發(fā)現(xiàn)了ReLu函數(shù)的一些變體函數(shù),如PReLu,與交叉熵代價函數(shù)結(jié)合具有良好的訓練效果。最后,實驗對超參數(shù)的設置也進行了探究,并給出了針對該實驗具有良好效果的超參數(shù)值。

        4 結(jié)語

        本文利用概率論對模型訓練中常用的二次代價函數(shù)和交叉熵代價函數(shù)進行推導,揭示了兩者在模型訓練過程中對參數(shù)尋優(yōu)的影響,并給出了它們與不同激活函數(shù)組合的效果。實驗表明,代價函數(shù)與激活函數(shù)的優(yōu)選能夠減少訓練的迭代次數(shù),從而提高深度神經(jīng)網(wǎng)絡訓練的效率。并且發(fā)現(xiàn)交叉熵代價函數(shù)與PReLU激活函數(shù)結(jié)合具有優(yōu)秀的效果。

        [1] 龐榮. 深度神經(jīng)網(wǎng)絡算法研究及應用[D]. 西南交通大學,2016.

        [2] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.

        [3] Michael A. Nielsen. Neural Networks and Deep Learning[M].Determination Press, 2015.

        [4] 葉小舟, 陶飛飛, 戚榮志, 等. 循環(huán)神經(jīng)網(wǎng)絡結(jié)構中激活函數(shù)的改進[J]. 計算機與現(xiàn)代化, 2016(12): 29-33.

        [5] 鄒廣玉. 混合隨機變量序列的幾乎處處中心極限定理[D].吉林大學, 2013.

        [6] Zhao L, Mi D, Sun Y. A novel multitarget model of radiationinduced cell killing based on the Gaussian distribution[J].Journal of Theoretical Biology, 2017, 420: 135-143.

        [7] 王曉紅, 李宇翔, 余闖等. 基于β似然函數(shù)的參數(shù)估計方法[J]. 北京航空航天大學學報, 2016, 42(1): 41-46.

        [8] 徐先峰, 馮大政. 一種充分利用變量結(jié)構的解卷積混合盲源分離新方法[J]. 電子學報, 2009, 37(1): 112-117.

        [9] Bao G, Zeng Z. Analysis and design of associative memories based on recurrent neural network with discontinuous activation functions. Neurocomputing[J]. Neurocomputing, 2012,77(1): 101-107.

        [10] 張堯. 激活函數(shù)導向的RNN算法優(yōu)化[D]. 浙江大學, 2017.

        [11] 卷積神經(jīng)網(wǎng)絡在圖像分類中的應用研究[D]. 電子科技大學, 2015.

        [12] 何鵬程. 改進的卷積神經(jīng)網(wǎng)絡模型及其應用研究[D]. 大連理工大學, 2015吳正文.

        [13] 李彥冬, 郝宗波, 雷航. 卷積神經(jīng)網(wǎng)絡研究綜述[J]. 計算機應用, 2016, 36(9): 2508-2515.

        [14] 張重生 深度學習: 原理與應用實踐[M]. 電子工業(yè)出版社,2016.

        猜你喜歡
        偏置代價交叉
        基于40%正面偏置碰撞的某車型仿真及結(jié)構優(yōu)化
        基于雙向線性插值的車道輔助系統(tǒng)障礙避讓研究
        中國信息化(2022年5期)2022-06-13 11:12:49
        “六法”巧解分式方程
        愛的代價
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        代價
        一級旋流偏置對雙旋流杯下游流場的影響
        連一連
        基于Fast-ICA的Wigner-Ville分布交叉項消除方法
        計算機工程(2015年8期)2015-07-03 12:19:54
        成熟的代價
        中學生(2015年12期)2015-03-01 03:43:53
        雙線性時頻分布交叉項提取及損傷識別應用
        精品视频一区二区杨幂| 少妇对白露脸打电话系列| 亚洲国产精品亚洲一区二区三区 | 国产精品久久久在线看| 国产人成精品免费久久久| 女人无遮挡裸交性做爰| 亚洲理论电影在线观看| 成人av鲁丝片一区二区免费| 精品少妇人妻av无码专区| 一本色道久久综合亚洲精品不卡 | 中国年轻丰满女人毛茸茸| 久久精品免视看国产明星| 欧美中出在线| 麻豆成人久久精品二区三区免费| 国产白色视频在线观看| 人妻少妇精品中文字幕专区| 少妇久久久久久人妻无码| 亚洲成av人影院| 无码骚夜夜精品| 天天躁人人躁人人躁狂躁| 日本精品免费一区二区三区| 免费高清视频在线观看视频| 亚洲精品色播一区二区| 色婷婷久久综合中文蜜桃| 亚洲最大中文字幕在线| 亚洲av永久无码精品古装片| 日本精品无码一区二区三区久久久| 日本不卡在线视频二区三区| 亚洲欧洲日韩免费无码h| 91免费国产高清在线| 日本在线一区二区在线| 久久亚洲中文字幕精品二区 | 日产精品一区二区三区| 国产大陆av一区二区三区| 国产精品国产三级国a| 日本一二三四区在线观看| 一个人看的www片免费高清视频| 国产精品嫩草99av在线 | 熟女一区二区三区在线观看| 欧美日韩视频在线第一区| 特级毛片a级毛片免费播放|