熊 俊,王士同,潘永惠,包 芳
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇無(wú)錫214122;2.江陰職業(yè)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)系,江蘇江陰214405)
基于懲罰函數(shù)泛化的神經(jīng)網(wǎng)絡(luò)剪枝算法研究
熊 俊1,王士同1,潘永惠2,包 芳2
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇無(wú)錫214122;2.江陰職業(yè)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)系,江蘇江陰214405)
神經(jīng)網(wǎng)絡(luò)的隱層數(shù)和隱層節(jié)點(diǎn)數(shù)決定了網(wǎng)絡(luò)規(guī)模,并對(duì)網(wǎng)絡(luò)性能造成較大影響。在滿足網(wǎng)絡(luò)所需最少隱層節(jié)點(diǎn)數(shù)的前提下,利用剪枝算法刪除某些冗余節(jié)點(diǎn),減少隱層節(jié)點(diǎn)數(shù),得到更加精簡(jiǎn)的網(wǎng)絡(luò)結(jié)構(gòu)。基于懲罰函數(shù)的剪枝算法是在目標(biāo)函數(shù)后加入一個(gè)懲罰函數(shù)項(xiàng),該懲罰函數(shù)項(xiàng)是一個(gè)變量為網(wǎng)絡(luò)權(quán)值的函數(shù)。由于懲罰函數(shù)中的網(wǎng)絡(luò)權(quán)值變量可以附加一個(gè)可調(diào)參數(shù),將單一懲罰函數(shù)項(xiàng)泛化為一類(lèi)隨參數(shù)規(guī)律變化的新的懲罰函數(shù),初始懲罰函數(shù)可看作泛化后懲罰函數(shù)的參數(shù)取定值的特殊情況。實(shí)驗(yàn)利用基于標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)的XOR數(shù)據(jù)進(jìn)行測(cè)試,得到隱層節(jié)點(diǎn)剪枝效果和網(wǎng)絡(luò)權(quán)值隨懲罰函數(shù)的泛化而發(fā)生變化,并從數(shù)據(jù)分析中得出具有更好剪枝效果及更優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的懲罰函數(shù)泛化參數(shù)。
隱層節(jié)點(diǎn);神經(jīng)網(wǎng)絡(luò);剪枝算法;懲罰函數(shù);泛化;XOR數(shù)據(jù)
人工神經(jīng)網(wǎng)絡(luò)[1](Artificial Neural Network, ANN)是由大量的、簡(jiǎn)單的處理單元(稱(chēng)為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。實(shí)踐表明,神經(jīng)網(wǎng)絡(luò)的性能與神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有很大的關(guān)系,而隱層節(jié)點(diǎn)的選擇和調(diào)整是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化研究中的一項(xiàng)重要內(nèi)容[2],若隱層節(jié)點(diǎn)數(shù)太少,則網(wǎng)絡(luò)可能根本不能訓(xùn)練或網(wǎng)絡(luò)性能很差;若隱層節(jié)點(diǎn)數(shù)太多,雖然可使網(wǎng)絡(luò)系統(tǒng)誤差減小,但一方面使網(wǎng)絡(luò)訓(xùn)練時(shí)間延長(zhǎng),另一方面訓(xùn)練容易陷入局部極小點(diǎn)而得不到最優(yōu)點(diǎn)。在隱節(jié)點(diǎn)調(diào)節(jié)過(guò)程中,經(jīng)常利用剪枝算法[3]來(lái)調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,進(jìn)而刪除冗余節(jié)點(diǎn),達(dá)到精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)泛化的目的。
目前常用的神經(jīng)網(wǎng)絡(luò)模型包括徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)[4]、誤差反向傳播(Error Back-propagation Algorithm,EBP)網(wǎng)絡(luò)[5]、Hopfield網(wǎng)絡(luò)[6]等。其中,BP神經(jīng)網(wǎng)絡(luò)是最常用的神經(jīng)網(wǎng)絡(luò)模型。常用的剪枝算法有懲罰函數(shù)法[7]、靈敏度計(jì)算法[8]、相關(guān)性剪枝算法[9]等。 其中,懲罰函數(shù)法是使用最普遍的剪枝算法之一,只需在最小化目標(biāo)函數(shù)后添加一個(gè)變量為網(wǎng)絡(luò)權(quán)值的懲罰函數(shù)。常見(jiàn)的懲罰函數(shù)有權(quán)消除懲罰項(xiàng)[7]、權(quán)衰減懲罰項(xiàng)[7]、拉普拉斯懲罰項(xiàng)[10]等。
上述懲罰函數(shù)均可針對(duì)其中的網(wǎng)絡(luò)權(quán)值變量添加參數(shù)進(jìn)行泛化,本文通過(guò)調(diào)整參數(shù)值得到基于傳統(tǒng)懲罰函數(shù)的新的懲罰函數(shù),從而對(duì)比分析泛化的懲罰函數(shù)構(gòu)造的剪枝算法對(duì)網(wǎng)絡(luò)隱節(jié)點(diǎn)的剪枝效果和網(wǎng)絡(luò)結(jié)構(gòu)的影響。
2.1 基礎(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在人工神經(jīng)網(wǎng)絡(luò)模型中,具有誤差反向傳播學(xué)習(xí)功能的多層前饋神經(jīng)網(wǎng)絡(luò)即BP神經(jīng)網(wǎng)絡(luò)[1],是目前應(yīng)用最廣泛且研究最深入的神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、輸出層和隱層三部分構(gòu)成。這里重點(diǎn)考慮隱層的神經(jīng)元個(gè)數(shù),實(shí)驗(yàn)中利用具有單隱層的網(wǎng)絡(luò),并使用分類(lèi)問(wèn)題的XOR數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。
對(duì)于屬于2個(gè)不同類(lèi)的N維向量x,假設(shè)有一個(gè)訓(xùn)練數(shù)據(jù)集{xk,yd(k)},并且每個(gè)xk都對(duì)應(yīng)一個(gè)已知的yd(k)∈{0,1}。對(duì)于二分類(lèi)問(wèn)題[10],只需1個(gè)輸出神經(jīng)元,輸入神經(jīng)元個(gè)數(shù)與輸入向量維數(shù)相同為2。根據(jù)要求構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)的輸入輸出函數(shù)可表示為:
其中,x是神經(jīng)網(wǎng)絡(luò)的輸入向量;y是神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的輸出值;W1是連接輸入神經(jīng)元與隱層神經(jīng)元的權(quán)值向量;b1為初始偏移向量;W2是連接隱層和輸出層神經(jīng)元的權(quán)值向量;b2為輸出神經(jīng)元的權(quán)值初始偏移;C為一個(gè)用于調(diào)節(jié)隱層輸出值的系數(shù),選取C=10。神經(jīng)網(wǎng)絡(luò)隱層和輸出層的轉(zhuǎn)移函數(shù)f(·)和g(·)均采用標(biāo)準(zhǔn)Sigmoid激活函數(shù)。
2.2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式[10]有2種:有導(dǎo)學(xué)習(xí)和無(wú)導(dǎo)學(xué)習(xí)。有導(dǎo)學(xué)習(xí)又稱(chēng)為監(jiān)督學(xué)習(xí)[10]。一般情況下,有導(dǎo)學(xué)習(xí)的訓(xùn)練樣本是輸入輸出對(duì):{xk,yd(k)},k=1,2,…,L,其中,xk為樣本輸入;yd(k)為期望的樣本輸出(教師信號(hào))。神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的是:根據(jù)一定的學(xué)習(xí)規(guī)則,通過(guò)調(diào)節(jié)各神經(jīng)元的自由參數(shù),使網(wǎng)絡(luò)輸出產(chǎn)生期望的值,即當(dāng)輸入樣本為xk時(shí),網(wǎng)絡(luò)輸出盡可能接近yd(k)。本文采用有導(dǎo)學(xué)習(xí)方式。無(wú)導(dǎo)學(xué)習(xí)稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)或自組織學(xué)習(xí)。無(wú)導(dǎo)學(xué)習(xí)不提供教師信號(hào),而只規(guī)定學(xué)習(xí)規(guī)則,具體的學(xué)習(xí)內(nèi)容隨系統(tǒng)所處環(huán)境而定。
有導(dǎo)學(xué)習(xí)和無(wú)導(dǎo)學(xué)習(xí)都要通過(guò)調(diào)整神經(jīng)元的自由參數(shù)(權(quán)值和偏移)實(shí)現(xiàn),假設(shè)單個(gè)神經(jīng)元當(dāng)前的權(quán)值為w(t),神經(jīng)元學(xué)習(xí)算法的內(nèi)容是確定神經(jīng)元的權(quán)值調(diào)整量Δw(t),并得到權(quán)值調(diào)節(jié)公式,即:
梯度下降法[10]是最常用的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。假定神經(jīng)元權(quán)值修正的目標(biāo)是極小化目標(biāo)函數(shù)F(w(t)),根據(jù)梯度法基本原理,若g(t)=▽F(w(t))|w=w(t)表示F(w(t))在w=w(t)時(shí)的梯度,則Δw(t)=-ηg(t),η取較小的正數(shù)(稱(chēng)為學(xué)習(xí)率),即權(quán)值修正量沿負(fù)梯度方向取較小值。
2.3 BP神經(jīng)網(wǎng)絡(luò)
BP算法也稱(chēng)誤差反向傳播算法[1],通過(guò)誤差反向傳播校正來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。當(dāng)一個(gè)樣本輸入網(wǎng)絡(luò),并產(chǎn)生輸出時(shí),通過(guò)最小化所有網(wǎng)絡(luò)輸出的均方誤差來(lái)訓(xùn)練網(wǎng)絡(luò)[11],均方誤差為各輸出單元誤差平方和,即:
其中,L是訓(xùn)練數(shù)據(jù)集中向量x的個(gè)數(shù)。
由梯度下降法得到:
輸入層到隱層的權(quán)值為w1(t),權(quán)值調(diào)整公式為:
隱層到輸出層的權(quán)值為w2(t),權(quán)值調(diào)整公式為:
剪枝算法通過(guò)在訓(xùn)練時(shí)刪除或合并某些節(jié)點(diǎn)或權(quán)值[4]以達(dá)到精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)網(wǎng)絡(luò)性能的目的。在各種神經(jīng)網(wǎng)絡(luò)剪枝算法中,懲罰函數(shù)是其中最普遍使用的一種算法,使用懲罰函數(shù)剪枝算法對(duì)網(wǎng)絡(luò)進(jìn)行一定次數(shù)的訓(xùn)練,網(wǎng)絡(luò)中的某些權(quán)值將減小到零附近,如果一個(gè)隱節(jié)點(diǎn)的輸出權(quán)值接近0或小于某個(gè)閾值,就可以刪除該隱節(jié)點(diǎn)。
通過(guò)在網(wǎng)絡(luò)目標(biāo)函數(shù)中引入表示結(jié)構(gòu)復(fù)雜性的正則化項(xiàng)來(lái)達(dá)到降低網(wǎng)絡(luò)復(fù)雜性的目的[10]。對(duì)于神經(jīng)網(wǎng)絡(luò)中的分類(lèi)問(wèn)題,目標(biāo)函數(shù)為:
其中,E(w)代表該網(wǎng)絡(luò)的誤差平方和;C(w)是懲罰函數(shù),代表網(wǎng)絡(luò)的復(fù)雜性;λ是正則化參數(shù),代表模型復(fù)雜性的相對(duì)重要性。
3.1 常用的懲罰函數(shù)
常用的幾種懲罰函數(shù)具體如下:
(1)權(quán)衰減
其中,wi表示網(wǎng)絡(luò)中的每個(gè)權(quán)值。
(2)拉普拉斯正則項(xiàng)
其中,wi表示網(wǎng)絡(luò)中的每個(gè)權(quán)值。
(3)權(quán)消除
其中,wi表示網(wǎng)絡(luò)中的每個(gè)權(quán)值;w0為固定值,實(shí)驗(yàn)中w0=0.1。
3.2 正則化參數(shù)的動(dòng)態(tài)修改方法
剪枝算法中的正則化參數(shù)λ對(duì)神經(jīng)網(wǎng)絡(luò)的泛化能力有很大影響,且比較難以確定,一般采用動(dòng)態(tài)修改策略[10]尋找正則化參數(shù),較大地改進(jìn)了網(wǎng)絡(luò)的泛化能力。
具體方法如下:學(xué)習(xí)過(guò)程中隨時(shí)檢測(cè)以下誤差量之間的關(guān)系:
(1)E(t-1):前一次權(quán)值調(diào)節(jié)時(shí)的誤差。
(2)A(t):當(dāng)前時(shí)刻的加權(quán)平均誤差,定義為:
其中,μ為接近1的濾波系數(shù)。
(3)D:期望誤差值。如果沒(méi)有先驗(yàn)知識(shí),可設(shè)定D=0,此時(shí)算法也能較好地進(jìn)行,但計(jì)算時(shí)間由計(jì)算次數(shù)限制,因此計(jì)算時(shí)間可能較長(zhǎng)。
在每次權(quán)值調(diào)節(jié)后,計(jì)算當(dāng)前時(shí)刻的學(xué)習(xí)誤差E(t)和加權(quán)平均誤差A(yù)(t),并根據(jù)它們之間的關(guān)系對(duì)λ進(jìn)行調(diào)節(jié),具體規(guī)則如下:
(1)如果E(t)<E(t-1)或E(t)<D,則:
此時(shí)存在以下2種情況:1)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差正在下降;2)該誤差已經(jīng)小于目標(biāo)函數(shù)值。這2種情況都是人們期待的,此時(shí)應(yīng)略微增加正則化的作用。
(2)如果E(t)≥E(t-1),E(t)<A(t),且E(t)≥D,則:
此時(shí)當(dāng)前誤差有所上升(E(t)≥E(t-1)),但從長(zhǎng)遠(yuǎn)來(lái)說(shuō),訓(xùn)練誤差仍在下降(E(t)<A(t))。此時(shí)應(yīng)該略微減少正則化的作用。
(3)如果E(t)≥E(t-1),E(t)≥A(t),且E(t)≥D,則:
其中,ρ為接近1的系數(shù)。
此時(shí)不僅當(dāng)前誤差在上升,而且從長(zhǎng)遠(yuǎn)來(lái)說(shuō),訓(xùn)練誤差也在上升,所以,應(yīng)該較大幅度地減少正則化的作用。λ初始可以取0,隨后按上述規(guī)則動(dòng)態(tài)調(diào)節(jié)。
權(quán)衰減懲罰函數(shù)式(8)和拉普拉斯正則化項(xiàng)式(9)可泛化為:
圖2 r取0.1,0.5,1.0和2.0時(shí)隨wi的變化曲線
綜合以上2種懲罰函數(shù)的泛化情況和權(quán)消除懲罰函數(shù)的變化曲線,可以看出當(dāng)r取不同參數(shù)時(shí),C(w)中的某一項(xiàng)隨著權(quán)值wi的變化有各種變化趨勢(shì),函數(shù)值范圍也有很大差異,而C(w)是懲罰函數(shù)剪枝算法的重點(diǎn),所以,可以推測(cè)r取不同參數(shù)時(shí),泛化的懲罰函數(shù)剪枝算法的性能也有所不同。
圖3 隨的變化曲線
實(shí)驗(yàn)采用XOR數(shù)據(jù),XOR數(shù)據(jù)的輸入樣本x為4組二維向量:[0;1],[0;0],[1;1],[1;0];對(duì)應(yīng)的4組輸出y分別為1,0,0,1;已知對(duì)于XOR數(shù)據(jù),隱層至少需要2個(gè)神經(jīng)元才能很好地完成分類(lèi)工作[12],設(shè)定初始隱層具有4個(gè)神經(jīng)元,所以,可以通過(guò)觀察隨著參數(shù)r的變化,泛化的懲罰函數(shù)剪枝算法將原始隱層4個(gè)神經(jīng)元剪除的情況,并通過(guò)分析剪枝后的網(wǎng)絡(luò)權(quán)值來(lái)評(píng)價(jià)泛化的懲罰函數(shù)剪枝算法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的影響。實(shí)驗(yàn)運(yùn)行環(huán)境為:CPU Inter雙核,2.1 GHz,2 GB內(nèi)存,Matlab2009a。
在進(jìn)行網(wǎng)絡(luò)剪枝時(shí),輸出權(quán)值很小的神經(jīng)元可以被刪除[7]。在利用不同的剪枝方法進(jìn)行剪枝時(shí),關(guān)注的是迭代算法達(dá)到誤差要求或達(dá)到迭代次數(shù)時(shí)輸出權(quán)值的相對(duì)大小[7],實(shí)驗(yàn)設(shè)定輸出權(quán)值小于最大輸出權(quán)值的10%的神經(jīng)元可以被刪除。雖然10%是主觀設(shè)定的,但是為這些泛化的懲罰函數(shù)剪枝設(shè)定了一個(gè)統(tǒng)一的閾值,剪枝剩下的神經(jīng)元個(gè)數(shù)就是用于構(gòu)造神經(jīng)網(wǎng)絡(luò)隱層的神經(jīng)元個(gè)數(shù)。
網(wǎng)絡(luò)中所有的初始權(quán)值和偏移量均?。?0.5, 0.5]內(nèi)的隨機(jī)值,目標(biāo)誤差取0.01,學(xué)習(xí)率取0.16,迭代次數(shù)取5 000,正則化參數(shù)調(diào)整時(shí)的濾波系數(shù)μ=0.92、ρ=0.95,正則化參數(shù)增量Δλ=5e-8。對(duì)于泛化函數(shù)各個(gè)參數(shù)取值,實(shí)驗(yàn)利用完全相同的隨機(jī)初始權(quán)值,共進(jìn)行20組實(shí)驗(yàn),每組采用不同的隨機(jī)權(quán)值,這些權(quán)值都是由相同的隨機(jī)函數(shù)生成。
表1 泛化參數(shù)r的剪枝效果
在表1中,每行表示20組實(shí)驗(yàn)中,某個(gè)參數(shù)構(gòu)造的泛化函數(shù)算法將隱層4個(gè)節(jié)點(diǎn)剪枝到剩下1個(gè)、2個(gè)、3個(gè)和沒(méi)有實(shí)現(xiàn)剪枝即剩4個(gè)的組數(shù)。例如:當(dāng)r=1.0時(shí),有0組實(shí)驗(yàn)網(wǎng)絡(luò)隱層4個(gè)節(jié)點(diǎn)在剪枝后剩1個(gè),有1組實(shí)驗(yàn)隱層節(jié)點(diǎn)在剪枝后剩2個(gè),有4組剩3個(gè),還有15組剩4個(gè)沒(méi)有實(shí)現(xiàn)剪枝。同時(shí),列出權(quán)消除懲罰函數(shù)在相同條件下的實(shí)驗(yàn)結(jié)果,如表2所示。
表2 權(quán)消除懲罰函數(shù)的剪枝效果
通過(guò)分析表1和表2中的各組數(shù)據(jù)可以發(fā)現(xiàn),當(dāng)r>1.0時(shí),網(wǎng)絡(luò)能達(dá)到剪枝效果并滿足構(gòu)造網(wǎng)絡(luò)最低要求即節(jié)點(diǎn)個(gè)數(shù)小于4并大于1的組數(shù)均為3組或4組;而當(dāng)0.5<r<1.0時(shí),節(jié)點(diǎn)個(gè)數(shù)小于4并大于1的組數(shù)為5組或6組;當(dāng)r<0.5時(shí),滿足要求的組數(shù)有明顯增多,最多的當(dāng)r=0.4時(shí)達(dá)到11組,而且有3組能夠剪枝達(dá)到最優(yōu)的2個(gè)節(jié)點(diǎn)。由此可見(jiàn),當(dāng)r取小于0.5的數(shù)值時(shí)呈現(xiàn)更好的剪枝效果。
在分析剪枝效果的同時(shí),本文還研究了泛化的懲罰函數(shù)算法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的影響。如表3、表4所示為2組各個(gè)r取值構(gòu)造的泛化懲罰函數(shù)算法結(jié)束時(shí),網(wǎng)絡(luò)的隱層到輸出層的權(quán)值數(shù)據(jù)。
表3 第1組參數(shù)r訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)及性能
表4 第2組參數(shù)r訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)及性能
圖4 隨參數(shù)r的變化曲線
本文對(duì)懲罰函數(shù)剪枝算法中常用的懲罰函數(shù)進(jìn)行泛化,以標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)為模型,利用XOR數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),探討了隨著懲罰函數(shù)參數(shù)的泛化,網(wǎng)絡(luò)剪枝效果和網(wǎng)絡(luò)結(jié)構(gòu)變化。實(shí)驗(yàn)結(jié)果顯示,泛化后的懲罰函數(shù)隨著參數(shù)的變化,表現(xiàn)出了各種剪枝效果,訓(xùn)練得出的網(wǎng)絡(luò)權(quán)值也有很大差異。實(shí)驗(yàn)結(jié)果為選擇合適的懲罰函數(shù)參數(shù)構(gòu)造相應(yīng)的懲罰函數(shù)剪枝算法,以及建立更加精簡(jiǎn)高效的神經(jīng)網(wǎng)絡(luò)提供了有利的依據(jù)。下一步工作將研究具有良好剪枝效果及參數(shù)構(gòu)造的懲罰函數(shù)算法對(duì)神經(jīng)網(wǎng)絡(luò)性能的影響。
[1] 王士同,陳慧萍,趙躍華,等.人工智能教程[M].2版.北京:電子工業(yè)出版社,2006.
[2] 馮宏偉,薛 蕾.基于HMM和新型前饋型神經(jīng)網(wǎng)絡(luò)的語(yǔ)音研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(24): 5324-5327.
[3] Reed R.Pruning Algorithms:A Survey[J].IEEE Transactions on Neural Network,1993,4(5):740-747.
[4] Ke Meng,Zhao Yangdong,Wang Dianhui,et al.A Selfadaptive RBF Neural Network Classifier for Transformer FaultAnalusis[J].IEEE Transactionson Power Systems,2010,25(3):1350-1360.
[5] Jiang Huiyu,Dong Min,Yang Feng.Application of BP NerualNetwork into Predication of Nitrobenzene Compound in Toxicity[C]//Proceedings of the 2nd International Conference on Genetic and Evolutionary Computing.[S.l.]:IEEE Press,2008:170-173.
[6] Pajares G.A Holfield Neural Network for Image Change Detection[J].IEEE Transactions on Neural Networks, 2006,17(5):1250-1264.
[7] Zeng Huiwen,Trussell H J.Constrained Dimensionality Reduction Using a Mixed-Norm Penalty Function with Neural Networks[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(3):365-380.
[8] 費(fèi)蕓潔,鄧 偉.一種基于靈敏度分析的神經(jīng)網(wǎng)絡(luò)剪枝算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(7):34-35.
[9] 宋清昆,郝 敏.基于改進(jìn)相關(guān)性剪枝算法的BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)化[J].自動(dòng)化技術(shù)與應(yīng)用,2006,25(12):3-4.
[10] 魏海坤.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的理論與方法[M].北京:國(guó)防工業(yè)出版社,2005.
[11] Liu Zilong,Liu Guozhong,Liu Jie.Adaptive Tracking Controller Using BP Neural Networks for a Class of Nonlinear Systems[J].Journal of Systems Engineering and Electronics,2004,15(4):598-604.
[12] 李 季,嚴(yán)東超,趙虎城.基于動(dòng)量因子技術(shù)的BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法及應(yīng)用[J].電氣應(yīng)用,2005,24(6):42-44.
編輯 陸燕菲
Study of Neural Network Pruning Algorithm Based on Generalization of Penalty Function
XIONG Jun1,WANG Shitong1,PAN Yonghui2,BAO Fang2
(1.College of Digital Media,Jiangnan University,Wuxi 214122,China;
2.Department of Computer Science,Jiangyin Polytechnic College,Jiangyin 214405,China)
The number of hidden layer and hidden layer node in neural network determines the size of the network and has a great influence on the performance of the network.Therefore,when the network contains the least hidden layer node number,pruning algorithm can be used to delete some redundant node,then the network is more simple.The pruning algorithm adds a penalty function to the target function,and the penalty function regards the weights of network as variable.It adds a variable parameter to the weights of network,so the simple penalty function can be generalized to a kind of new penalty function that changes as the parameter.The initial function can be treated as a special condition after the generalization of penalty function.Experiment tests the XOR data based on the BP neural network and sums up the effect of the generalization of penalty function on the pruning of the hidden layer node with neural network and the structure of the neural network.Then the parameters which can lead to better pruning effect and more optimal network structure are obtained from data in experiment.
hidden layer node;neural network;pruning algorithm;penalty function;generalization;XOR data
1000-3428(2014)11-0149-06
A
TP183
10.3969/j.issn.1000-3428.2014.11.030
熊 俊(1991-),男,碩士研究生,主研方向:人工智能,模式識(shí)別;王士同,教授、博士生導(dǎo)師;潘永惠,副教授、博士;包 芳,教授,博士。
2013-11-26
2014-01-18E-mail:jnxiongiun@163.com
中文引用格式:熊 俊,王士同,潘永惠,等.基于懲罰函數(shù)泛化的神經(jīng)網(wǎng)絡(luò)剪枝算法研究[J].計(jì)算機(jī)工程,2014, 40(11):149-154.
英文引用格式:Xiong Jun,Wang Shitong,Pan Yonghui,et al.Study of Neural Network Pruning Algorithm Based on Generalization of Penalty Function[J].Computer Engineering,2014,40(11):149-154.