張昭昭,喬俊飛,楊剛
(1.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京 100124;2.遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧葫蘆島 125105)
自適應(yīng)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計
張昭昭1,2,喬俊飛1,楊剛1
(1.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京 100124;2.遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧葫蘆島 125105)
針對多數(shù)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法采取貪婪搜索策略而易陷入局部最優(yōu)結(jié)構(gòu)的問題,提出一種自適應(yīng)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法.該算法在網(wǎng)絡(luò)訓(xùn)練過程中采取自適應(yīng)尋優(yōu)策略合并和分裂隱節(jié)點(diǎn),達(dá)到設(shè)計最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的目的.在合并操作中,以互信息為準(zhǔn)則對輸出線性相關(guān)的隱節(jié)點(diǎn)進(jìn)行合并;在分裂操作中,引入變異系數(shù),有助于跳出局部最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu).算法將合并和分裂操作之后的權(quán)值調(diào)整與網(wǎng)絡(luò)對樣本的學(xué)習(xí)過程結(jié)合,減少了網(wǎng)絡(luò)對樣本的學(xué)習(xí)次數(shù),提高了網(wǎng)絡(luò)的學(xué)習(xí)速度,增強(qiáng)了網(wǎng)絡(luò)的泛化性能.非線性函數(shù)逼近結(jié)果表明,所提算法能得到更小的檢測誤差,最終網(wǎng)絡(luò)結(jié)構(gòu)緊湊.
前饋神經(jīng)網(wǎng)絡(luò);結(jié)構(gòu)設(shè)計;自適應(yīng)搜索策略;互信息
前饋神經(jīng)網(wǎng)絡(luò)是應(yīng)用最多的網(wǎng)絡(luò)之一[1].其成功應(yīng)用的關(guān)鍵是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計.如果神經(jīng)網(wǎng)絡(luò)的規(guī)模太小,會導(dǎo)致欠擬合;如果神經(jīng)網(wǎng)絡(luò)規(guī)模過大,則導(dǎo)致過擬合.無論欠擬合還是過擬合都使神經(jīng)網(wǎng)絡(luò)的泛化能力下降,而沒有泛化能力的網(wǎng)絡(luò)沒有使用價值.由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在某種程度上直接決定了神經(jīng)網(wǎng)絡(luò)的最終性能,所以神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計一直是神經(jīng)網(wǎng)絡(luò)領(lǐng)域關(guān)注的基本問題[2].
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的方法主要有:刪減方法[2]、增長方法[3]、增長刪減方法[4].刪減方法是一種自頂向下的設(shè)計方法,即在網(wǎng)絡(luò)的訓(xùn)練過程中,通過刪除網(wǎng)絡(luò)中冗余的節(jié)點(diǎn)和連接而達(dá)到簡化網(wǎng)絡(luò)結(jié)構(gòu)的目的.增長方法是一種自底向上的設(shè)計方法,且增加策略比刪減策略更易于制定和實(shí)現(xiàn);就設(shè)計緊湊神經(jīng)網(wǎng)絡(luò)而言,增長刪減方法能夠設(shè)計出較優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因此,也越來越多地得到關(guān)注.目前上述幾種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法大都采用預(yù)先設(shè)定的固定準(zhǔn)則,并采用貪婪搜索策略,使得算法普適性較差且極易陷入神經(jīng)網(wǎng)絡(luò)局部最優(yōu)結(jié)構(gòu)[5-11].
針對上述問題,依據(jù)互信息理論及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)之間的關(guān)系,提出一種自適應(yīng)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計算法(adaptive merging and splitting algorithm,AMSA).該算法在網(wǎng)絡(luò)的訓(xùn)練過程中,能根據(jù)當(dāng)前神經(jīng)網(wǎng)絡(luò)對任務(wù)的學(xué)習(xí)情況合并或分裂隱節(jié)點(diǎn),自適應(yīng)調(diào)整神經(jīng)網(wǎng)絡(luò)的規(guī)模.最后通過仿真實(shí)驗驗證了算法的有效性與穩(wěn)定性.
網(wǎng)絡(luò)結(jié)構(gòu)為n-m-p的單隱層前饋神經(jīng)網(wǎng)絡(luò)輸入輸出之間的關(guān)系為
式中:x∈Rn為神經(jīng)網(wǎng)絡(luò)的輸入;y∈Rp為神經(jīng)網(wǎng)絡(luò)的輸出;W1∈Rm×n為輸入層與隱層之間的連接權(quán)矩陣;B1∈Rm為隱節(jié)點(diǎn)的偏置權(quán)向量;W2∈Rm為隱層與輸出層之間的連接權(quán)矩陣;B2∈Rp為輸出節(jié)點(diǎn)偏置向量;σ(·)為激活函數(shù).
設(shè)訓(xùn)練樣本集為{x(t),y(t),t=1,2,…,N},采用批學(xué)習(xí),則第i個隱節(jié)點(diǎn)對第t個訓(xùn)練樣本的輸出為σi(t)=σ((t)+).定義矩陣:
式中:φi=[σI(1) σi(2) … σi(N)]T,i=1,2,…,m;對所有訓(xùn)練樣本 φm+1(j)=1,j=1,2,…,N.神經(jīng)網(wǎng)絡(luò)的輸出為
設(shè) W=[W2B2],則有
設(shè)隨機(jī)變量X和Y的聯(lián)合概率密度函數(shù)為ρ(X,Y)(x,y),則X和Y的邊緣概率密度函數(shù)為[6-7]:
依據(jù)Shannon熵定義有
熵H(Y)描述了隨機(jī)變量Y包含的信息量,聯(lián)合熵H(X,Y)描述了隨機(jī)變量X、Y共有的信息量.
按照信息論的有關(guān)理論,隨機(jī)變量X、Y之間的互信息為
互信息是隨機(jī)變量X、Y相關(guān)性的度量,因此當(dāng)X和Y完全相關(guān)時,I(X;Y)=1,當(dāng)X和Y完全獨(dú)立時,I(X;Y)=0.
由式(2)知,互信息的估計只需估計出聯(lián)合概率分布 ρX,Y(x,y)即可,因此可用 K-最近鄰統(tǒng)計法(K-nearest neighbour statistics)來估計互信息.
設(shè)有N個輸入-輸出對為
式中:i=1,2,…,N,x(i)∈Rd,y(i)∈Rp.
若Z(i)的 K-近鄰為
則Z(i)與Z(k(i))之間的Euclidean距離為
而對于Z(i)中的分量x(i)和y(k(i))有
依據(jù)式(3)有
因此,對于Z(i)中的每個x(i),都可以計算出Z(i)中其他x(j)(j≠i)的分量到x(i)的分量的距離小于ε(i)的點(diǎn)的個數(shù),同理,對于Z(i)中的每個點(diǎn)y(i),也可以計算出Z(i)中其他y(j)(j≠i)的分量到y(tǒng)(i)的分量的距離小于ε(i)的點(diǎn)的個數(shù),此時I(X;Y)估計值為
式中:ψ(·)為 digamma 函數(shù),ψ(t+1)=ψ(t)+1/t,ψ(1)≈-0.577 215 6,k的取值一般為2~6.
既然互信息能夠準(zhǔn)確度量2個隨機(jī)變量之間的相關(guān)程度,由式(1)知,前饋神經(jīng)網(wǎng)絡(luò)輸出節(jié)點(diǎn)的輸出是隱層節(jié)點(diǎn)輸出的線性組合,因此,當(dāng)隱節(jié)點(diǎn)ha和hb的輸出線性相關(guān)時,則這2個節(jié)點(diǎn)對信息的處理能力是等效的,就可以對這2個節(jié)點(diǎn)采取合并操作,以簡化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).
采用批學(xué)習(xí)方式,學(xué)習(xí)樣本數(shù)為N時,隱節(jié)點(diǎn)ha的輸出為
隱節(jié)點(diǎn)hb的輸出為
顯然,合并后的隱節(jié)點(diǎn)hc對信息的處理能力和2個隱節(jié)點(diǎn)ha和hb對信息處理能力基本保持不變.
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,當(dāng)神經(jīng)網(wǎng)絡(luò)對信息的處理能力不足時,則應(yīng)該在隱節(jié)點(diǎn)層增加節(jié)點(diǎn)以增大神經(jīng)網(wǎng)絡(luò)信息處理能力.判斷神經(jīng)網(wǎng)絡(luò)信息處理能力不足的準(zhǔn)則為
式中:Δr為設(shè)定的閾值,Ek為均方差.
如圖1所示,式(6)保證增加一個隱節(jié)點(diǎn)后神經(jīng)網(wǎng)絡(luò)至少訓(xùn)練s步.式(7)用本次神經(jīng)網(wǎng)絡(luò)訓(xùn)練最后s步的平均誤差(訓(xùn)練步長為t時)和上次增加一個隱節(jié)點(diǎn)時(訓(xùn)練步長為t0時)神經(jīng)網(wǎng)絡(luò)訓(xùn)練最后s步的平均誤差的比值來判斷是否應(yīng)該增加一個隱節(jié)點(diǎn),式(7)采用s步的平均誤差,不僅能夠衡量此時(訓(xùn)練步長為t時)神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差曲線的平坦程度,而且能夠避免誤差曲線的震蕩帶來的干擾.當(dāng)滿足隱節(jié)點(diǎn)增加準(zhǔn)則時,本文采用隨機(jī)分裂現(xiàn)有隱層節(jié)點(diǎn)的方式增加神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)數(shù).從現(xiàn)有隱節(jié)點(diǎn)中隨機(jī)選擇一個隱節(jié)點(diǎn)ha,將其裂變成2個隱節(jié)點(diǎn)hb和hc.
則新隱節(jié)點(diǎn)hb和hc的連接權(quán)值為
式中:α為變異系數(shù),是一個很小的隨機(jī)數(shù).
圖1 誤差曲線平坦度檢測Fig.1 Flatness detection of error curves
對于前饋神經(jīng)網(wǎng)絡(luò),有如下認(rèn)識.
1)神經(jīng)網(wǎng)絡(luò)的隱節(jié)點(diǎn)數(shù)大于等于1.
2)神經(jīng)網(wǎng)絡(luò)進(jìn)行適當(dāng)?shù)挠?xùn)練后,如果各隱節(jié)點(diǎn)的輸出之間互不相關(guān)(此時沒有可以合并的隱節(jié)點(diǎn)),則表明網(wǎng)絡(luò)中各隱節(jié)點(diǎn)都在發(fā)揮各自不同的作用,處理不同的信息,即網(wǎng)絡(luò)中沒有冗余的隱節(jié)點(diǎn).
3)如果神經(jīng)網(wǎng)絡(luò)中沒有冗余的隱節(jié)點(diǎn),那么導(dǎo)致神經(jīng)網(wǎng)絡(luò)對任務(wù)學(xué)習(xí)不好的原因,要么是神經(jīng)網(wǎng)絡(luò)對任務(wù)的學(xué)習(xí)不夠,需要增加神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時間;要么是神經(jīng)網(wǎng)絡(luò)中隱節(jié)點(diǎn)太少,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力不足,需要增加隱層節(jié)點(diǎn).
有上述認(rèn)識,可獲得自適應(yīng)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法如下.
1)隨機(jī)產(chǎn)生一個初始結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的隱節(jié)點(diǎn)數(shù)大于等于1,輸入輸出節(jié)點(diǎn)數(shù)由具體任務(wù)確定.
2)適當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(訓(xùn)練步數(shù)大于等于s).
3)E≤εmin否.是,到 7);否,到 4).
4)計算各隱節(jié)點(diǎn)輸出之間的互信息,合并互信息接近的隱節(jié)點(diǎn)(由閾值εMI決定),并由式(4)和式(5)對合并后的新隱節(jié)點(diǎn)賦連接權(quán)值.
5)4)中是否有合并隱節(jié)點(diǎn)的操作發(fā)生,是,轉(zhuǎn)到2);否轉(zhuǎn)到6).
6)由式(7)判斷是否應(yīng)該增加隱節(jié)點(diǎn),如否,轉(zhuǎn)到2);如是,則從現(xiàn)有隱節(jié)點(diǎn)中隨機(jī)選擇一個隱節(jié)點(diǎn)分裂成2個隱節(jié)點(diǎn),并由式(8)和(9)分別給2個新的隱節(jié)點(diǎn)賦連接權(quán)值,轉(zhuǎn)到2).
7)結(jié)束.
該算法建立在對前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程正確認(rèn)識的基礎(chǔ)之上,將隱節(jié)點(diǎn)合并和分裂之后的網(wǎng)絡(luò)權(quán)值調(diào)整與網(wǎng)絡(luò)對學(xué)習(xí)樣本的學(xué)習(xí)有效的結(jié)合,不僅能夠減少神經(jīng)網(wǎng)絡(luò)對學(xué)習(xí)樣本的學(xué)習(xí)次數(shù),提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度,而且能夠避免神經(jīng)網(wǎng)絡(luò)對學(xué)習(xí)樣本的過學(xué)習(xí).隱節(jié)點(diǎn)分裂操作中,分裂后的新隱節(jié)點(diǎn)不僅繼承了父節(jié)點(diǎn)信息處理的能力,而且引入變異系數(shù),有助于跳出局部最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).
本文所提算法能夠根據(jù)學(xué)習(xí)對象自適應(yīng)調(diào)整前饋網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù),優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),得到與學(xué)習(xí)對象相適應(yīng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提高了前饋神經(jīng)網(wǎng)絡(luò)的性能.為驗證該算法的有效性與穩(wěn)定性,選取2個復(fù)雜度不同的非線性函數(shù)進(jìn)行逼近[12]:
式中:x1和x2各隨機(jī)產(chǎn)生30個,服從區(qū)間[-1,1]內(nèi)均勻分布.訓(xùn)練樣本對為900個,測試樣本為-1:0.1:1,即測試樣本對為441個.式(10)中,x1和x2各隨機(jī)產(chǎn)生30個,服從區(qū)間[0,1]內(nèi)均勻分布,訓(xùn)練樣本對為900個,測試樣本對為0:0.05:1,測試樣本對為441個.隨機(jī)產(chǎn)生一個隱節(jié)點(diǎn)數(shù)大于等于1的初始網(wǎng)絡(luò)結(jié)構(gòu)對學(xué)習(xí)樣本進(jìn)行訓(xùn)練,網(wǎng)絡(luò)學(xué)習(xí)算法采用帶動量項BP算法,仿真時,選取k=4,學(xué)習(xí)率為0.000 2,動量項系數(shù)為0.2,隱節(jié)點(diǎn)合并互信息閾值εMI=0.95,隱節(jié)點(diǎn)增加均方差閾值Δr=0.01,網(wǎng)絡(luò)訓(xùn)練步數(shù)t=20,s=5.
神經(jīng)網(wǎng)絡(luò)對非線性函數(shù)y1的逼近效果如圖2所示,誤差曲面如圖3所示.對非線性函數(shù)y2的逼近效果如圖4所示,誤差曲面如圖5所示.圖6給出了對非線性函數(shù)y1逼近時不同的初始神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在逼近過程中神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)數(shù)變化情況.圖7給出了對非線性函數(shù)y2逼近時不同的初始神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在逼近過程中神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)數(shù)變化情況.
圖2 對y1的逼近效果Fig.2 The approximation effect of y1
從圖2和圖4可以看出,訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)能夠很好地逼近上述2種復(fù)雜度不同的非線性函數(shù),神經(jīng)網(wǎng)絡(luò)輸出值與函數(shù)期望值基本重合,因此該算法設(shè)計出的神經(jīng)網(wǎng)絡(luò)不僅具有緊湊的結(jié)構(gòu)而且能夠保證神經(jīng)網(wǎng)絡(luò)的逼近性能.從圖3和圖5的非線性函數(shù)逼近效果的誤差曲面圖中可以看出,對不同復(fù)雜度的非線性函數(shù)的檢測誤差分別小于0.04和0.1,表明該算法設(shè)計的神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的泛化性能.
圖3 對y1逼近的誤差曲面Fig.3 The approximation error surface of y1
圖4 對y2的逼近效果Fig.4 The approximation effect of y2
圖5 對y2逼近的誤差曲面Fig.5 The approximation error surface of y2
圖6 逼近y1時神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)變化動態(tài)Fig.6 The hidden node numbers during the process of approximation y1
圖7 逼近y2時神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)變化動態(tài)Fig.7 The hidden node numbers during the process of approximation y2
從圖6 可以看出,用初始結(jié)構(gòu)分別為 2-1-1、2-13-1、2-26-1 的神經(jīng)網(wǎng)絡(luò)逼近y1,訓(xùn)練結(jié)束時,算法所得到的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分別為 2-14-1、2-15-1、2-15-1.從圖 7 可以看出,用初始結(jié)構(gòu)分別為 2-2-1、2-9-1、2-37-1 的神經(jīng)網(wǎng)絡(luò)逼近y2時,算法最終所得到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別是 2-17-1、2-16-1、2-18-1.表明該算法對于不同的初始結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),均能穩(wěn)定收斂于適合于該學(xué)習(xí)對象的網(wǎng)絡(luò)結(jié)構(gòu).
表1列舉了本文所提AMSA算法同不同典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法的比較結(jié)果,分別是刪減算法(optimal brain surgeon,OBS)[9]、增長算法(cascade correlation,CC)[10]和增長刪減算法(adaptive merging and growing algorithm,AMGA)[5],它們都是采用貪婪搜索策略設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的算法.上述各個算法,在相同的條件下對同樣的問題運(yùn)行20次,對所得最終神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)取平均值.從表1可看出,AMSA算法設(shè)計出的最終神經(jīng)網(wǎng)絡(luò),不僅結(jié)構(gòu)緊湊,而且神經(jīng)網(wǎng)絡(luò)的泛化能力較強(qiáng).
表1 幾種典型算法性能比較Table 1 The performance comparison of several typical algorithms
針對多數(shù)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法采取貪婪搜索策略而易陷入局部最優(yōu)結(jié)構(gòu)的問題,提出了一種自適應(yīng)前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計算法.該算法能夠在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中綜合考慮神經(jīng)網(wǎng)絡(luò)對當(dāng)前任務(wù)的學(xué)習(xí)能力和復(fù)雜程度,以互信息為準(zhǔn)則合并和分裂隱節(jié)點(diǎn),自適應(yīng)調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).通過對2個復(fù)雜度不同的非線性函數(shù)逼近仿真實(shí)驗,得到如下結(jié)論.
1)AMSA算法不依賴于網(wǎng)絡(luò)的初始結(jié)構(gòu),能夠根據(jù)實(shí)際對象及當(dāng)前神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,自適應(yīng)獲得適合于實(shí)際對象的前饋神經(jīng)網(wǎng)絡(luò).
2)AMSA算法建立在對神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程正確理解的基礎(chǔ)之上,避免了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改變時對神經(jīng)網(wǎng)絡(luò)參數(shù)的重新調(diào)整,減少了對學(xué)習(xí)樣本的學(xué)習(xí)次數(shù),提高了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度,增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的泛化性能.
[1]邱健斌,王劭伯.進(jìn)化神經(jīng)網(wǎng)絡(luò)PID控制器的研究與應(yīng)用[J].智能系統(tǒng)學(xué)報,2008,3(3):245-249.
QIU Jianbin,WANG Shaobo.An improved PID controller based on an evolutionary neural network[J].CAAI Transactions on Intelligent Systems,2008,3(3):245-249.
[2]張昭昭,喬俊飛,韓紅桂.一種基于神經(jīng)網(wǎng)絡(luò)復(fù)雜度的修剪算法[J].控制與決策,2010,25(6):178-182.
ZHANG Zhaozhao,QIAO Junfei,HAN Honggui.A pruning algorithm based on neural complexity[J].Control and Decision,2010,25(6):178-182.
[3]喬俊飛,張穎.一種多層前饋神經(jīng)網(wǎng)絡(luò)的快速修剪算法[J].智能系統(tǒng)學(xué)報,2008,3(2):173-176.
QIAO Junfei,ZHANG Ying.Fast unit pruning algorithm for multilayer feedforward network design[J].CAAI Transactions on Intelligent Systems,2008,3(2):173-176.
[4]MA L,KHORASANI K.Constructive feedforward neural networks using Hermite poly nomial activation function[J].IEEE Transactions on Neural Network,2005,16(4):821-833.
[5]ISLAM Monirual,SATTAR A,AMIN F,YAO Xin,MURASE K.A new adaptive merging and growing algorithm for designing artificial neural networks[J].IEEE Transactions on Systems,Man,and Cybernetics—Part B:Cybernetics,2009,39(3):705-722.
[6]吳曉剛,王旭東,余騰偉.發(fā)動機(jī)輸出轉(zhuǎn)矩的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)估計[J].電機(jī)與控制學(xué)報,2010,14(3):104-108.
WU Xiaogang,WANG Xudong,YU Tengwei.Estimation of engine output torque based on improved BP neural network[J].Electric Machines and Control,2010,14(3):104-108.
[7]宋勇,李貽斌,李彩虹.遞歸神經(jīng)網(wǎng)絡(luò)的進(jìn)化機(jī)器人路徑規(guī)劃方法[J].哈爾濱工程大學(xué)學(xué)報,2009,30(8):898-902.
SONG Yong,LI Yibin,LI Caihong.Path planning based on a recurrent neural network for an evolutionary robot[J].Journal of Harbin Engineering University,2009,30(8):898-902.
[8]陸瑤,張杰,馮英浚.非線性動態(tài)系統(tǒng)的模糊神經(jīng)網(wǎng)絡(luò)自適應(yīng)H∞魯棒控制[J].哈爾濱工程大學(xué)學(xué)報,2009,30(9):1082-1086.
LU Yao,ZHANG Jie,F(xiàn)ENG Yingjun.H∞r(nóng)obust adaptive control of a fuzzy neural network based nonlinear dynamic system[J].Journal of Harbin Engineering University,2009,30(9):1082-1086.
[9]羅耀華,從靜.基于BP神經(jīng)網(wǎng)絡(luò)的三相逆變器故障診斷研究[J]. 應(yīng)用科技,2010,37(6):56-60.
LUO Yaohua,CONG Jing.Fault diagnosis of three-phase inverter using BP neural network[J].Applied Science and Technology,2010,37(6):56-60.
[10]KRASKOV A,STOGBAUER H,GRASSBERGER P.Estimating mutual information[J].Phys Rev E,Sta Plasmas Fluids Relat Interdiscip Top,2004,69(0661138):1-16.
[11]HONG Jie,HU Baogang.Two-phase construction of multilayer perceptions using information theory[J].IEEE Transactions on Neural Network,2009,20(4):542-550.
[12]LIU Yinyin,STARZYK J A,ZHU Zhen.Optimized approximation algorithm in neural networks without overfitting[J].IEEE Transactions on Neural Network,2008,19(6):983-995.
[13]HASSIBI B,STORK D,WOLFF G,WATANABE T.Optimal brain surgeon:extensions and performance comparisons[C]//Adavances in Neural Information Processing Systems 6.San Mateo,USA:Morgan Kaufman,1994:263-270.
[14]FAHLMAN S E,LEBIERE C.The cascade correlation learning architecture[C]//Advances in Neural Information Processing Systems 2.San Mateo,USA:Morgan Kaufman,1990:524-532.
張昭昭,男,1973年生,博士研究生,主要研究方向為智能系統(tǒng)與智能信息處理、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計與優(yōu)化.
喬俊飛,男,1968年生,教授,博士生導(dǎo)師,主要研究方向為復(fù)雜過程建模與控制、計算智能與智能優(yōu)化控制,發(fā)表學(xué)術(shù)論文100余篇,其中被SCI、EI檢索60余篇.
楊剛,男,1983年生,博士研究生,主要研究方向為神經(jīng)計算與智能優(yōu)化控制.
An adaptive algorithm for designing optimal feed-forward neural network architecture
ZHANG Zhaozhao1,2,QIAO Junfei1,YANG Gang1
(1.College of Electronic and Control Engineering,Beijing University of Technology,Beijing 100124,China;2.Institute of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China)
Due to the fact that most algorithms use a greedy strategy in designing artificial neural networks which are susceptible to becoming trapped at the architectural local optimal point,an adaptive algorithm for designing an optimal feed-forward neural network was proposed.During the training process of the neural network,the adaptive optimization strategy was adopted to merge and split the hidden unit to design optimal neural network architecture.In the merge operation,the hidden units were merged based on mutual information criterion.In the split operation,a mutation coefficient was introduced to help jump out of locally optimal network.The process of adjusting the connection weight after merge and split operations was combined with the process of training the neural network.Therefore,the number of training samples was reduced,the training speed was increased,and the generalization performance was improved.The results of approximating non-linear functions show that the proposed algorithm can limit testing errors and a compact neural network structure.
feed-forward neural network;architecture design;adaptive search strategy;mutual information
TP273
A
1673-4785(2011)04-0312-06
10.3969/j.issn.1673-4785.2011.04.005
國家自然科學(xué)基金資助項目(60873043);國家“863”計劃資助項目(2009AA04Z155);北京市自然科學(xué)基金資助項目(4092010);教育部博士點(diǎn)基金資助項目(200800050004);北京市屬高等學(xué)校人才強(qiáng)教計劃資助項目(PHR201006103).
張昭昭.E-mail:zzzhao123@126.com.