李文靜 李治港 喬俊飛
人工神經(jīng)網(wǎng)絡(luò)是受生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而設(shè)計(jì)出來(lái)的一種數(shù)學(xué)計(jì)算模型,具有良好的容錯(cuò)能力、萬(wàn)能的逼近特性以及優(yōu)越的自適應(yīng)和自學(xué)習(xí)功能[1],同時(shí)具備高速并行處理信息的結(jié)構(gòu)[2],可以解決復(fù)雜的工程問(wèn)題.這些優(yōu)點(diǎn)使得人工神經(jīng)網(wǎng)絡(luò)成為當(dāng)今最成功的人工智能模型之一[3],已廣泛地應(yīng)用于眾多領(lǐng)域,如非線(xiàn)性系統(tǒng)建模[4-5]、數(shù)據(jù)挖掘[6-7]、計(jì)算機(jī)視覺(jué)[8-9]和自然語(yǔ)言處理[10-11]等.
1998 年,Watts 等[12]發(fā)現(xiàn)許多生物網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)介于隨機(jī)網(wǎng)絡(luò)和規(guī)則網(wǎng)絡(luò)之間,其拓?fù)浣Y(jié)構(gòu)呈現(xiàn)出稀疏特性,且具有較大的聚類(lèi)系數(shù)和較短的平均路徑長(zhǎng)度,并將其定義為小世界網(wǎng)絡(luò).隨著人們對(duì)生物神經(jīng)網(wǎng)絡(luò)研究的深入,借助彌散張量成像、磁共振腦功能成像等技術(shù),研究者發(fā)現(xiàn)生物神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)和功能上均呈現(xiàn)出小世界屬性[13-15].研究表明,生物神經(jīng)網(wǎng)絡(luò)較短的平均路徑長(zhǎng)度可以加快信息在網(wǎng)絡(luò)中的傳播速度,較大的聚類(lèi)系數(shù)能夠增加網(wǎng)絡(luò)的容錯(cuò)能力[16].盡管人工神經(jīng)網(wǎng)絡(luò)通過(guò)構(gòu)建大量節(jié)點(diǎn)(神經(jīng)元)之間的相互連接模擬人腦的信息處理方式,但是其拓?fù)浣Y(jié)構(gòu)及功能與生物神經(jīng)網(wǎng)絡(luò)仍相去甚遠(yuǎn).
近年來(lái),已有很多學(xué)者嘗試將小世界屬性引入人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中,旨在提高人工神經(jīng)網(wǎng)絡(luò)的信息處理及容錯(cuò)能力.前饋神經(jīng)網(wǎng)絡(luò)(Feedforward neural network,FNN)由于結(jié)構(gòu)簡(jiǎn)單靈活[17],且可以以任意精度逼近任一連續(xù)函數(shù)[18-19],在模式識(shí)別、函數(shù)逼近等方面得到廣泛應(yīng)用[20-21].目前,基于FNN的小世界神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)得到越來(lái)越多的關(guān)注.Simard 等[22]以多層感知器為基礎(chǔ)模型,建立了一種多層前饋小世界神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)小世界神經(jīng)網(wǎng)絡(luò)比規(guī)則網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)有更快的學(xué)習(xí)速度和更高的精度.Li 等[23]探究了重連概率對(duì)小世界神經(jīng)網(wǎng)絡(luò)性能的影響,發(fā)現(xiàn)重連概率在0.1 附近時(shí),網(wǎng)絡(luò)收斂速度最快.可見(jiàn),將小世界屬性融入人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)能夠提升網(wǎng)絡(luò)的收斂速度和泛化能力.基于此,小世界神經(jīng)網(wǎng)絡(luò)已廣泛地應(yīng)用到智能控制[24-25]、風(fēng)力預(yù)測(cè)[26]、醫(yī)療診斷[27-28]、污水處理[29-30]等多個(gè)領(lǐng)域,取得了良好的效果.
小世界神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)直接影響著網(wǎng)絡(luò)的性能.目前,構(gòu)造小世界神經(jīng)網(wǎng)絡(luò)的方法主要包括Watts-Strogatz (WS)[12]和Newman-Watts (NW)[31]兩種方式.WS 型前饋小世界神經(jīng)網(wǎng)絡(luò)通過(guò)在FNN 上以一定概率隨機(jī)斷開(kāi)相鄰層連接再進(jìn)行隨機(jī)跨層重連實(shí)現(xiàn)小世界網(wǎng)絡(luò)構(gòu)建,而NW 型前饋小世界神經(jīng)網(wǎng)絡(luò)則是通過(guò)在FNN 上直接隨機(jī)跨層加邊進(jìn)行小世界網(wǎng)絡(luò)構(gòu)造.從網(wǎng)絡(luò)的構(gòu)造方式可以看出,WS 型小世界神經(jīng)網(wǎng)絡(luò)相比NW 型小世界神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更加稀疏,因此得到更多學(xué)者的關(guān)注.在WS 方式構(gòu)造的基礎(chǔ)上,不少學(xué)者通過(guò)改進(jìn)其斷開(kāi)或重連策略實(shí)現(xiàn)構(gòu)造方式的優(yōu)化.例如,李小虎等[32]對(duì)隨機(jī)斷開(kāi)連接加以限制,即禁止斷開(kāi)最后一個(gè)隱含層與輸出層之間的連接,以防止孤立神經(jīng)元的產(chǎn)生.王爽心等[33]提出基于層連優(yōu)化的小世界神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法,引入了同層節(jié)點(diǎn)重連的策略,改善了小世界神經(jīng)網(wǎng)絡(luò)聚類(lèi)系數(shù)偏低的問(wèn)題,并且發(fā)現(xiàn)輸入層和輸出層直接相連會(huì)造成網(wǎng)絡(luò)性能下降.此外,近年來(lái)研究學(xué)者在WS 構(gòu)造方式的基礎(chǔ)上對(duì)網(wǎng)絡(luò)進(jìn)行稀疏化,以進(jìn)一步提高網(wǎng)絡(luò)的泛化性能.Guo等[34]提出了一種基于E-信息熵的剪枝算法用于稀疏化WS 型前饋小世界神經(jīng)網(wǎng)絡(luò),在一定程度上改善了因網(wǎng)絡(luò)結(jié)構(gòu)過(guò)大而出現(xiàn)過(guò)擬合的問(wèn)題.Li 等[30]利用節(jié)點(diǎn)的Katz 中心性衡量網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,刪除不重要的節(jié)點(diǎn)使網(wǎng)絡(luò)結(jié)構(gòu)更加緊湊,同時(shí)提高了網(wǎng)絡(luò)的泛化性能.盡管以上研究通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)提升了網(wǎng)絡(luò)性能,但是在WS 型構(gòu)造方式中,網(wǎng)絡(luò)的隨機(jī)跨層重連是在隨機(jī)斷開(kāi)相鄰層間連接的基礎(chǔ)上實(shí)現(xiàn)的,而連接斷開(kāi)的隨機(jī)性可能會(huì)導(dǎo)致網(wǎng)絡(luò)重要信息丟失,在一定程度上影響網(wǎng)絡(luò)的建模精度.
針對(duì)以上問(wèn)題,本文提出一種基于突觸鞏固機(jī)制[35-36]的前饋小世界神經(jīng)網(wǎng)絡(luò)(Feedforward smallworld neural network based on synaptic consolidation,FSWNN-SC).首先,使用正則化方法對(duì)FNN進(jìn)行預(yù)訓(xùn)練,基于突觸鞏固機(jī)制選擇性斷開(kāi)網(wǎng)絡(luò)連接;其次,設(shè)計(jì)小世界網(wǎng)絡(luò)重連規(guī)則,同時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)的稀疏化,并采用梯度下降學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò);最后,通過(guò)4 個(gè)UCI 基準(zhǔn)數(shù)據(jù)集和2 個(gè)真實(shí)數(shù)據(jù)集進(jìn)行模型性能測(cè)試,并使用Wilcoxon 符號(hào)秩檢驗(yàn)[37]對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行顯著性分析.
前饋神經(jīng)網(wǎng)絡(luò),又稱(chēng)多層感知器,采用級(jí)聯(lián)方式連接實(shí)現(xiàn)信息的前向傳導(dǎo),其結(jié)構(gòu)由輸入層、隱含層和輸出層組成,如圖1 (以4 層為例)所示.假設(shè)FNN 共包含L層,使用X表示輸入數(shù)據(jù),yl(1≤l≤L)表示第l層輸出,FNN 各層功能及表示詳述如下.
圖1 前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 The architecture of feedforward neural network
1)輸入層.輸入層將輸入數(shù)據(jù)導(dǎo)入FNN,該層神經(jīng)元激活函數(shù)常采用線(xiàn)性的,以得到數(shù)據(jù)的原始特征.若輸入數(shù)據(jù)為n維,即X=[x1,x2,···,xn]T,則輸入層包含n個(gè)神經(jīng)元,其中第i個(gè)神經(jīng)元的輸出為
2)隱含層.FNN 包含至少一層隱含層,通過(guò)激活函數(shù)實(shí)現(xiàn)該層輸入數(shù)據(jù)的非線(xiàn)性映射,激活函數(shù)采用sigmoid 函數(shù),因其導(dǎo)數(shù)便于計(jì)算而廣泛使用.FNN 第l(1<l<L)層(即第l-1 個(gè)隱含層)的第j個(gè)神經(jīng)元的輸出為
3)輸出層.輸出層是隱含層輸出的集成,該層激活函數(shù)常采用線(xiàn)性的,進(jìn)而實(shí)現(xiàn)對(duì)隱含層的線(xiàn)性加權(quán),輸出層神經(jīng)元個(gè)數(shù)視系統(tǒng)問(wèn)題而定.以含有一個(gè)輸出神經(jīng)元的FNN 為例,其輸出為
1998 年,Watts 等[12]發(fā)現(xiàn)生物、技術(shù)和社交等網(wǎng)絡(luò)的連接方式介于規(guī)則網(wǎng)絡(luò)的“規(guī)則”和隨機(jī)網(wǎng)絡(luò)的“無(wú)序”之間,具有較大的聚類(lèi)系數(shù)和較短的特征路徑長(zhǎng)度等特征,將其定義為小世界網(wǎng)絡(luò).圖論是描述網(wǎng)絡(luò)特征的重要工具,網(wǎng)絡(luò)可以看作一個(gè)無(wú)向圖,由節(jié)點(diǎn)和邊組成,則網(wǎng)絡(luò)的平均聚類(lèi)系數(shù)AC和平均最短路徑長(zhǎng)度AL可由式(4)和式(5)計(jì)算得到
其中,N是網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù);Di是節(jié)點(diǎn)i的度,即節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)數(shù),則Di(Di-1)/2 表示這些相鄰節(jié)點(diǎn)理論最多連接數(shù)量;而Ei是這些相鄰節(jié)點(diǎn)的實(shí)際連接數(shù)量;lij表示節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短距離.當(dāng)網(wǎng)絡(luò)的聚類(lèi)系數(shù)遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)的聚類(lèi)系數(shù),且特征路徑長(zhǎng)度接近于隨機(jī)網(wǎng)絡(luò)時(shí),即AC ?ACrand且AL ≈ALrand時(shí),該網(wǎng)絡(luò)具有小世界屬性.因此,定義小世界網(wǎng)絡(luò)屬性指標(biāo)為
當(dāng)網(wǎng)絡(luò)滿(mǎn)足η>1 時(shí),該網(wǎng)絡(luò)為小世界網(wǎng)絡(luò)[38].
對(duì)于前述前饋神經(jīng)網(wǎng)絡(luò),其連接遵循一定的規(guī)則,即相鄰層之間為全連接結(jié)構(gòu),同一層內(nèi)神經(jīng)元之間無(wú)連接且不存在跨層連接.因此,對(duì)任一神經(jīng)元,其近鄰神經(jīng)元之間不存在邊,由式(4)可得網(wǎng)絡(luò)聚類(lèi)系數(shù)為0.通過(guò)在前饋神經(jīng)網(wǎng)絡(luò)規(guī)則連接的基礎(chǔ)上進(jìn)行隨機(jī)跨層重連,可生成小世界神經(jīng)網(wǎng)絡(luò)[30,32-34].相對(duì)于規(guī)則前饋神經(jīng)網(wǎng)絡(luò),小世界神經(jīng)網(wǎng)絡(luò)由于存在跨層連接,其聚類(lèi)系數(shù)始終大于0,且由于位于不同層的兩個(gè)神經(jīng)元之間的最短路徑減小使得其特征路徑長(zhǎng)度減小.相對(duì)于完全隨機(jī)網(wǎng)絡(luò),小世界神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)含有隨機(jī)網(wǎng)絡(luò)的“無(wú)序”特性,使其特征路徑長(zhǎng)度接近于完全隨機(jī)網(wǎng)絡(luò)的特征路徑長(zhǎng)度,同時(shí)小世界神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)仍然保留一定的“規(guī)則”連接,這使得小世界神經(jīng)網(wǎng)絡(luò)的聚類(lèi)系數(shù)遠(yuǎn)大于完全隨機(jī)網(wǎng)絡(luò)的聚類(lèi)系數(shù),因此具備小世界屬性.
在生物神經(jīng)網(wǎng)絡(luò)中,突觸是神經(jīng)細(xì)胞之間的連接,也是細(xì)胞間信息傳遞的“橋梁”.研究表明,突觸具有可塑性,可以自主調(diào)節(jié)其連接強(qiáng)度,突觸的形態(tài)和功能可發(fā)生較為持久的改變.當(dāng)學(xué)習(xí)特定任務(wù)時(shí),有些突觸興奮性會(huì)增強(qiáng),有些會(huì)被抑制,這就是突觸鞏固機(jī)制[39].突觸鞏固的實(shí)現(xiàn)依賴(lài)突觸的長(zhǎng)時(shí)程增強(qiáng)(Long-term potentiation,LTP)[40]和長(zhǎng)時(shí)程抑制(Long-term depression,LTD)[41].如果兩個(gè)神經(jīng)元之間存在持久的信息傳遞,LTP 將加強(qiáng)它們之間的突觸連接;如果兩個(gè)神經(jīng)元之間的信息傳遞弱且呈間歇性,LTD 會(huì)抑制其間突觸連接.因此,突觸鞏固機(jī)制可以選擇性地增強(qiáng)和削弱特定的突觸.如圖2 所示,圖2(a)是神經(jīng)元與突觸模型,圖2(b)展示了突觸鞏固機(jī)制作用下突觸的變化.其中,粗線(xiàn)表示重要的突觸在突觸鞏固的作用下會(huì)增強(qiáng)其連接強(qiáng)度(LTP),而虛線(xiàn)表示不重要的突觸在突觸鞏固作用下會(huì)消失(LTD).
圖2 突觸鞏固Fig.2 Synaptic consolidation
研究者通過(guò)模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)特征和突觸的可塑性機(jī)制,設(shè)計(jì)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及學(xué)習(xí)規(guī)則.突觸鞏固機(jī)制在人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中也得到了廣泛應(yīng)用,如模型壓縮[42]和增量學(xué)習(xí)[43]等.
受到突觸鞏固機(jī)制的啟發(fā),本文提出一種前饋小世界神經(jīng)網(wǎng)絡(luò)(FSWNN-SC).首先,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)正則化對(duì)其進(jìn)行預(yù)訓(xùn)練,保留網(wǎng)絡(luò)中重要的權(quán)值連接、斷開(kāi)網(wǎng)絡(luò)中不重要的權(quán)值連接以模擬生物神經(jīng)網(wǎng)絡(luò)的突觸鞏固;其次,制定小世界網(wǎng)絡(luò)重連規(guī)則,對(duì)斷開(kāi)的連接進(jìn)行隨機(jī)跨層重連,實(shí)現(xiàn)小世界神經(jīng)網(wǎng)絡(luò)的構(gòu)造;最后使用梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)權(quán)值更新.
對(duì)于規(guī)則FNN,本文首先使用網(wǎng)絡(luò)正則化方法對(duì)其進(jìn)行預(yù)訓(xùn)練,旨在通過(guò)網(wǎng)絡(luò)稀疏化保留網(wǎng)絡(luò)重要權(quán)值連接、斷開(kāi)不重要的權(quán)值連接.具體步驟如下:
1)初始化.初始化網(wǎng)絡(luò)結(jié)構(gòu)包括層數(shù)和神經(jīng)元個(gè)數(shù)等參數(shù),網(wǎng)絡(luò)的連接權(quán)值設(shè)置為[-1,1]區(qū)間內(nèi)的隨機(jī)數(shù).設(shè)置懲罰系數(shù)λ、網(wǎng)絡(luò)學(xué)習(xí)率μ、預(yù)訓(xùn)練迭代步數(shù)S和重連概率P.
2)定義損失函數(shù).即
該損失函數(shù)由兩項(xiàng)組成,其中第1 項(xiàng)E(W)為誤差項(xiàng),通過(guò)式(8)計(jì)算得到
其中,M為訓(xùn)練樣本數(shù),dm與為樣本m的期望與實(shí)際輸出.第2 項(xiàng)λg(W)是正則化項(xiàng),其中λ是懲罰系數(shù),g(W)為L(zhǎng)q(0≤q ≤1)范數(shù),即
此處分別列出q=0,1/2,1 時(shí)的計(jì)算式,即
其中,L為網(wǎng)絡(luò)的總層數(shù),代表第l層的第i個(gè)神經(jīng)元與第l+1 層的第j個(gè)神經(jīng)元的連接權(quán)值.由于其在原點(diǎn)處不可導(dǎo),將其在原點(diǎn)處進(jìn)行平滑[44],即
其中,a為接近于0 的常數(shù),本文中取值a=0.005.
3)使用梯度下降法更新網(wǎng)絡(luò)權(quán)值.更新式為
其中,t為迭代步數(shù),ΔW(t)是權(quán)值變化矩陣,矩陣中第l層的第i個(gè)神經(jīng)元與第l+1 層的第j個(gè)神經(jīng)元的連接權(quán)值變化量可由式(15)計(jì)算得到
其中,μ是學(xué)習(xí)率,λ是懲罰系數(shù).按照式(16)計(jì)算得到
當(dāng)?shù)螖?shù)達(dá)到預(yù)設(shè)步數(shù)S時(shí),訓(xùn)練停止.
4)網(wǎng)絡(luò)稀疏化.根據(jù)設(shè)定重連概率P,計(jì)算斷開(kāi)連接數(shù)Nc.將完成預(yù)訓(xùn)練后的網(wǎng)絡(luò)權(quán)值降序排列,設(shè)置前Nc個(gè)連接權(quán)值為0.
通過(guò)網(wǎng)絡(luò)預(yù)訓(xùn)練,規(guī)則FNN 將按照重連概率P斷開(kāi)網(wǎng)絡(luò)不重要的權(quán)值連接,其他權(quán)值連接被保留.
本文對(duì)WS 重連規(guī)則進(jìn)行改進(jìn),設(shè)計(jì)小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造方法.
標(biāo)記經(jīng)過(guò)預(yù)訓(xùn)練后斷開(kāi)連接的神經(jīng)元,假設(shè)l層的第i個(gè)神經(jīng)元與l+1 層的第j個(gè)神經(jīng)元之間的權(quán)值連接被斷開(kāi),起始及終止神經(jīng)元分別記為和.
同時(shí)設(shè)定約束條件:輸入層與輸出層的神經(jīng)元不能直接相連.
本文所提出的小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造方法可以用圖3 表示,規(guī)則網(wǎng)絡(luò)先經(jīng)過(guò)預(yù)訓(xùn)練斷開(kāi)網(wǎng)絡(luò)中不重要的連接(圖3(a)),然后按照重連規(guī)則進(jìn)行跨層重連(圖3(b)),最后刪除孤立神經(jīng)元(圖3(c)).
圖3 基于突觸鞏固小世界神經(jīng)網(wǎng)絡(luò)構(gòu)造流程Fig.3 Construction process of small-world neural network based on synaptic consolidation
在規(guī)則前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,本文通過(guò)以上重連規(guī)則引入跨層連接構(gòu)造小世界神經(jīng)網(wǎng)絡(luò).兩者輸入層的數(shù)學(xué)描述相同,如式(1)所示.而由于引入了跨層連接,小世界神經(jīng)網(wǎng)絡(luò)隱含層及輸出層的數(shù)學(xué)描述與規(guī)則前饋神經(jīng)網(wǎng)絡(luò)有所不同.
對(duì)于隱含層,以小世界神經(jīng)網(wǎng)絡(luò)第l(1<l<L)層的第j個(gè)神經(jīng)元為例,其輸出通過(guò)式(18)計(jì)算得到
其中,ns表示第s層神經(jīng)元的個(gè)數(shù),f(·)為激活函數(shù),為第s層第i個(gè)神經(jīng)元與第l層的第j個(gè)神經(jīng)元之間的連接權(quán)值.若不存在連接,則為0.由式(18)可以看出,第l層隱含層的輸入需要同時(shí)考慮來(lái)自前面所有層的輸出.
對(duì)于輸出層,其輸入需要同時(shí)考慮來(lái)自所有隱含層的輸出,其輸出通過(guò)式(19)計(jì)算得到
本文使用梯度下降算法更新小世界神經(jīng)網(wǎng)絡(luò)的連接權(quán)值.首先,基于誤差函數(shù)定義損失函數(shù),即
其中,M是訓(xùn)練樣本數(shù),dm與分別表示樣本m的期望輸出與實(shí)際輸出.
按照式(21)更新連接權(quán)值,即
其中,t為迭代步數(shù),ΔW為權(quán)值變化矩陣.矩陣中第l層的第i個(gè)神經(jīng)元與第s層的第j個(gè)神經(jīng)元的連接權(quán)值變化量可通過(guò)式(22)計(jì)算得到
其中,μ是學(xué)習(xí)率,為第l(1≤l<s ≤L)層的第i個(gè)神經(jīng)元的輸出,可由式(23)計(jì)算得到
其中,δd是第d層神經(jīng)元的誤差;為第s層的第j個(gè)神經(jīng)元與第d層神經(jīng)元的連接權(quán)值向量;是第s層第j個(gè)神經(jīng)元的輸出的導(dǎo)數(shù),通過(guò)式(24)計(jì)算得到.
當(dāng)?shù)綌?shù)達(dá)到最大迭代步數(shù)(itermax)或訓(xùn)練誤差達(dá)到均方根誤差(Root mean squared error,RMSE)的期望值RMSEd時(shí),網(wǎng)絡(luò)訓(xùn)練結(jié)束.
本文在規(guī)則前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過(guò)網(wǎng)絡(luò)正則化斷開(kāi)不重要的權(quán)值連接,設(shè)計(jì)網(wǎng)絡(luò)重連規(guī)則構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),使用梯度下降算法更新網(wǎng)絡(luò)權(quán)值,算法流程圖如圖4 所示.
圖4 FSWNN-SC 算法流程圖Fig.4 The flowchart of FSWNN-SC
通過(guò)實(shí)驗(yàn)仿真,本文首先研究預(yù)訓(xùn)練關(guān)鍵參數(shù)(重連概率P及預(yù)訓(xùn)練次數(shù)S)對(duì)實(shí)驗(yàn)結(jié)果的影響,為后續(xù)實(shí)驗(yàn)的參數(shù)選取提供實(shí)驗(yàn)依據(jù);其次,從建模精度及訓(xùn)練時(shí)間等方面評(píng)價(jià)FSWNN-SC 模型的性能及有效性;最后,使用Wilcoxon 符號(hào)秩檢驗(yàn)方法進(jìn)一步驗(yàn)證FSWNN-SC 模型相比于其他模型的顯著性?xún)?yōu)勢(shì).
本文選取了4 個(gè)UCI 數(shù)據(jù)集[45],包括2 個(gè)分類(lèi)數(shù)據(jù)集(數(shù)據(jù)集1 和數(shù)據(jù)集2)和2 個(gè)回歸數(shù)據(jù)集(數(shù)據(jù)集3 和數(shù)據(jù)集4),以及2 個(gè)真實(shí)數(shù)據(jù)集(數(shù)據(jù)集5 和數(shù)據(jù)集6)進(jìn)行實(shí)驗(yàn).數(shù)據(jù)集信息如下:
1)數(shù)據(jù)集1:HTRU2.該分類(lèi)數(shù)據(jù)集有17 898組樣本,8 個(gè)特征變量,1 個(gè)輸出變量(取值-1,1分別代表所屬兩種類(lèi)別).抽取3 278 組樣本,正負(fù)樣本比例為1 :1.2,2 295 組樣本用于網(wǎng)絡(luò)訓(xùn)練,983 組樣本用于網(wǎng)絡(luò)性能測(cè)試.
2)數(shù)據(jù)集2:Banknote Authentication.該分類(lèi)數(shù)據(jù)集有1 372 組樣本,4 個(gè)特征變量,1 個(gè)輸出變量(取值-1,1 分別代表所屬兩種類(lèi)別),正負(fù)樣本比例為1 :1.2492.將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,960 組樣本用于網(wǎng)絡(luò)訓(xùn)練,412 組樣本用于網(wǎng)絡(luò)性能測(cè)試.
3)數(shù)據(jù)集3:Boston Housing.該回歸數(shù)據(jù)集有506 組樣本,13 個(gè)特征變量,1 個(gè)輸出變量.將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,354 組樣本用于網(wǎng)絡(luò)訓(xùn)練,152 組樣本用于網(wǎng)絡(luò)性能測(cè)試.
4)數(shù)據(jù)集4:Concrete Compressive Strength.該數(shù)據(jù)集有1 030 組樣本,8 個(gè)特征變量,1 個(gè)輸出變量.721 組樣本用于網(wǎng)絡(luò)訓(xùn)練,309 組樣本用于網(wǎng)絡(luò)性能測(cè)試.
5)數(shù)據(jù)集5:風(fēng)速預(yù)測(cè).風(fēng)速時(shí)間序列從中國(guó)某風(fēng)電場(chǎng)采集,采樣間隔為2011 年4 月6 日凌晨0:00 至2011 年4 月12 日凌晨0:00,采樣間隔為10 分鐘.用y(t)表示t時(shí)刻的風(fēng)速值,使用y(t-5)至y(t)作為網(wǎng)絡(luò)輸入,預(yù)測(cè)下一時(shí)刻的風(fēng)速值,即y(t+1)網(wǎng)絡(luò)輸出.697 組樣本用于網(wǎng)絡(luò)訓(xùn)練,299組樣本用于網(wǎng)絡(luò)性能測(cè)試.
6)數(shù)據(jù)集6:出水生化需氧量(Biochemical oxygen demand,BOD)濃度預(yù)測(cè).該數(shù)據(jù)來(lái)自北京市某污水處理廠,共包含365 組數(shù)據(jù),輸入變量包括:a)出水總氮;b)出水氨氮;c)進(jìn)水總氮;d)進(jìn)水BOD;e)進(jìn)水氨氮;f)出水磷酸鹽;g)混合液懸浮固體(Mixed liquid suspended solids,MLSS);h)溶解氧(Dissolved oxygen,DO);i)進(jìn)水磷酸鹽;j)進(jìn)水化學(xué)需氧量(Chemical oxygen demand,COD).輸出變量為出水BOD 濃度.265 組樣本用于網(wǎng)絡(luò)訓(xùn)練,100 組樣本用于網(wǎng)絡(luò)性能測(cè)試.
為了消除特征向量之間量級(jí)不同導(dǎo)致的影響,對(duì)6 個(gè)實(shí)驗(yàn)的數(shù)據(jù)集都進(jìn)行歸一化處理,特征變量歸一化至[-1,1],輸出變量歸一化至[0,1].
本文選取基于L1/2范數(shù)(即q=1/2 )的正則化方法進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練,進(jìn)而構(gòu)建FSWNN-SC 網(wǎng)絡(luò).實(shí)驗(yàn)設(shè)置超參數(shù),包括網(wǎng)絡(luò)結(jié)構(gòu)、預(yù)訓(xùn)練懲罰系數(shù)λ、學(xué)習(xí)率μ、最大迭代步數(shù)itermax和期望均方根誤差RMSEd等,詳見(jiàn)表1.
表1 實(shí)驗(yàn)超參數(shù)設(shè)置Table 1 Setting of the hyperparameters in experiments
本文使用分類(lèi)精度(Accuracy,Acc)和標(biāo)準(zhǔn)均方根誤差(Normalized root mean squared error,NRMSE)分別評(píng)價(jià)模型對(duì)分類(lèi)和回歸實(shí)驗(yàn)的建模精度,具體定義為
其中,K是分類(lèi)問(wèn)題中的類(lèi)別總數(shù),TPk是第k個(gè)類(lèi)別下真陽(yáng)性樣本總量;M是樣本總量,dm和ym分別為第m個(gè)樣本的期望輸出與實(shí)際輸出,是網(wǎng)絡(luò)期望輸出的均值.可見(jiàn),Acc反映了網(wǎng)絡(luò)分類(lèi)準(zhǔn)確性,Acc越大,網(wǎng)絡(luò)性能越好;NRMSE反映了網(wǎng)絡(luò)實(shí)際輸出與期望輸出之間的誤差大小,NRMSE越小,網(wǎng)絡(luò)性能越好.
此外,由于預(yù)訓(xùn)練后可能會(huì)產(chǎn)生孤立節(jié)點(diǎn),本文提出的FSWNN-SC 在刪除孤立節(jié)點(diǎn)后,會(huì)產(chǎn)生一定的稀疏化作用.為了評(píng)價(jià)模型的稀疏化程度,定義稀疏度指標(biāo)為
其中,NI是網(wǎng)絡(luò)初始狀態(tài)下非零權(quán)值的數(shù)量,NF是訓(xùn)練結(jié)束后網(wǎng)絡(luò)中非零權(quán)值的數(shù)量.SP越小表示稀疏化程度越高;反之,SP越大,稀疏化程度越低.
本文實(shí)驗(yàn)所使用的軟件為MATLAB R2021b,操作系統(tǒng)為Windows11,CPU 為AMD 5800H 16 GB.
3.3.1 重連概率P對(duì)小世界屬性的影響
如第2.1 節(jié)所述,在預(yù)訓(xùn)練過(guò)程中,重連概率P決定了預(yù)訓(xùn)練后需要斷開(kāi)并進(jìn)行重連的連接邊數(shù)Nc,直接影響網(wǎng)絡(luò)的小世界屬性.本文通過(guò)計(jì)算不同P取值情況下的小世界網(wǎng)絡(luò)屬性η值,來(lái)研究重連概率P對(duì)網(wǎng)絡(luò)小世界屬性的影響.
在本研究中,重連概率P定義為重連邊數(shù)Nc與最大可重連邊數(shù)Nmax的比值,即
其中,最大重連邊數(shù)Nmax取值為可斷開(kāi)邊數(shù)Nd和可跨層重連邊數(shù)Nr的最小值,即
其中,
其中,nl代表第l層的神經(jīng)元個(gè)數(shù).當(dāng)重連概率P=1 時(shí),規(guī)則前饋神經(jīng)網(wǎng)絡(luò)變?yōu)殡S機(jī)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的小世界屬性根據(jù)式(6)計(jì)算得出.
本文在[0,1]范圍內(nèi),對(duì)P進(jìn)行不同取值,計(jì)算相應(yīng)重連概率下的小世界屬性η值,在各數(shù)據(jù)集上進(jìn)行驗(yàn)證,畫(huà)出P-η曲線(xiàn),如圖5 所示.由圖5 可見(jiàn),在各實(shí)驗(yàn)中,隨著重連概率P的增大,η值均呈現(xiàn)先增大后減小的趨勢(shì),一般在P=0.5 左右,η達(dá)到峰值.基于以上實(shí)驗(yàn)結(jié)果,為了保障所建立模型具有較好的小世界屬性,本文中設(shè)置重連概率P=0.5.
圖5 網(wǎng)絡(luò)小世界屬性η與重連概率P的關(guān)系曲線(xiàn)(P-η曲線(xiàn))Fig.5 The curves for the relationship between the small-world propertyηand the rewiring probabilityP (P-ηcurves)
3.3.2 預(yù)訓(xùn)練次數(shù)S對(duì)模型精度的影響
本文在[1,5 000]范圍內(nèi)對(duì)預(yù)訓(xùn)練次數(shù)S進(jìn)行取值,計(jì)算不同預(yù)訓(xùn)練次數(shù)下建模精度指標(biāo),以研究預(yù)訓(xùn)練次數(shù)對(duì)網(wǎng)絡(luò)性能的影響,繪制曲線(xiàn)如圖6所示.
圖6 預(yù)訓(xùn)練次數(shù)對(duì)網(wǎng)絡(luò)性能的影響Fig.6 Influence of pre-training epochs on network performance
在分類(lèi)問(wèn)題(數(shù)據(jù)集1 和數(shù)據(jù)集2)中,隨著預(yù)訓(xùn)練次數(shù)的增加,測(cè)試集的Acc 逐漸減小;在回歸問(wèn)題(數(shù)據(jù)集3~6)中,隨著預(yù)訓(xùn)練次數(shù)的增加,測(cè)試集的NRMSE 逐漸增大.可見(jiàn),預(yù)訓(xùn)練次數(shù)的增加將會(huì)導(dǎo)致網(wǎng)絡(luò)性能變差.因此,為了保證網(wǎng)絡(luò)性能,本文設(shè)置預(yù)訓(xùn)練次數(shù)S為較小值,取值S=20.
本文使用6 個(gè)數(shù)據(jù)集,分別從訓(xùn)練過(guò)程和測(cè)試結(jié)果對(duì)提出的FSWNN-SC 網(wǎng)絡(luò)的性能進(jìn)行評(píng)價(jià).FSWNN-SC 網(wǎng)絡(luò)訓(xùn)練過(guò)程RMSE 曲線(xiàn)如圖7 所示.可見(jiàn),在訓(xùn)練過(guò)程中,當(dāng)?shù)綌?shù)達(dá)到設(shè)定的預(yù)訓(xùn)練次數(shù)時(shí),網(wǎng)絡(luò)按照重連規(guī)則結(jié)構(gòu)發(fā)生變化以構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),訓(xùn)練RMSE 發(fā)生一次跳變,之后快速下降直至網(wǎng)絡(luò)收斂.
圖7 訓(xùn)練過(guò)程RMSE 曲線(xiàn)Fig.7 The RMSE curves in the training process
FSWNN-SC 網(wǎng)絡(luò)對(duì)測(cè)試樣本的分類(lèi)和預(yù)測(cè)效果如圖8 所示.可見(jiàn),對(duì)于分類(lèi)問(wèn)題,FSWNN-SC網(wǎng)絡(luò)能夠達(dá)到較高的分類(lèi)精度;對(duì)于回歸問(wèn)題,FSWNN-SC 網(wǎng)絡(luò)能夠較好地對(duì)輸出進(jìn)行擬合,實(shí)驗(yàn)結(jié)果驗(yàn)證了FSWNN-SC 網(wǎng)絡(luò)的有效性.
圖8 測(cè)試集樣本擬合與分類(lèi)效果Fig.8 Test set sample fitting and classification effects
為了進(jìn)一步研究FSWNN-SC 網(wǎng)絡(luò)的性能,本文將其與多層前饋神經(jīng)網(wǎng)絡(luò)(FNN)、基于WS 重連規(guī)則構(gòu)造的前饋小世界神經(jīng)網(wǎng)絡(luò)(FSWNN-WS)[32]、基于層連優(yōu)化的新型小世界神經(jīng)網(wǎng)絡(luò)(FSWNNTO)[33]、基于Katz 中心性剪枝的前饋小世界神經(jīng)網(wǎng)絡(luò)(PFSWNN-Katz)[30]、基于正則化(L1/2范數(shù))的刪減型小世界神經(jīng)網(wǎng)絡(luò)(PFSWNN-SL)等模型性能進(jìn)行對(duì)比.所有網(wǎng)絡(luò)設(shè)置相同的初始結(jié)構(gòu),小世界神經(jīng)網(wǎng)絡(luò)的構(gòu)造過(guò)程重連概率均設(shè)置為P=0.5,網(wǎng)絡(luò)學(xué)習(xí)率、期望RMSE 和最大迭代次數(shù)均按照表1 進(jìn)行設(shè)置.實(shí)驗(yàn)獨(dú)立運(yùn)行20 次,通過(guò)計(jì)算各模型的測(cè)試Acc 和測(cè)試NRMSE 等性能指標(biāo)評(píng)價(jià)模型精度,記錄訓(xùn)練時(shí)間對(duì)模型的學(xué)習(xí)速度進(jìn)行評(píng)價(jià),同時(shí)計(jì)算網(wǎng)絡(luò)稀疏度,實(shí)驗(yàn)結(jié)果見(jiàn)表2 和表3.
表2 分類(lèi)實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison results in classification experiments
表3 回歸實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison results in regression experiments
從表中可以看出,相比于其他網(wǎng)絡(luò),FSWNNSC 網(wǎng)絡(luò)在分類(lèi)問(wèn)題中具有更高的分類(lèi)精度,在回歸問(wèn)題中具有更小的測(cè)試NRMSE,說(shuō)明FSWNNSC 能夠獲得更好的建模精度.FSWNN-SC、PFSWNN-SL 和PFSWNN-Katz 模型具有網(wǎng)絡(luò)稀疏性,其中FSWNN-SC 模型通過(guò)在網(wǎng)絡(luò)重連過(guò)程中刪除產(chǎn)生的孤立節(jié)點(diǎn)實(shí)現(xiàn)稀疏化,而PFSWNN-SL和PFSWNN-Katz 是在學(xué)習(xí)過(guò)程中分別通過(guò)網(wǎng)絡(luò)正則化和合并節(jié)點(diǎn)實(shí)現(xiàn)網(wǎng)絡(luò)稀疏化,實(shí)驗(yàn)驗(yàn)證網(wǎng)絡(luò)稀疏化能夠獲得相對(duì)于FSWNN-WS 和FNN 更緊湊的結(jié)構(gòu),然而其訓(xùn)練時(shí)間也相應(yīng)增加.雖然FSWNNSC 的稀疏化程度要低于PFSWNN-SL 和PFSWNN-Katz,但是其訓(xùn)練時(shí)間相對(duì)于PFSWNNSL 和PFSWNN-Katz 縮短,更接近于FSWNNWS 和FNN 的訓(xùn)練時(shí)間.相比于FSWNN-TO,FSWNN-SC 的訓(xùn)練時(shí)間明顯短,因?yàn)镕SWNN-SC 沒(méi)有引入同層節(jié)點(diǎn)連接,在權(quán)值更新時(shí)FSWNN-SC的誤差反傳“路徑長(zhǎng)度”比FSWNN-TO 短.同時(shí),通過(guò)對(duì)比FNN 與其他5 個(gè)具有小世界屬性的網(wǎng)絡(luò),驗(yàn)證了將小世界屬性加入神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)中,能夠提高模型精度.綜上所述,通過(guò)對(duì)比實(shí)驗(yàn)分析可見(jiàn),本文提出的FSWNN-SC 網(wǎng)絡(luò)在獲得緊湊網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí),具有更高的建模精度.分析其原因,FSWNN-SC 網(wǎng)絡(luò)優(yōu)越的建模精度依賴(lài)于其預(yù)訓(xùn)練環(huán)節(jié),該環(huán)節(jié)模仿生物神經(jīng)網(wǎng)絡(luò)的突觸鞏固過(guò)程,通過(guò)網(wǎng)絡(luò)正則化方法保留了重要的權(quán)值連接并斷開(kāi)了不重要的權(quán)值連接,使該階段網(wǎng)絡(luò)所學(xué)到的知識(shí)得以保留,可以有效避免災(zāi)難性遺忘問(wèn)題.
為了進(jìn)一步驗(yàn)證本文所提出模型是否具有顯著優(yōu)勢(shì),對(duì)第3.4 節(jié)的實(shí)驗(yàn)結(jié)果進(jìn)行Wilcoxon 符號(hào)秩檢驗(yàn).它是一種非參數(shù)檢驗(yàn)方法,可以評(píng)估多個(gè)事件下兩個(gè)模型是否有顯著性差異[46],具體流程如下.
步驟 1.提出原假設(shè)H0:兩個(gè)模型之間沒(méi)有顯著性差異.
步驟 2.對(duì)于多個(gè)事件,通過(guò)式(32)和式(33)分別計(jì)算正負(fù)秩
其中,di是第i個(gè)事件下兩個(gè)模型的差異,本文通過(guò)精度性能指標(biāo)的差值計(jì)算得到,rank(·)表示降序排名的名次.基于此得到Wilcoxon 統(tǒng)計(jì)量,為正負(fù)秩兩者中的較小值,即
步驟 3.通過(guò)Wilcoxon 統(tǒng)計(jì)量計(jì)算得到Z的臨界值,計(jì)算式為
其中,N是事件數(shù),通過(guò)查正態(tài)分布Z值表得到對(duì)應(yīng)的Pw,若Pw>0.05,則接受原假設(shè)H0,反之,則拒絕原假設(shè),即兩個(gè)模型間存在顯著性差異,且Pw值越小差異越顯著.
針對(duì)第3.4 節(jié)中的實(shí)驗(yàn)結(jié)果進(jìn)行Wilcoxon 符號(hào)秩檢驗(yàn),其中事件數(shù)為實(shí)驗(yàn)獨(dú)立運(yùn)行的次數(shù)20,分別對(duì)比FSWNN-SC 模型與其他5 種模型的性能,檢驗(yàn)結(jié)果如表4 所示(*表示存在顯著性差異).由表4 可見(jiàn),本文提出的FSWNN-SC 模型在精度上顯著優(yōu)于其他5 種模型.此外,本文實(shí)驗(yàn)中,FSWNNSC 在不同場(chǎng)景、不同任務(wù)(分類(lèi)、回歸)下表現(xiàn)出的顯著優(yōu)越性,反映了該模型對(duì)不同應(yīng)用環(huán)境的適應(yīng)性及可塑性,同時(shí)在實(shí)際應(yīng)用中的準(zhǔn)確建模反映了其具有一定的抗擾性.
針對(duì)WS 構(gòu)造小世界神經(jīng)網(wǎng)絡(luò)方式中隨機(jī)斷開(kāi)規(guī)則網(wǎng)絡(luò)中的權(quán)值連接,可能會(huì)造成重要信息丟失,進(jìn)而導(dǎo)致網(wǎng)絡(luò)精度下降的問(wèn)題,本文提出了FSWNNSC 模型.該模型具有以下特點(diǎn):
1)FSWNN-SC 模型使用正則化方法對(duì)FNN進(jìn)行預(yù)訓(xùn)練,斷開(kāi)對(duì)網(wǎng)絡(luò)不重要的權(quán)值連接,以減少重要信息丟失的概率,并制定了重連規(guī)則構(gòu)造小世界神經(jīng)網(wǎng)絡(luò),保證構(gòu)造的小世界神經(jīng)網(wǎng)絡(luò)的性能;
2)FSWNN-SC 模型通過(guò)在網(wǎng)絡(luò)重連過(guò)程中刪除產(chǎn)生的孤立節(jié)點(diǎn)實(shí)現(xiàn)網(wǎng)絡(luò)稀疏化,能夠獲得緊湊的網(wǎng)絡(luò)結(jié)構(gòu);
3)實(shí)驗(yàn)結(jié)果表明,相比于PFSWNN-SL、PFSWNN-Katz、FSWNN-TO、FSWNN-WS 以及FNN,FSWNN-SC 在獲得緊湊結(jié)構(gòu)的同時(shí),在模型精度方面具有顯著優(yōu)勢(shì).