劉文波,李來鴻
(1. 勝利油田電力管理總公司,山東 東營 257200;2. 勝利油田電力管理總公司 河口供電公司,山東 東營 257200)
自1991年Jacobs[1]提出模塊化神經(jīng)網(wǎng)絡(luò)MNN(Modular Neural Network)以來,MNN已經(jīng)在控制、建模等領(lǐng)域得到了廣泛的應(yīng)用。MNN采用“分而治之”的思想,將復(fù)雜問題分解為若干獨(dú)立的子問題,對于每一子問題構(gòu)建相應(yīng)子網(wǎng)絡(luò)。對于給定輸入,MNN只選擇一個子網(wǎng)絡(luò)對其進(jìn)行處理,子網(wǎng)絡(luò)的輸出即為整個網(wǎng)絡(luò)的輸出。“分而治之”的策略有效地降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度,解決了單一神經(jīng)網(wǎng)絡(luò)在面對復(fù)雜問題時存在的結(jié)構(gòu)設(shè)計困難、學(xué)習(xí)速度慢、泛化性能差等諸多問題。但是,傳統(tǒng)MNN的每個子網(wǎng)絡(luò)只處理獨(dú)立的樣本空間,這使得MNN的子網(wǎng)絡(luò)功能之間出現(xiàn)了明顯的邊界,從而MNN對于邊界輸入的處理精度較低。
針對MNN的缺點(diǎn),一些學(xué)者提出在MNN中引入集成學(xué)習(xí)的思想[2-5],理論和實(shí)踐的研究均證明[6]集成學(xué)習(xí)可以有效地提高神經(jīng)網(wǎng)絡(luò)的逼近精度和泛化能力。2007年,Gao等[4]采用類模塊劃分方法將一個n分類問題分解為n個2分類問題,其中,每個子網(wǎng)絡(luò)除對本網(wǎng)絡(luò)的樣本子空間進(jìn)行訓(xùn)練外,還對相鄰子網(wǎng)絡(luò)樣本子空間的樣本進(jìn)行訓(xùn)練。2009年,Mario[5]也采取了類似的方法解決圖像識別問題。在子網(wǎng)絡(luò)整合中兩者都采用了集成的方法。對于任一給定輸入,與該輸入相鄰的所有子網(wǎng)絡(luò)均參與信息的處理。上述方法在總體“分而治之”的基礎(chǔ)上,通過局部的“集思廣益”,有效地提高了神經(jīng)網(wǎng)絡(luò)的性能。但是,上述方法中MNN的每個子網(wǎng)絡(luò)都對所有相鄰區(qū)域的樣本進(jìn)行訓(xùn)練,這使得每個子網(wǎng)絡(luò)訓(xùn)練的樣本空間增大,勢必會增大子網(wǎng)絡(luò)的規(guī)模。此外,2002年,Zhou等[6]對集成學(xué)習(xí)問題進(jìn)行了研究,提出了“Many could be better than all”的思想,并證明從與輸入相鄰的所有子網(wǎng)絡(luò)選擇部分子網(wǎng)絡(luò)進(jìn)行集成可以獲得更好的性能。所以,對于一個輸入信息,如何從與輸入相鄰的所有子網(wǎng)絡(luò)選擇部分合適的子網(wǎng)絡(luò)對其進(jìn)行處理,針對各子網(wǎng)絡(luò)的輸出如何進(jìn)行整合仍然是MNN尚未解決的問題。
筆者提出了一種基于距離測度和模糊決策的子網(wǎng)絡(luò)選擇方法,并提出了基于樣本空間重構(gòu)的方法來優(yōu)化子網(wǎng)絡(luò)的輸出權(quán)重。上述方法實(shí)現(xiàn)了MNN的在線自適應(yīng)集成。
一般的MNN結(jié)構(gòu)如圖1所示。其主要由任務(wù)分解、子網(wǎng)絡(luò)、輸出整合三個部分組成。
圖1 MNN結(jié)構(gòu)示意
離線學(xué)習(xí)時,任務(wù)分解實(shí)質(zhì)是將整個輸入樣本空間按照一定規(guī)則劃分為若干子樣本空間[7](由于樣本集的模糊性,各子樣本空間可以存在一定程度的交疊)。對于在線輸入信息,任務(wù)分解模塊需首先判斷該輸入屬于哪個子樣本空間,然后將輸入信息送入相應(yīng)子樣本空間對應(yīng)的子網(wǎng)絡(luò)進(jìn)行處理。子網(wǎng)絡(luò)的個數(shù)與子樣本空間個數(shù)相同。
輸出整合是將被選擇進(jìn)行信息處理的子網(wǎng)絡(luò)的輸出進(jìn)行合并。一般MNN的整合采用線性整合方式[4-6,8],圖1所示的模塊化神經(jīng)網(wǎng)絡(luò)的總輸出為
(1)
式中:P——子網(wǎng)絡(luò)個數(shù);yi——第i個子網(wǎng)絡(luò)(記為NETi)的輸出;wi——NETi的權(quán)重,滿足∑wi=1,且0≤wi≤1,i=1, …,P。
對于在線輸入,傳統(tǒng)的MNN子網(wǎng)絡(luò)選擇方法(記為SM1)只選擇一個子網(wǎng)絡(luò)(假設(shè)為NETs),對其進(jìn)行處理,即有w=1,wi, i≠s=0。而文獻(xiàn)[4-5]提出的網(wǎng)絡(luò)選擇方法(記為SM2)則選擇所有與輸入相鄰的子網(wǎng)絡(luò)對輸入信息進(jìn)行集成處理,即對于所有與輸入相鄰的子網(wǎng)絡(luò),有0≤wi≤1,而與輸入不相鄰的子網(wǎng)絡(luò),wi=0。
實(shí)際上,MNN的子網(wǎng)絡(luò)選擇與輸入點(diǎn)位置有關(guān)。如圖2所示,當(dāng)輸入位于A點(diǎn)時,子網(wǎng)絡(luò)1對輸入進(jìn)行單獨(dú)處理即可取得較好的效果。而當(dāng)輸入位于B,C點(diǎn)時(樣本子空間的交界處),任何單一子網(wǎng)絡(luò)對該點(diǎn)的處理能力均有限。按照集成學(xué)習(xí)理論,選擇與B,C點(diǎn)臨近的部分子網(wǎng)絡(luò)對其進(jìn)行集成處理可以獲得較好的效果。因此,筆者提出了一種根據(jù)輸入信息位置動態(tài)選擇參與信息處理的子網(wǎng)絡(luò)方法SM3。采用該種方法,每個子網(wǎng)絡(luò)只對相應(yīng)子空間及其某一鄰域的樣本進(jìn)行訓(xùn)練。對于任一輸入信息,SM3的選擇的子網(wǎng)絡(luò)個數(shù)介于SM1和SM2之間,因而該方法可以使MNN具有更強(qiáng)的自適應(yīng)能力。
圖2 樣本分割示意
綜合上述分析,SM3的集成問題主要有兩個: 如何根據(jù)輸入信息動態(tài)選擇參與信息處理的子網(wǎng)絡(luò);如何確定參與信息處理的子網(wǎng)絡(luò)的權(quán)重(對于未被選擇的子網(wǎng)絡(luò),其權(quán)重wi=0)。
子網(wǎng)絡(luò)選擇的實(shí)質(zhì)是針對給定輸入從所有子網(wǎng)絡(luò)中選擇出最適合處理該輸入的子網(wǎng)絡(luò)集合。文獻(xiàn)[4-5]采用局部全集成策略,易導(dǎo)致子網(wǎng)絡(luò)規(guī)模過大。文獻(xiàn)[8]提出了一種基于距離測度選擇子網(wǎng)絡(luò)的方法。對于給定輸入Xs,計算該輸入與NETi對應(yīng)樣本中心的距離測度di,與輸入距離測度小的子網(wǎng)絡(luò)更適合處理該輸入。其做法是設(shè)定一閾值K,若di≤K,則NETi被選擇,否則,NETi被剔除。文獻(xiàn)[9]提出了一種首先用遺傳算法優(yōu)化權(quán)重,然后剔除對權(quán)重小于某一閾值的子網(wǎng)絡(luò)。相比文獻(xiàn)[4-5]的方法,文獻(xiàn)[8-9]的方法更為靈活,但文獻(xiàn)[8-9]的方法需要憑經(jīng)驗確定閾值K,K值選擇不合理,會引入差的子網(wǎng)絡(luò)或剔除好的子網(wǎng)絡(luò),從而達(dá)不到通過集成處理提高性能的目的。此外,對于不同的輸入,文獻(xiàn)[8-9]中閾值K是固定的,使得神經(jīng)網(wǎng)絡(luò)對不同輸入的適應(yīng)能力較差。
針對上述問題,筆者提出了一種基于距離測度和模糊決策的子網(wǎng)絡(luò)選擇方法,該方法不需要確定閾值,并且子網(wǎng)絡(luò)選擇具有較強(qiáng)的自適應(yīng)能力。
設(shè)V={V1, …,VP}為樣本分類中心,令
di=‖Xs-Vi‖/dai
(2)
其中,
(3)
式中:dai——第i個樣本子空間的樣本平均距離;di——輸入Xs對NETi的相對距離測度;Ni——第i個樣本子集的樣本數(shù)。
顯然,對于輸入Xs,相對距離小的子網(wǎng)絡(luò)應(yīng)首先被選擇。而相對距離大的子網(wǎng)絡(luò)不僅不能提高網(wǎng)絡(luò)性能,反而會降低網(wǎng)絡(luò)精度,因此,網(wǎng)絡(luò)選擇過程實(shí)質(zhì)是保留相對距離小的子網(wǎng)絡(luò),同時剔除相對距離大的子網(wǎng)絡(luò)。按照這種思想,子網(wǎng)絡(luò)的選擇即轉(zhuǎn)化為輸入對子網(wǎng)絡(luò)的相對距離判別問題。
首先將Xs對所有子網(wǎng)絡(luò)的相對距離測度按照下式進(jìn)行歸一化處理:
(4)
其中,ui∈[0 1], ∑ui=1。
令相對距離測度的模糊集A={很小(VS),小(S),中等(M),大(B) }。ui對A的模糊隸屬函數(shù)曲線如圖3所示。
圖3 ui的隸屬度曲線(P=4)
ui的大小可以反映輸入Xs與NETi的距離。若ui∈{VS},則說明Xs距離NETi很近,則子網(wǎng)絡(luò)NETi應(yīng)該被選擇用于處理Xs;若ui∈{B},則說明Xs距離NETi很遠(yuǎn),則對于Xs來說子網(wǎng)絡(luò)NETi應(yīng)該被剔除。子網(wǎng)絡(luò)選擇的算法如下:
Step1: 對于輸入Xs,通過式(2)~(4)計算輸入Xs對相應(yīng)子網(wǎng)絡(luò)的ui值。
Step2: 根據(jù)圖3所示的隸屬函數(shù)曲線,計算ui相對于A各模糊子集的隸屬度。
Step3: 通過最大隸屬度法判斷ui屬于哪個模糊子集,然后按照從VS到B的順序選擇屬于同一集合的子網(wǎng)絡(luò)進(jìn)行集成。
Step3中,首先選擇ui∈{VS}的子網(wǎng)絡(luò)進(jìn)行集成,其余的子網(wǎng)絡(luò)均被舍棄。若ui∈{VS}的子網(wǎng)絡(luò)不存在,則選擇ui∈{S}的子網(wǎng)絡(luò),否則選擇ui∈{M}的子網(wǎng)絡(luò)。
設(shè)置隸屬函數(shù)中模糊子集{VS,S,M,B}的中心點(diǎn)分別為1/(4P), 1/(2P), 1/P, 2/P,并且滿足:ui<1/(4P),ui∈{VS}的隸屬度為1;ui> 2/P,ui∈{B}的隸屬度為1。由于∑ui=1,因而所有的ui不會同時滿足ui>1/P,即ui∈{VS,S,M}對應(yīng)的子網(wǎng)絡(luò)不會為空集。由于step3中子網(wǎng)絡(luò)的選擇順序為VS到B,所以ui∈{B}的子網(wǎng)絡(luò)不可能被選擇。
對于輸入Xs,設(shè)被選擇的子網(wǎng)絡(luò)為NETks(k=1, …,m),m為被選擇的子網(wǎng)絡(luò)個數(shù)。網(wǎng)絡(luò)的總輸出為
(5)
式中:wk——子網(wǎng)絡(luò)NETks的權(quán)重;yks——NETks對Xs的輸出。權(quán)重確定問題實(shí)質(zhì)上是為被選擇用于信息處理的子網(wǎng)絡(luò)集合選擇一組最佳的值。Zhou等[6,9-10]提出了一種基于遺傳算法的權(quán)重優(yōu)化方法(GASEN),由于遺傳算法尋優(yōu)速度較慢,因而GASEN方法不適合參數(shù)的在線優(yōu)化。此外,由于Xs為在線輸入,其目標(biāo)值未知,因而很難構(gòu)造遺傳算法的適應(yīng)度函數(shù)。王攀等[8]提出了一種基于距離測度的權(quán)重確定方法,這種方法使得與輸入距離近的網(wǎng)絡(luò)獲得更高的權(quán)重。Sun等[2]提出了一種將輸出誤差倒數(shù)作為權(quán)重的方法。這兩種方法本質(zhì)上屬于一種經(jīng)驗方法,無法保證權(quán)重的最優(yōu)性。針對上述方法的不足,筆者提出了一種基于樣本空間重構(gòu)的權(quán)重優(yōu)化方法。
對于輸入樣本空間,若兩個樣本的距離越近,則這兩個樣本的相似性越強(qiáng)。對于輸入Xs,參與信息處理子網(wǎng)絡(luò)為NETks(k=1, …,m),則用該子網(wǎng)絡(luò)集合對于Xs的某一微小鄰域的輸入進(jìn)行處理也是合適的。
設(shè)δ為Xs的一個微小的鄰域,其包含的樣本為{X1, …,XK},相應(yīng)目標(biāo)值為{t1, …,tK},K為δ鄰域包含的樣本數(shù),所有樣本均滿足:
‖Xi-Xs‖≤δ。
由于δ很小,因此該K個樣本均可由NETks(k=1, …,m)處理。將δ空間中的樣本輸入到神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)泛化誤差為
(6)
其中,Yj為神經(jīng)網(wǎng)絡(luò)對Xj的輸出:
顯然,權(quán)重向量w的選擇應(yīng)使式(6)最小化。因此,上述問題可以用一個約束優(yōu)化模型描述:
minJ(J=MSE)
(7)
由于δ鄰域中樣本的目標(biāo)值tj是已知的,因而權(quán)重的確定問題轉(zhuǎn)化成一個如式(7)約束優(yōu)化問題,其未知數(shù)為w=[w1, …,wm]T。該問題可以用動態(tài)規(guī)劃的方法求解。
上述方法通過重構(gòu)一個Xs的鄰域δ,通過δ鄰域內(nèi)已經(jīng)學(xué)習(xí)過的樣本信息將權(quán)重優(yōu)化問題轉(zhuǎn)換成了一個約束優(yōu)化問題。但是,當(dāng)樣本點(diǎn)較為稀疏或δ鄰域過小時,可能會出現(xiàn)K=0的情況(δ鄰域內(nèi)不包含樣本點(diǎn)),此時w不能用式(7)所表示的模型優(yōu)化。出現(xiàn)這種情況時,w可以采用文獻(xiàn)[8]的方法確定。在實(shí)際應(yīng)用中,可以人為給定一個樣本個數(shù)最小值KF,當(dāng)K≤KF時,子網(wǎng)絡(luò)的w由下式確定:
(8)
式(8)賦予與輸入距離小的子網(wǎng)絡(luò)以較大的權(quán)重。
首先以一維“SinC”函數(shù)(二維Mexican Hat)[9-10]逼近為例對網(wǎng)絡(luò)的逼近能力進(jìn)行研究,“SinC”函數(shù)表達(dá)式為
其中,x∈[-10, 10],在區(qū)間[-10, 10]內(nèi)隨機(jī)產(chǎn)生1000個訓(xùn)練樣本和200個測試樣本,樣本中不含噪聲。取P=5(子網(wǎng)絡(luò)采用BP網(wǎng)絡(luò),為方便起見,每個子網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)取為相同),采用Fuzzy C-means技術(shù)將1000個樣本分為10組,各組樣本之間存在一定程度的交疊。分別采用SM1(只選取一個子網(wǎng)絡(luò)參與信息處理)、SM2(選擇與輸入相鄰的所有子網(wǎng)絡(luò)參與信息的處理)、SM3(筆者提出的子網(wǎng)絡(luò)選擇方法及權(quán)重確定方法)、SM4(文獻(xiàn)[8]提出的基于距離測度和閾值選擇子網(wǎng)絡(luò)和確定子網(wǎng)絡(luò)權(quán)重的方法)進(jìn)行逼近性能測試。SM3方法的擬合曲線如圖4所示。
a) 無噪聲
b) 有噪聲
四種網(wǎng)絡(luò)在隱層節(jié)點(diǎn)個數(shù)不同情況下的均方誤差見表1所列。從表1可以看出,在隱層節(jié)點(diǎn)數(shù)較少的情況下,SM1, SM3, SM4方法的逼近精度高于SM2方法,這是由于SM2方法采用局部全集成策略,每個子網(wǎng)絡(luò)都要對相鄰的樣本子空間實(shí)現(xiàn)映射,子網(wǎng)絡(luò)映射范圍較大。當(dāng)隱層節(jié)點(diǎn)數(shù)較少時(子網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)為3),子網(wǎng)絡(luò)映射能力不足,導(dǎo)致SM2的泛化誤差較大。當(dāng)隱層節(jié)點(diǎn)數(shù)與問題復(fù)雜度匹配時(子網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)為4),SM2的泛化誤差明顯減小。而SM1, SM3, SM4方法需要映射的樣本子空間較小,實(shí)現(xiàn)映射所需要的子網(wǎng)絡(luò)結(jié)構(gòu)也較SM2簡單,因而在子網(wǎng)絡(luò)節(jié)點(diǎn)較少的情況下也可以獲得較高的精度。在訓(xùn)練樣本不含噪聲的情況下,四種方法都可以達(dá)到較高的精度,但SM3在獲得較低的泛化誤差同時,還可以使網(wǎng)絡(luò)保持較為簡單的結(jié)構(gòu)。
表1 網(wǎng)絡(luò)的擬合誤差(無噪聲)
由于實(shí)際數(shù)據(jù)往往含有噪聲,為了測試SM3在噪聲下的泛化能力,在所有訓(xùn)練樣本上附加取值范圍為[-0.2, 0.2]的隨機(jī)噪聲。圖4b)為SM3的擬合曲線。幾種網(wǎng)絡(luò)在隱節(jié)點(diǎn)數(shù)不同情況下的擬合均方誤差見表2所列。
表2 網(wǎng)絡(luò)的擬合誤差(有噪聲)
從表2可見,當(dāng)訓(xùn)練樣本含有噪聲時,SM3的泛化誤差明顯小于SM1,這是由于SM3采用了集成學(xué)習(xí)的思想,降低了噪聲的影響。在子網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)較少的情況下,SM3的泛化誤差明顯小于SM2,與SM4相比,SM3的泛化誤差相當(dāng),但是SM4方法的閾值需要經(jīng)過多次測試才能得到較好的結(jié)果,而SM3則避免了此困難,因此,在結(jié)構(gòu)的簡單性、泛化能力及參數(shù)選擇難度上,SM3優(yōu)于其余三種方法。
接下來對SM3處理多維信息的能力進(jìn)行測試,首先選擇三維Mexican Hat函數(shù)(二維“SinC”函數(shù))[11]:
仿真結(jié)果如圖5所示:
SM3擬合的均方誤差為5.132E-5,文獻(xiàn)[11]也采用一種基于遺傳算法的集成方法(GPCMNN)對該函數(shù)進(jìn)行了測試,均方誤差為9.613E-5,所以該方法在泛化能力存在一定優(yōu)勢。
a) 擬合曲面
b) 誤差曲面
進(jìn)一步,對Friedman #1, Friedman #2, Plane 3個人工數(shù)據(jù)集進(jìn)行測試(其中前兩個數(shù)據(jù)集輸入為5維,后一個為2維)。3種人工數(shù)據(jù)集的生成方式見文獻(xiàn)[10],文獻(xiàn)[10]采用了集成神經(jīng)網(wǎng)絡(luò)(ENN)進(jìn)行測試。采取不同集成方法時神經(jīng)網(wǎng)絡(luò)測試均方誤差見表3所列。由表3可見,模塊化網(wǎng)絡(luò)的均方誤差均比文獻(xiàn)[10]的均方誤差要低,說明MNN“分而治之”的思想在解決復(fù)雜回歸問題方面具有一定的優(yōu)勢。而在3組數(shù)據(jù)集實(shí)驗中,SM3的測試誤差最小,說明本文的子網(wǎng)絡(luò)選擇方法和權(quán)重優(yōu)化方法是有優(yōu)勢的。
表3 網(wǎng)絡(luò)的測試誤差
在“分而治之”的基礎(chǔ)上,融合了“集思廣益”的思想,使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大幅簡化的同時,提高了神經(jīng)網(wǎng)絡(luò)的性能。對于給定輸入信息,采用模糊決策的方法實(shí)現(xiàn)處理該信息的子網(wǎng)絡(luò)集合的選擇,避免了人為設(shè)定閾值的困難。通過重構(gòu)輸入信息的鄰域樣本空間,將權(quán)重的優(yōu)化問題轉(zhuǎn)化為一個約束優(yōu)化問題,從而可以使用動態(tài)規(guī)劃等多種方法實(shí)現(xiàn)權(quán)重的優(yōu)化。大量的仿真實(shí)驗表明,筆者提出的MNN集成方法在結(jié)構(gòu)的簡單性、泛化能力、參數(shù)選擇的難度等方面與ENN及其他的模塊化網(wǎng)絡(luò)集成方法相比具有一定的優(yōu)勢。
參考文獻(xiàn):
[1] JACOBS R A, JORDAN M A. Modular Connectionist Architecture for learning Piecewise Control Strategies [C]. America: Proceedings of the American Control Conference. 1991: 343-351.
[2] SUN Jianzhong, ZUO Hongfu, YANG Haibin. Study of Ensemble Learning-Based Fusion Prognostics [C]. Prognostics and Health Management Conference, 2010.
[3] GANGARDIWALA A, POLIKAR R. Dynamically Weighted Majority Voting for Incremental Learning and Comparison of Three Boosting Based Approaches [C].
Canada: Proceedings of International Joint Conference on Neural Networks. 2005.
[4] GAO Daqi. Class-modular Multi-layer Perceptions, Task De-composition and Virtually Balanced Training Subsets [C]. Florida: Proceedings of International Joint Conference on Neural Networks. 2007.
[5] MARIO G C A, WITOLD P, BEATRICE L, et al. Using Multilayer Perceptrons as Receptive Fields in the Design of Neural Networks [J]. Neurocomputing, 2009(72): 2536-2548.
[6] ZHOU Zhihua, WU Jianxin, WEI Tang. Ensembling Neural Networks Many Could be Better Than All [J]. Artificial Intelligence, 2002(137): 239-263.
[7] WITOLD P, GEORGE V. Granular Neural Networks [J]. Neurocomputing, 2001(36): 205-224.
[8] 王攀,李幼鳳.模塊化神經(jīng)網(wǎng)絡(luò)的動態(tài)集成方法研究[J].系統(tǒng)工程與電子技術(shù),2008,30(06): 1143-1147.
[9] ZHOU Zhihua, WU Jianxin, WEI Tang. Combining Regression Estimators: GA-Based Selective Neural Network Ensemble [J]. International Journal of Computational Intelligence and Applications, 2001, 1(04): 341-356.
[10] 王正群,陳世福,陳兆乾.并行學(xué)習(xí)網(wǎng)絡(luò)集成方法[J].計算機(jī)學(xué)報,2005,28(03): 402-408.
[11] 凌衛(wèi)新,鄭啟倫,陳瓊.基于梯度的并行協(xié)作模塊化神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)[J].計算機(jī)學(xué)報,2004,27(09): 1256-1263.