桑慶兵 鄧趙紅 王士同 吳小俊
①(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無錫 214122)
②(江南大學(xué)數(shù)字媒體學(xué)院 無錫 214122)
在目前的建模方法中,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radius-Basis-Function Neural-Network, RBF-NN)建模是有效的方法之一[1?3]。經(jīng)典的RBF-NN模型訓(xùn)練主要是基于最小平方誤差準(zhǔn)則的。該類訓(xùn)練算法存在的一個明顯不足是:對于小樣本數(shù)據(jù)集或存在噪聲的數(shù)據(jù)集,訓(xùn)練容易過擬合,所得RBF-NN泛化能力較差[1,3]。因而,針對此問題探討魯棒的RBFNN訓(xùn)練新算法是一個很有意義的工作。
最經(jīng)典的一類RBF-NN訓(xùn)練學(xué)習(xí)算法是基于梯度下降學(xué)習(xí)策略的。該類算法的缺點是由于學(xué)習(xí)步長選擇的不合理或者由于基于經(jīng)驗風(fēng)險陷入局部極值或過擬合而使受訓(xùn)網(wǎng)絡(luò)的泛化性降低[1,3]。關(guān)于RBF-NN訓(xùn)練學(xué)習(xí)的最新重要研究進(jìn)展是極速學(xué)習(xí)訓(xùn)練方法[4?10],文獻(xiàn)[4,11]指出輸入層權(quán)值和隱層閾值任意選取的包含N個隱結(jié)點的單隱層前饋網(wǎng)絡(luò)(SLFN)能夠以任意小的誤差逼近N個不同的觀測值?;谝陨侠碚?,文獻(xiàn)[4]針對單隱層神經(jīng)網(wǎng)絡(luò)提出了極速學(xué)習(xí)機(Extreme Learning Machine, ELM)算法,并進(jìn)一步提出了各種改進(jìn)的極速學(xué)習(xí)算法。ELM算法與常規(guī)的梯度下降學(xué)習(xí)算法相比,簡單快速,在獲得小的訓(xùn)練誤差的同時,能獲得較好的泛化能力。但是,針對小樣本數(shù)據(jù)集和噪聲,ELM算法依然魯棒性較差,容易導(dǎo)致過擬合問題。
針對經(jīng)典學(xué)習(xí)方法對小樣本數(shù)據(jù)集和噪聲數(shù)據(jù)容易過擬合而使得受訓(xùn)RBF-NN泛化能力較差的問題,本文通過引入e-不敏感學(xué)習(xí)度量[2,12?16]和結(jié)構(gòu)風(fēng)險項[2,13,15]來構(gòu)造新的目標(biāo)函數(shù),并把提出的新目標(biāo)函數(shù)求解轉(zhuǎn)化為經(jīng)典的二次規(guī)劃問題。本文提出的方法由于引入了不敏感學(xué)習(xí)度量和結(jié)構(gòu)風(fēng)險項,能有效地克服經(jīng)典訓(xùn)練算法針對小數(shù)據(jù)集容易過擬合和對噪音敏感之缺陷,顯示出了較好的魯棒性。在模擬和真實數(shù)據(jù)集上的試驗亦證實了上述優(yōu)點。
經(jīng)典的徑向基神經(jīng)網(wǎng)絡(luò)模型如圖1所示[4]。徑向基網(wǎng)絡(luò)能完成非線性映射f:Rd→R1,其數(shù)學(xué)表達(dá)式為
圖1 RBF神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
其中di為寬度值。
上述的徑向基神經(jīng)網(wǎng)絡(luò)模型中,要學(xué)習(xí)的參數(shù)有3種,即隱層中心點,隱層徑向基函數(shù)寬度值di,隱層和輸出層的連接權(quán)值wi。對于徑向基神經(jīng)網(wǎng)絡(luò)的各參數(shù),最經(jīng)典的一類訓(xùn)練學(xué)習(xí)算法是基于梯度下降學(xué)習(xí)策略的。但該類算法由于基于經(jīng)驗風(fēng)險易于陷入局部極值或過擬合從而使受訓(xùn)網(wǎng)絡(luò)泛化能力降低,而且此類算法由于是迭代算法,常具有很高的時間復(fù)雜度。另一類近年來較受關(guān)注的算法是極速學(xué)習(xí)機(ELM)算法。ELM算法與梯度下降學(xué)習(xí)算法相比,簡單快速,在獲得小的訓(xùn)練誤差的同時,能獲得較好的泛化能力。但是,針對小樣本數(shù)據(jù)集和噪聲,ELM依然魯棒性較差,容易導(dǎo)致過擬合問題。針對此挑戰(zhàn),在后面一節(jié),本研究將探討一種魯棒的基于不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法。
對于徑向基神經(jīng)網(wǎng)絡(luò)的隱層中心點參數(shù)ci=和寬度參數(shù)di,一種常用的估計方法是聚類法。例如,利用模糊C均值(FCM)聚類技術(shù),可利用下式來估計。
這里ujk表示 FCM 聚類方法得到的樣本xj=對于第i類的模糊隸屬度[1,3];參數(shù)h是一個可調(diào)的縮放參數(shù)。
對于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),一旦隱層參數(shù)被估計,那么令
此時式(1)所示的徑向基網(wǎng)絡(luò)映射函數(shù)可表示為
由式(6)可知,當(dāng)徑向基網(wǎng)絡(luò)的隱層節(jié)點被估計后,網(wǎng)絡(luò)的輸出可表示為一個線性模型的輸出,此時網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)轉(zhuǎn)化為線性模型之參數(shù)學(xué)習(xí)問題?;诖司€性模型,本文通過引入e-不敏感誤差準(zhǔn)則和結(jié)構(gòu)風(fēng)險來構(gòu)建新的徑向基網(wǎng)絡(luò)學(xué)習(xí)算法。
徑向基神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,常采用式(7)所示的最小平方差誤差準(zhǔn)則[1,3]:
一般情況下,利用此準(zhǔn)則能取得較好的效果。基于最小平方差誤差準(zhǔn)則的經(jīng)典RBF-NN訓(xùn)練算法有基于梯度學(xué)習(xí)的方法[1,3]和極速學(xué)習(xí)方法[4?10]。但當(dāng)數(shù)據(jù)樣本較少且噪音較大時,此準(zhǔn)則學(xué)習(xí)得到的網(wǎng)絡(luò)對噪音較敏感,容易過擬合?;诖瞬蛔悖疚囊肓瞬幻舾姓`差度量來設(shè)計新的徑向基網(wǎng)絡(luò)訓(xùn)練準(zhǔn)則函數(shù)來增強網(wǎng)絡(luò)的魯棒性。
給定標(biāo)量g和向量, 相應(yīng)的e-不敏感損失分別具有式(8),式(9)所示的形式[12?16]:
對于式(6)所示的線性模型,其對應(yīng)的e-不敏感損失誤差準(zhǔn)則可定義如下:
利用式(11),式(10)所示的準(zhǔn)則函數(shù)可等價地表示為
進(jìn)一步地,參照支撐向量機等核方法[2],引入結(jié)構(gòu)風(fēng)險正則化項,式(12)可改進(jìn)為
結(jié)構(gòu)風(fēng)險思想的引入,可進(jìn)一步使得新算法像許多核方法一樣,在小樣本訓(xùn)練集環(huán)境下,所受訓(xùn)得到的網(wǎng)絡(luò)具有較好的泛化能力,有效地避免過擬合問題。這里t>0用來平衡經(jīng)驗誤差項和表示結(jié)構(gòu)風(fēng)險的正則化項的影響。
在式(13)中有兩個參數(shù)需要給定,即t,e需要給定。如何確定其最優(yōu)值,目前還沒有理論的解析公式可用。實際應(yīng)用中,一個簡單有效的策略是利用交叉驗證法在某個參數(shù)集中來確定最優(yōu)值。特別地,這里對不敏感參數(shù)e給出如下說明:該參數(shù)類似于支撐向量回歸(SVR)方法中的不敏感參數(shù)e。SVR中該參數(shù)的理論研究表明[17,18]:該參數(shù)的最優(yōu)值和數(shù)據(jù)中的噪聲的方差呈現(xiàn)近似正比的關(guān)系,即噪聲越大,該參數(shù)通常需采用較大的值來獲得好的訓(xùn)練效果。在試驗部分4.2節(jié),我們對此結(jié)論給出了相關(guān)的實驗驗證。
特別地,對于式(13),利用拉格朗日優(yōu)化可得到其對偶問題(證明略):
根據(jù)對偶理論,利用式(14)得到的最優(yōu)解λ??,λ+?,可得到式(13)對應(yīng)的最優(yōu)解為
根據(jù)上面推導(dǎo)和分析可以看出:通過引入e-不敏感誤差準(zhǔn)則和結(jié)構(gòu)風(fēng)險項,RBF網(wǎng)絡(luò)訓(xùn)練可以視為一個二次規(guī)劃優(yōu)化問題。因而已有的各種二次規(guī)劃算法可以直接用來對RBF-NN 進(jìn)行訓(xùn)練。
基于如上分析,容易給出基于e-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的RBF-NN訓(xùn)練新算法,如表1所示。
表1 基于ε-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法
本節(jié)對提出的新RBF-NN訓(xùn)練算法(表示為e-RBF)進(jìn)行了試驗測試。為了有效地評估算法性能,本文提出的算法和經(jīng)典的基于平方誤差準(zhǔn)則的梯度學(xué)習(xí)算法(表示為LS-RBF)和極速學(xué)習(xí)算法(ELM)進(jìn)行了比較。試驗安排如下:(1)4.1節(jié)利用模擬數(shù)據(jù)集對算法性能進(jìn)行了測試。(2)4.2節(jié)利用真實的煤氣爐建模數(shù)據(jù)集對算法性能進(jìn)行了測試。試驗中,利用訓(xùn)練集采用了5倍交叉驗證策略在集合中分別確定參數(shù)t,e的合適取值。
為有效評估該算法性能,采用了如下性能指標(biāo):
這里N是測試樣本集的尺度;yi是第i個測試樣本的采樣輸出,是第i個樣本對應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出,并且。J越小,表示建模(泛化)性能越好。
為了充分測試各算法對于噪聲數(shù)據(jù)的魯棒性,試驗中對訓(xùn)練數(shù)據(jù)集加入了不同程度的高斯白噪聲來進(jìn)行魯棒性測試。
本試驗所用的數(shù)據(jù)集采樣于如下的sinc函數(shù)[1]:
N( 0,s)表示均值為0,標(biāo)準(zhǔn)差為s的白噪聲。利用式(17)產(chǎn)生包含200個數(shù)據(jù)的訓(xùn)練集,同時產(chǎn)生一個包含1000個數(shù)據(jù)且不含噪聲的測試集。利用訓(xùn)練集來進(jìn)行訓(xùn)練,然后利用測試集進(jìn)行測試。上述過程重復(fù)10次,得到的平均測試結(jié)果來評價算法的性能。
圖2和表2示出了噪音環(huán)境下3種算法在sinc數(shù)據(jù)集上的試驗結(jié)果。從圖 2和表 2,我們可得出如下的觀察結(jié)果:
(1)當(dāng)噪聲較小時,幾種不同方法展現(xiàn)出了可比較的泛化性能。
(2)隨著噪聲程度的增加,幾種不同方法的泛化能力都逐步下降。
(3)在幾種方法中,提出的基于e-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的新訓(xùn)練算法隨著噪聲的增加,泛化能力減弱的程度最小。特別是當(dāng)噪聲程度較大時,其泛化能力明顯優(yōu)于其它兩種方法。
根據(jù)如上觀察結(jié)果可知,針對該模擬數(shù)據(jù)提出的新算法在噪聲環(huán)境下展現(xiàn)出了更好的適應(yīng)能力。
本試驗研究了 Box-Jenkins(B-J)煤氣爐建模問題[19,20]。煤氣爐控制輸入u(k)表示氣體進(jìn)入熔爐的量,輸出y(k)表示煤氣爐中CO2的輸出量,數(shù)據(jù)樣本每隔9 s采樣一次,共得到296組輸入輸出樣本對。根據(jù)文獻(xiàn)[1]中的方法,試驗中選擇u(k? 3)和y(k?1)作為輸入變量,y(k)作為輸出量重新構(gòu)造數(shù)據(jù)集,得到290個有效數(shù)據(jù)對。把數(shù)據(jù)集隨機分為訓(xùn)練集和測試集兩部分,其中訓(xùn)練集和測試集尺寸分別為 145。對訓(xùn)練數(shù)據(jù)集加不同程度的噪聲并利用訓(xùn)練集來進(jìn)行訓(xùn)練,然后利用測試集進(jìn)行測試。上述過程重復(fù)10次,得到的平均試驗結(jié)果如圖3和表3所示。正如同前一試驗得到的觀察結(jié)果,從圖3和表3同樣可以看出類似的實驗效果:(1)采用不同數(shù)目的隱節(jié)點,提出的新訓(xùn)練算法在噪聲較小時,展現(xiàn)了與經(jīng)典的方法可比較的性能;(2)但當(dāng)噪聲加大時,提出的新算法展現(xiàn)了更好的魯棒性,泛化性能明顯優(yōu)于其它兩種經(jīng)典算法。因而,在煤氣爐真實數(shù)據(jù)集的試驗結(jié)果表明,本文提出的基于e-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的RBF-NN訓(xùn)練算法,較之于經(jīng)典的訓(xùn)練算法在噪聲環(huán)境下展現(xiàn)出了更有希望的性能。
圖2 采用不同數(shù)目隱節(jié)點時3種方法在sinc數(shù)據(jù)集上得到的的平均性能比較
表2 采用不同數(shù)目隱節(jié)點時3種方法在sinc數(shù)據(jù)集上得到的的平均性能比較
圖3 采用不同數(shù)目隱節(jié)點時3種方法在煤氣爐建模數(shù)據(jù)集上得到的的平均性能比較
表3 采用不同數(shù)目隱節(jié)點時3種方法在煤氣爐建模數(shù)據(jù)集上得到的的平均性能比較
正如3.3節(jié)所述,文獻(xiàn)[17,18]表明不敏感參數(shù)e的合適取值和噪聲有一定的正比關(guān)系。這里我們利用實驗進(jìn)行簡單驗證。表4給出了實驗中得到的最優(yōu)不敏感參數(shù)e和噪聲標(biāo)準(zhǔn)差s之間的關(guān)系。從表中我們?nèi)菀卓闯?,隨著噪聲的增加,最優(yōu)的e取值也逐漸增加,即它們之間呈現(xiàn)近似的正比關(guān)系。值得指出的是,這里我們僅給出了簡單的實驗驗證結(jié)果,如何從理論上證明上述結(jié)論是一個較復(fù)雜的工作,這需要借鑒文獻(xiàn)[19,20]的相關(guān)研究思路來進(jìn)行嚴(yán)格的數(shù)學(xué)分析,未來的工作中我們將對此作深入探討。
表4 最優(yōu)的不敏感參數(shù)ε和噪聲之間σ的關(guān)系
本文通過引入e-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險,把RBF-NN訓(xùn)練轉(zhuǎn)化為線性回歸問題,進(jìn)而轉(zhuǎn)化為經(jīng)典的二次規(guī)劃優(yōu)化問題,提出了一種新的徑向基神經(jīng)網(wǎng)絡(luò)建模方法。通過模擬和真實數(shù)據(jù)集進(jìn)行仿真試驗,提出的算法較之于傳統(tǒng)的基于最小平方誤差準(zhǔn)則的算法對噪聲數(shù)據(jù)集顯示出了更魯棒的性能。進(jìn)一步地,基于計算智能研究方面的最新進(jìn)展,提出適宜于大規(guī)模數(shù)據(jù)集的基于e-不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險的徑向基神經(jīng)網(wǎng)絡(luò)快速訓(xùn)練算法值得探討,未來的工作中,我們將對此進(jìn)行深入研究。
[1] Jang J S R, Sun C T, and Mizutani E. Neuro-Fuzzy and Soft-Computing. Upper Saddle River, NJ, Prentice-Hall, 1997:125-134.
[2] Vapnik V. Statistical Learning Theory. New York: Wiley,1998: 256-396.
[3] 王士同, 等. 神經(jīng)模糊系統(tǒng)及其應(yīng)用. 北京: 北京航空航天大學(xué)出版社, 1998: 198-224.Wang S T,et al.. Neural Fuzzy System and Its Application.Beijing: Beijing University of Aeronautics and Astronautics,1998: 198-224.
[4] Huang G B, Zhu Q Y, and Siew C K. Extreme Learning Machine: Theory and Applications.Neurocomputing, 2006,70(1-3): 489-501.
[5] Cao J W, Lin Z P, and Huang G B. Composite function wavelet neural networks with differential evolution and extreme learning machine.Neural Processing Letters, 2011,33(3): 251-265.
[6] Huang G B and Wang D H. Advances in extreme learning machines (ELM2010).Neurocomputing, 2011, 74(16): 2411-2412.
[7] Lan Y, Soh Y C, and Huang G B. Two-stage extreme learning machine for regression.Neurocomputing, 2010, 73(16-18):3028-3038.
[8] Lan Y, Soh Y C, and Huang G B. Constructive hidden nodes selection of extreme learning machine for regression.Neurocomputing, 2010, 73(16-18): 3191-3199.
[9] Cao J W, Lin Z P, and Huang G B. Composite function wavelet neural networks with extreme learning machine.Neurocomputing, 2010, 73(7-9): 1405-1416.
[10] Huang Guang-bin, Ding Xiao-jian, and Zhou Hong-ming.Optimization method based extreme learning machine for classification.Neurocomputing, 2011, 74(1-3): 155-163.
[11] Huang G B. Learning capability and storage capacity of two-hidden-layer feed-forward networks.IEEE Transactions on Neural Networks, 2003, 14(2): 274-281.
[12] Leski J. Towards a robust fuzzy clustering.Fuzzy Sets and Systems, 2003, 12(2): 215-233.
[13] Leski J. TSK-fuzzy modeling based one-insensitive learning.IEEE Transactions on Fuzzy Systems, 2005, 13(2):181-193.
[14] 鄧趙紅, 王士同. 魯棒的模糊聚類神經(jīng)網(wǎng)絡(luò). 軟件學(xué)報, 2005,16(8): 1415-1422.Deng Z H and Wang S T. Robust fuzzy clustering neural networks.Journal of Software, 2005, 16(8): 1415-1422.
[15] Deng Z H, Choi K S, Chung F L,et al.. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation.IEEE Transactions on Fuzzy Systems, 2010,18(2): 210-226.
[16] Deng Z H, Choi K S, Chung F L,et al.. Enhanced soft subspace clustering integrating within-cluster and betweencluster information.Pattern Recognition, 2010, 43(3):767-781.
[17] Kwok J T and Tsang I W. Linear dependency between epsilon and the input noise in epsilon-support vector regression.IEEE Transactions on Neural Networks, 2003,14(3): 544-553.
[18] Wang S T, Zhu J G, Chung F L,et al.. Theoretically optimal parameter choices for support vector regression machines with noisy input.Soft Computing, 2005, 9(10): 732-741.
[19] Box G E P and Jenkins G. M. Time Series Analysis,Forecasting and Control. 2nd Ed, San Francisco, CA, Holden Day, 1976: 355-390.
[20] Chung F L, Deng Z H, and Wang S T. From minimum enclosing ball to fast fuzzy inference system training on large datasets.IEEE Transactions on Fuzzy Systems, 2009, 17(1):173-184.