許敏,史熒中,葛洪偉,黃能耿
(1. 江南大學(xué) 物聯(lián)網(wǎng)技術(shù)學(xué)院,江蘇 無錫 214122; 2. 無錫職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)技術(shù)學(xué)院,江蘇 無錫 214121)
1985年,Powell提出多變量插值的徑向基函數(shù)(radical basic function, RBF)方法。1988年,Moody和Darken[1]提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即RBF神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù),非線性擬合能力強(qiáng),具有很強(qiáng)的魯棒性,因此應(yīng)用廣泛,如海洋表面溫度預(yù)測[2]、網(wǎng)絡(luò)安全態(tài)勢預(yù)測[3]、智能輪椅自適應(yīng)控制[4]、失業(yè)率預(yù)測[5]、電力系統(tǒng)的可用輸電能力在線估計(jì)[6]、在線惡意垃圾郵件檢測[7]等。隨著應(yīng)用范圍的推廣,研究者們發(fā)現(xiàn)RBF神經(jīng)網(wǎng)絡(luò)仍存在一些不足,制約其進(jìn)一步的發(fā)展和應(yīng)用,故許多專家學(xué)者提出了一些改進(jìn)算法,如有學(xué)者提出對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行優(yōu)化,相關(guān)學(xué)習(xí)算法主要有兩大類:1)先構(gòu)造復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),再通過訓(xùn)練精簡網(wǎng)絡(luò)結(jié)構(gòu),如韓敏等[8]提出了一種改進(jìn)的RAN算法,該方法采用樣本的輸入輸出信息對網(wǎng)絡(luò)進(jìn)行初始化,再根據(jù)FPE剪枝策略對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行簡化;2)先采用精簡的網(wǎng)絡(luò)結(jié)構(gòu),再通過訓(xùn)練增大網(wǎng)絡(luò)規(guī)模,直至達(dá)到泛化要求,如Platt等[9]提出了一種資源分配網(wǎng)絡(luò),該方法首先創(chuàng)建一個(gè)精簡網(wǎng)絡(luò),當(dāng)網(wǎng)絡(luò)出現(xiàn)異常模式時(shí),通過分配新單元和修改已有單元參數(shù)來進(jìn)行學(xué)習(xí),直至網(wǎng)絡(luò)穩(wěn)定?;诰垲惖腞BF神經(jīng)網(wǎng)絡(luò)隱含層數(shù)據(jù)中心一般通過K-means聚類算法獲得,故有學(xué)者提出對該聚類方法進(jìn)行優(yōu)化以提高算法泛化性能[10-12]。此外,還有一些學(xué)者研究各種基于進(jìn)化算法的RBF神經(jīng)網(wǎng)絡(luò)[13-15]。如Lacerda等[13]提出使用遺傳算法優(yōu)化學(xué)習(xí)參數(shù);Shekhar等[14]提出使用模擬退火算法確定神經(jīng)網(wǎng)絡(luò)的連接權(quán)值;Alexandridis等[15]提出使用粒子群算法和模糊均值法確定隱含層的中心,改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu)等。
從上述文獻(xiàn)綜述可以發(fā)現(xiàn),以往的研究主要圍繞RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)計(jì)展開,所解決問題的場景是采集到的數(shù)據(jù)能反映數(shù)據(jù)集的分布情況,但在實(shí)際應(yīng)用中,信息采集器或傳感器設(shè)備可能會出現(xiàn)故障,導(dǎo)致采集到的數(shù)據(jù)不完整。訓(xùn)練樣本不完整,或多或少都會影響RBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率,使網(wǎng)絡(luò)的推廣能力變差。訓(xùn)練樣本反映數(shù)據(jù)集總體分布的程度對算法的泛化性能有著重要的影響。到目前為止,樣本數(shù)量和質(zhì)量對RBF神經(jīng)網(wǎng)絡(luò)算法泛化性能影響方面的研究還不多。針對上述問題,本文將遷移學(xué)習(xí)思想引入RBF神經(jīng)網(wǎng)絡(luò),提出已標(biāo)簽樣本少時(shí)的RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。所謂遷移學(xué)習(xí),就是學(xué)習(xí)已有的源領(lǐng)域知識來解決目標(biāo)領(lǐng)域中已標(biāo)簽樣本數(shù)量較少甚至沒有的學(xué)習(xí)問題[16-17]。該思想已廣泛應(yīng)用于分類、回歸、概率密度估計(jì)等各類機(jī)器學(xué)習(xí)領(lǐng)域。本文在文獻(xiàn)[18]提出的RBF算法的基礎(chǔ)上,提出了具有遷移學(xué)習(xí)能力的RBF神經(jīng)網(wǎng)絡(luò) (ε-RBF with transfer learning ability,TLRBF)算法,通過引入不敏感損失函數(shù)和學(xué)習(xí)源領(lǐng)域徑向基函數(shù)的中心向量及核寬和源領(lǐng)域模型參數(shù),幫助目標(biāo)領(lǐng)域建立模型。
RBF神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,由圖1所示。其中,,,隱含層節(jié)點(diǎn)數(shù)為M,RBF神經(jīng)網(wǎng)絡(luò)完成的非線性映射。
圖1 RBF神經(jīng)網(wǎng)絡(luò)模型Fig. 1 The model of RBF neural network
在RBF神經(jīng)網(wǎng)絡(luò)中,輸入層接收訓(xùn)練樣本;隱含層節(jié)點(diǎn)通過徑向基函數(shù)執(zhí)行一種非線性變化,將輸入空間映射到一個(gè)新的空間,若該徑向基函數(shù)定義為高斯函數(shù),設(shè)表示高斯函數(shù)的中心,表示高斯函數(shù)的核寬,該函數(shù)可表示為
由第1節(jié)介紹可知,RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)有3個(gè),徑向基函數(shù)的中心向量,核寬和隱含層與輸出層的連接權(quán)值。其中,、可利用模糊C均值(FCM)聚類技術(shù)確定,參數(shù)利用梯度下降學(xué)習(xí)算法獲得。設(shè)表示FCM聚類算法得到的樣本對于第i類的模糊隸屬度,是可調(diào)縮放參數(shù),n表示訓(xùn)練樣本規(guī)模,M表示隱含層節(jié)點(diǎn)數(shù),徑向基函數(shù)的中心和核寬可由式(3)表示:
由式(5)可知,當(dāng)徑向基函數(shù)隱含層被估計(jì)后,網(wǎng)絡(luò)的輸出可轉(zhuǎn)換成一個(gè)線性模型。
圖2 TLRBF算法思路Fig. 2 The idea of theTLRBF algorithm
下面具體介紹算法的實(shí)現(xiàn)。
接著,加入結(jié)構(gòu)化風(fēng)險(xiǎn)項(xiàng)。支持向量機(jī)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的一種實(shí)現(xiàn),學(xué)習(xí)支持向量機(jī)的實(shí)現(xiàn)方法,引入正則化項(xiàng),使算法結(jié)構(gòu)風(fēng)險(xiǎn)最小,故式(9)加入結(jié)構(gòu)化風(fēng)險(xiǎn)項(xiàng)后可用式(10)表示:
最后,為了使本文提出算法具有遷移學(xué)習(xí)能力,在學(xué)習(xí)源領(lǐng)域徑向基函數(shù)的中?心向量?和核寬后,加入學(xué)習(xí)源領(lǐng)域模型參數(shù)項(xiàng),故最終,所求解的問題可表示為
引入拉格朗日乘子,構(gòu)造出式(11)的拉格朗日函數(shù):
式(12)相應(yīng)的對偶問題形式為
利用式(13)得到最優(yōu)解:
1) 學(xué)習(xí)源領(lǐng)域徑向基函數(shù)中心向量和核寬,確定hg值,帶入式(6),得目標(biāo)領(lǐng)域高斯函數(shù)中心向量 cgi和核寬 δgi;
2) 將目標(biāo)領(lǐng)域高斯核中心向量cgi和核寬δgi帶入式(1)得;
3) 求解式(13)對應(yīng)的二次規(guī)劃問題;
4) 利用式(13)求得的二次規(guī)劃最優(yōu)解,根據(jù)式(14)求得隱含層和輸出層之間的權(quán)值;
上述算法參數(shù)設(shè)置除高斯函數(shù)核寬中的可調(diào)參數(shù)hg外,還有式(13)需設(shè)置的3個(gè)參數(shù),分別是、、,確定參數(shù)的方法是網(wǎng)格搜索策略,5重交叉驗(yàn)證獲得。
本節(jié)利用模擬數(shù)據(jù)集和在谷氨酸發(fā)酵過程中采集的真實(shí)數(shù)據(jù)集對本文所提算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。在4.2節(jié)和4.3節(jié)分別描述模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的構(gòu)成及實(shí)驗(yàn)結(jié)果分析。為了突顯本文所提算法的優(yōu)勢,兩組實(shí)驗(yàn)在3個(gè)場景下進(jìn)行,場景1為目標(biāo)域數(shù)據(jù)集RBF神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練;場景2為源領(lǐng)域歷史數(shù)據(jù)集和目標(biāo)領(lǐng)域當(dāng)前數(shù)據(jù)集RBF神經(jīng)網(wǎng)絡(luò)算法合并訓(xùn)練;場景3為加入源領(lǐng)域歷史知識的目標(biāo)領(lǐng)域數(shù)據(jù)集遷移學(xué)習(xí)訓(xùn)練。
為了有效評估算法的性能,采用如下性能指標(biāo)[18]:
式中:N表示測試樣本規(guī)模,yi表示第i個(gè)樣本的采樣輸出,表示第i個(gè)樣本的徑向基神經(jīng)網(wǎng)絡(luò)輸出。
在已標(biāo)簽數(shù)據(jù)較少而導(dǎo)致RBF神經(jīng)網(wǎng)絡(luò)預(yù)測精度降低的前提下,驗(yàn)證本文所提算法可通過學(xué)習(xí)相關(guān)歷史領(lǐng)域知識提高預(yù)測精度。所設(shè)計(jì)的模擬數(shù)據(jù)集符合以下兩個(gè)原則:1)當(dāng)前數(shù)據(jù)集和歷史數(shù)據(jù)集既存在相關(guān)性,又有自己的數(shù)據(jù)分布特點(diǎn);2)當(dāng)前目標(biāo)域數(shù)據(jù)集已標(biāo)簽樣本較少,無法反映出數(shù)據(jù)集的整體分布情況。
圖3 目標(biāo)域場景函數(shù)和源域場景函數(shù)Fig. 3 Target domain functions and source domain functions
表 1 各種算法在模擬數(shù)據(jù)集上的泛化性能比較Table 1 Comparison of generalization performance of various algorithms on artificial data sets
圖4 相關(guān)系數(shù)為0.75時(shí),各算法性能Fig. 4 The performance of each algorithm on r is 0.75
由表1和圖4可以得出如下結(jié)論:
1) 觀察表1和圖1(a)可知,若直接使用源域模型對目標(biāo)領(lǐng)域測試集進(jìn)行預(yù)測,目標(biāo)領(lǐng)域和源領(lǐng)域差異由r為0.9時(shí)的0.106 1增大到r為0.65時(shí)的0.521 9。隨著r系數(shù)的減小,源領(lǐng)域與目標(biāo)域數(shù)據(jù)分布差異增大,誤差增幅明顯。
2) 目標(biāo)域數(shù)據(jù)集規(guī)模較小,存在某些數(shù)據(jù)段缺失的現(xiàn)象,不能反映目標(biāo)域數(shù)據(jù)集的整體分布,如圖4(b)所示。傳統(tǒng)RBF神經(jīng)網(wǎng)絡(luò)算法可以對當(dāng)前采樣數(shù)據(jù)集逼近,但無法對缺失的地方進(jìn)行彌補(bǔ),導(dǎo)致僅用目標(biāo)域數(shù)據(jù)集進(jìn)行訓(xùn)練泛化性能不高,如表1和圖4(b)所示。
3) 將源領(lǐng)域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集合并訓(xùn)練,算法性能較僅用源領(lǐng)域進(jìn)行訓(xùn)練并沒有明顯提高,如表1和圖4(c)所示。其原因是源領(lǐng)域數(shù)據(jù)集對目標(biāo)領(lǐng)域數(shù)據(jù)集來說,規(guī)模很小,其對于建模的影響作為可容忍噪聲忽略了。此外,一些高度機(jī)密的源領(lǐng)域歷史數(shù)據(jù)集很難獲取,合并訓(xùn)練并不一定能實(shí)現(xiàn)。
4) 從表1和圖4(d)可知,基于歷史知識的遷移學(xué)習(xí)算法具有較好的性能。和僅用目標(biāo)領(lǐng)域數(shù)據(jù)集訓(xùn)練相比,缺失的部分通過歷史知識的學(xué)習(xí)加以彌補(bǔ),提高了泛化性能;和源領(lǐng)域及目標(biāo)領(lǐng)域數(shù)據(jù)集合并訓(xùn)練相比,不僅提高了精度,且因?yàn)閷W(xué)習(xí)的是知識,而不是所有歷史數(shù)據(jù)集參與訓(xùn)練,歷史場景數(shù)據(jù)還具有保密性。
由此,可以得出結(jié)論,本文所提算法解決了RBF-NN算法不具有遷移學(xué)習(xí)能力的問題。
本部分實(shí)驗(yàn)數(shù)據(jù)來自工廠采集到的真實(shí)發(fā)酵數(shù)據(jù)集[19]。該數(shù)據(jù)集記錄了食品發(fā)酵過程中記錄下的21批數(shù)據(jù),每批數(shù)據(jù)有14條記錄,共有294條記錄。該數(shù)據(jù)集記錄了發(fā)酵過程的采樣時(shí)間(h),葡萄糖濃度(Glucose concentration),菌體濃度(Thalli concentration)和谷氨酸濃度(Glutamic acid concentration)。其輸出為下一時(shí)刻的葡萄糖濃度(h+1)、菌體濃度(h+1)和谷氨酸濃度(h+1)。將前1~16批數(shù)據(jù)共224條記錄作為源領(lǐng)域數(shù)據(jù)集;剩余的5批數(shù)據(jù)中,17~19批數(shù)據(jù)42條記錄中,任意選取20條記錄作為目標(biāo)域數(shù)據(jù)集,數(shù)據(jù)集已標(biāo)簽樣本較少,不能反映數(shù)據(jù)集的整體分布情況;20~21批數(shù)據(jù)作為目標(biāo)域測試數(shù)據(jù)集。
觀察圖5和表2,可以得出如下結(jié)論,因目標(biāo)域訓(xùn)練集已標(biāo)簽數(shù)據(jù)較少,而RBF和-RBF算法沒有遷移學(xué)習(xí)能力,故兩算法泛化性能不理想,而學(xué)習(xí)了源領(lǐng)域知識的-TLRBF算法,彌補(bǔ)了數(shù)據(jù)量小和缺失數(shù)據(jù)的不足,泛化性能較好。
RBF神經(jīng)網(wǎng)絡(luò)算法基于最小平方誤差準(zhǔn)則,對小樣本數(shù)據(jù)集或存在噪聲的數(shù)據(jù)集容易過擬合而導(dǎo)致泛化性能下降。-RBF引入不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險(xiǎn),對小樣本數(shù)據(jù)集顯示出了更魯棒的性能,但對采樣樣本不能反映數(shù)據(jù)集整體分布的數(shù)據(jù)集泛化性能仍不理想。-TLRBF不僅引入不敏感準(zhǔn)則和結(jié)構(gòu)風(fēng)險(xiǎn)項(xiàng),還學(xué)習(xí)了源領(lǐng)域知識,能彌補(bǔ)缺失數(shù)據(jù)的不足,泛化性能較RBF和-RBF有很明顯的改善。
圖5 各種算法泛化性能比較Fig. 5 Comparison of generalization performance of various algorithms
表 2 各種算法于真實(shí)發(fā)酵數(shù)據(jù)集上性能比較Table 2 Comparison of performance of various algorithms on real fermentation data sets
已有RBF神經(jīng)算法及其改進(jìn)算法大多未考慮采樣樣本不能反映數(shù)據(jù)集整體分布而導(dǎo)致算法泛化性能降低的情況。本文通過采用知識遷移的思想,提出能充分學(xué)習(xí)源領(lǐng)域知識的具有遷移學(xué)習(xí)能力的RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。本文所提方法并不需要大量源領(lǐng)域樣本參與目標(biāo)領(lǐng)域模型的建立,僅是學(xué)習(xí)源領(lǐng)域的高斯核中心向量及核寬以及源領(lǐng)域模型參數(shù)幫助數(shù)據(jù)存在一定程度的信息缺失的目標(biāo)領(lǐng)域建立模型,這是傳統(tǒng)的RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法所不具備的。通過合成數(shù)據(jù)實(shí)驗(yàn)以及真實(shí)發(fā)酵過程的仿真實(shí)驗(yàn),驗(yàn)證了本文方法較之于傳統(tǒng)方法具有更好適應(yīng)性。但本文方法采用網(wǎng)格搜索策略和交叉驗(yàn)證方法來獲得各個(gè)參數(shù)的值,加大了獲取各參數(shù)最優(yōu)值的工作量,在今后的工作中,將致力于研究兩個(gè)領(lǐng)域間的相關(guān)性與參數(shù)取值間的關(guān)系,以估計(jì)參數(shù)的合理區(qū)間,減少獲得最優(yōu)參數(shù)的工作量。