東北電力大學(xué)信息工程學(xué)院 付學(xué)良 楊 洋
吉林省吉林市供電公司 李純子
近年來,混沌理論以及非線性預(yù)測方法的發(fā)展為環(huán)境風(fēng)險事件預(yù)警研究提供了新的思路。支持向量機(jī)是在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的分類和回歸工具,它是針對結(jié)構(gòu)風(fēng)險最小化理論提出的,泛化能力強(qiáng),較好地解決了高維數(shù)、小樣本、非線性等實際問題,已經(jīng)應(yīng)用于許多領(lǐng)域,成功用于回歸時間序列預(yù)測,分類等領(lǐng)域。其技術(shù)遵循結(jié)構(gòu)風(fēng)險最小化原則,預(yù)測性能優(yōu)于神經(jīng)網(wǎng)絡(luò)。目前,大氣污染物濃度預(yù)測方法多是傳統(tǒng)統(tǒng)計模型,難以模擬復(fù)雜大氣濃度變化。李軍采用核函數(shù)為RBF神經(jīng)網(wǎng)絡(luò)對混沌序列進(jìn)行預(yù)測;劉瑞平根據(jù)RBF神經(jīng)網(wǎng)絡(luò)預(yù)測混沌時間序列;羅贇賽將支持向量機(jī)理論應(yīng)用于網(wǎng)絡(luò)流量預(yù)測中,神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)模型能得到較好的預(yù)測結(jié)果,但其結(jié)構(gòu)過于復(fù)雜且難于選擇,收斂速度慢,容易陷入局部極值,預(yù)測精度低,且估計參數(shù)相對于較少的數(shù)據(jù)樣本,導(dǎo)致所得到的神經(jīng)網(wǎng)絡(luò)模型相對于數(shù)據(jù)產(chǎn)出過擬合,即泛化能力不夠。
本文仿真實驗研究結(jié)果表明大氣污染濃度存在混沌特性,混沌模型中相空間重構(gòu)方法以及統(tǒng)計學(xué)習(xí)理論的支持向量機(jī),可以將非線性序列映射到高維空間中去,此時高維空間數(shù)據(jù)便具有線性性質(zhì),并在這個空間進(jìn)行線性回歸。
研究表明一個混沌系統(tǒng)產(chǎn)生的軌跡經(jīng)過一定時期變化后,最終會做一種有規(guī)律的運(yùn)動。系統(tǒng)任一分量的演化都是由其他分量決定的,因此,可以從任一分量的時間序列中恢復(fù)原來系統(tǒng)的規(guī)律。Packard等建議用原始系統(tǒng)中的某變量延遲坐標(biāo)來重構(gòu)相空間,Takens證明可以找到一個合適的嵌入維m,若延時坐標(biāo)的維數(shù)m≥2d+1,d是動力系統(tǒng)的維數(shù),則可以從這個嵌入空間把軌跡有規(guī)律的恢復(fù)出來,這就是相空間重構(gòu)理論。
根據(jù)相空間重構(gòu)理論,嵌入維數(shù)d和時間延遲τ的選取至關(guān)重要,研究表明如果τ太大,會使簡單軌道變得復(fù)雜且會減少有效的數(shù)據(jù)點數(shù),τ太小,將不能展示系統(tǒng)的動力特征,同樣d如果太小,動力系統(tǒng)的吸引子無法被嵌入空間包容,動力學(xué)特性無法展現(xiàn);d如果太大,不僅增加計算工作量,可能會增大預(yù)測誤差,而且會減少可用數(shù)據(jù)長度。
目前,延時τ的選擇方法主要有自相關(guān)法、平均位移法、去偏復(fù)自相關(guān)法、互信息法等。本文采用序列相關(guān)法中自相關(guān)函數(shù)法大氣污染濃度序列的自相關(guān)系數(shù)。
求取嵌入維數(shù)的方法主要有關(guān)聯(lián)指數(shù)飽和法、假近鄰法、Cao方法等,本文選用Cao方法對m進(jìn)行選取。定義:
其中,E(d)是a(i,d)的平均值。
Cao發(fā)現(xiàn),當(dāng)d比某一個d0大時,E1(d)停止變化,于是do+1便給出了序列的最小嵌入維。同時Cao還定義E2(d)用于區(qū)分確定性混沌信號和隨機(jī)信號,若隨機(jī)信號E2(d)對任何d為1,對于混沌信號E2(d)將不會始終為1。
得到了延時τ和嵌入維數(shù)m以后可以計算Lyapunov指數(shù),通過Lyapunov指數(shù)可以檢驗大氣污染濃度的時間序列是否存在混沌現(xiàn)象,正的Lyapunov指數(shù)意味著混沌,即λ>0;當(dāng)λ<0,系統(tǒng)具有穩(wěn)定不動點;當(dāng)λ=0,系統(tǒng)具有周期性。其計算方法主要有Jacobin法、Wolf法和小數(shù)據(jù)量法。由于本文數(shù)據(jù)量小,涉及可變參數(shù)少,故采用由Sato等改進(jìn)小數(shù)據(jù)量法進(jìn)行計算,估計表達(dá)式為:
其中k是常數(shù),dj( k)是基本軌道上第j對最鄰近點對經(jīng)過i個離散時間步長后的距離,Δt為樣本周期,M為重構(gòu)相空點的個數(shù)。
混沌—支持向量機(jī)回歸預(yù)測模型主要是基于混沌和支持向量機(jī)這兩個理論,根據(jù)具體的大氣污染具體參數(shù)的屬性,建立具體模型,具體如圖1所示。
對于給定的污染濃度時間序列x1,x2,…,xN-1,xN,采用相空間重構(gòu)法,將其轉(zhuǎn)換成維數(shù)m,延時為τ的新數(shù)據(jù)空間,即:
其中n∈[(m-1)τ,N],Y( n)為重構(gòu)后的相點。利用重構(gòu)后的狀態(tài)矢量對大氣污染濃度進(jìn)行預(yù)測,可以構(gòu)造映射(回歸估計函數(shù))?:使得:
設(shè)當(dāng)前時刻為n,訓(xùn)練數(shù)據(jù)數(shù)量為N,則訓(xùn)練數(shù)據(jù)可以表示為:
根據(jù)已知樣本序列確定訓(xùn)練數(shù)據(jù),應(yīng)用支持向量機(jī)回歸進(jìn)行訓(xùn)練求得最佳模型?;對未來時刻的預(yù)測值,以其重構(gòu)相空間中前(m-1)τ變量作為輸入,應(yīng)用訓(xùn)練得到的支持向量機(jī)模型進(jìn)行預(yù)報。
(1)構(gòu)建有效的預(yù)測因子。由于大氣污染物濃度(y)主要受污染源的源強(qiáng)和氣象因子的影響,故考慮將前一天的SO2濃度(x1)、凈輻射量(x2)、總云量(x3)、日均濕度(x4)、日照時數(shù)(x5)、日均氣壓(x6)、總輻射量(x7)、平均風(fēng)速(x8)、日均溫度(x9)共9個因子作為預(yù)選預(yù)測因子。
(2)選擇核函數(shù)及參數(shù)值。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基函數(shù)(RBF)核函數(shù)和sigmoid核函數(shù)。
(3)用訓(xùn)練樣本訓(xùn)練具有優(yōu)化參數(shù)的混沌-支持向量機(jī)預(yù)測模型,獲得支持向量,確定混沌-支持向量機(jī)的結(jié)構(gòu)。
(4)用訓(xùn)練過的混沌-支持向量預(yù)測器對測試樣本預(yù)測。
本文主要采用二氧化硫濃度作為仿真實驗的基礎(chǔ)數(shù)據(jù),大氣中跟二氧化硫相關(guān)參數(shù)由吉林市環(huán)境檢測站提供。
本文主要采用的開發(fā)軟件是臺灣大學(xué)林智仁教授等開發(fā)的Libsvm軟件,此軟件主要是基于MATLAB,其特點主要是簡單、快捷、易于使用。是一款較好的應(yīng)用與回歸預(yù)測和模式識別的軟件。
表2 兩種預(yù)測模型性能比較
圖1 混沌—支持向量機(jī)模型建立步驟
圖2 采集到的原始數(shù)據(jù)
圖3 7月9日、10日SO2實際值與預(yù)測值濃度對比圖
本文采用吉林市從2011年7月1日到2011年7月10日共10天每天SO2平均濃度作為原始數(shù)據(jù),得到10*24=240個數(shù)據(jù);用前8天的192個數(shù)據(jù)作為已知數(shù)據(jù)來進(jìn)行模型訓(xùn)練;后2天的48數(shù)據(jù)作為預(yù)測數(shù)據(jù)來檢測模型的預(yù)測結(jié)果精確性。
采用自相關(guān)函數(shù)法得到前8天SO2,濃度序列延時為3,利用小數(shù)據(jù)量法得到Lyapunov指數(shù)為λ=0.167,利用Cao方法得到嵌入維數(shù)為10>0,說明該濃度時間序列具有混沌特性,利用相空間重構(gòu)得到216個訓(xùn)練樣本,下一步用支持向量機(jī)回歸對得到樣本進(jìn)行訓(xùn)練。采集到的基礎(chǔ)數(shù)據(jù)如圖2所示。
支持向量機(jī)回歸模型在訓(xùn)練時有較少的可調(diào)參數(shù),即不敏感系數(shù)ε、寬度系數(shù)ζ和懲罰因子C。對以上三者取值并進(jìn)行組合訓(xùn)練,選擇誤差最小一組參數(shù)為最佳,若結(jié)果不理想,重新設(shè)定以上數(shù)據(jù)進(jìn)行訓(xùn)練。最后確定ζ=0.7ε=0.001。由交叉實驗選取懲罰因子C=1000,核函數(shù)g=0.001,訓(xùn)練誤差e=0.0001。利用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行預(yù)測,其實際值和預(yù)測值對比效果如圖3所示。
目前發(fā)展最快的預(yù)測模型是神經(jīng)網(wǎng)絡(luò)回歸模型,因此用支持向量機(jī)回歸預(yù)測值與BP神經(jīng)網(wǎng)絡(luò)評估樣本進(jìn)行對比,采用平均相對誤差(MAPE)和均方誤差(MSE)評價SVM模型的預(yù)測性能。具體公式如下所示:
將得到的48小時數(shù)據(jù)每8小時取一次平均值,比較兩個模型的預(yù)測效果。如表2所示。
本文研究了大氣污染濃度的時間序列并證明其混沌特性,利用支持向量機(jī)回歸理論對大氣污染濃度進(jìn)行預(yù)測。根據(jù)相空間重構(gòu)理論,通過相空間重構(gòu)將SO2濃度序列映射到高維特征向量空間形成相點構(gòu)造訓(xùn)練樣本,解決了樣本確定的問題。再根據(jù)訓(xùn)練樣本對使用支持向量機(jī)回歸理論構(gòu)造預(yù)測模型,建立了混沌-支持向量機(jī)大氣污染濃度預(yù)測模型,對大氣污染物SO2濃度進(jìn)行預(yù)測。研究結(jié)果表明混沌-支持向量機(jī)回歸模型能夠有效地預(yù)測大氣污染濃度,與BP神經(jīng)網(wǎng)絡(luò)方法相比具有更好穩(wěn)定性和預(yù)測精度,更適合于大氣污染濃度預(yù)測。
[1]白鵬,張喜斌.支持向量機(jī)理論及其工程應(yīng)用實例[M].西安:西安電子科技大學(xué)出版社,2008:41-55.
[2]金龍.人工神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展及其在大氣科學(xué)領(lǐng)域的應(yīng)用[J].氣象技術(shù),2004,32(6):12-13.
[3]史志才.網(wǎng)絡(luò)風(fēng)險評估方法研究[J].計算機(jī)應(yīng)用,2008,11.
[4]劉瑞平,沈福民.混沌時間序列預(yù)測與目標(biāo)檢測[J].雷達(dá)科學(xué)與技術(shù),2006,3(6):327-331.
[5]羅贇賽.混沌—支持向量機(jī)回歸在流量預(yù)測中的應(yīng)用研究[J].計算機(jī)科學(xué),2009,7.
[6]李目,何怡剛.混度時間序列的混合遺傳神經(jīng)網(wǎng)絡(luò)預(yù)測方法[J].系統(tǒng)仿真學(xué)報,2008,11.
[7]梁新榮.支持向量機(jī)在混沌系統(tǒng)預(yù)測中的應(yīng)用[J].計算機(jī)學(xué)報,2009,9.
[8]黃佳聰.智能算法及其在環(huán)境預(yù)警中的應(yīng)用[J].環(huán)境監(jiān)控與預(yù)警,2010,6.
[9]于國榮,夏自強(qiáng).混沌時間序列支持向量機(jī)模型及其在徑流預(yù)測中的應(yīng)用[J].水科學(xué)進(jìn)展,2008(1):117-119.
[10]呂金虎,陸軍安,陳士華.混沌時間序列分析及應(yīng)用[J].系統(tǒng)仿真學(xué)報,2002.
[11]劉杰,黃亞樓.基于BP神經(jīng)網(wǎng)絡(luò)的非線性網(wǎng)絡(luò)流量預(yù)測[J].計算機(jī)應(yīng)用,2007,27(7):1770-1772.
[12]陳俏,曹根牛.支持向量機(jī)應(yīng)用于大氣污染物濃度預(yù)測[J].計算機(jī)技術(shù)與發(fā)展,2010,5.