□章 政 王曉佳 [合肥工業(yè)大學 合肥 230009]
近些年來,我國經(jīng)濟高速發(fā)展,但這也伴隨著能源的快速消耗。同時,隨著工業(yè)化進程的不斷深入和城鄉(xiāng)居民生活水平的不斷提高,對電力的需求也越發(fā)旺盛。因此,對未來用電量的準確預測,將有助于合理地安排生產(chǎn)活動,制定生產(chǎn)計劃,維持社會的穩(wěn)定發(fā)展,實現(xiàn)經(jīng)濟效益的快速提升。支持向量機(Support Vector Machine)是由Vapnik等人在1995年提出來的[1],它是基于統(tǒng)計學習理論,采用結(jié)構(gòu)風險最小化的原理,較好地解決了“過學習”的現(xiàn)象,并且具備良好的泛化能力。支持向量回歸機(Support vector regression)是將支持向量機應用于回歸分析中而形成的。雖然該理論的發(fā)展只有不到20年時間,但海內(nèi)外學者仍然對其展開了廣泛地研究。如文獻[2]基于支持向量機原理,提出了一個預測系統(tǒng)用以預測輸配電線路上的積冰問題;文獻[3]通過支持向量機預測了土耳其的用電量情況;文獻[4]將免疫優(yōu)化算法應用于支持向量機的參數(shù)尋優(yōu)中,并建立了優(yōu)化模型預測臺灣各地區(qū)的用電量;文獻[5]運用蟻群算法優(yōu)化訓練數(shù)據(jù),加快了SVM的訓練時間;文獻[6]應用支持向量回歸機原理預測混沌時間序列,實驗結(jié)果顯示SVM方法不僅精度高,而且具有良好的泛化能力;文獻[7]運用加權(quán)支持向量機原理對不平衡庫存問題進行分類研究,取得了較好的結(jié)果;文獻[8]將主成分分析與支持向量機相結(jié)合進行電力預測,加快了學習速度,提高了預測精度。
本研究采用最小一乘原理,通過自適應遺傳算法優(yōu)化支持向量機的模型參數(shù),并且在訓練過程中使用了交叉驗證的思想,通過江蘇省2004年~2009年全社會用電量及宏觀經(jīng)濟影響因素月度數(shù)據(jù),預測未來的用電量水平。實驗結(jié)果表明,該模型在擬合度和誤差上均優(yōu)于BP-神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)的SVR模型,并且預測精度也較高。
給定樣本空間D=(xi,yi),xi∈Rp,yi∈R,i=1,2,…,n。并且令線性回歸函數(shù)為
其中:w稱為權(quán)向量,b稱為分類閾值。φ(x) 為一非線性變換,它將數(shù)據(jù)集x映射到高維的特征空間F中。從而,由結(jié)構(gòu)風險最小化的原則,為求得 f(x),就需要極小化如下泛函:
其中,C是一個正常數(shù),它是模型平坦性和經(jīng)驗誤差之間的折中因子,也稱為懲罰因子。L(yi,f(xi))為損失函數(shù)。一般的,取損失函數(shù)為ε不敏感損失函數(shù),即對于i=1,2,…,n,
從而問題轉(zhuǎn)化為:
為求解優(yōu)化問題(4),引入Lagrange 因子αi,βi,μi,υi,i=1,2,…,n,并定義Lagrange函數(shù)如下:
對函數(shù)L(·)關(guān)于變量w,b,ξi,ξi*求偏導,并令其為零,則有
將(6)~(9)式代入(5)式,并將優(yōu)化問題轉(zhuǎn)化為其對偶問題,則有
求解二次規(guī)劃問題(10),有
其中:
K(xi,x)為核函數(shù),而由于滿足Mercer條件的核函數(shù)[1],即對應高維空間中的一組點積。從而只需要獲得滿足該條件的核函數(shù),即可求得回歸函數(shù)f(x),甚至都不需要知道φ(x)的具體形式。由于徑向基函數(shù)的參變量少,且采用RBF核的SVM對頻率較高的非線性系統(tǒng)有較好的逼近性能。另外,RBF核的參數(shù)在有效范圍內(nèi)改變時不會使空間復雜度過大[9]。因此,本研究將核函數(shù)取為徑向基函數(shù),即
不敏感損失函數(shù)中的ε、懲罰因子C和徑向基函數(shù)中的2σ這三個參數(shù)取值的不同,將得到不同的支持向量回歸模型。從而,這三個參數(shù)的取值將對回歸模型的預測精度產(chǎn)生很大的影響。遺傳算法對含參變量多且計算結(jié)果難以獲得的復雜優(yōu)化問題尤為適用[10]。本研究將采用自適應遺傳算法對SVR的參數(shù)C,2σ和ε進行尋優(yōu)。對傳統(tǒng)的遺傳算法,它能避免過早收斂,且具有更好的局部搜索能力和全局搜索能力。
本研究在求解的優(yōu)化準則中,將采用最小一乘準則取代最小二乘準則。這是由于在應用最小二乘準則時,異常點的誤差會被擴大化,且在樣本數(shù)據(jù)較少時,預測精度會變低,而最小一乘準則具有較好的穩(wěn)健性,它的統(tǒng)計性能要優(yōu)于最小二乘準則[11]。
在采用最小一乘準則的參數(shù)優(yōu)化步驟如下:
Step1:初始化種群大小,令 80N=,并隨機產(chǎn)生N個個體 (C,σ2,ε)的取值,且編碼方法采用二進制編碼。
Step3:針對每個個體的適應度值,進行選擇和復制運算,從而形成了一個臨時的集合G。選擇策略采用正比例選擇策略,第i個個體被選擇的概率為
其中Fi為第i個個體的適應度值。在得到選擇概率后,采用旋輪法來實現(xiàn)選擇操作。即對于隨機數(shù)ξ,當Ai-1≤ξ≤Ai時,則第i個個體被選擇,其中
Step4:交叉運算采用多點交叉。交叉概率為
其中pcmax是最大交叉概率,pcmin是最小交叉概率,F(xiàn)′是兩個個體中較小的適應度值,maxgen是最大迭代次數(shù),curgen是當前迭代次數(shù)。為了獲得較優(yōu)的全局搜索能力,避免陷入局部最優(yōu),這里令pcmax=0.9,pcmin=0.1。
Step5:變異策略采用多點變異。概率如下:
其中pmmax是最大變異概率,pmmin是最小變異概率,F(xiàn)是個體的適應度值。為了使個體在初始迭代過程中盡量多樣化并且在后期迭代過程中有出色的局部搜索能力,這里令pmmax=0.4,pmmin=0.01。
Step6:判斷是否達到終止條件,如何不是,則跳轉(zhuǎn)到Step1。這里終止條件為迭代次數(shù)M=2000或者誤差精度η=10-6。
Step7:輸出最優(yōu)參數(shù)集 (C,σ2,ε),得到預測模型f(x)。
本研究的影響因素為上月用電量(億千瓦時)、月平均溫度(℃)、居民消費價格指數(shù)(CPI)、社會消費品零售額(億元)、工業(yè)增加值(億元)和進出口總額(億元)等。通過對江蘇省2004年1月~2009年7月的數(shù)據(jù),采用交叉驗證的思想,構(gòu)建基于最小一乘準則下的GA-SVR模型,并對未來進行預測分析。
并利用公式
對數(shù)據(jù)進行標準化處理,以消除量綱的影響。
本研究使用matlab進行建模分析,將江蘇省2004年1月~2009年7月的宏觀經(jīng)濟數(shù)據(jù)和全社會用電量數(shù)據(jù)作為訓練集,進行模型訓練。同時用2009年8月~10月的全社會用電量數(shù)據(jù)進行驗證分析。為了有良好的訓練速度,交叉驗證的訓練份數(shù) 4K=。從而采用基于最小一乘準則的GA-SVR方法擬合預測結(jié)果和相對誤差如圖1、圖2所示。
圖1 基于最小一乘準則的回歸預測結(jié)果對比
圖2 相對誤差
將本文模型與matlab工具箱中的BP-神經(jīng)網(wǎng)絡(luò)模型進行比較分析,結(jié)果見表2:
表1 擬合比較
yi為真實值,為預 測值,
RMSE度量了模型誤差的偏離程度,R2度量了模型的擬合程度。
本文模型與傳統(tǒng)SVR方法、PSO-SVR方法比較,結(jié)果如表2所示。
表2 預測結(jié)果比較
其中,相對誤差rel=(-yi)yi,yi為真實值,為預測值。
從圖1和圖2可以看出,模型的訓練精度還是比較高,總體上誤差保持在10%以內(nèi)。從表1的結(jié)果看出,基于最小一乘準則和交叉驗證思想的GA-SVR模型的偏離程度和擬合精度都比BP-神經(jīng)網(wǎng)絡(luò)要好。同時,表2表明該方法在實驗中的預測精度上也要比傳統(tǒng)的SVR方法和PSO-SVR方法要精確。
本研究提出了一種基于最小一乘準則和交叉驗證思想的GA-SVR模型。該模型不同于一般的模型曲線擬合中采用的最小二乘方法,而是使用了最小一乘準則,從而可以避免異常點對模型總體的影響,提高模型的穩(wěn)定性。接著利用自適應遺傳算法對SVR模型進行參數(shù)尋優(yōu),加快了參數(shù)的擇優(yōu)速度,提高了模型的預測精度,同時通過交叉驗證的思想,進一步提升模型的穩(wěn)定性和泛化能力。雖然支持向量回歸模型對非線性問題能有很好的擬合能力,但是與所預測問題選取的相關(guān)因素將對預測結(jié)果產(chǎn)生較大影響。因此,為了使模型提供更好的預測能力,應當選取更能反映問題本質(zhì)的訓練數(shù)據(jù)。同時,提高訓練樣本容量并且尋求更優(yōu)的參數(shù)優(yōu)化方法也將有助于提高模型的預測精度。
[1]VAPNIK V N.The Nature of Statistic Learning Theory[M].New York:Springer,1995.
[2]ZARNANI A,MUSILEK P,SHI Xiaoyu,et al.Learning to predict ice accretion on electric power lines[J].Engineering Applications of Artificial Intelligence,2012,25(3):609-617.
[3]KAVAKLIOGLU K.Modeling and prediction of Turkey’s electricity consumption using Support Vector Regression[J].Applied Energy,2011,88(1):368-375.
[4]HONG Wei-Chiang.Electric load forecasting by support vector model[J].Applied Mathematical Modelling,2009,33(5):2444-2454.
[5]NIU Dongxiao,WANG Yongli,et al.Power load forecasting using support vector machine and ant colony optimization[J].Expert Systems with Applications,2010,37(3):2531-2539.
[6]劉涵,劉丁,李琦.基于支持向量機的混沌時間序列非線性預測[J].系統(tǒng)工程理論與實踐,2005,25(9):94-99.
[7]肖智,王明愷,謝林林,王偉立.考慮樣本不平衡的多準則庫存分類加權(quán)支持向量機方法及其參數(shù)選擇[J].中國管理科學,2007,15(z1):29-34.
[8]石海波.PCA-SVM在電力負荷預測中的應用研究[J].計算機仿真,2010,21(10):279-282.
[9]榮海娜,張葛祥,金煒東.系統(tǒng)辨識中支持向量機核函數(shù)及其參數(shù)的研究[J].系統(tǒng)仿真學報,2006,18(11):3204-3208,3226.
[10]FRANK H F,LEUNG,H K,et al.Tuning of the Structure and Parameters of a Neural Network Using an Improved Genetic Algorithm[J].IEEE Transactions on Neural Networks,2003,14(1):79-88.
[11]陳希孺.最小一乘線性回歸[J].數(shù)理統(tǒng)計與管理,1989,8(5):48-55.
[12]董春嬌,邵春福,熊志華.基于優(yōu)化SVM的城市快速路網(wǎng)交通流狀態(tài)判別[J].北京交通大學學報,2011,35(6):13-16,22.
[13]王曉佳,沈建新,楊善林.基于Gauss插值的正交化預測方法在智能電網(wǎng)用電量預測中的應用研究[J].電力系統(tǒng)保護與控制,2010,38(21):141-145.
[14]楊海軍,王太雷.基于模糊支持向量機的上市公司財務(wù)困境預測[J].管理科學學報,2009,12(3):102-110.