劉 丹,陳 軍,高 政,鄭桂博,張 亮
(國家能源集團(tuán)電力營銷中心有限公司,北京 100010)
發(fā)電量預(yù)測作為電力行業(yè)中一個熱點(diǎn)問題一直深受關(guān)注,特別是近些年異常氣候增多,可再生能源發(fā)電存在較大的不確定性,電力保供難度加大,發(fā)電量中長期預(yù)測成為越來越重要的研究領(lǐng)域。精確、科學(xué)的預(yù)測是正確決策的前提和保證,發(fā)電量預(yù)測本質(zhì)上是對電力市場供應(yīng)的預(yù)測,在商業(yè)化的體制下,做好發(fā)電量預(yù)測尤其是中長期預(yù)測工作將直接關(guān)系到電力市場發(fā)電企業(yè)運(yùn)行所需的成本與經(jīng)濟(jì)效益。
當(dāng)前國內(nèi)外的電力負(fù)荷預(yù)測方法研究相對成熟,預(yù)測發(fā)電量的方法多種多樣,其中主要包括傳統(tǒng)回歸模型預(yù)測方法、時間序列預(yù)測方法以及人工神經(jīng)網(wǎng)絡(luò)預(yù)測方法。
回歸模型預(yù)測技術(shù)是根據(jù)歷史負(fù)荷數(shù)據(jù)資料,依靠線性回歸數(shù)學(xué)模型對未來的負(fù)荷進(jìn)行預(yù)測,研究各自變量和因變量之間的關(guān)系,形成回歸方程[1]。隨著日前交易市場和短期現(xiàn)貨交易市場在美國和歐洲進(jìn)行試點(diǎn)改革,各類技術(shù)進(jìn)一步發(fā)展,時間序列模型組件成為發(fā)電量預(yù)測的重要方法。發(fā)電量序列屬于典型的時間序列,而時間序列模型中的ARMA和指數(shù)平滑法應(yīng)用最為廣泛[2-3]。時間序列模型由于精度高、所需數(shù)據(jù)簡單而被市場分析者和電網(wǎng)公司所青睞。時間序列模型將負(fù)荷數(shù)據(jù)看成是一個周期性變化的時間序列,然后根據(jù)給定的模型對未來的負(fù)荷進(jìn)行預(yù)測。近些年來,越來越多的學(xué)者形成一種共識,即預(yù)測精度的提高必須要考慮其他因素對發(fā)電量預(yù)測的影響,很多智能預(yù)測算法如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、專家系統(tǒng)、粒子群算法、遺傳算法等開始大量地運(yùn)用于發(fā)電量預(yù)測中,其中神經(jīng)網(wǎng)絡(luò)預(yù)測方法的應(yīng)用最為廣泛。BP神經(jīng)網(wǎng)絡(luò)是最基礎(chǔ)且最為經(jīng)典的預(yù)測方法,諸多神經(jīng)網(wǎng)絡(luò)預(yù)測文獻(xiàn)表明,神經(jīng)網(wǎng)絡(luò)預(yù)測方法在精度方面通常優(yōu)于傳統(tǒng)的線性回歸模型和時間序列預(yù)測方法。
國內(nèi)學(xué)者在預(yù)測過程中,早期多借鑒專家經(jīng)驗和各類預(yù)測模型,用于優(yōu)化單一預(yù)測模型存在的缺點(diǎn),通過將多種預(yù)測方法進(jìn)行組合,按照協(xié)方差最小原則確定權(quán)數(shù),形成最終的預(yù)測模型,從而在一定程度上提高預(yù)測精度。此外,由于中國特色社會主義經(jīng)濟(jì)制度的特點(diǎn),電力供給更多承擔(dān)著社會服務(wù)和民生保障的功能,因此當(dāng)政策等宏觀因素變動時,尤其是在保供時間的影響下,電力供需形勢未必會按照市場規(guī)律進(jìn)行調(diào)節(jié),政策變化和保供要求將會為發(fā)電量預(yù)測帶來較大的挑戰(zhàn)。因此國內(nèi)學(xué)者在進(jìn)行發(fā)電量預(yù)測的過程中,十分注重宏觀因素包括GDP、人口以及政策等的影響[4]。
文中分別選用改進(jìn)的多元線性回歸和BP神經(jīng)網(wǎng)絡(luò)預(yù)測對2000~2021年全國發(fā)電量數(shù)據(jù)進(jìn)行分析,并且對未來10年全國發(fā)電量數(shù)據(jù)進(jìn)行組合預(yù)測。
多元線性回歸是建立多個自變量與因變量之間的定量關(guān)系,通過回歸系數(shù)反映因變量對自變量的影響程度。在建立預(yù)測模型的過程中,假設(shè)問題的因變量為y,自變量即對因變量y產(chǎn)生影響作用的變量有n個,這n個變量分別是x1,x2,…,xn[5]。假設(shè)因變量y與其影響因素之間存在一定的定量線性關(guān)系,可寫出如下的線性關(guān)系式:
y=β0+β1x1+β2x2+…+βnxn+a
(1)
式中:y為因變量;xi為自變量(i=1,2,3,…,n);β0為回歸常數(shù)項;βi為回歸系數(shù)(i=1,2,3,…,n);a為隨機(jī)誤差項[6]。
為了方便在建立模型的過程中進(jìn)行估計,假設(shè)參數(shù)a服從正態(tài)分布,即參數(shù)a滿足以下條件:
E(a)=0,D(a)=σ2<∞
(2)
式中:E(a)為隨機(jī)誤差的均值,D(a)為隨機(jī)誤差的方差,σ為隨機(jī)誤差項的標(biāo)準(zhǔn)差。
由此可以得到一個n元線性回歸模型,即
(3)
根據(jù)中國2010~2020年的用電量、GDP和人口數(shù),首先初步建立線性回歸模型, 在SPSS中對自變量和因變量進(jìn)行線性回歸分析,得到估計參數(shù)和顯著性檢驗值,見表1。根據(jù)表1中的數(shù)據(jù)可以得到初步的線性表達(dá)式:
表1 初次線性回歸估計參數(shù)
y=-236 527+0.039 8x1+1.944 0x2
(4)
回歸方程(4)的顯著性檢驗結(jié)果見表2。根據(jù)表2中顯示的數(shù)據(jù),回歸方程的R2為0.995 9,這說明回歸方程從整體上是顯著的,但不代表回歸方程中的每一項都是顯著的。按照表1中的數(shù)據(jù),由于在進(jìn)行線性回歸時設(shè)置的置信區(qū)間為95%,所以在顯著性水平0.05以下,2個自變量均是顯著的。
表2 回歸方程整體的顯著性檢驗結(jié)果
該模型中存在2個自變量,自變量之間可能存在一定的線性關(guān)系。如果各個變量之間存在嚴(yán)重的共線性關(guān)系,這時使用最小二乘法所得的方程有可能會無效,從而基于該方程進(jìn)行分析可能會出錯,甚至?xí)肫缤?。這種情況被稱為多重共線性問題,所以在分析的時候必須要作多重共線性診斷,才能得到較為合理的結(jié)果。
診斷所用的方法是看方差膨脹因子VIF的值落在哪個區(qū)間。方差膨脹因子VIF是指解釋變量之間存在多重共線性關(guān)系時的方差與不存在多重共線性關(guān)系時的方差之比,是容忍度的倒數(shù)[7]。VIF越大,顯示共線性程度越嚴(yán)重。通過方差膨脹因子可以考慮單個自變量與其他自變量的多元線性回歸,從而計算自變量之間新模型的判定系數(shù),記為r2,r2為以xi與其他自變量的復(fù)測定系數(shù),方差膨脹因子VIF的計算式為
α=1/(1-r2)
(5)
α反映自變量之間線性關(guān)系的具體規(guī)則為:當(dāng)α<5時,表示自變量之間共線性的程度不存在或很弱;若5≤α ≤10,表示自變量之間共線性程度為中等程度;若α>10,表示自變量之間存在嚴(yán)重的共線性程度[8]。
該問題中各個自變量之間方差膨脹因子計算結(jié)果見表3。
表3 方差膨脹因子α
通過比較診斷原則和表1~3中的數(shù)據(jù)可知,2個自變量GDP和人口數(shù)之間存在嚴(yán)重的共線性關(guān)系。
根據(jù)計算方差膨脹因子,發(fā)現(xiàn)人口數(shù)與GDP之間存在嚴(yán)重的多重共線性,因此考慮將人口數(shù)變量或GDP變量剔除掉再次進(jìn)行回歸分析,重新建立線性回歸模型,即再次使用SPSS進(jìn)行線性回歸,再次求取方程各項參數(shù)。
1.3.1 剔除人口數(shù)后的線性回歸
將人口數(shù)剔除后,重新建立發(fā)電量與GDP之間的線性回歸模型,各項參數(shù)見表4。
表4 剔除人口數(shù)后線性回歸參數(shù)
根據(jù)表4中的數(shù)據(jù),可寫出改進(jìn)后的線性回歸方程如下:
y=11 830.899+0.067x1
(6)
改進(jìn)后線性回歸方程的整體顯著性檢驗結(jié)果見表5。
表5 剔除人口數(shù)回歸方程的顯著性檢驗結(jié)果
根據(jù)表4中數(shù)據(jù),在置信水平為0.05的情況下,目前自變量GDP通過了系數(shù)檢驗,而根據(jù)表5可知,線性回歸方程的整體相關(guān)性為0.987。
1.3.2 剔除GDP后的線性回歸
將GDP剔除后,重新建立發(fā)電量與人口數(shù)之間的線性回歸模型,各項參數(shù)見表6。
表6 剔除GDP后線性回歸參數(shù)
根據(jù)表6中的數(shù)據(jù),可寫出改進(jìn)后的線性回歸方程如下:
y=-582 870+4.663x2
(7)
改進(jìn)后線性回歸方程的整體顯著性檢驗結(jié)果見表7。
表7 剔除GDP回歸方程的顯著性檢驗結(jié)果
根據(jù)表6中數(shù)據(jù),在置信水平為0.05的情況下,目前自變量人口數(shù)通過了系數(shù)檢驗,而根據(jù)表7可知,線性回歸方程的整體相關(guān)性為0.978。
由此可見, GDP與發(fā)電量之間的線性回歸模型擬合效果更好,故選取自變量GDP來預(yù)測未來10年的發(fā)電量情況,得到最終的線性回歸方程為
y=11 830.899+0.067x1
(8)
式中:x1為GDP。
根據(jù)聯(lián)合國經(jīng)濟(jì)和社會事務(wù)部2023年7月發(fā)布的《世界人口展望2022》預(yù)測,中國人口在2022年預(yù)計較2021年有所下降。根據(jù)國家信息中心預(yù)測,中國2022年GDP增速約為3.5%,2023年GDP增速約為5%。2020年9月,在中國宏觀經(jīng)濟(jì)論壇舉行的CMF宏觀經(jīng)濟(jì)熱點(diǎn)問題研討會上,瑞銀亞洲經(jīng)濟(jì)研究主管、首席中國經(jīng)濟(jì)學(xué)家汪濤在會上預(yù)測,未來10年,中國實(shí)際年均GDP增速將下降到4.5%。由此預(yù)測未來10年中國的人口數(shù)與GDP預(yù)測值見表8。
將2021~2030年的GDP數(shù)據(jù)帶入式(6)中,得到2021~2030年的全國發(fā)電量數(shù)據(jù)見表9。
BP神經(jīng)網(wǎng)絡(luò)是一種正向前饋神經(jīng)網(wǎng)絡(luò)[9],利用最速梯度下降法的誤差逆?zhèn)鞑W(wǎng)絡(luò)權(quán)值和閾值進(jìn)行不斷修正[10],一直到終止條件滿足為止。BP神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,無需使用者具有描述這種映射關(guān)系的數(shù)學(xué)方程的相關(guān)知識,根據(jù)Kolmogorov的相關(guān)定理,可以由一個包括輸入層(input)、隱含層(hidden layer)和輸出層(output layer)的3層BP神經(jīng)網(wǎng)絡(luò)對非線性映射進(jìn)行任意精度的逼近。從數(shù)學(xué)意義上講,若輸入層的節(jié)點(diǎn)數(shù)為n,輸出層節(jié)點(diǎn)數(shù)為l,BPNN是從Rn到Rl的一個高度非線性映射,在所選網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)下,通過學(xué)習(xí)算法調(diào)整各神經(jīng)元的閾值和連接權(quán)值使誤差信號取值最小。圖1所示的是一個典型的3層BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[11]。從圖1可以看出,BP神經(jīng)網(wǎng)絡(luò)的存儲信息的結(jié)構(gòu)可以分為2個部分:1)網(wǎng)絡(luò)的體系結(jié)構(gòu),即網(wǎng)絡(luò)輸入層、隱含層和輸出層神經(jīng)元個數(shù);2)相鄰節(jié)點(diǎn)之間的連接權(quán)值。
圖1 3層BP網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)示意圖
以BP網(wǎng)絡(luò)模型中的最后一層為例,通過計算各節(jié)點(diǎn)希望輸出值與實(shí)際輸出值之差的平方和Ep:
(9)
式中:P為BP網(wǎng)絡(luò)模型中的最后一層;tpj為最后一層節(jié)點(diǎn)j的希望輸出值;Opj為最后一層節(jié)點(diǎn)j的實(shí)際輸出值;M為節(jié)點(diǎn)總數(shù)。
然后通過誤差反向傳播進(jìn)行梯度鏈?zhǔn)角髮?dǎo)的方式訓(xùn)練連接權(quán)重,從而得到最優(yōu)的訓(xùn)練網(wǎng)絡(luò):
(j=1,2,…,m)
(10)
式中:Ipk為最后一層節(jié)點(diǎn)k的凈輸入;θj為節(jié)點(diǎn)的閾值;wik為節(jié)點(diǎn)j到k之間聯(lián)系的權(quán)重。
利用Matlab中BP神經(jīng)網(wǎng)絡(luò)工具包,設(shè)置訓(xùn)練參數(shù),其中隱藏神經(jīng)元個數(shù)設(shè)置為15個,迭代次數(shù)為100次,訓(xùn)練目標(biāo)為10-3,學(xué)習(xí)率為0.01,得到預(yù)測模型,利用驗證集數(shù)據(jù)對預(yù)測模型進(jìn)行驗證,得到其預(yù)測結(jié)果如圖2所示,且決定系數(shù)為0.990 7,可見其擬合效果良好。
圖2 驗證集預(yù)測值與實(shí)際值對比結(jié)果
結(jié)合BP神經(jīng)網(wǎng)絡(luò),以2000~2021年全國發(fā)電量數(shù)據(jù)為基礎(chǔ),對歷年及未來10年電力負(fù)荷進(jìn)行預(yù)測,以檢驗該模型的精度,使對發(fā)電量的預(yù)測更有說服力,最終預(yù)測結(jié)果見表10。
表10 2022~2031年全國發(fā)電量BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果
通過上述方法的預(yù)測以及相關(guān)的參數(shù)檢驗,得到2種方法的預(yù)測結(jié)果見表11。在此基礎(chǔ)上,由于BPNN具有較好的非線性預(yù)測能力,而多元線性回歸具有較好的線性擬合解釋能力,因此取平均值對2種方法進(jìn)行組合預(yù)測,最終得到表11。
表11 不同預(yù)測方法下2022~2031年全國發(fā)電量預(yù)測值
2001~2022年全國發(fā)電量最終的組合預(yù)測值與實(shí)際值的對比如圖3所示。
圖3 實(shí)際值與預(yù)測值的對比
利用決定系數(shù)(r2)、平均絕對誤差(MAE)和均方誤差(RMSE)確定不同模型的擬合效果。將多元回歸預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型以及組合預(yù)測模型的預(yù)測精度進(jìn)行對比,見表12。
表12 不同模型的決定系數(shù)對比
由表12可見,組合預(yù)測模型的決定系數(shù)最大,平均絕對誤差和均方誤差最小,其預(yù)測效果最好。
結(jié)合經(jīng)典的多元線性回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型對中國年度用電量進(jìn)行了組合預(yù)測。在利用多元線性回歸模型時,對于存在的共線性現(xiàn)象進(jìn)行了檢測和糾正,最終的組合預(yù)測能夠吸收并結(jié)合2種模型的優(yōu)點(diǎn)。線性回歸模型的局限性是模型的線性方法決定其無法描述復(fù)雜的非線性因素對發(fā)電量的影響情況,而神經(jīng)網(wǎng)絡(luò)技術(shù)則較好地考慮非線性因素的影響情況,較好地彌補(bǔ)這一缺點(diǎn),同時將歷史負(fù)荷的發(fā)展規(guī)律和較高的預(yù)測精度相結(jié)合,提高了預(yù)測的準(zhǔn)確性和精確度。