李志強(qiáng), 王凡凱, 劉曙元
(北京華電天仁控制技術(shù)有限公司,北京 100039)
隨著我國(guó)電力體制改革的深入,部分區(qū)域在調(diào)頻市場(chǎng)中,除常規(guī)發(fā)電單元外,第三方輔助服務(wù)提供者被鼓勵(lì)參與到市場(chǎng)中來(lái)[1]。多樣化主體促進(jìn)了輔助服務(wù)市場(chǎng)化發(fā)展,同時(shí)市場(chǎng)主體對(duì)于報(bào)價(jià)等輔助決策的需求也日益增長(zhǎng)。
目前改革處于前期階段,競(jìng)價(jià)規(guī)則與政策隨著市場(chǎng)化發(fā)展和運(yùn)行結(jié)果反饋不斷更新。因此針對(duì)某市場(chǎng)價(jià)格進(jìn)行預(yù)測(cè)研究時(shí),會(huì)發(fā)現(xiàn)該競(jìng)價(jià)規(guī)則下的市場(chǎng)運(yùn)行時(shí)間較短,難以獲取足夠的數(shù)據(jù)量。一般以小時(shí)為單位的短期預(yù)測(cè)至少需要預(yù)測(cè)日前三周的歷史數(shù)據(jù),最好可提供歷史三個(gè)月數(shù)據(jù)量。
另外調(diào)頻出清價(jià)格受需求和氣象等多種因素的影響,以大數(shù)據(jù)為基礎(chǔ)的機(jī)器學(xué)習(xí)手段成為主流方法。然而針對(duì)受多種因素影響的目標(biāo)而言,單一算法的泛化能力較弱,采用多種算法組合應(yīng)用的方式可提升預(yù)測(cè)精度。
排序價(jià)格(Y排序)與報(bào)價(jià)(Y報(bào)價(jià))的關(guān)系表達(dá)式為:
Y排序=Y報(bào)價(jià)/P
(1)
P=k/kmax
(2)
式中:P為發(fā)電單元?dú)w一化后的綜合調(diào)頻性能指標(biāo);k為歸一化前的綜合調(diào)頻性能;kmax為所屬調(diào)頻資源分布區(qū)所有發(fā)電單元的指標(biāo)最大值。
電價(jià)本身具有一定的波動(dòng)性,而市場(chǎng)的出清方式將會(huì)加劇波動(dòng)特性。如廣東調(diào)頻市場(chǎng)是根據(jù)調(diào)頻里程排序價(jià)格進(jìn)行順序出清的,由式(2)可知分母P小于1,會(huì)導(dǎo)致排序價(jià)格波動(dòng)性增強(qiáng)。因此如何準(zhǔn)確預(yù)測(cè)價(jià)格的波動(dòng)趨勢(shì)是提升預(yù)測(cè)準(zhǔn)確性的重點(diǎn)。
綜上本文提出基于mixup數(shù)據(jù)增強(qiáng)和HHT(Hilbert-Huang transform)的電價(jià)組合預(yù)測(cè)方法,可改善數(shù)據(jù)量少和數(shù)據(jù)波動(dòng)性大對(duì)于預(yù)測(cè)結(jié)果的影響,提高準(zhǔn)確率。
mixup是由Zhang等人2018年提出的一種基于鄰域風(fēng)險(xiǎn)最小化原則的數(shù)據(jù)增強(qiáng)方法[2],用于圖像分類(lèi)及語(yǔ)音識(shí)別領(lǐng)域,文末對(duì)mixup是否能在回歸預(yù)測(cè)領(lǐng)域發(fā)揮作用提出了期望。本文將對(duì)此進(jìn)行驗(yàn)證。方法見(jiàn)式(3)。
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
(3)
式中:(xn,yn)為構(gòu)建的新訓(xùn)練數(shù)據(jù)組;(xi,yi)和(xj,yj)為在原始訓(xùn)練集中任意抽取的兩組不同數(shù)據(jù)。λ~Beta(α,β),mixup方法應(yīng)用時(shí),β=α,α∈[0,+∞],超參數(shù)α越大模型的泛化能力越強(qiáng)。
HHT可同時(shí)在時(shí)間和頻率上表示信號(hào)的能量強(qiáng)度。具體方法如下:
(1) 對(duì)出清價(jià)格進(jìn)行EMD(empirical mode decomposition)分解。得到多個(gè)IMF(intrinsic mode function)分量和余項(xiàng)[3],將價(jià)格序列分解為不同特征波動(dòng)的疊加。
EMD分解流程如圖1所示。
圖1 EMD分解流程
原始信號(hào)y′(t)經(jīng)過(guò)EMD分解得到:
(4)
式中:IMFi為第i個(gè)IMF分量;RESn為余項(xiàng)。
(2) 對(duì)各分量進(jìn)行Hilbert變換[4],計(jì)算瞬時(shí)頻率掌握頻譜變化的規(guī)律。
(5)
從而y′的解析信號(hào)z(t)為:
(6)
各分量的瞬時(shí)頻率f為[5]:
(7)
(1) 梳理交易平臺(tái)發(fā)布的信息,收集對(duì)應(yīng)時(shí)段的氣象數(shù)據(jù),共N天的數(shù)據(jù)量。將出清價(jià)格記作目標(biāo)項(xiàng)y,其他每一項(xiàng)記作一個(gè)特征項(xiàng)x。
(2) 將各特征項(xiàng)x分別與目標(biāo)項(xiàng)y通過(guò)式(8)進(jìn)行相關(guān)性指標(biāo)r計(jì)算。當(dāng)結(jié)果|r|>0.2時(shí),標(biāo)記該特征項(xiàng)為有效。
(8)
式中:Cov(x,y)為x與y的協(xié)方差;Var[x]為x的方差;Var[y]為y的方差。
(1) 文本數(shù)據(jù)數(shù)值化得到數(shù)據(jù)集Data1。如02∶00數(shù)值化為2。截取Data1中前N-1日的數(shù)據(jù)記作原始訓(xùn)練集Data2。
(2) 采用mixup方法對(duì)Data2進(jìn)行擴(kuò)充得到數(shù)據(jù)集Data3。將Data1銜接于Data3之后得到擴(kuò)充后的數(shù)據(jù)集Data4。
(3) 對(duì)Data4各特征項(xiàng)以及目標(biāo)項(xiàng)通過(guò)式(9)分別進(jìn)行歸一化得到數(shù)據(jù)集Data5。
(9)
式中:z′為某一數(shù)據(jù)項(xiàng)歸一化后的數(shù)據(jù);z為歸一化前的數(shù)據(jù)。
(4) 將Data5最后24組數(shù)據(jù),即第N日歸一化后的數(shù)據(jù)作為測(cè)試集Data5_1,其余數(shù)據(jù)作為新訓(xùn)練集Data5_2。
對(duì)Data5的出清價(jià)格進(jìn)行HHT分析,針對(duì)頻率值較高的高頻分量,單一的預(yù)測(cè)方法往往效果不佳,選擇集成算法模型;針對(duì)波動(dòng)較小的低頻分量采用神經(jīng)網(wǎng)絡(luò)算法模型。
(1) 用Data5_2對(duì)各分量進(jìn)行單獨(dú)訓(xùn)練,保存訓(xùn)練過(guò)程模型。
① 對(duì)高頻分量采用以決策樹(shù)為弱學(xué)習(xí)器的GradientBoostingRegressor算法,它串行生成多個(gè)弱學(xué)習(xí)器,可以使得模型損失往負(fù)梯度的方向減少。另外決策樹(shù)學(xué)習(xí)器本身不穩(wěn)定,單顆樹(shù)的方差較大,而在集成學(xué)習(xí)中,弱學(xué)習(xí)器間方差越大其泛化性能越好則集成學(xué)習(xí)模型的泛化性能就越好。
GradientBoostingRegressor算法訓(xùn)練流程如圖2所示。
圖2 GradientBoostingRegressor訓(xùn)練流程
② 神經(jīng)網(wǎng)絡(luò)算法較多文獻(xiàn)描述,這里不予重復(fù)。
(2) 將Data5_2中的特征項(xiàng)輸入各過(guò)程模型進(jìn)行預(yù)測(cè),當(dāng)評(píng)價(jià)指標(biāo)滿(mǎn)足要求時(shí)結(jié)束訓(xùn)練,否則修改超參數(shù)繼續(xù)訓(xùn)練。
(1) 向訓(xùn)練好的各分量模型輸入測(cè)試集Data5_1中的特征項(xiàng),獲得輸出結(jié)果并反歸一化得到Y(jié)i(i為模型數(shù)量)。
(2) 累加各項(xiàng)預(yù)測(cè)結(jié)果得到出清價(jià)格預(yù)測(cè)值Y[6]。
(3) 計(jì)算模型評(píng)價(jià)指標(biāo),對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)作為市場(chǎng)主體參與報(bào)價(jià)的參考。
(1) 收集數(shù)據(jù)并進(jìn)行相關(guān)性計(jì)算,得到與出清價(jià)格有關(guān)的有效特征項(xiàng):時(shí)段、系統(tǒng)調(diào)頻需求、溫度和濕度四類(lèi)特征項(xiàng)。
(2) 取α=0.5,通過(guò)mixup方法進(jìn)行出清價(jià)格數(shù)據(jù)增強(qiáng)得到數(shù)據(jù)如圖3所示,其中后360個(gè)數(shù)據(jù)為原始數(shù)據(jù)。
圖3 數(shù)據(jù)增強(qiáng)后的出清價(jià)格數(shù)據(jù)
由引言對(duì)mixup方法的分析可知出清價(jià)格與時(shí)間的相關(guān)性會(huì)受到影響,這一點(diǎn)由圖3可看出,但本文在特征選取時(shí)已將時(shí)段數(shù)據(jù)作為其中一項(xiàng),因此可避免此類(lèi)影響。
(3) 對(duì)出清價(jià)格進(jìn)行HHT分析,得到各分量及其瞬時(shí)頻率如圖4、圖5所示。
由圖4~圖5可知:IMF1~I(xiàn)MF3頻率值較高,均值大于0.05。采用GradientBoostingRegressor算法;瞬時(shí)頻率均值小于0.05的低頻分量IMF4~I(xiàn)MF7和余項(xiàng)RESn采用神經(jīng)網(wǎng)絡(luò)算法。
圖4 EMD分解結(jié)果
圖5 各分量瞬時(shí)頻率
為證明GradientBoostingRegressor算法的優(yōu)越性,選擇KNeighbordRegressor、ExtraTreesRegressor算法,對(duì)IMF1進(jìn)行擬合,并預(yù)測(cè)未來(lái)24小時(shí)時(shí)段的出清價(jià)格高頻分量,結(jié)果如圖6所示。
圖6 IMF1預(yù)測(cè)結(jié)果
采用平均絕對(duì)誤差MAE、均方誤差MSE對(duì)模型進(jìn)行評(píng)價(jià)。值越小說(shuō)明誤差越小,預(yù)測(cè)效果越好[7]。對(duì)比結(jié)果如表1所示。
表1 預(yù)測(cè)對(duì)比
分析圖6和表1,針對(duì)本文設(shè)置的特征項(xiàng)與預(yù)測(cè)目標(biāo)項(xiàng),GradientBoostingRegressor的預(yù)測(cè)效果相對(duì)較好。
(4) 訓(xùn)練模型并預(yù)測(cè)。為對(duì)比mixup與HHT融合的方法是否具有優(yōu)越性,本文建立另外兩類(lèi)模型。
① 采用原始出清價(jià)格數(shù)據(jù),使用GradientBoostingRegressor算法模型進(jìn)行價(jià)格預(yù)測(cè)。
② 采用原始出清價(jià)格數(shù)據(jù),但該模型將對(duì)數(shù)據(jù)進(jìn)行HHT分解分析,并同本文前述方法針對(duì)高低頻IMF分量進(jìn)行單獨(dú)預(yù)測(cè)并累加得到預(yù)測(cè)結(jié)果。
三種方法對(duì)未來(lái)24個(gè)時(shí)段出清價(jià)格預(yù)測(cè)得到的結(jié)果,如圖7所示。
圖7 出清價(jià)格預(yù)測(cè)結(jié)果
定義新指標(biāo)回歸預(yù)測(cè)平均準(zhǔn)確率MA(mean accuracy):
(10)
Ei=|y預(yù)測(cè)值-y實(shí)際值|/y實(shí)際值
(11)
對(duì)比結(jié)果見(jiàn)表2。
表2 電價(jià)預(yù)測(cè)對(duì)比
由表2可知,盡管經(jīng)過(guò)HHT分解后的組合預(yù)測(cè)方法較單一模型相比已提升35.48%準(zhǔn)確率,但采用mixup數(shù)據(jù)擴(kuò)充和HHT分解后的模型與HHT方法相比,可進(jìn)一步提升準(zhǔn)確率1.89%。
本文提出的基于mixup和HHT的出清電價(jià)組合預(yù)測(cè)方法,可改善由于電力市場(chǎng)改革過(guò)程中交易系統(tǒng)運(yùn)行數(shù)據(jù)量少、競(jìng)價(jià)規(guī)則計(jì)算方式引起的數(shù)據(jù)波動(dòng)性增加和單一預(yù)測(cè)方法準(zhǔn)確性低等對(duì)于預(yù)測(cè)結(jié)果的影響,從而提升預(yù)測(cè)準(zhǔn)確率。