王 兵,吳思琪,方 宇
西南石油大學 計算機科學學院,成都 610500
對于天然氣輸配系統(tǒng)來說,負荷預測模塊是重要組成部分。精準的燃氣負荷預測結果可以幫助有效地規(guī)劃燃氣供應,實現(xiàn)燃氣的科學調度。
目前燃氣負荷預測有大量國內外的研究。Akpinar等人[1]使用時間序列分解和季節(jié)ARIMA(autoregressive integrated moving average)模型來預測天然氣的每日和每月需求。Fabbiani等人[2]指出使用線性回歸、隨機森林、支持向量機等單一模型不如集成模型效果好。Anelkovi等人[3]根據(jù)歐洲天然氣市場的使用特點設計了一種自適應神經模糊推理系統(tǒng),該系統(tǒng)融合了神經網(wǎng)絡和模糊邏輯原理。Yukseltan等人[4]提出的預測模型中引入了傅里葉級數(shù),并且使用了預測日溫度的偏差作為回歸因子。Zhou等人[5]結合燃氣負荷序列的非線性和周期性特征設計了一種新型離散灰色預測模型,使用文化算法對預測過程進行了優(yōu)化。Wu等人[6]在預測燃氣用量的時候使用了灰色伯努利模型,并且基于模型的線性化形式使用了粒子群優(yōu)化算法確定非線性參數(shù)。張彤[7]提出一種改進的LMD(local mean decomposition)算法與GRU(gated recurrent unit)相結合的組合預測模型。王曉霞等人[8]將AE(auto-encoder)和EEMD(ensemble empirical mode decomposition)兩種優(yōu)化算法進行融合,另外結合LSTM(long short-term memory)網(wǎng)絡形成一種新的基于EEAE-LSTM多模型融合預測模型。龔承柱等人[9]基于燃氣負荷的特點建立了基于經驗模態(tài)分解、相空間重構、最小二乘支持向量機的組合預測模型,指出組合模型的預測精度更高。陸繼翔等人[10]先采用CNN(convolutional neural network)提取特征向量,然后將特征向量以時序序列方式構造并作為LSTM網(wǎng)絡輸入數(shù)據(jù),再采用LSTM網(wǎng)絡進行短期負荷預測。宋娟等人[11]提出了一種兼顧多元線性回歸的非線性特性和BP神經網(wǎng)絡的泛化特性的混合預測模型。陳川等人[12]結合燃氣負荷特征建立了基于BP神經網(wǎng)絡、經驗模態(tài)分解、長短期記憶神經網(wǎng)絡的組合預測模型。
三支決策作為一個重要的決策方法論在近些年得到了蓬勃發(fā)展,Yang等人[13]使用復雜網(wǎng)絡對三支決策的應用、三支決策的發(fā)展方向等進行了分析綜述。在不同的研究背景下很多研究對三分和三支兩個任務進行具體的構造和解釋,提出了大量三支決策的模型和應用,如相控陣雷達、疫情復工、屬性約簡、臨床診斷、論文同行評審、投資決策、文本分類、郵件過濾、推薦系統(tǒng)、聚類分析和人臉識別[14-20]等。
燃氣負荷預測可以看作一個時序預測問題,且負荷受天氣、溫度等多種外部因素影響,復雜多變。雖然目前已有大量關于燃氣負荷預測的研究,但鮮有學者將三支決策理論應用于燃氣負荷預測過程中。本文使用歷史負荷數(shù)據(jù)和負荷影響因素進行短期燃氣負荷預測,在此基礎上提出了一種三支殘差修正的短期燃氣負荷組合預測模型。該模型可以提高負荷預測準確度,幫助實現(xiàn)更為科學的燃氣調度。
ARIMA(p,d,q)指的是差分自回歸移動平均模型[21],首先通過d階差分將非平穩(wěn)序列轉化為平穩(wěn)序列,再通過自回歸模型AR(p)和移動平均模型MA(q)的組合對當前時刻t的值xt求解,可表示為:
LightGBM(light gradient boosting machine)指的是輕量級的梯度提升機[22],是一個基于樹模型的分布式梯度增強框架,具有訓練速度快、內存占用低、準確性高、支持并行和GPU學習的特點。
STL(seasonal and trend decomposition using Loess)[23]是以魯棒局部加權回歸(robust locally weighted regression)作為平滑方法的時間序列分解方法。魯棒局部加權回歸[24]由Cleveland提出,結合了局部加權回歸和強魯棒性的擬合過程,利用局部觀測數(shù)據(jù)對欲擬合點進行擬合。
基于評價函數(shù)的三支決策[25]是解決實用性問題的有效途徑。三支決策理論強調“三分三治”來處理不確定性問題。假設U是一個有限非空的對象集合,C是一個有限的條件集合。“三分”指的是引入評價函數(shù)v(x)和閾值對(α,β)對U進行劃分,其中α≥β;“三治”指的是對劃分后的區(qū)域采取不同的處理方式。U基于評價函數(shù)v(x)和閾值對(α,β)劃分為L-region、M-region、R-region,簡記為L、M、R:
為了提高燃氣負荷預測的精度,本文首先基于燃氣負荷序列特點構造了一種組合預測模型,接著設計了三支殘差修正法來修正模型的預測結果,并將這個模型命名為DA-LGBM-3WRC(double ARIMA and LightGBM with three-way residual correction)。DA-LGBM-3WRC
模型首先使用STL將負荷序列分解成趨勢項、周期項和余項,然后結合了時序模型ARIMA和機器學習模型LightGBM各自的預測優(yōu)勢,分別處理分解后的負荷分量,最后使用了三支殘差修正法(three-way residual correction,3WRC)對LightGBM的預測結果進行修正。接下來將詳細介紹DA-LGBM-3WRC模型的原理及算法流程。
三支決策理論[26]最早由姚一豫教授提出,用于靈活處理現(xiàn)實中的不確定性問題。三支決策理論在兩種極端下引入第三種情況來緩和二支決策的不合理性,其主要思想是將整體劃分為三個獨立的部分,對每部分分別采取不同的處理方式。殘差是觀察值與模型預測值之間的差,對殘差進行修正可以進一步改進模型效果,提升模型準確率。故基于三支決策理論設計了三支殘差修正法,如算法1所示,用于對LightGBM子模型產生的預測值進行修正,進一步提高預測準確率。3WRC模型流程如圖1所示。
算法1三支殘差修正法
(1)初始化k;
(2)使用聚類算法將restrain劃分為k個簇;
(3)β=最小質心所在簇的最大值;α=最大質心所在簇的最小值;
(4)用restrain擬合ARIMA模型,得到預測殘差序列resarima;
(5)根據(jù)式(2)和v(x)處理resarima得到res3wrc;
(6)返回res3wrc。
其中restrain為用作訓練的殘差序列,k為超參數(shù),v(x)為三支決策理論中的評價函數(shù)。3WRC可以將殘差圈定在一定的波動范圍內,將修正后的殘差再加回LightGBM的預測值上,能一定程度上修正LightGBM預測值,達到更好的預測效果。
燃氣負荷數(shù)據(jù)具有長期趨勢、周期波動及隨機波動相結合的特點,使用STL可以將燃氣負荷序列分解為趨勢項、周期項和余項,針對三個不同的分量選用各自適用的模型,能最大程度地提取信息,提高預測精度。ARIMA模型只需要自身數(shù)據(jù)序列而不需要借助其他變量,且適用于規(guī)律性和周期性明顯的序列,LightGBM具有訓練速度快、準確率高、泛化性強的特點,因此DA-LGBM-3WRC將ARIMA用于趨勢項和周期項的預測,將LightGBM用于余項的預測,可以充分提取數(shù)據(jù)中的潛在信息。結合第2.1節(jié)中的3WRC對余項的預測殘差進行修正,可以進一步提高預測準確度。
DA-LGBM-3WRC模型流程如圖2所示。首先使用STL將負荷序列分解成趨勢項、周期項和余項三個分量,趨勢項和周期項分別使用兩個ARIMA模型進行預測,余項使用LightGBM模型進行預測。余項受多種外部因素的影響,如天氣、溫度、節(jié)假日等因素,因此在余項的預測過程中加入了負荷影響因素。最后將三個子模型的預測值進行線性加和就是DA-LGBM-3WRC的最終預測值。
時序數(shù)據(jù)集是按照時間索引排序的一系列數(shù)字,而監(jiān)督學習數(shù)據(jù)集由輸入特征矩陣和輸出標簽組成。燃氣負荷Y是一組時序數(shù)據(jù),要將前i天的歷史負荷數(shù)據(jù)和影響因素導入機器學習模型進行進一步的探索和預測,需對燃氣負荷序列進行轉換。具體轉換過程示意見圖3。
圖3 中,時序的燃氣負荷序列表示為Y(y1,y2,…,ym),如步驟①所示;天氣、溫度等影響因素組成的特征矩陣表示為X=[x1,x2,…,xm]T,如步驟②所示;時間窗口設定為i,即使用前i天的負荷數(shù)據(jù)[ym-i,…,ym-2,ym-1]和影響因素[xm1,xm2,…,xmn]預測當前天ym的負荷,當前i天的負荷數(shù)據(jù)不存在時值置為nan,如步驟③所示;刪除包含nan的行得到最終的監(jiān)督學習數(shù)據(jù)集,如步驟④所示。
基于DA-LGBM-3WDRC組合模型的燃氣負荷預測步驟如下:
(1)數(shù)據(jù)預處理。辨識和修正不良數(shù)據(jù)。
(2)負荷序列分解。采用STL對燃氣負荷序列進行分解,得到趨勢項、周期項和余項。
(3)特征加工與處理。加入天氣、溫度等初始特征,日平均溫度、日期類型等衍生特征,組成特征矩陣,另外確定時間窗口,將時序數(shù)據(jù)轉化為監(jiān)督學習數(shù)據(jù)導入LightGBM模型中使用。
現(xiàn)階段而言,許多的高職院校,誤將校園文化建設理解成物質文化建設,這是十分片面的。誤以為將校園內的設置完善,豐富學生的課余生活,這就是校園文化建設,但是實際上來說,這只是一種娛樂文化,這將會導致娛樂消遣之風在整個校園盛行。高校要進行文化建設,但是卻沒有一個明確的目標,整個局限在對于學生的管理和思想政治教育的基礎層面上,沒有達到整體辦學、培養(yǎng)高素質人才的高層次目標。
(4)各子模型訓練與預測。趨勢分項使用ARIMA模型,周期分項使用ARIMA模型,余項使用LightGBM模型。
(5)三支殘差修正。對LightGBM的余項預測結果使用三支殘差修正法進行修正。
(6)子模型預測結果計算與評價。將三個分量的預測結果進行加和得到最終的DA-LGBM-3WRC組合模型預測結果,使用評價指標對模型預測結果進行評估。
本文選取了某市2016—2018三年的燃氣負荷數(shù)據(jù),共計1 096條記錄。時間窗口選擇為7,轉換為監(jiān)督學習數(shù)據(jù)集之后棄用前7條的數(shù)據(jù),共計1 089條數(shù)據(jù)。根據(jù)數(shù)據(jù)集劃分原則,采取8∶2比例劃分訓練集和測試集,訓練集共計870條記錄,時間跨度為2016-01-08到2018-05-26,測試集共計219條記錄,時間跨度為2018-05-27到2018-12-31。根據(jù)第2.4節(jié)所示步驟建立DA-LGBM-3WRC燃氣組合預測模型并進行評估。原始數(shù)據(jù)如表1所示。
表1 原始數(shù)據(jù)示例Table 1 Raw data example
本文首先分析了DA-LGBM-3WRC中各分量的預測結果,然后分析了DA-LGBM-3WRC的預測結果,與其他模型進行了對比。實驗結果使用平均絕對誤差(MAE)和均方根誤差(RMSE)進行評估,評價指標定義如下:
DA-LGBM-3WRC針對STL分解后的趨勢項、周期項和余項分別使用了ARIMA、ARIMA、LightGBM三個子模型,其中LightGBM模型引入了三支殘差修正法對預測結果進行修正。三個分量預測結果分別對應表2、表3、表4。由表2可知,ARIMA預測趨勢項效果最優(yōu)。由表3可知,ARIMA是預測周期項的最佳選擇。由表4可知,基于3WRC的LightGBM表現(xiàn)更好,具有更優(yōu)的預測效果。
表2 趨勢項對比Table 2 Trend item comparison
表3 周期項對比Table 3 Periodic item comparison
表4 余項對比Table 4 Remaining item comparison
將趨勢項、周期項、余項進行線性加和得到最終預測結果,圖4展示了DA-LGBM-3WRC模型的最終預測結果圖。從DA-LGBM-3WRC的預測曲線來看,其與真實負荷曲線的擬合性較好,能準確跟隨真實走勢。預測曲線相較于真實曲線平滑且波動小,但在真實負荷曲線的毛刺點處具有一定的誤差,原因是毛刺點呈現(xiàn)的波峰波谷受一些隨機因素的影響,而這些因素不可控,復雜多變,難以預測,預測模型想要捕捉這些隨機因素的信息難度較大。
DA-LGBM-3WRC模型主要結合了ARIMA和Light-GBM兩種模型,另外使用了3WRC進行了殘差修正,故繪制了ARIMA單一模型、LightGBM單一模型、DA-LGBM和DA-LGBM-3WRC四條預測曲線進行對比。從圖5中可以看出,ARIMA和LightGBM兩個單一模型的預測值與真實值整體偏差較大,具有明顯的滯后性,預測效果不理想。DA-LGBM的預測曲線與真實曲線的擬合性更好,但在部分數(shù)據(jù)拐點處會出現(xiàn)嚴重偏離真實值情況。而在引入三支殘差修正法之后,DA-LGBM-3WRC模型針對這種情況有了一定程度的改善。另外DA-LGBM-3WRC的預測曲線整體上也比DA-LGBM的曲線更靠近真實曲線。
表5展示了不同模型的預測結果評價指標。
表5 模型對比Table 5 Models comparison
從評價指標來看,DA-LGBM-3WRC的MAE、RMSE是四個模型中最優(yōu)的,分別為50 910、68 784。綜合曲線和評價指標,DA-LGBM-3WRC具有較高的預測精度,由此可見DA-LGBM-3WRC的有效性。
本文為了提高燃氣負荷預測準確度,結合燃氣序列特點構建了使用STL的ARIMA和LightGBM組合預測方法,在組合預測方法的基礎上進一步結合三支決策理論提出了三支殘差修正法,建立了三支殘差修正的DALGBM-3WRC模型。首先給出了ARIMA、LightGBM、STL和三支決策理論的相關簡介,然后詳細闡述了3WRC的設計原理和思想,并給出了算法模型流程圖和算法偽代碼;其次繪制示意圖對數(shù)據(jù)集轉換進行了解釋;最后設計了ARIMA和LightGBM的組合預測模型,使用3WRC對LightGBM的預測結果進行了修正。為了驗證模型DA-LGBM-3WRC的有效性,實驗部分使用真實燃氣負荷數(shù)據(jù),對比了兩個單一模型和不使用3WRC的組合模型,使用MAE、RMSE分析了模型預測結果。DA-LGBM-3WRC組合模型開創(chuàng)性地引入了三支決策,理論分析和實驗結果表明,其預測效果明顯優(yōu)于單一預測模型。未來工作的重點將首先關注尋找更優(yōu)的方法確定3WRC中的閾值對(α,β),以得到更優(yōu)的殘差修正效果;其次將拓展應用場景,進行長期負荷預測場景下的研究。