王歌,劉世章,戴松霖
昆侖數智科技有限責任公司
隨著中國城鎮(zhèn)化率的不斷提升,以及“碳達峰、碳中和”目標的提出,作為清潔能源,天然氣在能源消費中的占比快速增加。國家能源局發(fā)布的《中國天然氣發(fā)展報告(2021)》顯示,2020 年全國天然氣消費量同比增長6.9%,從消費結構看,城市燃氣同比增長10.5%,占比32%[1]。其中,根據國家統(tǒng)計局公布的數據,2020 年居民生活天然氣消費總量為560×108m3,同比增長11.5%??梢灶A見的是,未來隨著城市燃氣的發(fā)展和“煤改氣”逐步推進,居民用天然氣的市場份額將不斷擴大。作為城市燃氣中的基礎,居民用氣的穩(wěn)定供應關乎百姓民生。然而,近年來供暖季“氣荒”現(xiàn)象卻頻頻出現(xiàn),利用歷史數據對居民用氣規(guī)模進行準確預測,以實現(xiàn)對天然氣資源采購、管網鋪設及市場銷售的合理規(guī)劃,成為當下亟待解決的問題。
目前對于居民用天然氣需求預測的研究按照時間跨度可分為短期、中期、長期預測3 種:短期預測通常是預測未來一周、一天或者一小時的負荷,以對天然氣短時間內的使用情況提供理論依據,實現(xiàn)資源的合理調配;中期預測一般是以月或者季度為單位進行預測,為決策者合理安排計劃、進行人員調動、設備維修維護等提供指導;長期預測通常以年為單位,通過對宏觀數據的預測,為城市提供管道建設的理論依據[2]。在模型選擇上,既有時間序列模型、回歸模型、灰色預測、不均勻系數等傳統(tǒng)預測模型,也有為處理大規(guī)模數據中所蘊含的規(guī)律而使用的SVM(支持向量機)、小波分析、神經網絡等深度學習模型,還有由此衍生出的用以提升預測精度的組合模型,包括對組合中各預測方法加權平均、多個模型結果取最優(yōu)、將一個模型的輸出結果作為另一個模型的輸入等組合方式。
針對不同類型的天然氣需求預測,學者們選擇了不同的數學模型對其進行預測。胡凱[3]利用2015—2018 年合肥燃氣公司的季度數據擬合Holt-Winter 加法模型實現(xiàn)了對燃氣負荷的季度預測,最終將模型的預測誤差控制在10% 以內。武海琴[4]在對北方某城市的冬季用氣數據進行分析后,建立了居民用氣負荷與日均氣溫的回歸模型,得到較好的預測效果。張超等[5]使用支持向量機建立以氣候因素為主要因素的預測模型,最終預測結果與實際值誤差在2% 左右。在組合預測上,舒漫[6]利用成都市天然氣日負荷數據及季度負荷數據,建立了XGBoost(eXtreme Gradient Boosting,極端 梯度提升)預測模型,將預測平均絕對百分比誤差降至2.1%。
通過以上文獻的梳理可以看到,以往對居民用天然氣需求的預測研究,更多的是基于目標城市的居民用天然氣消費數據,通過擬合模型實現(xiàn)對未來需求的預測,但是該類方法不能對無法獲取歷史數據的城市進行預測。因此,考慮到同省份地域接壤城市在居民用氣習慣、天然氣市場份額、管網規(guī)劃等方面往往具有相似性,本文擬使用同省份與目標城市接壤城市的宏觀統(tǒng)計數據和歷史用氣數據,利用回歸分析和隨機森林模型相結合的方式,建立居民用氣需求預測模型,提升模型的可解釋性與準確度,實現(xiàn)對無法獲取歷史數據的城市居民用天然氣需求量的準確預測。本文所預測的居民用氣數據顆粒度為城市居民用氣量的月度值。
在實際的預測研究中,常常會遇到研究對象歷史數據無法取得的情況,如在天然氣新建管網時期,就需要在缺乏可參考數據的情況下對目標城市用氣量進行合理預測。由于鄰近城市的政策與經濟發(fā)展狀況相似、人口基數接近、生活習慣類似、氣候相近,因此本文借鑒Chong 等[7]、張璇等[8]的思路,使用與目標城市接壤的地級市數據進行模型的擬合。具體而言,在選擇用于建模的城市時,主要考慮以下兩方面:一是要綜合考慮目標城市所屬省份各城市的地理位置情況,選擇與目標城市接壤的城市,例如對于內陸城市,則應在保證數據質量的情況下盡可能選擇同樣為內陸城市的接壤城市;二是考慮到接壤城市的歷史數據應具有一定規(guī)模且用戶用氣情況穩(wěn)定,因此本文以同省份各城市用戶數量的中位數為標準,在符合條件的接壤城市中選擇用戶數量在中位數以上的城市。
而在預測模型的選擇上,本文使用回歸分析與隨機森林模型相結合的組合預測方式,具體流程如下:
1)本文的研究對象是無法獲取歷史數據的城市,在變量選取上考慮與接壤城市有共通性的宏觀變量,并采用定性與定量相結合的方式,即先根據過往研究成果及接壤城市與目標城市的現(xiàn)狀,定性居民用天然氣消費量的影響因素,而后使用回歸分析,定量確定影響需求預測的變量。
2)將選定的變量傳入隨機森林模型,利用接壤城市數據構建居民用氣量的預測模型,并以此來預測目標城市的居民天然氣用量。其中,隨機森林建模過程如下:①讀入接壤城市數據,并確定隨機森林模型中要進行調參的參數,以使模型有更準確地預測效果。本文選取了決策樹個數、最大深度、最小分離樣本數(拆分決策樹的節(jié)點要求的最小樣本數)、最小葉子節(jié)點樣本數(每個葉節(jié)點需要包含的最小樣本數)、最大分離特征數(尋找最佳節(jié)點分割時要考慮的特征變量數量)等5 個參數,并在模型訓練過程中對各參數的范圍進行劃定,初步確定參數的最佳范圍。②在劃定的范圍之內,使用隨機搜索(Randomized Search CV)的方式,將需要調參的各參數進行匹配,確定最佳的取值組合。為防止此時的最佳組合只是局部最優(yōu)而非全局最優(yōu)組合,需在最佳組合的臨近范圍內重新劃定各參數的取值范圍并進行網格搜索,通過多次循環(huán)此步驟找到最佳的參數組合。③使用②中的參數組合即可得到最終的隨機森林預測模型。
相比于以往的模型,此預測方法的優(yōu)點在于:一是回歸分析和隨機森林模型均適用于中長期預測[9],若單獨使用回歸模型,則無法很好地應對冬季供暖期天然氣用量大幅上升的情況,而隨機森林模型可以隨機選擇樣本與特征構建多個決策樹,既提升了對冬季數據的擬合能力,也能很好地減弱過擬合的發(fā)生,同時還具有很好的魯棒性;二是雖然隨機森林有利于提升模型預測準確度,但在模型解釋性上表現(xiàn)較差,回歸分析則可以很好地彌補這一點。
基于上述模型設計思路,本文的預測流程見圖1。
圖1 預測流程圖
本文以北方某省份為研究對象,所使用的城市居民用氣量數據來自某天然氣公司的終端銷售數據。該數據均為物聯(lián)網遠傳表數據,每日定時上傳用戶當日用氣情況,可以真實反映各市的民用天然氣消費情況??紤]到用于研究的數據應處于各市的成熟用氣階段,因此本文選取的建模數據時間范圍為2020—2022 年。
本文所使用的宏觀經濟數據,是由該省份各城市統(tǒng)計局官方網站上公布的統(tǒng)計月報整理所得,并根據該省份統(tǒng)計年鑒[10-11]進行修正。
在城市的選擇上,本文以該省份L 市作為目標城市,預測其2021—2022 年居民用氣情況。同時,選擇在2022 年12 月1 日零時,居民用戶數量在3 萬以上的3 個城市——H 市、J市、A 市為L 市的接壤城市,使用這3 個城市的相關數據構建預測模型。
為提高樣本數據的代表性,本文對所使用的數據進行如下處理:①由于原始數據為各城市居民用戶的日用氣量(遠傳表上傳),需要對居民日用氣量進行分月加總,得到各城市的月度用氣量;②由于在遠傳表試運行階段,用戶規(guī)模及用氣量有時會偏離正常值,有時也會存在數據沖正等情況,所以用氣數據在其數據分布曲線的兩端均存在較多異常值,因此對接壤城市數據進行雙側10%的截尾處理(將大于90%分位數或小于10%分位數的取值替換為缺失值),以消除異常值對模型的干擾;③由于各城市的經濟收入數據為季度數據、人口數據為年度數據,考慮到這些數據在一定時間內具有相對穩(wěn)定性,因此對其進行均值插補,即對于經濟數據,季度內各月取季度均值,對于人口數據,年內各月取年度均值;④由于各變量數據的數量級相差較大,因此使用Z-Score(標準分數,將一個數與平均數的差再除以標準差,見公式(1))對各變量的數據進行標準化處理,以使模型在訓練時能夠更快的收斂到最優(yōu)解。
式中:Z——標準分數;X——原始數據;——平均數;s——標準差。
圖2 為處理后的接壤城市各月用氣量數據。
圖2 接壤城市各月用氣量
表1 為各城市居民月度用氣量的描述性統(tǒng)計值,其中用氣量一欄為截尾處理前的原始數據,Q為截尾處理后的用氣量數據,由于目標城市為預測對象,因此沒有截尾數據,只報告原始數據情況。從表1可以看到用氣量數據的整體分布情況。原始用氣量數據的離群值較多,最大值與最小值相差很大,右側拖尾嚴重,同時中位數遠小于均值,呈現(xiàn)右偏分布。在進行截尾處理后,變量Q的均值與中位數更接近,說明對其進行10%的截尾處理是合適的。
表1 各城市居民月度用氣量描述統(tǒng)計信息 單位:m3
影響居民天然氣使用量的因素復雜多樣,鑒于利用接壤城市對無法獲取歷史數據城市的居民用氣量進行預測,因此本文聚焦于宏觀因素對用氣量的影響。一般而言,影響居民用氣量的宏觀因素主要有4 個方面。
3.1.1 經濟因素
城市的整體經濟狀況一方面決定著該市居民的收入水平,居民的可支配收入越高,消費意愿越高;另一方面也會對周圍城市產生虹吸效應,使該城市的人口維持較高水平的增長。趙立春[12]研究認為,人均可支配收入對高收入和低收入居民的用氣量均有較大影響,其中對高收入群體的影響更顯著,但這個增長關系并不會一直上升,而是在達到一定程度后保持相對穩(wěn)定。同時,由于商業(yè)的繁榮程度影響著居民的生活質量和水平,因此第三產業(yè)與民用天然氣用量也有著此消彼長的關系。王欽等[13]通過構建青島市內四區(qū)用氣量與第三產業(yè)GDP 的一元高次方程,實現(xiàn)了對商業(yè)用氣量的較好擬合。
3.1.2 人口因素
城市的人口數量及結構決定著民用天然氣消費量。城市人口數量越多,民用天然氣消費量也越大。對于居民而言,每個家庭人口越多、家庭中老年人占比越大,用戶的用氣量也會越大。趙立春[12]通過對北京居民進行問卷調查,提出每個家庭人口數、家庭成員年齡結構都不同程度影響著天然氣消費量。
3.1.3 氣候因素
氣候因素主要包括溫度、濕度、降雨量、降雪量等。由于用戶在不同季節(jié)的用氣習慣不同,導致溫度是對民用天然氣用量影響最大的因素。何恒根[14]通過對天氣、日最高溫、日最低溫、日平均溫度、風級、濕度等因素與GDP、人口等因素進行主成分分析,實現(xiàn)對城市天然氣需求的短期預測。另外,不同溫度附近,溫度梯度的變化也不同。陳進殿等[15]提出,天然氣日負荷的溫度梯度在不同地區(qū)、不同溫度節(jié)點處差別較大,在調峰時要關注日負荷溫度梯度較大的省市。
3.1.4 其他影響因素
除了以上提及的因素以外,還有許多隨機性的外部因素會對居民用氣量產生影響。如政府出臺的環(huán)保法規(guī)以及對天然氣的扶持政策,燃氣公司對天然氣價格的不定期調整,以及節(jié)假日、冬季采暖等。
因此,本文綜合前人的研究以及統(tǒng)計數據的可得性,在模型的變量選擇上主要考慮城市的經濟、人口、氣候等3 方面因素。
3.2.1 回歸模型構建
根據3.1 中選取的前3 方面因素,結合各城市公布的月度統(tǒng)計指標,進一步將各影響因素選取的變量縮小為以下幾個:經濟因素使用第三產業(yè)GDP描繪城市發(fā)展狀況,同時選取城鎮(zhèn)人均可支配收入描繪居民收入情況;人口因素選擇城鎮(zhèn)常住人口;氣候因素選擇月均氣溫。除此以外,本文借鑒嚴銘卿[2]和王欽等[13]的研究,加入第三產業(yè)GDP 的二次項,并構建如下回歸模型來定量衡量各自變量是否對用氣量有顯著影響,以確定用于構建隨機森林模型的變量:
式中:Qi——i城市居民的月用氣量,m3;Gi——i城市的第三產業(yè)GDP,108元;Ii——i城市居民的城鎮(zhèn)人均可支配收入,元/人;Pi——i城市城鎮(zhèn)常住人口 ,104人;Ti——i城市的月平均氣溫,℃;β0——模型的常數項;β1~ β5——各變量的回歸系數;εi——隨機誤差項,它包括除模型中各自變量以外影響用氣量Q的其他因素。
3.2.2 回歸結果分析
利用三個接壤城市數據,建立式(3)的回歸模型,本文在回歸時使用穩(wěn)健標準誤差以修正模型中可能存在的異方差,使模型顯著性結果更穩(wěn)健。
式中:Q——居民月用氣量,m3;G——第三產業(yè)GDP,108元;I——居民城鎮(zhèn)人均可支配收入,元/人;P——城鎮(zhèn)常住人口,104人;T——月平均氣溫,℃。
模型結果見表2??梢钥闯?,各變量的系數均在1%的水平上顯著,說明各變量均對居民的用氣規(guī)模有顯著影響,可以用于建立隨機森林模型。
表2 回歸模型1%顯著性水平下系數
雖然本文中回歸模型旨在驗證各變量對城市用氣規(guī)模的影響,但系數的正負與數值大小也在一定程度上反映了各變量對用氣規(guī)模的影響方向及程度,為模型提供了解釋性。分系數來看,G2系數為正,G的系數為負,說明在第三產業(yè)發(fā)展初期,對居民用氣量存在抑制作用,但隨著第三產業(yè)的不斷發(fā)展,其促進作用大于抑制作用,這可能是由于經濟的發(fā)展帶來的虹吸效應,吸引了更多的人口聚集到該區(qū)域,使其對居民用氣量的促進作用超過了抑制作用;I系數顯著為正,表明其他條件不變的情況下,隨著經濟的發(fā)展和收入的不斷提高,民用天然氣消費量也在不斷提高;P系數為正,符合預期,說明人口數越多,天然氣用量越大;T系數也與預期相符,在其他變量保持不變時,月平均氣溫每提高1度居民用氣規(guī)模降低504 m3,表明溫度越低,居民天然氣用量越大。因此,當季節(jié)變換時,要及時調整天然氣供應,保證居民用氣需求。
3.2.3 回歸穩(wěn)健性檢驗
為驗證上文回歸結果的穩(wěn)健性,本文采用替換自變量的方法進行穩(wěn)健性檢驗,將第三產業(yè)GDP 及其平方項用GDP 及其平方項替換,并進行回歸檢驗,回歸結果見表3,可以看到各變量回歸系數依然是顯著的。說明前文回歸分析模型中,各變量對用氣量均有顯著影響,驗證了回歸分析結果的可靠性,可以利用回歸模型中的自變量建立隨機森林的預測模型。
表3 更換變量的穩(wěn)健性檢驗結果
利用回歸分析的結果,將選取的變量作為隨機森林模型的輸入變量,使用接壤城市數據,利用python 進行隨機森林模型構建,根據1.1 中所選擇的調參參數,設定各參數的初始取值范圍見表4。
表4 隨機森林模型各參數取值
表4 中,決策樹個數從100 至2 000,取值間隔為50;最大深度取值不限,或從10 至500,取值間隔為50;最大分離特征數取“auto”(即分枝時考慮的特征個數最大等于決策樹個數)或“sqrt”(即分枝時考慮的特征個數最大等于決策樹個數的平方根)。
根據初始范圍,使用3 折交叉驗證與隨機搜索(即隨機匹配超參數組合,不對所有組合遍歷,本文設置匹配200 次)的方式優(yōu)化參數,得到最優(yōu)組合,但由于是隨機搜索,因此為防止此最優(yōu)組合為局部最優(yōu),在最優(yōu)值附近劃定范圍,使用網格搜索對每一種匹配進行遍歷,最終得到的隨機森林模型各參數取值見表5。
表5 用于預測的隨機森林模型各參數取值
根據L 市統(tǒng)計數據,使用上文建立的隨機森林模型對接壤城市和L 市2021—2022 年的居民用氣規(guī)模進行預測。同時,由于在天然氣需求的研究中,SVM、XGBoost 也是經常用到的模型,其中既有用于短期預測的研究[5,6,16-17],也有用于中長期預測的研究[6,18],因此本文將隨機森林的預測結果與SVM、XGBoost 的預測結果進行對比,接壤城市預測結果及目標城市預測結果分別見圖3 和圖4。
圖3 接壤城市訓練集各模型預測結果對比
圖4 目標城市測試集各模型預測結果對比
其中,由于在建模前對數據進行了標準化,因此縱軸會存在負值,橫軸代表日期ID(將2020 年1 月記為0,2020 年2 月為1,以此類推)??梢钥吹?,隨機森林較為準確的預測了全年的用氣情況,而XGBoost 只追蹤到了較高用氣量的情況,SVM 則正相反,只能擬合用氣量較低的春夏季。
此外,還要對建立的模型進行變量重要性分析,用以確定各變量在建立決策樹及劃分節(jié)點時的重要程度(結果見圖5)。在建立模型的過程中,溫度是最為重要的影響因素,與回歸分析中得到的結論相互印證。主要是短時間內人口、經濟狀況、收入等因素往往較為穩(wěn)定,但當跨年度進行預測時,這些變量的作用就會顯現(xiàn)。
圖5 變量重要性分析
本文使用均方誤差、模型擬合優(yōu)度兩項指標來衡量隨機森林、SVM、XGBoost 模型以及3.2 節(jié)中構建的回歸模型的預測效果。
式中:RMSE——均方誤差;R2——模型擬合優(yōu)度;yi——用氣量真實值,m3;——用氣量預測值,m3;——用氣量的均值,m3。
以上評價指標均使用目標城市數據計算(結果見表6),可以看到相比于其他模型,隨機森林的預測效果最好,RMSE僅為6.4%,這一結果與圖4 預測結果對比圖中的數值也相吻合。
表6 各模型預測效果對比
本文針對目標城市無法獲取居民歷史用氣量數據的情況,利用北方某省份2020—2022 年的居民用氣數據,結合與目標城市接壤的城市統(tǒng)計月報及所在省份統(tǒng)計年鑒數據,建立了居民用氣規(guī)模的隨機森林預測模型,并與回歸模型、SVM、XGBoost 等模型的預測效果進行對比。實證結果表明,通過定性與定量相結合的方式選取模型變量,不僅為機器學習預測模型的變量選取提供了理論及技術依據,同時也為模型提供了可解釋性。此外,相比于其他模型,隨機森林模型預測的均方誤差僅為6.4%,取得了更好的預測效果,能夠實現(xiàn)對目標城市各月用氣波動的準確預測。
在實際應用中,應根據各城市的用戶數量,合理劃定用于構建模型的城市范圍,盡可能增大用于建模的樣本數量,以使模型更好的挖掘其中的規(guī)律。另一方面,可根據當地實際公布的統(tǒng)計指標對選取的變量進行靈活調整,實現(xiàn)更好的預測效果。