趙中華,張緒輝,王 太,劉 科,張利孟
(1.國網(wǎng)山東省電力公司電力科學研究院,山東 濟南 250003;2.華北電力大學能源動力與機械工程學院,河北 保定 071003)
近些年,隨著全球工業(yè)化水平以及經(jīng)濟貿(mào)易的飛速發(fā)展,以二氧化碳為主的溫室氣體大量排放所引發(fā)的一系列連鎖性惡劣影響逐漸受到關(guān)注。二十大報告中明確我國將積極穩(wěn)妥推進碳達峰碳中和,協(xié)調(diào)推進降碳、減污,進一步完善碳排放總量和強度“雙控”制度。結(jié)合我國“十四五”階段碳排放強度規(guī)劃與宏觀發(fā)展戰(zhàn)略,各級政府紛紛將“雙碳”目標列為經(jīng)濟發(fā)展環(huán)節(jié)的重要任務(wù),相繼頒布一系列政策措施。在節(jié)能減排的大背景下,通過理論方法實現(xiàn)碳排放量準確預(yù)測,對于政府部門制定合理決策具有重要意義[1-3]。
在碳排放預(yù)測這一領(lǐng)域,相關(guān)學者已開展一系列探索工作。Wang 等將相關(guān)變量功率指數(shù)項作為外因變量輸入至非線性灰度多變量模型,預(yù)測我國由于化石能源消耗而導(dǎo)致的碳排放量[4]。宋杰鯤以城市化率、工業(yè)化水平、煤炭及石油消費比例等因素作為自變量,提出基于偏最小二乘回歸的碳排放量預(yù)測方法[5]。仇國芳等充分利用粗糙集理論的不完備信息分析能力,選取碳排放影響因素并構(gòu)建約簡指標體系,結(jié)合神經(jīng)網(wǎng)絡(luò)對陜西省碳排放趨勢進行預(yù)測[6]。王迪等同時考慮能源結(jié)構(gòu)背景、基準背景和政策法規(guī)背景,通過波動規(guī)律解析法有效預(yù)測我國二氧化碳的減排潛力[7]。劉廣為等融合脈沖響應(yīng)函數(shù)、二階差分方程和向量自回歸模型,從第三產(chǎn)業(yè)占比角度預(yù)測我國未來碳排放強度[8]。由于碳排放受多種因素影響,上述方法會出現(xiàn)相關(guān)變量互相耦合、過擬合和欠擬合造成的準確度降低問題,還存在相關(guān)參數(shù)設(shè)置的主觀性導(dǎo)致的模型穩(wěn)定性降低問題。
在我國各類行業(yè)領(lǐng)域中,電力行業(yè)耗能遠高于其他行業(yè),相應(yīng)的碳排放量居于各類行業(yè)之首。圍繞電力行業(yè)碳排放量展開預(yù)測研究,已成為我國各省市地區(qū)快速能源轉(zhuǎn)型關(guān)鍵所在。在傳統(tǒng)人工蜂群算法中引入遺傳學習策略,提出進化人工蜂群算法,并充分發(fā)揮其全局搜尋能力,對隨機森林回歸模型的最佳參數(shù)進行自動搜索,提出一種基于進化人工蜂群算法優(yōu)化的隨機森林回歸預(yù)測模型,旨在實現(xiàn)電力行業(yè)碳排放量未來發(fā)展趨勢的準確預(yù)測,為節(jié)能減排政策制定提供有力支撐。
作為研究能源經(jīng)濟與碳排放量的重要工具,環(huán)境影響評估模型建立環(huán)境影響、人均財富、人口規(guī)模以及環(huán)境毀壞等因素與碳排放量間的映射關(guān)系[9],表達式為
式中:C為碳排放量;R為人口總量;A為人均國內(nèi)生產(chǎn)總值;T為能源強度;e為隨機誤差;a為常數(shù)項;b、c、m為驅(qū)動參數(shù)。
為準確預(yù)測電力行業(yè)碳排放量發(fā)展趨勢,在前期研究中利用對數(shù)平均迪式指數(shù)法對電力行業(yè)碳排放量關(guān)聯(lián)影響因素進行分析,發(fā)現(xiàn)供電人口、國內(nèi)生產(chǎn)總值單耗、電力供需結(jié)構(gòu)、人均用電量4 項因素與電力行業(yè)碳排放量間的相關(guān)系數(shù)均大于0.9,呈現(xiàn)較高的相關(guān)性。因此,在環(huán)境影響評估模型基礎(chǔ)上,對模型中的人口數(shù)量、人均國內(nèi)生產(chǎn)總值和能源強度因素所帶來的影響進行擴充改進,進一步將供電人口數(shù)、國內(nèi)生產(chǎn)總值單耗、電力供需結(jié)構(gòu)和人均用電量4 項關(guān)鍵影響因素作為電力行業(yè)碳排放量預(yù)測的限定自變量。
由于獨立預(yù)測器在數(shù)據(jù)結(jié)構(gòu)單一、數(shù)據(jù)質(zhì)量參差不齊條件下的應(yīng)用存在局限性,集成學習逐漸成為小樣本數(shù)據(jù)預(yù)測的有力補充。作為集成學習理論的代表,隨機森林回歸(random forest regression,RFR)模型借鑒“民主投票”原理集合多個決策樹構(gòu)造出強化預(yù)測器,解決單一預(yù)測器精度不高的問題,已被廣泛應(yīng)用于數(shù)據(jù)回歸預(yù)測中[10-11]。
利用RFR 模型進行數(shù)據(jù)回歸預(yù)測時,首先通過自助法對原始樣本集進行有放回抽樣,隨機生成若干組訓(xùn)練樣本,并基于每組新樣本構(gòu)建決策樹。在定義決策樹內(nèi)部各節(jié)點屬性時,從決策樹根部節(jié)點開始,在訓(xùn)練樣本所有屬性中隨機抽取若干屬性作為節(jié)點屬性集,并根據(jù)基尼指數(shù)最小化評價規(guī)則篩選出最優(yōu)屬性,然后采用二分遞歸策略進行屬性分裂和節(jié)點構(gòu)造,在決策樹生長過程中不進行剪枝處理,直到滿足條件停止分裂并形成完整的葉節(jié)點。整個預(yù)測過程建立在決策樹根節(jié)點至葉節(jié)點的路徑上,每個決策樹生成1 個輸出值后,最終將所有決策樹輸出值的加權(quán)平均值視為預(yù)測結(jié)果,RFR 模型預(yù)測原理如圖1 所示。
圖1 RFR模型預(yù)測原理Fig.1 Prediction principle of RFR model
相對于其他回歸預(yù)測模型,RFR 模型能夠有效避免單一預(yù)測器存在的過擬合問題,預(yù)測規(guī)則更簡單,計算速度更快,泛化能力更強,穩(wěn)定性更佳。
受蜂群尋找優(yōu)質(zhì)蜜源行為的啟發(fā),人工峰群(artificial bee colony,ABC)算法通過人工蜂個體對蜜源質(zhì)量優(yōu)劣的比對來求解非線性多目標、多約束問題[12]。相比于其他類型的群啟發(fā)式智能尋優(yōu)算法,ABC 算法具有結(jié)構(gòu)簡單、探索速度快、魯棒性強、關(guān)聯(lián)參數(shù)少等優(yōu)點。但是,由于該算法的雇傭蜂尋蜜階段和偵察蜂尋蜜階段搜索策略相同,容易陷入局部最優(yōu)困境[13]。為解決這一問題,借鑒生物種類的遺傳進化過程,在傳統(tǒng)ABC 算法基礎(chǔ)上引入遺傳學習策略,提出一種新穎的進化人工蜂群(evolve artificial bee colony,EABC)算法。在偵察蜂尋蜜階段對每個符合試探次數(shù)的蜜源都進行交叉、變異和選擇操作,每個蜜源Xi=[xi,1,xi,2,…,xi,D]代表優(yōu)化問題的可能解,其中i∈{1,2,…,S}表示人工蜂個數(shù),S為人工蜂個數(shù)的最大值,D表示優(yōu)化問題維度。EABC 算法在保留傳統(tǒng)ABC 算法良好全局搜索能力的前提下,有效提升局部搜索能力及收斂速度,其流程如圖2 所示,具體步驟如下:
圖2 EABC算法流程Fig.2 Process of EABC algorithm
1)隨機生成含有S個初始解的人工蜂種群,即
式中:xmax,j和xmin,j分別為j維變量的上限和下限;r為[0,1]之間的隨機數(shù);i∈{1,2,…,S},j∈{1,2,…,D} 。
2)計算每個蜜源Xi對應(yīng)的適應(yīng)度值f(Xi)。
3)利用雇傭蜂對蜜源進行搜尋,若搜尋到的蜜源適應(yīng)度值優(yōu)于原始蜜源,則更新為
式中:?i,j為[-1~1]之間的隨機數(shù);k為雇傭蜂隨機搜尋到的蜜源,k∈{1,2,…,S}。
4)跟隨蜂利用式(4)計算出的選擇概率對雇傭蜂搜尋到的蜜源做進一步開采,即
5)若雇傭蜂和跟隨蜂搜尋完整個空間后,若某些蜜源的適應(yīng)度值在迭代過程中未得到改善,則對應(yīng)的雇傭蜂成為偵察蜂,通過式(3)重新初始化一個新的蜜源進行代替,并記錄保存當前階段的全局最佳蜜源Xgbest。
6)對于每個被拋棄的蜜源Xi,通過遺傳學習中的交叉操作生成子代Xsol=[xsol1,xsol2,…,xsolD],隨機抽取當前蜂群里的兩個蜜源XQ和XG,令
式中:h為子代備選蜜源序號;Q、G均為隨機抽取蜜源序號;Xsold為生成的d代子蜜源。
7)根據(jù)隨機變異概率pm∈[0,1]對蜜源子代的每一維度進行遺傳學習中的變異操作,若ra<pm,則根據(jù)式(7)初始生成Xsold,即
式中:Xmax,d和Xmin,d分別為子代蜜源的上限和下限。
8)根據(jù)遺傳學習策略中的選擇操作過程,比較隨機初始生成的子代蜜源及被拋棄的蜜源,若優(yōu)于被拋棄蜜源,則結(jié)束遺傳學習過程,反之則不斷重復(fù)偵察蜂尋蜜過程,直到找到更優(yōu)蜜源。
9)對比原始蜜源以及偵察蜂尋蜜階段所得新蜜源的適應(yīng)度值,若優(yōu)于原始蜜源則進行替換,否則返回步驟3)重復(fù)操作過程,達到最大迭代次數(shù)后輸出最終尋優(yōu)結(jié)果。
針對電力行業(yè)碳排放預(yù)測問題,利用RFR 模型進行預(yù)測時,須設(shè)定決策樹個數(shù)和分裂變量數(shù),這兩個參數(shù)會直接影響模型的學習速率和泛化能力,參數(shù)選取的不合理將降低RFR 模型的預(yù)測精度。為保障電力行業(yè)碳排放量預(yù)測結(jié)果的穩(wěn)定性及可靠性,對傳統(tǒng)ABC 算法進行改進,提出EABC 算法,并充分發(fā)揮該算法卓越的全局尋優(yōu)能力,利用其對RFR 模型中的關(guān)鍵影響參數(shù)進行自動搜尋,提出基于EABC 算法優(yōu)化的RFR 預(yù)測模型,從而克服模型參數(shù)人為主觀設(shè)定造成的弊端,整個預(yù)測流程如圖3所示,具體步驟如下:
圖3 碳排放預(yù)測流程Fig.3 Process of carbon emission prediction
1)首先采用可拓展隨機性環(huán)境影響評估模型(stochastic impactsby regression on population affluence and technology,STIRPAT)模型對電力行業(yè)碳排放影響因素進行分析,得到碳排放量及影響因素數(shù)據(jù)。由于碳排放影響因素的單位不同,數(shù)據(jù)之間存在較大的數(shù)量級差異,為避免RFR 模型輸入數(shù)據(jù)數(shù)量級差異而引發(fā)的較大預(yù)測誤差,需要對數(shù)據(jù)進行歸一化預(yù)處理,將其轉(zhuǎn)化為[0~1]之間的數(shù)值。
2)設(shè)置EABC 算法相關(guān)參數(shù)并對人工蜂種群進行初始化操作,本文設(shè)置人工蜂種群規(guī)模為100、最大迭代次數(shù)為50。由于要對RFR 模型中的決策樹個數(shù)和分裂變量數(shù)進行搜索,因此搜索空間維度為2。為防止盲目搜索,需要對各搜索維度的上下限進行設(shè)定,本文選取決策樹個數(shù)的搜索范圍為[10~500]、分裂變量數(shù)的搜尋范圍為[1~10]。
3)對EABC 算法中蜜源的適應(yīng)度函數(shù)進行設(shè)置,定義RFR 模型預(yù)測結(jié)果的均方根誤差為適應(yīng)度函數(shù),將蜜源位置代入適應(yīng)度函數(shù)即可計算出對應(yīng)的適應(yīng)度值,適應(yīng)度值越小則表明蜜源位置越好,從而可以引導(dǎo)整個人工蜂群的尋優(yōu)進程。
4)將電力行業(yè)碳排放量及影響因素數(shù)據(jù)歸一化預(yù)處理后拆分為訓(xùn)練樣本和測試樣本,將訓(xùn)練樣本輸入至RFR 模型對其進行訓(xùn)練,在訓(xùn)練過程中通過圖2 中給出的EABC 算法流程自動搜尋最佳決策樹個數(shù)及分裂變量數(shù),從而得出RFR 模型的最優(yōu)參數(shù)組合。
5)將測試樣本輸入?yún)?shù)優(yōu)化后的RFR 模型,得到最終預(yù)測結(jié)果。結(jié)合實際碳排放量數(shù)據(jù)及RFR模型預(yù)測結(jié)果,利用相關(guān)誤差評價指標對提出的EABC-RFR 模型的預(yù)測精度進行檢驗。
為驗證本文提出的預(yù)測模型,對我國近些年電力行業(yè)碳排放量進行測算。文獻[14-16]中指出,利用限定區(qū)域內(nèi)各類化石能源消耗量乘以其碳排放系數(shù),累積相加即可得到電力行業(yè)能源消耗所引起的碳排放總量,根據(jù)這一準則進行測算,即
式中:C為碳排放量;N為能源種類;En為第n種能源消耗量;Pn為第n種能源碳排放系數(shù)。主要化石能源的碳排放系數(shù)如表1 所示。
表1 各類化石能源碳排放系數(shù)Table 1 Carbon emission coefficients of various fossil energies
根據(jù)國家統(tǒng)計局公布的《中國能源統(tǒng)計年鑒》中各類化石能源的消耗量[17],測算獲得我國1996—2021 年間電力行業(yè)的碳排放量,如表2 和圖4 所示。
表2 1996—2021年電力行業(yè)碳排放量Table 2 Power industry carbon emissions of 1996—2021 years
圖4 1996—2021年電力行業(yè)碳排放量曲線Fig.4 Power industry carbon emission curve of 1996—2021 years
由于相關(guān)文獻統(tǒng)計公布的客觀數(shù)據(jù)有限,無法全面反映我國電力行業(yè)碳排放發(fā)展趨勢,但是總體來看目前碳排放量增長勢頭十分迅猛,想要順利實現(xiàn)“雙碳”目標任務(wù)仍具有一定難度。根據(jù)近幾年我國電力行業(yè)的發(fā)展規(guī)模,節(jié)能減排任務(wù)仍舊艱巨,圍繞碳排放問題的整治和管理需要給予更多關(guān)注。由此看來,如果通過構(gòu)建的理論模型能夠準確預(yù)測碳排放未來增長趨勢,則可以根據(jù)預(yù)測結(jié)果進行具體分析,從而制定符合當前情形的節(jié)能減排政策。
在此利用測算數(shù)據(jù)對所提出的EABC-RFRR 模型的穩(wěn)定性及可靠性進行驗證。通過《中國能源統(tǒng)計年鑒》公布數(shù)據(jù)可以獲取1996—2021 年間供電人口數(shù)、國內(nèi)生產(chǎn)總值單耗、電力供需結(jié)構(gòu)、人均用電量數(shù)據(jù),并將4 種影響因素數(shù)據(jù)作為預(yù)測模型的輸入自變量,而表1 中1996—2021 年間我國電力行業(yè)碳排放測算數(shù)據(jù)則為預(yù)測模型的輸出因變量。將匯總后的碳排放量及4 種影響因素歷年數(shù)據(jù)分割為訓(xùn)練樣本和測試樣本,即可對EABC-RFR 模型進行訓(xùn)練及驗證。在預(yù)測模型訓(xùn)練過程中,為消除影響因素數(shù)據(jù)之間數(shù)量級差異對預(yù)測結(jié)果造成的不利影響,進行歸一化預(yù)處理為
式中:xu和分別為第u種影響因素原始數(shù)據(jù)和歸一化處理后的數(shù)據(jù);xmin和xmax分別為原始數(shù)據(jù)中的最大值和最小值。
選取1996—2015 年的數(shù)據(jù)作為訓(xùn)練樣本對模型進行訓(xùn)練,由于電力行業(yè)碳排放量逐年波動,供電人口數(shù)、國內(nèi)生產(chǎn)總值單耗、電力供需結(jié)構(gòu)、人均用電量的歷史數(shù)據(jù)仍會對未來碳排放量預(yù)測形成影響,因此需要將新獲取的影響因素數(shù)據(jù)及RFR 模型預(yù)測輸出結(jié)果添加至訓(xùn)練樣本中進行逐年遞進預(yù)測。利用EABC 算法對RFR 模型進行參數(shù)自動尋優(yōu)時,蜜源適應(yīng)度值隨著蜂群迭代過程逐漸收斂曲線如圖5 所示,搜尋結(jié)束后確定的RFR 模型最佳決策樹個數(shù)為137,最佳分裂變量數(shù)為8。設(shè)置好模型相關(guān)參數(shù)后,利用參數(shù)優(yōu)化后的模型對2016—2021 年的碳排放量進行預(yù)測,最終結(jié)果如圖6所示。
圖5 EABC算法迭代收斂曲線Fig.5 Iterative convergence curve of EABC algorithm
圖6 EABC-RFR模型預(yù)測結(jié)果Fig.6 Prediction result of EABC-RFR model
為進一步驗證EABC-RFRR 模型的優(yōu)越性,利用數(shù)據(jù)回歸預(yù)測領(lǐng)域應(yīng)用較為廣泛的反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)[18]、支持向量機(support vector machine,SVM)[19]和極限學習機(extreme learning machine,ELM)[20]模型分別進行碳排放量預(yù)測對比。
在BPNN 模型設(shè)置時,輸入自變量為4 個、輸出因變量為1 個,因此設(shè)置神經(jīng)網(wǎng)絡(luò)輸入層、隱含層和輸出層節(jié)點的拓撲結(jié)構(gòu)為4-10-1,選取tansig 函數(shù)作為傳遞函數(shù)并設(shè)置訓(xùn)練次數(shù)為200、精度目標為0.000 1。在SVM 模型設(shè)置過程中,選取的核函數(shù)為高斯核函數(shù),設(shè)置核函數(shù)參數(shù)和懲罰因子分別為1和10。而ELM 模型的設(shè)置與BPNN 模型類似,輸入層、隱含層和輸出層節(jié)點的拓撲結(jié)構(gòu)也為4-10-1。完成上述3 種對比模型參數(shù)設(shè)置后,在訓(xùn)練樣本完全相同的條件下分別進行訓(xùn)練,并利用訓(xùn)練后的模型分別預(yù)測2016—2021 年間電力行業(yè)的碳排放量,所得結(jié)果如圖7 所示。
圖7 各對比模型預(yù)測結(jié)果Fig.7 Prediction results of different comparison models
為更直觀地呈現(xiàn)EABC-RFR 模型與其他對比模型的預(yù)測精度,通過平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)以及均方根誤差(root mean square error,RMSE)3 項指標對不同模型的預(yù)測結(jié)果進行量化評價,各誤差評價指標為:
式中:zw′為通過模型得到樣本w的碳排放量預(yù)測值;zw為樣本w碳排放量實際值;W為樣本個數(shù)。
給定碳排放量實際值和預(yù)測值,通過各誤差評價指標計算表達式可得到不同模型預(yù)測誤差的量化值,如圖8 所示,預(yù)測誤差對比數(shù)據(jù)匯總結(jié)果如表3所示。
表3 不同模型預(yù)測誤差對比結(jié)果Table 3 Prediction error comparison results of different models
圖8 不同模型預(yù)測誤差評價指標Fig.8 Evaluation indexes of different model prediction errors
綜合圖8 及表3 可知,在測試樣本檢驗過程中BPNN 模型各項誤差指標均最大,SVM 模型和ELM誤差指標居中,EABC-RFR 模型各項誤差最小。由此表明,BPNN 模型預(yù)測精度最差,SVM 模型和ELM模型預(yù)測精度一般,而本文提出的模型精度最高,明顯優(yōu)于其他3 種對比模型。究其因由,主要是其他3種對比模型對訓(xùn)練樣本數(shù)量和質(zhì)量具有一定要求,而本文提供的歷年碳排放量及影響因素數(shù)據(jù)相對較少,在這種小樣本訓(xùn)練條件下3 種對比模型的預(yù)測能力將受到不同程度的干擾影響。本文提出的EABC-RFR 模型發(fā)揮集成學習的優(yōu)勢,滿足結(jié)構(gòu)風險最小化原則,有效避免過擬合問題,可以準確反映預(yù)測對象的非線性動態(tài)特性,在小樣本訓(xùn)練條件下仍具有較強的泛化能力,因此可以在碳排放量回歸預(yù)測中獲得更好的精度。
對經(jīng)典STIRPAT 模型進行擴充改進,將供電人口數(shù)、國內(nèi)生產(chǎn)總值單耗、電力供需結(jié)構(gòu)、人均用電量4 項影響因素定義為碳排放影響因素。為提高電力行業(yè)碳排放量的預(yù)測精度,在傳統(tǒng)人工蜂群算法基礎(chǔ)上引入遺傳學習策略,并利用進化人工蜂群算法對隨機森林回歸模型中的決策樹個數(shù)和分裂變量數(shù)進行自動尋優(yōu),提出基于EABC 算法優(yōu)化的RFR預(yù)測模型。驗證結(jié)果表明,該模型可以準確預(yù)測電力行業(yè)碳排放量的發(fā)展趨勢,具有良好的穩(wěn)定性和可靠性,與其他應(yīng)用較為廣泛的預(yù)測模型相比優(yōu)勢明顯,能夠為全國以及各省市電力行業(yè)節(jié)能減排政策的制定提供有力支撐,為類似數(shù)據(jù)回歸預(yù)測問題的解決提供一定參考借鑒。