汪 朗, 劉勇飛, 許麟彰
(廣東粵港供水有限公司, 廣東 深圳 518021)
自1986年我國開始推行綠色節(jié)能策略以來,在理論與實踐方面取得了一些重大的成果。但是,我國在能源和環(huán)境方面存在的問題依舊突出,節(jié)能環(huán)保、綠色發(fā)展的目標(biāo)仍然是促進世界經(jīng)濟和社會發(fā)展的重中之重[1]。能源消耗主要包括工業(yè)能耗、建筑能耗以及交通能耗,溫室氣體主要排放量也是來源于此[2-3]。為減輕目前日益凸顯的能源消耗問題,國家制定的“中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要”已將節(jié)能和綠色理念作為未來我國能源消耗領(lǐng)域的主體發(fā)展方向。
在全球能源轉(zhuǎn)型發(fā)展的浪潮下,“互聯(lián)網(wǎng)+”智慧能源已成為備受能源領(lǐng)域關(guān)注的熱點,也成為解決當(dāng)前能源問題和重塑全球能源格局的重要變革力量。在這一背景下,能源大數(shù)據(jù)[1]發(fā)揮著關(guān)鍵作用,它將海量的能源數(shù)據(jù)與大數(shù)據(jù)技術(shù)結(jié)合,成為構(gòu)建“互聯(lián)網(wǎng)+”智慧能源的重要手段[4]。能源大數(shù)據(jù)整合了多種能源(如電能、煤炭、石油、天然氣等)的生產(chǎn)、傳輸、存儲、消費、交易等數(shù)據(jù),是實現(xiàn)能源監(jiān)管、共享能源信息資源、促進能源體制市場化改革的基本載體[5-6]。目前,國內(nèi)在能耗數(shù)據(jù)分析理論、技術(shù)與方法以及節(jié)能管理機制方面的研究工作的進展,與綠色發(fā)展需求和國際先進水平存在較大的差距。因此,基于數(shù)據(jù)分析的能源管理研究具有科學(xué)前沿性和重大的戰(zhàn)略意義。
能源管理系統(tǒng)興起之時,其研究主要集中在管理和控制企業(yè)能源數(shù)據(jù)的信息化系統(tǒng),利用自動化和網(wǎng)絡(luò)技術(shù),實現(xiàn)能源的平衡、優(yōu)化和節(jié)能降耗[7]。當(dāng)時,能源管理系統(tǒng)的主要目標(biāo)是實現(xiàn)能源消耗的實時監(jiān)測和數(shù)據(jù)的自動采集,以便企業(yè)更好地了解能源使用情況和消耗模式。因此,社會各界在能源數(shù)據(jù)的采集、管理和存儲方面進行了大量的研究和投入。在能源管理系統(tǒng)研發(fā)的初期階段,社會各界對能源管理系統(tǒng)的發(fā)展非常關(guān)注,投入了大量資源和精力解決能源數(shù)據(jù)的采集、管理和存儲等問題。
隨著科技的進步和創(chuàng)新,能源管理系統(tǒng)的研究和應(yīng)用不斷取得新的突破。先進的信息技術(shù)、物聯(lián)網(wǎng)、大數(shù)據(jù)分析、人工智能等技術(shù)的不斷發(fā)展,為能源管理系統(tǒng)功能的完善和優(yōu)化帶來了更多的可能性和優(yōu)勢。能源管理系統(tǒng)利用物聯(lián)網(wǎng)技術(shù)、傳感器等實時監(jiān)測和采集能源消耗的數(shù)據(jù),涉及能源使用、能耗趨勢、設(shè)備狀態(tài)等信息。這些海量的數(shù)據(jù)成為優(yōu)化能源管理、提高能源利用效率的重要資源。數(shù)據(jù)分析在能源管理系統(tǒng)中扮演了關(guān)鍵角色,應(yīng)用數(shù)據(jù)分析技術(shù)能夠從大量數(shù)據(jù)中挖掘出隱藏的模式、規(guī)律和趨勢。數(shù)據(jù)分析可以幫助決策者識別能源浪費環(huán)節(jié)、定位能源消耗高峰,為節(jié)能工作提供科學(xué)的決策支持。隨著數(shù)據(jù)分析技術(shù)的不斷發(fā)展,能源管理系統(tǒng)可以更加精確地預(yù)測能源需求,優(yōu)化能源分配和調(diào)度,實現(xiàn)能源的智能化管理。例如,黃震[8]針對校園能耗管理的現(xiàn)狀和需求,提出了一種基于MQTT(消息隊列遙測傳輸協(xié)議)和MVC(Model-View-Controller)的智慧能耗管理系統(tǒng)的設(shè)計方案,通過輕量級通信和模塊化設(shè)計提高了系統(tǒng)的效率和可維護性,為校園能耗管理提供了一種新的解決方案。趙彥旻等[9]基于園區(qū)能源互聯(lián)網(wǎng)電力信息管理系統(tǒng)對提高系統(tǒng)管理效率和吞吐性能的需求,提出了一種基于大數(shù)據(jù)分析的系統(tǒng)設(shè)計方案,包括系統(tǒng)架構(gòu)、功能模塊和關(guān)鍵技術(shù)等。吳波[10]針對造紙行業(yè)的高能耗問題,提出了一種基于大數(shù)據(jù)技術(shù)的能源管理系統(tǒng)(EMS),實現(xiàn)了對造紙過程能源轉(zhuǎn)換、利用和回收的動態(tài)監(jiān)控、改進和優(yōu)化,提高了能源效率和節(jié)能水平。AL-ALI等[11]通過采用基于物聯(lián)網(wǎng)(IoT)和大數(shù)據(jù)分析技術(shù)的智能家庭能源管理系統(tǒng),實現(xiàn)監(jiān)測、控制和節(jié)省能源消耗,達到降低成本的目的。BOURDEAU等[12]提出了基于數(shù)據(jù)驅(qū)動方法的建筑能耗建模與預(yù)測模型,通過數(shù)據(jù)建模分析達到節(jié)能減排的目的。由此可以看出,數(shù)據(jù)分析在能源管理系統(tǒng)中的重要性,為能源管理者提供了實時且全面的數(shù)據(jù)支持,使其能夠做出合理的決策,優(yōu)化能源調(diào)配,實現(xiàn)節(jié)能減排的目標(biāo),推動能源管理向更加智能、高效和可持續(xù)的方向發(fā)展。同時,研究人員開始采用機器學(xué)習(xí)和深度學(xué)習(xí)的方法進行能源數(shù)據(jù)分析。WANG等[13]針對主機油耗會受多種因素影響的問題,提出了一種基于小絕對收縮選擇算子(LASSO)的能耗回歸模型,用于對船舶主機油耗進行預(yù)測和分析。王文格等[14]針對現(xiàn)有城市軌道交通智慧能源管理系統(tǒng)在節(jié)能工作方面的局限性,提出精細(xì)化采集策略,構(gòu)建多個系統(tǒng)協(xié)同管理能源數(shù)據(jù)的平臺,通過多個系統(tǒng)協(xié)同控制,最大限度地節(jié)約能源消耗。黎啟明等[15]提出一種智能能源管理系統(tǒng),考慮到各種能源價格結(jié)構(gòu)因素的影響,設(shè)計一種能源模塊用于確定系統(tǒng)運行最佳策略;針對不同天氣光伏發(fā)電的輸出特性,提出了一種功率預(yù)測模塊;描述了利用一個矩陣實數(shù)編碼遺傳算法處理模塊,實現(xiàn)了能源的智能化管理。
能源數(shù)據(jù)分析往往涉及多個輸入特征及多個影響因素之間的高度復(fù)雜和非線性關(guān)系。LightGBM是一種高效的梯度提升樹模型,它的訓(xùn)練速度快、預(yù)測性能高,同時可以有效處理多維特征,提供特征重要性排序和非線性關(guān)系,并能夠捕捉輸入特征之間的相互作用,通過分析特征重要性識別對能耗影響最大的因素,從而指導(dǎo)優(yōu)化策略的制訂。PSO是一種基于群體智能的優(yōu)化算法,它能夠在搜索空間中進行全局搜索,有助于找到更優(yōu)的模型參數(shù)組合,從而提高模型性能,并且PSO具有自適應(yīng)性,可以根據(jù)問題的復(fù)雜程度和搜索空間的特性自動調(diào)整搜索策略,有助于更快地收斂到全局最優(yōu)解。本文在總結(jié)前人對能源數(shù)據(jù)分析技術(shù)研究的基礎(chǔ)上,提出了一種基于PSO-LightGBM的能源數(shù)據(jù)分析方法,用于預(yù)測電能耗的影響。
本文采用某企業(yè)的電能耗數(shù)據(jù)進行實驗,采集了近500條每日電能耗數(shù)據(jù)。因為數(shù)據(jù)在采集時有時間上的先后順序,在模型學(xué)習(xí)時會被當(dāng)作一種特征學(xué)習(xí),從而導(dǎo)致過擬合,為了避免發(fā)生這種情況,本研究對數(shù)據(jù)進行隨機化處理,使得模型能夠?qū)W習(xí)到更多的信息,提高模型的準(zhǔn)確性和穩(wěn)定性。同時,在數(shù)據(jù)處理過程中發(fā)現(xiàn)數(shù)據(jù)的最大值與最小值相差非常大(如圖1所示),數(shù)據(jù)的取值范圍差異較大,數(shù)據(jù)的分布不均勻,對模型的擬和和評估效果都有影響,尤其是對模型的評估指標(biāo)的影響。因此,為了使評估指標(biāo)具有直觀的意義,通常需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。
圖1 數(shù)據(jù)分布直方圖Fig.1 Data distribution histogram
采用Z-score標(biāo)準(zhǔn)化(Standardization)對數(shù)據(jù)做標(biāo)準(zhǔn)化處理,它基于數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,將原始數(shù)據(jù)轉(zhuǎn)換為具有均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布。具體而言,對于給定的數(shù)據(jù)集,Z-score的標(biāo)準(zhǔn)化過程如下。
計算數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standarddeviation,std):
(1)
(2)
其中:n是數(shù)據(jù)集的樣本數(shù)量,X是數(shù)據(jù)集中的每個樣本。
對每個數(shù)據(jù)樣本進行標(biāo)準(zhǔn)化轉(zhuǎn)換:
(3)
其中:X_scale是標(biāo)準(zhǔn)化后的值,X是原始值,mean是數(shù)據(jù)的均值,std是數(shù)據(jù)的標(biāo)準(zhǔn)差。通過Z-score進行標(biāo)準(zhǔn)化處理后,數(shù)據(jù)更具可比性和可解釋性。
本研究按照圖2所示的研究方法流程進行。首先,研究人員收集企業(yè)的能源數(shù)據(jù),并對數(shù)據(jù)進行整理,使其適合于數(shù)據(jù)分析。其次,對數(shù)據(jù)集進行清洗操作。將處理過的能耗數(shù)據(jù)用于PSO-LightGBM模型的訓(xùn)練、驗證和測試。在此過程中采用了K-fold交叉驗證技術(shù)以及粒子群優(yōu)化算法優(yōu)化模型的超參數(shù),此外為了確保模型的泛化性能,使用了25%的測試集,防止過擬合或欠擬合的問題。再次,對PSO-LightGBM模型進行與其他能源數(shù)據(jù)分析模型的對比實驗,驗證了其相對優(yōu)勢。最后,將經(jīng)過驗證的PSO-LightGBM模型應(yīng)用于企業(yè)實際的電能耗預(yù)測工作中。
圖2 研究方法流程圖Fig.2 Research methodology flowchart
LightGBM模型是一個實現(xiàn)梯度提升決策樹(GBDT)的框架,支持高效率的并行訓(xùn)練,其主要原理是利用基分類器(決策樹)訓(xùn)練集成,從而獲取最優(yōu)的算法模型。相同的模型還有XGB,但XGB模型在多維度的大數(shù)據(jù)集下,計算效率較差和可擴展性較低(主要原因是對于每個特征數(shù)據(jù),它們都要通過掃描全部的數(shù)據(jù)樣本評估所有能夠取得分枝點的增益信息),為了解決這個問題,LightGBM模型采用了兩個技術(shù):互斥特征捆綁算法(Exclusive Feature Bundling,EFB)和單邊梯度采樣算法(Gradient-based One-Side Sampling,GOSS)。
LightGBM算法可以看做是梯度提升樹的一種改進算法,它能夠在保持較高計算效率的同時獲取較高的準(zhǔn)確率。通過給定輸入一個數(shù)據(jù)集D={(Xi,yi)}(Xi∈m,yi∈R),其中m是特征數(shù)目。Xi=[Fi,xi1,xi2,…,xis],F={F1,F2,…,Fn}是實際電能耗值,n是樣本量,s是參數(shù)數(shù)目,電能耗預(yù)測值為
(4)
公式(4)中,Γ={f(X)=ωq(x)}(q:m→T,ω∈T)是回歸樹數(shù)據(jù)空間;q是樹結(jié)構(gòu),主要作用是將一個樣本映射到對應(yīng)的葉節(jié)點T;每個fk代表一個獨立的葉子權(quán)重w和樹結(jié)構(gòu)q。
目標(biāo)函數(shù)為
(5)
通過采用基于梯度的單邊梯度采樣方法(Gradient-based One-Side Sampling,GOSS)對損失函數(shù)值進行排序處理,以保留包含大梯度的樣本,并隨機挑選出一批小梯度的樣本,從而對模型進行訓(xùn)練,這樣能保證在不損失學(xué)習(xí)精度的條件下,加快模型訓(xùn)練的速率,并且對高維稀疏的一些數(shù)據(jù)來說,LightGBM利用直方圖算法(Histogram)合并互斥的特征信息,保證既能縮減高維數(shù)據(jù)的特征數(shù)目,又能使得損失值最小,從而進一步提升模型的最終性能。
(6)
(7)
其中:k表示迭代次數(shù),i為粒子數(shù),d為搜索方向,w是權(quán)重的大小,c1和c2表示學(xué)習(xí)因素,并被視為常數(shù),r1和r2表示在(0,1)中均勻分布的隨機量,采用公式(6)和公式(7)求出最佳解。
均方誤差(Mean Squared Error,MSE)是一種常用的衡量統(tǒng)計模型預(yù)測結(jié)果與真實值之間差異的方法,可以計算預(yù)測值與真實值之間的誤差平方平均值。MSE是一個非負(fù)的值,它的值越小,表示模型的預(yù)測結(jié)果與真實值之間的差異越小。
(8)
決定系數(shù)(R-Squared,R2)是一種用于評估模型擬合優(yōu)度的標(biāo)準(zhǔn)化指標(biāo),便于不同模型之間的比較,它表示模型解釋了因變量變異性的比例。R2的取值范圍為0~1,越接近1,表示模型的預(yù)測效果越好。
(9)
解釋方差(Explained Variance,EV)是一種用于評估模型預(yù)測能力的指標(biāo),它表示模型對因變量的變異性解釋了多少,取值范圍為0~1,越接近1,表示模型的預(yù)測效果越好。
(10)
在開展能源數(shù)據(jù)分析實驗時,采用了輕量級梯度提升機(LightGBM)作為模型,使用粒子群優(yōu)化算法(PSO)找出LightGBM的最優(yōu)超參數(shù)組合,并將其與其他常用的回歸模型進行比較,例如多元線性回歸(LR)、隨機森林(RF)、輕量級梯度提升機(LightGBM)和極限梯度提升(XGB)等,以擴大實驗的對比范圍。首先對數(shù)據(jù)進行隨機化處理,其次對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,通過PSO算法將以上5個模型的參數(shù)調(diào)整至最優(yōu)值,最后采用5折交叉驗證的方法輸出均方誤差、解釋方差和決定系數(shù),并對所有模型進行比較分析。表1展示了部分模型最優(yōu)的超參數(shù)值。
表1 各模型最優(yōu)超參數(shù)值
4.2.1 實驗結(jié)果
將電能耗數(shù)據(jù)按0.75∶0.25的比例劃分為訓(xùn)練樣本集合與測試樣本集合,訓(xùn)練集用來訓(xùn)練模型,并在測試集上對模型預(yù)測效果進行驗證(每種方法均進行5折交叉驗證)。PSO-LightGBM模型及其他對比模型的預(yù)測效果見表2,LightGBM的MSE為0.104,EV為89.20%,R2為89.13%。本文提出的模型PSO-LightGBM的MSE為0.083,EV為91.60%,R2為91.56%,各項指標(biāo)明顯優(yōu)于其他模型。
表2 模型評估指標(biāo)對比
4.2.2 結(jié)果分析
從表2的數(shù)據(jù)可以觀察到,多元線性回歸(Linear Regression,LR)的均方誤差MSE顯著高于0.15,表明模型表現(xiàn)較差。相比之下,XGB、隨機森林(Random Forest,RF)、LightGBM以及基于粒子群優(yōu)化算法優(yōu)化的LightGBM(PSO-LightGBM)在MSE方面有更好的表現(xiàn);LightGBM的MSE為0.104,大于0.1,而XGB、RF和PSO-LightGBM的MSE均維持在0.1以下,尤其是PSO-LightGBM的MSE僅為0.083,相比XGB和RF的MSE降低了約10%。此外,PSO-LightGBM的R2和EV評價指標(biāo)值都穩(wěn)定在約91.5%,而XGB、RF和LightGBM的R2與EV則集中在89%~91%,略低于PSO-LightGBM的R2與EV,差距為1.04%~2.43%。
從以上結(jié)果可以明顯看出,PSO-LightGBM在電能數(shù)據(jù)分析領(lǐng)域表現(xiàn)出出色的性能,它不僅在MSE方面有了顯著的改進,而且在R2和EV指標(biāo)上也展現(xiàn)了相對更高的穩(wěn)定性和準(zhǔn)確性。此外。這些數(shù)據(jù)也表明,PSO-LightGBM是一種在電能數(shù)據(jù)分析中表現(xiàn)突出的方法,其在預(yù)測性能上取得了明顯的優(yōu)勢。綜合來看,PSO-LightGBM在這一領(lǐng)域的優(yōu)異表現(xiàn)為其在實際應(yīng)用中提供了更高的可信度和可靠性。
本文介紹了一種利用PSO-LightGBM方法進行能源數(shù)據(jù)分析的新方法。該方法首先在預(yù)處理階段對數(shù)據(jù)進行Z-score標(biāo)準(zhǔn)化,確保數(shù)據(jù)具有統(tǒng)一的尺度。其次使用LightGBM模型進行訓(xùn)練和擬合,通過PSO算法對LightGBM模型進行參數(shù)優(yōu)化,以最大限度地適應(yīng)當(dāng)前輸入數(shù)據(jù)。最后,將經(jīng)過處理的數(shù)據(jù)輸入優(yōu)化后的LightGBM模型中,用于對能耗數(shù)據(jù)進行預(yù)測。
為了驗證該方法的性能,本文進行了一系列實驗,并將其與其他方法進行了對比。實驗結(jié)果表明,與其他模型相比,PSO-LightGBM表現(xiàn)出更高的預(yù)測精度、魯棒性和穩(wěn)定性,實驗中使用的三種評估指標(biāo)均達到最優(yōu)水平(均方誤差僅為0.083,決定系數(shù)達到91.56%,解釋方差為91.60%)。證明該方法能夠更準(zhǔn)確地預(yù)測企業(yè)的電能消耗,具有重要的實際應(yīng)用價值。
該模型在能源數(shù)據(jù)分析領(lǐng)域表現(xiàn)出色,但仍有提升的空間。例如,可以進一步探索影響能源數(shù)據(jù)的因素,以提高模型的綜合性能。同時,可以通過研究更高效的數(shù)據(jù)預(yù)處理方法,進一步提升模型預(yù)測的穩(wěn)定性和準(zhǔn)確率。此外,隨著實驗數(shù)據(jù)量的增加,可以引入更多特征和優(yōu)化算法,進一步提升預(yù)測性能??傊?該方法為通過機器學(xué)習(xí)進行能耗預(yù)測提供了新的思路,在能源利用方面具有較大的潛力。