楊 挺,趙黎媛,劉亞闖,馮少康,盆海波
(智能電網(wǎng)教育部重點實驗室(天津大學(xué)),天津市300072)
隨著環(huán)境壓力的增加和可再生能源技術(shù)的發(fā)展,世界各國正調(diào)整能源結(jié)構(gòu),以減少對傳統(tǒng)化石能源 的 依 賴[1-2]。綜 合 能 源 系 統(tǒng)(integrated energy system)的構(gòu)建為優(yōu)化能源供應(yīng)、提高能源效率提供了新的解決方案[3-4]。
綜合能源系統(tǒng)的優(yōu)化調(diào)度問題是綜合能源系統(tǒng)研究的重要問題。針對系統(tǒng)經(jīng)濟調(diào)度問題,文獻(xiàn)[5]研究了含熱電聯(lián)供(combined heat and power,CHP)機組、光伏(photovoltaic,PV)、風(fēng)電機組等的微網(wǎng)經(jīng)濟調(diào)度問題,并采用Cplex軟件進(jìn)行求解。文獻(xiàn)[6-7]采用改進(jìn)的粒子群算法對電-熱綜合能源系統(tǒng)的經(jīng)濟調(diào)度模型進(jìn)行求解。以上研究均基于可再生能源出力和用戶負(fù)荷的準(zhǔn)確預(yù)測信息,并未考慮源和荷的不確定性。為了應(yīng)對系統(tǒng)中的不確定性,文獻(xiàn)[8]采用場景分析法對風(fēng)電、光伏出力隨機性進(jìn)行建模。文獻(xiàn)[9]考慮熱電聯(lián)供型微網(wǎng)中負(fù)荷的不確定性,研究了基于魯棒優(yōu)化的系統(tǒng)優(yōu)化調(diào)度問題。文獻(xiàn)[10]采用不確定集合表征方法,以區(qū)間形式描述風(fēng)速數(shù)據(jù),構(gòu)建了雙層魯棒模型,從而得到最惡劣場景下的系統(tǒng)調(diào)度方案。
上述文獻(xiàn)主要研究綜合能源系統(tǒng)的日前調(diào)度問題,多限于固定的調(diào)度計劃,不能動態(tài)地對源和荷的隨機變化做出響應(yīng)。為解決上述問題,近年來模型預(yù)測控制[11]備受關(guān)注。文獻(xiàn)[12]提出了一種基于模型預(yù)測控制的冷熱電聯(lián)供型微網(wǎng)的動態(tài)調(diào)度方法,以設(shè)備的日前計劃出力為參考值,在日內(nèi)調(diào)度中建立風(fēng)電、光伏及負(fù)荷的預(yù)測模型,基于滾動優(yōu)化求解出各設(shè)備的出力。文獻(xiàn)[13]對并網(wǎng)型建筑能源系統(tǒng)采用模型預(yù)測控制方法優(yōu)化各單元出力。雖然上述研究對綜合能源系統(tǒng)的動態(tài)調(diào)度問題有很大貢獻(xiàn),但它們?nèi)砸蕾囉趯稍偕茉春拓?fù)荷的精確預(yù)測。
本質(zhì)上,綜合能源系統(tǒng)的動態(tài)調(diào)度問題是隨機序貫決策問題,可以采用強化學(xué)習(xí)(reinforcement learning,RL)進(jìn)行求解。強化學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法,它關(guān)注智能體在環(huán)境中如何采取行動以獲得最大的累積回報[14],而這與綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度的設(shè)計目標(biāo)是一致的,即關(guān)注綜合能源系統(tǒng)如何進(jìn)行調(diào)度決策以獲得系統(tǒng)某個調(diào)度階段最優(yōu)的運行成本。為此,本文引入強化學(xué)習(xí)解決綜合能源系統(tǒng)的動態(tài)經(jīng)濟調(diào)度問題。強化學(xué)習(xí)是一種無模型的方法,不依賴于不確定性的分布知識[15],因此它不需要像傳統(tǒng)方法那樣預(yù)先對源和荷進(jìn)行預(yù)測或建模。
已經(jīng)有研究將強化學(xué)習(xí)用于電力能源系統(tǒng)的經(jīng)濟調(diào)度和能量管理中。文獻(xiàn)[16]提出了一種基于多主體博弈和Q學(xué)習(xí)的綜合能源微網(wǎng)協(xié)調(diào)調(diào)度方案。為配合Q學(xué)習(xí)方法,該文將光伏、負(fù)荷需求等狀態(tài)量及燃?xì)饴?lián)供單元出力等動作量進(jìn)行了離散操作,但這樣帶來一個顯著的問題就是維數(shù)災(zāi)難[17]。文獻(xiàn)[18]研究了微網(wǎng)的分布式能量管理問題,將分布式電源、儲能等建模為自治智能體,采用Q學(xué)習(xí)制定系統(tǒng)的能源管理和負(fù)荷調(diào)度策略,該文同樣將柴油機和電儲能(battery energy storage,BES)的動作進(jìn)行了離散化處理。文獻(xiàn)[19]采用深度Q網(wǎng)絡(luò)(deep Q network,DQN)求解微網(wǎng)的實時調(diào)度策略,所提方法需要將電儲能的充放電動作進(jìn)行離散。然而,動作空間的離散化操作將大大減小可選動作范圍。
為解決該問題,本文將所研究的綜合能源系統(tǒng)動態(tài)調(diào)度問題置于連續(xù)狀態(tài)和動作空間中進(jìn)行處理,采用具有連續(xù)決策能力的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算 法[20]進(jìn)行求解。
綜合能源系統(tǒng)運行優(yōu)化的首要目標(biāo)是提升系統(tǒng)經(jīng)濟效益,即在滿足用戶負(fù)荷需求的前提下,以最優(yōu)經(jīng)濟運行為目標(biāo),有效地安排各設(shè)備在每個時段的出力。為此,本章建立了綜合能源系統(tǒng)最優(yōu)動態(tài)經(jīng)濟調(diào)度模型。以圖1所示的綜合能源系統(tǒng)為例,該系統(tǒng)包含了熱電聯(lián)供機組、光伏、電儲能、燃?xì)忮仩t(gas boiler,GB)、電鍋爐(electric boiler,EB)及用戶電-熱負(fù)荷等綜合能源系統(tǒng)常見單元。
圖1 綜合能源系統(tǒng)結(jié)構(gòu)示意圖Fig.1 Schematic diagram of structure of integrated energy system
綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度問題的目標(biāo)是最小化系統(tǒng)運行成本,其包括從能源供應(yīng)處購買能源的成本、電儲能的充放電折舊成本和設(shè)備維護(hù)成本。由于設(shè)備維護(hù)成本相對總運行成本較小,故未考慮在總成本中[21]。系統(tǒng)運行成本數(shù)學(xué)表示為:
式中:CE為購買能源的成本;CBES為電儲能的充放電折舊成本。
其中,購買能源的成本為:
式中:pgrid(t)為時段t系統(tǒng)與主電網(wǎng)進(jìn)行電力交換的功率,為正表示系統(tǒng)向主電網(wǎng)購電,為負(fù)表示系統(tǒng)進(jìn)行余電上網(wǎng);εe(t)為時段t的電價;εgas(t)為時段t購買天然氣的單位熱值價格;pCHP(t)為時段t熱電聯(lián)供機組輸出的電功率;hGB(t)為燃?xì)忮仩t輸出的熱功率;ηCHPp為熱電聯(lián)供機組的電效率;ηGB為燃?xì)忮仩t的效率;T為系統(tǒng)調(diào)度的總時段;Δt為時隙長度。
電儲能的充放電折舊成本參考文獻(xiàn)[22]中的計算公式得到:
式中:pBES(t)為電儲能在時段t的充電/放電功率,為正表示電儲能處于放電狀態(tài),為負(fù)表示處于充電狀態(tài);ρBES為電儲能折舊成本系數(shù)。
綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度問題的約束包括功率平衡約束、外部能源供應(yīng)約束和設(shè)備運行約束。
1)功率平衡約束
在時段t,電功率平衡約束和熱功率平衡約束分別可表述為:
式中:hCHP(t)為熱電聯(lián)供機組在時段t輸出的熱功率;pEB(t)為電鍋爐的輸入電功率;hEB(t)為電鍋爐輸出的熱功率;pPV(t)為光伏的輸出功率;pload(t)為時段t的電負(fù)荷;hload(t)為時段t的熱負(fù)荷。
對于熱電聯(lián)供機組,其輸出電功率與熱功率之間的耦合關(guān)系稱為“電熱特性”,依據(jù)其熱電比是否變化,可分為定熱電比和變熱電比2種類型。對熱電聯(lián)供機組,一般設(shè)為定熱電比[10],用變量b表示。
2)與主電網(wǎng)的交互功率約束
考慮到電網(wǎng)側(cè)的運行穩(wěn)定性,主網(wǎng)對綜合能源系統(tǒng)的功率交互有上、下限約束要求:
3)設(shè)備運行約束
綜合能源系統(tǒng)中各設(shè)備均有設(shè)備運行上、下限范圍,對于熱電聯(lián)供機組輸出電功率、電儲能設(shè)備充電/放電功率、燃?xì)忮仩t輸出熱功率和電鍋爐輸出熱功率,分別有
對于電儲能設(shè)備,還需要避免深度充放電對電儲能的損害,因此電儲能的荷電狀態(tài)(state of charge,SOC)被限定在一定范圍內(nèi)。
cSOC(t)可表示為:
式中:ηch和ηdis分別為電儲能的充電效率和放電效率。
此外,為保證電儲能持續(xù)穩(wěn)定運行,要求一個調(diào)度周期始末電儲能容量相等。至此,綜合考慮綜合能源系統(tǒng)運行優(yōu)化的目標(biāo)如式(16)所示,系統(tǒng)所需滿足的約束為式(4)—式(15)。
本文利用強化學(xué)習(xí)非常適合求解含不確定性因素的優(yōu)化決策問題的優(yōu)勢,對計及間歇性可再生能源發(fā)電和用戶負(fù)荷需求隨機波動的綜合能源系統(tǒng)的動態(tài)經(jīng)濟調(diào)度問題進(jìn)行求解。首先,將第1章綜合能源系統(tǒng)的動態(tài)經(jīng)濟調(diào)度問題的數(shù)學(xué)表述轉(zhuǎn)化為強化學(xué)習(xí)框架。
強化學(xué)習(xí)的基本組成部分包括表征環(huán)境的狀態(tài)集合S、表征智能體動作的動作集合A及對智能體的獎勵r。在本文中,綜合能源系統(tǒng)是智能體的環(huán)境,智能體通過調(diào)節(jié)系統(tǒng)中的設(shè)備出力進(jìn)行最優(yōu)調(diào)度決策。在時段t,環(huán)境向智能體提供觀測到的系統(tǒng)狀態(tài)st∈S,智能體基于策略π(策略π是將狀態(tài)s映射到動作a的函數(shù),即π:S→A?a=π(s))和綜合能源系統(tǒng)狀態(tài)st生成動態(tài)動作at。
這其中,綜合能源系統(tǒng)的觀測狀態(tài)包括用戶電負(fù)荷需求量、熱負(fù)荷需求量、光伏發(fā)電功率、電儲能的荷電狀態(tài)以及所處的調(diào)度時段。對于綜合能源系統(tǒng),其狀態(tài)表示為:
在時段t,綜合能源系統(tǒng)中的動作可以由設(shè)備的出力情況表示。由于pCHP(t)確定后,hCHP(t)可根據(jù)式(6)得到;hGB(t)確定后,hEB(t)可根據(jù)式(5)得到;進(jìn) 一 步,pEB(t)可 以 根 據(jù)pEB(t)=hEB(t)/ηEB計 算 得到,其中ηEB是電鍋爐的輸出效率;進(jìn)而pgrid(t)也可計算得到,故綜合能源系統(tǒng)的動作可以用pCHP(t)、pBES(t)、hGB(t)表示:
綜合能源系統(tǒng)經(jīng)濟調(diào)度的目標(biāo)是最小化系統(tǒng)總運行成本。本文將系統(tǒng)總成本最小化問題轉(zhuǎn)化為強化學(xué)習(xí)經(jīng)典的獎勵最大化形式,因此,將智能體在時段t獲得的獎勵表示為:
式(19)中1/1 000是對成本值進(jìn)行相應(yīng)縮放。
在綜合能源系統(tǒng)某一狀態(tài)sl確定時,綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度動作al的優(yōu)劣程度可以使用動作-值函數(shù)Qπ(s,a)[23]來評估,即
式中:Eπ(·)為策略π下的期望;γ∈[0,1],為折扣因子,表示未來某一時刻的獎勵在累積獎勵中所占的影響比重,γ越大,則越重視對未來的獎勵。
綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度的目標(biāo)是找到最優(yōu)策略π*以最大化動作-值函數(shù),如式(21)所示。
傳統(tǒng)的強化學(xué)習(xí)方法在小規(guī)模離散空間的問題中表現(xiàn)良好。但當(dāng)處理連續(xù)狀態(tài)變量任務(wù)時隨著空間維度的增加,其離散化得到的狀態(tài)數(shù)量則呈指數(shù)級增長,即存在維數(shù)災(zāi)難問題[17],無法有效學(xué)習(xí)。分析本文所研究的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度問題,其狀態(tài)空間中的負(fù)荷、光伏發(fā)電及荷電狀態(tài)均為連續(xù)量,因此傳統(tǒng)強化學(xué)習(xí)方法往往無法有效求解。
同時,綜合能源系統(tǒng)的動作空間中pCHP(t)、pBES(t)和hEB(t)也均為連續(xù)量。同樣,對動作空間進(jìn)行離散化將會刪除決策動作域結(jié)構(gòu)中的諸多信息。針對該問題,本文采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[24]對強化學(xué)習(xí)進(jìn)行函數(shù)近似,從而使其適用于連續(xù)狀態(tài)和動作空間的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度問題。算法具體選擇基于actor(策略)-critic(值)框架的DDPG算法[20],它通過深度神經(jīng)網(wǎng)絡(luò)來估計最優(yōu)策略函數(shù)。它不僅可以避免維數(shù)災(zāi)難,還能保存整個動作域的信息[25]。
DDPG算法使用2個獨立的網(wǎng)絡(luò)θQ和θπ來逼近critic函數(shù)和actor函數(shù),且每個網(wǎng)絡(luò)均有各自的目標(biāo)網(wǎng) 絡(luò)θQ′和θπ′,其 中Q′和π′分 別 為 目 標(biāo)Q值 和 目 標(biāo)策略。
1)值網(wǎng)絡(luò)訓(xùn)練
對于值網(wǎng)絡(luò),通過最小化損失函數(shù)L( θQ)來優(yōu)化參數(shù):
式中:yt為目標(biāo)Q值,如式(23)所示;E(·)為期望函數(shù)。
在時段t,綜合能源系統(tǒng)執(zhí)行調(diào)度動作at后會進(jìn)入下一個狀態(tài)st+1,即更新后的電儲能的荷電狀態(tài)值和下一個時段觀測得到的電負(fù)荷、熱負(fù)荷和光伏發(fā)電值。
L(θQ)關(guān)于θQ的梯度為:
式中:?為表示梯度計算的函數(shù)。
式(24)中yt?Q( st,at|θQ)即為時序差分誤差(timing differential error,TD-error),根據(jù)梯度規(guī)則更新網(wǎng)絡(luò),可得到更新公式為:
式中:μQ為值網(wǎng)絡(luò)學(xué)習(xí)率。
2)策略網(wǎng)絡(luò)訓(xùn)練
對于策略網(wǎng)絡(luò),其提供梯度信息?aQ( st,at|θQ)作為動作改進(jìn)的方向。為了更新策略網(wǎng)絡(luò),使用采樣策略梯度:
根據(jù)確定性策略梯度,更新策略網(wǎng)絡(luò)參數(shù)θπ:
式中:μπ為策略網(wǎng)絡(luò)學(xué)習(xí)率。
目標(biāo)網(wǎng)絡(luò)的參數(shù)θQ′和θπ′采用軟更新技術(shù)來進(jìn)一步提高學(xué)習(xí)過程的穩(wěn)定性:
式中:τ為軟更新系數(shù),τ?1。
算法中,通過為動作at={pCHP(t),pBES(t),hGB(t)}加入隨機噪聲υt以增加DDPG算法在綜合能源系統(tǒng)交互時對環(huán)境的探索能力,以學(xué)習(xí)到更加優(yōu)化的動態(tài)調(diào)度策略。
在此采用Ornstein-Uhlenbeck(OU)噪聲。它是一種基于OU過程的隨機變量,被用于模擬與時間關(guān)聯(lián)噪聲集[26]。
本文建立基于DDPG算法的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度框架,如圖2所示。對于DDPG算法,策略網(wǎng)絡(luò)的輸入是5維狀態(tài)st={pload(t),hload(t),pPV(t),cSOC(t?1),t},輸出是3維動作at={pCHP(t),pBES(t),hGB(t)};值網(wǎng)絡(luò)的輸入是狀態(tài)st和動作at,輸出是動作-值函數(shù),即Q(st,at)。在學(xué)習(xí)過程中,由于智能體與環(huán)境的順序交互,樣本是有關(guān)聯(lián)的,這意味著這些樣本并不像大多數(shù)深度學(xué)習(xí)算法所假設(shè)的那樣是獨立同分布的。為了應(yīng)對此問題,DDPG算法采用了深度Q網(wǎng)絡(luò)[27]中的經(jīng)驗回放機制。其通過在每個時段存儲智能體的經(jīng)驗et=(st,at,rt,st+1),形成回放記憶序列D。訓(xùn)練時,每次從D中隨機提取小批量(mini-batch,大小為M)的經(jīng)驗樣本,并基于梯度規(guī)則更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗回放機制通過隨機采樣歷史數(shù)據(jù)打破了數(shù)據(jù)之間的相關(guān)性,而經(jīng)驗的重復(fù)使用也增加了數(shù)據(jù)的使用效率。
采用歷史數(shù)據(jù)作為綜合能源系統(tǒng)狀態(tài),離線訓(xùn)練DDPG算法網(wǎng)絡(luò)。其輸入為系統(tǒng)的電負(fù)荷、熱負(fù)荷、光伏發(fā)電、電儲能荷電狀態(tài)及調(diào)度時段。離線訓(xùn)練結(jié)束后,訓(xùn)練得到的DDPG算法參數(shù)將被固定,用于綜合能源系統(tǒng)的動態(tài)經(jīng)濟調(diào)度問題求解。對于綜合能源系統(tǒng),當(dāng)調(diào)度任務(wù)來臨時,在每個時段,根據(jù)當(dāng)前系統(tǒng)狀態(tài)st,利用訓(xùn)練好的DDPG算法網(wǎng)絡(luò)、策略網(wǎng)絡(luò)選擇調(diào)度動作at。然后,執(zhí)行動作at并且進(jìn)入下一個環(huán)境狀態(tài),同時,獲得獎勵rt。繼而采集時段t+1系統(tǒng)的狀態(tài)信息st+1作為新的樣本,并進(jìn)行這個時段的決策。如此,可以得到動態(tài)調(diào)度動作。
圖2 基于DDPG算法的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度方案Fig.2 Dynamic economic dispatch scheme of integrated energy system based on DDPG algorithm
為評測所提出的基于深度強化學(xué)習(xí)DDPG算法的綜合能源系統(tǒng)動態(tài)調(diào)度策略的有效性,采用圖1所示的熱電聯(lián)供型綜合能源系統(tǒng)為算例進(jìn)行仿真研究。系統(tǒng)中的熱負(fù)荷、電負(fù)荷和同期光伏發(fā)電數(shù)據(jù)基于開源的CREST模型[28]產(chǎn)生。該模型是拉夫堡大學(xué)研究團(tuán)隊提出的,已經(jīng)過有效性驗證,且被廣泛使用[29-31]。系統(tǒng)調(diào)度時段長度為24 h,相鄰2個時段的間隔為15 min。綜合能源系統(tǒng)中元件的運行參數(shù)如表1所示。
表1 設(shè)備運行參數(shù)Table 1 O peration parameters of devices
系統(tǒng)與主電網(wǎng)交換功率的范圍為[?2.5,2.5]MW,電儲能的容量為1 000 k W·h,其他參數(shù)如表2所示。本文電價采用分時電價,如表3所示,其中峰時段為12:00—19:00,平時段為07:00—12:00、19:00—23:00,谷時段為23:00—07:00。天然氣價格為固定價格0.4元/(k W·h)。
表2 其他參數(shù)Table 2 O ther parameters
表3 分時電價Table 3 T ime-of-use electricity price
在將所建深度強化學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于系統(tǒng)動態(tài)經(jīng)濟調(diào)度問題之前,首先通過歷史數(shù)據(jù)訓(xùn)練深度強化學(xué)習(xí)的參數(shù),得到深度強化學(xué)習(xí)網(wǎng)絡(luò)。訓(xùn)練數(shù)據(jù)由去年同期、相同地點的負(fù)荷數(shù)據(jù)和光伏數(shù)據(jù)構(gòu)造得到。在1日的開始,智能體接收來自環(huán)境的光伏出力、電負(fù)荷和熱負(fù)荷需求,然后根據(jù)第3章所述的學(xué)習(xí)過程計算獎勵值來調(diào)整DDPG算法網(wǎng)絡(luò)參數(shù),直到最終獲得最大獎勵。
以CREST模型生成的1月份和2月份的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。圖3給出了部分歷史樣本數(shù)據(jù),包括電負(fù)荷、熱負(fù)荷和光伏出力數(shù)據(jù)。對于超參數(shù)的選擇,一方面根據(jù)深度學(xué)習(xí)社區(qū)[32]推薦的常用做法選取,另一方面,參考文獻(xiàn)[23,33]中網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的選擇思路和方案,根據(jù)本文的訓(xùn)練數(shù)據(jù)進(jìn)行試錯調(diào)整。DDPG算法中策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)的隱含層層數(shù)均為2層,每層有100個神經(jīng)元,隱含層的激活函數(shù)均為ReLU(線性修正單元)。折扣因子為0.95,mini-batch大小為128,經(jīng)驗池大小為20 000,值網(wǎng)絡(luò)學(xué)習(xí)率為0.001,策略網(wǎng)絡(luò)學(xué)習(xí)率為0.000 1,τ為0.001,采用Adam優(yōu)化器更新網(wǎng)絡(luò)權(quán)重。
圖3 綜合能源系統(tǒng)的歷史樣本數(shù)據(jù)Fig.3 Historical sample data of integrated energy system
為了展現(xiàn)所提方法的收斂性能,附錄A圖A1給出了智能體訓(xùn)練過程中每100個episodes(周期)的平均獎勵值曲線。該算法經(jīng)過約10 000個episodes后收斂,得到了最優(yōu)的動態(tài)經(jīng)濟調(diào)度策略??梢杂^察到,由于智能體最初對環(huán)境不熟悉,智能體執(zhí)行調(diào)度決策后獲得的獎勵值較小。隨著訓(xùn)練過程的繼續(xù),智能體不斷地與環(huán)境交互并獲得經(jīng)驗,因此獎勵值整體趨勢為逐漸增加并最終收斂。這說明智能體已經(jīng)學(xué)習(xí)到了最小化系統(tǒng)運行成本的最優(yōu)調(diào)度策略。由于在每個episode中的日訓(xùn)練數(shù)據(jù),如負(fù)荷數(shù)據(jù)和光伏發(fā)電數(shù)據(jù)都有變化,因此在訓(xùn)練過程中獎勵值會出現(xiàn)振蕩。
利用歷史數(shù)據(jù)對DDPG算法網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練后,得到的網(wǎng)絡(luò)被保存以用于系統(tǒng)的動態(tài)經(jīng)濟調(diào)度。為了說明系統(tǒng)的動態(tài)經(jīng)濟調(diào)度結(jié)果,以該地區(qū)2016年2月1日的調(diào)度情況為例,基于本文提出的基于DDPG算法得到的pCHP(t)、pBES(t)、hGB(t)以及由 相 應(yīng) 計 算 得 到 的hCHP(t)、hEB(t)、pEB(t)、pgrid(t)結(jié)果如圖4和圖5所示。其中,圖4為電功率調(diào)度結(jié)果,圖5為熱功率調(diào)度結(jié)果。
圖4 基于DDPG算法的電功率調(diào)度結(jié)果Fig.4 Dispatch results of electric power based on DDPG algorithm
圖5 基于DDPG算法的熱功率調(diào)度結(jié)果Fig.5 Dispatch results of heat power based on DDPG algorithm
由圖4可以看出,電儲能在電價的引導(dǎo)下進(jìn)行充放電,在谷電價且電負(fù)荷較小時充電以備后續(xù)的高峰時段,如00:00—00:30、03:45—04:00等時段;在峰電價且電負(fù)荷較高時放電以減少運行成本,如12:00—12:15、17:30—18:45等時段。在谷電價和平電價階段,系統(tǒng)向主電網(wǎng)購電以滿足用電需求。當(dāng)電價為峰電價時,熱電聯(lián)供機組產(chǎn)生電能來避免向主電網(wǎng)購電,從而減少系統(tǒng)運行成本。由圖5可以看出,電鍋爐在谷電價時購電制熱;谷電價且熱負(fù)荷高于1.5 MW時,電鍋爐制熱不能滿足熱負(fù)荷需求,燃?xì)忮仩t制熱進(jìn)行補充,如06:15—06:45時段。平電價階段,用戶的熱負(fù)荷需求由燃?xì)忮仩t制熱滿足。峰電價時熱電聯(lián)供機組或熱電聯(lián)供機組與燃?xì)忮仩t共同制熱以滿足用戶熱負(fù)荷需求。這表明本文提出的基于DDPG算法的動態(tài)經(jīng)濟調(diào)度方案能夠不斷優(yōu)化各設(shè)備出力以滿足用戶負(fù)荷需求并減少系統(tǒng)運行成本。
考慮到訓(xùn)練數(shù)據(jù)均為1月和2月(冬季)的樣本數(shù)據(jù),選取4月份(春季)的某天作為1個測試日,進(jìn)一步驗證所提方法的泛化性能。具體選擇2016年4月9日的數(shù)據(jù)進(jìn)行測試,該測試日的熱負(fù)荷整體情況小于2016年2月1日測試日的熱負(fù)荷,光伏出力時間較長?;诒疚腄DPG算法的調(diào)度方法得到的該測試日的調(diào)度結(jié)果如附錄A圖A2和圖A3所示。
由圖A2可以看出,電儲能充放電情況和系統(tǒng)向主電網(wǎng)購電情況基本跟隨電價變化。峰電價且光伏出力較大時,電負(fù)荷主要由光伏出力提供,不足部分由熱電聯(lián)供機組或電儲能進(jìn)行補充。由圖A3可以看出,電鍋爐在谷電價時購電制熱;在07:00—07:30的平電價階段,燃?xì)忮仩t制熱不能滿足熱負(fù)荷需求,電鍋爐產(chǎn)熱進(jìn)行補充。峰電價階段,熱負(fù)荷主要由熱電聯(lián)供機組或熱電聯(lián)供機組與燃?xì)忮仩t共同提供。在12:45、13:15—13:45等時刻或時段,熱電聯(lián)供機組未提供出力,熱負(fù)荷全部由燃?xì)忮仩t提供。在2個測試場景中,所提方法均能夠動態(tài)調(diào)整各設(shè)備出力以滿足用戶用能需求并降低系統(tǒng)運行成本,這說明所提方法對于未經(jīng)歷過的場景具有良好的泛化能力。
為驗證本文提出的基于DDPG算法的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度方法的有效性,將基于DDPG算法的調(diào)度方法與基于深度Q網(wǎng)絡(luò)的調(diào)度方法以及基于模型預(yù)測控制的調(diào)度方法進(jìn)行對比。從2016年1月和2月中隨機抽取15 d作為15個測試日,對采用3種方法得到的運行成本進(jìn)行比較。
對于所采用的深度Q網(wǎng)絡(luò),其輸入為5維狀態(tài)向量,輸出為狀態(tài)-動作對的Q值,本文將pCHP(t)、pBES(t)、hGB(t)分別以0.4、0.1、0.4 MW為間隔,分別離散為5個整數(shù)值。因此深度Q網(wǎng)絡(luò)的輸入層有5個神經(jīng)元,輸出層有125(=5×5×5)個神經(jīng)元。深度Q網(wǎng)絡(luò)有2個隱含層,每層均有200個神經(jīng)元,隱含層的激活函數(shù)均為ReLU。對于模型預(yù)測控制方法,采用含1個隱含層的全連接神經(jīng)網(wǎng)絡(luò)對光伏出力和負(fù)荷進(jìn)行預(yù)測。
表4給出了3種方法日運行成本的統(tǒng)計數(shù)據(jù)。其中,基于深度Q網(wǎng)絡(luò)方法的平均日運行成本為17 928元,較DDPG算法增加了4.95%;基于模型預(yù)測控制方法的平均日運行成本為18 001元,較DDPG算法增加了5.37%。從日運行成本的平均值、最小值、最大值和標(biāo)準(zhǔn)差來看,DDPG算法較深度Q網(wǎng)絡(luò)方法和模型預(yù)測控制方法獲得了更好的性能,能有效地降低系統(tǒng)運行成本。由于源和荷的高度不確定性,采用基于源、荷預(yù)測信息的傳統(tǒng)調(diào)度方法受限于預(yù)測準(zhǔn)確度。而在深度Q網(wǎng)絡(luò)方法中,由于燃?xì)忮仩t、熱電聯(lián)供機組、電儲能的出力需取設(shè)定的離散值,而設(shè)定的離散動作值必將大大減少可行的動作選項,造成次優(yōu)動作選擇,因而造成了運行成本的增加。因此,本文所提出的基于DDPG算法的調(diào)度方法更適合解決綜合能源系統(tǒng)的動態(tài)經(jīng)濟調(diào)度問題。
表4 不同調(diào)度方法的日運行成本統(tǒng)計Table 4 S tatistics of daily operational cost for different dispatch methods
本文提出了一種基于DDPG算法的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度方法。不同于傳統(tǒng)方法,該方法不需要對源和荷進(jìn)行預(yù)測,也不需要先期獲得不確定性因素的分布知識。此外,所提方法通過將綜合能源系統(tǒng)的動態(tài)調(diào)度問題置于連續(xù)狀態(tài)和動作空間來處理,避免了離散化操作帶來的維數(shù)災(zāi)難和次優(yōu)調(diào)度策略選擇問題。對比了2種不同的深度強化學(xué)習(xí)算法的應(yīng)用效果,以及所提方法與傳統(tǒng)方法的性能差異,并分析了差異產(chǎn)生的原因,表明了本文所提出的基于DDPG算法的綜合能源系統(tǒng)動態(tài)調(diào)度方法能夠更好地實現(xiàn)系統(tǒng)的動態(tài)經(jīng)濟調(diào)度。
在算法層面,深度強化學(xué)習(xí)DDPG算法的經(jīng)驗回放機制通過隨機采樣歷史數(shù)據(jù)打破了數(shù)據(jù)之間的相關(guān)性,但該機制采用均勻隨機采樣的方式從經(jīng)驗池中提取經(jīng)驗數(shù)據(jù),而沒有考慮不同經(jīng)驗的重要程度。在今后的工作中,為了回放更有價值的經(jīng)驗,將對算法的經(jīng)驗回放機制進(jìn)行改進(jìn),從而提高策略質(zhì)量。本文所采用的深度強化學(xué)習(xí)方法亦可用于解決其他能源系統(tǒng)中的優(yōu)化調(diào)度問題,如微網(wǎng)、能源互聯(lián)網(wǎng)等,為這方面的研究提供了一種思路。