薛溟楓,毛曉波,肖浩,浦驍威,裴瑋
(1.國(guó)網(wǎng)江蘇省電力有限公司無(wú)錫供電分公司,江蘇省無(wú)錫市 214000;2.中國(guó)科學(xué)院電工研究所,北京市 100190)
為了推動(dòng)全球低碳轉(zhuǎn)型的進(jìn)程,中國(guó)在2020年9月宣布力爭(zhēng)2030年前實(shí)現(xiàn)碳達(dá)峰,2060年前實(shí)現(xiàn)碳中和的目標(biāo)[1]?!半p碳”目標(biāo)的提出給碳排放中占比較大的能源電力行業(yè)帶來(lái)了新的挑戰(zhàn)[2]。園區(qū)綜合能源系統(tǒng)可以實(shí)現(xiàn)電、熱、氣多能源互補(bǔ),是優(yōu)化能源結(jié)構(gòu)轉(zhuǎn)型、促進(jìn)低碳發(fā)展、助力“雙碳”目標(biāo)實(shí)現(xiàn)的重要抓手。面向園區(qū)微電網(wǎng)的建設(shè)方向正逐步從“源-源”橫向多能互補(bǔ)系統(tǒng)向“源-網(wǎng)-荷-儲(chǔ)”縱向一體化的綜合能源系統(tǒng)發(fā)展。合理地對(duì)園區(qū)綜合能源系統(tǒng)進(jìn)行能量管理是減小分布式能源(distributed energy resource,DER)波動(dòng)對(duì)電網(wǎng)沖擊、促進(jìn)可再生能源發(fā)展應(yīng)用,以及緩解化石能源緊張、減少碳排放的有效途徑。因此,對(duì)園區(qū)綜合能源系統(tǒng)配置合理有效的能量管理方法對(duì)加速推進(jìn)低碳綜合能源系統(tǒng)的建設(shè)具有重要意義[3]。
目前,針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理和優(yōu)化調(diào)度已有大量研究[4-12],其中主流方法包括以非線性規(guī)劃、二階錐規(guī)劃、混合整數(shù)規(guī)劃等為代表的數(shù)學(xué)優(yōu)化類方法以及以遺傳算法、粒子群算法為代表的啟發(fā)式算法。在數(shù)學(xué)優(yōu)化方法方面,文獻(xiàn)[12]基于傳熱學(xué)原理推導(dǎo)出了熱網(wǎng)潮流的網(wǎng)絡(luò)流量-溫度基本方程,并用混合整數(shù)線性規(guī)范的方法解決了冷熱電聯(lián)供系統(tǒng)的優(yōu)化運(yùn)行問(wèn)題。文獻(xiàn)[13]提出了一種混合整數(shù)的二階錐優(yōu)化方法,采用二階錐松弛方法將園區(qū)綜合能源系統(tǒng)優(yōu)化模型轉(zhuǎn)化為具有凸可行域的數(shù)學(xué)規(guī)劃形式,使優(yōu)化問(wèn)題便于求解。上述方法雖然理論清晰,且一定程度能保障解的最優(yōu)性,但此類數(shù)學(xué)規(guī)劃模型通常是對(duì)供能系統(tǒng)的約束條件做適當(dāng)簡(jiǎn)化,在處理大規(guī)模非線性規(guī)劃問(wèn)題時(shí)具有局限性。在啟發(fā)式算法方面,文獻(xiàn)[14]采用兩階段多目標(biāo)優(yōu)化方法來(lái)設(shè)計(jì)園區(qū)綜合能源系統(tǒng)的運(yùn)行方案,第一階段采用多目標(biāo)粒子群算法優(yōu)化系統(tǒng)的設(shè)備類型和容量,第二階段用CPLEX求解器進(jìn)一步優(yōu)化設(shè)備的小時(shí)出力,有效提高了園區(qū)綜合能源系統(tǒng)的綜合收益。文獻(xiàn)[15]開(kāi)展了針對(duì)冷熱聯(lián)供分布式供能系統(tǒng)的能量管理研究,借鑒大系統(tǒng)經(jīng)濟(jì)調(diào)度優(yōu)化控制方法,將優(yōu)化問(wèn)題轉(zhuǎn)化為帶離散變量的非線性規(guī)劃問(wèn)題,并用遺傳算法進(jìn)行求解。文獻(xiàn)[16]著眼于園區(qū)綜合能源系統(tǒng)的經(jīng)濟(jì)性和環(huán)保性,用粒子群算法(particle swarm optimization,PSO)解決以電為核心的綜合能源系統(tǒng)優(yōu)化調(diào)度模型。上述啟發(fā)式算法雖然求解方便且可以保證在多項(xiàng)式時(shí)間內(nèi)給出較優(yōu)的結(jié)果,但是求解的結(jié)果難以保證解的全局最優(yōu)性。
強(qiáng)化學(xué)習(xí)技術(shù)是近年來(lái)新興的一項(xiàng)人工智能技術(shù),其通過(guò)馬爾科夫決策過(guò)程,使智能體在與環(huán)境的不斷交互中逐漸學(xué)習(xí)到回報(bào)最大的策略,在高難度決策類問(wèn)題上有較出色的表現(xiàn)[17]。目前不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用到了園區(qū)綜合能源系統(tǒng)的決策控制中。文獻(xiàn)[18]將深度策略梯度方法(deep deterministic policy gradient,DDPG)應(yīng)用于園區(qū)綜合能源系統(tǒng)能源服務(wù)商的定價(jià)和調(diào)度策略。文獻(xiàn)[19]提出了一種雙層強(qiáng)化學(xué)習(xí)方法,該方法上層為深度Q網(wǎng)絡(luò)(deep Q network,DQN),下層為混合整數(shù)線性規(guī)劃優(yōu)化器,可以解決園區(qū)綜合能源系統(tǒng)中復(fù)雜的能源耦合關(guān)系。文獻(xiàn)[20]借助貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)不確定的學(xué)習(xí)環(huán)境建模,將綜合能源系統(tǒng)優(yōu)化運(yùn)行問(wèn)題轉(zhuǎn)變?yōu)轳R爾科夫決策問(wèn)題,并通過(guò)深度強(qiáng)化學(xué)習(xí)算法尋找最優(yōu)運(yùn)行策略。文獻(xiàn)[21-22]對(duì)園區(qū)綜合能源系統(tǒng)中多主體博弈的定價(jià)機(jī)制、多主體聯(lián)合規(guī)劃方式以及多能源優(yōu)化調(diào)度機(jī)制進(jìn)行了研究,分析了含配電網(wǎng)、配氣網(wǎng)、配熱網(wǎng)和多個(gè)能量樞紐組成的園區(qū)綜合能源系統(tǒng)的運(yùn)行機(jī)制,提出了考慮供能網(wǎng)絡(luò)安全約束的園區(qū)綜合能源系統(tǒng)多主體運(yùn)行優(yōu)化方法。但是多主體博弈理論下的能源優(yōu)化調(diào)度會(huì)面臨多主體互動(dòng)機(jī)制復(fù)雜、智能體動(dòng)作空間維度龐大的問(wèn)題,這會(huì)導(dǎo)致智能體對(duì)動(dòng)作空間的探索效率低下,算法的穩(wěn)定性不佳,從而易收斂至局部最優(yōu),學(xué)習(xí)到非最優(yōu)策略。
針對(duì)現(xiàn)有工作的不足之處,本文針對(duì)多能耦合的多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題展開(kāi)研究,提出一種新型基于改進(jìn)深度Q網(wǎng)絡(luò)(modified deep Q network,MDQN)算法的園區(qū)綜合能源系統(tǒng)能量管理方法。該方法首先通過(guò)長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對(duì)多智能體決策的環(huán)境進(jìn)行封裝,解決馬爾科夫決策環(huán)境的動(dòng)態(tài)性問(wèn)題;其次在訓(xùn)練智能體階段引入一種優(yōu)先動(dòng)作采樣的策略來(lái)改進(jìn)DQN算法,解決在大規(guī)模動(dòng)作空間下的動(dòng)作探索效率低下的問(wèn)題,保證智能體在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)調(diào)度策略。最后通過(guò)園區(qū)綜合能源系統(tǒng)群的算例仿真驗(yàn)證所提方法的有效性與經(jīng)濟(jì)性。
本文以包含電力以及熱力的多園區(qū)綜合能源系統(tǒng)為例,其構(gòu)成如圖1所示。
多園區(qū)綜合能源系統(tǒng)由若干個(gè)綜合能源系統(tǒng)以及一個(gè)外部綜合能源系統(tǒng)構(gòu)成。每個(gè)園區(qū)綜合能源系統(tǒng)之間可以自由定價(jià)、交易,同時(shí)也可以與外部綜合能源系統(tǒng)進(jìn)行交易,但不具備自主定價(jià)權(quán)。為了保證園區(qū)內(nèi)能源的平衡,將外部綜合能源系統(tǒng)設(shè)定為一個(gè)無(wú)窮大的能源系統(tǒng)。當(dāng)園區(qū)內(nèi)部總體能源過(guò)剩時(shí),外部綜合能源系統(tǒng)可以收購(gòu)盈余的能源;反之,當(dāng)園區(qū)內(nèi)部總體能源緊缺時(shí),外部綜合能源系統(tǒng)也可以出售足夠的能源。園區(qū)內(nèi)每個(gè)產(chǎn)消者所包含的能源設(shè)備包括:微燃機(jī)、燃?xì)忮仩t、分布式儲(chǔ)電設(shè)備、分布式儲(chǔ)熱設(shè)備、熱負(fù)荷以及電負(fù)荷,其中電負(fù)荷可以分成價(jià)格響應(yīng)型負(fù)荷以及恒溫控制型負(fù)荷(thermostatically controlled loads,TCL)。
圖1 園區(qū)綜合能源系統(tǒng)總體結(jié)構(gòu)Fig.1 Overall structure of the park-level integrated energy system
分布式儲(chǔ)能元件的儲(chǔ)能動(dòng)態(tài)過(guò)程可以由式(1)來(lái)表示:
(1)
式中:Bt∈[0,Bmax]為t時(shí)刻存儲(chǔ)在分布式儲(chǔ)能元件中的電能,Bmax為最大儲(chǔ)能能力;ηc、ηd∈[0,1]分別為儲(chǔ)能系統(tǒng)(energy storage system,ESS)的充放電系數(shù);Ct∈[0,Cmax]為t時(shí)刻的實(shí)時(shí)充電功率,Cmax為最大充電功率;Dt∈[0,Dmax]為t時(shí)刻的實(shí)時(shí)放電功率,Dmax為最大放電功率。
同時(shí)為了整個(gè)綜合能源系統(tǒng)的量綱統(tǒng)一,引入表征分布式儲(chǔ)能元件的能量存儲(chǔ)量荷電狀態(tài)(state-of-charge,SoC)Soc,t的定義:
(2)
SoC反映了每一時(shí)刻ESS儲(chǔ)能罐的儲(chǔ)能百分比,同時(shí)滿足如式(3)所示的約束:
(3)
式(3)的約束表明任意時(shí)間段內(nèi)的儲(chǔ)能都有上下限,同時(shí)儲(chǔ)能裝置在每天開(kāi)始與最終的荷電狀態(tài)相同,確保儲(chǔ)能裝置滿足下一日的園區(qū)綜合能源系統(tǒng)運(yùn)行需求。
具有熱守恒性質(zhì)的負(fù)荷,如空調(diào)、冰箱、熱水器、熱泵等,都可以視為恒溫控制型負(fù)荷。
TCL的溫度動(dòng)態(tài)過(guò)程可以由式(4)來(lái)刻畫:
(4)
(5)
(6)
圖2 TCL控制流Fig.2 Diagram of TCL control flow
無(wú)法直接被控制,主要由用戶需求影響的負(fù)荷稱為價(jià)格響應(yīng)型負(fù)荷。這類負(fù)荷通常會(huì)受到電價(jià)的間接影響,其負(fù)荷功率平衡方程為:
(7)
(8)
(9)
式中:ωij∈{0,1}為第i個(gè)價(jià)格響應(yīng)型負(fù)荷在第j個(gè)時(shí)刻轉(zhuǎn)移負(fù)荷的決策。
價(jià)格響應(yīng)型負(fù)荷的ωij與當(dāng)前的市場(chǎng)價(jià)格水平δt及經(jīng)歷過(guò)的時(shí)間步有關(guān),服從式(10)所示的概率分布:
(10)
(11)
式中:λi∈[0,1]為耐心系數(shù)。
式(11)的概率分布刻畫了負(fù)荷轉(zhuǎn)移的決策機(jī)制,即當(dāng)前市場(chǎng)電價(jià)越高,當(dāng)前時(shí)間步距離目標(biāo)時(shí)間步越久,負(fù)荷就越不容易轉(zhuǎn)移。
天然氣燃燒時(shí)的高品位熱能做功驅(qū)動(dòng)微燃機(jī)發(fā)電,所排出的高溫余熱煙氣經(jīng)溴冷機(jī)后用于取暖及供應(yīng)生活熱水[23]。忽略外界環(huán)境變化對(duì)發(fā)電、燃料燃燒效率的影響,微燃機(jī)的熱電關(guān)系數(shù)學(xué)模型為:
(12)
式中:QMT(t)、PMT(t)、ηMT(t)分別為t時(shí)段微燃機(jī)的排氣余熱量、電功率和發(fā)電效率;ηL為散熱損失率。
(13)
式中:Δt為單位調(diào)度時(shí)間;CMT(t)為t時(shí)段微燃機(jī)的燃料成本;CCH4為天然氣單價(jià);LHVNG為天然氣低熱值。
燃?xì)忮仩t可以實(shí)現(xiàn)電熱轉(zhuǎn)換并對(duì)電熱負(fù)荷進(jìn)行削峰填谷,有利于維護(hù)園區(qū)綜合能源系統(tǒng)內(nèi)部的能源供需平衡,其出力模型為:
QEB(t)=PEB(t)ηah
(14)
式中:PEB(t)、QEB(t)分別為t時(shí)段蒸汽鍋爐用電和制熱功率;ηah為蒸汽鍋爐的電熱轉(zhuǎn)換效率。
分布式儲(chǔ)熱罐可對(duì)熱負(fù)荷進(jìn)行時(shí)段性轉(zhuǎn)移,緩解園區(qū)內(nèi)電熱負(fù)荷與熱電聯(lián)供系統(tǒng)電熱比不匹配的矛盾,進(jìn)而實(shí)現(xiàn)電熱統(tǒng)一協(xié)調(diào)管理,改善園區(qū)綜合能源系統(tǒng)的電熱調(diào)度水平[23],儲(chǔ)熱罐的動(dòng)態(tài)數(shù)學(xué)模型為:
(15)
式中:HHS(t)為t時(shí)段儲(chǔ)熱罐儲(chǔ)熱;μ為儲(chǔ)熱罐散熱損失率;QHS_ch(t)、QHS_dis(t)和ηhch、ηhdis分別為t時(shí)段的吸放熱功率及吸放熱效率。
多園區(qū)綜合能源系統(tǒng)的能量管理既要考慮熱、電多種能源的隨機(jī)性、儲(chǔ)能元件帶來(lái)的時(shí)序決策耦合性、多能源轉(zhuǎn)化、存儲(chǔ)的復(fù)雜性和多樣性,同時(shí)還要考慮其他園區(qū)綜合能源系統(tǒng)可能會(huì)采取的策略,因此其決策處在高維空間,給園區(qū)綜合能源系統(tǒng)的實(shí)時(shí)快速最優(yōu)能量管理帶來(lái)巨大挑戰(zhàn)。針對(duì)這一難題,本文首先對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值封裝建模,有效實(shí)現(xiàn)在外部輸入環(huán)境狀態(tài)下估值當(dāng)前能源交易額的功能,進(jìn)而將多智能體強(qiáng)化學(xué)習(xí)環(huán)境問(wèn)題轉(zhuǎn)化為單智能體強(qiáng)化學(xué)習(xí)問(wèn)題,降低多園區(qū)互動(dòng)運(yùn)行的決策復(fù)雜度。在此基礎(chǔ)上,針對(duì)每個(gè)園區(qū)綜合能源系統(tǒng)分別用MDQN方法進(jìn)行在線學(xué)習(xí),提高決策效率,進(jìn)一步保障多園區(qū)綜合能源系統(tǒng)在多種場(chǎng)景下的實(shí)時(shí)決策。
對(duì)于園區(qū)綜合能源系統(tǒng)群來(lái)說(shuō),各園區(qū)綜合能源系統(tǒng)能量管理可調(diào)資源除了內(nèi)部的可控機(jī)組外,還同時(shí)存在與外部各園區(qū)綜合能源系統(tǒng)的互動(dòng),而外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性復(fù)雜且時(shí)變,要實(shí)現(xiàn)對(duì)各園區(qū)綜合能源系統(tǒng)的有效能量管理,需要首先對(duì)外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性精確感知。本文基于LSTM深度網(wǎng)絡(luò)對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值建模[24]。
為了使封裝模型更具泛化能力,首先查詢各園區(qū)綜合能源系統(tǒng)的歷史能源交易數(shù)據(jù),獲取不同外部激勵(lì)下的能源交易信息;接著將外部環(huán)境的時(shí)序信息作為輸入特征,將對(duì)應(yīng)的能源交易信息作為輸出標(biāo)簽送入LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。具體的封裝流程如圖3所示。
圖3所示的園區(qū)綜合能源系統(tǒng)封裝模型主要分為2個(gè)階段:第一階段是訓(xùn)練階段,通過(guò)海量離線數(shù)據(jù)的輸入,將不同外部激勵(lì)下的能源交易額和外部時(shí)序特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,查詢能源交易額作為監(jiān)督學(xué)習(xí)的標(biāo)簽;第二階段是預(yù)測(cè)階段,在訓(xùn)練完成后可以實(shí)時(shí)地根據(jù)不同的外部激勵(lì)預(yù)測(cè)出該產(chǎn)消者的能源交易額。
園區(qū)綜合能源系統(tǒng)的能量管理過(guò)程可建模為馬爾科夫決策過(guò)程(Markov decision process,MDP),本文采用MDQN算法對(duì)其進(jìn)行建模和求解,具體包括狀態(tài)空間S、動(dòng)作空間A、獎(jiǎng)勵(lì)函數(shù)R以及衰減系數(shù)γ,記作δMDP={S,A,R,γ}。
圖3 園區(qū)綜合能源系統(tǒng)等值封裝模型Fig.3 Equivalent package model of park-level integrated energy system
3.2.1 狀態(tài)空間
智能體可觀測(cè)到的狀態(tài)空間為:
S=SC×SX×ST
(16)
式中:SC表示可控觀測(cè)量;SX表示不可控觀測(cè)量;ST表示時(shí)序信息觀測(cè)量。
可控觀測(cè)量包括園區(qū)綜合能源系統(tǒng)內(nèi)部分布式儲(chǔ)能狀態(tài)量Soc,t,TCL的狀態(tài)量Sot,t以及市場(chǎng)價(jià)格水平δt,可控觀測(cè)量為:
SC=[Soc,t,Sot,t,δt]
(17)
(18)
時(shí)序信息觀測(cè)量包括當(dāng)前天數(shù)td、當(dāng)前小時(shí)th。
ST=[td,th]
(19)
3.2.2 動(dòng)作空間
將每個(gè)園區(qū)綜合能源系統(tǒng)的控制中心視作一個(gè)智能體,其動(dòng)作空間為一個(gè)10維的離散空間。該動(dòng)作空間主要包括對(duì)電能的控制Ae以及對(duì)熱能的控制Ah。
A=Ae×Ah
(20)
對(duì)電能的控制動(dòng)作為:
Ae=[atcl,al,ac,aG,ap,as]
(21)
式中:atcl為TCL的控制信號(hào);al為價(jià)格響應(yīng)型電負(fù)荷的控制信息;ac為分布式儲(chǔ)能罐的充放電控制信號(hào);aG為燃?xì)廨啓C(jī)的發(fā)電功率控制信號(hào);ap為電能交易價(jià)格控制信號(hào);as為電能交易順序控制信號(hào)。
對(duì)熱能的控制動(dòng)作為:
Ah=[ahc,ahG,ahp,ahs]
(22)
式中:ahc為儲(chǔ)熱罐的控制信號(hào);ahG為鍋爐補(bǔ)燃控制信號(hào);ahp為熱能交易價(jià)格控制信號(hào);ahs為熱能交易順序控制信號(hào)。
3.2.3 獎(jiǎng)勵(lì)函數(shù)
為了使每個(gè)園區(qū)綜合能源系統(tǒng)的能源管理方案負(fù)荷自身利益最大化,設(shè)計(jì)式(23)所示的獎(jiǎng)勵(lì)函數(shù)Rt:
Rt=St-Ft+Mt
(23)
式中:St為出售能源所獲的收益;Ft為獲得能源的成本;Mt為違反SoC平衡的懲罰項(xiàng)。
St主要來(lái)自向園區(qū)內(nèi)部用戶以及其他園區(qū)綜合能源系統(tǒng)出售能源的收益,如式(24)所示:
(24)
獲取能源的成本Ct主要來(lái)自分布式能源的發(fā)電、產(chǎn)熱成本以及向其他園區(qū)綜合能源系統(tǒng)的購(gòu)買成本,如式(25)所示:
(25)
為了滿足每一天開(kāi)始與結(jié)束時(shí)的SoC平衡,引入懲罰項(xiàng)Mt,如式(26)所示:
(26)
式中:λ為懲罰系數(shù),在每天的非起始時(shí)刻懲罰項(xiàng)始終為0,在每天的最后一個(gè)時(shí)刻根據(jù)與當(dāng)天初始時(shí)刻的SoC差值確定懲罰項(xiàng)。
3.2.4 MDQN
DQN算法是一種基于值的深度強(qiáng)化學(xué)習(xí)算法,在狀態(tài)空間連續(xù)的決策類問(wèn)題中具有較好的表現(xiàn)[25]。傳統(tǒng)DQN方法使用的是ε貪心策略,即每次選擇動(dòng)作時(shí)以1-ε的概率選擇最優(yōu)動(dòng)作,以ε的概率探索其他動(dòng)作,ε貪心策略的數(shù)學(xué)表達(dá)式為:
(27)
式中:π(a|s)表示策略函數(shù),是從狀態(tài)到動(dòng)作的一種映射;A(s)表示智能體可采取的動(dòng)作的總數(shù);a*=argmaxaQ(s,a)表示貪心動(dòng)作。
DQN算法采用的ε貪心策略在小規(guī)模動(dòng)作空間中有助于遍歷動(dòng)作空間,平衡策略的探索率與利用率。但是傳統(tǒng)的DQN算法僅適用于低維離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)環(huán)境,在面對(duì)大規(guī)模離散動(dòng)作空間時(shí)會(huì)面臨探索效率低下、收斂速度慢且容易收斂于次優(yōu)解的問(wèn)題。這是由于在高維離散的動(dòng)作空間中,傳統(tǒng)的ε貪心策略在采取非貪心策略探索時(shí)過(guò)于低效,無(wú)法有效更新Q值網(wǎng)絡(luò)參數(shù)。本文多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題中動(dòng)作空間的維度較高,所有動(dòng)作的排列組合數(shù)高達(dá)125萬(wàn)個(gè)。
為此,本文提出一種針對(duì)大規(guī)模離散動(dòng)作空間下的MDQN算法,其原理如圖4所示。
圖4 MDQN算法原理Fig.4 MDQN method
MDQN的核心思想是在DQN方法的基礎(chǔ)上用k-優(yōu)先采樣策略來(lái)代替ε貪心策略。k-優(yōu)先采樣策略的表達(dá)式為:
(28)
式中:A*為所有動(dòng)作價(jià)值Q(s,a)中最高的k個(gè)動(dòng)作所構(gòu)成的集合。
A*={(an1,an2,…,ank)|Q(s,an1)≥Q(s,an2)≥…≥
Q(s,ank)≥?Q(s,ai)∈A}
(29)
MDQN方法在初始階段與DQN相同,首先將當(dāng)前的狀態(tài)S送入Q網(wǎng)絡(luò),接著計(jì)算出所有動(dòng)作的動(dòng)作價(jià)值函數(shù)Q(s,a)。在動(dòng)作選擇階段采用如式(28)、(29)所示的k-優(yōu)先采樣策略,先根據(jù)所有動(dòng)作的Q值挑選出k個(gè)最高Q值的候選動(dòng)作,接著根據(jù)softmax函數(shù)計(jì)算出k個(gè)候選動(dòng)作的歸一化得分,最后按照符合歸一化得分的概率分布完成動(dòng)作的選取。
本文采用圖5所示的園區(qū)綜合能源系統(tǒng)進(jìn)行算例仿真,該算例由3個(gè)互聯(lián)的園區(qū)綜合能源系統(tǒng)構(gòu)成,并且整體與外部電網(wǎng)和熱管網(wǎng)相連。
不失一般性,本文以園區(qū)綜合能源系統(tǒng)1作為決策主體為例,將其余園區(qū)綜合能源系統(tǒng)用2.1節(jié)所述的方法進(jìn)行等值封裝。每個(gè)園區(qū)綜合能源系統(tǒng)內(nèi)部含有數(shù)量不等的TCL、價(jià)格響應(yīng)型負(fù)荷及熱負(fù)荷,各園區(qū)內(nèi)部的能源由風(fēng)電、燃?xì)廨啓C(jī)以及鍋爐補(bǔ)燃提供,主要參數(shù)見(jiàn)表1。
算法參數(shù)方面,用于園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的參數(shù)設(shè)置如下:輸入樣本為24 h的熱負(fù)荷、電負(fù)荷、風(fēng)電數(shù)據(jù)、光伏數(shù)據(jù)、電能交易價(jià)格數(shù)據(jù)以及熱能交易價(jià)格數(shù)據(jù),因此輸入數(shù)據(jù)維度為(24,6);經(jīng)過(guò)2層含有128個(gè)隱藏元的LSTM網(wǎng)絡(luò)后,再經(jīng)過(guò)256個(gè)神經(jīng)元的全連接網(wǎng)絡(luò),最后輸出維度為2的電能交易量以及熱能交易量。MDQN算法超參數(shù)設(shè)置方面,其中衰減系數(shù)γ=0.98,懲罰系數(shù)λ=0.25,k優(yōu)先采樣策略的初始k值設(shè)定為500且每100個(gè)訓(xùn)練周期(epoch)衰減一次,Q網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.01,Q目標(biāo)網(wǎng)絡(luò)與Q估計(jì)網(wǎng)絡(luò)之間的更新步長(zhǎng)為300個(gè)訓(xùn)練步長(zhǎng)。
圖5 園區(qū)綜合能源系統(tǒng)算例仿真結(jié)構(gòu)Fig.5 Simulation structure of the park-level integrated energy system
表1 算例參數(shù)Table 1 Simulation parameters
首先,對(duì)園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的有效性進(jìn)行驗(yàn)證,其中訓(xùn)練數(shù)據(jù)為10 000天內(nèi)24 h的園區(qū)綜合能源系統(tǒng)歷史決策數(shù)據(jù),訓(xùn)練集規(guī)模為10 000×24,測(cè)試集規(guī)模為200×24。LSTM網(wǎng)絡(luò)訓(xùn)練過(guò)程中的訓(xùn)練集與驗(yàn)證集損失函數(shù)變化趨勢(shì)如圖6所示,從結(jié)果來(lái)看,LSTM網(wǎng)絡(luò)訓(xùn)練后的準(zhǔn)確率保證在98%以上,有效保證了園區(qū)綜合能源系統(tǒng)封裝模型的準(zhǔn)確性。
圖6 LSTM網(wǎng)絡(luò)損失函數(shù)變化趨勢(shì)Fig.6 Trend of loss function of LSTM network
其次,分別采用提出的MDQN與傳統(tǒng)的DQN進(jìn)行園區(qū)綜合能源系統(tǒng)群能量管理策略的學(xué)習(xí)求解,得到的MDQN算法與DQN算法訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值對(duì)比如圖7所示。
圖7 MDQN與DQN算法的獎(jiǎng)勵(lì)值對(duì)比Fig.7 Comparison of reward values of MDQN and DQN algorithms
從圖7中的獎(jiǎng)勵(lì)值變化趨勢(shì)可以看出,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂特性,其收斂的獎(jiǎng)勵(lì)值更優(yōu),同時(shí)在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值波動(dòng)也更小。這是由于傳統(tǒng)DQN算法采用ε貪心策略,在大規(guī)模動(dòng)作空間中以隨機(jī)策略進(jìn)行探索時(shí)效率低下,無(wú)法在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)策略,同時(shí)多次隨機(jī)的探索導(dǎo)致學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的波動(dòng)較大,算法魯棒性較差;而本文所提MDQN算法采用k優(yōu)先采樣策略,能根據(jù)概率選擇較優(yōu)的候選動(dòng)作,極大地提高了智能體對(duì)動(dòng)作空間的探索效率,可以保證算法收斂到更優(yōu)的獎(jiǎng)勵(lì)值,用時(shí)采用k優(yōu)先采樣策略避免了對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的大量訪問(wèn),降低了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)函數(shù)的方差。因此,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂性以及穩(wěn)定性。
在該算例中,MDQN算法獲得的獎(jiǎng)勵(lì)均值為38.56,DQN算法的獎(jiǎng)勵(lì)均值為33.67;MDQN算法獲得的獎(jiǎng)勵(lì)方差為3.22,DQN算法的獎(jiǎng)勵(lì)方差為8.68。相比DQN算法,MDQN算法獲得的獎(jiǎng)勵(lì)值提高了14.5%,同時(shí)方差降低了62.9%。因此,所提MDQN算法在大規(guī)模動(dòng)作空間下的表現(xiàn)明顯優(yōu)于傳統(tǒng)DQN算法。
為了進(jìn)一步驗(yàn)證本文所提算法在不同場(chǎng)景下的表現(xiàn),對(duì)比了DQN與MDQN兩種算法對(duì)于園區(qū)綜合能源系統(tǒng)1的能源管理情況,如圖8與圖9所示。
結(jié)合圖8(a)以及圖9(a),在算例的前24 h中,風(fēng)電始終處于匱乏狀態(tài),此時(shí)2種智能體都利用燃?xì)廨啓C(jī)提供大部分電能,并從外界購(gòu)入少量的電能。但是MDQN智能體比DQN智能體更好地制定了園區(qū)內(nèi)部的電價(jià),有效降低了電能短缺期間的價(jià)格響應(yīng)型負(fù)荷的耗電量,保證了園區(qū)的經(jīng)濟(jì)效益。在算例的后24 h中,風(fēng)電為盈余狀態(tài),此時(shí)2個(gè)智能體給出的決策方案都是減少燃?xì)廨啓C(jī)的發(fā)電功率,同時(shí)適量地向外界出售多余的電能。但是MDQN智能體更傾向于向其他園區(qū)出售電能,DQN智能體選擇降低園區(qū)內(nèi)部市場(chǎng)電價(jià),激勵(lì)價(jià)格響應(yīng)型負(fù)荷的用電需求。從經(jīng)濟(jì)收益上看,外銷型的MDQN智能體比DQN智能體能獲得更高的收益。
圖8(b)以及圖9(b)給出了2種算法對(duì)熱能的管理情況,與電能情況不同,園區(qū)綜合能源系統(tǒng)1熱能較為充裕,因此智能體的主要任務(wù)是如何出售多余的熱能使利益最大化。從結(jié)果中可以看出,DQN智能體只向園區(qū)3和熱管網(wǎng)進(jìn)行熱能交易,而MDQN智能體減少了對(duì)熱管網(wǎng)出售的熱能,增加了向園區(qū)綜合能源系統(tǒng)2出售熱能。在仿真時(shí)段內(nèi),園區(qū)3的熱能需求較大,園區(qū)2的熱能需求較小,同時(shí)園區(qū)2與園區(qū)3的熱能交易價(jià)格高于外部熱管網(wǎng)。因此,MDQN智能體的決策不僅使自身獲得的收益更高,同時(shí)促進(jìn)了不同園區(qū)之間的能源交易。
圖8 DQN智能體的能源管理情況Fig.8 Energy management by DQN agent
圖9 MDQN智能體的能源管理情況Fig.9 Energy management by MDQN agent
MDQN算法與DQN算法在不同天數(shù)中的調(diào)度收益情況對(duì)比如圖10所示。從圖10中可以看出,在能源盈余的場(chǎng)景下,MDQN算法可以更好地調(diào)整與其余園區(qū)之間的交易策略從而獲得更高的收益;同時(shí)在能源匱缺的場(chǎng)景下,MDQN算法可以通過(guò)調(diào)整機(jī)組出力以及與其他園區(qū)的能源收購(gòu)策略,從而以較低的成本滿足園區(qū)內(nèi)部能源的供需平衡。在不同場(chǎng)景中,DQN算法的平均經(jīng)濟(jì)收益為18.76美元,MDQN算法的平均經(jīng)濟(jì)收益為24.23美元,同比提升了29.16%。因此,MDQN算法無(wú)論在何種場(chǎng)景下均可以獲得比DQN算法更高的收益,具有更好的經(jīng)濟(jì)性。
綜合以上仿真結(jié)果,本文提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以合理實(shí)施能源的調(diào)度與分配,在保障用戶需求的基礎(chǔ)上進(jìn)行削峰填谷,提高園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。
圖10 MDQN與DQN算法在不同場(chǎng)景下的收益對(duì)比Fig.10 Rewards comparison of MDQN and DQN algorithms in different scenarios
本文針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理問(wèn)題,為克服傳統(tǒng)數(shù)學(xué)類方法在模型近似上的局限性以及進(jìn)化類算法局限于局部最優(yōu)的缺陷,同時(shí)為了應(yīng)對(duì)傳統(tǒng)DQN方法在大規(guī)模離散動(dòng)作空間上探索效率低下的問(wèn)題,本文提出了基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法,主要結(jié)論如下:
1)提出的基于LSTM網(wǎng)絡(luò)的各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值封裝模型可以較好地刻畫其余園區(qū)綜合能源系統(tǒng)的能源需求響應(yīng)特性,保證了馬爾科夫決策環(huán)境的動(dòng)態(tài)性。
2)提出的MDQN算法相較DQN算法采用了k-優(yōu)先采樣策略,能夠在大規(guī)模動(dòng)作空間的探索中減少對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的訪問(wèn)頻次,減少了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的方差。相比DQN算法,MDQN算法在訓(xùn)練過(guò)程中獲得的平均獎(jiǎng)勵(lì)值提高了14.5%,同時(shí)方差降低了62.9%。因此MDQN算法具有更好的收斂性與穩(wěn)定性。
3)提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以不需要了解園區(qū)設(shè)備的詳細(xì)參數(shù)信息,在復(fù)雜變化的場(chǎng)景中也可以實(shí)現(xiàn)熱、電多元能量管理策略的自適應(yīng)學(xué)習(xí)進(jìn)化,提升園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。MDQN算法相比傳統(tǒng)DQN算法提升的經(jīng)濟(jì)效益可達(dá)29.16%。
本文研究中的MDQN算法在面向更大規(guī)模的園區(qū)綜合能源系統(tǒng)能量管理時(shí),由于控制變量的離散化仍會(huì)面臨決策維度爆炸增長(zhǎng)的問(wèn)題,如何采用連續(xù)性變量的多智能體強(qiáng)化學(xué)習(xí)算法對(duì)多園區(qū)綜合能源系統(tǒng)的協(xié)同優(yōu)化控制策略進(jìn)行提升改進(jìn)將是本文后續(xù)進(jìn)一步的研究方向。