基于改進(jìn)深度Q網(wǎng)絡(luò)算法的多園區(qū)綜合能源系統(tǒng)能量管理方法

2022-12-12 01:29:52薛溟楓毛曉波肖浩浦驍威裴瑋

電力建設(shè) 2022年12期

薛溟楓，毛曉波，肖浩，浦驍威，裴瑋

(1.國(guó)網(wǎng)江蘇省電力有限公司無(wú)錫供電分公司，江蘇省無(wú)錫市 214000；2.中國(guó)科學(xué)院電工研究所，北京市 100190)

0 引言

為了推動(dòng)全球低碳轉(zhuǎn)型的進(jìn)程，中國(guó)在2020年9月宣布力爭(zhēng)2030年前實(shí)現(xiàn)碳達(dá)峰，2060年前實(shí)現(xiàn)碳中和的目標(biāo)[1]?！半p碳”目標(biāo)的提出給碳排放中占比較大的能源電力行業(yè)帶來(lái)了新的挑戰(zhàn)[2]。園區(qū)綜合能源系統(tǒng)可以實(shí)現(xiàn)電、熱、氣多能源互補(bǔ)，是優(yōu)化能源結(jié)構(gòu)轉(zhuǎn)型、促進(jìn)低碳發(fā)展、助力“雙碳”目標(biāo)實(shí)現(xiàn)的重要抓手。面向園區(qū)微電網(wǎng)的建設(shè)方向正逐步從“源-源”橫向多能互補(bǔ)系統(tǒng)向“源-網(wǎng)-荷-儲(chǔ)”縱向一體化的綜合能源系統(tǒng)發(fā)展。合理地對(duì)園區(qū)綜合能源系統(tǒng)進(jìn)行能量管理是減小分布式能源(distributed energy resource,DER)波動(dòng)對(duì)電網(wǎng)沖擊、促進(jìn)可再生能源發(fā)展應(yīng)用，以及緩解化石能源緊張、減少碳排放的有效途徑。因此，對(duì)園區(qū)綜合能源系統(tǒng)配置合理有效的能量管理方法對(duì)加速推進(jìn)低碳綜合能源系統(tǒng)的建設(shè)具有重要意義[3]。

目前，針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理和優(yōu)化調(diào)度已有大量研究[4-12]，其中主流方法包括以非線性規(guī)劃、二階錐規(guī)劃、混合整數(shù)規(guī)劃等為代表的數(shù)學(xué)優(yōu)化類方法以及以遺傳算法、粒子群算法為代表的啟發(fā)式算法。在數(shù)學(xué)優(yōu)化方法方面，文獻(xiàn)[12]基于傳熱學(xué)原理推導(dǎo)出了熱網(wǎng)潮流的網(wǎng)絡(luò)流量-溫度基本方程，并用混合整數(shù)線性規(guī)范的方法解決了冷熱電聯(lián)供系統(tǒng)的優(yōu)化運(yùn)行問(wèn)題。文獻(xiàn)[13]提出了一種混合整數(shù)的二階錐優(yōu)化方法，采用二階錐松弛方法將園區(qū)綜合能源系統(tǒng)優(yōu)化模型轉(zhuǎn)化為具有凸可行域的數(shù)學(xué)規(guī)劃形式，使優(yōu)化問(wèn)題便于求解。上述方法雖然理論清晰，且一定程度能保障解的最優(yōu)性，但此類數(shù)學(xué)規(guī)劃模型通常是對(duì)供能系統(tǒng)的約束條件做適當(dāng)簡(jiǎn)化，在處理大規(guī)模非線性規(guī)劃問(wèn)題時(shí)具有局限性。在啟發(fā)式算法方面，文獻(xiàn)[14]采用兩階段多目標(biāo)優(yōu)化方法來(lái)設(shè)計(jì)園區(qū)綜合能源系統(tǒng)的運(yùn)行方案，第一階段采用多目標(biāo)粒子群算法優(yōu)化系統(tǒng)的設(shè)備類型和容量，第二階段用CPLEX求解器進(jìn)一步優(yōu)化設(shè)備的小時(shí)出力，有效提高了園區(qū)綜合能源系統(tǒng)的綜合收益。文獻(xiàn)[15]開(kāi)展了針對(duì)冷熱聯(lián)供分布式供能系統(tǒng)的能量管理研究，借鑒大系統(tǒng)經(jīng)濟(jì)調(diào)度優(yōu)化控制方法，將優(yōu)化問(wèn)題轉(zhuǎn)化為帶離散變量的非線性規(guī)劃問(wèn)題，并用遺傳算法進(jìn)行求解。文獻(xiàn)[16]著眼于園區(qū)綜合能源系統(tǒng)的經(jīng)濟(jì)性和環(huán)保性，用粒子群算法(particle swarm optimization，PSO)解決以電為核心的綜合能源系統(tǒng)優(yōu)化調(diào)度模型。上述啟發(fā)式算法雖然求解方便且可以保證在多項(xiàng)式時(shí)間內(nèi)給出較優(yōu)的結(jié)果，但是求解的結(jié)果難以保證解的全局最優(yōu)性。

強(qiáng)化學(xué)習(xí)技術(shù)是近年來(lái)新興的一項(xiàng)人工智能技術(shù)，其通過(guò)馬爾科夫決策過(guò)程，使智能體在與環(huán)境的不斷交互中逐漸學(xué)習(xí)到回報(bào)最大的策略，在高難度決策類問(wèn)題上有較出色的表現(xiàn)[17]。目前不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用到了園區(qū)綜合能源系統(tǒng)的決策控制中。文獻(xiàn)[18]將深度策略梯度方法(deep deterministic policy gradient,DDPG)應(yīng)用于園區(qū)綜合能源系統(tǒng)能源服務(wù)商的定價(jià)和調(diào)度策略。文獻(xiàn)[19]提出了一種雙層強(qiáng)化學(xué)習(xí)方法，該方法上層為深度Q網(wǎng)絡(luò)(deep Q network，DQN)，下層為混合整數(shù)線性規(guī)劃優(yōu)化器，可以解決園區(qū)綜合能源系統(tǒng)中復(fù)雜的能源耦合關(guān)系。文獻(xiàn)[20]借助貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)不確定的學(xué)習(xí)環(huán)境建模，將綜合能源系統(tǒng)優(yōu)化運(yùn)行問(wèn)題轉(zhuǎn)變?yōu)轳R爾科夫決策問(wèn)題，并通過(guò)深度強(qiáng)化學(xué)習(xí)算法尋找最優(yōu)運(yùn)行策略。文獻(xiàn)[21-22]對(duì)園區(qū)綜合能源系統(tǒng)中多主體博弈的定價(jià)機(jī)制、多主體聯(lián)合規(guī)劃方式以及多能源優(yōu)化調(diào)度機(jī)制進(jìn)行了研究，分析了含配電網(wǎng)、配氣網(wǎng)、配熱網(wǎng)和多個(gè)能量樞紐組成的園區(qū)綜合能源系統(tǒng)的運(yùn)行機(jī)制，提出了考慮供能網(wǎng)絡(luò)安全約束的園區(qū)綜合能源系統(tǒng)多主體運(yùn)行優(yōu)化方法。但是多主體博弈理論下的能源優(yōu)化調(diào)度會(huì)面臨多主體互動(dòng)機(jī)制復(fù)雜、智能體動(dòng)作空間維度龐大的問(wèn)題，這會(huì)導(dǎo)致智能體對(duì)動(dòng)作空間的探索效率低下，算法的穩(wěn)定性不佳，從而易收斂至局部最優(yōu)，學(xué)習(xí)到非最優(yōu)策略。

針對(duì)現(xiàn)有工作的不足之處，本文針對(duì)多能耦合的多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題展開(kāi)研究，提出一種新型基于改進(jìn)深度Q網(wǎng)絡(luò)(modified deep Q network，MDQN)算法的園區(qū)綜合能源系統(tǒng)能量管理方法。該方法首先通過(guò)長(zhǎng)短期記憶(long short-term memory，LSTM)網(wǎng)絡(luò)對(duì)多智能體決策的環(huán)境進(jìn)行封裝，解決馬爾科夫決策環(huán)境的動(dòng)態(tài)性問(wèn)題；其次在訓(xùn)練智能體階段引入一種優(yōu)先動(dòng)作采樣的策略來(lái)改進(jìn)DQN算法，解決在大規(guī)模動(dòng)作空間下的動(dòng)作探索效率低下的問(wèn)題，保證智能體在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)調(diào)度策略。最后通過(guò)園區(qū)綜合能源系統(tǒng)群的算例仿真驗(yàn)證所提方法的有效性與經(jīng)濟(jì)性。

1 園區(qū)綜合能源系統(tǒng)群結(jié)構(gòu)

本文以包含電力以及熱力的多園區(qū)綜合能源系統(tǒng)為例，其構(gòu)成如圖1所示。

多園區(qū)綜合能源系統(tǒng)由若干個(gè)綜合能源系統(tǒng)以及一個(gè)外部綜合能源系統(tǒng)構(gòu)成。每個(gè)園區(qū)綜合能源系統(tǒng)之間可以自由定價(jià)、交易，同時(shí)也可以與外部綜合能源系統(tǒng)進(jìn)行交易，但不具備自主定價(jià)權(quán)。為了保證園區(qū)內(nèi)能源的平衡，將外部綜合能源系統(tǒng)設(shè)定為一個(gè)無(wú)窮大的能源系統(tǒng)。當(dāng)園區(qū)內(nèi)部總體能源過(guò)剩時(shí)，外部綜合能源系統(tǒng)可以收購(gòu)盈余的能源；反之，當(dāng)園區(qū)內(nèi)部總體能源緊缺時(shí)，外部綜合能源系統(tǒng)也可以出售足夠的能源。園區(qū)內(nèi)每個(gè)產(chǎn)消者所包含的能源設(shè)備包括：微燃機(jī)、燃?xì)忮仩t、分布式儲(chǔ)電設(shè)備、分布式儲(chǔ)熱設(shè)備、熱負(fù)荷以及電負(fù)荷，其中電負(fù)荷可以分成價(jià)格響應(yīng)型負(fù)荷以及恒溫控制型負(fù)荷(thermostatically controlled loads，TCL)。

圖1 園區(qū)綜合能源系統(tǒng)總體結(jié)構(gòu)Fig.1 Overall structure of the park-level integrated energy system

2 園區(qū)綜合能源系統(tǒng)內(nèi)部單元模型

2.1 分布式儲(chǔ)能元件模型

分布式儲(chǔ)能元件的儲(chǔ)能動(dòng)態(tài)過(guò)程可以由式(1)來(lái)表示：

(1)

式中：Bt∈[0,Bmax]為t時(shí)刻存儲(chǔ)在分布式儲(chǔ)能元件中的電能，Bmax為最大儲(chǔ)能能力；ηc、ηd∈[0,1]分別為儲(chǔ)能系統(tǒng)(energy storage system,ESS)的充放電系數(shù)；Ct∈[0,Cmax]為t時(shí)刻的實(shí)時(shí)充電功率，Cmax為最大充電功率；Dt∈[0,Dmax]為t時(shí)刻的實(shí)時(shí)放電功率，Dmax為最大放電功率。

同時(shí)為了整個(gè)綜合能源系統(tǒng)的量綱統(tǒng)一，引入表征分布式儲(chǔ)能元件的能量存儲(chǔ)量荷電狀態(tài)(state-of-charge，SoC)Soc,t的定義：

(2)

SoC反映了每一時(shí)刻ESS儲(chǔ)能罐的儲(chǔ)能百分比，同時(shí)滿足如式(3)所示的約束：

(3)

式(3)的約束表明任意時(shí)間段內(nèi)的儲(chǔ)能都有上下限，同時(shí)儲(chǔ)能裝置在每天開(kāi)始與最終的荷電狀態(tài)相同，確保儲(chǔ)能裝置滿足下一日的園區(qū)綜合能源系統(tǒng)運(yùn)行需求。

2.2 恒溫控制負(fù)荷模型

具有熱守恒性質(zhì)的負(fù)荷，如空調(diào)、冰箱、熱水器、熱泵等，都可以視為恒溫控制型負(fù)荷。

TCL的溫度動(dòng)態(tài)過(guò)程可以由式(4)來(lái)刻畫：

(4)

(5)

(6)

圖2 TCL控制流Fig.2 Diagram of TCL control flow

2.3 價(jià)格響應(yīng)型負(fù)荷模型

無(wú)法直接被控制，主要由用戶需求影響的負(fù)荷稱為價(jià)格響應(yīng)型負(fù)荷。這類負(fù)荷通常會(huì)受到電價(jià)的間接影響，其負(fù)荷功率平衡方程為：

(7)

(8)

(9)

式中：ωij∈{0,1}為第i個(gè)價(jià)格響應(yīng)型負(fù)荷在第j個(gè)時(shí)刻轉(zhuǎn)移負(fù)荷的決策。

價(jià)格響應(yīng)型負(fù)荷的ωij與當(dāng)前的市場(chǎng)價(jià)格水平δt及經(jīng)歷過(guò)的時(shí)間步有關(guān)，服從式(10)所示的概率分布：

(10)

(11)

式中：λi∈[0,1]為耐心系數(shù)。

式(11)的概率分布刻畫了負(fù)荷轉(zhuǎn)移的決策機(jī)制，即當(dāng)前市場(chǎng)電價(jià)越高，當(dāng)前時(shí)間步距離目標(biāo)時(shí)間步越久，負(fù)荷就越不容易轉(zhuǎn)移。

2.4 微燃機(jī)模型

天然氣燃燒時(shí)的高品位熱能做功驅(qū)動(dòng)微燃機(jī)發(fā)電，所排出的高溫余熱煙氣經(jīng)溴冷機(jī)后用于取暖及供應(yīng)生活熱水[23]。忽略外界環(huán)境變化對(duì)發(fā)電、燃料燃燒效率的影響，微燃機(jī)的熱電關(guān)系數(shù)學(xué)模型為：

(12)

式中：QMT(t)、PMT(t)、ηMT(t)分別為t時(shí)段微燃機(jī)的排氣余熱量、電功率和發(fā)電效率；ηL為散熱損失率。

(13)

式中：Δt為單位調(diào)度時(shí)間；CMT(t)為t時(shí)段微燃機(jī)的燃料成本；CCH4為天然氣單價(jià)；LHVNG為天然氣低熱值。

2.5 燃?xì)忮仩t模型

燃?xì)忮仩t可以實(shí)現(xiàn)電熱轉(zhuǎn)換并對(duì)電熱負(fù)荷進(jìn)行削峰填谷，有利于維護(hù)園區(qū)綜合能源系統(tǒng)內(nèi)部的能源供需平衡，其出力模型為：

QEB(t)=PEB(t)ηah

(14)

式中：PEB(t)、QEB(t)分別為t時(shí)段蒸汽鍋爐用電和制熱功率；ηah為蒸汽鍋爐的電熱轉(zhuǎn)換效率。

2.6 分布式儲(chǔ)熱罐模型

分布式儲(chǔ)熱罐可對(duì)熱負(fù)荷進(jìn)行時(shí)段性轉(zhuǎn)移，緩解園區(qū)內(nèi)電熱負(fù)荷與熱電聯(lián)供系統(tǒng)電熱比不匹配的矛盾，進(jìn)而實(shí)現(xiàn)電熱統(tǒng)一協(xié)調(diào)管理，改善園區(qū)綜合能源系統(tǒng)的電熱調(diào)度水平[23]，儲(chǔ)熱罐的動(dòng)態(tài)數(shù)學(xué)模型為：

(15)

式中：HHS(t)為t時(shí)段儲(chǔ)熱罐儲(chǔ)熱；μ為儲(chǔ)熱罐散熱損失率；QHS_ch(t)、QHS_dis(t)和ηhch、ηhdis分別為t時(shí)段的吸放熱功率及吸放熱效率。

3 基于MDQN算法的園區(qū)綜合能源系統(tǒng)群能量管理方法

多園區(qū)綜合能源系統(tǒng)的能量管理既要考慮熱、電多種能源的隨機(jī)性、儲(chǔ)能元件帶來(lái)的時(shí)序決策耦合性、多能源轉(zhuǎn)化、存儲(chǔ)的復(fù)雜性和多樣性，同時(shí)還要考慮其他園區(qū)綜合能源系統(tǒng)可能會(huì)采取的策略，因此其決策處在高維空間，給園區(qū)綜合能源系統(tǒng)的實(shí)時(shí)快速最優(yōu)能量管理帶來(lái)巨大挑戰(zhàn)。針對(duì)這一難題，本文首先對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值封裝建模，有效實(shí)現(xiàn)在外部輸入環(huán)境狀態(tài)下估值當(dāng)前能源交易額的功能，進(jìn)而將多智能體強(qiáng)化學(xué)習(xí)環(huán)境問(wèn)題轉(zhuǎn)化為單智能體強(qiáng)化學(xué)習(xí)問(wèn)題，降低多園區(qū)互動(dòng)運(yùn)行的決策復(fù)雜度。在此基礎(chǔ)上，針對(duì)每個(gè)園區(qū)綜合能源系統(tǒng)分別用MDQN方法進(jìn)行在線學(xué)習(xí)，提高決策效率，進(jìn)一步保障多園區(qū)綜合能源系統(tǒng)在多種場(chǎng)景下的實(shí)時(shí)決策。

3.1 基于LSTM深度網(wǎng)絡(luò)的各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模

對(duì)于園區(qū)綜合能源系統(tǒng)群來(lái)說(shuō)，各園區(qū)綜合能源系統(tǒng)能量管理可調(diào)資源除了內(nèi)部的可控機(jī)組外，還同時(shí)存在與外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)，而外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性復(fù)雜且時(shí)變，要實(shí)現(xiàn)對(duì)各園區(qū)綜合能源系統(tǒng)的有效能量管理，需要首先對(duì)外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性精確感知。本文基于LSTM深度網(wǎng)絡(luò)對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值建模[24]。

為了使封裝模型更具泛化能力，首先查詢各園區(qū)綜合能源系統(tǒng)的歷史能源交易數(shù)據(jù)，獲取不同外部激勵(lì)下的能源交易信息；接著將外部環(huán)境的時(shí)序信息作為輸入特征，將對(duì)應(yīng)的能源交易信息作為輸出標(biāo)簽送入LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。具體的封裝流程如圖3所示。

圖3所示的園區(qū)綜合能源系統(tǒng)封裝模型主要分為2個(gè)階段：第一階段是訓(xùn)練階段，通過(guò)海量離線數(shù)據(jù)的輸入，將不同外部激勵(lì)下的能源交易額和外部時(shí)序特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入，查詢能源交易額作為監(jiān)督學(xué)習(xí)的標(biāo)簽；第二階段是預(yù)測(cè)階段，在訓(xùn)練完成后可以實(shí)時(shí)地根據(jù)不同的外部激勵(lì)預(yù)測(cè)出該產(chǎn)消者的能源交易額。

3.2 MDQN算法

園區(qū)綜合能源系統(tǒng)的能量管理過(guò)程可建模為馬爾科夫決策過(guò)程(Markov decision process,MDP)，本文采用MDQN算法對(duì)其進(jìn)行建模和求解，具體包括狀態(tài)空間S、動(dòng)作空間A、獎(jiǎng)勵(lì)函數(shù)R以及衰減系數(shù)γ，記作δMDP={S,A,R,γ}。

圖3 園區(qū)綜合能源系統(tǒng)等值封裝模型Fig.3 Equivalent package model of park-level integrated energy system

3.2.1 狀態(tài)空間

智能體可觀測(cè)到的狀態(tài)空間為：

S=SC×SX×ST

(16)

式中：SC表示可控觀測(cè)量；SX表示不可控觀測(cè)量；ST表示時(shí)序信息觀測(cè)量。

可控觀測(cè)量包括園區(qū)綜合能源系統(tǒng)內(nèi)部分布式儲(chǔ)能狀態(tài)量Soc,t，TCL的狀態(tài)量Sot,t以及市場(chǎng)價(jià)格水平δt，可控觀測(cè)量為：

SC=[Soc,t,Sot,t,δt]

(17)

(18)

時(shí)序信息觀測(cè)量包括當(dāng)前天數(shù)td、當(dāng)前小時(shí)th。

ST=[td,th]

(19)

3.2.2 動(dòng)作空間

將每個(gè)園區(qū)綜合能源系統(tǒng)的控制中心視作一個(gè)智能體，其動(dòng)作空間為一個(gè)10維的離散空間。該動(dòng)作空間主要包括對(duì)電能的控制Ae以及對(duì)熱能的控制Ah。

A=Ae×Ah

(20)

對(duì)電能的控制動(dòng)作為：

Ae=[atcl,al,ac,aG,ap,as]

(21)

式中：atcl為TCL的控制信號(hào)；al為價(jià)格響應(yīng)型電負(fù)荷的控制信息；ac為分布式儲(chǔ)能罐的充放電控制信號(hào)；aG為燃?xì)廨啓C(jī)的發(fā)電功率控制信號(hào)；ap為電能交易價(jià)格控制信號(hào)；as為電能交易順序控制信號(hào)。

對(duì)熱能的控制動(dòng)作為：

Ah=[ahc,ahG,ahp,ahs]

(22)

式中：ahc為儲(chǔ)熱罐的控制信號(hào)；ahG為鍋爐補(bǔ)燃控制信號(hào)；ahp為熱能交易價(jià)格控制信號(hào)；ahs為熱能交易順序控制信號(hào)。

3.2.3 獎(jiǎng)勵(lì)函數(shù)

為了使每個(gè)園區(qū)綜合能源系統(tǒng)的能源管理方案負(fù)荷自身利益最大化，設(shè)計(jì)式(23)所示的獎(jiǎng)勵(lì)函數(shù)Rt：

Rt=St-Ft+Mt

(23)

式中：St為出售能源所獲的收益；Ft為獲得能源的成本；Mt為違反SoC平衡的懲罰項(xiàng)。

St主要來(lái)自向園區(qū)內(nèi)部用戶以及其他園區(qū)綜合能源系統(tǒng)出售能源的收益，如式(24)所示：

(24)

獲取能源的成本Ct主要來(lái)自分布式能源的發(fā)電、產(chǎn)熱成本以及向其他園區(qū)綜合能源系統(tǒng)的購(gòu)買成本，如式(25)所示：

(25)

為了滿足每一天開(kāi)始與結(jié)束時(shí)的SoC平衡，引入懲罰項(xiàng)Mt，如式(26)所示：

(26)

式中：λ為懲罰系數(shù)，在每天的非起始時(shí)刻懲罰項(xiàng)始終為0，在每天的最后一個(gè)時(shí)刻根據(jù)與當(dāng)天初始時(shí)刻的SoC差值確定懲罰項(xiàng)。

3.2.4 MDQN

DQN算法是一種基于值的深度強(qiáng)化學(xué)習(xí)算法，在狀態(tài)空間連續(xù)的決策類問(wèn)題中具有較好的表現(xiàn)[25]。傳統(tǒng)DQN方法使用的是ε貪心策略，即每次選擇動(dòng)作時(shí)以1-ε的概率選擇最優(yōu)動(dòng)作，以ε的概率探索其他動(dòng)作，ε貪心策略的數(shù)學(xué)表達(dá)式為：

(27)

式中：π(a|s)表示策略函數(shù)，是從狀態(tài)到動(dòng)作的一種映射；A(s)表示智能體可采取的動(dòng)作的總數(shù)；a*=argmaxaQ(s,a)表示貪心動(dòng)作。

DQN算法采用的ε貪心策略在小規(guī)模動(dòng)作空間中有助于遍歷動(dòng)作空間，平衡策略的探索率與利用率。但是傳統(tǒng)的DQN算法僅適用于低維離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)環(huán)境，在面對(duì)大規(guī)模離散動(dòng)作空間時(shí)會(huì)面臨探索效率低下、收斂速度慢且容易收斂于次優(yōu)解的問(wèn)題。這是由于在高維離散的動(dòng)作空間中，傳統(tǒng)的ε貪心策略在采取非貪心策略探索時(shí)過(guò)于低效，無(wú)法有效更新Q值網(wǎng)絡(luò)參數(shù)。本文多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題中動(dòng)作空間的維度較高，所有動(dòng)作的排列組合數(shù)高達(dá)125萬(wàn)個(gè)。

為此，本文提出一種針對(duì)大規(guī)模離散動(dòng)作空間下的MDQN算法，其原理如圖4所示。

圖4 MDQN算法原理Fig.4 MDQN method

MDQN的核心思想是在DQN方法的基礎(chǔ)上用k-優(yōu)先采樣策略來(lái)代替ε貪心策略。k-優(yōu)先采樣策略的表達(dá)式為：

(28)

式中：A*為所有動(dòng)作價(jià)值Q(s,a)中最高的k個(gè)動(dòng)作所構(gòu)成的集合。

A*={(an1,an2,…,ank)|Q(s,an1)≥Q(s,an2)≥…≥
Q(s,ank)≥?Q(s,ai)∈A}

(29)

MDQN方法在初始階段與DQN相同，首先將當(dāng)前的狀態(tài)S送入Q網(wǎng)絡(luò)，接著計(jì)算出所有動(dòng)作的動(dòng)作價(jià)值函數(shù)Q(s,a)。在動(dòng)作選擇階段采用如式(28)、(29)所示的k-優(yōu)先采樣策略，先根據(jù)所有動(dòng)作的Q值挑選出k個(gè)最高Q值的候選動(dòng)作，接著根據(jù)softmax函數(shù)計(jì)算出k個(gè)候選動(dòng)作的歸一化得分，最后按照符合歸一化得分的概率分布完成動(dòng)作的選取。

4 算例仿真

4.1 算例設(shè)置

本文采用圖5所示的園區(qū)綜合能源系統(tǒng)進(jìn)行算例仿真，該算例由3個(gè)互聯(lián)的園區(qū)綜合能源系統(tǒng)構(gòu)成，并且整體與外部電網(wǎng)和熱管網(wǎng)相連。

不失一般性，本文以園區(qū)綜合能源系統(tǒng)1作為決策主體為例，將其余園區(qū)綜合能源系統(tǒng)用2.1節(jié)所述的方法進(jìn)行等值封裝。每個(gè)園區(qū)綜合能源系統(tǒng)內(nèi)部含有數(shù)量不等的TCL、價(jià)格響應(yīng)型負(fù)荷及熱負(fù)荷，各園區(qū)內(nèi)部的能源由風(fēng)電、燃?xì)廨啓C(jī)以及鍋爐補(bǔ)燃提供，主要參數(shù)見(jiàn)表1。

算法參數(shù)方面，用于園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的參數(shù)設(shè)置如下：輸入樣本為24 h的熱負(fù)荷、電負(fù)荷、風(fēng)電數(shù)據(jù)、光伏數(shù)據(jù)、電能交易價(jià)格數(shù)據(jù)以及熱能交易價(jià)格數(shù)據(jù)，因此輸入數(shù)據(jù)維度為(24,6)；經(jīng)過(guò)2層含有128個(gè)隱藏元的LSTM網(wǎng)絡(luò)后，再經(jīng)過(guò)256個(gè)神經(jīng)元的全連接網(wǎng)絡(luò)，最后輸出維度為2的電能交易量以及熱能交易量。MDQN算法超參數(shù)設(shè)置方面，其中衰減系數(shù)γ=0.98，懲罰系數(shù)λ=0.25，k優(yōu)先采樣策略的初始k值設(shè)定為500且每100個(gè)訓(xùn)練周期(epoch)衰減一次，Q網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.01，Q目標(biāo)網(wǎng)絡(luò)與Q估計(jì)網(wǎng)絡(luò)之間的更新步長(zhǎng)為300個(gè)訓(xùn)練步長(zhǎng)。

圖5 園區(qū)綜合能源系統(tǒng)算例仿真結(jié)構(gòu)Fig.5 Simulation structure of the park-level integrated energy system

表1 算例參數(shù)Table 1 Simulation parameters

4.2 結(jié)果分析

首先，對(duì)園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的有效性進(jìn)行驗(yàn)證，其中訓(xùn)練數(shù)據(jù)為10 000天內(nèi)24 h的園區(qū)綜合能源系統(tǒng)歷史決策數(shù)據(jù),訓(xùn)練集規(guī)模為10 000×24，測(cè)試集規(guī)模為200×24。LSTM網(wǎng)絡(luò)訓(xùn)練過(guò)程中的訓(xùn)練集與驗(yàn)證集損失函數(shù)變化趨勢(shì)如圖6所示，從結(jié)果來(lái)看，LSTM網(wǎng)絡(luò)訓(xùn)練后的準(zhǔn)確率保證在98%以上，有效保證了園區(qū)綜合能源系統(tǒng)封裝模型的準(zhǔn)確性。

圖6 LSTM網(wǎng)絡(luò)損失函數(shù)變化趨勢(shì)Fig.6 Trend of loss function of LSTM network

其次，分別采用提出的MDQN與傳統(tǒng)的DQN進(jìn)行園區(qū)綜合能源系統(tǒng)群能量管理策略的學(xué)習(xí)求解，得到的MDQN算法與DQN算法訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值對(duì)比如圖7所示。

圖7 MDQN與DQN算法的獎(jiǎng)勵(lì)值對(duì)比Fig.7 Comparison of reward values of MDQN and DQN algorithms

從圖7中的獎(jiǎng)勵(lì)值變化趨勢(shì)可以看出，MDQN算法比傳統(tǒng)DQN算法具有更好的收斂特性，其收斂的獎(jiǎng)勵(lì)值更優(yōu)，同時(shí)在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值波動(dòng)也更小。這是由于傳統(tǒng)DQN算法采用ε貪心策略，在大規(guī)模動(dòng)作空間中以隨機(jī)策略進(jìn)行探索時(shí)效率低下，無(wú)法在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)策略，同時(shí)多次隨機(jī)的探索導(dǎo)致學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的波動(dòng)較大，算法魯棒性較差；而本文所提MDQN算法采用k優(yōu)先采樣策略，能根據(jù)概率選擇較優(yōu)的候選動(dòng)作，極大地提高了智能體對(duì)動(dòng)作空間的探索效率，可以保證算法收斂到更優(yōu)的獎(jiǎng)勵(lì)值，用時(shí)采用k優(yōu)先采樣策略避免了對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的大量訪問(wèn)，降低了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)函數(shù)的方差。因此，MDQN算法比傳統(tǒng)DQN算法具有更好的收斂性以及穩(wěn)定性。

在該算例中，MDQN算法獲得的獎(jiǎng)勵(lì)均值為38.56，DQN算法的獎(jiǎng)勵(lì)均值為33.67；MDQN算法獲得的獎(jiǎng)勵(lì)方差為3.22，DQN算法的獎(jiǎng)勵(lì)方差為8.68。相比DQN算法，MDQN算法獲得的獎(jiǎng)勵(lì)值提高了14.5%，同時(shí)方差降低了62.9%。因此，所提MDQN算法在大規(guī)模動(dòng)作空間下的表現(xiàn)明顯優(yōu)于傳統(tǒng)DQN算法。

為了進(jìn)一步驗(yàn)證本文所提算法在不同場(chǎng)景下的表現(xiàn)，對(duì)比了DQN與MDQN兩種算法對(duì)于園區(qū)綜合能源系統(tǒng)1的能源管理情況，如圖8與圖9所示。

結(jié)合圖8(a)以及圖9(a)，在算例的前24 h中，風(fēng)電始終處于匱乏狀態(tài)，此時(shí)2種智能體都利用燃?xì)廨啓C(jī)提供大部分電能，并從外界購(gòu)入少量的電能。但是MDQN智能體比DQN智能體更好地制定了園區(qū)內(nèi)部的電價(jià)，有效降低了電能短缺期間的價(jià)格響應(yīng)型負(fù)荷的耗電量，保證了園區(qū)的經(jīng)濟(jì)效益。在算例的后24 h中，風(fēng)電為盈余狀態(tài)，此時(shí)2個(gè)智能體給出的決策方案都是減少燃?xì)廨啓C(jī)的發(fā)電功率，同時(shí)適量地向外界出售多余的電能。但是MDQN智能體更傾向于向其他園區(qū)出售電能，DQN智能體選擇降低園區(qū)內(nèi)部市場(chǎng)電價(jià)，激勵(lì)價(jià)格響應(yīng)型負(fù)荷的用電需求。從經(jīng)濟(jì)收益上看，外銷型的MDQN智能體比DQN智能體能獲得更高的收益。

圖8(b)以及圖9(b)給出了2種算法對(duì)熱能的管理情況，與電能情況不同，園區(qū)綜合能源系統(tǒng)1熱能較為充裕，因此智能體的主要任務(wù)是如何出售多余的熱能使利益最大化。從結(jié)果中可以看出，DQN智能體只向園區(qū)3和熱管網(wǎng)進(jìn)行熱能交易，而MDQN智能體減少了對(duì)熱管網(wǎng)出售的熱能，增加了向園區(qū)綜合能源系統(tǒng)2出售熱能。在仿真時(shí)段內(nèi)，園區(qū)3的熱能需求較大，園區(qū)2的熱能需求較小，同時(shí)園區(qū)2與園區(qū)3的熱能交易價(jià)格高于外部熱管網(wǎng)。因此，MDQN智能體的決策不僅使自身獲得的收益更高，同時(shí)促進(jìn)了不同園區(qū)之間的能源交易。

圖8 DQN智能體的能源管理情況Fig.8 Energy management by DQN agent

圖9 MDQN智能體的能源管理情況Fig.9 Energy management by MDQN agent

MDQN算法與DQN算法在不同天數(shù)中的調(diào)度收益情況對(duì)比如圖10所示。從圖10中可以看出，在能源盈余的場(chǎng)景下，MDQN算法可以更好地調(diào)整與其余園區(qū)之間的交易策略從而獲得更高的收益；同時(shí)在能源匱缺的場(chǎng)景下，MDQN算法可以通過(guò)調(diào)整機(jī)組出力以及與其他園區(qū)的能源收購(gòu)策略，從而以較低的成本滿足園區(qū)內(nèi)部能源的供需平衡。在不同場(chǎng)景中，DQN算法的平均經(jīng)濟(jì)收益為18.76美元，MDQN算法的平均經(jīng)濟(jì)收益為24.23美元，同比提升了29.16%。因此，MDQN算法無(wú)論在何種場(chǎng)景下均可以獲得比DQN算法更高的收益，具有更好的經(jīng)濟(jì)性。

綜合以上仿真結(jié)果，本文提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以合理實(shí)施能源的調(diào)度與分配，在保障用戶需求的基礎(chǔ)上進(jìn)行削峰填谷，提高園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。

圖10 MDQN與DQN算法在不同場(chǎng)景下的收益對(duì)比Fig.10 Rewards comparison of MDQN and DQN algorithms in different scenarios

5 結(jié) 論

本文針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理問(wèn)題，為克服傳統(tǒng)數(shù)學(xué)類方法在模型近似上的局限性以及進(jìn)化類算法局限于局部最優(yōu)的缺陷，同時(shí)為了應(yīng)對(duì)傳統(tǒng)DQN方法在大規(guī)模離散動(dòng)作空間上探索效率低下的問(wèn)題，本文提出了基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法，主要結(jié)論如下：

1)提出的基于LSTM網(wǎng)絡(luò)的各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值封裝模型可以較好地刻畫其余園區(qū)綜合能源系統(tǒng)的能源需求響應(yīng)特性，保證了馬爾科夫決策環(huán)境的動(dòng)態(tài)性。

2)提出的MDQN算法相較DQN算法采用了k-優(yōu)先采樣策略，能夠在大規(guī)模動(dòng)作空間的探索中減少對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的訪問(wèn)頻次，減少了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的方差。相比DQN算法，MDQN算法在訓(xùn)練過(guò)程中獲得的平均獎(jiǎng)勵(lì)值提高了14.5%，同時(shí)方差降低了62.9%。因此MDQN算法具有更好的收斂性與穩(wěn)定性。

3)提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以不需要了解園區(qū)設(shè)備的詳細(xì)參數(shù)信息，在復(fù)雜變化的場(chǎng)景中也可以實(shí)現(xiàn)熱、電多元能量管理策略的自適應(yīng)學(xué)習(xí)進(jìn)化，提升園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。MDQN算法相比傳統(tǒng)DQN算法提升的經(jīng)濟(jì)效益可達(dá)29.16%。

本文研究中的MDQN算法在面向更大規(guī)模的園區(qū)綜合能源系統(tǒng)能量管理時(shí)，由于控制變量的離散化仍會(huì)面臨決策維度爆炸增長(zhǎng)的問(wèn)題，如何采用連續(xù)性變量的多智能體強(qiáng)化學(xué)習(xí)算法對(duì)多園區(qū)綜合能源系統(tǒng)的協(xié)同優(yōu)化控制策略進(jìn)行提升改進(jìn)將是本文后續(xù)進(jìn)一步的研究方向。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放