范 宏,于偉南,柳 璐,竇真蘭
(1. 上海電力大學(xué)電氣工程學(xué)院,上海市 200090;2. 電力傳輸與功率變換控制教育部重點(diǎn)實(shí)驗(yàn)室(上海交通大學(xué)),上海市 200240;3. 國(guó)網(wǎng)上海綜合能源服務(wù)有限公司,上海市 200023)
中國(guó)為實(shí)現(xiàn)“碳達(dá)峰·碳中和”目標(biāo)制定了明確的規(guī)劃和部署[1]。但可再生能源的滲透率提高可能會(huì)給電網(wǎng)帶來(lái)間歇性和可靠性問(wèn)題,需要新的解決方案來(lái)靈活調(diào)配系統(tǒng)中的資源[2-3]。通過(guò)多種能源的轉(zhuǎn)化和存儲(chǔ)來(lái)提高能源利用率[4]是目前主流的研究方向,其中氫儲(chǔ)能的作用尤為重要[5-6]。一般的高壓氣態(tài)儲(chǔ)氫技術(shù)面臨著安全問(wèn)題,相對(duì)安全的固態(tài)儲(chǔ)氫技術(shù)也更加昂貴[7-8]。基于液態(tài)有機(jī)氫載體(liquid organic hydrogen carrier,LOHC)的液態(tài)儲(chǔ)氫技術(shù)通過(guò)催化加氫反應(yīng)及其逆反應(yīng)實(shí)現(xiàn)氫氣的存儲(chǔ)與釋放,其成本比固態(tài)儲(chǔ)氫技術(shù)低,安全系數(shù)比高壓氣態(tài)儲(chǔ)氫技術(shù)高,具有儲(chǔ)氫密度高、體積占比小的優(yōu)點(diǎn)[7,9],且能量的轉(zhuǎn)換過(guò)程幾乎沒(méi)有碳排放,具備解決“碳中和”發(fā)展瓶頸問(wèn)題的潛力。
作為電力系統(tǒng)的終端應(yīng)用形式[10],以智能樓宇[11]為模塊化單元,自底層向上構(gòu)建智慧園區(qū)供能體系,不僅能夠?qū)崿F(xiàn)電力系統(tǒng)的靈活調(diào)度,而且可以增強(qiáng)智慧園區(qū)的“韌性”[12-13]。但樓宇位于系統(tǒng)底層,容量較小且用能行為各異,需要在樓宇中安裝氫儲(chǔ)能設(shè)備以提高樓宇的可控性、協(xié)調(diào)性以及就地消納可再生能源的能力[14-16]。文獻(xiàn)[17]采用模型預(yù)測(cè)控制方法對(duì)不同時(shí)間尺度的調(diào)度問(wèn)題進(jìn)行劃分,以削減不確定性對(duì)樓宇優(yōu)化調(diào)度的影響;文獻(xiàn)[18]利用不確定性理論刻畫(huà)了樓宇綜合能源系統(tǒng)的經(jīng)濟(jì)調(diào)度問(wèn)題;文獻(xiàn)[19]基于拉格朗日分解結(jié)合次梯度法解決樓宇協(xié)調(diào)調(diào)度問(wèn)題;文獻(xiàn)[20-23]采用交替方向乘子法建立了多主體參與綜合能源系統(tǒng)調(diào)度的分布式調(diào)度方法。上述方法都需要計(jì)算所有可能的解決方案并從中尋找結(jié)果最優(yōu)的一種方案,因而求解過(guò)程相當(dāng)耗時(shí)且容易陷入局部最優(yōu)。深度強(qiáng)化學(xué)習(xí)方法可以在高維歷史數(shù)據(jù)庫(kù)中進(jìn)行學(xué)習(xí),提取和優(yōu)化樓宇用能模式,具備高速精準(zhǔn)的決策能力。例如:文獻(xiàn)[24]采用極限學(xué)習(xí)機(jī)實(shí)現(xiàn)了樓宇能耗的在線評(píng)估;文獻(xiàn)[25]應(yīng)用異步深度強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)了居民用戶用電設(shè)備的在線優(yōu)化問(wèn)題;文獻(xiàn)[26-27]利用自動(dòng)學(xué)習(xí)機(jī)和Q 學(xué)習(xí)算法實(shí)現(xiàn)了需求側(cè)管理的快速優(yōu)化;文獻(xiàn)[28]基于確定性策略梯度算法構(gòu)建了綜合能源系統(tǒng)的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度模型,但該方法在應(yīng)對(duì)多主體參與調(diào)度的環(huán)境中很難滿足各方的利益平衡。本文所采用的多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)是深度確定性策略梯度(DDPG)為適應(yīng)多主體環(huán)境的改進(jìn)算法,能夠進(jìn)行中心化訓(xùn)練和非中心化執(zhí)行[29-30],適合具有高實(shí)時(shí)性、自主性要求的智慧園區(qū)。
基于上述分析和挑戰(zhàn),本文結(jié)合雙碳目標(biāo)下綠色電力低碳發(fā)展的路徑,提出了一種基于MADDPG 算法的智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度方法,所做工作如下:
1)針對(duì)智慧園區(qū)內(nèi)部能量流、信息流和控制流的運(yùn)行機(jī)理,遵循不同樓宇的可靠性和經(jīng)濟(jì)性要求,建立了智慧園區(qū)多樓宇結(jié)構(gòu);
2)針對(duì)氫儲(chǔ)能系統(tǒng)電解、加氫、脫氫、反應(yīng)轉(zhuǎn)換4 個(gè)環(huán)節(jié),按照儲(chǔ)、釋氫環(huán)節(jié)進(jìn)行分類并建立了氫儲(chǔ)能系統(tǒng)的動(dòng)態(tài)模型;
3)針對(duì)具有自主運(yùn)行能力的智能樓宇建立了多個(gè)樓宇互聯(lián)的交互機(jī)制,并根據(jù)樓宇的歷史數(shù)據(jù),以“離線集中學(xué)習(xí)、在線分布執(zhí)行”的方式實(shí)現(xiàn)了智慧園區(qū)的實(shí)時(shí)調(diào)度;
4)為驗(yàn)證本文所提方法的有效性以及氫儲(chǔ)能系統(tǒng)在優(yōu)化調(diào)度中的作用,比較了儲(chǔ)能電池和氫儲(chǔ)能系統(tǒng)的調(diào)度效果,以及本文所提方法與傳統(tǒng)優(yōu)化方法和其他深度強(qiáng)化學(xué)習(xí)方法的優(yōu)化性能。
本文建立了以自主運(yùn)行的智能樓宇作為模塊化單元的智慧園區(qū),如圖1 所示。假設(shè)全天的調(diào)度時(shí)段集合為ΩT={1,2,…,t,…,T},園區(qū)內(nèi)的樓宇集合為ΩB={1,2,…,n,…,N},由智能樓宇組成的智慧園區(qū)通過(guò)由園區(qū)管理器控制的公共連接點(diǎn)(point of common coupling,PCC)連接到配電網(wǎng)。每棟樓宇都配備了不同容量的光伏面板、風(fēng)電機(jī)組和柴油發(fā)電機(jī),部分樓宇配備了氫儲(chǔ)能系統(tǒng),其相應(yīng)的集合為ΩH2SB?ΩB。同時(shí),本文還考慮了柔性負(fù)荷的調(diào)峰作用,部分樓宇的負(fù)荷要求不高,可在一定范圍內(nèi)減少部分對(duì)柔性負(fù)荷的供電,相應(yīng)的集合為ΩresB?ΩB。以上元件都配有相應(yīng)的傳感器、控制器和智能開(kāi)關(guān)。
在該園區(qū)中,每個(gè)智能樓宇都分屬于不同主體,其調(diào)度目標(biāo)均為使自身的運(yùn)行成本最小。但它們共同構(gòu)成了一個(gè)整體,樓宇之間由一條母線連接,存在電力共享。每棟樓宇都分配了一個(gè)智能體i,智能體與樓宇設(shè)備的控制器之間有通信線路,用于獲取傳感器測(cè)量的實(shí)時(shí)狀態(tài)數(shù)據(jù)。同時(shí),這些數(shù)據(jù)將被儲(chǔ)存起來(lái),每隔一段時(shí)間經(jīng)過(guò)通信線路傳輸給其他樓宇的智能體,用于智能體的離線學(xué)習(xí)。智能體根據(jù)實(shí)時(shí)數(shù)據(jù),在線確定樓宇內(nèi)部可控組件的最佳參考值并傳輸給相應(yīng)組件的控制器,控制器通過(guò)控制換流器和智能開(kāi)關(guān)使設(shè)備跟蹤這些參考值。這樣,以完全分布式的方式從每棟樓宇自我優(yōu)化的過(guò)程中實(shí)現(xiàn)了園區(qū)整體尋優(yōu)。
1)氫儲(chǔ)能系統(tǒng)
文獻(xiàn)[31]通過(guò)電解、加氫、脫氫和反應(yīng)轉(zhuǎn)換4 個(gè)過(guò)程描述了LOHC 氫儲(chǔ)能系統(tǒng)的荷載狀態(tài)。本文進(jìn)一步將該模型的電解和加氫統(tǒng)一為儲(chǔ)能環(huán)節(jié),脫氫和反應(yīng)轉(zhuǎn)換統(tǒng)一為釋能環(huán)節(jié),儲(chǔ)能和釋能環(huán)節(jié)的總反應(yīng)為:
式中:ηEL為電解效率;ξEL為電-氫轉(zhuǎn)換因子;ηH+為氫化反應(yīng)效率;ηH-為脫氫反應(yīng)效率;ξFC為氫-電轉(zhuǎn)換因子;ηFC為燃料電池的發(fā)電效率;ξLH為氫氣溶解到LOHC 前后的體積比。
一般而言,效率與輸入功率呈非線性變化關(guān)系[32-33],電解槽的效率隨輸入功率增加而迅速提高并達(dá)到峰值,隨后逐漸降低,且實(shí)際效率與電解槽溫度和電流密度有關(guān)。文獻(xiàn)[33]將該非線性曲線分段線性化,得到如附錄A 圖A1 所示的線性關(guān)系,各段表達(dá)式為:
本文中的電解效率取恒定值,該值為式(5)所示電解效率的期望值。
由于加氫和脫氫反應(yīng)過(guò)程主要為少氫有機(jī)化合物和多氫有機(jī)化合物之間的催化反應(yīng)及逆反應(yīng),主要耗材為催化劑[9],且耗電因子較小,轉(zhuǎn)化1 m3氫氣的耗電量為0.031 kW·h。在本文研究的智能樓宇環(huán)境中,小容量氫儲(chǔ)能系統(tǒng)的加氫和脫氫反應(yīng)過(guò)程消耗的電量很小[31],忽略不計(jì)。
2)柴油發(fā)電機(jī)
樓宇內(nèi)部采用柴油發(fā)電機(jī)作為可控機(jī)組,用于協(xié)調(diào)樓宇的供需平衡,其在t時(shí)段的出力可表示為:
3)負(fù)荷
樓宇的用能設(shè)備分為2 類:一類是完全由用戶控制,不受調(diào)度智能體控制的固定負(fù)荷;另一類是柔性負(fù)荷,調(diào)度智能體可以在固定的削減范圍內(nèi)減少部分對(duì)該類用能設(shè)備的供電,其數(shù)學(xué)模型如式(7)所示。
式中:Fn,t為t時(shí) 段樓宇n的運(yùn)行成 本。
第n棟樓宇的購(gòu)電成本包括從其他樓宇和上級(jí)電網(wǎng)購(gòu)電的費(fèi)用:
智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度問(wèn)題的約束包括功率平衡約束、交互功率約束和設(shè)備運(yùn)行約束。
2.3.1 功率平衡約束
2.3.2 交互功率約束
考慮到電網(wǎng)側(cè)和樓宇需要保持自身的安全穩(wěn)定運(yùn)行,主網(wǎng)與樓宇之間、樓宇和樓宇之間有功功率交換的上、下限約束為:
針對(duì)上文建立的“碳中和”智慧園區(qū)多樓宇運(yùn)行環(huán)境,樓宇中的關(guān)鍵設(shè)備運(yùn)行約束如下。
1)氫儲(chǔ)能系統(tǒng)運(yùn)行約束
氫儲(chǔ)能系統(tǒng)約束包括電解和反應(yīng)轉(zhuǎn)換環(huán)節(jié)的不等式約束,即電解槽和氫燃料電池儲(chǔ)存和釋放電能的限制。
3)需求響應(yīng)約束
樓宇n在t時(shí)段內(nèi)參與需求響應(yīng)的負(fù)荷量的不等式約束為:
多智能體深度強(qiáng)化學(xué)習(xí)算法是以馬爾可夫決策過(guò)程(Markov decision process,MDP)為基礎(chǔ)的隨機(jī)博弈架構(gòu)。采用深度強(qiáng)化學(xué)習(xí)方法求解第2 章中所述的雙碳目標(biāo)下考慮電氫互補(bǔ)的智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度問(wèn)題,首先要將上述數(shù)學(xué)規(guī)劃問(wèn)題轉(zhuǎn)換為MDP 的形式進(jìn)行描述,轉(zhuǎn)化過(guò)程及環(huán)境的構(gòu)建思路如圖2 所示。
圖2 深度強(qiáng)化學(xué)習(xí)方法構(gòu)建過(guò)程Fig.2 Construction process of deep reinforcement learning method
MDP 可用高維元組(S,A,R,P,γ)表示。其中,S={s1,s2,…,si,…,sI}表征各樓宇調(diào)度智能體所處環(huán)境的狀態(tài)集合,即表征樓宇中關(guān)鍵設(shè)備狀態(tài)的變量集合,I為智能體的數(shù)量。為避免執(zhí)行過(guò)程中的頻繁信息交互,每棟樓需要獨(dú)立制定調(diào)度決策,因此各智能體對(duì)所處樓宇的設(shè)備狀態(tài)是完全感知的,但不能感知到其他樓宇設(shè)備的狀態(tài),即智能體i的觀測(cè)空間oi=si。各智能體根據(jù)觀測(cè)值制定的調(diào)度決策 的 集 合A={a1,a2,…,ai,…,aI},即 聯(lián) 合 動(dòng) 作。樓宇執(zhí)行智能體制定的調(diào)度決策后會(huì)獲得相應(yīng)的回報(bào),各樓宇回報(bào)組成的集合R={r1,r2,…,ri,…,rI}。狀態(tài)轉(zhuǎn)移關(guān)系P表示環(huán)境由當(dāng)前狀態(tài)轉(zhuǎn)移到其他狀態(tài)的概率,對(duì)于樓宇來(lái)說(shuō),P天然滿足功率平衡約束。累計(jì)折扣回報(bào)的衰減系數(shù)γ表征遠(yuǎn)期回報(bào)對(duì)當(dāng)前動(dòng)作的影響程度。
本文中樓宇的觀測(cè)空間包括負(fù)荷需求(包括固定負(fù)荷和柔性負(fù)荷)、上一時(shí)段儲(chǔ)氫罐的荷載狀態(tài)、風(fēng)電和光伏的輸出功率以及當(dāng)前所處調(diào)度時(shí)段,具體為:
智能體輸出的動(dòng)作可由柔性負(fù)荷的響應(yīng)功率、柴油發(fā)電機(jī)的發(fā)電功率、從外網(wǎng)的購(gòu)電功率、電解池和燃料電池的轉(zhuǎn)化功率表示:
上述變量確定后,樓宇之間的交互功率也可確定。
根據(jù)上文及案例的調(diào)度模型,本文將各個(gè)樓宇運(yùn)行成本最小化的目標(biāo)轉(zhuǎn)化為智能體的獎(jiǎng)勵(lì)最大化,得到智能體i在調(diào)度時(shí)段t獲得的回報(bào)表達(dá)式為:
附錄B 給出了智能體離線集中式訓(xùn)練和在線分布式執(zhí)行這2 個(gè)過(guò)程的具體實(shí)現(xiàn)方法以及神經(jīng)網(wǎng)絡(luò)超參數(shù)的設(shè)置。
為探究氫儲(chǔ)能系統(tǒng)以及所提多智能體強(qiáng)化學(xué)習(xí)的調(diào)度策略在智慧園區(qū)中的應(yīng)用效果,本文對(duì)上海某裝設(shè)了氫儲(chǔ)能系統(tǒng)的智慧園區(qū)示范工程中的3 棟樓宇進(jìn)行仿真,3 棟樓宇的風(fēng)電、光伏出力及負(fù)荷的訓(xùn)練數(shù)據(jù)集如圖3 所示。該數(shù)據(jù)集是該園區(qū)2017年內(nèi)3 個(gè)月(5、6、7 月)共92 組包含24 個(gè)不同時(shí)刻數(shù)據(jù)的日負(fù)荷曲線。每棟樓宇分別配備了不同容量的風(fēng)電機(jī)組和光伏組件。樓宇1 不參與需求響應(yīng),其余2 棟樓宇均參與需求響應(yīng)。樓宇1 和樓宇3 分別裝設(shè)一組氫儲(chǔ)能系統(tǒng);每棟樓宇均安裝了一臺(tái)柴油發(fā)電機(jī)。樓宇中關(guān)鍵設(shè)備的參數(shù)[31]如表1 所示,碳排放成本、運(yùn)行成本系數(shù)及投資成本[31,34]如表2 所示。系統(tǒng)調(diào)度時(shí)長(zhǎng)為24 h,相鄰2 個(gè)時(shí)段的間隔為15 min。該仿真基于Pycharm 社區(qū)版(2020.3.5)以 及 開(kāi) 源 的Python3.6、Tensorflow 1.12.0、Gym 0.10.5 完 成。硬 件 環(huán) 境 為:AMD Ryzen5 4600H 的CPU、NVIDIA RTX1650 的GPU、16 GB DDR4 的內(nèi)存。本文樓宇間的交互電價(jià)為0.3 元/(kW·h),與上級(jí)電網(wǎng)的交互電價(jià)采用峰谷分時(shí)電價(jià)。其中:峰 電 價(jià) 時(shí) 段 為11:00—15:00、18:00—21:00;平 電 價(jià) 時(shí) 段 為07:00—11:00、15:00—18:00、21:00—23:00;谷電價(jià)時(shí)段為23:00—次日07:00。各時(shí)段電價(jià)如表3 所示。
表1 關(guān)鍵設(shè)備參數(shù)Table 1 Parameters of key equipment
表2 碳排放成本、運(yùn)行成本系數(shù)及投資成本Table 2 Coefficients of carbon emission cost,operation cost and investment cost
表3 分時(shí)電價(jià)Table 3 Time-of-use electricity price
圖3 智慧樓宇的訓(xùn)練數(shù)據(jù)集Fig.3 Training data sets of smart buildings
基于上述訓(xùn)練數(shù)據(jù)和環(huán)境參數(shù),對(duì)每個(gè)樓宇智能體進(jìn)行訓(xùn)練,得到如附錄A 圖A2 所示的3 個(gè)樓宇智能體在訓(xùn)練過(guò)程中的回報(bào)值曲線。
智能體在訓(xùn)練初期獲得的獎(jiǎng)勵(lì)值較小,且獎(jiǎng)勵(lì)值的分布較為松散,說(shuō)明此時(shí)智能體尚不穩(wěn)定,處于初步探索階段。經(jīng)歷約8 000 次訓(xùn)練后,智能體獲得的獎(jiǎng)勵(lì)值在訓(xùn)練過(guò)程中逐漸增加且最終穩(wěn)定在一個(gè)較小的區(qū)間內(nèi),說(shuō)明智能體在不斷地試錯(cuò)中獲得了經(jīng)驗(yàn),并最終學(xué)習(xí)到了最小化系統(tǒng)運(yùn)行成本的最優(yōu)調(diào)度策略。由于在每個(gè)訓(xùn)練回合中的訓(xùn)練數(shù)據(jù)都有變化,因此在訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)值會(huì)出現(xiàn)振蕩。
為說(shuō)明系統(tǒng)的實(shí)時(shí)調(diào)度性能,以該智慧園區(qū)2018 年5 月15 日的調(diào)度數(shù)據(jù)為例,基于本文提出的分布式協(xié)調(diào)調(diào)度方法模擬了以下3 種情景的調(diào)度情況。
情景1:樓宇采用儲(chǔ)能電池作為儲(chǔ)能系統(tǒng),調(diào)度策略采用一般的基于市場(chǎng)價(jià)格驅(qū)動(dòng)的策略。
情景2:樓宇采用氫儲(chǔ)能系統(tǒng),調(diào)度策略采用一般的基于市場(chǎng)價(jià)格驅(qū)動(dòng)的策略。
情景3:樓宇采用氫儲(chǔ)能系統(tǒng),且考慮可再生能源制氫設(shè)備,制氫的電力來(lái)源均為可再生能源。
上述3 個(gè)情景中3 棟樓宇的調(diào)度結(jié)果如圖4 所示,上述3 個(gè)情景中的樓宇間的功率交互情況如圖5所示。
圖5 樓宇交互電功率Fig.5 Interactive electric power between buildings
由圖4 可以看出,在情景1、2 中,氫儲(chǔ)能系統(tǒng)在電價(jià)的引導(dǎo)下進(jìn)行充放電,在谷電價(jià)且電負(fù)荷較小時(shí)充電,以備負(fù)荷高峰時(shí)段的放電需求,如23:00—次日04:00 時(shí)段,樓宇1、3 均選擇將電能儲(chǔ)存起來(lái);06:00—09:00 處于平電價(jià)時(shí)段,此時(shí)樓宇1 缺電而樓宇2、3 有多余電量,因此樓宇1 的功率缺額由樓宇2、3 補(bǔ)足;相比之下,15:00—17:00 時(shí)段樓宇1、2、3 的電負(fù)荷較高而風(fēng)、光出力不足,整個(gè)微網(wǎng)呈現(xiàn)缺電狀態(tài),因此樓宇1、3 選擇釋放氫儲(chǔ)能系統(tǒng)存儲(chǔ)的電量,剩余缺電量從配電網(wǎng)購(gòu)電補(bǔ)充,而樓宇2 沒(méi)有氫儲(chǔ)能系統(tǒng),只能選擇從配電網(wǎng)購(gòu)電。11:00—14:00 時(shí)段樓宇1、3 的風(fēng)、光出力總和大于負(fù)荷需求,且在調(diào)度初期氫儲(chǔ)能系統(tǒng)已經(jīng)儲(chǔ)存了足夠多的電量,因此樓宇1、3 選擇將多余電能向外輸送以獲取收益;而樓宇2 此時(shí)處于缺電狀態(tài),由柴油發(fā)電機(jī)發(fā)電補(bǔ)充。18:00—22:00 處于峰電價(jià)時(shí)段,各樓宇均處于缺電狀態(tài),樓宇1、3 的氫儲(chǔ)能系統(tǒng)受輸出功率限制,不能完全滿足其用電需求,因此需要調(diào)用柴油發(fā)電機(jī)補(bǔ)充剩余缺電功率。而在情景3 中,制氫的電力來(lái)源均為智慧園區(qū)中的可再生能源發(fā)電裝置,因此電解槽動(dòng)作發(fā)生在可再生能源較充裕的時(shí)段,如04:00—08:00。氫燃料電池的動(dòng)作與情景1相近,集中在15:00—21:00,此時(shí)電價(jià)較高,氫燃料電池出力以減少智慧園區(qū)的運(yùn)行成本。在11:00—14:00 時(shí)段,雖然可再生能源也比較充裕,但此時(shí)售電價(jià)格高,樓宇仍選擇向配電網(wǎng)售電以獲取收益。相較于情景2 中的智慧園區(qū)的總運(yùn)行成本(2 394.897 元),情景3 中智慧園區(qū)的總運(yùn)行成本(2 201.734 元)降低了8.066%。其中,每棟樓宇的碳排放成本如表4 所示,相較于情景1 和情景2 下智慧園區(qū)的總碳排放成本(14.990 元和15.215 元),情景3 中考慮電氫互補(bǔ)的智慧園區(qū)結(jié)構(gòu)的碳排放成本分別降低了18.79%和19.99%。
圖4 調(diào)度結(jié)果比較Fig.4 Comparison of scheduling results
表4 碳排放成本Table 4 Carbon emission cost
結(jié)合圖4、圖5 和表4 對(duì)比3 種場(chǎng)景可以看出:當(dāng)同樣處在經(jīng)濟(jì)驅(qū)動(dòng)的調(diào)度策略中時(shí),裝配儲(chǔ)能電池的智慧園區(qū)與裝配氫儲(chǔ)能系統(tǒng)的運(yùn)行成本和碳排放成本相近,且2 種情景下樓宇均在谷電價(jià)時(shí)段從配電網(wǎng)購(gòu)電儲(chǔ)能,而在平、峰電價(jià)時(shí)段更傾向于將自身剩余功率出售給配電網(wǎng)以提高自身收益。這表明在傳統(tǒng)的調(diào)度模式下,儲(chǔ)能電池能夠達(dá)到與氫儲(chǔ)能系統(tǒng)相近的效果。對(duì)于同樣裝配氫儲(chǔ)能系統(tǒng)的智慧園區(qū),考慮綠氫制備的情景3 中,樓宇在園區(qū)可再生能源出力有富余時(shí)制備綠氫,相當(dāng)于提高了內(nèi)部功率交互的優(yōu)先級(jí),提高了園區(qū)就地消納可再生能源的能力。這樣一方面減少了從外部購(gòu)電的成本,另一方面也降低了碳排放成本。
為驗(yàn)證本文提出的基于MADDPG 算法的碳中和智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度方法的有效性,將基于MADDPG 算法的調(diào)度方法與基于深度Q 網(wǎng)絡(luò)(deep Q network,DQN)算 法、反 事 實(shí) 多 智 能 體(counterfactual multi-agent,COMA)深度強(qiáng)化學(xué)習(xí)算法、DDPG 調(diào)度方法以及基于模型預(yù)測(cè)控制(MPC)的調(diào)度方法進(jìn)行對(duì)比。其中,COMA 的各智能體的Actor 由一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)控制,隱含層數(shù)為1,隱含層神經(jīng)元個(gè)數(shù)為128,各層之間由全連接神經(jīng)網(wǎng)絡(luò)鏈接。COMA 的集中式Critic 網(wǎng)絡(luò)、DQN 的神經(jīng)網(wǎng)絡(luò)和DDPG 的智能體神經(jīng)網(wǎng)絡(luò)設(shè)置相同,有2 個(gè)隱含層,每層有200 個(gè)神經(jīng)元,ReLU 表示隱含層的激活函數(shù)。采用含1 個(gè)隱含層的全連接神經(jīng)網(wǎng)絡(luò)作為模型預(yù)測(cè)控制的預(yù)測(cè)模型部分。
為避免訓(xùn)練結(jié)果的隨機(jī)性導(dǎo)致的優(yōu)化結(jié)果不準(zhǔn)確,本文隨機(jī)選取該園區(qū)2018 年5 月中15 天的數(shù)據(jù)作為輸入,表5 給出了5 種方法優(yōu)化后的平均日運(yùn)行成本的統(tǒng)計(jì)數(shù)據(jù),意在說(shuō)明優(yōu)化效果的不同是方法而非隨機(jī)性導(dǎo)致。其中:基于COMA 算法和基于DDPG 算法的優(yōu)化結(jié)果與本文所提方法的結(jié)果接近,平均日運(yùn)行成本分別較本文所提方法增加了1.85%和2.08%;基于DQN 算法的平均日運(yùn)行成本較本文所提方法增加了5.19%;基于MPC 方法的平均日運(yùn)行成本較本文所提方法增加了6.93%。
表5 不同方法的優(yōu)化結(jié)果比較Table 5 Comparison of optimization results with different methods
分析不同算法的原理可知,傳統(tǒng)優(yōu)化調(diào)度方法受可再生能源機(jī)組出力和負(fù)荷的預(yù)測(cè)精度的影響比較嚴(yán)重。在DQN 方法中,由于需求響應(yīng)量、氫儲(chǔ)能的出力須取設(shè)定的離散值,導(dǎo)致動(dòng)作的選擇不能覆蓋整個(gè)動(dòng)作空間,篩選出的動(dòng)作很可能是次優(yōu)動(dòng)作。DDPG 算法采用單個(gè)智能體對(duì)所有樓宇同時(shí)進(jìn)行調(diào)度,狀態(tài)集合和動(dòng)作集合非常龐大,導(dǎo)致智能體選擇了次優(yōu)動(dòng)作,而且在實(shí)際運(yùn)行中需要大量的通信。COMA 算法在策略更新過(guò)程中,某一智能體在反事實(shí)估計(jì)時(shí)假定其他智能體的策略不變,因而導(dǎo)致所選擇的動(dòng)作非最優(yōu)。由此可見(jiàn),本文所提出的基于MADDPG 算法的調(diào)度方法較其他2 種算法能夠更容易地探索到動(dòng)作空間中的最優(yōu)動(dòng)作,更適合解決含氫儲(chǔ)能系統(tǒng)的多智慧樓宇協(xié)調(diào)調(diào)度問(wèn)題。
本文利用電氫互補(bǔ)特性和樓宇間的電能共享,構(gòu)建碳中和智慧園區(qū)的運(yùn)行結(jié)構(gòu),提出了基于多智能體深度強(qiáng)化學(xué)習(xí)的智慧園區(qū)多樓宇分布式實(shí)時(shí)調(diào)度方法,對(duì)本文所做工作總結(jié)如下。
1)通過(guò)將氫儲(chǔ)能系統(tǒng)的電解、加氫、脫氫、轉(zhuǎn)化反應(yīng)4 個(gè)環(huán)節(jié)統(tǒng)一為儲(chǔ)能和釋能環(huán)節(jié),建立了氫儲(chǔ)能系統(tǒng)的動(dòng)態(tài)特性模型,并比較了氫儲(chǔ)能系統(tǒng)在是否考慮綠氫制備的前提下的智慧樓宇的經(jīng)濟(jì)性,以及氫儲(chǔ)能系統(tǒng)與傳統(tǒng)儲(chǔ)能的應(yīng)用效果的差異。
2)將MADDPG 方法與智慧園區(qū)運(yùn)行結(jié)構(gòu)相結(jié)合,設(shè)計(jì)分布式實(shí)時(shí)經(jīng)濟(jì)調(diào)度方法。通過(guò)將智慧園區(qū)多樓宇系統(tǒng)的經(jīng)濟(jì)調(diào)度問(wèn)題分解為各個(gè)樓宇在連續(xù)狀態(tài)空間中選擇最優(yōu)連續(xù)動(dòng)作的問(wèn)題,使各樓宇可以在自我優(yōu)化過(guò)程中實(shí)現(xiàn)整體優(yōu)化,避免維數(shù)災(zāi)和次優(yōu)動(dòng)作的選擇。
3)將所提方法與傳統(tǒng)優(yōu)化方法、單智能體以及其他多智能體深度強(qiáng)化學(xué)習(xí)算法的優(yōu)化效果進(jìn)行對(duì)比,結(jié)果顯示,相較于其他方法,本文所提出的基于MADDPG 算法的調(diào)度方法應(yīng)用在智慧園區(qū)多樓宇協(xié)調(diào)在線調(diào)度方面能夠提高1.85%~6.93%左右的經(jīng)濟(jì)效益。
后續(xù)的模型建立中將考慮更多樓宇的協(xié)調(diào)調(diào)度并對(duì)算法收斂能力進(jìn)行驗(yàn)證,進(jìn)一步考慮調(diào)度過(guò)程中用戶數(shù)據(jù)的隱私性和安全性。
附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。