胥 棟,李逸超,李 赟,徐 剛,杜佳瑋
(國(guó)網(wǎng)上海市電力公司浦東供電公司,上海 200122)
隨著“雙碳”戰(zhàn)略的提出,低碳化成為中國(guó)未來(lái)能源行業(yè)發(fā)展的必然趨勢(shì)[1-2]?!疤歼_(dá)峰·碳中和”這一要求對(duì)中國(guó)能源革命進(jìn)展提出革命性要求,能源結(jié)構(gòu)的調(diào)整和各類(lèi)可再生能源的高效利用成為必然的研究趨勢(shì)。而“綜合能源系統(tǒng)”概念的提出和實(shí)現(xiàn)為這一研究趨勢(shì)提供了有效的解決途徑。中國(guó)目前城市化高速發(fā)展,樓宇耗能占比高升。因此,在低碳背景下,以單樓宇為研究對(duì)象的綜合能源協(xié)調(diào)優(yōu)化研究成為新一輪的研究熱點(diǎn)。但是,多種能源背景下的樓宇協(xié)調(diào)優(yōu)化調(diào)度面臨著用戶(hù)多樣化、能量種類(lèi)多樣化、多種能源交易復(fù)雜化以及能量調(diào)度主體多元化等難題[3]。在上述背景下,鮮有研究成果聚焦于樓宇的低碳特性。因此,目前亟須探究如何在多能流背景下,既能提升樓宇綜合能源利用效率,又能降低碳排放量的方法。
面對(duì)樓宇眾多且能耗占比攀升的現(xiàn)實(shí)情況,許多學(xué)者將樓宇與綜合能源系統(tǒng)技術(shù)相結(jié)合,形成綜合能源背景下的樓宇用電系統(tǒng),提升多種能源的利用效率,同時(shí)降低能耗。文獻(xiàn)[4]建立了光伏發(fā)電系統(tǒng)、中央空調(diào)系統(tǒng)、冷熱電聯(lián)供系統(tǒng)、能量?jī)?chǔ)存系統(tǒng)和儲(chǔ)能元件5種能源系統(tǒng)模型,提出了基于冷電聯(lián)供系統(tǒng)的建筑樓宇冷-電綜合能源系統(tǒng)優(yōu)化調(diào)度模型;文獻(xiàn)[5]在保護(hù)區(qū)域電-熱綜合能源系統(tǒng)多主體運(yùn)營(yíng)系統(tǒng)運(yùn)行參數(shù)隱私的情況下,充分挖掘不同供熱模式下樓宇集群儲(chǔ)能的潛力,建立了一種考慮樓宇不同供熱模式的區(qū)域電-熱綜合能源系統(tǒng)分布式協(xié)調(diào)優(yōu)化調(diào)度模型。
在“雙碳”戰(zhàn)略的大背景下,僅僅考慮經(jīng)濟(jì)性和安全性?xún)煞矫鎯?yōu)化已難以滿足低碳的政策要求。因此,必須將碳排放量納入多能流網(wǎng)智能樓宇優(yōu)化調(diào)度模型中。文獻(xiàn)[6]提出了一種考慮V2B(電動(dòng)汽車(chē)接入樓宇)智慧充電樁群的低碳樓宇優(yōu)化調(diào)度模型;文獻(xiàn)[7]考慮氫儲(chǔ)能系統(tǒng),提出了一種“雙碳”背景下分布式的智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度方法;文獻(xiàn)[8]考慮3 種不同類(lèi)型的樓宇,在考慮光伏不確定性的影響下,提出一種多類(lèi)型樓宇電能-碳排放權(quán)聯(lián)合分布式交易方法。但上述研究成果中的能源主體都以光伏、氫儲(chǔ)能為主,包含的能源種類(lèi)不全。
對(duì)于多研究主體的多目標(biāo)優(yōu)化問(wèn)題,傳統(tǒng)的求解算法主要通過(guò)加權(quán)求和的方式將其轉(zhuǎn)化成單目標(biāo)問(wèn)題進(jìn)行求解,但是多個(gè)目標(biāo)的權(quán)重占比依賴(lài)于決策者對(duì)優(yōu)化目標(biāo)的偏好,在實(shí)際中很難確定[9]。在上述文獻(xiàn)中,使用頻率較高的求解算法為ADMM(交替方法乘子法)。ADMM 具有實(shí)現(xiàn)簡(jiǎn)單、隱私保護(hù)性強(qiáng)、收斂性好等優(yōu)點(diǎn)而被廣泛應(yīng)用于樓宇的分布式交易中。文獻(xiàn)[10]提出了一種樓宇群兩階段能量共享策略,建立了基于非合作博弈的自私樓宇能量共享模型,并采用ADMM實(shí)現(xiàn)分布式求解;文獻(xiàn)[11]提出基于電能共享的綜合能源樓宇能量管理框架,并基于ADMM進(jìn)行分布式調(diào)度。近年來(lái),深度強(qiáng)化學(xué)習(xí)算法在各行各領(lǐng)域中廣泛應(yīng)用,并取得了不俗的表現(xiàn)。深度強(qiáng)化學(xué)習(xí)具備高速精準(zhǔn)的決策能力,在解決多目標(biāo)優(yōu)化問(wèn)題、順序決策問(wèn)題上有著顯著的優(yōu)勢(shì)[12]。文獻(xiàn)[13]在分時(shí)電價(jià)背景下建立了一種基于DPG(深度策略梯度)算法的智能樓宇群能量?jī)?yōu)化方法,所提方法證明了類(lèi)似DPG的深度強(qiáng)化學(xué)習(xí)算法對(duì)于多目標(biāo)優(yōu)化問(wèn)題的適用性及求解的快速性。
本文建立了一種涵蓋多種能源的多能流智慧樓宇低碳調(diào)度模型。首先,構(gòu)建了冷-熱-電綜合能源參與的智慧樓宇低碳調(diào)度數(shù)學(xué)模型。考慮多種碳排放來(lái)源主體,建立了基于無(wú)償碳排放權(quán)配額的階梯型低碳交易模型。所建立的數(shù)學(xué)模型考慮的能源設(shè)備全面,利用不同調(diào)節(jié)資源的互補(bǔ)特性,保證智慧樓宇的經(jīng)濟(jì)最優(yōu)性,并且有效地實(shí)現(xiàn)其綜合能源系統(tǒng)的低碳調(diào)度。然后,為了利用Rainbow算法對(duì)所搭建的多能流智慧樓宇低碳調(diào)度模型進(jìn)行求解,將數(shù)學(xué)模型依據(jù)定義轉(zhuǎn)化為MDP(馬爾可夫決策過(guò)程)。Rainbow 算法是一種以DQN(深度Q 網(wǎng)絡(luò))算法為基礎(chǔ),將各種改進(jìn)算法相互融合的組合算法,在決策領(lǐng)域得到廣泛應(yīng)用[14]。最后,通過(guò)算例證明了所提方法在線調(diào)度負(fù)荷的有效性和優(yōu)越性。
本文的研究對(duì)象系統(tǒng)架構(gòu)如圖1所示。該系統(tǒng)分為能源供給側(cè)、智慧樓宇側(cè)和負(fù)荷側(cè)。
圖1 計(jì)及多能流網(wǎng)的智慧樓宇低碳調(diào)度架構(gòu)Fig.1 The low-carbon scheduling architecture for smart buildings with multi-energy flow networks
能源供給側(cè)考慮了配電網(wǎng)、碳市場(chǎng)和天然氣市場(chǎng),配電網(wǎng)與天然氣市場(chǎng)共同向樓宇內(nèi)部供能,但不支持樓宇電能與燃?xì)夥邓汀L际袌?chǎng)與樓宇內(nèi)部的碳排放配額量進(jìn)行交易;負(fù)荷側(cè)含電、熱、冷、氣4種負(fù)荷類(lèi)型。電負(fù)荷由樓頂光伏機(jī)組、燃?xì)廨啓C(jī)供電,熱負(fù)荷由燃?xì)廨啓C(jī)與燃?xì)忮仩t共同供熱,冷負(fù)荷由中央空調(diào)和PLBR(光伏溴化鋰制冷機(jī))共同制冷。氣負(fù)荷由天然氣市場(chǎng)直接供氣。智慧樓宇側(cè)主要配備燃?xì)廨啓C(jī)、燃?xì)忮仩t、蓄熱池、中央空調(diào)、PLBR、碳捕集系統(tǒng)等設(shè)備。其中,中央空調(diào)節(jié)能和可再生能源發(fā)電是該運(yùn)行模式下樓宇的主要碳減排方式,樓宇經(jīng)過(guò)碳捕集及封存技術(shù)改造,通過(guò)捕捉到的CO2配額向碳市場(chǎng)進(jìn)行交易。同時(shí),樓宇也可以向碳市場(chǎng)購(gòu)買(mǎi)碳配額以支撐新能源出力不足的情況。本文提出的計(jì)及多能流網(wǎng)的智慧樓宇低碳調(diào)度架構(gòu)能夠利用不同能流資源的時(shí)空互補(bǔ)性,有效提升樓宇綜合能源系統(tǒng)調(diào)度的經(jīng)濟(jì)性和低碳性。
首先,對(duì)多能流低碳樓宇設(shè)備進(jìn)行數(shù)學(xué)建模并給出相應(yīng)的約束條件;然后,采用基準(zhǔn)線法確定低碳樓宇無(wú)償碳排放權(quán)配額并引入階梯型碳交易模型;最后,考慮低碳因素,以最小化多能流樓宇運(yùn)行成本為優(yōu)化目標(biāo)構(gòu)建樓宇優(yōu)化調(diào)度模型。
1)多能流功率平衡約束
多能流低碳樓宇電、熱、冷、氣功率平衡約束如式(1)—(4)所示。
2)樓頂光伏設(shè)備建模及約束
樓頂光伏的輸出功率模型及其約束條件如式(5)和式(6)所示。
3)燃?xì)廨啓C(jī)設(shè)備建模及約束
燃?xì)廨啓C(jī)輸出電功率、熱功率模型及其約束條件如式(7)—(11)所示。
4)燃?xì)忮仩t設(shè)備建模及約束
燃?xì)忮仩t通過(guò)燃燒天然氣制熱,其輸出熱功率模型及其約束條件如式(12)和式(13)所示。
5)中央空調(diào)設(shè)備建模及約束
本文考慮中央空調(diào),空調(diào)通過(guò)消耗電能制冷,可通過(guò)輸入的電功率計(jì)算其制冷量,其輸出的制冷量模型及其約束條件如式(14)和式(15)所示。
6)PLBR設(shè)備建模及約束
PLBR利用余熱作為驅(qū)動(dòng)熱源制冷,其輸出冷功率模型及其約束條件如式(16)和式(17)所示。
7)碳捕集設(shè)備建模及約束
碳捕集設(shè)備須考慮其處理能耗,其消耗功率模型及其約束條件如式(18)和式(19)所示。
8)蓄熱槽設(shè)備建模及約束
當(dāng)蓄熱槽放熱、儲(chǔ)熱時(shí),其功率模型及其約束條件如式(21)—(25)所示。
碳排放權(quán)的交易實(shí)質(zhì)上是主體被賦予一定的碳排放權(quán)后,由于環(huán)境的原因,把碳排放權(quán)這種權(quán)力指標(biāo)作為商品投入市場(chǎng)交易。碳交易帶來(lái)的利益可以激發(fā)主體對(duì)于降低碳排放量的意愿,以達(dá)到控制總碳排放量的目的。
2.2.1 初始碳排放權(quán)配額
目前,中國(guó)碳市場(chǎng)大多選擇對(duì)初始碳排放權(quán)配額進(jìn)行無(wú)償分配[15],在無(wú)償分配中監(jiān)管部門(mén)通常主要使用基準(zhǔn)線法來(lái)確定初始碳排放配額[16]。基準(zhǔn)線法是通過(guò)參考行業(yè)整體排放數(shù)據(jù)水平設(shè)置排放強(qiáng)度,并根據(jù)該基礎(chǔ)發(fā)放配額。
對(duì)于低碳樓宇來(lái)說(shuō),須對(duì)燃?xì)廨啓C(jī)、燃?xì)忮仩t和配電網(wǎng)購(gòu)電的碳排放權(quán)初始配額,碳排放權(quán)配額可以根據(jù)發(fā)電量或發(fā)熱量乘以碳排放權(quán)分配系數(shù)得到,其計(jì)算公式如式(26)—(30)所示。
2.2.2 碳排放量計(jì)算
對(duì)于低碳樓宇來(lái)說(shuō),碳排放量主要來(lái)自燃?xì)廨啓C(jī)、燃?xì)忮仩t、配電網(wǎng)購(gòu)電和中央空調(diào)。本文引入生命周期評(píng)價(jià)法[17]計(jì)算碳排放量,該方法充分考慮了每條能流的碳軌跡,可以更加準(zhǔn)確地計(jì)算出系統(tǒng)總碳排放量,其計(jì)算方法如式(31)—(36)所示。
2.2.3 獎(jiǎng)懲階梯型碳交易成本模型
為了鼓勵(lì)樓宇運(yùn)營(yíng)商積極參與碳交易市場(chǎng),本文在傳統(tǒng)階梯型碳交易模型的基礎(chǔ)上引入獎(jiǎng)懲機(jī)制。當(dāng)樓宇的碳排放量小于無(wú)償?shù)某跏继寂欧艡?quán)配額時(shí),樓宇可以向碳市場(chǎng)出售多余的配額并獲得一定額度的獎(jiǎng)勵(lì)補(bǔ)貼,獎(jiǎng)勵(lì)補(bǔ)貼的計(jì)算方式是階梯式的,換言之,剩余的配額越多,獲益越高;反之,當(dāng)樓宇的碳排放量大于初始碳排放配額時(shí)則需要向碳市場(chǎng)購(gòu)買(mǎi)額外的配額。同樣,懲罰的計(jì)算方式也與此相似,即碳排放量越大,交易價(jià)格越高。獎(jiǎng)懲階梯型碳交易成本計(jì)算模型如式(37)和式(38)所示。
本文構(gòu)建的目標(biāo)函數(shù)從經(jīng)濟(jì)性和低碳性?xún)蓚€(gè)角度出發(fā),對(duì)多能流樓宇以總運(yùn)行成本最小為目標(biāo)函數(shù),建立優(yōu)化低碳調(diào)度模型,其目標(biāo)函數(shù)如式(39)所示。
1)樓宇向配電網(wǎng)購(gòu)電成本
樓宇向配電網(wǎng)購(gòu)電成本如式(40)所示。
2)燃?xì)廨啓C(jī)的運(yùn)行成本
燃?xì)廨啓C(jī)的運(yùn)行成本如式(41)所示:
3)燃?xì)忮仩t的運(yùn)行成本
燃?xì)忮仩t的運(yùn)行成本如式(42)所示。
4)碳捕集設(shè)備的運(yùn)行成本
碳捕集設(shè)備的運(yùn)行成本如式(43)所示。
5)設(shè)備運(yùn)行維護(hù)成本
設(shè)備運(yùn)行維護(hù)成本如式(44)所示。
式中:N為樓宇中設(shè)備的數(shù)量;ct,j為t時(shí)刻設(shè)備j輸出單位功率的運(yùn)行維護(hù)成本;Pt,j為t時(shí)刻設(shè)備j輸出的功率。
強(qiáng)化學(xué)習(xí)算法的優(yōu)化基礎(chǔ)是將優(yōu)化調(diào)度模型轉(zhuǎn)換為MDP 模型。MDP 模型假設(shè)所有狀態(tài)信息均無(wú)誤地傳遞給決策者;決策者按照強(qiáng)化學(xué)習(xí)算法的原則來(lái)求解MDP模型,得到訓(xùn)練動(dòng)作;在執(zhí)行訓(xùn)練之后,新?tīng)顟B(tài)被更新至決策者,從而進(jìn)行新一輪訓(xùn)練迭代。因此,基于深度強(qiáng)化學(xué)習(xí)算法的多能流低碳調(diào)度問(wèn)題,需要將第2章中搭建的數(shù)學(xué)模型轉(zhuǎn)換為MDP模型進(jìn)行描述。具體構(gòu)建架構(gòu)如圖2所示。
圖2 深度強(qiáng)化學(xué)習(xí)方法構(gòu)建過(guò)程Fig.2 The construction process of deep reinforcement learning
根據(jù)MDP模型的定義,將所提出的多能流低碳調(diào)度問(wèn)題定義為由狀態(tài)空間St、行動(dòng)空間At、獎(jiǎng)勵(lì)函數(shù)Rt、轉(zhuǎn)移概率Pt及累計(jì)折扣回報(bào)衰減系數(shù)γ組成的五元組(St,At,Rt,Pt,γ)。
獎(jiǎng)勵(lì)即智能體感知到外界環(huán)境并采取行動(dòng)后所獲得的獎(jiǎng)賞值。對(duì)于所提出的多能流樓宇低碳調(diào)度問(wèn)題的MDP模型,認(rèn)為其中的獎(jiǎng)勵(lì)函數(shù)Rt為目標(biāo)函數(shù)Jt的負(fù)值,如式(47)所示。
在優(yōu)化調(diào)度過(guò)程中,不同可調(diào)度設(shè)備執(zhí)行模型下發(fā)的優(yōu)化動(dòng)作后,樓宇的運(yùn)行狀態(tài)是可能發(fā)生改變的。于是,定義樓宇運(yùn)行狀態(tài)發(fā)生改變的概率為所建立的MDP模型的狀態(tài)轉(zhuǎn)移概率[18],其數(shù)值一般由歷史運(yùn)行數(shù)據(jù)庫(kù)決定,其表示形式如式(48)所示。
式中:M和L分別為樓宇正常運(yùn)行狀態(tài)和異常運(yùn)行狀態(tài)的數(shù)量;PA為M×M階轉(zhuǎn)移概率矩陣,表示樓宇運(yùn)行狀態(tài)從正常狀態(tài)轉(zhuǎn)移到另一種正常狀態(tài)的概率;PB為M×L階轉(zhuǎn)移概率矩陣,表示樓宇運(yùn)行狀態(tài)從正常狀態(tài)轉(zhuǎn)移到越限狀態(tài)的概率;0L×M為L(zhǎng)×M階零矩陣;IL×L為L(zhǎng)×L階單位矩陣。
采用目前較為流行的DQN算法的改進(jìn)版——Rainbow 算法來(lái)建立多能流樓宇低碳調(diào)度MDP 模型。Rainbow 算法集成了多種基于DQN 的改進(jìn)機(jī)制,如Double DQN、Dueling DQN、優(yōu)先重放緩沖區(qū)和dropout 層。它解決了經(jīng)典DQN 算法在收斂性、泛化性和穩(wěn)定性方面的不足。其應(yīng)用過(guò)程如圖3所示。
圖3 Rainbow算法的應(yīng)用過(guò)程Fig.3 The application process of Rainbow algorithm
使用Rainbow 算法求解第3 章所搭建的MDP模型的求解過(guò)程分為兩個(gè)部分:訓(xùn)練過(guò)程和應(yīng)用過(guò)程。其中,訓(xùn)練過(guò)程是算法智能體通過(guò)與環(huán)境互動(dòng)擬合出狀態(tài)到最優(yōu)動(dòng)作集(樓宇控制設(shè)備運(yùn)行功率)之間的復(fù)雜映射關(guān)系的過(guò)程,評(píng)判標(biāo)準(zhǔn)以所定義的獎(jiǎng)勵(lì)函數(shù)最大化為目標(biāo)優(yōu)化算法網(wǎng)絡(luò)參數(shù)。訓(xùn)練迭代過(guò)程中的損失函數(shù)如式(49)所示。
式中:Q(St,At)為動(dòng)作-價(jià)值函數(shù),其具體算法如式(50)所示。
式中:v(St)為狀態(tài)評(píng)估值,用于評(píng)估當(dāng)前狀態(tài)的好壞;A(St,At)為動(dòng)作優(yōu)勢(shì)評(píng)估值,表明當(dāng)前狀態(tài)下某一個(gè)動(dòng)作的好壞;|A|為動(dòng)作空間的設(shè)備動(dòng)作總數(shù)。
訓(xùn)練過(guò)程結(jié)束后,直接利用收斂的算法網(wǎng)絡(luò)進(jìn)行決策,制定多能流樓宇低碳協(xié)調(diào)調(diào)度的最優(yōu)策略。其訓(xùn)練流程如圖4所示。
圖4 Rainbow算法的訓(xùn)練過(guò)程Fig.4 The training process of Rainbow algorithm
參考文獻(xiàn)[19-20]進(jìn)行設(shè)備參數(shù)設(shè)置,對(duì)上文所述的多能流樓宇低碳調(diào)度策略進(jìn)行驗(yàn)證。算例系統(tǒng)包含一套樓頂光伏設(shè)備、一臺(tái)燃?xì)廨啓C(jī)、一臺(tái)燃?xì)忮仩t、一臺(tái)碳捕集設(shè)備、一個(gè)蓄熱槽、若干臺(tái)中央空調(diào)和若干臺(tái)PLBR。配電網(wǎng)購(gòu)電分時(shí)購(gòu)電價(jià)格如圖5所示。設(shè)置24 h 作為一個(gè)調(diào)度周期。仿真硬件參數(shù)如表1所示。
表1 硬件配置Table 1 Hardware configuration
圖5 分時(shí)電價(jià)Fig.5 Time-of-use electricity price
訓(xùn)練1 200 次的時(shí)間為120.45 min。由圖6 可知,智能體通過(guò)逐步學(xué)習(xí)的方式來(lái)獲得更多的獎(jiǎng)勵(lì)。在訓(xùn)練初期,智能體沒(méi)有經(jīng)驗(yàn),以隨機(jī)選擇動(dòng)作的方式來(lái)探索決策環(huán)境。因此,在0~50次的訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)出現(xiàn)了明顯的振蕩。200 次往后,智能體根據(jù)前期積累的學(xué)習(xí)經(jīng)驗(yàn)來(lái)模擬最優(yōu)策略動(dòng)作,獎(jiǎng)勵(lì)值也趨于穩(wěn)定在1.4萬(wàn)元左右。
圖6 平均獎(jiǎng)勵(lì)Fig.6 Average reward
由圖7可知,訓(xùn)練過(guò)程通過(guò)追求設(shè)定損失以達(dá)到收斂穩(wěn)定。在0~50次的訓(xùn)練過(guò)程中,由于智能體的隨機(jī)動(dòng)作導(dǎo)致?lián)p失值較高。后續(xù)訓(xùn)練過(guò)程隨著智能體逐漸積累經(jīng)驗(yàn),其訓(xùn)練損失值也逐步穩(wěn)定在一個(gè)低值。
圖7 平均損失Fig.7 Average loss
訓(xùn)練完成后,多能流樓宇可以適應(yīng)動(dòng)態(tài)變化的環(huán)境并完成低碳調(diào)度。中國(guó)上海某一夏季典型日該樓宇電、熱、冷3種負(fù)荷的預(yù)測(cè)值及各單元低碳調(diào)度結(jié)果分別如圖8—10所示。需要說(shuō)明的是,由于氣負(fù)荷直接由天然氣市場(chǎng)供給,本文暫不考慮其調(diào)度問(wèn)題。同時(shí),碳排放和碳捕集情況如圖11所示。
圖8 電負(fù)荷平衡Fig.8 Power load balance
圖9 熱負(fù)荷平衡Fig.9 Heating load balance
由圖8—10 可知,在00:00—06:00 時(shí)段,樓頂光伏幾乎沒(méi)有出力,此時(shí)主要通過(guò)配電網(wǎng)購(gòu)電的方式進(jìn)行電能供給,但電負(fù)荷需求較小,因此較小的燃?xì)廨啓C(jī)出力即可滿足負(fù)荷需求,CO2排放量接近于0。此時(shí),中央空調(diào)大量吸收富余的電能并轉(zhuǎn)換成冷能供應(yīng)給冷負(fù)荷。同時(shí)在這個(gè)時(shí)間段熱負(fù)荷需求較大,主要由燃?xì)廨啓C(jī)、燃?xì)忮仩t、蓄熱槽提供熱能。
在07:00—17:00 時(shí)段,光伏出力較大,電、冷負(fù)荷呈上升趨勢(shì),熱負(fù)荷呈下降趨勢(shì)。由于電負(fù)荷大量增加,燃?xì)廨啓C(jī)增加出力,向配電網(wǎng)大量購(gòu)電,導(dǎo)致CO2排放量大大增加。熱負(fù)荷的需求相較于夜晚降低,主要由燃?xì)廨啓C(jī)提供,此時(shí)蓄熱槽進(jìn)行儲(chǔ)熱。多余的熱能通過(guò)PLBR 轉(zhuǎn)換成冷能供應(yīng)給冷負(fù)荷。
在18:00—23:00 時(shí)段,電、冷負(fù)荷呈下降趨勢(shì),熱負(fù)荷呈上升趨勢(shì)。此時(shí),光伏不再出力,樓宇主要通過(guò)配電網(wǎng)購(gòu)電的方式進(jìn)行電能供給。燃?xì)廨啓C(jī)出力也減小,發(fā)電排放的CO2幾乎全部被捕集,因此碳捕集設(shè)備能耗有所增大。由于夜晚溫度下降,熱負(fù)荷需求增加,重新由燃?xì)廨啓C(jī)及燃?xì)忮仩t提供熱能,蓄熱槽放熱。冷負(fù)荷通過(guò)中央空調(diào)吸收電能提供。
為了綜合評(píng)價(jià)本文所提算法的效果,選取傳統(tǒng)基于Cplex求解器的優(yōu)化結(jié)果和使用其他深度強(qiáng)化學(xué)習(xí)算法的優(yōu)化結(jié)果作為對(duì)比算法。對(duì)比結(jié)果如表2所示,主要從決策結(jié)果、訓(xùn)練時(shí)間、決策時(shí)間3個(gè)方面進(jìn)行對(duì)比。
表2 算法對(duì)比Table 2 Comparison of algorithms
由表2可知,Rainbow算法的整體性能優(yōu)于傳統(tǒng)的Cplex 算法。相較于其他深度強(qiáng)化學(xué)習(xí)算法,DQN 的收斂性能、決策時(shí)間均最差。作為DQN算法的改進(jìn)算法,Dueling DQN 的性能有較大提升,但與Rainbow 算法相比,性能仍有一定差距??梢钥闯觯琑ainbow算法以訓(xùn)練時(shí)間為代價(jià),計(jì)算出了更優(yōu)的調(diào)度策略。以Cplex算法的優(yōu)化結(jié)果為基準(zhǔn)值,Rainbow算法的運(yùn)行成本相較于其他算法分別降低了7.34%、5.78%和4.25%。
本文提出一種基于深度強(qiáng)化學(xué)習(xí)的多能流樓宇低碳調(diào)度方法。首先,根據(jù)智慧樓宇的實(shí)際碳排放量建立了一種獎(jiǎng)懲階梯型碳排放權(quán)交易機(jī)制。其次,面向碳市場(chǎng)和多能流耦合網(wǎng)絡(luò),以最小化運(yùn)行成本為目標(biāo)函數(shù),建立多能流低碳樓宇調(diào)度模型,考慮到智慧樓宇負(fù)荷用能行為動(dòng)態(tài)特性明顯的特點(diǎn),將該調(diào)度問(wèn)題轉(zhuǎn)換為深度強(qiáng)化學(xué)習(xí)框架的MDP。然后,利用Rainbow 算法聯(lián)合智慧樓宇高維負(fù)荷用能行為歷史數(shù)據(jù)庫(kù)進(jìn)行優(yōu)化調(diào)度問(wèn)題的求解。最后,通過(guò)仿真分析驗(yàn)證了所提優(yōu)化調(diào)度模型的可行性及有效性。主要結(jié)論如下:
1)獎(jiǎng)懲階梯型碳排放權(quán)交易機(jī)制的引入能有效降低智慧樓宇45.6%的碳排放量并消納25.1%的新能源多余出力。
2)本文所提出的Rainbow 算法克服了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)和動(dòng)作空間維度低的問(wèn)題。同時(shí)相較于傳統(tǒng)的優(yōu)化算法,Rainbow算法的整體決策精度平均提升5.79%。
在今后的研究中將進(jìn)一步考慮電力系統(tǒng)、天然氣系統(tǒng)、熱力系統(tǒng)、碳系統(tǒng)的信息耦合隱私保護(hù),并探索多個(gè)智慧樓宇的協(xié)同優(yōu)化調(diào)度方法。