高文忠, 張毅
(上海海事大學(xué)商船學(xué)院,上海 201306)
在全球范圍內(nèi),建筑物能耗約占一次能源總能耗的40%,其中60%與熱舒適度有關(guān)[1]。當(dāng)前,農(nóng)業(yè)機(jī)械化水平越來越高,隨之而來的環(huán)境污染、能源匱乏等問題日益嚴(yán)重。農(nóng)業(yè)設(shè)施的主要能源消耗為供能能耗,因此,能源穩(wěn)定性和能耗成本是農(nóng)業(yè)設(shè)施升級面臨的主要壓力。減少供能能耗可以有效降低農(nóng)業(yè)中的能源消耗,減少環(huán)境污染。冷熱電三聯(lián)供(combined cold, hot and power,CCHP)系統(tǒng)可以充分利用一次能源,實(shí)現(xiàn)冷、熱、電分級利用[2],綜合能源利用率可達(dá)80%。它的發(fā)展和應(yīng)用將有效提高能源效率及經(jīng)濟(jì)效益[3],是實(shí)現(xiàn)能源可持續(xù)發(fā)展的重要途徑[4]。通過CCHP系統(tǒng)為農(nóng)業(yè)設(shè)施供能將有效降低供能能耗。然而,在使用CCHP時,建筑的外部天氣環(huán)境、內(nèi)部負(fù)荷動態(tài)變化、各機(jī)組之間耦合等為CCHP的協(xié)調(diào)運(yùn)行帶來了很多不確定性[5],致使CCHP系統(tǒng)運(yùn)行策略很難適應(yīng)這些變化,導(dǎo)致用戶舒適度和供能經(jīng)濟(jì)性難以達(dá)到預(yù)期設(shè)計。因此,通過優(yōu)化控制來實(shí)現(xiàn)CCHP供能與負(fù)荷需求之間的高效匹配、最大限度地挖掘CCHP系統(tǒng)的固有優(yōu)勢是當(dāng)前CCHP系統(tǒng)的研究重點(diǎn)。
傳統(tǒng)CCHP系統(tǒng)的運(yùn)行優(yōu)化多采用啟發(fā)式算法,如遺傳算法[6]、粒子群算法[7-8]、混合整數(shù)線性規(guī)劃[9]等。雖然傳統(tǒng)的優(yōu)化算法在CCHP穩(wěn)定工況時有著一定的優(yōu)化能力,但當(dāng)工況環(huán)境發(fā)生變化時,只能重新對新環(huán)境訓(xùn)練以給出優(yōu)化策略,無法做出實(shí)時反應(yīng),這導(dǎo)致其在實(shí)際系統(tǒng)運(yùn)用中,需要較高的時間成本。此外,針對CCHP系統(tǒng)的優(yōu)化目標(biāo)主要以多目標(biāo)優(yōu)化為主[10-13],而對于商業(yè)建筑,更關(guān)注運(yùn)行成本[14-16]。需要特別指出的是,需量電費(fèi)也是影響系統(tǒng)運(yùn)行費(fèi)用的關(guān)鍵因素之一。需量電費(fèi)不同于電費(fèi),它是累計用電量的計算方式,通過整個計費(fèi)周期內(nèi)電網(wǎng)用電功率的峰值計算。這就導(dǎo)致了CCHP系統(tǒng)運(yùn)行方案不僅會影響當(dāng)前優(yōu)化日,還會對連續(xù)多日優(yōu)化產(chǎn)生影響,顯著增加了系統(tǒng)運(yùn)行優(yōu)化的難度[17-18]。
針對這種情況,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)提供了一種新的思路和方法,它是通過對環(huán)境和策略的學(xué)習(xí),獲得策略對于環(huán)境的價值,可以根據(jù)環(huán)境的變化實(shí)時改變策略,適合用于CCHP系統(tǒng)的運(yùn)行優(yōu)化。目前,針對能源系統(tǒng)的DRL算法應(yīng)用已經(jīng)有一些開創(chuàng)性的探索,如利用deep Q-network(DQN)算法、double DQN算法[19]、dueling double DQN算法[20]等進(jìn)行離散動作的優(yōu)化控制。此外,針對連續(xù)動作空間算法的應(yīng)用,Du等[21]對比了DQN與deep deterministic policy gradient(DDPG)在多區(qū)域暖通空調(diào)連續(xù)控制下的熱舒適度和能耗成本,表明經(jīng)過良好訓(xùn)練的DDPG在該問題上有泛化性和適應(yīng)性,實(shí)際應(yīng)用性強(qiáng);董雷等[22]和Zhang等[23]分別將Multi-Agent DDPG應(yīng)用于電力、天然氣、淡水子系統(tǒng)中可再生能源驅(qū)動的多能源樞紐系統(tǒng)和電熱聯(lián)合系統(tǒng)的優(yōu)化運(yùn)行;藺偉山等[24]和阮應(yīng)君等[25]分別將proximal policy optimization(PPO)和distributed proximal policy optimization(DPPO)應(yīng)用于分布式能源系統(tǒng)與綜合能源系統(tǒng)的運(yùn)行優(yōu)化,其結(jié)果優(yōu)于DQN和DDPG算法。
由于需量電費(fèi)是通過周期內(nèi)電網(wǎng)峰值用電功率的計價方式,導(dǎo)致給優(yōu)化運(yùn)行帶來了較多限制,提高了CCHP系統(tǒng)優(yōu)化控制的復(fù)雜性。因此,本研究以投入使用的大型CCHP系統(tǒng)為研究對象,使用雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法,來實(shí)現(xiàn)CCHP系統(tǒng)夏季供能優(yōu)化控制,以期在考慮需量電費(fèi)的情況下達(dá)到最小化運(yùn)行成本的目標(biāo),驗(yàn)證TD3代理在CCHP系統(tǒng)優(yōu)化運(yùn)行上的有效性和泛化性,以期為農(nóng)業(yè)設(shè)施供能提供一種優(yōu)化運(yùn)行策略的方法,從而降低供能成本、提高系統(tǒng)經(jīng)濟(jì)性。
研究對象為上海市世博B片區(qū)某公共建筑群供能的大型CCHP系統(tǒng)。它由內(nèi)燃機(jī)(internal combustion engine, ICE)、雙效溴化鋰吸收式制冷機(jī)組(lithium bromide absorption chiller, AC)、離心式電制冷機(jī)組(centrifugal electric refrigeration chillers, EC)、鍋爐(boiler)和蓄能罐(thermal energy tank, TET)及配套輔助設(shè)施(auxiliary units,AU)共同組成。其能量流如圖1所示。
圖1 CCHP系統(tǒng)能量流圖Fig. 1 Energy flow for the CCHP system
該系統(tǒng)夏季運(yùn)行的主要功能是為滿足區(qū)域性寫字樓群的冷負(fù)荷需求,ICE產(chǎn)生的電力提供給系統(tǒng)本身,而非外部建筑,所以整個系統(tǒng)采取以熱定電的運(yùn)行模式,即優(yōu)先滿足冷負(fù)荷,再平衡系統(tǒng)電力消耗和電網(wǎng)供電。電網(wǎng)供電包括購電和賣電2種形式:當(dāng)系統(tǒng)內(nèi)部電量不足時,從電網(wǎng)購電;當(dāng)系統(tǒng)內(nèi)部電量富余時,上網(wǎng)出售。
1.2.1 能量約束 電力約束包括電制冷和其他電消耗設(shè)備的電力需求,由ICE和電網(wǎng)供給。
式中,EC,t為系統(tǒng)總耗電功率(kW);EEC,i,t為EC耗電功率(kW);nEC為EC機(jī)組數(shù)量;EAC,t為輔助機(jī)組耗電功率(kW);EICE,i,t為ICE發(fā)電功率(kW);nICE為ICE機(jī)組數(shù)量;EGrid,t大于0時為從電網(wǎng)購電功率,小于0時為向電網(wǎng)賣電功率(kW)。
熱量約束:在供冷模式下,冷負(fù)荷由AC、EC和TET供給。
式中,QCCHP,CL,t為CCHP系統(tǒng)供冷功率(kW);QTET,t為TET在t時刻蓄入釋放的冷功率(kW);QEC,i,t為EC制冷功率(kW);QAC,CL,i,t為AC制冷功率(kW);nEC為AC機(jī)組數(shù)量;QCL,t為冷負(fù)荷(kW)。
1.2.2 內(nèi)燃機(jī) ICE發(fā)電效率ηICE,i,t隨其運(yùn)行部分負(fù)荷率pICE,i,t變化如式(3)所示。
式中,a0、a1、a2、a3是經(jīng)驗(yàn)系數(shù)。
ICE實(shí)際發(fā)電功率EICE,i,t的計算公式如下。
式中,EICE,max為ICE額定發(fā)電功率(kW)。
ICE的天然氣消耗量SICE,i,t(m3)計算公式如下。
式中,LNG為天然氣低燃燒值(kWh·m-3)。
1.2.3 雙效溴化鋰制冷機(jī)組 ICE產(chǎn)生的高溫?zé)煔庠贏C中換熱,為樓宇夏季供冷。當(dāng)ICE的負(fù)荷率發(fā)生變化時,ICE排出煙氣中的能量也發(fā)生變化,導(dǎo)致AC可利用的煙氣量發(fā)生變化。因此,AC制冷功率QAC,CL,i,t的計算公式如下。
式中,COPAC,CL為AC制冷工況下的制冷系數(shù)(coefficient of performance,COP)。
1.2.4 離心式電制冷機(jī)組 EC消耗電能為外部建筑供冷。EC的COP與電制冷部分負(fù)荷率之間的關(guān)系如式(7)所示。
式中,COPEC,i,t為EC的COP;pEC,i,t為EC的部分負(fù)荷率;b0、b1、b2、b3是經(jīng)驗(yàn)系數(shù)。
EC的制冷功率和耗電功率的計算如式(8)、(9)所示。
式中,QEC,max為EC額定制冷功率(kW)。
1.2.5 蓄能罐 TET在供冷工況下將存儲的冷量按照系統(tǒng)需要釋放。由于TET的蓄冷泵出力限制,故TET有每小時出力限制,如式(10)所示;TET容量限制如式(11)所示;TET下一時刻的蓄冷量QTET,CL,t+1(kWh)如式(12)所示。
式中,QTET,max為TET每小時最大蓄冷或釋冷功率(kW);QTET,CL,t為TET內(nèi)蓄冷量(kWh);QTET,CL,max為TET最大蓄冷量(kWh)。
CCHP系統(tǒng)夏季優(yōu)化的目標(biāo)是:在滿足冷負(fù)荷的情況下,制定最低考慮需量電費(fèi)的運(yùn)行成本的運(yùn)行方案。
實(shí)時運(yùn)行費(fèi)用Ct(元)由電網(wǎng)電力費(fèi)用和天然氣成本組成。電網(wǎng)電力費(fèi)用根據(jù)EGrid,t分為購電和售電2部分,其中,購電時采用階梯電價cGrid,buy,t(元·kWh-1);賣電時為固定價格cGrid,sell(元·kWh-1)。天然氣成本根據(jù)天然氣消耗量SICE,i,t計算得到,天然氣單價cNG(元·m-3)為固定值。實(shí)時運(yùn)行成本Ct如公式(13)所示。
需量電費(fèi)是每月結(jié)算的電費(fèi),它是為了限制每月峰值用電功率的計價方式,根據(jù)用戶當(dāng)月每小時平均電網(wǎng)用電功率峰值,即最大需量,計算得到。為了便于后續(xù)優(yōu)化中多日運(yùn)行費(fèi)用的計算,每日根據(jù)該優(yōu)化周期內(nèi)的最大需量計算當(dāng)日需量電費(fèi)。電功率最大需量(kW)和需量電費(fèi)(元)的計算如式(14)(15)所示。
式中,cDC為需量電價(元·kW-1);dmonth為該月天數(shù)。
因此,考慮需量電費(fèi)的目標(biāo)函數(shù)Ctotal如式(16)所示。
1.4.1 CCHP系統(tǒng)控制優(yōu)化映射到馬爾卡夫決策過程 馬爾卡夫決策過程是一種針對下一個狀態(tài)僅與當(dāng)前狀態(tài)有關(guān)、與之前狀態(tài)無關(guān)的系統(tǒng)決策過程,通常被描述為一個五元組(S,A,P,R,γ)。其中,S是狀態(tài)空間;A是動作空間;S×A×S′→P是狀態(tài)轉(zhuǎn)移矩陣;S×A→R是獎勵函數(shù);γ為折扣因子[25]。針對該CCHP系統(tǒng)的要素定義如下。
① 狀態(tài)空間。狀態(tài)空間是智能體獲取的環(huán)境信息。選取歸一化后的冷負(fù)荷、時刻、TET蓄冷量和最大需量作為狀態(tài)空間S,如式(17)所示。
式中,QCL,max為設(shè)計最大冷負(fù)荷(kW);EDC,max為系統(tǒng)設(shè)計最大需量(kW)。
② 動作空間。動作空間是智能體在狀態(tài)s下能選擇的動作。動作為EC和ICE的部分負(fù)荷率。因此動作空間如式(18)所示。
③ 獎勵函數(shù)。當(dāng)智能體根據(jù)狀態(tài)空間選擇動作空間后,環(huán)境會給予獎勵,也會對不符合約束和表現(xiàn)不良好的動作空間給予懲罰。智能體為了獲得最大化獎勵會逐漸約束動作空間。獎勵函數(shù)分為局部獎勵函數(shù)和全局獎勵函數(shù)。其中,局部獎勵函數(shù)是對每個時刻的運(yùn)行情況進(jìn)行評價;全局獎勵函數(shù)是對優(yōu)化周期優(yōu)化完成后,對整個優(yōu)化周期的運(yùn)行狀況進(jìn)行評估。由于不同時間的冷負(fù)荷變化較大,為了對不同負(fù)荷給予相近的獎勵,采取單位制冷量的運(yùn)行成本作為獎勵函數(shù)的評價指標(biāo)。局部獎勵函數(shù)Rt和全局獎勵函數(shù)RF如式(19)和式(20)所示。
式中,rP為違反供冷約束時的懲罰;Qmin為在沒有實(shí)際供冷情況下設(shè)置的假定供冷量;rF為當(dāng)前運(yùn)行周期完成時的獎勵。
當(dāng)CCHP系統(tǒng)狀態(tài)st確定時,動作at的優(yōu)劣程度可以使用動作值函數(shù)Q(s,a),即Q值來評估。
式中,Eπ(·)為策略π下的獎勵期望。
CCHP系統(tǒng)優(yōu)化調(diào)度的目的是找到最優(yōu)策略π*,如式(22)所示。
1.4.2 TD3算法 CCHP系統(tǒng)在連續(xù)控制問題上,由于TET冷量受前一時間點(diǎn)TET冷量和機(jī)組運(yùn)行情況的影響、冷負(fù)荷受到室外天氣因素和內(nèi)部負(fù)荷動態(tài)變化等因素影響,故馬爾卡夫決策過程中獲得準(zhǔn)確的轉(zhuǎn)移概率較為困難。在無法獲得準(zhǔn)確狀態(tài)轉(zhuǎn)移概率的情況下,基于模型的算法無法解決此類問題。DRL不需要事先了解環(huán)境或轉(zhuǎn)移概率,可以通過不斷與環(huán)境交互逐漸改進(jìn)策略。為此,本研究采用DRL方法解決CCHP控制問題,具體采用TD3算法。
TD3算法是一種連續(xù)空間中的DRL算法,可用于優(yōu)化馬爾卡夫決策過程。TD3是由DDPG改進(jìn)得到。DDPG可以很好地工作,但存在高估價值的問題,因此,TD3可通過引入3種方式解決DDPG的問題:①使用2套Critic網(wǎng)絡(luò)評估動作的Q值,并采用其中較小的值來計算目標(biāo)Q值,以解決Critic網(wǎng)絡(luò)對Q值過估計的問題;②使用延遲更新策略,即Critic網(wǎng)絡(luò)更新一定次數(shù)后再對Actor網(wǎng)絡(luò)進(jìn)行更新,即Actor網(wǎng)絡(luò)的更新頻率低于Critic網(wǎng)絡(luò),使Actor網(wǎng)絡(luò)訓(xùn)練更穩(wěn)定;③在更新過程中計算動作Q值時,對actor目標(biāo)網(wǎng)絡(luò)輸出的動作添加噪音,讓更新時的動作產(chǎn)生一定波動,以達(dá)到對動作波動的學(xué)習(xí),從而增加算法穩(wěn)定性。
TD3算法使用3個神經(jīng)網(wǎng)絡(luò),包括1個Actor網(wǎng)絡(luò)(?)和2個Critic網(wǎng)絡(luò)(θ1,θ2),且每個網(wǎng)絡(luò)均有各自的目標(biāo)網(wǎng)絡(luò)π?′和分別為目標(biāo)動作和目標(biāo)Q值。
①Critic網(wǎng)絡(luò)更新。Critic網(wǎng)絡(luò)的更新如式(23)~(25)所示。
式中,a′為在狀態(tài)s′下的動作;ε為添加的噪聲;N為批量大小;y為目標(biāo)Q值。
②Actor網(wǎng)絡(luò)更新。Actor網(wǎng)絡(luò)的更新如式(26)所示。
③ 目標(biāo)網(wǎng)絡(luò)更新。目標(biāo)網(wǎng)絡(luò)的軟更新如式(27)(28)所示。
式中,τ為軟更新系數(shù)。
研究的大型CCHP系統(tǒng)總供能面積為65.7萬m2,設(shè)計最大每小時供冷量為56.8 MW,系統(tǒng)最大每小時耗電量為1.2 MW。該系統(tǒng)歷史運(yùn)行數(shù)據(jù)來自數(shù)據(jù)庫實(shí)時記錄,包括負(fù)荷情況、機(jī)組出力、TET蓄冷量、購電量、天然氣消耗量等參數(shù)。該數(shù)據(jù)庫運(yùn)行時的運(yùn)行策略稱為歷史運(yùn)行策略。系統(tǒng)的機(jī)組、參數(shù)、經(jīng)濟(jì)性參數(shù)分別如表1和表2所示。
表1 機(jī)組參數(shù)Table 1 Parameters of units
表2 經(jīng)濟(jì)性參數(shù)Table 2 Economic parameters
TD3代理中的Actor和Critic網(wǎng)絡(luò)詳細(xì)參數(shù)如表3所示。為了減少各機(jī)組之間的頻繁啟停,將DRL給出的方案按EC和ICE的部分負(fù)荷率分別排序后作為實(shí)際運(yùn)行策略。
表3 DRL的DNN結(jié)構(gòu)Table 3 DNN structure of DRL
DRL的控制間隔設(shè)置為60 min。在訓(xùn)練階段,采取24 h作為1個訓(xùn)練集,連續(xù)控制優(yōu)化5 d。模型訓(xùn)練時,初始時刻蓄能罐的蓄冷量為0 MWh,最大需量為0 kW,連續(xù)優(yōu)化中后續(xù)天數(shù)的初始參數(shù)為前1 d運(yùn)行后TET中的剩余蓄冷量和最大需量。訓(xùn)練完成后將其應(yīng)用于不同的負(fù)荷下進(jìn)行測試,由該時刻數(shù)據(jù)庫中TET的蓄冷量和最大需量作為初始值,進(jìn)行連續(xù)5 d優(yōu)化控制。
選取2020年7月27—31日數(shù)據(jù)進(jìn)行控制優(yōu)化。根據(jù)歷史數(shù)據(jù)庫中記錄的數(shù)據(jù),初始時刻采取蓄能罐蓄冷量40 MWh,最大需量0 kW。TD3代理給出的不考慮需量電費(fèi)和考慮需量電費(fèi)的運(yùn)行策略和歷史運(yùn)行策略的運(yùn)行成本和負(fù)荷供給狀況如表4所示。歷史運(yùn)行策略的運(yùn)行成本為415 417.9元;TD3代理給出的不考慮需量電費(fèi)和考慮需量電費(fèi)運(yùn)行策略的運(yùn)行成本分別為265 680.0和242 892.0 元。
表4 不同運(yùn)行策略結(jié)果Table 4 Results for different strategies
不同運(yùn)行策略下的電功率和機(jī)組出力圖如圖2所示。歷史運(yùn)行策略下,在電價低谷期對TET進(jìn)行蓄能,冷負(fù)荷高峰期根據(jù)負(fù)荷大小控制EC運(yùn)行數(shù)量;由于沒有ICE輔助供電,EC運(yùn)行時直接電網(wǎng)購電量明顯較高,因此需量電費(fèi)也較高;溢出冷量主要來自于蓄冷階段的過量供冷,引發(fā)了額外運(yùn)行成本。因此,歷史運(yùn)行策略的經(jīng)濟(jì)性較差。不考慮需量電費(fèi)的TD3代理給出的運(yùn)行策略下,在供冷階段中,根據(jù)冷負(fù)荷大小開啟EC和AC,在電價高峰期通過ICE供給整個CCHP系統(tǒng),通過降低用電成本方式來減少總體運(yùn)行成本;在電價低峰期且TET蓄冷量過少時,會通過EC對TET進(jìn)行蓄冷,電力購入費(fèi)用主要來自于該時段;這表明TD3代理掌握了由時間帶來的電價變化,從而降低了運(yùn)行成本,其實(shí)時運(yùn)行成本相較于歷史運(yùn)行策略降低了34.1%。考慮需量電費(fèi)的TD3代理給出的運(yùn)行策略下,在電價低峰期、且TET蓄冷量過少時沒有單獨(dú)開啟EC蓄冷,顯著降低了單獨(dú)運(yùn)行EC引起的最大需量,所以需量電費(fèi)很少;相較于歷史運(yùn)行策略,考慮需量電費(fèi)的TD3代理給出的運(yùn)行策略的需量電費(fèi)降低了92.6%,總運(yùn)行成本降低了41.5%;與不考慮需量電費(fèi)的TD3代理相比較,考慮需量電費(fèi)的TD3代理給出的運(yùn)行策略的實(shí)時運(yùn)行成本增加0.35%,但降低了85.5%最大需量,總運(yùn)行成本降低了8.6%。由此表明,TD3代理可以充分實(shí)現(xiàn)需量電費(fèi)的優(yōu)化目標(biāo),優(yōu)化過程平衡了需量電費(fèi)和實(shí)時運(yùn)行成本。
圖2 不同運(yùn)行策略下的電功率和機(jī)組出力圖Fig. 2 Electrical power and units outputs under different operating strategies
將訓(xùn)練好的考慮需量電費(fèi)的TD3代理應(yīng)用到不同特征的冷負(fù)荷中,以驗(yàn)證TD3代理對于不同特征負(fù)荷的泛化性。于2021年7月26日至8月27日連續(xù)5周冷負(fù)荷,將其中連續(xù)5個工作日作為1組測試周數(shù)據(jù)(圖3)。相較于訓(xùn)練負(fù)荷數(shù)據(jù),該測試負(fù)荷每日供冷時間更長,且不同測試周之間,峰值冷負(fù)荷有較大幅度變化。優(yōu)化結(jié)果(表5)表明,TD3代理結(jié)果相較于歷史運(yùn)行策略有著明顯的成本優(yōu)勢,首先,所有測試周期均無溢出冷量,從而沒有因過度供冷而導(dǎo)致的費(fèi)用;其次,最大需量都保持在較低水平,且均低于歷史運(yùn)行策略,從而需量電費(fèi)較低。因此,經(jīng)過良好訓(xùn)練的考慮需量電費(fèi)的TD3代理,可以給出滿足負(fù)荷的低運(yùn)行成本方案,具有良好的泛化性。
表5 不同特征負(fù)荷的優(yōu)化結(jié)果Table 5 Results for different characteristic loads
圖3 多周冷負(fù)荷Fig. 3 Multi-weekly cooling load
在農(nóng)業(yè)節(jié)能改革的當(dāng)下,大力發(fā)展低碳農(nóng)業(yè)是必然趨勢。作為農(nóng)業(yè)設(shè)施主要能耗的供能能耗,減少供能能耗能有效減少碳排放。由CCHP系統(tǒng)為農(nóng)業(yè)設(shè)施供能,可以同時供給電能和冷、熱能,有效降低農(nóng)業(yè)能耗。為了解決考慮需量電費(fèi)CCHP系統(tǒng)夏季控制優(yōu)化的問題,本研究提出了一種基于TD3算法的優(yōu)化運(yùn)行方案。該方案以考慮需量電費(fèi)的運(yùn)行成本為優(yōu)化目標(biāo),實(shí)現(xiàn)了對CCHP系統(tǒng)各機(jī)組負(fù)荷率的調(diào)度優(yōu)化,有利于為農(nóng)業(yè)供能設(shè)施提供良好的運(yùn)行策略,減少供能成本,達(dá)到降低運(yùn)行成本、提高經(jīng)濟(jì)性的目的。本研究結(jié)果表明,在滿足負(fù)荷的前提下,不考慮需量電費(fèi)的TD3代理給出的運(yùn)行策略的實(shí)時運(yùn)行成本較歷史運(yùn)行策略降低了34.1%;考慮需量電費(fèi)的TD3代理平衡了實(shí)時運(yùn)行成本和需量電費(fèi),其總運(yùn)行成本較不考慮需量電費(fèi)的TD3代理降低了8.6%。對不同特征負(fù)荷的實(shí)驗(yàn)表明,經(jīng)過訓(xùn)練的TD3代理對冷負(fù)荷特征變化有一定的適應(yīng)性,具有泛化性;相較于歷史運(yùn)行策略,運(yùn)行成本和最大需量更低。