邱革非,何虹輝,劉鎧銘,羅世杰,何 超,沈 賦
(昆明理工大學(xué) 電力工程學(xué)院,云南 昆明 650502)
綜合能源系統(tǒng)(Integrated energy system,IES)具有多能耦合的特性,在加快規(guī)劃建設(shè)新型能源體系、推進(jìn)能源綠色低碳轉(zhuǎn)型的過程中起著重要作用。IES 運(yùn)行的經(jīng)濟(jì)性與低碳性受到廣泛關(guān)注。
針對IES 調(diào)度的經(jīng)濟(jì)性、低碳性問題,相關(guān)文獻(xiàn)采用多種方法展開了研究工作。
針對IES 優(yōu)化調(diào)度,文獻(xiàn)[1]將并行計算與多維近似動態(tài)規(guī)劃相結(jié)合;文獻(xiàn)[2]采用了區(qū)間多目標(biāo)線性規(guī)劃方法;文獻(xiàn)[3]采用了一種基于高斯回代的交替方向乘子法;文獻(xiàn)[4]結(jié)合了信息間隙決策理論和模型預(yù)測控制。上述文獻(xiàn)在研究中均采用了數(shù)學(xué)規(guī)劃的方法,算法中包含較為復(fù)雜的數(shù)學(xué)推導(dǎo)和計算,所存在的問題是對應(yīng)方法僅能處理特定問題。
文獻(xiàn)[5]以系統(tǒng)和電動汽車運(yùn)行成本最低為約束條件建立了雙層優(yōu)化模型。文獻(xiàn)[6]在考慮碳捕集與電轉(zhuǎn)氣技術(shù)背景下建立了相關(guān)調(diào)度模型。以上文獻(xiàn)在研究中采用了基于模型的方法,所存在的問題是所建模型的差異會導(dǎo)致優(yōu)化結(jié)果存在誤差,且對復(fù)雜系統(tǒng)的求解速度較慢,在有實時性要求的場景中模型通常無法滿足要求。
文獻(xiàn)[7,8]分別采用粒子群優(yōu)化算法和改進(jìn)非支配排序遺傳算法求解相關(guān)調(diào)度問題,而文獻(xiàn)[9]則對粒子群算法進(jìn)行了改進(jìn)。以上文獻(xiàn)均采用了啟發(fā)式算法。對比基于數(shù)學(xué)規(guī)劃和模型的方法,這些方法有更好的可優(yōu)化性、魯棒性和適用性,但在處理非線性復(fù)雜問題時仍會受到限制,尋找全局最優(yōu)解的難度較大,且無法自適應(yīng)調(diào)整策略。
相較于上述幾類方法,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)方法具有更強(qiáng)的適應(yīng)性和泛化能力。對于具有序貫決策特點的問題,應(yīng)用馬爾科夫決策過程(Markov decision process,MDP)建模,能夠更高效地尋找到最優(yōu)解[10]。在將DRL 方法應(yīng)用于電力系統(tǒng)調(diào)度方面:文獻(xiàn)[11]將近端策略優(yōu)化算法(Proximal policy optimization,PPO)應(yīng)用于源荷不確定場景中。文獻(xiàn)[12]采用的優(yōu)勢柔性演員評論家(Advantage learning loft actor-critic,ALSAC)算法,能處理有更大隨機(jī)性的環(huán)境問題。以上采用了隨機(jī)策略的方法在實際應(yīng)用中通常有收斂速度較低、計算資源浪費(fèi)、易產(chǎn)生不穩(wěn)定結(jié)果的缺點。
文獻(xiàn)[13]采用深度確定性策略梯度(Deep deterministic policy gradient,DDPG)對比隨機(jī)策略方法,提高了計算效率與收斂速度,但也存在過估計、執(zhí)行效率較低、動作探索能力弱、易陷入局部最優(yōu)的問題[14-16]。文獻(xiàn)[17]采用雙延遲深度確定性策略梯度算法(Twin delayed deep deterministic policy gradient,TD3)解決電力系統(tǒng)運(yùn)行的安全性問題,并在電力系統(tǒng)實際運(yùn)行場景中體現(xiàn)出了方法的有效性與適用性;然而由其訓(xùn)練結(jié)果可知,該算法仍存在隨機(jī)采樣數(shù)據(jù)帶來的收斂速度慢、需要大量迭代輪次的問題。
本文在現(xiàn)有研究基礎(chǔ)上,通過對歷史經(jīng)驗數(shù)據(jù)應(yīng)用求和樹(Summation tree)存儲采樣,實現(xiàn)優(yōu)先經(jīng)驗回放,從而改進(jìn)TD3 算法的訓(xùn)練效率與性能。具體過程為:對IES 的低碳經(jīng)濟(jì)調(diào)度策略優(yōu)化作MDP 建模,建立決策交互環(huán)境以訓(xùn)練智能體決策能力。在訓(xùn)練過程中,基于數(shù)據(jù)更新價值對經(jīng)驗數(shù)據(jù)設(shè)置一優(yōu)先級指標(biāo),以Summation tree存儲采樣,高效利用經(jīng)驗數(shù)據(jù),提高訓(xùn)練效率。通過算例仿真驗證了方法在IES 低碳經(jīng)濟(jì)調(diào)度中的有效性,并通過對比不同方法體現(xiàn)出訓(xùn)練效率和決策能力的提升。
IES 系統(tǒng)結(jié)構(gòu)如圖1 所示。圖中,IES 主要由光伏電源(Photovoltaic,PV)、風(fēng)電機(jī)組(Wind turbine,WT)、燃?xì)廨啓C(jī)(Gas turbine,GT)、用于回收熱能的余熱鍋爐(Waste heat boiler,WHB)、直接生產(chǎn)熱能的燃?xì)忮仩t(Gas boiler,GB)、電池儲能系統(tǒng)(Battery energy storage system,BESS)以及電負(fù)荷和熱負(fù)荷組成。此外,IES 還可與上級主電網(wǎng)購售電能,從外部天然氣供應(yīng)商購入天然氣,并對系統(tǒng)內(nèi)產(chǎn)生的污染物進(jìn)行治理,以提高系統(tǒng)內(nèi)能源利用率和系統(tǒng)運(yùn)行的經(jīng)濟(jì)性、低碳性。
圖1 綜合能源系統(tǒng)結(jié)構(gòu)Fig.1 Integrated energy system structure
1.1.1 光伏電源與風(fēng)電機(jī)組
光伏電源實際出力與其所處環(huán)境中的光照強(qiáng)度和溫度有關(guān)。風(fēng)電機(jī)組出力則與風(fēng)速有關(guān)。本文研究采用對應(yīng)電源出力數(shù)據(jù),即以PPV(t)和PWT(t)分別表示光伏電源和風(fēng)電機(jī)組t時刻的輸出功率。
1.1.2 燃?xì)廨啓C(jī)與余熱鍋爐
燃?xì)廨啓C(jī)與余熱鍋爐的發(fā)電、發(fā)熱功率與所消耗天然氣量關(guān)系為:
式中:GGT(t)、PGT(t)、QGT(t)、QWHB(t)分別為t時刻燃?xì)廨啓C(jī)燃燒的天然氣量、發(fā)電功率、發(fā)熱功率以及余熱鍋爐發(fā)熱功率;Hgas為天然氣熱值,取8.302 kW/m3;ηGT為燃?xì)廨啓C(jī)電轉(zhuǎn)化效率,取0.42;ηWHB為余熱鍋爐熱轉(zhuǎn)化效率,取0.85;ωGT為熱損耗系數(shù),取0.2。
1.1.3 燃?xì)忮仩t
當(dāng)余熱鍋爐回收熱能不足以供給熱負(fù)荷時,啟動燃?xì)忮仩t補(bǔ)充熱負(fù)荷缺額。輸入天然氣量與輸出發(fā)熱功率關(guān)系為:
式中:QGB(t)、GGB(t)分別為t時刻燃?xì)忮仩t發(fā)熱功率與所燃燒的天然氣量;ηGB為燃?xì)忮仩t熱轉(zhuǎn)化效率取,0.84。
1.1.4 主電網(wǎng)
主電網(wǎng)與IES 進(jìn)行能量交易的目的是,緩和分布式電源出力與負(fù)荷需求的不可控和間歇性問題,提高系統(tǒng)運(yùn)行的經(jīng)濟(jì)性與穩(wěn)定性。
主電網(wǎng)與IES 進(jìn)行能量交易實施分時電價策略。
1.1.5 電池儲能系統(tǒng)
電池儲能系統(tǒng)將在分布式電源出力過剩以及儲能系統(tǒng)未達(dá)最大允許容量時,對電能進(jìn)行存儲,并對其規(guī)模進(jìn)行配置[18]。t時刻系統(tǒng)儲能余量為:
式中:B(t)、B(t-1)分別為t、t-1 時刻的儲能余量;ηcha、ηdis分別為儲能系統(tǒng)充放電效率,分別取0.92、0.95;PB,cha(t)為t時刻充電功率;PB,dis(t)為t時刻放電功率。儲能系統(tǒng)t時刻的荷電狀態(tài)為:
式中:SC(t)為t時刻儲能系統(tǒng)的荷電狀態(tài);Bmax為儲能系統(tǒng)最大容量。
在本文研究的IES 低碳經(jīng)濟(jì)調(diào)度問題中,通過協(xié)調(diào)控制系統(tǒng)內(nèi)各設(shè)備出力與工作狀態(tài),在單位天然氣燃燒產(chǎn)生的二氧化碳與其他污染物排放量一定的條件下,以系統(tǒng)內(nèi)其他污染物排放量反映碳排放量大小,從而使系統(tǒng)以降低污染物治理成本、減少燃?xì)廨啓C(jī)及燃?xì)忮仩t使用率的方式降低碳排放成本,達(dá)到低碳、經(jīng)濟(jì)運(yùn)行目的。
系統(tǒng)總運(yùn)行成本由購氣成本、環(huán)境污染治理成本、系統(tǒng)運(yùn)維成本以及與主電網(wǎng)的能量交易成本構(gòu)成,目標(biāo)函數(shù)可表示為:
式中:cgas為購氣成本;cenv為環(huán)境污染治理成本;crun為運(yùn)行維護(hù)成本;cmg為與主電網(wǎng)的能量交易成本。
燃?xì)廨啓C(jī)和燃?xì)忮仩t2類設(shè)備的購氣成本為:
式中:ξgas為氣價,取定值。
此外,燃?xì)廨啓C(jī)與燃?xì)忮仩t以及主電網(wǎng)內(nèi)某些發(fā)電設(shè)備的運(yùn)行將對環(huán)境造成一定影響,其所產(chǎn)生的環(huán)境污染治理成本為:
式中:ξeg為燃?xì)廨啓C(jī)與燃?xì)忮仩t產(chǎn)生的環(huán)境污染治理成本系數(shù);ξmg為主電網(wǎng)產(chǎn)生的污染治理折算后的成本系數(shù);Pmg,b(t)為t時刻從主電網(wǎng)購入的電能。
運(yùn)行成本主要考慮分布式電源與儲能系統(tǒng)運(yùn)行維護(hù)產(chǎn)生的成本,與設(shè)備實際出力大小有關(guān):
式中:KWT、KPV、KB分別為風(fēng)機(jī)、光伏、儲能系統(tǒng)的運(yùn)行維護(hù)成本系數(shù)。
燃?xì)廨啓C(jī)與燃?xì)忮仩t僅考慮其運(yùn)行時的購氣成本,忽略其維護(hù)成本,其與主電網(wǎng)能量交易時的成本為:
式中:ξtou,b(t)、ξtou,s(t)分別為從主電網(wǎng)購入和向主電網(wǎng)售出電能的分時電價;Pmg,s(t)為t時刻向主電網(wǎng)售出的電能。
系統(tǒng)運(yùn)行受各設(shè)備運(yùn)行約束條件以及電、熱能量流的平衡約束。
1)電源出力約束。
式中:PPV,min、PWT,min、PGT,min分別為光伏、風(fēng)機(jī)、燃?xì)廨啓C(jī)的出力下限;PPV,max、PWT,max、PGT,max分別為光伏、風(fēng)機(jī)、燃?xì)廨啓C(jī)的出力上限。
根據(jù)燃?xì)廨啓C(jī)運(yùn)行特性,系統(tǒng)運(yùn)行還需滿足其功率爬坡約束:
式中:ΔPGT,max與ΔPGT,min分別為燃?xì)廨啓C(jī)爬坡功率上下限。
2)電功率平衡約束。
式中:Le,i(t)為t時刻第i個電負(fù)荷功率;Ne為電負(fù)荷總數(shù)。
3)熱功率平衡約束。
式中:Lh,j(t)為t時刻第j個熱負(fù)荷功率;Nh為熱負(fù)荷總數(shù)。
4)電儲能系統(tǒng)約束。
5)考慮到主電網(wǎng)側(cè)運(yùn)行的穩(wěn)定性問題,模型還需考慮滿足與主電網(wǎng)的實時功率交互約束,即:
式中:Pmg,min、Pmg,max分別為綜合能源系統(tǒng)與主電網(wǎng)交互功率下限和上限。
構(gòu)成IES 低碳經(jīng)濟(jì)調(diào)度問題的MDP 模型要素,包括智能體在每個時刻t的狀態(tài)空間集合s(t)、動作空間集合a(t)、以及與環(huán)境交互過程中在每個狀態(tài)s(t)下由于采取對應(yīng)策略下的動作a(t)而獲得的獎勵值r(t)。智能體可對主電網(wǎng)購售電、燃?xì)廨啓C(jī)與燃?xì)忮仩t的出力、儲能系統(tǒng)充放電進(jìn)行調(diào)度,并在不斷的訓(xùn)練中使調(diào)度策略趨于最優(yōu)。
2.1.1 狀態(tài)描述
在本文的研究中,1 個調(diào)度時段的長度為1 h,1 個調(diào)度周期為24 h。預(yù)設(shè)場景中,狀態(tài)空間集合由分布式電源出力、電池儲能系統(tǒng)荷電狀態(tài)、電價信息以及2 類負(fù)荷需求量組成,故狀態(tài)空間s(t)可表示為:
式中:PDG(t)為在每個時刻t下,光伏電源與風(fēng)電機(jī)組設(shè)備的總輸出功率。
2.1.2 動作描述
智能體在每個時刻t可對燃?xì)廨啓C(jī)和燃?xì)忮仩t的出力、電池儲能系統(tǒng)充放電、與主電網(wǎng)的購售電量進(jìn)行調(diào)度,故動作空間a(t)可表示為:
式中:Ba(t)為電池儲能系統(tǒng)充放電動作量。
燃?xì)廨啓C(jī)由余熱回收裝置回收的熱功率QWHB(t)出力由式(2)(3)根據(jù)PGT(t)折算,故不在動作空間組成成分中體現(xiàn)。
2.1.3 獎勵值函數(shù)
IES 低碳經(jīng)濟(jì)調(diào)度問題以最小化系統(tǒng)總運(yùn)行成本為優(yōu)化目標(biāo),而智能體以最大化獎勵值作為動作優(yōu)化依據(jù),故設(shè)定獎勵值函數(shù)為對應(yīng)目標(biāo)函數(shù)取負(fù)。同時,為減少策略產(chǎn)生的功率不平衡現(xiàn)象,將設(shè)備出力導(dǎo)致的電、熱功率不平衡作為罰函數(shù)附加至獎勵值函數(shù)中:
式中:ci(t)分別對應(yīng)每個調(diào)度時段t的購氣成本、環(huán)境污染治理成本、運(yùn)維成本、與主電網(wǎng)的能量交易成本;i=1,2,3,4;αi為對應(yīng)成本的獎勵值權(quán)重;g(t)為罰函數(shù);βc、βg為獎勵值函數(shù)與罰函數(shù)系數(shù)。
功率不平衡罰函數(shù)表示為:
式中:λP、λQ分別為電、熱功率約束條件罰因子;εP(t)、εQ(t)分別為2 類約束的不平衡程度。
TD3 算法是確定性策略方法DDPG 的一種優(yōu)化改進(jìn)方法[19],其思路是:首先,為增強(qiáng)智能體動作探索能力并平滑更新參數(shù)時的策略期望值,在Actor 中分別添加行為策略噪聲和目標(biāo)策略噪聲;其次為避免過估計現(xiàn)象,Critic 的現(xiàn)實網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用雙重網(wǎng)絡(luò);最后為提高輸出策略的穩(wěn)定性延遲更新Actor 現(xiàn)實網(wǎng)絡(luò)參數(shù),當(dāng)Critic 網(wǎng)絡(luò)更新多次后再對Actor 現(xiàn)實網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
TD3 算法會在訓(xùn)練過程中對數(shù)據(jù)進(jìn)行隨機(jī)采樣,這將導(dǎo)致訓(xùn)練效率偏低、獎勵值收斂速度慢。Summation tree 作為計算機(jī)數(shù)據(jù)樹形結(jié)構(gòu)中的一種,其邏輯結(jié)構(gòu)適用于TD3 算法對數(shù)據(jù)的存儲、訪問需求,應(yīng)用于該算法中可提高數(shù)據(jù)處理效率。
本文將Summation tree 引入經(jīng)驗回放緩沖區(qū)中,為經(jīng)驗數(shù)據(jù)設(shè)置一優(yōu)先級指標(biāo),以實現(xiàn)高效的優(yōu)先經(jīng)驗回放、增加具有高更新價值經(jīng)驗數(shù)據(jù)的利用率、提高智能體訓(xùn)練效率,從而對現(xiàn)有TD3算法進(jìn)行改進(jìn)。
2.2.1 基于Summation tree 的數(shù)據(jù)存儲采樣
Summation tree 結(jié)構(gòu)如圖2 所示。圖中,依數(shù)據(jù)添加順序,在每個Summation tree 葉節(jié)點存儲一條經(jīng)驗數(shù)據(jù),并以數(shù)據(jù)的優(yōu)先級指標(biāo)作為該節(jié)點的節(jié)點值,父節(jié)點節(jié)點值為其子節(jié)點節(jié)點值之和。每次采樣時,自根節(jié)點開始基于節(jié)點值大小,向葉節(jié)點尋找目標(biāo),尋找時總指向節(jié)點值較大的節(jié)點;添加新的經(jīng)驗數(shù)據(jù)時,從葉節(jié)點開始向根節(jié)點逐點更新節(jié)點值。
圖2 Summation tree 結(jié)構(gòu)Fig.2 Structure of Summation tree
由于時序差分(Temporal difference error,TD-error)較大的數(shù)據(jù)具有更大的梯度信號,因而有更大的更新價值,故可作為評估數(shù)據(jù)的更新價值即采樣優(yōu)先級的指標(biāo)。
文中的Critic 網(wǎng)絡(luò)采用動作-價值函數(shù)計算TD-error:
式中:γQ為折扣因子;Q(st,at)為動作-價值函數(shù);st+1、st分別為t+1、t時刻對應(yīng)狀態(tài);at+1、at分別為t+1、t時刻所采取的動作。
以每條經(jīng)驗數(shù)據(jù)的TD-error 作為其優(yōu)先級指標(biāo),故可得數(shù)據(jù)的被采樣優(yōu)先級概率:
式中:ρl、δl分別為第l條經(jīng)驗數(shù)據(jù)的被采樣優(yōu)先級概率和對應(yīng)的TD-error;υ為權(quán)衡因子。
υ=0 為均勻采樣,υ=1 為貪婪策略采樣。為減小δ較大數(shù)據(jù)與較小數(shù)據(jù)間被采樣概率的差距,本文取υ=0.6。同時為避免采樣不到TD-error 很小的經(jīng)驗數(shù)據(jù),對新添加的經(jīng)驗數(shù)據(jù)作一初始化:
式中:δl,0為第l條經(jīng)驗數(shù)據(jù)被初次添加入經(jīng)驗回放緩沖區(qū)時的TD-error;δmax為經(jīng)驗回放緩沖區(qū)B內(nèi)最大TD-error,其作用是使δ很小的經(jīng)驗數(shù)據(jù)仍至少能被采樣一次。
2.2.2 智能體訓(xùn)練流程
基于深度強(qiáng)化學(xué)習(xí)方法的IES 低碳經(jīng)濟(jì)調(diào)度模型如圖3 所示。
圖3 IES 低碳經(jīng)濟(jì)調(diào)度的深度強(qiáng)化學(xué)習(xí)模型Fig.3 Deep reinforcement learning model of IES low-carbon economy dispatch
圖3 中智能體的訓(xùn)練具體流程如下。
1)初始化3 個現(xiàn)實網(wǎng)絡(luò)參數(shù),即θ1、θ2、φ;以同樣的參數(shù)值初始化3 個目標(biāo)網(wǎng)絡(luò)參數(shù),即θ1′←θ1,θ2′ ←θ2,φ′←φ。
2)設(shè)置經(jīng)驗回放緩沖區(qū)B 容量和訓(xùn)練時的采樣數(shù)據(jù)條數(shù)N。
3)獲取并添加經(jīng)驗數(shù)據(jù)元組至B 中。
①從歷史數(shù)據(jù)中隨機(jī)取初始狀態(tài)st。πφ結(jié)合噪聲x在狀態(tài)st下選取動作at:
②以動作at與環(huán)境交互,從而獲得獎勵值rt與下一狀態(tài)st+1,并組成一條數(shù)據(jù)元組(st,at,rt,st+1)。
③以數(shù)據(jù)的δ作為其優(yōu)先級指標(biāo),并按數(shù)據(jù)添加順序依次存入Summation tree 葉節(jié)點中,同時更新相關(guān)節(jié)點的節(jié)點值。
④判斷B 中經(jīng)驗數(shù)據(jù)條數(shù)。若數(shù)目未達(dá)到設(shè)定容量上限,則令此時的st+1作為步驟②中的st,并重復(fù)以上步驟;否則結(jié)束添加并將B 內(nèi)最大δ賦予每條數(shù)據(jù)。
4)基于Summation tree 采樣方式,從B 中采樣出N條數(shù)據(jù),并對每條數(shù)據(jù)以φπ′添加1 個基于目標(biāo)策略平滑正則化的噪聲x′,得出st+1對應(yīng)的目標(biāo)動作at+1:
5)記錄所得(st+1,at+1)和觀測到的獎勵rt+1,輸入2 個Critic 目標(biāo)網(wǎng)絡(luò)從而計算目標(biāo)值yt。
6)基于梯度下降算法,最小化目標(biāo)值與觀測值間的誤差,從而更新2 個Critic 現(xiàn)實網(wǎng)絡(luò)參數(shù)θ。
7)以學(xué)習(xí)率τ1對現(xiàn)實網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)進(jìn)行加權(quán)平均,軟更新目標(biāo)網(wǎng)絡(luò)參數(shù)。
8)重新計算數(shù)據(jù)δ并更新其所在葉節(jié)點和相關(guān)節(jié)點節(jié)點值。
9)待Critic 網(wǎng)絡(luò)更新過d步后,同樣以梯度下降算法更新Actor 現(xiàn)實網(wǎng)絡(luò)的參數(shù)φ。
10)以學(xué)習(xí)率τ2來軟更新Actor 目標(biāo)網(wǎng)絡(luò)參數(shù)。
循環(huán)步驟4)~10),并記錄獎勵值。
采用如圖1 所示的IES 作為算例。其中,各設(shè)備參數(shù)與相關(guān)成本系數(shù)如表1 所示,IES 與主電網(wǎng)交互時的峰、平、谷時段劃分如表2 所示,分時電價信息如表3 所示。根據(jù)我國南方某地歷史數(shù)據(jù),分布式電源出力、電負(fù)荷、熱負(fù)荷需求預(yù)測結(jié)果如圖4 所示。
表1 各設(shè)備參數(shù)與相關(guān)成本系數(shù)Tab.1 Equipment configuration information and related cost coefficient
表2 主電網(wǎng)分時電價策略時段劃分Tab.2 Time division of TOU electricity price strategy for main grid
表3 主電網(wǎng)分時電價信息表Tab.3 TOU electricity price of the main grid 元/kW·h
圖4 負(fù)荷、風(fēng)光出力預(yù)測曲線Fig.4 Prediction curves of load,wind power and photovoltaic output
所有算例測試在相同硬件及Python 語言環(huán)境中運(yùn)行。采用基于數(shù)據(jù)流編程的符號數(shù)學(xué)系統(tǒng)TensorFlow2.5 編寫DRL 方法的神經(jīng)網(wǎng)絡(luò)框架。
以下面4 種方法對計算結(jié)果進(jìn)行對比分析。
方法1。采用NSGA-II 算法的多目標(biāo)優(yōu)化調(diào)度策略。
方法2。采用DDPG 算法的調(diào)度策略。
方法3。采用TD3 算法的調(diào)度策略。
方法4。采用改進(jìn)TD3 算法的調(diào)度策略。
方法1 中的NSGA-II 算法,以系統(tǒng)運(yùn)行成本最低、環(huán)境治理成本最低作為優(yōu)化目標(biāo),其決策變量為系統(tǒng)內(nèi)各個可控出力設(shè)備以及主電網(wǎng)購售電能量。參數(shù)設(shè)置為:種群個數(shù)為200;最大迭代次數(shù)200;交叉率0.5;變異率0.1。該算法每次只能求單個時刻的解。在進(jìn)行對比分析時,取整個調(diào)度時段中每個時刻整合后的結(jié)果。
由于IES 運(yùn)行涉及時間序列的復(fù)雜數(shù)據(jù)集,所以對于方法2、方法3、方法4 的神經(jīng)網(wǎng)絡(luò),需預(yù)設(shè)各神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率、經(jīng)驗池容量、隱含層層數(shù)與神經(jīng)元個數(shù)。DRL 方法采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)參數(shù):Actor 網(wǎng)絡(luò)學(xué)習(xí)率取0.000 3,Critic 網(wǎng)絡(luò)學(xué)習(xí)率取0.003,軟更新學(xué)習(xí)率τ1、τ2取0.005,神經(jīng)網(wǎng)絡(luò)隱含層為3 層,采用的激活函數(shù)分別為ReLU、ReLU、Tanh,每層64 個神經(jīng)元,折扣因子取0.95,經(jīng)驗池容量B 取3 000。對于方法3、方法4 中改進(jìn)前后的TD3 算法,還需設(shè)置其他參數(shù):噪聲x標(biāo)準(zhǔn)差σ取0.01,x′標(biāo)準(zhǔn)差σ′取0.02,截取邊界ψ取0.05。
DRL 方法獎勵值收斂結(jié)果如圖5 所示。
圖5 DRL 方法獎勵值收斂結(jié)果Fig.5 Convergence results of DRL method reward value
由圖5 可知,本文所提改進(jìn)TD3 算法在訓(xùn)練前期出現(xiàn)了平均獎勵值明顯波動,原因在于:在采樣前期,為避免某些數(shù)據(jù)無法采樣,數(shù)據(jù)優(yōu)先級指標(biāo)被賦予統(tǒng)一初值,導(dǎo)致其中某些實際更新價值較低的數(shù)據(jù)被高估,從而影響了智能體對動作優(yōu)化的判斷;隨訓(xùn)練輪次的增加,平均獎勵值水平逐漸平緩,在訓(xùn)練達(dá)到1 200 輪次后趨于收斂。在同樣訓(xùn)練2 000 輪次的條件下,本文算法最高平均獎勵值水平略高于未改進(jìn)TD3 算法,且明顯高于DDPG 算法;這說明本文模型能夠?qū)さ玫淖顑?yōu)解,較另外2 種方法更佳。
4 種方法的調(diào)度結(jié)果如圖6 所示。
圖6 各方法調(diào)度策略功率平衡圖Fig.6 Power balance diagram of scheduling strategies of each method
4 種方法的系統(tǒng)運(yùn)行成本如表4 所示。
表4 各方法系統(tǒng)運(yùn)行成本Tab.4 System running cost table of each method 元
由圖6 可見,4 種方法輸出結(jié)果都未出現(xiàn)明顯的功率不平衡問題。
結(jié)合表4 數(shù)據(jù)可知,在不同方法的輸出結(jié)果中,各項成本有一定差異:改進(jìn)TD3 算法對比NSGA-II算法總成本降低了5.48%,比未改進(jìn)TD3、DDPG算法分別降低了2.29%和7.28%。由表4 中計算結(jié)果可知,本文所提方法得到的總污染治理成本以及天然氣購氣成本低于其他方法,也即天然氣消耗量、碳排放量更低;這說明其在提高系統(tǒng)運(yùn)行經(jīng)濟(jì)性、低碳性的效果上表現(xiàn)最好。
TD3 算法改進(jìn)前后尋優(yōu)速度驗證:設(shè)置訓(xùn)練輪次為1 200 輪次。將相同的負(fù)荷、分布式電源出力預(yù)測數(shù)據(jù)代入2 種方法,對智能體重新訓(xùn)練。以未改進(jìn)TD3 算法結(jié)果數(shù)值為基準(zhǔn),對改進(jìn)后TD3 算法結(jié)果進(jìn)行折算對比,結(jié)果如圖7 所示。
圖7 改進(jìn)前后TD3 算法輸出結(jié)果對比Fig.7 Comparison of TD3 algorithm output results before and after improvement
由圖7 可知,改進(jìn)后TD3 算法輸出結(jié)果在系統(tǒng)運(yùn)行中的各項成本較改進(jìn)前均有減少。由此可以認(rèn)為,在同樣訓(xùn)練1 200 輪次的條件下,改進(jìn)后的TD3 算法尋得了更優(yōu)的策略。
小結(jié):本文所提改進(jìn)TD3 算法在保留TD3算法優(yōu)勢的基礎(chǔ)上,進(jìn)一步提升了其訓(xùn)練效率,且在所應(yīng)用的IES 低碳經(jīng)濟(jì)調(diào)度場景中,較其他3 種方法能更好地兼顧系統(tǒng)運(yùn)行的低碳性與經(jīng)濟(jì)性。
本文針對IES 的低碳經(jīng)濟(jì)調(diào)度,提出了一種以Summation tree 改進(jìn)TD3 算法中經(jīng)驗數(shù)據(jù)采樣的DRL 方法。與現(xiàn)有方法相比,本文所提方法有以下優(yōu)勢:
1)該方法能夠從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)并挖掘物理模型。隨著訓(xùn)練輪次的增加,該方法能夠不斷優(yōu)化策略使其趨于最優(yōu),從而克服了在處理某些高維復(fù)雜問題時需要手動編寫規(guī)則和模型的困難。
2)與計算效率較高、收斂速度較快的確定性策略梯度算法相比,本文方法智能體的動作探索能力更強(qiáng),陷入局部最優(yōu)的可能性更低。
3)對比改進(jìn)前,所提出的改進(jìn)方法實現(xiàn)了對更新價值較大的經(jīng)驗數(shù)據(jù)的高效利用,有效避免了相似經(jīng)驗數(shù)據(jù)降低訓(xùn)練速度的問題。
展望:本文所提改進(jìn)TD3 算法,通過對歷史經(jīng)驗數(shù)據(jù)采用Summation tree 進(jìn)行存儲采樣,實現(xiàn)了確定性策略方法的優(yōu)先經(jīng)驗回放機(jī)制;作為一種加權(quán)采樣方法,其在IES 低碳經(jīng)濟(jì)調(diào)度問題的復(fù)雜能源調(diào)度環(huán)境、多市場需求應(yīng)用場景中具有良好的適用性、可優(yōu)化性與自適應(yīng)性。然而,本文研究中未充分考慮系統(tǒng)運(yùn)行中實際存在的損耗以及調(diào)整獎勵值函數(shù)中各成分權(quán)重。未來的研究,將針對擴(kuò)展系統(tǒng)復(fù)雜性、引入多智能體結(jié)構(gòu)、調(diào)整不同獎勵值權(quán)重對比輸出策略差異等方面展開。