摘 要:目前,對于高效利用廣泛接入電網的分布式電源問題的研究存在不足。該文通過結合博弈論與強化學習,提出一種含虛擬慣量的虛擬電廠Nash-Q強化學習調度策略,解決具有高隨機性和不確定性的分布式電源協(xié)調優(yōu)化調度的問題。首先,建立一個綜合考慮碳排放、經濟性、出力和慣量約束的虛擬電廠混合目標調度模型,并進一步構造出納什均衡模型;然后,針對燃氣輪機組出力、風光機組出力、儲能電池組出力和碳交易量定義多智能體,并構造多智能體的狀態(tài)空間、動作空間集合和獎勵函數,通過馬爾可夫決策不斷學習更新價值函數;最后,在線推演輸出多時間尺度最優(yōu)調度策略。結果表明:Nash-Q強化學習調度策略相比于傳統(tǒng)調度方法,提高了9.7%的收益、減少了13.6%的碳排放量,并利用儲能電池組的虛擬慣量有效提高了虛擬電廠的慣量支撐能力,實現了虛擬電廠的低碳高效安全經濟運行。
關鍵詞:分布式電源;虛擬電廠;強化學習;博弈論;虛擬慣量
中圖分類號:TM734 文獻標志碼:A
0 引 言
隨著中國“雙碳”戰(zhàn)略的持續(xù)推進,提升可再生能源發(fā)電的收益、促進新能源產業(yè)可持續(xù)發(fā)展、加快推進碳交易市場建設已成為能源行業(yè)發(fā)展的重點。為促進電力低碳化發(fā)展,需要大力發(fā)展風力、光伏等清潔能源。而由于風光發(fā)電的不確定性與波動性,需要其他類型的電源配合調峰填谷[1-2]。虛擬電廠依托現代通信技術[3],通過整合分布式電源和負荷,以整體形式加入電力-碳交易市場參與電網調度,促使電力行業(yè)朝著低碳清潔高效的方向發(fā)展[4-5]。
文獻[6]通過電源側與負荷側的協(xié)調配合構建出一個兼顧經濟性和環(huán)保性的虛擬電廠平臺,建立虛擬電廠基于源-荷協(xié)調的優(yōu)化模型;文獻[7]基于風光出力預測誤差模糊集的兩階段分布魯棒優(yōu)化模型,研究虛擬電廠調度決策問題。由于新能源滲透率的持續(xù)提高,系統(tǒng)的慣量水平將顯著降低,給虛擬電廠的穩(wěn)定運行造成威脅;文獻[8]指出虛擬電廠經常會面臨慣量不足的問題,并提出一種在線估計方法來跟蹤虛擬電廠的等效時變慣性;文獻[9]利用電容儲能系統(tǒng)的虛擬慣量增強了系統(tǒng)的頻率調節(jié)能力,研究了頻率調節(jié)對虛擬慣量的補充支持作用。上述成果是對虛擬慣量研究的初步嘗試,針對虛擬電廠儲能模型中關于虛擬慣量的研究仍需進一步探索。
文獻[10]結合分布式可再生能源機組的特性,根據用戶的需求與特點最小化虛擬電廠的運行成本,提出一種虛擬電廠的最優(yōu)經濟調度;文獻[11]將虛擬電廠調度模型運用到博弈論模型中,給虛擬電廠調度研究拓展了一種新方法。上述文獻在虛擬電廠的研究中,對分布式能源的調度、需求響應和碳交易機制做了深入探討,但缺少對于虛擬電廠中多時間尺度與多目標混合策略的調度分析。
目前針對策略優(yōu)化的研究往往采用經典優(yōu)化解析算法(如內點法、牛頓法等[12])或傳統(tǒng)智能算法(如遺傳算法、粒子群算法等[13])。經典優(yōu)化解析算法雖求解速度快,但由于過度依賴數學模型,建模受到諸多限制。而傳統(tǒng)智能算法盡管對模型依賴程度低,但泛化學習能力不足,無法實現針對復雜數據模型的優(yōu)化,且計算耗時較長。而強化學習作為一種人工智能算法,其學習主體可主動適應復雜環(huán)境,進行動態(tài)探索與試錯,在求解多主體序貫決策問題中有顯著的優(yōu)勢。
文獻[14]通過博弈論建立多微網系統(tǒng)的協(xié)同優(yōu)化模型,并利用深度神經網絡擬合Q學習算法中的價值函數,實現各微網的利益均衡;文獻[15]基于強化學習方法,針對電力和天然氣綜合系統(tǒng)的運行,提出一種動態(tài)管理調度策略。以上文獻為解決含分布式新能源的虛擬電廠調度問題提供了強化學習方面的新思路,但在減碳模型、虛擬慣量以及算法多場景適應性等方面仍存在較大探索空間。
針對上述虛擬電廠調度問題,本文提出一種含虛擬慣量的虛擬電廠Nash-Q強化學習調度策略。制定混合目標調度策略,均衡虛擬電廠中的多主體利益,利用儲能提供虛擬慣量提升系統(tǒng)的慣量儲備。通過Nash-Q學習算法在線推演多時間尺度策略,實現虛擬電廠在復雜場景下的自適應學習和快速響應,解決了具有高隨機性與不確定性的分布式電源虛擬電廠實時協(xié)調優(yōu)化調度的問題。
1 虛擬電廠優(yōu)化調度策略和模型
1.1 虛擬電廠優(yōu)化調度策略
本文研究的虛擬電廠優(yōu)化調度策略是在滿足整體負荷需求下充分利用可再生能源并實現混合目標調度,充分考慮了不同發(fā)電單元的發(fā)電和運維成本,以及儲能電池組的使用成本與虛擬慣量支持能力,額外地考慮了虛擬電廠運行過程中的管理成本、環(huán)境保護成本以及對用戶的補償成本。同時預設碳排放配額,優(yōu)化碳排放總量,根據階梯碳交易機制參與碳交易以獲取收益。虛擬電廠整體運行結構如圖1所示。
隨著高比例分布式可再生能源的接入,虛擬電廠面臨慣量水平不足的挑戰(zhàn),給系統(tǒng)的頻率穩(wěn)定帶來威脅,也為虛擬電廠的優(yōu)化調度運行提出新的要求[16]。虛擬電廠需具備一定的慣量支撐能力抵御擾動風險,因此需對虛擬電廠的慣量儲備進行有效計算[17-18]。當實際慣量儲備低于最低慣量需求時,需利用儲能電池組的虛擬慣量改善系統(tǒng)的慣量水平。
本文在模型中考慮慣量約束和儲能的虛擬慣量,通過調度儲能出力提供虛擬慣量,有效補償慣量缺額提升系統(tǒng)的慣量儲備,得到虛擬電廠在慣量不足場景下的優(yōu)化運行策略,實現功率與慣量的雙重調度,促進分布式電源的高效利用與就地消納。
1.2 虛擬電廠優(yōu)化調度模型
1.2.1 目標函數
目標函數考慮虛擬電廠根據碳交易機制通過交易碳排放指標與向用戶產電售電獲取的收益以及運行管理時所需的各種成本。在滿足所有負荷達到最優(yōu)運行條件下,該優(yōu)化調度策略爭取混合目標下的最大收益。
[maxt=1TPco2,t+Pe,t-Fa,t] (1)
其中,
[Fa,t=Fw,t+Fp,t+Fg,t+Fb,t+Cf,t+Cc,t] (2)
式中:[Pco2,t]——[t]時刻碳交易獲得的收益,元;[Pe,t]——[t]時刻售電獲得的收益,元;[Fw,t]——[t]時刻風力機組的運行成本,元;[Fp,t]——[t]時刻光伏的運行成本,元;[Fg,t]——[t]時刻燃氣輪機的運行成本,元;[Fb,t]——儲能電池組的運行成本,元;[Cf,t]——[t]時刻虛擬電廠的管理成本和環(huán)境保護成本,元;[Cc,t]——[t]時刻對用戶的補償成本,元。
1.2.2 虛擬電廠主體模型
1)燃氣輪機發(fā)電成本和運維成本
[Fg,t=egp2g,t+bgpg,t+cg+mgpg,t8760] (3)
式中:[pg,t]——[t]時刻燃氣輪機的發(fā)電功率,kW;[eg]、[bg]、[cg]——燃氣輪機的發(fā)電耗量特性系數;[mg]——燃氣輪機的運行維護成本系數。
2)風力機組的發(fā)電成本和運維成本
[Fw,t=bwpw,t+cwpw,max-pw,t2+mwpw,t8760] (4)
式中:[bw]——風力機組的發(fā)電功率與發(fā)電成本的線性關系系數;[pw,t]——[t]時刻風力機組的發(fā)電功率,kW;[cw]——風力機組耗量系數;[pw,max]——風力機組最大功率,kW;[mw]——風力機組的運行維護成本系數。
3)光伏系統(tǒng)的發(fā)電成本和運維成本
[Fp,t=bppp,t+mppp,t8760] (5)
式中:[bp]——光伏系統(tǒng)的發(fā)電功率與發(fā)電成本的線性關系系數;[pp,t]——[t]時刻光伏系統(tǒng)的發(fā)電功率,kW;[mp]——光伏系統(tǒng)的運維成本系數。
4)儲能電池組的充放電和損耗成本
[Fb,t=kb+mb(pchat+pdist)] (6)
式中:[kb]——儲能電池組充放電功率成本系數;[mb]——儲能電池組損耗系數;[pchat]、[pdist]——[t]時刻的充電功率、放電功率,kW。
5)虛擬電廠的管理和環(huán)境保護成本
[Cf,t=rmLbaset+Lcurtt+vepg,t32] (7)
式中:[rm]——管理運行成本系數;[Lbaset]——[t]時刻的基礎負荷,kW;[Lcurtt]——[t]時刻的可削減負荷,kW;[ve]——環(huán)境保護成本系數。
1.2.3 計及慣量的虛擬電廠低碳運行模型
1)棄風棄光懲罰成本
為保證虛擬電廠內部功率實時動態(tài)平衡,要求風光實際出力應與預測出力基本相符,發(fā)電量有偏差則需繳納罰金做懲罰項。
[Cpu,t=υwpmaxw,t-pw,t+υlpmaxp,t-pp,t] (8)
式中:[υw]、[υl]——棄風、棄光懲罰成本系數。
2)用戶的補償成本
設置部分負荷為可削減負荷,在用電高峰期可適當削減此類負荷,但需對用戶進行補償。
[Cc,t=κLcurtt-Lcurtt′2] (9)
式中:[κ]——補償成本系數;[Lcurtt′]——[t]時刻可削減負荷中的實際負荷值,kW。
3)階梯碳交易機制
在階梯碳交易機制中,將碳交易量按照標準劃分區(qū)間。碳排放量超過碳排放配額,就要額外支付超額懲罰成本,對于低于低碳排放配額的部分,可額外獲得更大的獎勵收益。
[Pco2,t=NgEg,t-Dg," " "Dg≤Eg,tMgDg-Eg,t," " " " lg≤Eg,tlt;DgMg1+λlg-Eg,t+MgDg-lg," " " " "Eg,tlt;lg" " "] (10)
其中,
[Eg,t=δgpg,tt] (11)
式中:[Ng]——碳排放超額懲罰系數;[Dg]——碳排放配額;[Eg,t]——[t]時刻的碳排放量,kg;[Mg]——碳交易價格系數;[lg]——低碳排放配額;[λ]——碳交易價格獎勵系數;[δg]——燃氣輪機單出力碳排放強度系數。
4)儲能電池組的虛擬慣量
利用儲能電池組的能量成為系統(tǒng)中旋轉慣性新的能量來源,提供慣量等效同步發(fā)電機相同動能,作為系統(tǒng)的慣量補充。根據儲能電池組的參數與實際出力情況,可計算得到相應的虛擬慣量。當虛擬電廠中實際慣量低于最低慣量需求時,利用儲能實現面向虛擬慣量的提升,調度儲能出力得到相應的慣性支持,可補償因接入新能源機組造成的慣量缺額。
[Hvir,t=pdist2ubSntbd1-SOC/ωedωe] (12)
其中,
[SOC=Sr/Sn] (13)
式中:[Hvir,t]——[t]時刻儲能電池組的虛擬慣量,kW·s;[ub]——儲能電池組自身電壓,kV;[tb]——儲能慣性時間常數;[ωe]——同步機的角速度,rad/s;[SOC]——儲能電池組的荷電狀態(tài)參數;[Sr]、[Sn]——儲能電池組的剩余容量、額定容量,MW。
1.2.4 約束條件
總負荷消耗=燃氣輪機功率+風力機組功率+光伏系統(tǒng)功率+儲能電池組放電功率,即:
[t=1TLbaset+Lcurtt′=t=1Tpg,t+pw,t+pp,t+pdist] (14)
1)燃氣輪機出力約束
[pming,t≤pg,t≤pmaxg,t] (15)
式中:[pmaxg,t]、[pming,t]——[t]時刻燃氣輪機出力上、下限,kW。
2)風力機組出力約束
[pminw,t≤pw,t≤pmaxw,t] (16)
式中:[pmaxw,t]、[pminw,t]——[t]時刻風力機組出力上、下限,kW。
3)光伏系統(tǒng)出力約束
[pminp,t≤pp,t≤pmaxp,t] (17)
式中:[pmaxp,t]、[pminp,t]——[t]時刻光伏系統(tǒng)出力上、下限,kW。
4)儲能電池組荷電狀態(tài)和儲能容量約束
[SOC,t+1=SOC,t+pchat?ηcha/SnSOC,t-pdist/ηdis/Sn] (18)
式中:[ηcha]、[ηdis]——儲能電池組充電、放電效率。
5)最小慣量約束
[Hsys,t≥Hmin,t] (19)
其中,
[Hsys,t=Hvir,t+pw,ttw+pg,ttg] (20)
式中:[Hsys,t]——[t]時刻虛擬電廠中當前慣量,kW·s;[Hmin,t]——[t]時刻最小慣量需求;[tw]——風電機組的慣性時間常數,s;[tg]——同步機組的慣性時間常數,s。
2 基于Nash-Q學習的運行策略求解
2.1 Nash均衡模型
本文將虛擬電廠分為4個主體部分,分別是以燃汽輪機組為主的可控電源出力、包含風光的新能源機組出力、儲能電池組構成的儲能單元出力和碳交易量。各智能主體的動作與決策變量相互影響,相互制約,形成博弈關系,在每個時間段探索學習尋找最佳策略。
在Nash均衡模型中,每一個主體部分的動作與決策變量相互制約,都會依據其他主體部分的狀態(tài)選擇動作,在聯(lián)合狀態(tài)[st∈S]下存在:
[vi(st,π*1,π*2,π*3,π*4)≥vi(st,π1,π2,π3,π4)] [?πi∈Ei] (21)
式中:[vi(st,π1,π2,π3,π4)]——4個智能體遵循均衡策略從聯(lián)合狀態(tài)[st∈S]開始累積折扣回報期望;[πi]——智能體[i]的實時策略;[π*i]——智能體[i]尋得的最優(yōu)策略;[Ei]——智能體[i]可采取的策略集合。
2.2 Nash-Q學習算法
傳統(tǒng)強化學習面對虛擬電廠內部不同類型的分布式資源、多變的調度方法以及海量控制數據,采用的集中式管理方法無法實現快速靈活調度,同時虛擬電廠包含的多個運行主體追求不同的利益,難以讓步于系統(tǒng)的全局優(yōu)化目標策略[19-20]。因此本文對虛擬電廠系統(tǒng)進行多智能體劃分,建立多主體博弈協(xié)調調度模型,選擇的Nash-Q強化學習可在復雜模型中建立納什均衡求解多主體序貫決策問題,通過制定混合目標調度策略,均衡虛擬電廠中的多主體利益,解決智能體與環(huán)境之間、多個智能體之間的交互問題[21]。
在多智能體系統(tǒng)中,Q值的選擇取決于多個智能主體的策略。在一般隨機博弈的框架中,最優(yōu)Q值為在納什均衡中計算出的Q值,并將其稱為納什Q值[22]。通過智能體不斷自適應學習重復循環(huán)策略找到納什Q值。該算法是一種基于值函數迭代的在線學習和動態(tài)優(yōu)化技術,其狀態(tài)動作對應的價值函數的迭代更新公式可表示為:
[Qt+1is,a1,…,an=1-αQtis,a1,…,an" " + αrti+γQtNash,is′] (22)
[QtNash,is′=π1s′,…,πns′?Qtis′] (23)
式中:[Qt+1is,a1,…,an]——在[t]時刻智能體[i]狀態(tài)動作對[s,a1,…,an]的價值函數更新;[α]——學習率;[γ]——衰減系數;[π1s′, …, πns′?Qtis′]——所有智能體納什均衡策略的組合;[QtNash,is′]——智能體[i]在狀態(tài)下的納什Q值,其含義是從狀態(tài)[s′]開始所有智能體全部采取Nash均衡策略情況下的累計回報,該值同時也是Nash-Q學習算法的最優(yōu)Q值。算法整體框架如圖2所示。
2.3 Nash-Q學習算法求解過程
本文將求解過程建模為一個離散的有限馬爾可夫決策過程。在決策過程建模的關鍵部分包括:離散時間[t]、狀態(tài)[S]、動作[A]和獎勵[R]。其中:[S]為系統(tǒng)的狀態(tài)集,[A]為系統(tǒng)的動作集,[R]為系統(tǒng)的獎勵函數。
1)離散時間[t]包括以每小時作為時間間隔的長時間尺度與以每5分鐘作為時間間隔的短時間尺度。
2)[t]時刻系統(tǒng)狀態(tài)變量[st∈S]可描述為[st=(Lbaset′,] [Lcurtt′,] [SOC,t)]。
3)根據[t]時刻的系統(tǒng)狀態(tài)[st],調度策略的目的在于滿足負荷運行條件下優(yōu)化發(fā)電結構、實現混合目標。虛擬電廠的動作變量描述為[At=(ag,an,ab,ac)],動作空間中的[ag]是燃氣輪機組的動作選擇,[an]是光伏風力機組的動作選擇,[ab]是儲能電池組的動作選擇,[ac]是在碳交易市場中的動作選擇。
4)對調度過程持續(xù)學習以及優(yōu)化獎勵函數,定義時刻t的獎勵值為總運行成本的負值加上交易碳配額與售電獲得的收益為獎勵函數,并設置權重因子。動作空間的確定考慮到了功率平衡和約束條件。本文構建的獎勵函數具體描述可表示為:
[r(st,At)=ρ?Pco2,t+(1-ρ)?Pe,t-(Fw,t+Fp,t+Fg,t+Fb,t+Cf,t+Cc,t)] (24)
式中:[r(st, At)]——智能體選擇聯(lián)合動作的獎勵;[ρ∈0,1]——碳排放量與虛擬電廠運行成本之間的相對重要性的權重因子,權重因子取值由不同條件下相應的策略決定。使用帶有折扣因子的未來獎勵來代替,從時刻t開始的未來總獎勵可表示為:
[Rt=r(st,At)+γ?r(st+1,At+1)+…+γT-1?r(sT,AT)=r(st,at)+γ?Rt+1] (25)
在實際調度場景中,調度過程通常都是在短時間內提出請求并給予實施。本文將強化學習的優(yōu)勢應用于復雜的虛擬電廠調度場景,提出的調度問題是連續(xù)復雜狀態(tài)空間、分配概率未知的非線性問題,將訓練過的最優(yōu)模型應用到在線調度中,可在學習過程中不斷優(yōu)化策略找到最優(yōu)解。
在下一階段智能體遵循Nash均衡策略可獲得最優(yōu)Q值,其迭代表達式為:
[Q*(st,ag,an,ab,ac)=r(st,ag,an,ab,ac)+βp(st+1|st,ag,an,ab,ac)v(st+1,π*g,π*n,π*b,π*c)] (26)
式中:[p(st+1|st,ag,an,ab,ac)]——多主體的狀態(tài)轉移概率;[π*g,π*n,π*b,π*c]——4個智能主體分別對應的Nash均衡策略;[v(st+1,π*g,π*n,π*b,π*c)]——多智能體遵循博弈均衡策略下[t+1]時刻的總折扣獎勵。算法具體學習流程如圖3所示。
3 算例分析
3.1 算例概況
本文構建虛擬電廠進行仿真,系統(tǒng)一個完整的調度周期為24 h,能源需求方面有峰谷之分,在09:00—22:00為電能需求高峰期,23:00—08:00為電能需求低谷期。能源調度供給方面,虛擬電廠中包含的燃氣輪機組、風力機組、光伏系統(tǒng)、儲能電池組,該場景的具體參數信息列于表1~表4中。
本文采用多時間尺度優(yōu)化調度模型,利用長時間尺度滾動制定運行計劃,短時間尺度滾動優(yōu)化進行實時調度,研究虛擬電廠在不同時間尺度下的運行策略??紤]到實際通信與調度所耗費的時間,博弈時間為小時級與分鐘級,可滿足日前、日中及實時調度的需求。制定時間間隔為1 h的長時間尺度,即一天滾動優(yōu)化24次,短時間尺度時間間隔為5 min,即在一小時內連續(xù)滾動優(yōu)化12次。
不同氣象條件對風電與光伏的出力影響較大,圖4為虛擬電廠控制中心根據風力強度與太陽輻照度信息預測風電、光伏出力。由圖4可知,風力機組的出力具有很大的隨機性和波動性,光伏的出力集中在白天太陽輻照度高的時刻。而新能源出力占比高的時段虛擬電廠慣量需求也相應增大。虛擬電廠該天的總負荷包括基礎負荷與可削減負荷如圖5所示。虛擬電廠具體參數與售電分時電價如表5與表6所示。
3.2 訓練過程
根據本文所述調度模型進行RL環(huán)境搭建,環(huán)境模型中動作空間包括4個動作變量,狀態(tài)空間包括3個狀態(tài)變量。仿真基于windows11操作系統(tǒng)(AMD Ryzen 7 5800H with Radeon Graphics處理器,內存32 GB)和Python3.7環(huán)境,本文選用的算法以及對比算法參數選擇如表7所示。
本次仿真學習訓練共計超過3000個周期,學習過程中的Q值與最佳策略的總獎勵不斷迭代更新。隨著學習過程的深入,往后策略的總獎勵趨于穩(wěn)定,在之后的學習過程中產生一些振蕩,是因為多智能體在博弈學習過程中探索最優(yōu)策略時為避免陷入局部最優(yōu)而需進行不斷地“試錯”。
3.3 仿真模型分析對比
虛擬電廠負荷高峰期出現在10:00—16:00之間,期間光伏系統(tǒng)和風力機組的出力預測也在一個較高的峰值,一定程度上契合了用戶的需求,此時仍需儲能電池組提供適量的輸出支撐。在17:00—22:00時段,負荷仍處于一個較高的峰值,此時光伏系統(tǒng)已無功率貢獻,相應地需要增加燃氣輪機組輸出,儲能電池組協(xié)助保證功率需求平衡。在23:00—07:00時段,負荷需求處于低谷期,此時對儲能電池組進行大量充電,提升可再生能源的消納水平。經過博弈學習后,整體的調度策略根據光伏、風力機組的出力和儲能電池組的運行特點進行了充分利用,在確保對負荷可靠供電的情況下促進了可再生能源的消納,減少了整體的碳排放總量。
在目標函數的設置中,[ρ]表示碳排放量與運行成本之間相對重要性的權重因子,根據不同的策略來討論不同[ρ]值時的各機組最佳出力情況。當該虛擬電廠將追求最大收益設為主要目標,減小碳排放為次要目標時,將[ρ]值設置為0.2,經過博弈學習之后的長時間尺度出力分配情況如圖6a所示,對該長時間尺度進行短時間尺度分解,10:00時的短時間尺度調度如圖6b所示。短時間尺度調度策略可實時修正長時間尺度計劃,提高調度模型的精度。
當該虛擬電廠將減小碳排放設為主要目標,追求最大收益設為次要目標時,將[ρ]值設置為0.8,經過博弈學習之后的長時間尺度出力分配情況如圖7a所示,對該長時間尺度進行短時間尺度分解,16:00時的短時間尺度調度如圖7b所示。
本文通過仿真驗證了含虛擬慣量的虛擬電廠可有效提高系統(tǒng)的慣量儲備,圖8是慣量儲備與最小慣量需求的對比圖。虛擬電廠在負荷高峰期會面臨慣量儲備不足的挑戰(zhàn),而通過增配儲能面向虛擬慣量的提升,有效改善了系統(tǒng)的慣量水平,增大了負荷高峰時期的慣量儲備,有利于虛擬電廠安全穩(wěn)定運行。
該算法可計算得到虛擬電廠運行情況,在不同策略下的總收益與碳排放量對比如圖9和圖10所示。通過對比發(fā)現,根據需要選擇合適的權重因子制定調度策略,能平衡協(xié)調虛擬電廠經濟低碳雙重調峰目標。
3.4 算法對比分析
為進一步驗證本文所提出的Nash-Q算法的優(yōu)越性,本文選擇Q學習算法、蟻群優(yōu)化算法(ant colony optimization, ACO)與粒子群優(yōu)化算法(particle swarm optimization, PSO)進行求解,對算法性能與計算結果進行對比分析,結果如圖11所示。
將不同優(yōu)化方法運行后的具體數據列于表8。
Q學習算法在收斂時間與迭代次數上有明顯的優(yōu)勢,但無法實現多主體利益均衡的調度目標。PSO算法雖迭代計算速度快,運算時間短,由于易出現局部最優(yōu)導致優(yōu)化結果變差、迭代次數增加。而ACO算法雖取得了較為理想的優(yōu)化結果,但具有迭代次數多、收斂時間長的缺點,同時也有陷入局部最優(yōu)的可能性。對比之下,Nash-Q算法具有更強的優(yōu)化決策能力和更短的收斂時間,更適用于在線的實時調度。
4 結 論
本文提出一種含虛擬慣量的虛擬電廠Nash-Q強化學習調度策略,解決了具有高隨機性和不確定性的分布式電源協(xié)調優(yōu)化調度的問題,并得出以下主要結論:
1)將Nash均衡模型應用到虛擬電廠架構下,實現了虛擬電廠中多主體的利益均衡分配,兼顧虛擬電廠運行的經濟性與低碳性;
2)通過調度儲能實現面向虛擬慣量的提升,有效改善了系統(tǒng)的慣量水平,增大了負荷高峰時期的慣量儲備,有利于虛擬電廠安全穩(wěn)定運行;
3)通過Nash-Q強化學習輸出多時間尺度調度策略,實現在復雜場景下的自適應學習和快速響應,實現了虛擬電廠的低碳高效安全經濟運行。
[參考文獻]
[1] 周任軍, 孫洪, 唐夏菲, 等. 雙碳量約束下風電-碳捕集虛擬電廠低碳經濟調度[J]. 中國電機工程學報, 2018, 38(6): 1675-1683.
ZHOU R J, SUN H, TANG X F, et al. Low-carbon economic dispatch based on virtual power plant made up of carbon capture unit and wind power under double carbon constraint[J]. Proceedings of the CSEE, 2018, 38(6): 1675-1683.
[2] 張新民, 郭銘海, 林亞培, 等. 考慮靈活性的含分布式光伏配電網雙層優(yōu)化調度方法[J]. 電力科學與技術學報, 2021, 36(3): 56-66.
ZHANG X M, GUO M H, LIN Y P, et al. A bi-layer optimal dispatch approach for distribution networks with distributed photovoltaic considering the flexibility[J]. Journal of electric power science and technology, 2021, 36(3): 56-66.
[3] 汪莞喬, 蘇劍, 潘娟, 等. 虛擬電廠通信網絡架構及關鍵技術研究展望[J]. 電力系統(tǒng)自動化, 2022, 46(18): 15-25.
WANG G Q, SU J, PAN J, et al. Prospect of research on communication network architecture and key technologies for virtual power plant[J]. Automation of electric power systems, 2022, 46(18): 15-25.
[4] 陳會來, 張海波, 王兆霖. 不同類型虛擬電廠市場及調度特性參數聚合算法研究綜述[J]. 中國電機工程學報, 2023, 43(1): 15-27.
CHEN H L, ZHANG H B, WANG Z L. A review of market and scheduling characteristic parameter aggregation algorithm of different types of virtual power plants[J]. Proceedings of the CSEE, 2023, 43(1): 15-27.
[5] 師陽, 李宏偉, 陳繼開, 等. 計及激勵型需求響應的熱電互聯(lián)虛擬電廠優(yōu)化調度[J]. 太陽能學報, 2023, 44(4): 349-358.
SHI Y, LI H W, CHEN J K, et al. Optimal scheduling of thermoelectric interconnection virtual power plant considering incentive demand response[J]. Acta energiae solaris sinica, 2023, 44(4): 349-358.
[6] 袁桂麗, 賈新潮, 陳少梁, 等. 虛擬電廠源-荷協(xié)調多目標優(yōu)化調度[J]. 太陽能學報, 2021, 42(5): 105-112.
YUAN G L, JIA X C, CHEN S L, et al. Multiobjective optimal dispatch considering source-load coordination for virtual power plant[J]. Acta energiae solaris sinica, 2021, 42(5): 105-112.
[7] 孫晶琪, 王愿, 郭曉慧, 等. 考慮環(huán)境外部性和風光出力不確定性的虛擬電廠運行優(yōu)化[J]. 電力系統(tǒng)自動化, 2022, 46(8): 50-59.
SUN J Q, WANG Y, GUO X H, et al. Optimal operation of virtual power plant considering environmental externality and output uncertainty of wind and photovoltaic power[J]. Automation of electric power systems, 2022, 46(8): 50-59.
[8] ZHONG W L, TZOUNAS G, LIU M Y, et al. On-line inertia estimation of Virtual Power Plants[J]. Electric power systems research, 2022, 212: 108336.
[9] SINGH K, ZAHEERUDDIN. Enhancement of frequency regulation in tidal turbine power plant using virtual inertia from" "capacitive" energy" "storage" "system[J]." Journal" "of energy storage, 2021, 35: 102332.
[10] LIN L, GUAN X, PENG Y, et al. Deep reinforcement learning for economic dispatch of virtual power plant in internet of energy[J]. IEEE internet of things journal, 2020, 7(7): 6288-6301.
[11] WANG Y, AI X, TAN Z F, et al. Interactive dispatch modes and bidding strategy of multiple virtual power plants based on demand response and game theory[J]. IEEE transactions on smart grid, 2016, 7(1): 510-519.
[12] DE CARVALHO BENTO G, BOUZA ALLENDE G, PEREIRA Y R L. A newton-like method for variable order vector optimization problems[J]. Journal of optimization theory and applications, 2018, 177(1): 201-221.
[13] ZHANG L R, XU J J, LIU Y, et al. Particle swarm optimization algorithm with multi-strategies for delay scheduling[J]. Neural processing letters, 2022, 54(5): 4563-4592.
[14] 劉俊峰, 王曉生, 盧俊菠, 等. 基于多主體博弈和強化學習的多微網系統(tǒng)協(xié)同優(yōu)化研究[J]. 電網技術, 2022, 46(7): 2722-2732.
LIU J F, WANG X S, LU J B, et al. Collaborative optimization of multi-microgrid system based on multi-agent game and reinforcement learning[J]. Power system technology, 2022, 46(7): 2722-2732.
[15] ZHANG B, HU W H, LI J H, et al. Dynamic energy conversion and management strategy for an integrated electricity and natural gas system with renewable energy: deep reinforcement learning approach[J]. Energy conversion and management, 2020, 220: 113063.
[16] 魯剛, 元博, 趙琮皓, 等. 計及系統(tǒng)慣量需求的發(fā)電容量市場定價方法[J]. 電力系統(tǒng)自動化, 2023, 47(14): 12-20.
LU G, YUAN B, ZHAO C H, et al. Pricing method for generation capacity market considering system inertia demand[J]. Automation of electric power systems,2023, 47(14): 12-20.
[17] CHEN P W, QI C C, CHEN X. Virtual inertia estimation method of DFIG-based wind farm with additional frequency control[J]. Journal of modern power systems and clean energy, 2021, 9(5): 1076-1087.
[18] 劉中建, 周明, 李昭輝, 等. 高比例新能源電力系統(tǒng)的慣量控制技術與慣量需求評估綜述[J]. 電力自動化設備, 2021, 41(12): 1-11, 53.
LIU Z J, ZHOU M, LI Z H, et al. Review of inertia control technology and requirement evaluation in renewable-dominant" "power" "system[J]." Electric" power" automation equipment, 2021, 41(12): 1-11, 53.
[19] 彭春華, 陳思畏, 徐佳璐, 等. 綜合能源系統(tǒng)混合時間尺度多目標強化學習低碳經濟調度[J]. 電網技術, 2022, 46(12): 4914-4923.
PENG C H, CHEN S W, XU J L, et al. Low carbon economic scheduling for integrated energy systems with mixed timescale amp; multi-objective reinforcement learning[J]. Power system technology, 2022, 46(12): 4914-4923.
[20] 胡丹爾, 彭勇剛, 韋巍, 等. 多時間尺度的配電網深度強化學習無功優(yōu)化策略[J]. 中國電機工程學報, 2022, 42(14): 5034-5044.
HU D E, PENG Y G, WEI W, et al. Multi-timescale deep reinforcement learning for reactive power optimization of distribution network[J]. Proceedings of the CSEE, 2022, 42(14): 5034-5044.
[21] 王蕓蕓, 馬志程, 周強, 等. 兼顧公平性的多能源合作博弈優(yōu)化調度[J]. 太陽能學報, 2022, 43(10): 482-492.
WANG Y Y, MA Z C, ZHOU Q, et al. Multi energy cooperative game optimal scheduling considering fairness[J]. Acta energiae solaris sinica, 2022, 43(10): 482-492.
[22] 孫慶凱, 王小君, 王怡, 等. 基于多智能體Nash-Q強化學習的綜合能源市場交易優(yōu)化決策[J]. 電力系統(tǒng)自動化, 2021, 45(16): 124-133.
SUN Q K, WANG X J, WANG Y, et al. Optimal trading decision-making for integrated energy market based on multi-agent Nash-Q reinforcement learning[J]. Automation of electric power systems, 2021, 45(16): 124-133.
NASH-Q REINFORCEMENT LEARNING SCHEDULING STRATEGY FOR VIRTUAL POWER PLANTS CONTAINING VIRTUAL INERTIA
Liu Dongqi,Qian Yiheng,Zhang Xi
(College of Electrical and Information Engineering, Changsha University of Technology, Changsha 410004, China)
Abstract:Currently, there is a lack of research on the problem of efficiently utilising distributed power sources that are widely connected to the grid. In this paper, by combining game theory and reinforcement learning, a Nash-Q reinforcement learning scheduling strategy with virtual inertia for virtual power plants is proposed to solve the problem of coordinated optimal scheduling of distributed power sources with high stochasticity and uncertainty. Firstly, a hybrid objective scheduling model of virtual power plant with integrated consideration of carbon emission, economy, output and inertia constraints is established, and a Nash equilibrium model is further constructed. Then, multi-intelligentsia are defined for the output of gas turbine unit, wind turbine unit, storage battery unit and carbon trading volume, and the state space, action space and reward function of multi-intelligence are constructed, and the state space, action space and reward function of the multi-intelligentsia are continuously learnt to update through Markov decision-making value function. Finally, the optimal scheduling policy for multiple time scales is output through online derivation. The results show that the Nash-Q reinforcement learning scheduling strategy improves the revenue by 9.7% and reduces the carbon emission by 13.6% compared with the traditional scheduling method, and effectively improves the inertia support capacity of the virtual power plant by using the virtual inertia of the storage battery packs, which achieves the low-carbon, high-efficiency, safe and economic and operation of the virtual power plant.
Keywords:distributed generation; virtual power plants; reinforcement learning; game theory; virtual inertia