陳瀟瀟 周云海 張?zhí)┰?鄭培城
(三峽大學(xué) 電氣與新能源學(xué)院, 湖北 宜昌 443002)
整縣(市、區(qū))屋頂分布式光伏政策和雙碳戰(zhàn)略使得我國(guó)能源體系結(jié)構(gòu)逐步改變[1].國(guó)家能源局最新發(fā)布的數(shù)據(jù)顯示,截至2023年上半年,全國(guó)光伏發(fā)電新增并網(wǎng)容量為78.423 GW,其中分布式光伏(distributed photovoltaic,DPV)新增并網(wǎng)容量為40.963 GW,同比增長(zhǎng)108%[2].分布式光伏大規(guī)模接入配電網(wǎng)是發(fā)展趨勢(shì),但其接入改變了傳統(tǒng)配電網(wǎng)潮流單向的模式[3],分布式光伏出力的隨機(jī)性和波動(dòng)性,會(huì)導(dǎo)致系統(tǒng)產(chǎn)生潮流倒送、電壓波動(dòng)及越限等電能質(zhì)量問題,這嚴(yán)重影響配電網(wǎng)的安全穩(wěn)定運(yùn)行.
現(xiàn)有的配電網(wǎng)電壓控制策略可分兩類:無功控制和有功控制.無功電壓控制中,有載調(diào)壓器(on-line tap changer,OLTC)、投切電容器(switching capacitor,SC)等離散調(diào)節(jié)設(shè)備響應(yīng)速度慢,且頻繁動(dòng)作會(huì)影響其使用壽命[4].靜止無功補(bǔ)償器(static var compensator,SVC)、靜止無功發(fā)生器(static var generator,SVG)等連續(xù)調(diào)節(jié)設(shè)備響應(yīng)速度快,但安裝成本較高[5-6].有功電壓控制中,削減光伏有功出力不利于新能源的消納,而儲(chǔ)能的運(yùn)維費(fèi)用較高[7].基于光伏逆變器的無功調(diào)節(jié)是一種關(guān)注最為廣泛的調(diào)壓方式[8],該方式能高效利用光伏逆變器的容量,響應(yīng)速度快,且無需投資額外的設(shè)備.因此,本文選取光伏逆變器為電壓控制設(shè)備,利用深度強(qiáng)化學(xué)習(xí)算法對(duì)配電網(wǎng)中的各光伏逆變器進(jìn)行協(xié)同控制,實(shí)現(xiàn)對(duì)系統(tǒng)電壓的實(shí)時(shí)控制.
下垂控制未考慮各逆變器的協(xié)同配合,難以實(shí)現(xiàn)全局優(yōu)化控制;傳統(tǒng)基于優(yōu)化的方法[9],由于配電網(wǎng)精確的線路參數(shù)和拓?fù)浣Y(jié)構(gòu)難以獲取,無法建立精確的數(shù)學(xué)模型,且存在求解速度慢、難以實(shí)時(shí)控制等問題[10].強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)通過與環(huán)境的交互過程中學(xué)習(xí)最優(yōu)策略,采用馬爾科夫決策過程(Markov decision process,MDP)進(jìn)行建模.深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)進(jìn)一步融合深度學(xué)習(xí)的特征表示能力[11],具有更優(yōu)秀的決策能力.
DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)的技術(shù),近年在配電網(wǎng)電壓控制領(lǐng)域得到廣泛應(yīng)用.文獻(xiàn)[12]利用深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法控制系統(tǒng)中的SC,但該算法只能用于離散動(dòng)作.文獻(xiàn)[13]提出一種基于近端策略優(yōu)化(proximal policy optimization,PPO)的配電網(wǎng)控制策略,該算法可用于連續(xù)動(dòng)作,實(shí)驗(yàn)表明PPO 相較于DQN 有更好的控制效果,但傳統(tǒng)策略梯度的算法數(shù)據(jù)利用率較低,為此有研究人員將動(dòng)作-評(píng)論(actor-critic,AC)框架擴(kuò)展到深度策略梯度的方法中,形成深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法.文獻(xiàn)[14]提出一種雙時(shí)間尺度配電網(wǎng)無功優(yōu)化方法,采用DQN算法和DDPG 算法分別對(duì)SC、SVG 進(jìn)行控制,但從控制架構(gòu)來說依然屬于單智能體結(jié)構(gòu),仍是將多個(gè)調(diào)節(jié)設(shè)備視作單個(gè)智能體,依然無法實(shí)現(xiàn)各個(gè)調(diào)節(jié)設(shè)備之間的協(xié)同控制.為此,文獻(xiàn)[15]利用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法協(xié)同控制各調(diào)壓設(shè)備,取得良好效果.但DDPG 和MADDPG 算法都存在Q值過估計(jì)的問題,文獻(xiàn)[16]在DDPG 的基礎(chǔ)上提出雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3PG)算法,引入3 種技術(shù)手段,提升算法的訓(xùn)練效果.文獻(xiàn)[17]采用TD3PG 算法進(jìn)行配電網(wǎng)電壓控制,實(shí)驗(yàn)證明在無精確模型的情況下,該方法相比于傳統(tǒng)基于優(yōu)化的方法,控制效果更好、控制周期更短、魯棒性更強(qiáng),但該文采用的算法依然是單智能體結(jié)構(gòu).因此本文提出一種基于多智能體雙延遲深度確定性策略梯度(multiagent twin delayed deep deterministic policy gradient,MATD3PG) 的有源配電網(wǎng)實(shí)時(shí)電壓控制策略,其可以賦予各光伏逆變器獨(dú)立決策的能力,提升系統(tǒng)的靈活性.首先,闡述MATD3PG 算法的框架及原理;其次,構(gòu)建有源配電網(wǎng)實(shí)時(shí)電壓控制物理模型,并將該物理模型轉(zhuǎn)變?yōu)榉稚⒉糠挚捎^測(cè)的馬爾科夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP),通過MATD3PG 算法訓(xùn)練各智能體;最后,通過改進(jìn)的IEEE-33節(jié)點(diǎn)算例驗(yàn)證本文所提控制策略的有效性,并證明MATD3PG 相較于下垂控制和MADDPG,在配電網(wǎng)電壓控制問題上更有優(yōu)勢(shì).
RL 通過訓(xùn)練智能體(agent)與環(huán)境(environment)交互,強(qiáng)化學(xué)習(xí)模型中最關(guān)鍵的3個(gè)部分為:狀態(tài)(state),動(dòng)作(action),獎(jiǎng)勵(lì)(reward).一個(gè)經(jīng)典的RL過程可以視為:智能體觀察達(dá)到一個(gè)環(huán)境狀態(tài)s t,執(zhí)行一個(gè)動(dòng)作a t后,環(huán)境反饋給它一個(gè)獎(jiǎng)勵(lì)r t與新的狀態(tài)s t+1,然后智能體根據(jù)這個(gè)狀態(tài)執(zhí)行動(dòng)作a t+1,獲得r t+1與新的狀態(tài)s t+2……以此類推,最終形成一個(gè)軌跡e t=(s t,a t,r t,s t+1),也稱為馬爾科夫鏈(Markov Chain)[18].DRL 在RL 的基礎(chǔ)上又融合了深度學(xué)習(xí),具有更強(qiáng)的的特征表示能力、更好的高維度空間處理能力.
多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)是指在DRL 框架下,多個(gè)智能體同時(shí)學(xué)習(xí)和交互的方法[19],其算法框架如圖1所示.MADRL用于訓(xùn)練多個(gè)智能體在環(huán)境中進(jìn)行協(xié)作或競(jìng)爭(zhēng)的任務(wù),每個(gè)智能體都具有自主決策能力,智能體之間通過共享經(jīng)驗(yàn)、協(xié)同行動(dòng)來提高整個(gè)系統(tǒng)的性能.
圖1 多智能體深度強(qiáng)化學(xué)習(xí)框架
目前,多智能體深度強(qiáng)化學(xué)習(xí)方法可分為4類:獨(dú)立學(xué)習(xí)、獎(jiǎng)勵(lì)分配、學(xué)習(xí)交流和集中式訓(xùn)練-分散式執(zhí)行[20].本文的多智能體深度強(qiáng)化學(xué)習(xí)算法采用集中式訓(xùn)練-分散式執(zhí)行機(jī)制,該機(jī)制將actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)中的信息差異化,actor網(wǎng)絡(luò)僅有單個(gè)智能體的信息,而critic網(wǎng)絡(luò)包含全部智能體的信息.集中式訓(xùn)練時(shí),actor網(wǎng)絡(luò)和critic相互輔助學(xué)習(xí),訓(xùn)練得到集中式的critic網(wǎng)絡(luò);分散式執(zhí)行時(shí),利用訓(xùn)練好的critic網(wǎng)絡(luò),智能體僅需根據(jù)自身的局部觀測(cè)信息就能完成決策.這種設(shè)計(jì)避免隨智能體數(shù)量增長(zhǎng)而導(dǎo)致的維度災(zāi)問題,保證每個(gè)智能體環(huán)境的平穩(wěn)性,降低訓(xùn)練過程中的復(fù)雜度,從而提升訓(xùn)練效果.
TD3PG 和DDPG 都是采用AC 結(jié)構(gòu)、用于連續(xù)動(dòng)作空間的DRL算法,此類算法包含動(dòng)作網(wǎng)絡(luò)actor和評(píng)論網(wǎng)絡(luò)critic,actor負(fù)責(zé)根據(jù)當(dāng)前策略選擇動(dòng)作,而critic則負(fù)責(zé)評(píng)估當(dāng)前動(dòng)作策略的價(jià)值,兩個(gè)網(wǎng)絡(luò)相互協(xié)作,通過正反饋過程進(jìn)行更新,以優(yōu)化動(dòng)作策略和值函數(shù).critic網(wǎng)絡(luò)參數(shù)更新的方法為minLθ,Lθ見式(1);actor網(wǎng)絡(luò)參數(shù)更新的方法為式(2),采用策略梯度更新.隨著critic通過值函數(shù)評(píng)估的Q值越來越逼近目標(biāo)值,actor的動(dòng)作策略也趨于最優(yōu).
式中:θ為critic網(wǎng)絡(luò)參數(shù);φ為actor網(wǎng)絡(luò)參數(shù);r t為t時(shí)刻的獎(jiǎng)勵(lì)值;γ為折扣因子,通常為0.95~0.99;πφ(s t)為在狀態(tài)s t下actor采取的動(dòng)作;Qθ為價(jià)值函數(shù);r t+γQθ[s t+1,πφ(s t+1)]為t時(shí)刻的目標(biāo)Q值;Qθ(s t,a t)為t時(shí)刻的估計(jì)Q值;E為期望收益;E s~pπ為pπ狀態(tài)分布下的期望收益.
TD3PG 是對(duì)DDPG 進(jìn)行優(yōu)化的算法,主要包括以下3個(gè)優(yōu)化:
1)剪切雙Q 學(xué)習(xí)(Clipped Double Q-Learning)
原始的雙Q 學(xué)習(xí),使用一對(duì)actor和critic,即(πφ1,πφ2)和(Qθ1,Qθ2),其 中πφ1利 用Qθ1進(jìn) 行 優(yōu)化,πφ2利用Qθ2進(jìn)行優(yōu)化.由于πφ1相對(duì)于Qθ1是最優(yōu)的,因此在Qθ1的更新中使用獨(dú)立的估計(jì)Q值可以避免actor動(dòng)作策略更新帶來的偏差.然而,由于它們?cè)谟?xùn)練過程中使用了相同的經(jīng)驗(yàn)池,critic并非完全獨(dú)立.因此,對(duì)于某些狀態(tài)s,會(huì)出現(xiàn)Qθ1[s,πφ(s)]>Qθ2[s,πφ(s)]的情況,因?yàn)镼θ1[s,πφ(s)]通常會(huì)高估真實(shí)值,并且在某些狀態(tài)下,這種高估會(huì)進(jìn)一步加大.因此,TD3PG 算法采用同一狀態(tài)下Qθ1,Qθ2中較小的進(jìn)行目標(biāo)更新,其更新公式如下:
式中:y t為目標(biāo)值函數(shù);θ'n為目標(biāo)critic網(wǎng)絡(luò)參數(shù);Qθ'為目標(biāo)價(jià)值函數(shù).n
2)目標(biāo)網(wǎng)絡(luò)及延遲策略更新(Target Networks and Delayed Policy Updates)
目標(biāo)網(wǎng)絡(luò)的引入提升了智能體訓(xùn)練過程中的穩(wěn)定性,但當(dāng)critic對(duì)Q值估計(jì)不精確時(shí),actor會(huì)產(chǎn)生錯(cuò)誤的動(dòng)作,該動(dòng)作會(huì)存放至經(jīng)驗(yàn)池,由于是從經(jīng)驗(yàn)池中隨機(jī)采取一批樣本用于critic網(wǎng)絡(luò)更新,導(dǎo)致critic可能又產(chǎn)生錯(cuò)誤的Q值,形成惡性循環(huán).為此,TD3PG 算法延遲了actor的更新,令actor在critic估值偏差較低時(shí)再進(jìn)行更新,提高了訓(xùn)練的穩(wěn)定性.同時(shí)改進(jìn)了目標(biāo)critic網(wǎng)絡(luò)更新,引入了軟更新因子τ,因此也稱為軟更新,其更新公式如下:
3)目標(biāo)策略平滑正則化(Target Policy Smoothing Regularization)
確定性策略的一個(gè)問題是,它們可能會(huì)過度擬合Q值估計(jì)中的峰值,在更新critic時(shí),使用確定性策略的訓(xùn)練目標(biāo)極易受到函數(shù)近似誤差的影響,從而增加目標(biāo)的方差.為此,TD3PG 算法通過在目標(biāo)動(dòng)作加入小批量高斯噪音求平均值來減少目標(biāo)值的方差,即在式(3)基礎(chǔ)上加入噪音:
綜上,TD3PG 算法解決了DDPG 算法訓(xùn)練過程中Q值過估計(jì)的問題,提高了訓(xùn)練效率,提升了訓(xùn)練穩(wěn)定性,大大提升了DDPG 在連續(xù)動(dòng)作空間進(jìn)行控制的性能,TD3PG 算法訓(xùn)練流程如圖2所示.本文所提的MATD3PG 算法是TD3PG 在多智能體深度強(qiáng)化學(xué)習(xí)框架下的擴(kuò)展算法,相對(duì)于MADDPG 可以更有效地解決環(huán)境中多個(gè)智能體交互的問題.
圖2 TD3PG 算法訓(xùn)練流程
因?yàn)橄鳒p光伏有功出力,會(huì)影響新能源的消納,這與我國(guó)整縣(市、區(qū))屋頂分布式光伏政策不相符,所以本文僅調(diào)節(jié)其無功出力,光伏有功仍以最大功率發(fā)電.光伏逆變器可調(diào)無功功率與光伏有功出力、光伏逆變器容量的關(guān)系為:
光伏逆變器額定容量通常為額定有功的1.0~1.1倍[21],這意味著當(dāng)并網(wǎng)有功輸出達(dá)到額定值時(shí),光伏逆變器仍然具有可調(diào)無功容量,并且其無功可調(diào)功率會(huì)隨著光伏有功出力動(dòng)態(tài)變化.光伏逆變器有功-無功容量變化關(guān)系如圖3所示.
圖3 光伏逆變器有功-無功容量變化關(guān)系
A點(diǎn)為t1時(shí)刻逆變器有功功率輸出值,此時(shí)逆變器無功調(diào)節(jié)范圍為[-,];當(dāng)逆變器有功功率輸出值減少至B點(diǎn)時(shí),逆變器無功調(diào)節(jié)范圍增加至[-,];夜間光伏有功輸出為0,可調(diào)無功容量數(shù)值就等于逆變器容量數(shù)值,可見其無功調(diào)節(jié)能力極為可觀.
有源配電網(wǎng)實(shí)時(shí)電壓控制通過協(xié)調(diào)控制各光伏逆變器,以抑制系統(tǒng)電壓波動(dòng)并降低網(wǎng)損,達(dá)到改善電能質(zhì)量的目的,目標(biāo)函數(shù)如下:
式中:T為一日的控制周期數(shù);C u為電壓偏差附加成本系數(shù);Udev,t為第t個(gè)控制周期內(nèi)系統(tǒng)平均節(jié)點(diǎn)電壓偏差量;Closs為網(wǎng)損附加成本系數(shù);Ploss,t為第t個(gè)控制周期的系統(tǒng)網(wǎng)損;U i為節(jié)點(diǎn)i的電壓;Uref為基準(zhǔn)電壓;n為配電網(wǎng)節(jié)點(diǎn)數(shù).
約束條件如下:
由于配電網(wǎng)的精確模型參數(shù)難以獲取,且光伏出力的快速波動(dòng)性對(duì)控制的實(shí)時(shí)性提出了較高要求,傳統(tǒng)基于優(yōu)化的方法已無法適用于當(dāng)前控制場(chǎng)景.而MADRL能夠有效滿足上述要求,能做到無模型數(shù)據(jù)驅(qū)動(dòng)和實(shí)時(shí)控制.由于現(xiàn)實(shí)配電網(wǎng)環(huán)境受通訊條件限制,智能體只能觀測(cè)到局部的環(huán)境狀態(tài),不再適合采用MDP進(jìn)行建模[22],因此本文將有源配電網(wǎng)電壓實(shí)時(shí)電壓控制問題建模為Dec-POMDP,將各光伏逆變器當(dāng)作MADRL 中的智能體,智能體聯(lián)合動(dòng)作的環(huán)境為現(xiàn)實(shí)配電網(wǎng).
本文的Dec-POMDP 由元組{S,A,O,r,T,γ}組成,其中,S為狀態(tài)集,A為聯(lián)合動(dòng)作集,O為聯(lián)合觀測(cè)集,r為獎(jiǎng)勵(lì)函數(shù),T為狀態(tài)轉(zhuǎn)移概率函數(shù),γ為折扣因子.具體含義如下.
1)狀態(tài)集S
狀態(tài)集S為環(huán)境內(nèi)所有智能體狀態(tài)的集合,S t∈T∈S,S t由各個(gè)智能體t時(shí)刻所處的狀態(tài)s n,t組成,本文中s n,t是指包括t時(shí)刻智能體n所在區(qū)域的所有節(jié)點(diǎn)特征量,如負(fù)荷的有功和無功出力、光伏有功出力以及(t-1)時(shí)刻光伏逆變器的無功功率、關(guān)聯(lián)節(jié)點(diǎn)電壓.
2)聯(lián)合動(dòng)作集A
聯(lián)合動(dòng)作集A為全部智能體動(dòng)作的集合,A t∈T∈A,聯(lián)合動(dòng)作A t由各智能體t時(shí)刻的個(gè)體動(dòng)作a n,t組成,本文中a n,t為t時(shí)刻該光伏逆變器的無功出力.
3)聯(lián)合觀測(cè)集O
聯(lián)合觀測(cè)集O為所有智能體局部觀測(cè)的集合,O t∈T∈O,聯(lián)合觀測(cè)O t由各智能體t時(shí)刻的局部觀測(cè)o n,t組成,本文中o n,t為t時(shí)刻智能體n所在區(qū)域內(nèi)的所有節(jié)點(diǎn)特征量.
4)獎(jiǎng)勵(lì)函數(shù)r
本文中各智能體為完全合作關(guān)系,通過協(xié)同動(dòng)作最小化系統(tǒng)電壓偏移和網(wǎng)損,每個(gè)智能體的學(xué)習(xí)目標(biāo)是全局最優(yōu)控制策略以獲得最大獎(jiǎng)勵(lì),因此采用全局獎(jiǎng)勵(lì),根據(jù)式(8)設(shè)定實(shí)時(shí)獎(jiǎng)勵(lì)函數(shù):
5)狀態(tài)轉(zhuǎn)移概率函數(shù)T
T(S t+1,S t,A t)表示在狀態(tài)S t下,多智能體采取聯(lián)合動(dòng)作A t后,系統(tǒng)轉(zhuǎn)移到S t+1的概率.狀態(tài)轉(zhuǎn)移概率函數(shù)考慮了有源配電網(wǎng)環(huán)境中光伏出力的不確定性,通過了解狀態(tài)轉(zhuǎn)移的概率分布,可以更有效地評(píng)估不同動(dòng)作對(duì)于下一狀態(tài)的影響,從而為智能體的決策提供指導(dǎo),以尋找最優(yōu)的動(dòng)作策略.
基于MATD3PG 的有源配電網(wǎng)實(shí)時(shí)電壓控制策略示意圖如圖4所示.
圖4 基于MATD3PG 的有源配電網(wǎng)實(shí)時(shí)電壓控制策略
本文通過潮流環(huán)境模擬實(shí)際配電網(wǎng)的運(yùn)行環(huán)境.離線訓(xùn)練階段,各智能體在仿真環(huán)境學(xué)習(xí)集中式的critic網(wǎng)絡(luò)即最優(yōu)控制策略;由于采用了集中式訓(xùn)練-分散式執(zhí)行機(jī)制,在線實(shí)時(shí)控制階段,各智能體僅需通過局部的觀測(cè)信息和已經(jīng)訓(xùn)練完成的critic網(wǎng)絡(luò)進(jìn)行決策,并且此時(shí)critic網(wǎng)絡(luò)依然能接受配電網(wǎng)環(huán)境反饋的狀態(tài)和獎(jiǎng)勵(lì)信息,可以在訓(xùn)練好的critic網(wǎng)絡(luò)基礎(chǔ)上繼續(xù)實(shí)時(shí)更新.該控制策略既能使各智能體協(xié)同動(dòng)作,提升系統(tǒng)的靈活性,又可以保證控制的魯棒性和全局最優(yōu),取得良好的控制效果.
本文算例仿真測(cè)試于硬件平臺(tái)Intel(R)Core(TM)i5-12500H CPU,Intel(R)Iris(R)Xe Graphics GPU;軟件系統(tǒng)為Win10;強(qiáng)化學(xué)習(xí)算法均基于Python 3.9.0的Pytorch 1.8.1神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn).算例基于IEEE-33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)進(jìn)行改進(jìn),網(wǎng)絡(luò)參數(shù)來自于Matpower7.1數(shù)據(jù)庫(kù)[23],在節(jié)點(diǎn)13、18、22、25、29、33上安裝逆變器容量為1.5 MW 的分布
式光伏,改進(jìn)后的系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖5所示.
圖5 改進(jìn)后的IEEE-33節(jié)點(diǎn)系統(tǒng)拓?fù)浣Y(jié)構(gòu)
設(shè)置根節(jié)點(diǎn)電壓標(biāo)幺值為1.00 p.u.,安全運(yùn)行電壓為0.95~1.05 p.u.,配電網(wǎng)實(shí)時(shí)電壓控制間隔為3 min,控制周期數(shù)為480.光伏和負(fù)荷數(shù)據(jù)均來源于Elia集團(tuán)(比利時(shí)電網(wǎng)運(yùn)營(yíng)商)公開歷史數(shù)據(jù)[24],數(shù)據(jù)集為2022年整年數(shù)據(jù),原始數(shù)據(jù)的時(shí)間分辨率為15 min(96個(gè)點(diǎn)),將數(shù)據(jù)按與配電網(wǎng)實(shí)時(shí)電壓控制間隔(3 min)一致的時(shí)間分辨率(480個(gè)點(diǎn))進(jìn)行插值,其中每個(gè)季節(jié)選取7 d(共28 d)為測(cè)試集,其余則作為訓(xùn)練集.
強(qiáng)化學(xué)習(xí)算法中,實(shí)時(shí)獎(jiǎng)勵(lì)函數(shù)式(13)中電壓偏差附加成本系數(shù)C u設(shè)為10$/p.u.,網(wǎng)損附加成本系數(shù)Closs設(shè)為0.05$/MW;在目標(biāo)動(dòng)作加入的小批量高斯噪音式(6)的標(biāo)準(zhǔn)差σ為0.1,截?cái)鄥^(qū)間參數(shù)c為1.強(qiáng)化學(xué)習(xí)環(huán)境中,將每個(gè)光伏逆變器都單獨(dú)作為智能體,智能體動(dòng)作時(shí)間間隔與配電網(wǎng)實(shí)時(shí)電壓控制間隔一致,智能體訓(xùn)練步長(zhǎng)為240,即每次不重復(fù)截取240個(gè)點(diǎn)(半天)的數(shù)據(jù)進(jìn)行訓(xùn)練,240個(gè)點(diǎn)的數(shù)據(jù)訓(xùn)練完成即為一個(gè)訓(xùn)練回合,本文訓(xùn)練回合數(shù)為400.為了模擬現(xiàn)實(shí)配電網(wǎng)的不確定性,在每個(gè)訓(xùn)練回合開始時(shí)都會(huì)對(duì)系統(tǒng)初始化狀態(tài)進(jìn)行隨機(jī)處理,其余算法參數(shù)設(shè)置見表1.
表1 強(qiáng)化學(xué)習(xí)算法參數(shù)設(shè)置
為了驗(yàn)證本文所提MATD3PG 算法的進(jìn)步性和有效性,將該算法與以下3種方案進(jìn)行對(duì)比:
1)無控制,即系統(tǒng)內(nèi)所有光伏逆變器的無功出力為0;
2)傳統(tǒng)Q(V)下垂控制策略[7];
3)MADRL中的經(jīng)典算法MADDPG[15].
由于方案1和方案2不存在離線訓(xùn)練過程,所以只進(jìn)行方案3和本文所提MATD3PG 算法的對(duì)比分析.在相同的改進(jìn)后IEEE-33 節(jié)點(diǎn)系統(tǒng)仿真環(huán)境下進(jìn)行訓(xùn)練,上述兩種算法訓(xùn)練的平均累積獎(jiǎng)勵(lì)如圖6所示,實(shí)線為平滑后的曲線,背影部分為原始的振蕩曲線.
圖6 MADDPG 和MATD3PG 算法的訓(xùn)練結(jié)果
從圖6可以看出,在訓(xùn)練初期,由于智能體采取隨機(jī)動(dòng)作探索環(huán)境,其獎(jiǎng)勵(lì)變化幅度較大,但隨著經(jīng)驗(yàn)的積累,各智能體逐漸學(xué)得最優(yōu)策略,體現(xiàn)出的就是圖像開始收斂,后期獎(jiǎng)勵(lì)值在小幅度變化,MADDPG 算法和MATD3PG 算法的最終獎(jiǎng)勵(lì)值分別為-0.087 9、-0.079 7.本文提出的MATD3PG 算法訓(xùn)練過程中的平均累積獎(jiǎng)勵(lì)相比MADDPG 提升了9.33%,且波動(dòng)性更小.這是由于MATD3PG 采用3種技術(shù)手段解決訓(xùn)練過程中Q值過估計(jì)的問題,提升算法的訓(xùn)練效率,取得了更好的訓(xùn)練效果.
將上述訓(xùn)練好的模型用于測(cè)試集進(jìn)行對(duì)比分析,控制指標(biāo)有電壓偏差、網(wǎng)損、平均求解時(shí)間.不同控制策略的性能參數(shù)見表2.
表2 測(cè)試集下不同控制策略的性能參數(shù)
由表2可知,相較于下垂控制、MADDPG,本文所提MATD3PG 算法具有最佳的穩(wěn)壓降損性能.可以看到,無控制時(shí)的系統(tǒng)平均電壓偏差較大,經(jīng)下垂控制、MADDPG、MATD3PG 控制后,電壓波動(dòng)得到抑制,平均電壓偏差分別降低了58.22%、62.91%、65.26%,這證明僅利用光伏逆變器也能有效控制電壓波動(dòng);同時(shí)MATD3PG 算法的標(biāo)準(zhǔn)差最小,說明其能更穩(wěn)定地抑制電壓.由于無控制時(shí)光伏逆變器無功出力為0,節(jié)點(diǎn)間的無功流動(dòng)較少,導(dǎo)致網(wǎng)損較低,在光伏逆變器調(diào)節(jié)無功后,會(huì)增加系統(tǒng)的網(wǎng)損,但MATD3PG 算法可以在更為有效穩(wěn)定電壓的同時(shí),具備較低的網(wǎng)損,其網(wǎng)損平均值相比下垂控制和MADDPG,分別降低了15.55%、6.73%,其網(wǎng)損標(biāo)準(zhǔn)差也小于二者.由于下垂控制需要通過傳統(tǒng)物理模型求解,其求解時(shí)間較慢,而強(qiáng)化學(xué)習(xí)算法僅需通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)就能完成決策,因此其求解時(shí)間較短,且MATD3PG 相比于MADDPG 平均求解時(shí)間更短,能夠滿足在線電壓控制的要求.
典型日系統(tǒng)PV 出力和負(fù)荷曲線如圖7所示,該典型日的光伏滲透率為240.68%,滲透率采用功率滲透率的計(jì)算方法[25](即給定區(qū)域內(nèi),所有分布式光伏發(fā)電功率與同一時(shí)刻該區(qū)域負(fù)荷之比的最大值),可以看出9:00~16:00為光伏出力的高峰期,該段的光伏出力明顯高于負(fù)荷需求,系統(tǒng)極易發(fā)生功率倒流、電壓越限.
圖7 典型日系統(tǒng)的PV 出力和負(fù)荷曲線
未經(jīng)控制的典型日各節(jié)點(diǎn)電壓分布箱線圖如圖8所示,可以看出在高滲透率分布式光伏接入的配電網(wǎng)中,眾多節(jié)點(diǎn)都出現(xiàn)了電壓越限,這嚴(yán)重影響了配電網(wǎng)的安全穩(wěn)定運(yùn)行.MATD3PG 控制策略下的典型日各節(jié)點(diǎn)電壓分布箱線圖如圖9 所示.圖中表明MATD3PG 控制策略取得了良好的電壓控制效果,經(jīng)此策略控制后全天各節(jié)點(diǎn)電壓均處于安全范圍內(nèi).
圖8 未經(jīng)控制的典型日各節(jié)點(diǎn)電壓分布
圖9 MATD3PG 控制策略下的典型日各節(jié)點(diǎn)電壓分布
圖8表明,當(dāng)日系統(tǒng)出現(xiàn)電壓越限最為嚴(yán)重的節(jié)點(diǎn)為節(jié)點(diǎn)18,因此選擇節(jié)點(diǎn)18作為典型節(jié)點(diǎn)進(jìn)行本文所提方案與方案1~3的對(duì)比分析.典型日下不同控制策略下的節(jié)點(diǎn)18電壓分布如圖10所示,其中虛線表示基準(zhǔn)電壓和安全運(yùn)行電壓上下限.圖中表明節(jié)點(diǎn)18在10:00~15:00均處于電壓越上限狀態(tài);在夜間均處于電壓越下限狀態(tài),整體波動(dòng)較大.雖然方案2和方案3也能將節(jié)點(diǎn)電壓控制在安全范圍內(nèi),但從控制效果來看,基于MATD3PG 的控制策略相較于方案2和方案3,能更為有效地抑制電壓波動(dòng),更好地改善電能質(zhì)量.
圖10 典型日不同控制策略的節(jié)點(diǎn)18電壓分布
典型日不同控制策略的系統(tǒng)總網(wǎng)損如圖11 所示.圖中表明本文所提MATD3PG 相比于下垂控制和MADDPG,網(wǎng)損分別減少了20.10%、8.39%,本文所提方法網(wǎng)損最低.這是因?yàn)镸ATD3PG 能更高效地協(xié)調(diào)各光伏逆變器進(jìn)行電壓控制,減少系統(tǒng)中的無功流動(dòng),從而最大限度降低了系統(tǒng)網(wǎng)損.
圖11 典型日不同控制策略的系統(tǒng)總網(wǎng)損
本文提出一種基于MATD3PG 的有源配電網(wǎng)實(shí)時(shí)電壓控制策略,能夠?qū)崿F(xiàn)各光伏逆變器的協(xié)同控制,有效解決有源配電網(wǎng)的電壓越限問題,提升配電網(wǎng)運(yùn)行的穩(wěn)定性.主要結(jié)論如下:
1)相比傳統(tǒng)的優(yōu)化算法,所提策略無需精確的配電網(wǎng)模型,僅采用光伏逆變器就能夠?qū)㈦妷嚎刂圃诎踩秶鷥?nèi),且不會(huì)影響光伏消納,具有較好的經(jīng)濟(jì)性.
2)強(qiáng)化學(xué)習(xí)算法采用基于集中式訓(xùn)練-分散式執(zhí)行機(jī)制,解決傳統(tǒng)強(qiáng)化學(xué)習(xí)算法訓(xùn)練過程中出現(xiàn)收斂困難的問題,降低訓(xùn)練的復(fù)雜度,提升訓(xùn)練效果,并顯著提高在線實(shí)時(shí)決策的效率.
3)將有源配電網(wǎng)實(shí)時(shí)電壓控制物理模型轉(zhuǎn)化為Dec-POMDP,將各光伏逆變器作為強(qiáng)化學(xué)習(xí)環(huán)境中的智能體,與環(huán)境交互的過程中學(xué)習(xí)最優(yōu)控制策略,能更好地應(yīng)對(duì)實(shí)際配電網(wǎng)中的不確定性,可以在系統(tǒng)不具備完善通信設(shè)備的條件下,根據(jù)系統(tǒng)最新狀態(tài)進(jìn)行實(shí)時(shí)電壓控制,具有良好的控制時(shí)效性.
4)經(jīng)改進(jìn)的IEEE-33 節(jié)點(diǎn)算例驗(yàn)證,相較于下垂控制和MADDPG,MATD3PG 能夠更有效地抑制電壓波動(dòng)、降低系統(tǒng)網(wǎng)損.同時(shí)MATD3PG 算法的求解速度更快,具備良好的實(shí)時(shí)電壓控制性能.