周 荃
(國網(wǎng)江蘇省電力有限公司丹陽市供電分公司)
光伏系統(tǒng)在電壓管理中起到關(guān)鍵作用,其調(diào)控機制主要依賴于可變無功功率。光伏系統(tǒng)的無功功率與系統(tǒng)容量的關(guān)系遵循方程:
式中,Sinv表示光伏逆變器的總?cè)萘?;表示光伏逆變器當前的有功功率輸出?/p>
在配電網(wǎng)絡(luò)中,日內(nèi)實時無功電壓控制旨在通過協(xié)調(diào)無功調(diào)節(jié)裝置,在日前調(diào)度計劃的基礎(chǔ)上執(zhí)行更精細的短期調(diào)整。這種調(diào)整的目標是提升電壓穩(wěn)定性并減少網(wǎng)絡(luò)損耗:
式中,n表示節(jié)點的總數(shù);CLoss表示單位電力損失的成本;PLoss,i表示第i個節(jié)點或時間步的電力損失;Ca表示電壓偏差的成本系數(shù);m表示在每個節(jié)點或時間步考慮的電壓測量點的總數(shù);ΔUi,j表示第i個節(jié)點或時間步和第j個電壓測量點之間的電壓偏差。
此模型的約束條件包括:
1)電壓限制
式中,Umin表示電壓的最小允許值或下限;U表示當前或任一特定節(jié)點的電壓水平;Umax表示電壓的最大允許值或上限。
2)光伏功率范圍
3)光伏系統(tǒng)容量和輸出功率的關(guān)系
式中,Qi,PV表示第i個光伏逆變器的無功功率;Si,PV2表示第i個光伏逆變器的額定容量;Pi,PV表示第i個光伏逆變器的有功功率。
4)電力平衡方程,確保每個時刻發(fā)電量與負荷量相匹配
式中,PG,i、QG,i分別表示第i節(jié)點的有功發(fā)電和無功發(fā)電;PL,i、QL,i分別表示第i節(jié)點的有功負荷和無功負荷;Ui、Uj分別表示第i和j節(jié)點的電壓幅值;Gij、Bij表示第i節(jié)點和j節(jié)點之間的電導(dǎo)和電納;δij表示第i和j節(jié)點電壓相角的差值。
在配電網(wǎng)絡(luò)電壓控制領(lǐng)域,MADRL方法的融合展現(xiàn)出顯著的優(yōu)勢。深度強化學(xué)習(xí)(DRL)結(jié)合深度學(xué)習(xí)的數(shù)據(jù)識別與狀態(tài)感知能力和強化學(xué)習(xí)的決策制定優(yōu)勢,實現(xiàn)從策略空間的直接控制決策提取[2]。特別是在Actor-Critic(AC)框架下,深度策略梯度方法以其優(yōu)化策略的高效性在電網(wǎng)調(diào)度等領(lǐng)域受到重視。
多智能體系統(tǒng)(MAS)中,合作型智能體通過協(xié)調(diào)互動形成協(xié)同控制策略,提升系統(tǒng)整體效益。MADRL在離線階段通過數(shù)據(jù)訓(xùn)練智能體,以應(yīng)對在線執(zhí)行階段的實時決策挑戰(zhàn),有效處理配電網(wǎng)絡(luò)中分布式電源和負荷的不確定性問題[3]。
為解決DQN在高維問題處理上的局限性及DDPG算法的過高估計問題,本研究采用了改進型TD3算法。TD3適用于連續(xù)動作空間,采用Actor-Critic框架,高效解決無功電壓控制問題。它通過最小化損失函數(shù)Lθ來調(diào)整策略,有效優(yōu)化電網(wǎng)電壓控制策略。
Actor則根據(jù)狀態(tài)st輸出動作πφ(st),并依據(jù)critic的Q值更新策略φ。actor更新參數(shù)的策略梯度計算方法:
TD3算法通過引入裁剪雙Q學(xué)習(xí)、延遲策略更新和目標策略平滑正則化三種技術(shù)手段,有效應(yīng)對維度災(zāi)難和次優(yōu)解問題。具體而言,TD3采用兩套目標critic網(wǎng)絡(luò)Qθ1和Qθ2,計算更新目標值時選取較小者作為時間差分(TD)目標,從而降低過高估計的風(fēng)險。此外,在TD誤差較小時更新actor網(wǎng)絡(luò)參數(shù),減緩學(xué)習(xí)速率,避免過度適應(yīng)特定樣本。引入的策略平滑正則化技術(shù)通過向動作增加高斯噪音,有效平均目標值,增強算法的泛化能力。
在中心化訓(xùn)練分散式執(zhí)行(CTDE)框架下,TD3算法通過離線訓(xùn)練中的信息交換和集中式學(xué)習(xí)優(yōu)化多智能體決策。在線執(zhí)行階段,智能體依據(jù)局部觀測信息作決策,降低計算復(fù)雜度。TD3因此在處理電壓控制等復(fù)雜問題中顯示出卓越性能。
本研究將配電網(wǎng)無功電壓控制建模為分布式部分可觀測馬爾科夫決策過程(Dec-POMDP),適用于多智能體深度強化學(xué)習(xí)(MADRL)。由于,光伏逆變器被視為獨立的智能體,在通信限制下無法獲取完整狀態(tài)信息,因此Dec-POMDP比完全可觀測的馬爾科夫決策過程(MDP)更適用于MADRL,Dec-POMDP模型定義為元組M表示為:
式中,n為參與決策的智能體數(shù)量;S為狀態(tài)集,包括所有智能體的狀態(tài)信息如負荷的有功和無功、光伏逆變器的出力等;為聯(lián)合動作集,包括所有智能體的動作;T為狀態(tài)轉(zhuǎn)移概率函數(shù),描述智能體的聯(lián)合動作如何影響環(huán)境,從而確定下一狀態(tài)的概率;為聯(lián)合觀測信息集,包含每個智能體的局部量測信息;O為觀測概率函數(shù),描述智能體觀測到特定信息的概率;R為獎勵函數(shù),根據(jù)配電網(wǎng)無功電壓控制目標函數(shù)設(shè)計的即時獎勵函數(shù),反映了網(wǎng)損和電壓偏差。
配電網(wǎng)無功電壓控制的部分可觀測馬爾科夫決策模型中,智能體依據(jù)本地觀測數(shù)據(jù)和動作結(jié)果做出決策,旨在最大化網(wǎng)損與電壓偏差相關(guān)的獎勵。該模型利用潮流計算模擬配電網(wǎng)運行,考慮光伏出力和負荷不確定性,指導(dǎo)智能體在每個時間步實現(xiàn)最優(yōu)化決策[5]。Dec-POMDP模型的實施使智能體能夠在部分可觀測且動態(tài)變化的環(huán)境中有效學(xué)習(xí),從而提高配電網(wǎng)無功電壓控制的性能和效率。
本研究的仿真測試基于搭載AMD Ryzen7-5800H CPU和NVIDA RTX3050Ti GPU的硬件平臺,以改進版IEEE 33節(jié)點配電系統(tǒng)為測試案例。系統(tǒng)中第13、18、22、25、29和33號節(jié)點裝有1.5MW容量的分布式光伏裝置,如圖1所示?;鶞孰妷旱燃墳?2.66kV,根節(jié)點電壓標幺值設(shè)為1.00pu,安全運行電壓范圍為0.95pu至1.05pu。
圖1 基于深度強化學(xué)習(xí)優(yōu)化的IEEE-33節(jié)點配電系統(tǒng)結(jié)構(gòu)圖
在仿真環(huán)境設(shè)置中,本研究采用比利時電網(wǎng)的光伏數(shù)據(jù)和英國的負荷數(shù)據(jù),通過加入標準差為0.1的高斯擾動,有效模擬了實際環(huán)境中的波動。該仿真環(huán)境包含一年數(shù)據(jù),其中選取30天數(shù)據(jù)作為測試集,其余作為訓(xùn)練集。強化學(xué)習(xí)訓(xùn)練過程涵蓋400回合,每回合使用半天數(shù)據(jù),智能體每3min做出一次動作決策。算法參數(shù)配置為:批尺寸64,經(jīng)驗池容量5000,折扣因子0.99,步長240,學(xué)習(xí)率0.0001。該設(shè)置為模型訓(xùn)練提供了均衡的數(shù)據(jù)分布,有助于智能體更好地適應(yīng)并優(yōu)化電網(wǎng)運行狀態(tài)。
此仿真環(huán)境旨在測試深度強化學(xué)習(xí)方法在實際電網(wǎng)電壓控制中的應(yīng)用效果,考慮光伏發(fā)電和負荷波動性,模擬電網(wǎng)運行的不確定性,為控制策略評估提供測試平臺。
在訓(xùn)練效果分析中,實驗選取光伏出力最大的典型日進行驗證,如圖2所示,揭示了在09∶00~15∶00的高峰時間段內(nèi),光伏出力顯著高于負荷需求。此現(xiàn)象導(dǎo)致功率倒送和電壓越限問題,反映了模型中需進一步考慮這種波動性因素以確保電網(wǎng)的穩(wěn)定運行。
圖2 典型日配電網(wǎng)光伏發(fā)電與負荷變化曲線
經(jīng)MATD3策略優(yōu)化后,典型日測試顯示各節(jié)點電壓分布均處于安全運行范圍內(nèi)。曲線圖進一步證實MATD3在電壓控制方面的有效性,展示了優(yōu)化后策略的顯著控制效果,如圖3所示。
圖3 MATD3策略優(yōu)化下典型日配電網(wǎng)電壓波動分析
在本研究中,采用的MATD3策略與傳統(tǒng)Q-V下垂控制策略、無控制策略及MADDPG策略進行對比。結(jié)果顯示,MATD3在電壓控制和減少網(wǎng)損方面具有顯著優(yōu)勢。例如,MATD3策略在電壓控制方面實現(xiàn)了最小的平均電壓偏差0.0069pu,計算效率為36ms,優(yōu)于其他策略。結(jié)果見表1。
表1 深度強化學(xué)習(xí)在配電網(wǎng)電壓控制中的應(yīng)用效能比較
此外,MATD3策略在網(wǎng)損減少方面也展現(xiàn)出最佳性能,相較于下垂控制和MADDPG方法分別減小了5.29%和10.61%的網(wǎng)損,證明了其在配電網(wǎng)無功電壓控制領(lǐng)域的應(yīng)用效能和經(jīng)濟性(見圖4)。通過這些對比分析,MATD3策略被證實有效提升配電網(wǎng)的整體性能和穩(wěn)定性。
圖4 典型日內(nèi)各控制策略對配電網(wǎng)網(wǎng)損影響分析
通過在141個節(jié)點的配電系統(tǒng)進行仿真測試,成功驗證了所提方法的擴展性(見圖5)。使用Matpower 7.1參數(shù)庫和典型日的PV、負荷曲線數(shù)據(jù),確保了測試的準確性和一致性。
圖5 141節(jié)點配電系統(tǒng)在典型日的光伏發(fā)電與負荷動態(tài)曲線
測試結(jié)果表明,如表2所示,在增加智能體數(shù)量的情況下,模型成功適應(yīng)了更大的狀態(tài)和動作空間。采用CTDE框架有效避免維度災(zāi)難問題,確保算法在復(fù)雜環(huán)境下的有效收斂,同時維持優(yōu)秀的計算性能和電壓控制效果。
表2 智能體數(shù)量對配電網(wǎng)電壓控制性能影響的測試結(jié)果
在IEEE 33節(jié)點系統(tǒng)的測試中,模型面對50%光伏滲透率場景展現(xiàn)出強魯棒性。通過調(diào)整年度光伏最大出力與最大負荷之比,模型適應(yīng)了3種不同高滲透率場景。測試結(jié)果證實模型能有效應(yīng)對不同PV容量,顯示出卓越的適應(yīng)力和控制效果,如表3所示。
表3 光伏滲透率對電網(wǎng)電壓穩(wěn)定性和網(wǎng)損影響的測試分析
結(jié)果表明,隨著滲透率增加,逆變器調(diào)節(jié)容量的提升顯著增強了無功調(diào)節(jié)能力和系統(tǒng)電壓質(zhì)量。研究方法展現(xiàn)出對配電網(wǎng)環(huán)境的強泛化能力和魯棒性,即在光伏出力顯著增加的場景下,依然能有效實施高質(zhì)量的電壓控制策略。
本研究展示了MADRL在配電網(wǎng)電壓優(yōu)化控制中的有效性。通過實施改進型TD3算法,解決了DQN和DDPG算法在高維問題處理和Q值估計中的局限性。仿真測試顯示,該方法能顯著優(yōu)化電壓控制和降低網(wǎng)損,尤其在多變的配電網(wǎng)環(huán)境下表現(xiàn)出高效的適應(yīng)性和魯棒性。此研究不僅在理論上推進了MADRL技術(shù)在電力系統(tǒng)中的應(yīng)用,也為實際電網(wǎng)運行提供了有效的電壓控制策略,進而支持電力系統(tǒng)的可靠性和穩(wěn)定性,貢獻于電力工程領(lǐng)域的持續(xù)發(fā)展。