亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多智能體深度強化學(xué)習(xí)的實時配電網(wǎng)電壓優(yōu)化控制方法研究

2024-05-03 08:33:20周荃

電器工業(yè) 2024年5期

關(guān)鍵詞：控制策略配電網(wǎng)智能

周荃

（國網(wǎng)江蘇省電力有限公司丹陽市供電分公司）

1 光伏系統(tǒng)的動態(tài)電壓調(diào)控機制

1.1 光伏系統(tǒng)在電壓管理中的作用原理

光伏系統(tǒng)在電壓管理中起到關(guān)鍵作用，其調(diào)控機制主要依賴于可變無功功率。光伏系統(tǒng)的無功功率與系統(tǒng)容量的關(guān)系遵循方程：

式中，Sinv表示光伏逆變器的總?cè)萘?；表示光伏逆變器當前的有功功率輸出?/p>

1.2 電網(wǎng)內(nèi)集成分布式能源的電壓管理與優(yōu)化模型

在配電網(wǎng)絡(luò)中，日內(nèi)實時無功電壓控制旨在通過協(xié)調(diào)無功調(diào)節(jié)裝置，在日前調(diào)度計劃的基礎(chǔ)上執(zhí)行更精細的短期調(diào)整。這種調(diào)整的目標是提升電壓穩(wěn)定性并減少網(wǎng)絡(luò)損耗：

式中，n表示節(jié)點的總數(shù)；CLoss表示單位電力損失的成本；PLoss,i表示第i個節(jié)點或時間步的電力損失；Ca表示電壓偏差的成本系數(shù)；m表示在每個節(jié)點或時間步考慮的電壓測量點的總數(shù)；ΔUi,j表示第i個節(jié)點或時間步和第j個電壓測量點之間的電壓偏差。

此模型的約束條件包括：

1）電壓限制

式中，Umin表示電壓的最小允許值或下限；U表示當前或任一特定節(jié)點的電壓水平；Umax表示電壓的最大允許值或上限。

2）光伏功率范圍

3）光伏系統(tǒng)容量和輸出功率的關(guān)系

式中，Qi,PV表示第i個光伏逆變器的無功功率；Si,PV2表示第i個光伏逆變器的額定容量；Pi,PV表示第i個光伏逆變器的有功功率。

4）電力平衡方程，確保每個時刻發(fā)電量與負荷量相匹配

式中，PG,i、QG,i分別表示第i節(jié)點的有功發(fā)電和無功發(fā)電；PL,i、QL,i分別表示第i節(jié)點的有功負荷和無功負荷；Ui、Uj分別表示第i和j節(jié)點的電壓幅值；Gij、Bij表示第i節(jié)點和j節(jié)點之間的電導(dǎo)和電納；δij表示第i和j節(jié)點電壓相角的差值。

2 配電網(wǎng)絡(luò)電壓控制的多智能體深度強化學(xué)習(xí)方法

2.1 多智能體深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合

在配電網(wǎng)絡(luò)電壓控制領(lǐng)域，MADRL方法的融合展現(xiàn)出顯著的優(yōu)勢。深度強化學(xué)習(xí)（DRL）結(jié)合深度學(xué)習(xí)的數(shù)據(jù)識別與狀態(tài)感知能力和強化學(xué)習(xí)的決策制定優(yōu)勢，實現(xiàn)從策略空間的直接控制決策提取[2]。特別是在Actor-Critic（AC）框架下，深度策略梯度方法以其優(yōu)化策略的高效性在電網(wǎng)調(diào)度等領(lǐng)域受到重視。

多智能體系統(tǒng)（MAS）中，合作型智能體通過協(xié)調(diào)互動形成協(xié)同控制策略，提升系統(tǒng)整體效益。MADRL在離線階段通過數(shù)據(jù)訓(xùn)練智能體，以應(yīng)對在線執(zhí)行階段的實時決策挑戰(zhàn)，有效處理配電網(wǎng)絡(luò)中分布式電源和負荷的不確定性問題[3]。

2.2 配電網(wǎng)電壓控制中的雙延遲深度確定性策略梯度算法

為解決DQN在高維問題處理上的局限性及DDPG算法的過高估計問題，本研究采用了改進型TD3算法。TD3適用于連續(xù)動作空間，采用Actor-Critic框架，高效解決無功電壓控制問題。它通過最小化損失函數(shù)Lθ來調(diào)整策略，有效優(yōu)化電網(wǎng)電壓控制策略。

Actor則根據(jù)狀態(tài)st輸出動作πφ(st)，并依據(jù)critic的Q值更新策略φ。actor更新參數(shù)的策略梯度計算方法：

TD3算法通過引入裁剪雙Q學(xué)習(xí)、延遲策略更新和目標策略平滑正則化三種技術(shù)手段，有效應(yīng)對維度災(zāi)難和次優(yōu)解問題。具體而言，TD3采用兩套目標critic網(wǎng)絡(luò)Qθ1和Qθ2，計算更新目標值時選取較小者作為時間差分（TD）目標，從而降低過高估計的風(fēng)險。此外，在TD誤差較小時更新actor網(wǎng)絡(luò)參數(shù)，減緩學(xué)習(xí)速率，避免過度適應(yīng)特定樣本。引入的策略平滑正則化技術(shù)通過向動作增加高斯噪音，有效平均目標值，增強算法的泛化能力。

在中心化訓(xùn)練分散式執(zhí)行（CTDE）框架下，TD3算法通過離線訓(xùn)練中的信息交換和集中式學(xué)習(xí)優(yōu)化多智能體決策。在線執(zhí)行階段，智能體依據(jù)局部觀測信息作決策，降低計算復(fù)雜度。TD3因此在處理電壓控制等復(fù)雜問題中顯示出卓越性能。

2.3 配電網(wǎng)無功電壓控制的部分可觀測馬爾科夫決策模型

本研究將配電網(wǎng)無功電壓控制建模為分布式部分可觀測馬爾科夫決策過程（Dec-POMDP），適用于多智能體深度強化學(xué)習(xí)（MADRL）。由于，光伏逆變器被視為獨立的智能體，在通信限制下無法獲取完整狀態(tài)信息，因此Dec-POMDP比完全可觀測的馬爾科夫決策過程（MDP）更適用于MADRL，Dec-POMDP模型定義為元組M表示為：

式中，n為參與決策的智能體數(shù)量；S為狀態(tài)集，包括所有智能體的狀態(tài)信息如負荷的有功和無功、光伏逆變器的出力等；為聯(lián)合動作集，包括所有智能體的動作；T為狀態(tài)轉(zhuǎn)移概率函數(shù)，描述智能體的聯(lián)合動作如何影響環(huán)境，從而確定下一狀態(tài)的概率；為聯(lián)合觀測信息集，包含每個智能體的局部量測信息；O為觀測概率函數(shù)，描述智能體觀測到特定信息的概率；R為獎勵函數(shù)，根據(jù)配電網(wǎng)無功電壓控制目標函數(shù)設(shè)計的即時獎勵函數(shù)，反映了網(wǎng)損和電壓偏差。

配電網(wǎng)無功電壓控制的部分可觀測馬爾科夫決策模型中，智能體依據(jù)本地觀測數(shù)據(jù)和動作結(jié)果做出決策，旨在最大化網(wǎng)損與電壓偏差相關(guān)的獎勵。該模型利用潮流計算模擬配電網(wǎng)運行，考慮光伏出力和負荷不確定性，指導(dǎo)智能體在每個時間步實現(xiàn)最優(yōu)化決策[5]。Dec-POMDP模型的實施使智能體能夠在部分可觀測且動態(tài)變化的環(huán)境中有效學(xué)習(xí)，從而提高配電網(wǎng)無功電壓控制的性能和效率。

3 算例仿真與分析

3.1 算例介紹和算法參數(shù)配置

本研究的仿真測試基于搭載AMD Ryzen7-5800H CPU和NVIDA RTX3050Ti GPU的硬件平臺，以改進版IEEE 33節(jié)點配電系統(tǒng)為測試案例。系統(tǒng)中第13、18、22、25、29和33號節(jié)點裝有1.5MW容量的分布式光伏裝置，如圖1所示?；鶞孰妷旱燃墳?2.66kV，根節(jié)點電壓標幺值設(shè)為1.00pu，安全運行電壓范圍為0.95pu至1.05pu。

圖1 基于深度強化學(xué)習(xí)優(yōu)化的IEEE-33節(jié)點配電系統(tǒng)結(jié)構(gòu)圖

在仿真環(huán)境設(shè)置中，本研究采用比利時電網(wǎng)的光伏數(shù)據(jù)和英國的負荷數(shù)據(jù)，通過加入標準差為0.1的高斯擾動，有效模擬了實際環(huán)境中的波動。該仿真環(huán)境包含一年數(shù)據(jù)，其中選取30天數(shù)據(jù)作為測試集，其余作為訓(xùn)練集。強化學(xué)習(xí)訓(xùn)練過程涵蓋400回合，每回合使用半天數(shù)據(jù)，智能體每3min做出一次動作決策。算法參數(shù)配置為：批尺寸64，經(jīng)驗池容量5000，折扣因子0.99，步長240，學(xué)習(xí)率0.0001。該設(shè)置為模型訓(xùn)練提供了均衡的數(shù)據(jù)分布，有助于智能體更好地適應(yīng)并優(yōu)化電網(wǎng)運行狀態(tài)。

此仿真環(huán)境旨在測試深度強化學(xué)習(xí)方法在實際電網(wǎng)電壓控制中的應(yīng)用效果，考慮光伏發(fā)電和負荷波動性，模擬電網(wǎng)運行的不確定性，為控制策略評估提供測試平臺。

3.2 訓(xùn)練效果分析

在訓(xùn)練效果分析中，實驗選取光伏出力最大的典型日進行驗證，如圖2所示，揭示了在09∶00～15∶00的高峰時間段內(nèi)，光伏出力顯著高于負荷需求。此現(xiàn)象導(dǎo)致功率倒送和電壓越限問題，反映了模型中需進一步考慮這種波動性因素以確保電網(wǎng)的穩(wěn)定運行。

圖2 典型日配電網(wǎng)光伏發(fā)電與負荷變化曲線

經(jīng)MATD3策略優(yōu)化后，典型日測試顯示各節(jié)點電壓分布均處于安全運行范圍內(nèi)。曲線圖進一步證實MATD3在電壓控制方面的有效性，展示了優(yōu)化后策略的顯著控制效果，如圖3所示。

圖3 MATD3策略優(yōu)化下典型日配電網(wǎng)電壓波動分析

3.3 對比分析

在本研究中，采用的MATD3策略與傳統(tǒng)Q-V下垂控制策略、無控制策略及MADDPG策略進行對比。結(jié)果顯示，MATD3在電壓控制和減少網(wǎng)損方面具有顯著優(yōu)勢。例如，MATD3策略在電壓控制方面實現(xiàn)了最小的平均電壓偏差0.0069pu，計算效率為36ms，優(yōu)于其他策略。結(jié)果見表1。

表1 深度強化學(xué)習(xí)在配電網(wǎng)電壓控制中的應(yīng)用效能比較

此外，MATD3策略在網(wǎng)損減少方面也展現(xiàn)出最佳性能，相較于下垂控制和MADDPG方法分別減小了5.29%和10.61%的網(wǎng)損，證明了其在配電網(wǎng)無功電壓控制領(lǐng)域的應(yīng)用效能和經(jīng)濟性（見圖4）。通過這些對比分析，MATD3策略被證實有效提升配電網(wǎng)的整體性能和穩(wěn)定性。

圖4 典型日內(nèi)各控制策略對配電網(wǎng)網(wǎng)損影響分析

3.4 擴展性驗證

通過在141個節(jié)點的配電系統(tǒng)進行仿真測試，成功驗證了所提方法的擴展性（見圖5）。使用Matpower 7.1參數(shù)庫和典型日的PV、負荷曲線數(shù)據(jù)，確保了測試的準確性和一致性。

圖5 141節(jié)點配電系統(tǒng)在典型日的光伏發(fā)電與負荷動態(tài)曲線

測試結(jié)果表明，如表2所示，在增加智能體數(shù)量的情況下，模型成功適應(yīng)了更大的狀態(tài)和動作空間。采用CTDE框架有效避免維度災(zāi)難問題，確保算法在復(fù)雜環(huán)境下的有效收斂，同時維持優(yōu)秀的計算性能和電壓控制效果。

表2 智能體數(shù)量對配電網(wǎng)電壓控制性能影響的測試結(jié)果

3.5 魯棒性驗證

在IEEE 33節(jié)點系統(tǒng)的測試中，模型面對50%光伏滲透率場景展現(xiàn)出強魯棒性。通過調(diào)整年度光伏最大出力與最大負荷之比，模型適應(yīng)了3種不同高滲透率場景。測試結(jié)果證實模型能有效應(yīng)對不同PV容量，顯示出卓越的適應(yīng)力和控制效果，如表3所示。

表3 光伏滲透率對電網(wǎng)電壓穩(wěn)定性和網(wǎng)損影響的測試分析

結(jié)果表明，隨著滲透率增加，逆變器調(diào)節(jié)容量的提升顯著增強了無功調(diào)節(jié)能力和系統(tǒng)電壓質(zhì)量。研究方法展現(xiàn)出對配電網(wǎng)環(huán)境的強泛化能力和魯棒性，即在光伏出力顯著增加的場景下，依然能有效實施高質(zhì)量的電壓控制策略。

4 結(jié)束語

本研究展示了MADRL在配電網(wǎng)電壓優(yōu)化控制中的有效性。通過實施改進型TD3算法，解決了DQN和DDPG算法在高維問題處理和Q值估計中的局限性。仿真測試顯示，該方法能顯著優(yōu)化電壓控制和降低網(wǎng)損，尤其在多變的配電網(wǎng)環(huán)境下表現(xiàn)出高效的適應(yīng)性和魯棒性。此研究不僅在理論上推進了MADRL技術(shù)在電力系統(tǒng)中的應(yīng)用，也為實際電網(wǎng)運行提供了有效的電壓控制策略，進而支持電力系統(tǒng)的可靠性和穩(wěn)定性，貢獻于電力工程領(lǐng)域的持續(xù)發(fā)展。