基于價值分解深度強(qiáng)化學(xué)習(xí)的分布式光伏主動電壓控制方法

2023-11-11 03:36:16郭創(chuàng)新王藝博

電力自動化設(shè)備 2023年10期

劉碩，郭創(chuàng)新，馮斌，張勇，王藝博

（1.浙江大學(xué) 電氣工程學(xué)院，浙江杭州 310027；2.國家電網(wǎng)有限公司華北分部，北京 100053）

0 引言

近年來，能源短缺、環(huán)境污染等問題日益嚴(yán)峻，隨著“雙碳”目標(biāo)的提出、“屋頂光伏”政策的出臺，光伏等新能源得到了大力發(fā)展［1］。截至2022 年底，我國累計光伏容量達(dá)到3.92×108kW，其中分布式光伏占比為40.21 %。大量分布式光伏的接入，使原有的潮流走向發(fā)生改變，導(dǎo)致末端電壓嚴(yán)重越限，網(wǎng)絡(luò)損耗急劇增加［2］。光伏出力的不確定性、隨機(jī)性也造成節(jié)點(diǎn)電壓頻繁波動，電能質(zhì)量顯著降低，無法保證用戶負(fù)荷的可靠供電。配電網(wǎng)作為分布式光伏的主要接入對象，面臨經(jīng)濟(jì)、安全、穩(wěn)定運(yùn)行的巨大挑戰(zhàn)［3］。

與此同時，受益于數(shù)字化技術(shù)的發(fā)展，配電網(wǎng)逐漸由被動受控模式轉(zhuǎn)變?yōu)榫哂兄鲃诱{(diào)控能力的智能系統(tǒng)。光伏逆變器連續(xù)可調(diào)的無功輸出能力為主動配電網(wǎng)提供了更加靈活的調(diào)度手段［4］。光伏逆變器響應(yīng)速度快，控制精度高，具有較好的靈活性和經(jīng)濟(jì)性，能夠滿足在線應(yīng)用要求［5］。利用分布式光伏逆變器進(jìn)行無功功率補(bǔ)償，優(yōu)化潮流分布，抑制電壓波動，降低線路損耗，實現(xiàn)主動電壓控制，已成為主動配電網(wǎng)調(diào)度運(yùn)行的關(guān)鍵技術(shù)［6］。

目前，主動電壓控制主要面臨精確性不足、實時性較差［7］的問題。傳統(tǒng)的數(shù)學(xué)優(yōu)化方法需依賴精確的物理模型［8］，而低壓配電網(wǎng)的感知度往往較低，無法獲取完整的網(wǎng)絡(luò)參數(shù)。此外，優(yōu)化問題的復(fù)雜度會隨著控制變量的增多而急劇增長，且考慮到源荷不確定性、交流潮流約束［9］，這類高維非線性優(yōu)化問題的求解效率較低，計算耗時較長，難以實現(xiàn)在線調(diào)控。

隨著人工智能技術(shù)的發(fā)展，深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）方法在電網(wǎng)優(yōu)化運(yùn)行領(lǐng)域得到了廣泛的關(guān)注［10］。DRL作為一種無模型的數(shù)學(xué)驅(qū)動方法［11］，擺脫了對精確參數(shù)的依賴，能夠從歷史經(jīng)驗中學(xué)習(xí)到泛化的控制策略，在執(zhí)行過程中只需要進(jìn)行神經(jīng)網(wǎng)絡(luò)的前饋運(yùn)算，可以滿足精確性、實時性的要求。文獻(xiàn)［12］采用行動者-評論家算法來擬合離散無功調(diào)節(jié)設(shè)備的投切指令，實現(xiàn)了低感知度配電網(wǎng)的無功優(yōu)化，但所提方法無法對連續(xù)設(shè)備進(jìn)行調(diào)節(jié)。文獻(xiàn)［13］基于深度確定性策略梯度（deep deterministic policy gradient，DDPG）算法制定無功出力計劃，實現(xiàn)了連續(xù)電壓控制。上述研究將所有無功設(shè)備視為統(tǒng)一的智能體，但實際上由于通信負(fù)擔(dān)、控制時延等問題，配電網(wǎng)難以進(jìn)行集中控制［14］，因此需要將每臺設(shè)備視為單獨(dú)的智能體，采用多智能體DRL 方法［15］進(jìn)行分布式控制。文獻(xiàn)［16］采用多智能體深度確定性策略梯度（multi-agent DDPG，MADDPG）算法協(xié)調(diào)控制多臺無功設(shè)備，在實現(xiàn)穩(wěn)壓減損的同時降低了通信成本，保證了決策的實時性。文獻(xiàn)［17］在MADDPG 算法的基礎(chǔ)上進(jìn)行雙延遲改進(jìn)，進(jìn)一步提升了算法的性能。

然而，上述MADDPG 算法存在信用分配、過度泛化等問題，導(dǎo)致其在面對復(fù)雜多變的配電網(wǎng)環(huán)境時存在策略學(xué)習(xí)能力有限、主動電壓控制的性能表現(xiàn)欠佳問題。一方面，MADDPG 算法使用全局價值網(wǎng)絡(luò)對所有智能體的整體動作進(jìn)行打分，無法分辨?zhèn)€體動作的貢獻(xiàn)程度，這就容易導(dǎo)致“懶惰智能體”的出現(xiàn)，即在其他智能體已經(jīng)學(xué)習(xí)到較好策略的情況下，某些智能體不再進(jìn)行探索更新。另一方面，MADDPG 算法在進(jìn)行策略學(xué)習(xí)時，選取其他智能體的歷史動作進(jìn)行評分指導(dǎo)，并對每個智能體分別進(jìn)行參數(shù)更新，這會導(dǎo)致最終的策略易陷入次優(yōu)解，各設(shè)備之間無法做到有效協(xié)調(diào)［18］。

針對上述問題，本文提出一種基于價值分解的MADDPG（value decomposition based MADDPG，VDMADDPG）算法。首先，介紹分布式光伏逆變器的無功調(diào)節(jié)原理，建立主動電壓控制問題的分布式部分可觀測馬爾可夫決策過程（decentralized partially observable Markov decision process，Dec-POMDP）模型；然后，在MADDPG 算法的基礎(chǔ)上，引入分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施，構(gòu)成VD-MADDPG 算法，并介紹其架構(gòu)和流程；最后，以改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)為算例進(jìn)行仿真分析。結(jié)果表明，所提VD-MADDPG 算法能有效改善潮流分布，緩解電壓越限，降低網(wǎng)絡(luò)損耗，且收斂速度更快，對復(fù)雜場景的魯棒性更強(qiáng)。

1 含高比例光伏配電網(wǎng)的主動電壓控制問題

1.1 分布式光伏逆變器的無功調(diào)節(jié)

本文利用配電網(wǎng)中分布式光伏逆變器輸出的無功功率來平抑電壓波動，緩解電壓越限問題，并盡可能地降低網(wǎng)絡(luò)損耗，從而實現(xiàn)主動電壓控制。假設(shè)總控制周期為T，配電網(wǎng)中共有M個節(jié)點(diǎn)和N臺光伏，用t、m、n分別表示時刻、節(jié)點(diǎn)、光伏索引號。主動電壓控制的目標(biāo)函數(shù)為：

式中：QPV，n，t為t時刻第n臺光伏逆變器的無功出力；Um，t為t時刻節(jié)點(diǎn)m的電壓幅值；U0為電壓基準(zhǔn)值；Ploss，t為t時刻系統(tǒng)網(wǎng)絡(luò)損耗；α為協(xié)調(diào)因子，用來平衡電壓偏差和網(wǎng)絡(luò)損耗。

為了積極響應(yīng)國家的“雙碳”目標(biāo)和“整縣光伏”政策，保證新能源充分消納，避免出現(xiàn)棄光現(xiàn)象，本文假設(shè)光伏在白天工作在最大功率點(diǎn)跟蹤模式，在夜晚工作在靜止同步補(bǔ)償器模式，因此不削減光伏的有功出力，僅調(diào)節(jié)逆變器的無功出力。光伏逆變器的無功出力QPV，n，t所能調(diào)節(jié)的范圍與其額定視在容量Sn，max和實時有功出力PPV，n，t相關(guān)，關(guān)系式為：

光伏的額定視在容量一般約為其最大有功出力的1.1倍［19］，即使在夏季正午時段光伏有功功率滿發(fā)的情況下，逆變器的最大無功出力仍能達(dá)到光伏有功出力的45.8 %［17］。而在其他時段，光伏逆變器的無功調(diào)節(jié)潛力更加可觀。因此，利用分布式光伏逆變器進(jìn)行無功調(diào)節(jié)，可以較好地滿足主動電壓控制的調(diào)度需求。

1.2 主動電壓控制問題的馬爾可夫決策過程建模

由于難以精確獲取配電網(wǎng)的模型參數(shù)，且新能源出力的快速波動對決策的實時性提出了較高的要求，傳統(tǒng)的數(shù)學(xué)優(yōu)化方法已無法適應(yīng)當(dāng)前控制場景。而DRL 的應(yīng)用能夠有效地解決上述不足，實現(xiàn)無模型數(shù)據(jù)驅(qū)動和實時決策控制。使用DRL 方法需要將問題建模為馬爾可夫決策過程，又由于受到通信時延、隱私保護(hù)的限制，分布式光伏只能觀測到局部區(qū)域的信息，因此本文將主動電壓控制問題建模為Dec-POMDP。

Dec-POMDP 由元組(s，o，a，r，K，γ)組成，其中：s、o、a、r分別為智能體的狀態(tài)、觀測、動作、獎勵；K為狀態(tài)轉(zhuǎn)移函數(shù)，表示環(huán)境根據(jù)當(dāng)前狀態(tài)、動作轉(zhuǎn)移至下一狀態(tài)的概率；γ為折扣率，表示對未來回報的關(guān)注度。DRL 的目標(biāo)是尋找最優(yōu)的聯(lián)合控制策略，使累計折扣回報最大。本文采用下標(biāo)n表示單個智能體的個體變量，用來區(qū)分所有智能體的聯(lián)合變量。

針對主動電壓控制問題，配電網(wǎng)中每臺分布式光伏均可視為1 個單獨(dú)的智能體，Dec-POMDP 相關(guān)變量的具體含義如下。

1）狀態(tài)st={fm，t|m=1，2，…，M}。st為t時刻所有節(jié) 點(diǎn) 特征量的集合，fm，t=[PL，m，t，QL，m，t，PPV，m，t，QPV，m，t-1，Um，t-1，δm，t-1]為t時刻節(jié)點(diǎn)m處的特征量，其中：PL，m，t、QL，m，t分別為t時刻節(jié)點(diǎn)m處負(fù)荷的有功、無功功率；PPV，m，t為t時刻節(jié)點(diǎn)m處光伏逆變器的有功出力；QPV，m，t-1為t-1 時刻節(jié)點(diǎn)m處光伏逆變器的無功出力；Um，t-1、δm，t-1分別為t-1時刻節(jié)點(diǎn)m的電壓幅值、相角。若節(jié)點(diǎn)m處沒有負(fù)荷或光伏，則相應(yīng)的功率為0。

2）觀測ot={on，t|n=1，2，…，N}。聯(lián)合觀測ot由各智能體的局部觀測on，t組成。單個智能體只能觀測到區(qū)域內(nèi)的節(jié)點(diǎn)特征量，即on，t={fm，t|m∈Mn}，Mn為智能體n所在區(qū)域的節(jié)點(diǎn)集合。

3）動作at={an，t|n=1，2，…，N}。聯(lián)合動作at由各智能體的個體動作an，t組成，其中an，t=QPV，n，t，即智能體n的動作為當(dāng)前時刻光伏逆變器的無功出力。

4）獎勵。在本文問題中各智能體為完全合作關(guān)系，通過相互協(xié)調(diào)使得系統(tǒng)電壓偏差和網(wǎng)絡(luò)損耗最小，因此智能體之間共享獎勵。將式（1）中單個時刻的目標(biāo)函數(shù)取反，構(gòu)成全局獎勵rt，如式（3）所示。

5）狀態(tài)轉(zhuǎn)移。在當(dāng)前的運(yùn)行狀態(tài)下，分布式光伏根據(jù)自身的策略控制逆變器輸出無功補(bǔ)償功率，電網(wǎng)潮流重新分布，節(jié)點(diǎn)電壓和網(wǎng)絡(luò)損耗發(fā)生改變，光伏有功出力和負(fù)荷功率隨機(jī)波動，由此轉(zhuǎn)移到下一時刻的狀態(tài)。

2 面向電壓控制的價值分解DRL

分布式光伏的輸出連續(xù)可調(diào)，針對此類多智能體連續(xù)控制問題，經(jīng)典的DRL 為MADDPG 算法。MADDPG 算法訓(xùn)練簡單，實現(xiàn)方便，但存在信用分配、過度泛化等問題，在面對復(fù)雜多變的電網(wǎng)環(huán)境時控制效果欠佳。因此，下面在MADDPG 算法的基礎(chǔ)上，引入分解式價值網(wǎng)絡(luò)、集中式策略梯度2項改進(jìn)措施，提出VD-MADDPG算法，并介紹算法架構(gòu)及流程。

2.1 MADDPG算法

MADDPG 算法采用行動者-評論家神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如附錄A 圖A1 所示，其中包含N個策略網(wǎng)絡(luò)μn和1 個全局價值網(wǎng)絡(luò)ν，網(wǎng)絡(luò)參數(shù)分別為θn和ω。策略網(wǎng)絡(luò)μn根據(jù)觀測on，t生成相應(yīng)的動作an，t，價值網(wǎng)絡(luò)ν則根據(jù)狀態(tài)st對所有智能體的動作at進(jìn)行打分，獲得全局價值qt，如式（4）和式（5）所示。

MADDPG 算法是一種異策略算法，其訓(xùn)練過程分為探索和更新2 個部分。在探索過程中，智能體通過行為策略收集經(jīng)驗。行為策略通常是在當(dāng)前策略網(wǎng)絡(luò)輸出的基礎(chǔ)上加入隨機(jī)噪聲ξ，從而得到行為動作abeh，n，t，而噪聲ξ服從均值為0、標(biāo)準(zhǔn)差為σ的高斯分布中隨機(jī)抽取得到，如式（6）和式（7）所示。

經(jīng)過1 次行為策略的探索，便會產(chǎn)生1 條經(jīng)驗，用六元組(st，ot，at，rt，st+1，ot+1)表示，并將其存入經(jīng)驗回放數(shù)組中。當(dāng)數(shù)組存滿后，使用新的交互數(shù)據(jù)代替最舊的記錄。數(shù)組的大小是可調(diào)的超參數(shù)，其會影響訓(xùn)練的效果。使用經(jīng)驗回放可以打破序列的相關(guān)性，且可以重復(fù)利用歷史經(jīng)驗，提高樣本效率。

經(jīng)過預(yù)熱訓(xùn)練后，采用蒙特卡羅算法從經(jīng)驗回放數(shù)組中隨機(jī)抽取小批量的樣本，用樣本均值代替期望，以此更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。假設(shè)批量大小為B，其中第b（b=1，2，…，B）條樣本為(sb，ob，ab，rb，s′b，o′b)，sb、rb分別為更新過程中第b條樣本的狀態(tài)、獎勵值，ob={on，b|n=1，2，…，N}為更新過程中第b條樣本的觀測，ab={an，b|n=1，2，…，N}為更新過程中第b條樣本的動作，o′b={o′n，b|n=1，2，…，N}，上標(biāo)“ ′ ”表示下一時刻的變量。

為了緩解自舉和最大化造成的價值高估問題，還需要引入目標(biāo)策略網(wǎng)絡(luò)μn-和目標(biāo)價值網(wǎng)絡(luò)ν-，其網(wǎng)絡(luò)架構(gòu)與原網(wǎng)絡(luò)相同，但參數(shù)分別變?yōu)棣萵-和ω-。

首先使用時間差分（temporal difference，TD）算法更新價值網(wǎng)絡(luò)ν的參數(shù)ω。針對第b條樣本，通過目標(biāo)網(wǎng)絡(luò)依次計算下一時刻的動作a′n，b-和價值q′b-，由此得到TD目標(biāo)yb-，如式（8）—（10）所示。

通過價值網(wǎng)絡(luò)計算當(dāng)前的價值qb，并得到TD 誤差λb，分別如式（11）和式（12）所示。

根據(jù)樣本的TD誤差λb，利用梯度下降更新價值網(wǎng)絡(luò)參數(shù)ω，如式（13）所示。

式中：ην為價值網(wǎng)絡(luò)的學(xué)習(xí)率。

然后使用策略梯度算法更新策略網(wǎng)絡(luò)μn的參數(shù)θn。針對第b條樣本，根據(jù)智能體n的觀測on，b計算其動作a^n，b，再結(jié)合該樣本中其他智能體的歷史動作a1，b、a2，b、…、an-1，b、an+1，b、…、aN，b，得到動作價值q^n，b，如式（14）和式（15）所示。

根據(jù)鏈?zhǔn)椒▌t計算策略梯度gn，b，再由B條樣本的均值，利用梯度上升更新θn，見式（16）和式（17）。

式中：ημ為策略網(wǎng)絡(luò)的學(xué)習(xí)率。

最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價值網(wǎng)絡(luò)的參數(shù)θn-、ω-，分別如式（18）和式（19）所示。

式中：τ為軟更新因子。

2.2 分解式價值網(wǎng)絡(luò)

MADDPG 算法存在信用分配問題，其采用集中式價值網(wǎng)絡(luò)對所有智能體的動作進(jìn)行綜合評價，但無法量化每個智能體對全局價值的貢獻(xiàn)程度，因此可能會出現(xiàn)“懶惰智能體”。當(dāng)部分智能體提前學(xué)習(xí)到較好的策略，對獎勵有較大的提升時，某些智能體會失去探索的動力。所以集中式價值網(wǎng)絡(luò)會造成最終策略陷入次優(yōu)解，導(dǎo)致算法拓展性較差。針對上述問題，本文提出分解式價值網(wǎng)絡(luò)的改進(jìn)方法，將全局價值分解為每個智能體的個體價值，由此分辨每臺光伏設(shè)備對系統(tǒng)整體電壓控制的效用。VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Neural network structure of VD-MADDPG algorithm

智能體n將自身的觀測on，t和動作an，t輸入個體價值網(wǎng)絡(luò)νn中，其參數(shù)為ωn，由此得到個體價值qn，t，如式（20）所示。

然后將狀態(tài)st和所有智能體的個體價值q1，t、q2，t、…、qN，t輸入混合網(wǎng)絡(luò)φ（其參數(shù)為χ）中，得到全局價值qt，如式（21）所示。

與MADDPG 算法類似，在訓(xùn)練過程中還需引入目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個體價值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-，假設(shè)其參數(shù)分別為θn-、ωn-、χ-。

采用TD 算法更新個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ的參數(shù)ωn、χ。根據(jù)目標(biāo)網(wǎng)絡(luò)計算第b條樣本對應(yīng)下一時刻的動作a′n，b-、個體價值q′n，b-、全局價值q′b-，由此得到TD目標(biāo)yb-，見式（22）—（25）。

將第b條樣本中的動作an，b輸入個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ中，得到當(dāng)前時刻的個體價值qn，b和全局價值qb，再根據(jù)TD 目標(biāo)yb-計算TD 誤差λb，如式（26）—（28）所示。

根據(jù)所有樣本的TD誤差λb，利用梯度下降和鏈?zhǔn)椒▌t更新參數(shù)ωn、χ，分別見式（29）和式（30）。

式中：ηφ為混合網(wǎng)絡(luò)的學(xué)習(xí)率。

2.3 集中式策略梯度

當(dāng)MADDPG 算法更新策略網(wǎng)絡(luò)參數(shù)時，在式（15）所示動作價值q^n，b的計算過程中，只有智能體n的動作是根據(jù)當(dāng)前策略網(wǎng)絡(luò)μn計算得到的，而其他智能體均是從經(jīng)驗回放數(shù)組中抽取的歷史動作，當(dāng)前策略的動作選擇存在較大的差異，因此容易導(dǎo)致策略網(wǎng)絡(luò)的過度泛化。而在式（16）所示策略梯度gn，b的計算過程中，MADDPG算法針對每個智能體的策略進(jìn)行單獨(dú)更新，造成智能體之間的協(xié)調(diào)性較差，導(dǎo)致最終聯(lián)合策略的性能表現(xiàn)欠佳。

因此，本文針對上述不足，提出集中式策略梯度的改進(jìn)方法。根據(jù)當(dāng)前的策略網(wǎng)絡(luò)μn，計算每一個智能體的最新動作a^n，b，再通過個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ依次得到個體價值q^n，b和全局價值q^b，如式（31）—（33）所示。

假設(shè)所有策略網(wǎng)絡(luò)的參數(shù)θ1、θ2、…、θN構(gòu)成聯(lián)合策略參數(shù)θ。求解全局價值q^b對聯(lián)合策略參數(shù)θ的梯度gb，再利用梯度上升對所有智能體的策略網(wǎng)絡(luò)進(jìn)行集中更新，如式（34）和式（35）所示。

最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個體價值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-的參數(shù)θn-、ωn-、χ-，分別如式（36）—（38）所示。

2.4 VD-MADDPG算法的架構(gòu)及流程

引入上述分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施后，本文提出了VD-MADDPG 算法。VD-MADDPG 算法的實現(xiàn)方式為中心化訓(xùn)練和去中心化執(zhí)行（centralized training with decentralized execution，CTDE）架構(gòu)［20］，即在配電網(wǎng)主站進(jìn)行訓(xùn)練，在配電網(wǎng)邊緣側(cè)進(jìn)行控制，其架構(gòu)圖如附錄A圖A2 所示。在中心化訓(xùn)練過程中，配電網(wǎng)主站收集全局信息，智能體之間可以共享觀測、動作等數(shù)據(jù)，由此根據(jù)全局價值分?jǐn)?shù)指導(dǎo)每個智能體改進(jìn)自身策略。當(dāng)訓(xùn)練結(jié)束后，配電網(wǎng)主站將策略網(wǎng)絡(luò)的參數(shù)下發(fā)至各分布式光伏的邊緣計算裝置中，而不需要下發(fā)個體價值網(wǎng)絡(luò)和混合網(wǎng)絡(luò)的參數(shù)。去中心化執(zhí)行過程在邊緣側(cè)完成，各分布式光伏只需要采集所在局部區(qū)域的節(jié)點(diǎn)特征信息，無須進(jìn)行各裝置之間的通信和數(shù)據(jù)共享，僅依靠自身策略網(wǎng)絡(luò)的前饋運(yùn)算便可以輸出控制動作，執(zhí)行速度達(dá)到毫秒級。使用CTDE 架構(gòu)既可以學(xué)習(xí)到全局協(xié)調(diào)的控制策略，又能減少通信時延，節(jié)約通信成本，保證決策的實時性。VD-MADDPG算法的具體流程如附錄B所示。

3 算例分析

3.1 算例設(shè)置

為了進(jìn)行分布式光伏主動電壓控制仿真測試，本文對IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)進(jìn)行改進(jìn)，在節(jié)點(diǎn)12、17、21、24、28、32 處安裝光伏，并將配電網(wǎng)劃分為4個區(qū)域。系統(tǒng)的基準(zhǔn)電壓為12.66 kV，電壓安全范圍為［0.95，1.05］ p.u.。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)拓?fù)淙绺戒汣圖C1所示。

光伏及負(fù)荷數(shù)據(jù)來自華北電網(wǎng)某地區(qū)2020 —2022連續(xù)3 a的歷史記錄，數(shù)據(jù)時間間隔為5 min，與實時調(diào)度時間尺度一致。本文設(shè)置總控制周期為1 d，即1 個控制周期內(nèi)包含288 個時間步。從總數(shù)據(jù)集中隨機(jī)選取10 d 數(shù)據(jù)構(gòu)成驗證集，隨機(jī)選取120 d數(shù)據(jù)構(gòu)成測試集，其余數(shù)據(jù)則作為訓(xùn)練集。

為了驗證本文所提算法的有效性，選取無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種控制方法進(jìn)行對比分析。其中：無控制方法表示將所有光伏逆變器的無功出力設(shè)置為0；基于MADDPG 算法、基于VD-MADDPG 算法的控制方法的優(yōu)化目標(biāo)一致，均為求解最優(yōu)協(xié)調(diào)控制策略，使系統(tǒng)電壓偏差、網(wǎng)絡(luò)損耗最小，協(xié)調(diào)因子α=0.1；基于集中式優(yōu)化的控制方法表示在全局網(wǎng)絡(luò)參數(shù)已知的情況下得出理論最優(yōu)解。本文根據(jù)經(jīng)驗列出超參數(shù)的典型取值范圍，然后進(jìn)行網(wǎng)格搜索確定各超參數(shù)的最佳取值。最終結(jié)果如下：神經(jīng)網(wǎng)絡(luò)隱藏層維度為64，經(jīng)驗回放數(shù)組的大小為5 000，樣本批量大小為32，折扣率γ=0.99，行為策略中的噪聲標(biāo)準(zhǔn)差σ=0.1，價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)、混合網(wǎng)絡(luò)的學(xué)習(xí)率ην、ημ、ηφ均為0.001，目標(biāo)網(wǎng)絡(luò)的軟更新因子τ=0.01。

3.2 訓(xùn)練結(jié)果

采用基于MADDPG 算法和基于VD-MADDPG算法的控制方法訓(xùn)練智能體，設(shè)置總訓(xùn)練回合數(shù)為400，每隔10 個回合進(jìn)行1 次驗證，計算其平均獎勵值。選取5 個隨機(jī)種子進(jìn)行重復(fù)訓(xùn)練，觀察訓(xùn)練過程的穩(wěn)定性。同時對比無控制方法和基于集中式優(yōu)化的控制方法的獎勵值。獎勵訓(xùn)練曲線見圖2，圖中陰影部分表示誤差范圍。

圖2 獎勵訓(xùn)練曲線Fig.2 Training curves of reward

由圖2 可知，本文所提VD-MADDPG 算法在獎勵大小、收斂速度、訓(xùn)練穩(wěn)定性等方面均優(yōu)于傳統(tǒng)的MADDPG 算法。MADDPG 算法和VD-MADDPG 算法在訓(xùn)練初期采用行為策略進(jìn)行隨機(jī)探索，控制效果較差，獎勵值甚至低于無控制時的表現(xiàn)。隨著訓(xùn)練回合數(shù)的增加，智能體不斷地積累經(jīng)驗，并逐漸學(xué)習(xí)到更優(yōu)的控制策略，獎勵曲線隨之增大直至收斂。無控制方法和基于集中式優(yōu)化的控制方法的平均獎勵分別為-0.682 8、-0.354 6，基于MADDPG 算法和基于VD-MADDPG 算法的控制方法分別在第300 個回合和第200 個回合左右收斂，最終獎勵值分別為-0.417 7、-0.384 7，相比于無控制方法分別提升了38.83 %、43.66 %。相比基于MADDPG 算法的控制方法，基于VD-MADDPG 算法的控制方法的收斂值更加接近理論最優(yōu)值，且誤差范圍更窄，波動性更小，具有更好的訓(xùn)練穩(wěn)定性，由此驗證了本文所提VD-MADDPG 算法的優(yōu)越性。VD-MADDPG 算法采用了分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)方法，因此能夠評價每臺光伏對系統(tǒng)電壓控制的貢獻(xiàn)程度，避免出現(xiàn)“懶惰智能體”，并且對所有智能體的策略進(jìn)行協(xié)同更新，能夠保證學(xué)習(xí)到全局最優(yōu)的聯(lián)合策略，進(jìn)一步提升了算法的訓(xùn)練效果。

3.3 測試集結(jié)果

將上述訓(xùn)練好的策略模型應(yīng)用于測試集上進(jìn)行測試，對比4 種方法的控制性能。測試指標(biāo)包括電壓偏差、網(wǎng)絡(luò)損耗、計算時間。此外，為了從時空的不同角度進(jìn)一步刻畫電壓控制效果，本文還引入電壓越限率、完全控制率2 項指標(biāo)。電壓越限率是指電壓超過安全范圍的節(jié)點(diǎn)的數(shù)量比例，完全控制率是指將所有節(jié)點(diǎn)的電壓控制在安全范圍內(nèi)的時間占比。測試集結(jié)果見表1，表中電壓偏差為標(biāo)幺值。

表1 測試集結(jié)果Table 1 Results of test set

由表1可知，相較于MADDPG算法，VD-MADDPG算法在測試集上取得了更好的穩(wěn)壓減損控制效果。當(dāng)不對配電網(wǎng)中的分布式光伏進(jìn)行控制時，系統(tǒng)電壓存在較大的偏差，平均有4.75 % 的節(jié)點(diǎn)發(fā)生電壓越限，僅有78.46 % 的時間能保證所有節(jié)點(diǎn)的電壓均處于安全范圍內(nèi)。無控制時光伏逆變器的無功出力為0，潮流在節(jié)點(diǎn)間的流動較少，因此線路上的功率損耗較小。當(dāng)采用基于MADDPG 算法、基于VD-MADDPG算法的控制方法后，電壓波動得到了明顯平抑，電壓偏差分別降低了46.87 %、58.88 %，電壓越限率分別減少了88.84 %、99.16 %，完全控制率分別提升了13.97 %、26.51 %，這驗證了使用分布式光伏進(jìn)行主動電壓控制的有效性。而相較于MADDPG算法，VD-MADDPG 算法的穩(wěn)壓性能更優(yōu)異，僅有0.04 % 的節(jié)點(diǎn)發(fā)生電壓越限，配電網(wǎng)在99.26 % 的時間內(nèi)可安全穩(wěn)定運(yùn)行。雖然使用光伏逆變器輸出無功后，會增加系統(tǒng)的有功損耗，但VD-MADDPG 算法可在實現(xiàn)優(yōu)異的穩(wěn)壓效果的基礎(chǔ)上，保持較小的網(wǎng)絡(luò)損耗，其網(wǎng)損值為MADDPG 算法結(jié)果的33.87 %。此外，VD-MADDPG 算法的電壓偏差、電壓越限率、完全控制率、網(wǎng)絡(luò)損耗的標(biāo)準(zhǔn)差分別為MADDPG 算法結(jié)果的79.77 %、22.62 %、23.93 %、70.31 %，這表明VD-MADDPG 算法在面對不同的復(fù)雜場景時，具有更好的魯棒性、泛化能力。上述結(jié)果驗證了本文所提算法的優(yōu)越性，通過使用分解式價值網(wǎng)絡(luò)和集中式策略梯度可大幅提升算法的性能表現(xiàn)。

雖然VD-MADDPG 算法的測試結(jié)果無法達(dá)到理論最優(yōu)值，但集中式優(yōu)化方法需要依賴于復(fù)雜的量測裝置和完善的通信設(shè)施，建設(shè)成本過高，而VD-MADDPG 算法能從歷史經(jīng)驗中學(xué)習(xí)到有效的協(xié)調(diào)策略，通過分布式控制達(dá)到近似最優(yōu)的穩(wěn)壓減損效果，因此更加適用于低感知度配電網(wǎng)。此外，從表1 中還可看出，MADDPG、VD-MADDPG 算法僅需1 ms 左右的時間便可完成決策，遠(yuǎn)小于優(yōu)化求解所需時間。這是因為MADDPG、VD-MADDPG 算法在執(zhí)行過程中只需進(jìn)行策略網(wǎng)絡(luò)的前饋運(yùn)算，因此具有極高的時效性，可充分滿足在線應(yīng)用的要求。MADDPG 和VD-MADDPG 算法的策略網(wǎng)絡(luò)結(jié)構(gòu)相同，僅網(wǎng)絡(luò)參數(shù)存在差異，因此計算時間基本一致。

3.4 典型日測試結(jié)果

為了驗證本文所提方法在高光伏滲透率情況下的魯棒性和泛化能力，從測試集中選取光伏滲透率為250%的典型日場景進(jìn)行測試，其光伏及負(fù)荷曲線如附錄C 圖C2 所示。由圖可知，光伏出力和負(fù)荷需求分別在13:15、20:00左右達(dá)到最大值。

在該典型日場景下，分別使用無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種方法進(jìn)行控制。節(jié)點(diǎn)17 位于線路末端，且安裝有大容量光伏，因此將節(jié)點(diǎn)17 作為代表性節(jié)點(diǎn)，對比4 種控制方法下的電壓（標(biāo)幺值）曲線，并觀察系統(tǒng)網(wǎng)絡(luò)損耗的變化情況，分別見圖3和圖4。

圖4 典型日的網(wǎng)絡(luò)損耗曲線Fig.4 Network loss curves on typical day

由圖3可看出，相較于傳統(tǒng)MADDPG 算法，本文所提VD-MADDPG 算法取得了更好的穩(wěn)壓效果。當(dāng)不對電壓進(jìn)行控制時，節(jié)點(diǎn)電壓在11:30 — 14:45 時段超過安全上限，在19:30 — 22:45 時段低于安全下限，節(jié)點(diǎn)電壓偏差的平均值為0.037 p.u.，電壓波動劇烈，電能質(zhì)量很差。當(dāng)采用MADDPG 算法進(jìn)行控制時，節(jié)點(diǎn)電壓整體抬升，雖然保證了夜晚時段的電壓安全，但在正午時段電壓越限的嚴(yán)重程度反而加重了，電壓偏差高達(dá)0.042 p.u.。而采用本文所提VD-MADDPG 算法進(jìn)行改進(jìn)后，節(jié)點(diǎn)電壓在整個典型日均處于安全范圍之內(nèi)，電壓偏差降為0.019 p.u.，相比MADDPG 算法的結(jié)果減少了54.76 %，說明VD-MADDPG 算法能夠?qū)W習(xí)到更好的控制策略，實現(xiàn)多臺光伏設(shè)備的有效協(xié)調(diào)，解決了電壓越限問題。集中式優(yōu)化雖然能夠給出理論最優(yōu)解，電壓偏差達(dá)到最小值0.017 p.u.，但該方法需要依賴于精確的網(wǎng)絡(luò)參數(shù)，且求解速度緩慢，難以進(jìn)行在線部署。而VD-MADDPG 算法能夠從歷史交互數(shù)據(jù)中學(xué)習(xí)到近似最優(yōu)的控制策略，其電壓曲線與集中式優(yōu)化方法得到的電壓曲線十分接近，在正午時段幾乎重合，并且可以進(jìn)行實時決策，能夠充分滿足實際調(diào)度需要，這驗證了本文所提VD-MADDPG算法的優(yōu)越性。

由圖4可看出，4種控制方法下的全天平均網(wǎng)絡(luò)損耗分別為0.110 4、0.251 0、0.141 2、0.130 5 MW。無控制時的功率流動最少，因此網(wǎng)絡(luò)損耗最小。相比于MADDPG 算法，采用VD-MADDPG 算法時網(wǎng)絡(luò)損耗減少了43.75 %，能夠在保證電壓安全穩(wěn)定的同時，將功率損耗維持在較小的水平，僅略高于集中式優(yōu)化方法的結(jié)果。這進(jìn)一步驗證了本文所提VD-MADDPG算法在主動電壓控制問題上的優(yōu)越性。

為了進(jìn)一步驗證VD-MADDPG 算法對各智能體的動作改進(jìn)效果，將光伏出力最大的13:15時刻作為代表性時刻，展示基于MADDPG 算法、VD-MADDPG算法、集中式優(yōu)化這3種控制方法下6臺光伏逆變器PV1—PV6的無功功率動作，結(jié)果如圖5所示。

圖5 光伏逆變器的無功功率動作Fig.5 Reactive power action of photovoltaic inverters

集中式優(yōu)化方法能給出理論上的最優(yōu)解，因此可將該方法下的光伏逆變器無功出力作為最優(yōu)動作基準(zhǔn)。由圖5 可知，當(dāng)采用VD-MADDPG 算法改進(jìn)后，6 臺光伏逆變器的無功出力均變得更好，與最優(yōu)動作基準(zhǔn)的差距變小。當(dāng)采用MADDPG 算法時，各光伏逆變器的無功出力與最優(yōu)動作基準(zhǔn)的相對最大差距為94.24 %，相對差距最大的“懶惰智能體”為PV4。由于懶惰現(xiàn)象的存在，各光伏逆變器間無法做到有效協(xié)調(diào)，控制策略陷入次優(yōu)解，難以解決電壓越限問題。而采用VD-MADDPG 算法后，PV4的相對動作差距降為17.50 %，其他光伏逆變器的動作差距也均得到降低。這說明采用價值分解進(jìn)行算法改進(jìn)后，每個智能體都有相應(yīng)的個體價值網(wǎng)絡(luò)對自身動作進(jìn)行打分，評價其對全局價值的貢獻(xiàn)，以此督促每個智能體進(jìn)行經(jīng)驗探索和策略學(xué)習(xí)，避免出現(xiàn)“懶惰智能體”，更好地實現(xiàn)了智能體間的協(xié)調(diào)合作。

4 結(jié)論

由于存在信用分配、過度泛化等問題，傳統(tǒng)MADDPG 算法在進(jìn)行分布式光伏主動電壓控制時，性能表現(xiàn)欠佳。為此，本文提出了一種基于價值分解的改進(jìn)VD-MADDPG 算法用于分布式光伏主動電壓控制。首先，將該問題建模為Dec-POMDP；然后，在CTDE架構(gòu)的基礎(chǔ)上，提出了分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施，將全局價值網(wǎng)絡(luò)分解為個體價值網(wǎng)絡(luò)和混合網(wǎng)絡(luò)，以此評價每個智能體對全局價值的貢獻(xiàn)程度，并采用所有智能體的當(dāng)前策略進(jìn)行集中參數(shù)更新，以此訓(xùn)練得到更加協(xié)調(diào)的聯(lián)合控制策略。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)的算例結(jié)果表明，相比于傳統(tǒng)MADDPG 算法，VD-MADDPG算法能夠有效地平抑電壓波動，緩解電壓越限，降低網(wǎng)絡(luò)損耗，具有更加優(yōu)越的穩(wěn)壓減損控制效果。同時，VD-MADDPG 算法的收斂速度更快，訓(xùn)練過程更穩(wěn)定，針對復(fù)雜場景的魯棒性更強(qiáng)。

本文所提方法同樣適用于電動汽車、儲能、智能軟開關(guān)等可連續(xù)調(diào)節(jié)的電力電子設(shè)備，具有可拓展性。進(jìn)一步考慮上述設(shè)備在主動電壓控制問題中的精細(xì)化建模，實現(xiàn)多種靈活性資源的有效協(xié)調(diào)，是筆者后續(xù)的研究方向。

附錄見本刊網(wǎng)絡(luò)版（http：//www.epae.cn）。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放