亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于價值分解深度強(qiáng)化學(xué)習(xí)的分布式光伏主動電壓控制方法

        2023-11-11 03:36:16郭創(chuàng)新王藝博
        電力自動化設(shè)備 2023年10期
        關(guān)鍵詞:配電網(wǎng)價值智能

        劉 碩,郭創(chuàng)新,馮 斌,張 勇,王藝博

        (1.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027;2.國家電網(wǎng)有限公司華北分部,北京 100053)

        0 引言

        近年來,能源短缺、環(huán)境污染等問題日益嚴(yán)峻,隨著“雙碳”目標(biāo)的提出、“屋頂光伏”政策的出臺,光伏等新能源得到了大力發(fā)展[1]。截至2022 年底,我國累計光伏容量達(dá)到3.92×108kW,其中分布式光伏占比為40.21 %。大量分布式光伏的接入,使原有的潮流走向發(fā)生改變,導(dǎo)致末端電壓嚴(yán)重越限,網(wǎng)絡(luò)損耗急劇增加[2]。光伏出力的不確定性、隨機(jī)性也造成節(jié)點(diǎn)電壓頻繁波動,電能質(zhì)量顯著降低,無法保證用戶負(fù)荷的可靠供電。配電網(wǎng)作為分布式光伏的主要接入對象,面臨經(jīng)濟(jì)、安全、穩(wěn)定運(yùn)行的巨大挑戰(zhàn)[3]。

        與此同時,受益于數(shù)字化技術(shù)的發(fā)展,配電網(wǎng)逐漸由被動受控模式轉(zhuǎn)變?yōu)榫哂兄鲃诱{(diào)控能力的智能系統(tǒng)。光伏逆變器連續(xù)可調(diào)的無功輸出能力為主動配電網(wǎng)提供了更加靈活的調(diào)度手段[4]。光伏逆變器響應(yīng)速度快,控制精度高,具有較好的靈活性和經(jīng)濟(jì)性,能夠滿足在線應(yīng)用要求[5]。利用分布式光伏逆變器進(jìn)行無功功率補(bǔ)償,優(yōu)化潮流分布,抑制電壓波動,降低線路損耗,實現(xiàn)主動電壓控制,已成為主動配電網(wǎng)調(diào)度運(yùn)行的關(guān)鍵技術(shù)[6]。

        目前,主動電壓控制主要面臨精確性不足、實時性較差[7]的問題。傳統(tǒng)的數(shù)學(xué)優(yōu)化方法需依賴精確的物理模型[8],而低壓配電網(wǎng)的感知度往往較低,無法獲取完整的網(wǎng)絡(luò)參數(shù)。此外,優(yōu)化問題的復(fù)雜度會隨著控制變量的增多而急劇增長,且考慮到源荷不確定性、交流潮流約束[9],這類高維非線性優(yōu)化問題的求解效率較低,計算耗時較長,難以實現(xiàn)在線調(diào)控。

        隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法在電網(wǎng)優(yōu)化運(yùn)行領(lǐng)域得到了廣泛的關(guān)注[10]。DRL作為一種無模型的數(shù)學(xué)驅(qū)動方法[11],擺脫了對精確參數(shù)的依賴,能夠從歷史經(jīng)驗中學(xué)習(xí)到泛化的控制策略,在執(zhí)行過程中只需要進(jìn)行神經(jīng)網(wǎng)絡(luò)的前饋運(yùn)算,可以滿足精確性、實時性的要求。文獻(xiàn)[12]采用行動者-評論家算法來擬合離散無功調(diào)節(jié)設(shè)備的投切指令,實現(xiàn)了低感知度配電網(wǎng)的無功優(yōu)化,但所提方法無法對連續(xù)設(shè)備進(jìn)行調(diào)節(jié)。文獻(xiàn)[13]基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法制定無功出力計劃,實現(xiàn)了連續(xù)電壓控制。上述研究將所有無功設(shè)備視為統(tǒng)一的智能體,但實際上由于通信負(fù)擔(dān)、控制時延等問題,配電網(wǎng)難以進(jìn)行集中控制[14],因此需要將每臺設(shè)備視為單獨(dú)的智能體,采用多智能體DRL 方法[15]進(jìn)行分布式控制。文獻(xiàn)[16]采用多智能體深度確定性策略梯度(multi-agent DDPG,MADDPG)算法協(xié)調(diào)控制多臺無功設(shè)備,在實現(xiàn)穩(wěn)壓減損的同時降低了通信成本,保證了決策的實時性。文獻(xiàn)[17]在MADDPG 算法的基礎(chǔ)上進(jìn)行雙延遲改進(jìn),進(jìn)一步提升了算法的性能。

        然而,上述MADDPG 算法存在信用分配、過度泛化等問題,導(dǎo)致其在面對復(fù)雜多變的配電網(wǎng)環(huán)境時存在策略學(xué)習(xí)能力有限、主動電壓控制的性能表現(xiàn)欠佳問題。一方面,MADDPG 算法使用全局價值網(wǎng)絡(luò)對所有智能體的整體動作進(jìn)行打分,無法分辨?zhèn)€體動作的貢獻(xiàn)程度,這就容易導(dǎo)致“懶惰智能體”的出現(xiàn),即在其他智能體已經(jīng)學(xué)習(xí)到較好策略的情況下,某些智能體不再進(jìn)行探索更新。另一方面,MADDPG 算法在進(jìn)行策略學(xué)習(xí)時,選取其他智能體的歷史動作進(jìn)行評分指導(dǎo),并對每個智能體分別進(jìn)行參數(shù)更新,這會導(dǎo)致最終的策略易陷入次優(yōu)解,各設(shè)備之間無法做到有效協(xié)調(diào)[18]。

        針對上述問題,本文提出一種基于價值分解的MADDPG(value decomposition based MADDPG,VDMADDPG)算法。首先,介紹分布式光伏逆變器的無功調(diào)節(jié)原理,建立主動電壓控制問題的分布式部分可觀測馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP)模型;然后,在MADDPG 算法的基礎(chǔ)上,引入分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施,構(gòu)成VD-MADDPG 算法,并介紹其架構(gòu)和流程;最后,以改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)為算例進(jìn)行仿真分析。結(jié)果表明,所提VD-MADDPG 算法能有效改善潮流分布,緩解電壓越限,降低網(wǎng)絡(luò)損耗,且收斂速度更快,對復(fù)雜場景的魯棒性更強(qiáng)。

        1 含高比例光伏配電網(wǎng)的主動電壓控制問題

        1.1 分布式光伏逆變器的無功調(diào)節(jié)

        本文利用配電網(wǎng)中分布式光伏逆變器輸出的無功功率來平抑電壓波動,緩解電壓越限問題,并盡可能地降低網(wǎng)絡(luò)損耗,從而實現(xiàn)主動電壓控制。假設(shè)總控制周期為T,配電網(wǎng)中共有M個節(jié)點(diǎn)和N臺光伏,用t、m、n分別表示時刻、節(jié)點(diǎn)、光伏索引號。主動電壓控制的目標(biāo)函數(shù)為:

        式中:QPV,n,t為t時刻第n臺光伏逆變器的無功出力;Um,t為t時刻節(jié)點(diǎn)m的電壓幅值;U0為電壓基準(zhǔn)值;Ploss,t為t時刻系統(tǒng)網(wǎng)絡(luò)損耗;α為協(xié)調(diào)因子,用來平衡電壓偏差和網(wǎng)絡(luò)損耗。

        為了積極響應(yīng)國家的“雙碳”目標(biāo)和“整縣光伏”政策,保證新能源充分消納,避免出現(xiàn)棄光現(xiàn)象,本文假設(shè)光伏在白天工作在最大功率點(diǎn)跟蹤模式,在夜晚工作在靜止同步補(bǔ)償器模式,因此不削減光伏的有功出力,僅調(diào)節(jié)逆變器的無功出力。光伏逆變器的無功出力QPV,n,t所能調(diào)節(jié)的范圍與其額定視在容量Sn,max和實時有功出力PPV,n,t相關(guān),關(guān)系式為:

        光伏的額定視在容量一般約為其最大有功出力的1.1倍[19],即使在夏季正午時段光伏有功功率滿發(fā)的情況下,逆變器的最大無功出力仍能達(dá)到光伏有功出力的45.8 %[17]。而在其他時段,光伏逆變器的無功調(diào)節(jié)潛力更加可觀。因此,利用分布式光伏逆變器進(jìn)行無功調(diào)節(jié),可以較好地滿足主動電壓控制的調(diào)度需求。

        1.2 主動電壓控制問題的馬爾可夫決策過程建模

        由于難以精確獲取配電網(wǎng)的模型參數(shù),且新能源出力的快速波動對決策的實時性提出了較高的要求,傳統(tǒng)的數(shù)學(xué)優(yōu)化方法已無法適應(yīng)當(dāng)前控制場景。而DRL 的應(yīng)用能夠有效地解決上述不足,實現(xiàn)無模型數(shù)據(jù)驅(qū)動和實時決策控制。使用DRL 方法需要將問題建模為馬爾可夫決策過程,又由于受到通信時延、隱私保護(hù)的限制,分布式光伏只能觀測到局部區(qū)域的信息,因此本文將主動電壓控制問題建模為Dec-POMDP。

        Dec-POMDP 由元組(s,o,a,r,K,γ)組成,其中:s、o、a、r分別為智能體的狀態(tài)、觀測、動作、獎勵;K為狀態(tài)轉(zhuǎn)移函數(shù),表示環(huán)境根據(jù)當(dāng)前狀態(tài)、動作轉(zhuǎn)移至下一狀態(tài)的概率;γ為折扣率,表示對未來回報的關(guān)注度。DRL 的目標(biāo)是尋找最優(yōu)的聯(lián)合控制策略,使累計折扣回報最大。本文采用下標(biāo)n表示單個智能體的個體變量,用來區(qū)分所有智能體的聯(lián)合變量。

        針對主動電壓控制問題,配電網(wǎng)中每臺分布式光伏均可視為1 個單獨(dú)的智能體,Dec-POMDP 相關(guān)變量的具體含義如下。

        1)狀態(tài)st={fm,t|m=1,2,…,M}。st為t時刻所有 節(jié) 點(diǎn) 特 征 量 的 集 合,fm,t=[PL,m,t,QL,m,t,PPV,m,t,QPV,m,t-1,Um,t-1,δm,t-1]為t時刻節(jié)點(diǎn)m處的特征量,其中:PL,m,t、QL,m,t分別為t時刻節(jié)點(diǎn)m處負(fù)荷的有功、無功功率;PPV,m,t為t時刻節(jié)點(diǎn)m處光伏逆變器的有功出力;QPV,m,t-1為t-1 時刻節(jié)點(diǎn)m處光伏逆變器的無功出力;Um,t-1、δm,t-1分別為t-1時刻節(jié)點(diǎn)m的電壓幅值、相角。若節(jié)點(diǎn)m處沒有負(fù)荷或光伏,則相應(yīng)的功率為0。

        2)觀測ot={on,t|n=1,2,…,N}。聯(lián)合觀測ot由各智能體的局部觀測on,t組成。單個智能體只能觀測到區(qū)域內(nèi)的節(jié)點(diǎn)特征量,即on,t={fm,t|m∈Mn},Mn為智能體n所在區(qū)域的節(jié)點(diǎn)集合。

        3)動作at={an,t|n=1,2,…,N}。聯(lián)合動作at由各智能體的個體動作an,t組成,其中an,t=QPV,n,t,即智能體n的動作為當(dāng)前時刻光伏逆變器的無功出力。

        4)獎勵。在本文問題中各智能體為完全合作關(guān)系,通過相互協(xié)調(diào)使得系統(tǒng)電壓偏差和網(wǎng)絡(luò)損耗最小,因此智能體之間共享獎勵。將式(1)中單個時刻的目標(biāo)函數(shù)取反,構(gòu)成全局獎勵rt,如式(3)所示。

        5)狀態(tài)轉(zhuǎn)移。在當(dāng)前的運(yùn)行狀態(tài)下,分布式光伏根據(jù)自身的策略控制逆變器輸出無功補(bǔ)償功率,電網(wǎng)潮流重新分布,節(jié)點(diǎn)電壓和網(wǎng)絡(luò)損耗發(fā)生改變,光伏有功出力和負(fù)荷功率隨機(jī)波動,由此轉(zhuǎn)移到下一時刻的狀態(tài)。

        2 面向電壓控制的價值分解DRL

        分布式光伏的輸出連續(xù)可調(diào),針對此類多智能體連續(xù)控制問題,經(jīng)典的DRL 為MADDPG 算法。MADDPG 算法訓(xùn)練簡單,實現(xiàn)方便,但存在信用分配、過度泛化等問題,在面對復(fù)雜多變的電網(wǎng)環(huán)境時控制效果欠佳。因此,下面在MADDPG 算法的基礎(chǔ)上,引入分解式價值網(wǎng)絡(luò)、集中式策略梯度2項改進(jìn)措施,提出VD-MADDPG算法,并介紹算法架構(gòu)及流程。

        2.1 MADDPG算法

        MADDPG 算法采用行動者-評論家神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如附錄A 圖A1 所示,其中包含N個策略網(wǎng)絡(luò)μn和1 個全局價值網(wǎng)絡(luò)ν,網(wǎng)絡(luò)參數(shù)分別為θn和ω。策略網(wǎng)絡(luò)μn根據(jù)觀測on,t生成相應(yīng)的動作an,t,價值網(wǎng)絡(luò)ν則根據(jù)狀態(tài)st對所有智能體的動作at進(jìn)行打分,獲得全局價值qt,如式(4)和式(5)所示。

        MADDPG 算法是一種異策略算法,其訓(xùn)練過程分為探索和更新2 個部分。在探索過程中,智能體通過行為策略收集經(jīng)驗。行為策略通常是在當(dāng)前策略網(wǎng)絡(luò)輸出的基礎(chǔ)上加入隨機(jī)噪聲ξ,從而得到行為動作abeh,n,t,而噪聲ξ服從均值為0、標(biāo)準(zhǔn)差為σ的高斯分布中隨機(jī)抽取得到,如式(6)和式(7)所示。

        經(jīng)過1 次行為策略的探索,便會產(chǎn)生1 條經(jīng)驗,用六元組(st,ot,at,rt,st+1,ot+1)表示,并將其存入經(jīng)驗回放數(shù)組中。當(dāng)數(shù)組存滿后,使用新的交互數(shù)據(jù)代替最舊的記錄。數(shù)組的大小是可調(diào)的超參數(shù),其會影響訓(xùn)練的效果。使用經(jīng)驗回放可以打破序列的相關(guān)性,且可以重復(fù)利用歷史經(jīng)驗,提高樣本效率。

        經(jīng)過預(yù)熱訓(xùn)練后,采用蒙特卡羅算法從經(jīng)驗回放數(shù)組中隨機(jī)抽取小批量的樣本,用樣本均值代替期望,以此更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。假設(shè)批量大小為B,其 中 第b(b=1,2,…,B)條 樣 本 為(sb,ob,ab,rb,s′b,o′b),sb、rb分別為更新過程中第b條樣本的狀態(tài)、獎勵值,ob={on,b|n=1,2,…,N}為更新過程中第b條樣本的觀測,ab={an,b|n=1,2,…,N}為更新過程中第b條樣本的動作,o′b={o′n,b|n=1,2,…,N},上標(biāo)“ ′ ”表示下一時刻的變量。

        為了緩解自舉和最大化造成的價值高估問題,還需要引入目標(biāo)策略網(wǎng)絡(luò)μn-和目標(biāo)價值網(wǎng)絡(luò)ν-,其網(wǎng)絡(luò)架構(gòu)與原網(wǎng)絡(luò)相同,但參數(shù)分別變?yōu)棣萵-和ω-。

        首先使用時間差分(temporal difference,TD)算法更新價值網(wǎng)絡(luò)ν的參數(shù)ω。針對第b條樣本,通過目標(biāo)網(wǎng)絡(luò)依次計算下一時刻的動作a′n,b-和價值q′b-,由此得到TD目標(biāo)yb-,如式(8)—(10)所示。

        通過價值網(wǎng)絡(luò)計算當(dāng)前的價值qb,并得到TD 誤差λb,分別如式(11)和式(12)所示。

        根據(jù)樣本的TD誤差λb,利用梯度下降更新價值網(wǎng)絡(luò)參數(shù)ω,如式(13)所示。

        式中:ην為價值網(wǎng)絡(luò)的學(xué)習(xí)率。

        然后使用策略梯度算法更新策略網(wǎng)絡(luò)μn的參數(shù)θn。針對第b條樣本,根據(jù)智能體n的觀測on,b計算其動作a^n,b,再結(jié)合該樣本中其他智能體的歷史動作a1,b、a2,b、…、an-1,b、an+1,b、…、aN,b,得到動作價值q^n,b,如式(14)和式(15)所示。

        根據(jù)鏈?zhǔn)椒▌t計算策略梯度gn,b,再由B條樣本的均值,利用梯度上升更新θn,見式(16)和式(17)。

        式中:ημ為策略網(wǎng)絡(luò)的學(xué)習(xí)率。

        最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價值網(wǎng)絡(luò)的參數(shù)θn-、ω-,分別如式(18)和式(19)所示。

        式中:τ為軟更新因子。

        2.2 分解式價值網(wǎng)絡(luò)

        MADDPG 算法存在信用分配問題,其采用集中式價值網(wǎng)絡(luò)對所有智能體的動作進(jìn)行綜合評價,但無法量化每個智能體對全局價值的貢獻(xiàn)程度,因此可能會出現(xiàn)“懶惰智能體”。當(dāng)部分智能體提前學(xué)習(xí)到較好的策略,對獎勵有較大的提升時,某些智能體會失去探索的動力。所以集中式價值網(wǎng)絡(luò)會造成最終策略陷入次優(yōu)解,導(dǎo)致算法拓展性較差。針對上述問題,本文提出分解式價值網(wǎng)絡(luò)的改進(jìn)方法,將全局價值分解為每個智能體的個體價值,由此分辨每臺光伏設(shè)備對系統(tǒng)整體電壓控制的效用。VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Neural network structure of VD-MADDPG algorithm

        智能體n將自身的觀測on,t和動作an,t輸入個體價值網(wǎng)絡(luò)νn中,其參數(shù)為ωn,由此得到個體價值qn,t,如式(20)所示。

        然后將狀態(tài)st和所有智能體的個體價值q1,t、q2,t、…、qN,t輸入混合網(wǎng)絡(luò)φ(其參數(shù)為χ)中,得到全局價值qt,如式(21)所示。

        與MADDPG 算法類似,在訓(xùn)練過程中還需引入目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個體價值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-,假設(shè)其參數(shù)分別為θn-、ωn-、χ-。

        采用TD 算法更新個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ的參數(shù)ωn、χ。根據(jù)目標(biāo)網(wǎng)絡(luò)計算第b條樣本對應(yīng)下一時刻的動作a′n,b-、個體價值q′n,b-、全局價值q′b-,由此得到TD目標(biāo)yb-,見式(22)—(25)。

        將第b條樣本中的動作an,b輸入個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ中,得到當(dāng)前時刻的個體價值qn,b和全局價值qb,再根據(jù)TD 目標(biāo)yb-計算TD 誤差λb,如式(26)—(28)所示。

        根據(jù)所有樣本的TD誤差λb,利用梯度下降和鏈?zhǔn)椒▌t更新參數(shù)ωn、χ,分別見式(29)和式(30)。

        式中:ηφ為混合網(wǎng)絡(luò)的學(xué)習(xí)率。

        2.3 集中式策略梯度

        當(dāng)MADDPG 算法更新策略網(wǎng)絡(luò)參數(shù)時,在式(15)所示動作價值q^n,b的計算過程中,只有智能體n的動作是根據(jù)當(dāng)前策略網(wǎng)絡(luò)μn計算得到的,而其他智能體均是從經(jīng)驗回放數(shù)組中抽取的歷史動作,當(dāng)前策略的動作選擇存在較大的差異,因此容易導(dǎo)致策略網(wǎng)絡(luò)的過度泛化。而在式(16)所示策略梯度gn,b的計算過程中,MADDPG算法針對每個智能體的策略進(jìn)行單獨(dú)更新,造成智能體之間的協(xié)調(diào)性較差,導(dǎo)致最終聯(lián)合策略的性能表現(xiàn)欠佳。

        因此,本文針對上述不足,提出集中式策略梯度的改進(jìn)方法。根據(jù)當(dāng)前的策略網(wǎng)絡(luò)μn,計算每一個智能體的最新動作a^n,b,再通過個體價值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ依次得到個體價值q^n,b和全局價值q^b,如式(31)—(33)所示。

        假設(shè)所有策略網(wǎng)絡(luò)的參數(shù)θ1、θ2、…、θN構(gòu)成聯(lián)合策略參數(shù)θ。求解全局價值q^b對聯(lián)合策略參數(shù)θ的梯度gb,再利用梯度上升對所有智能體的策略網(wǎng)絡(luò)進(jìn)行集中更新,如式(34)和式(35)所示。

        最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個體價值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-的參數(shù)θn-、ωn-、χ-,分別如式(36)—(38)所示。

        2.4 VD-MADDPG算法的架構(gòu)及流程

        引入上述分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施后,本文提出了VD-MADDPG 算法。VD-MADDPG 算法的實現(xiàn)方式為中心化訓(xùn)練和去中心化執(zhí)行(centralized training with decentralized execution,CTDE)架構(gòu)[20],即在配電網(wǎng)主站進(jìn)行訓(xùn)練,在配電網(wǎng)邊緣側(cè)進(jìn)行控制,其架構(gòu)圖如附錄A圖A2 所示。在中心化訓(xùn)練過程中,配電網(wǎng)主站收集全局信息,智能體之間可以共享觀測、動作等數(shù)據(jù),由此根據(jù)全局價值分?jǐn)?shù)指導(dǎo)每個智能體改進(jìn)自身策略。當(dāng)訓(xùn)練結(jié)束后,配電網(wǎng)主站將策略網(wǎng)絡(luò)的參數(shù)下發(fā)至各分布式光伏的邊緣計算裝置中,而不需要下發(fā)個體價值網(wǎng)絡(luò)和混合網(wǎng)絡(luò)的參數(shù)。去中心化執(zhí)行過程在邊緣側(cè)完成,各分布式光伏只需要采集所在局部區(qū)域的節(jié)點(diǎn)特征信息,無須進(jìn)行各裝置之間的通信和數(shù)據(jù)共享,僅依靠自身策略網(wǎng)絡(luò)的前饋運(yùn)算便可以輸出控制動作,執(zhí)行速度達(dá)到毫秒級。使用CTDE 架構(gòu)既可以學(xué)習(xí)到全局協(xié)調(diào)的控制策略,又能減少通信時延,節(jié)約通信成本,保證決策的實時性。VD-MADDPG算法的具體流程如附錄B所示。

        3 算例分析

        3.1 算例設(shè)置

        為了進(jìn)行分布式光伏主動電壓控制仿真測試,本文對IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)進(jìn)行改進(jìn),在節(jié)點(diǎn)12、17、21、24、28、32 處安裝光伏,并將配電網(wǎng)劃分為4個區(qū)域。系統(tǒng)的基準(zhǔn)電壓為12.66 kV,電壓安全范圍為[0.95,1.05] p.u.。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)拓?fù)淙绺戒汣圖C1所示。

        光伏及負(fù)荷數(shù)據(jù)來自華北電網(wǎng)某地區(qū)2020 —2022連續(xù)3 a的歷史記錄,數(shù)據(jù)時間間隔為5 min,與實時調(diào)度時間尺度一致。本文設(shè)置總控制周期為1 d,即1 個控制周期內(nèi)包含288 個時間步。從總數(shù)據(jù)集中隨機(jī)選取10 d 數(shù)據(jù)構(gòu)成驗證集,隨機(jī)選取120 d數(shù)據(jù)構(gòu)成測試集,其余數(shù)據(jù)則作為訓(xùn)練集。

        為了驗證本文所提算法的有效性,選取無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種控制方法進(jìn)行對比分析。其中:無控制方法表示將所有光伏逆變器的無功出力設(shè)置為0;基于MADDPG 算法、基于VD-MADDPG 算法的控制方法的優(yōu)化目標(biāo)一致,均為求解最優(yōu)協(xié)調(diào)控制策略,使系統(tǒng)電壓偏差、網(wǎng)絡(luò)損耗最小,協(xié)調(diào)因子α=0.1;基于集中式優(yōu)化的控制方法表示在全局網(wǎng)絡(luò)參數(shù)已知的情況下得出理論最優(yōu)解。本文根據(jù)經(jīng)驗列出超參數(shù)的典型取值范圍,然后進(jìn)行網(wǎng)格搜索確定各超參數(shù)的最佳取值。最終結(jié)果如下:神經(jīng)網(wǎng)絡(luò)隱藏層維度為64,經(jīng)驗回放數(shù)組的大小為5 000,樣本批量大小為32,折扣率γ=0.99,行為策略中的噪聲標(biāo)準(zhǔn)差σ=0.1,價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)、混合網(wǎng)絡(luò)的學(xué)習(xí)率ην、ημ、ηφ均為0.001,目標(biāo)網(wǎng)絡(luò)的軟更新因子τ=0.01。

        3.2 訓(xùn)練結(jié)果

        采用基于MADDPG 算法和基于VD-MADDPG算法的控制方法訓(xùn)練智能體,設(shè)置總訓(xùn)練回合數(shù)為400,每隔10 個回合進(jìn)行1 次驗證,計算其平均獎勵值。選取5 個隨機(jī)種子進(jìn)行重復(fù)訓(xùn)練,觀察訓(xùn)練過程的穩(wěn)定性。同時對比無控制方法和基于集中式優(yōu)化的控制方法的獎勵值。獎勵訓(xùn)練曲線見圖2,圖中陰影部分表示誤差范圍。

        圖2 獎勵訓(xùn)練曲線Fig.2 Training curves of reward

        由圖2 可知,本文所提VD-MADDPG 算法在獎勵大小、收斂速度、訓(xùn)練穩(wěn)定性等方面均優(yōu)于傳統(tǒng)的MADDPG 算 法。MADDPG 算 法 和VD-MADDPG 算法在訓(xùn)練初期采用行為策略進(jìn)行隨機(jī)探索,控制效果較差,獎勵值甚至低于無控制時的表現(xiàn)。隨著訓(xùn)練回合數(shù)的增加,智能體不斷地積累經(jīng)驗,并逐漸學(xué)習(xí)到更優(yōu)的控制策略,獎勵曲線隨之增大直至收斂。無控制方法和基于集中式優(yōu)化的控制方法的平均獎勵分別為-0.682 8、-0.354 6,基于MADDPG 算法和基于VD-MADDPG 算法的控制方法分別在第300 個回合和第200 個回合左右收斂,最終獎勵值分別為-0.417 7、-0.384 7,相比于無控制方法分別提升了38.83 %、43.66 %。相比基于MADDPG 算法的控制方法,基于VD-MADDPG 算法的控制方法的收斂值更加接近理論最優(yōu)值,且誤差范圍更窄,波動性更小,具有更好的訓(xùn)練穩(wěn)定性,由此驗證了本文所提VD-MADDPG 算法的優(yōu)越性。VD-MADDPG 算法采用了分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)方法,因此能夠評價每臺光伏對系統(tǒng)電壓控制的貢獻(xiàn)程度,避免出現(xiàn)“懶惰智能體”,并且對所有智能體的策略進(jìn)行協(xié)同更新,能夠保證學(xué)習(xí)到全局最優(yōu)的聯(lián)合策略,進(jìn)一步提升了算法的訓(xùn)練效果。

        3.3 測試集結(jié)果

        將上述訓(xùn)練好的策略模型應(yīng)用于測試集上進(jìn)行測試,對比4 種方法的控制性能。測試指標(biāo)包括電壓偏差、網(wǎng)絡(luò)損耗、計算時間。此外,為了從時空的不同角度進(jìn)一步刻畫電壓控制效果,本文還引入電壓越限率、完全控制率2 項指標(biāo)。電壓越限率是指電壓超過安全范圍的節(jié)點(diǎn)的數(shù)量比例,完全控制率是指將所有節(jié)點(diǎn)的電壓控制在安全范圍內(nèi)的時間占比。測試集結(jié)果見表1,表中電壓偏差為標(biāo)幺值。

        表1 測試集結(jié)果Table 1 Results of test set

        由表1可知,相較于MADDPG算法,VD-MADDPG算法在測試集上取得了更好的穩(wěn)壓減損控制效果。當(dāng)不對配電網(wǎng)中的分布式光伏進(jìn)行控制時,系統(tǒng)電壓存在較大的偏差,平均有4.75 % 的節(jié)點(diǎn)發(fā)生電壓越限,僅有78.46 % 的時間能保證所有節(jié)點(diǎn)的電壓均處于安全范圍內(nèi)。無控制時光伏逆變器的無功出力為0,潮流在節(jié)點(diǎn)間的流動較少,因此線路上的功率損耗較小。當(dāng)采用基于MADDPG 算法、基于VD-MADDPG算法的控制方法后,電壓波動得到了明顯平抑,電壓偏差分別降低了46.87 %、58.88 %,電壓越限率分別減少了88.84 %、99.16 %,完全控制率分別提升了13.97 %、26.51 %,這驗證了使用分布式光伏進(jìn)行主動電壓控制的有效性。而相較于MADDPG算法,VD-MADDPG 算法的穩(wěn)壓性能更優(yōu)異,僅有0.04 % 的節(jié)點(diǎn)發(fā)生電壓越限,配電網(wǎng)在99.26 % 的時間內(nèi)可安全穩(wěn)定運(yùn)行。雖然使用光伏逆變器輸出無功后,會增加系統(tǒng)的有功損耗,但VD-MADDPG 算法可在實現(xiàn)優(yōu)異的穩(wěn)壓效果的基礎(chǔ)上,保持較小的網(wǎng)絡(luò)損耗,其網(wǎng)損值為MADDPG 算法結(jié)果的33.87 %。此外,VD-MADDPG 算法的電壓偏差、電壓越限率、完全控制率、網(wǎng)絡(luò)損耗的標(biāo)準(zhǔn)差分別為MADDPG 算法結(jié)果的79.77 %、22.62 %、23.93 %、70.31 %,這表明VD-MADDPG 算法在面對不同的復(fù)雜場景時,具有更好的魯棒性、泛化能力。上述結(jié)果驗證了本文所提算法的優(yōu)越性,通過使用分解式價值網(wǎng)絡(luò)和集中式策略梯度可大幅提升算法的性能表現(xiàn)。

        雖然VD-MADDPG 算法的測試結(jié)果無法達(dá)到理論最優(yōu)值,但集中式優(yōu)化方法需要依賴于復(fù)雜的量測裝置和完善的通信設(shè)施,建設(shè)成本過高,而VD-MADDPG 算法能從歷史經(jīng)驗中學(xué)習(xí)到有效的協(xié)調(diào)策略,通過分布式控制達(dá)到近似最優(yōu)的穩(wěn)壓減損效果,因此更加適用于低感知度配電網(wǎng)。此外,從表1 中還可看出,MADDPG、VD-MADDPG 算法僅需1 ms 左右的時間便可完成決策,遠(yuǎn)小于優(yōu)化求解所需時間。這是因為MADDPG、VD-MADDPG 算法在執(zhí)行過程中只需進(jìn)行策略網(wǎng)絡(luò)的前饋運(yùn)算,因此具有極高的時效性,可充分滿足在線應(yīng)用的要求。MADDPG 和VD-MADDPG 算法的策略網(wǎng)絡(luò)結(jié)構(gòu)相同,僅網(wǎng)絡(luò)參數(shù)存在差異,因此計算時間基本一致。

        3.4 典型日測試結(jié)果

        為了驗證本文所提方法在高光伏滲透率情況下的魯棒性和泛化能力,從測試集中選取光伏滲透率為250%的典型日場景進(jìn)行測試,其光伏及負(fù)荷曲線如附錄C 圖C2 所示。由圖可知,光伏出力和負(fù)荷需求分別在13:15、20:00左右達(dá)到最大值。

        在該典型日場景下,分別使用無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種方法進(jìn)行控制。節(jié)點(diǎn)17 位于線路末端,且安裝有大容量光伏,因此將節(jié)點(diǎn)17 作為代表性節(jié)點(diǎn),對比4 種控制方法下的電壓(標(biāo)幺值)曲線,并觀察系統(tǒng)網(wǎng)絡(luò)損耗的變化情況,分別見圖3和圖4。

        圖4 典型日的網(wǎng)絡(luò)損耗曲線Fig.4 Network loss curves on typical day

        由圖3可看出,相較于傳統(tǒng)MADDPG 算法,本文所提VD-MADDPG 算法取得了更好的穩(wěn)壓效果。當(dāng)不對電壓進(jìn)行控制時,節(jié)點(diǎn)電壓在11:30 — 14:45 時段超過安全上限,在19:30 — 22:45 時段低于安全下限,節(jié)點(diǎn)電壓偏差的平均值為0.037 p.u.,電壓波動劇烈,電能質(zhì)量很差。當(dāng)采用MADDPG 算法進(jìn)行控制時,節(jié)點(diǎn)電壓整體抬升,雖然保證了夜晚時段的電壓安全,但在正午時段電壓越限的嚴(yán)重程度反而加重了,電壓偏差高達(dá)0.042 p.u.。而采用本文所提VD-MADDPG 算法進(jìn)行改進(jìn)后,節(jié)點(diǎn)電壓在整個典型日均處于安全范圍之內(nèi),電壓偏差降為0.019 p.u.,相比MADDPG 算法的結(jié)果減少了54.76 %,說明VD-MADDPG 算法能夠?qū)W習(xí)到更好的控制策略,實現(xiàn)多臺光伏設(shè)備的有效協(xié)調(diào),解決了電壓越限問題。集中式優(yōu)化雖然能夠給出理論最優(yōu)解,電壓偏差達(dá)到最小值0.017 p.u.,但該方法需要依賴于精確的網(wǎng)絡(luò)參數(shù),且求解速度緩慢,難以進(jìn)行在線部署。而VD-MADDPG 算法能夠從歷史交互數(shù)據(jù)中學(xué)習(xí)到近似最優(yōu)的控制策略,其電壓曲線與集中式優(yōu)化方法得到的電壓曲線十分接近,在正午時段幾乎重合,并且可以進(jìn)行實時決策,能夠充分滿足實際調(diào)度需要,這驗證了本文所提VD-MADDPG算法的優(yōu)越性。

        由圖4可看出,4種控制方法下的全天平均網(wǎng)絡(luò)損耗分別為0.110 4、0.251 0、0.141 2、0.130 5 MW。無控制時的功率流動最少,因此網(wǎng)絡(luò)損耗最小。相比于MADDPG 算法,采用VD-MADDPG 算法時網(wǎng)絡(luò)損耗減少了43.75 %,能夠在保證電壓安全穩(wěn)定的同時,將功率損耗維持在較小的水平,僅略高于集中式優(yōu)化方法的結(jié)果。這進(jìn)一步驗證了本文所提VD-MADDPG算法在主動電壓控制問題上的優(yōu)越性。

        為了進(jìn)一步驗證VD-MADDPG 算法對各智能體的動作改進(jìn)效果,將光伏出力最大的13:15時刻作為代表性時刻,展示基于MADDPG 算法、VD-MADDPG算法、集中式優(yōu)化這3種控制方法下6臺光伏逆變器PV1—PV6的無功功率動作,結(jié)果如圖5所示。

        圖5 光伏逆變器的無功功率動作Fig.5 Reactive power action of photovoltaic inverters

        集中式優(yōu)化方法能給出理論上的最優(yōu)解,因此可將該方法下的光伏逆變器無功出力作為最優(yōu)動作基準(zhǔn)。由圖5 可知,當(dāng)采用VD-MADDPG 算法改進(jìn)后,6 臺光伏逆變器的無功出力均變得更好,與最優(yōu)動作基準(zhǔn)的差距變小。當(dāng)采用MADDPG 算法時,各光伏逆變器的無功出力與最優(yōu)動作基準(zhǔn)的相對最大差距為94.24 %,相對差距最大的“懶惰智能體”為PV4。由于懶惰現(xiàn)象的存在,各光伏逆變器間無法做到有效協(xié)調(diào),控制策略陷入次優(yōu)解,難以解決電壓越限問題。而采用VD-MADDPG 算法后,PV4的相對動作差距降為17.50 %,其他光伏逆變器的動作差距也均得到降低。這說明采用價值分解進(jìn)行算法改進(jìn)后,每個智能體都有相應(yīng)的個體價值網(wǎng)絡(luò)對自身動作進(jìn)行打分,評價其對全局價值的貢獻(xiàn),以此督促每個智能體進(jìn)行經(jīng)驗探索和策略學(xué)習(xí),避免出現(xiàn)“懶惰智能體”,更好地實現(xiàn)了智能體間的協(xié)調(diào)合作。

        4 結(jié)論

        由于存在信用分配、過度泛化等問題,傳統(tǒng)MADDPG 算法在進(jìn)行分布式光伏主動電壓控制時,性能表現(xiàn)欠佳。為此,本文提出了一種基于價值分解的改進(jìn)VD-MADDPG 算法用于分布式光伏主動電壓控制。首先,將該問題建模為Dec-POMDP;然后,在CTDE架構(gòu)的基礎(chǔ)上,提出了分解式價值網(wǎng)絡(luò)和集中式策略梯度2 項改進(jìn)措施,將全局價值網(wǎng)絡(luò)分解為個體價值網(wǎng)絡(luò)和混合網(wǎng)絡(luò),以此評價每個智能體對全局價值的貢獻(xiàn)程度,并采用所有智能體的當(dāng)前策略進(jìn)行集中參數(shù)更新,以此訓(xùn)練得到更加協(xié)調(diào)的聯(lián)合控制策略。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)的算例結(jié)果表明,相比于傳統(tǒng)MADDPG 算法,VD-MADDPG算法能夠有效地平抑電壓波動,緩解電壓越限,降低網(wǎng)絡(luò)損耗,具有更加優(yōu)越的穩(wěn)壓減損控制效果。同時,VD-MADDPG 算法的收斂速度更快,訓(xùn)練過程更穩(wěn)定,針對復(fù)雜場景的魯棒性更強(qiáng)。

        本文所提方法同樣適用于電動汽車、儲能、智能軟開關(guān)等可連續(xù)調(diào)節(jié)的電力電子設(shè)備,具有可拓展性。進(jìn)一步考慮上述設(shè)備在主動電壓控制問題中的精細(xì)化建模,實現(xiàn)多種靈活性資源的有效協(xié)調(diào),是筆者后續(xù)的研究方向。

        附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。

        猜你喜歡
        配電網(wǎng)價值智能
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        配電網(wǎng)自動化的應(yīng)用與發(fā)展趨勢
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        一粒米的價值
        “給”的價值
        基于IEC61850的配電網(wǎng)數(shù)據(jù)傳輸保護(hù)機(jī)制
        電測與儀表(2016年5期)2016-04-22 01:14:14
        配電網(wǎng)不止一步的跨越
        河南電力(2016年5期)2016-02-06 02:11:24
        基于CIM的配電網(wǎng)線損計算
        国产熟妇搡bbbb搡bb七区| 国产精品久久免费中文字幕| 亚洲精品国产成人片| 欧美人与动牲猛交xxxxbbbb | 日本视频二区在线观看| 国产一区二区视频免费| 婷婷四虎东京热无码群交双飞视频| 爆爽久久久一区二区又大又黄又嫩| 久久久久久人妻精品一区百度网盘| 99精品欧美一区二区三区美图| 久久精品国产成人午夜福利| 国产精品又湿又黄九九九久久嫩草| 久久久久亚洲av成人片| 无码精品a∨在线观看十八禁| 三级全黄的视频在线观看| 精品国产一区二区三区男人吃奶| 精品国产一区二区三区av麻| 最新中文字幕av无码不卡| 无码中文字幕加勒比一本二本 | 日本大片免费观看视频| 国产黄页网站在线观看免费视频| 男女在线免费视频网站| 一区二区三区四区中文字幕av | 中文字幕有码无码人妻av蜜桃| 国内精品伊人久久久久影院对白 | 又白又嫩毛又多15p| 国产精品国产三级国产av创| 西西少妇一区二区三区精品| 亚洲综合一区二区三区天美传媒| 少妇av射精精品蜜桃专区| 人妻丰满多毛熟妇免费区| 久久亚洲精精品中文字幕早川悠里| 开心五月骚婷婷综合网| 欧美国产综合欧美视频| 亚洲无码精品免费片| 日本高清不卡一区二区三区| 免费一级淫片日本高清| 国产成人无码区免费内射一片色欲| 免费一区在线观看| 蜜桃av一区在线观看| 久久久国产精品|