張 沛,陳玉鑫,王光華,李曉影
(1.北京交通大學(xué)電氣工程學(xué)院,北京市 100044;2.國網(wǎng)河北省電力有限公司保定供電分公司,河北省 保定市 071000)
配電網(wǎng)造成的故障停電時(shí)間占總停電時(shí)間的80%[1]。分布式電源(distributed generator,DG)的接入使傳統(tǒng)的輻射狀配電網(wǎng)變成了多電源多端系統(tǒng),使配電網(wǎng)的運(yùn)行和保護(hù)更加復(fù)雜[2]。因此,研究有效的含DG 配電網(wǎng)的故障恢復(fù)方法十分必要。
配電網(wǎng)故障恢復(fù)是指在配電網(wǎng)線路發(fā)生故障并被切除后,通過對(duì)系統(tǒng)中常用饋線與聯(lián)絡(luò)線的線路開關(guān)控制,重新組織系統(tǒng)網(wǎng)絡(luò)拓?fù)湟酝瓿蓪?duì)下游失電負(fù)荷的供電恢復(fù)。國內(nèi)外對(duì)此已做了大量相關(guān)研究,常見的方法有啟發(fā)式搜索算法、專家系統(tǒng)法、數(shù)學(xué)優(yōu)化算法、圖論算法、混合算法等[3]。當(dāng)DG 大量并入電網(wǎng)后,其帶來的電源支撐作用受到關(guān)注。文獻(xiàn)[4-6]提出了配電網(wǎng)停電狀態(tài)下的孤島劃分方法,但沒有考慮到輸電網(wǎng)電源供電下的網(wǎng)絡(luò)重構(gòu)問題。文獻(xiàn)[7-9]綜合考慮DG 發(fā)電與網(wǎng)絡(luò)重構(gòu)進(jìn)行配電網(wǎng)故障恢復(fù),將主動(dòng)孤島與網(wǎng)絡(luò)重構(gòu)相結(jié)合。文獻(xiàn)[10]首先確定各孤島系統(tǒng)的最佳供電范圍,然后利用改進(jìn)支路交換法進(jìn)行重構(gòu)優(yōu)化。文獻(xiàn)[11]在電網(wǎng)重構(gòu)過程中進(jìn)行孤島劃分,將孤島劃分后的負(fù)荷恢復(fù)率納入總體目標(biāo)函數(shù),使重構(gòu)和孤島劃分結(jié)果同時(shí)影響最終的全局最優(yōu)解。以上文獻(xiàn)同時(shí)考慮了DG 的支撐作用與網(wǎng)絡(luò)拓?fù)渥儞Q兩種故障恢復(fù)方式,但忽略了DG 帶來的不確定性,即都只在一個(gè)“時(shí)間斷面”上對(duì)故障恢復(fù)進(jìn)行研究,忽略了DG 的出力變化。
對(duì)于以上問題,文獻(xiàn)[12]提出多時(shí)間尺度下的含DG 配電網(wǎng)故障動(dòng)態(tài)恢復(fù)策略,證明了在電網(wǎng)含DG 時(shí),不同的DG 出力場景會(huì)顯著影響恢復(fù)策略;文獻(xiàn)[13]利用滾動(dòng)預(yù)測模型考慮了多個(gè)時(shí)間段之間配電網(wǎng)狀態(tài)的相關(guān)性,提出了基于魯棒模型預(yù)測控制的彈性運(yùn)行策略;文獻(xiàn)[14]考慮光伏及負(fù)荷的時(shí)變性,驗(yàn)證了其對(duì)故障恢復(fù)決策的影響,同時(shí)證明了不同故障恢復(fù)時(shí)間尺度也會(huì)影響光伏及負(fù)荷的變化,從而最終影響故障恢復(fù)決策。
除了DG,考慮到方法的實(shí)用性,不少學(xué)者將實(shí)際檢修場景與配電開關(guān)設(shè)備納入考量。文獻(xiàn)[15]將DG 的黑啟動(dòng)能力與實(shí)際情況中的檢修次序納入考慮,在減少故障下切負(fù)荷量的同時(shí)優(yōu)化故障檢修策略;文獻(xiàn)[16]進(jìn)一步考慮配電網(wǎng)中不同種類開關(guān)的可控性差異,從而與檢修人員的檢修策略結(jié)合進(jìn)行優(yōu)化;文獻(xiàn)[17-18]提出了基于新型電力電子裝置智能軟開關(guān)(soft open point,SOP)的故障恢復(fù)策略,但其對(duì)配電設(shè)備本身性能具有較強(qiáng)的依賴性。以上成果均充分研究了含DG 的配電網(wǎng)故障恢復(fù)問題,但仍存在以下不足:1)所建模型均為規(guī)劃模型與搜索模型,而在大規(guī)模系統(tǒng)中,DG 與負(fù)荷的不確定性將使得求解場景變得復(fù)雜,且開關(guān)動(dòng)作組合將出現(xiàn)爆炸式增長,以上求解算法的求解速度將大大限制其在線應(yīng)用的能力;2)均只在一種固定的配電網(wǎng)拓?fù)浣Y(jié)構(gòu)進(jìn)行故障恢復(fù)的研究,故障恢復(fù)方法對(duì)配電網(wǎng)頻繁變化的拓?fù)浣Y(jié)構(gòu)適應(yīng)性不強(qiáng)。
因此,本文考慮配電網(wǎng)網(wǎng)絡(luò)拓?fù)渥兓?,提出一種基于圖強(qiáng)化學(xué)習(xí)的含DG 的配電網(wǎng)故障恢復(fù)決策方法。本文的主要貢獻(xiàn)如下:
1)將圖神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)相結(jié)合,搭建了圖強(qiáng)化學(xué)習(xí)(graph reinforcement learning,GRL)故障恢復(fù)模型,設(shè)計(jì)GRL 狀態(tài)空間、動(dòng)作空間與獎(jiǎng)勵(lì)函數(shù),完成智能體的訓(xùn)練與交互;
2)利用圖數(shù)據(jù)表征配電網(wǎng)拓?fù)浣Y(jié)構(gòu)與電氣特征信息,設(shè)置前置圖神經(jīng)網(wǎng)絡(luò)接收并處理圖數(shù)據(jù),利用圖神經(jīng)網(wǎng)絡(luò)對(duì)變化拓?fù)涞奶幚砟芰μ岣邔?duì)配電網(wǎng)拓?fù)渥兓倪m應(yīng)性;
3)設(shè)置后置圖神經(jīng)網(wǎng)絡(luò)嵌入強(qiáng)化學(xué)習(xí)框架,在利用配電網(wǎng)網(wǎng)架結(jié)構(gòu)信息的同時(shí),充分利用RL 對(duì)不確定性因素的天然適應(yīng)性進(jìn)行快速求解,滿足在線求解需求。
GRL 的整體框架如圖1 所示。首先,將含DG的實(shí)際配電網(wǎng)抽象為圖數(shù)據(jù),圖數(shù)據(jù)包含實(shí)際配電網(wǎng)的網(wǎng)絡(luò)拓?fù)浼捌潆妷禾卣鲾?shù)據(jù)X兩部分。然后,將抽象出來的圖數(shù)據(jù)輸入GRL 模型,GRL 中先搭建兩層前置圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)來處理圖數(shù)據(jù),完成圖數(shù)據(jù)的接收、信息提取、聚合與轉(zhuǎn)化后,將處理后的特征信息傳遞給下游任務(wù)。在下游深度Q 網(wǎng)絡(luò)(deep Q network,DQN)框架的eval net 和target net 中各嵌入兩層GCN,以進(jìn)一步提取網(wǎng)架信息與電壓電流特征信息,且這兩層GCN 將隨DQN 一起更新,最終由eval net 輸出t時(shí)刻動(dòng)作值at。智能體執(zhí)行動(dòng)作at,環(huán)境狀態(tài)由當(dāng)前狀態(tài)st切換為下一狀態(tài)st+1,并反饋當(dāng)前動(dòng)作獎(jiǎng)勵(lì)值rt供智能體進(jìn)行學(xué)習(xí)。
圖1 GRL 算法框架Fig.1 Framework of GRL algorithm
在圖數(shù)據(jù)提取部分,將實(shí)際配電網(wǎng)的網(wǎng)架拓?fù)渑c電氣特征信息抽象為圖數(shù)據(jù)。其中,網(wǎng)架拓?fù)浣Y(jié)構(gòu)常用鄰接矩陣來描述。設(shè)圖G=(V,E)中含有n個(gè)節(jié)點(diǎn),節(jié)點(diǎn)集合V={v1,v2,…,vn},其中,vi表示第i個(gè)節(jié)點(diǎn),i=1,2,…,n,則其鄰接矩陣A(G)=[aef]n×n,其元素aef可表示為:
式中:下標(biāo)e和f為節(jié)點(diǎn)編號(hào);E為邊集合。
圖1 中實(shí)際配電網(wǎng)的鄰接矩陣ADN為:
由實(shí)際配電網(wǎng)接線關(guān)系抽象出來的圖的鄰接矩陣表征各節(jié)點(diǎn)之間的連接關(guān)系,即拓?fù)浣Y(jié)構(gòu)。而節(jié)點(diǎn)電壓與線路電流分別為節(jié)點(diǎn)與邊上的特征數(shù)據(jù),拓?fù)浣Y(jié)構(gòu)與特征數(shù)據(jù)H共同組成了圖數(shù)據(jù)。
在狀態(tài)輸入部分,首先由前置GCN 完成對(duì)配電網(wǎng)圖數(shù)據(jù)的接收、信息提取、聚合與轉(zhuǎn)化。GCN 是深度神經(jīng)網(wǎng)絡(luò)(deep neural network,GNN)中的典型類型,其將卷積運(yùn)算從圖像等傳統(tǒng)數(shù)據(jù)推廣到圖數(shù)據(jù)。圖卷積操作的實(shí)現(xiàn)公式為:
式中:H(l+1)為第l層GCN 卷積處理后的輸出信息;H(l)為第l層GCN 的輸入信息;A?=A+Ιn,其中,A為圖的鄰接矩陣,In為單位矩陣;D為度矩陣;W(l)為第l層GCN 的權(quán)重參數(shù)矩陣;σ(·)為激活函數(shù)。L=又稱拉普拉斯矩陣,其作用是防止在運(yùn)算中出現(xiàn)數(shù)值不穩(wěn)定的情況。
由式(3)可知,W(l)的矩陣維度與圖的規(guī)模(即圖中節(jié)點(diǎn)數(shù)量)無關(guān),只與各節(jié)點(diǎn)輸入特征維度有關(guān),即每個(gè)節(jié)點(diǎn)上的圖卷積核參數(shù)W(l)是共享的。例如,當(dāng)圖中包含g個(gè)節(jié)點(diǎn)且每個(gè)節(jié)點(diǎn)的輸入特征維度為k時(shí),即每個(gè)節(jié)點(diǎn)上采取了k個(gè)不同的特征輸入(本文模型的節(jié)點(diǎn)輸入特征為三相電壓,即k=3),則H(1)的維度為g×k,W(1)的維度為k×k,與整個(gè)圖的維度g無關(guān)。這意味著,GCN 在每一層實(shí)現(xiàn)了參數(shù)矩陣的全圖共享,這也是GCN 在訓(xùn)練過程中可以處理變化拓?fù)淙蝿?wù)的根本原因。圖2 顯示了GCN 在針對(duì)圖數(shù)據(jù)進(jìn)行卷積操作過程中的參數(shù)共享方式。
圖2 GCN 參數(shù)共享示意圖Fig.2 Schematic diagram of GCN parameter sharing
前置GCN 將處理后的信息傳遞給下游GRL 智能體,在RL 框架中嵌入了兩層后置GCN,后置GCN 在訓(xùn)練過程中與全連接神經(jīng)網(wǎng)絡(luò)保持同步更新??紤]到配電網(wǎng)故障恢復(fù)決策問題中的控制對(duì)象為系統(tǒng)中的各線路開關(guān),每個(gè)線路開關(guān)只有“斷開”與“閉合”兩種狀態(tài),而一個(gè)確定的配電網(wǎng)中的線路開關(guān)數(shù)量是有限的,屬于離散動(dòng)作輸出。因此,選擇RL 中的DQN 算法,其算法流程如圖3 所示。
圖3 DQN 算法流程Fig.3 Process of DQN algorithm
DQN 算法通過經(jīng)驗(yàn)回放池與凍結(jié)神經(jīng)網(wǎng)絡(luò)兩項(xiàng)機(jī)制打破數(shù)據(jù)之間的相關(guān)性,提升訓(xùn)練效率[19]。如圖3 所示,智能體訓(xùn)練過程中每完成一次訓(xùn)練交互過程便產(chǎn)生一條經(jīng)驗(yàn)放入經(jīng)驗(yàn)回放池,當(dāng)經(jīng)驗(yàn)回放池中經(jīng)驗(yàn)存到一定數(shù)量后智能體開始進(jìn)行學(xué)習(xí),即從經(jīng)驗(yàn)回放池中提取批記憶,分別將記憶中的(s,a)與s'輸入eval net 與target net 計(jì)算Q值,其中,s'為狀態(tài)s的下一個(gè)狀態(tài),a為動(dòng)作,再利用Q值計(jì)算損失函數(shù),并根據(jù)神經(jīng)網(wǎng)絡(luò)的反向傳播算法對(duì)當(dāng)前eval net 網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,經(jīng)過固定迭代次數(shù)后,將target net 網(wǎng)絡(luò)參數(shù)替換為eval net 網(wǎng)絡(luò)參數(shù)。
智能體所能獲取的所有系統(tǒng)信息共同組成了系統(tǒng)狀態(tài)空間。系統(tǒng)狀態(tài)信息代表了智能體所感知到的環(huán)境信息,包括執(zhí)行完智能體輸出的動(dòng)作后環(huán)境所發(fā)生的變化。從強(qiáng)化學(xué)習(xí)的目標(biāo)來看,狀態(tài)信息是智能體制定決策和評(píng)估其長期收益的依據(jù)。因此,狀態(tài)空間設(shè)計(jì)的好壞直接決定了GRL 算法能否收斂、收斂速度以及最終性能。
本文提出的GRL 配電網(wǎng)故障恢復(fù)方法中系統(tǒng)狀態(tài)空間設(shè)計(jì)為:
式中:St為t時(shí)刻系統(tǒng)狀態(tài)空間;Vt為t時(shí)刻系統(tǒng)節(jié)點(diǎn)電壓向量;Gt為t時(shí)刻配電系統(tǒng)拓?fù)鋱D,其內(nèi)含網(wǎng)絡(luò)拓?fù)涞慕Y(jié)構(gòu)信息。
考慮到配電網(wǎng)故障恢復(fù)策略的執(zhí)行過程中,不僅需要獲知故障恢復(fù)后系統(tǒng)中各線路開關(guān)的狀態(tài),也需要獲知在故障恢復(fù)過程中每步動(dòng)作的具體開關(guān)操作順序,本文模型中的動(dòng)作空間Aa設(shè)計(jì)為:
式中:ai為改變系統(tǒng)中第i條線路的開關(guān)狀態(tài),即若當(dāng)前系統(tǒng)中第i條線路為斷開狀態(tài),則閉合其線路開關(guān)使線路重新投入,若當(dāng)前系統(tǒng)中第i條線路為閉合狀態(tài),則打開其線路開關(guān)使線路斷開以退出運(yùn)行,這種設(shè)計(jì)有效避免了動(dòng)作選擇的不合法性;下標(biāo)Nl為系統(tǒng)中的支路數(shù)量;Nj為第j個(gè)回合已經(jīng)操作過的線路集合,這樣可以有效避免動(dòng)作的無效性。
獎(jiǎng)勵(lì)函數(shù)R分為兩部分,即獎(jiǎng)勵(lì)部分Rr與懲罰部分Rp。首先明確一個(gè)完整回合包含多個(gè)單步動(dòng)作,其中,第h回合第c次動(dòng)作的獎(jiǎng)勵(lì)的數(shù)學(xué)表達(dá)式為:
式中:Rr,c為當(dāng)前回合第c次動(dòng)作獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)部分值;Ploss,c為第c次動(dòng)作執(zhí)行完后的負(fù)荷損失功率;Pnet,c為第c次動(dòng)作執(zhí)行完后的網(wǎng)絡(luò)損耗功率;PL為配電系統(tǒng)總負(fù)荷;ΔRr,c為附加獎(jiǎng)勵(lì)部分,其含義為本回合中當(dāng)前動(dòng)作與上一個(gè)動(dòng)作相比負(fù)荷恢復(fù)率的增加值,用來描述當(dāng)前動(dòng)作在故障恢復(fù)任務(wù)中作出的新貢獻(xiàn);Rgreat為稀疏獎(jiǎng)勵(lì)值,當(dāng)前動(dòng)作執(zhí)行完后系統(tǒng)負(fù)荷恢復(fù)率為100%,且滿足各種運(yùn)行約束,此時(shí)賦予較大的稀疏獎(jiǎng)勵(lì)值以加強(qiáng)對(duì)智能體學(xué)習(xí)方向的引導(dǎo)。若Ploss,c-1-Ploss,c>0,則當(dāng)前動(dòng)作與上一個(gè)動(dòng)作相比故障恢復(fù)率有所上升,即當(dāng)前動(dòng)作對(duì)故障恢復(fù)產(chǎn)生了新的積極影響;若Ploss,c-1-Ploss,c<0,則說明當(dāng)前動(dòng)作不僅沒有恢復(fù)更多的失電負(fù)荷,反而使停電范圍進(jìn)一步擴(kuò)大。另外,若當(dāng)前動(dòng)作為本回合的第1 個(gè)動(dòng)作,即c=1 時(shí),附加獎(jiǎng)勵(lì)值為0??紤]到實(shí)際系統(tǒng)中的倒閘操作時(shí)間與誤操作率,在達(dá)到相同故障恢復(fù)效果時(shí),開關(guān)動(dòng)作次數(shù)應(yīng)越少越好。
動(dòng)作的懲罰部分包括電壓越限懲罰、電流越限懲罰和配電網(wǎng)輻射狀拓?fù)浼s束懲罰。第h回合第c次動(dòng)作的懲罰的數(shù)學(xué)表達(dá)式為:
式中:Rp,c為當(dāng)前回合第c次動(dòng)作獎(jiǎng)勵(lì)函數(shù)的懲罰部分值;PV,c、PI,c和PLoop,c分別為第c次動(dòng)作的電壓越限懲罰、電流越限懲罰和配電網(wǎng)輻射狀拓?fù)浼s束懲罰。
對(duì)于電壓越限懲罰和電流越限懲罰,其數(shù)學(xué)表達(dá)式如下:
式中:PU為當(dāng)出現(xiàn)電壓越限時(shí)設(shè)置的懲罰值;PI為當(dāng)出現(xiàn)電流越限時(shí)設(shè)置的懲罰值。
對(duì)于配電網(wǎng)輻射狀拓?fù)浼s束懲罰,綜合考慮經(jīng)濟(jì)性與安全性,配電網(wǎng)要求“閉環(huán)設(shè)計(jì)、開環(huán)運(yùn)行”,配電系統(tǒng)環(huán)網(wǎng)示意圖見附錄A 圖A1。若配電網(wǎng)拓?fù)涑霈F(xiàn)環(huán)網(wǎng)結(jié)構(gòu),在發(fā)生短路故障時(shí)易造成短路電流過大等問題,從而降低供電可靠性。因此,此時(shí)要給予相應(yīng)開關(guān)動(dòng)作一定的懲罰。第h回合第c次動(dòng)作的配電網(wǎng)輻射狀拓?fù)浼s束懲罰的數(shù)學(xué)表達(dá)式為:
式中:PLoop為配電網(wǎng)輻射狀拓?fù)浼s束懲罰。
智能體最終的目標(biāo)是長期獎(jiǎng)勵(lì)最大化,最終系統(tǒng)獎(jiǎng)勵(lì)函數(shù)Rc為獎(jiǎng)勵(lì)部分與懲罰部分之和:
在不計(jì)動(dòng)作時(shí)間的前提下,系統(tǒng)每執(zhí)行完一個(gè)開關(guān)動(dòng)作后其下一個(gè)狀態(tài)都是確定的。因此,在本模型中,狀態(tài)轉(zhuǎn)移概率始終為1。
為驗(yàn)證本文所提方法的有效性,本節(jié)利用改進(jìn)的PG&E 69[20]節(jié)點(diǎn)算例進(jìn)行驗(yàn)證。
PG&E 69 節(jié)點(diǎn)算例系統(tǒng)中包含69 個(gè)節(jié)點(diǎn)、78 條線路,如圖4 所示。其中,該系統(tǒng)包括73 條常用饋線與5 條備用聯(lián)絡(luò)線,其24 h 負(fù)荷功率曲線參考文獻(xiàn)[21],分布式光伏24 h 出力及位置設(shè)置參考文獻(xiàn)[14]。在節(jié)點(diǎn)5、19、23、44、47、63 處設(shè)置分布式光伏,滲透率為52.7%,DG 具體參數(shù)見附錄B 表B1。需要指出的是,考慮到目前實(shí)際配電網(wǎng)中并未實(shí)現(xiàn)完全自動(dòng)化,實(shí)際電網(wǎng)中線路開關(guān)切換操作仍由調(diào)度操控人員參與執(zhí)行,本文的求解結(jié)果更傾向于“給調(diào)度操控人員提供開關(guān)動(dòng)作參考”而非直接“參與自動(dòng)控制流程”。本文提出的方法最終求解出的恢復(fù)策略包括具體的開關(guān)操作位置與操作順序,至于前后兩個(gè)開關(guān)動(dòng)作之間應(yīng)該間隔多長時(shí)間,應(yīng)取決于調(diào)度操控人員的指令下達(dá)及實(shí)際開關(guān)切換的執(zhí)行情況。因此,本文的重點(diǎn)在于復(fù)雜場景下恢復(fù)策略的求解上,而不在恢復(fù)策略的執(zhí)行上。
圖4 PG&E 69 節(jié)點(diǎn)配電系統(tǒng)Fig.4 PG&E 69-bus distribution system
本文提出的GRL 模型共進(jìn)行了20 000 回合的訓(xùn)練,訓(xùn)練時(shí)間共計(jì)2 h,最終收斂效果較好。其中,獎(jiǎng)勵(lì)函數(shù)曲線如圖5 所示。單一回合中每次動(dòng)作獲取的獎(jiǎng)勵(lì)函數(shù)最能夠直觀反映模型的表現(xiàn),獎(jiǎng)勵(lì)函數(shù)變化曲線能夠展現(xiàn)模型的訓(xùn)練成長過程。
圖5 獎(jiǎng)勵(lì)函數(shù)曲線Fig.5 Curves of reward function
根據(jù)圖5 可知,訓(xùn)練初期由于無先驗(yàn)知識(shí),智能體在訓(xùn)練環(huán)境中多進(jìn)行隨機(jī)探索;訓(xùn)練中期,經(jīng)驗(yàn)記憶池中累積了足夠多的先驗(yàn)知識(shí),智能體開始周期性地提取先驗(yàn)知識(shí)進(jìn)行學(xué)習(xí),然后在此基礎(chǔ)上再次針對(duì)不同環(huán)境選擇動(dòng)作,繼續(xù)訓(xùn)練;訓(xùn)練后期,智能體以99%的概率選擇其認(rèn)為的最優(yōu)動(dòng)作,保持1%的概率隨機(jī)選擇動(dòng)作,即保持1%的隨機(jī)探索。此時(shí),獎(jiǎng)勵(lì)函數(shù)到達(dá)收斂值,智能體對(duì)系統(tǒng)中絕大部分故障均能給出有效的恢復(fù)策略。表1 為訓(xùn)練完成的智能體針對(duì)部分故障給出的恢復(fù)策略。其中,負(fù)荷的恢復(fù)通過仿真平臺(tái)OpenDSS 提供數(shù)據(jù)進(jìn)行計(jì)算,負(fù)荷恢復(fù)率是指當(dāng)前在線負(fù)荷占初始總負(fù)荷的比率,線路用首末端編號(hào)表示。
表1 故障恢復(fù)策略Table 1 Fault recovery strategy
假設(shè)兩處特征線路發(fā)生故障:線路5-6 靠近主網(wǎng)電源,大部分聯(lián)絡(luò)線在其下游;線路13-14 靠近輻射狀支路中段,臨近位置聯(lián)絡(luò)線較多。針對(duì)每處故障,假設(shè)在3 個(gè)特征時(shí)刻發(fā)生故障:08:00 時(shí)分布式光伏有部分出力能力,負(fù)荷處于一天中的上升階段;11:00 時(shí)分布式光伏出力達(dá)到最大值;18:00 時(shí)負(fù)荷值為一天中的最大值,此時(shí)日落光伏出力為0,分布式光伏無法提供電源支撐能力,只能控制線路開關(guān)狀態(tài)重構(gòu)網(wǎng)絡(luò)拓?fù)?,使失電?fù)荷與主網(wǎng)電源重新建立有效連接以恢復(fù)供電。
當(dāng)線路5-6 在18:00 發(fā)生故障時(shí),由于分布式光伏此時(shí)無法提供電源支撐,與08:00 時(shí)相同線路發(fā)生故障相比,其恢復(fù)策略中動(dòng)作次數(shù)較多,負(fù)荷恢復(fù)率較低。線路5-6 在18:00 發(fā)生故障時(shí)的恢復(fù)策略中,首先閉合線路15-46 將下游失電負(fù)荷與上游主網(wǎng)電源進(jìn)行連接,但此時(shí)由于支路負(fù)荷過長,負(fù)荷節(jié)點(diǎn)多,下游末端節(jié)點(diǎn)53 至65、25 至27 出現(xiàn)嚴(yán)重電壓越下限現(xiàn)象,智能體判斷進(jìn)行切負(fù)荷操作,依次斷開線路65-65 和25-26,切負(fù)荷后電壓越限仍然存在。然后,閉合線路50-59,從另一方向利用主網(wǎng)電源進(jìn)行供電支撐,此時(shí)各節(jié)點(diǎn)電壓恢復(fù)至允許范圍之內(nèi),但拓?fù)浣Y(jié)構(gòu)層面存在環(huán)網(wǎng)。最后,斷開線路9-10,環(huán)網(wǎng)消除,完成負(fù)荷恢復(fù)。
如表1 所示,不同線路在不同時(shí)刻發(fā)生故障時(shí),本文構(gòu)建的GRL 模型中智能體均可以給出可行的故障恢復(fù)策略,包括具體的線路開關(guān)操作位置及操作順序。兩處線路在任意時(shí)刻發(fā)生故障時(shí),智能體輸出的恢復(fù)策略負(fù)荷恢復(fù)率均能達(dá)到99%以上,且均能滿足電壓不越限、網(wǎng)絡(luò)拓?fù)錈o環(huán)網(wǎng)的運(yùn)行約束。可見,本文構(gòu)建的GRL 模型在含DG 的配電網(wǎng)發(fā)生故障后可給出滿足各種約束的可行故障恢復(fù)策略。
為了進(jìn)一步體現(xiàn)本文所提方法的優(yōu)勢,下面就本文提出的方法與其他方法在3 個(gè)方面進(jìn)行對(duì)比分析。
3.2.1 故障恢復(fù)策略效果對(duì)比
表2 展示了線路5-6 在08:00 發(fā)生故障后不同方法的恢復(fù)策略及恢復(fù)效果。如表2 所示,面對(duì)故障后的復(fù)雜形勢,4 種方法均能求解出有效的恢復(fù)策略。其中,方法1 為啟發(fā)式方法,按制定好的規(guī)則進(jìn)行尋優(yōu),策略中動(dòng)作次數(shù)最多,負(fù)荷恢復(fù)率較低;方法2 為蟻群算法,求解完成后直接給出最終策略中包含的所有動(dòng)作,并未給出動(dòng)作執(zhí)行的先后順序,與電網(wǎng)調(diào)度中心的實(shí)際操作要求不符;方法3、方法4 均屬于人工智能強(qiáng)化學(xué)習(xí)算法,序貫決策下均能給出包含開關(guān)動(dòng)作順序的恢復(fù)策略,負(fù)荷恢復(fù)率高且決策時(shí)間短,能夠有效縮短用戶停電時(shí)間,負(fù)荷恢復(fù)率均能達(dá)到99%以上。
表2 故障恢復(fù)策略效果對(duì)比Table 2 Effect comparison of fault recovery strategies
3.2.2 變化拓?fù)湎翿L 與GRL 恢復(fù)效果對(duì)比
假設(shè)算例系統(tǒng)因負(fù)荷投切、優(yōu)化線損或發(fā)生計(jì)劃性檢修等原因發(fā)生網(wǎng)絡(luò)拓?fù)渥兓?,變化后的網(wǎng)絡(luò)拓?fù)鋱D見附錄C 圖C1。直接利用拓?fù)渥兓坝?xùn)練好的本文模型與深度強(qiáng)化學(xué)習(xí)模型分別對(duì)拓?fù)渥兓蟮呐潆娋W(wǎng)進(jìn)行故障恢復(fù)決策。從發(fā)展的角度,假設(shè)配電網(wǎng)發(fā)生規(guī)劃層面的擴(kuò)建,在原系統(tǒng)架構(gòu)基礎(chǔ)上在節(jié)點(diǎn)52、69 下游新增負(fù)荷節(jié)點(diǎn)70 至74,新增節(jié)點(diǎn)的節(jié)點(diǎn)負(fù)荷均與上游連接節(jié)點(diǎn)一致。此時(shí),系統(tǒng)節(jié)點(diǎn)數(shù)量發(fā)生變化,模型輸入維度也發(fā)生變化,而深度強(qiáng)化學(xué)習(xí)模型中的神經(jīng)網(wǎng)絡(luò)輸入層維度不變,深度強(qiáng)化學(xué)習(xí)方法將不再適用。測試結(jié)果如表3 所示。表中:平均負(fù)荷恢復(fù)率為在變化后電網(wǎng)拓?fù)浠A(chǔ)上,隨機(jī)選取5 處故障進(jìn)行故障恢復(fù)后的負(fù)荷恢復(fù)率的平均值。
表3 拓?fù)涓淖兒蟮幕謴?fù)效果對(duì)比Table 3 Comparison of recovery effects after topology changes
根據(jù)表3 可知,深度強(qiáng)化學(xué)習(xí)在拓?fù)渥兓笃骄?fù)荷恢復(fù)率下降幅度較大。本文提出的GRL 方法負(fù)荷恢復(fù)率略有下降,對(duì)“拓?fù)渥兓?節(jié)點(diǎn)數(shù)量變化”的情形,平均負(fù)荷恢復(fù)率也能維持在90%以上,對(duì)拓?fù)渥兓憩F(xiàn)出了良好的適應(yīng)能力,電網(wǎng)拓?fù)渥兓笕阅芙o出有效的故障恢復(fù)策略,與RL 方法比較優(yōu)勢較為明顯。
因此,本文提出的方法在兼顧求解速度與故障恢復(fù)率的基礎(chǔ)上,保證了對(duì)配電網(wǎng)網(wǎng)絡(luò)拓?fù)渥兓倪m應(yīng)性,充分體現(xiàn)了RL 方法與圖神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。
針對(duì)配電系統(tǒng)拓?fù)漕l繁變化使配電網(wǎng)故障恢復(fù)策略求解效率下降的問題,本文提出了基于GRL 的含DG 的配電網(wǎng)故障恢復(fù)方法,并利用PG&E 69 節(jié)點(diǎn)算例進(jìn)行測試。通過與其他求解方法進(jìn)行對(duì)比分析可得出以下結(jié)論:
1)本文提出的方法能夠在線求解含DG 的配電網(wǎng)故障恢復(fù)策略,包括具體的操作開關(guān)與操作順序,求解策略故障恢復(fù)率高,求解時(shí)間短,兼顧求解質(zhì)量與速度。
2)與啟發(fā)式算法、優(yōu)化算法相比,相同故障情形下GRL 模型決策故障恢復(fù)率更高,求解速度優(yōu)勢明顯。
3)本文提出的方法對(duì)配電網(wǎng)拓?fù)渥兓哂懈玫倪m應(yīng)性,訓(xùn)練好的模型應(yīng)用到拓?fù)渥兓蟮呐潆娋W(wǎng)故障恢復(fù)問題中,仍有較好的故障恢復(fù)決策效果。
本文考慮了DG 與負(fù)荷不確定性造成的復(fù)雜求解場景,也考慮了不同時(shí)刻、不同位置發(fā)生故障對(duì)決策帶來的影響,但求解用到的源荷出力都是故障時(shí)刻的實(shí)際值,并不是預(yù)測值,未考慮到因動(dòng)作執(zhí)行或指令下達(dá)所造成的求解時(shí)刻與動(dòng)作執(zhí)行時(shí)刻之間的“時(shí)間差”,也就是“時(shí)間滯后”帶來的影響,這在一定程度上會(huì)影響方法的實(shí)用性;為簡化模型,本文訓(xùn)練過程中設(shè)置的負(fù)荷曲線為固定曲線,對(duì)負(fù)荷不確定性模擬尚可提高;智能體并不能在實(shí)際的配電網(wǎng)環(huán)境中直接試錯(cuò)訓(xùn)練,可先通過仿真模擬的方法進(jìn)行智能體訓(xùn)練及超參的優(yōu)化,待訓(xùn)練完成后投入使用,以保證不會(huì)對(duì)實(shí)際配電網(wǎng)帶來安全運(yùn)行上的問題。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。