亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的配電網(wǎng)負荷轉供控制方法

        2022-07-20 01:44:44王光華李曉影宋秉睿
        電力自動化設備 2022年7期
        關鍵詞:配電網(wǎng)動作故障

        王光華,李曉影,宋秉睿,張 沛

        (1. 國網(wǎng)河北省電力有限公司保定供電分公司,河北保定 071000;2. 天津相和電氣科技有限公司,天津 300042)

        0 引言

        配電網(wǎng)具有閉環(huán)設計、開環(huán)運行的特點,聯(lián)絡開關為常開開關,通常在運行情況下保持斷開狀態(tài),用于緊急備用轉移,分段開關為常閉開關,通常在運行情況下保持閉合狀態(tài),其主要功能是隔離故障。當采用輻射狀結構運行的配電網(wǎng)發(fā)生故障時,故障線路下游的負荷都會中斷供電,需要盡快地切除故障設備,并快速地恢復下游失電負荷用戶。負荷轉供通過聯(lián)絡開關和分段開關的操作與不同組合,改變供電的路徑,在滿足配電網(wǎng)開環(huán)方式運行、電壓幅值和載流量等基本約束的前提下,將故障或檢修停電范圍內(nèi)以及重載區(qū)域內(nèi)的線路負荷轉帶至其余配電線路,從而達到降低故障或檢修帶來的失電損失和減少過載配電線路的目的,提高配電網(wǎng)運行的可靠性、經(jīng)濟性與客戶滿意度[1]。

        隨著城市規(guī)模的快速擴張以及電能替代的不斷推進,各行各業(yè)對電力的需求迅速增長,配電網(wǎng)節(jié)點數(shù)大量增加,結構愈加復雜,配電網(wǎng)故障后拓撲變化不確定性較大,開關的組合與供電路徑的選擇出現(xiàn)了“組合爆炸”的問題。而且城市電網(wǎng)建設相對較為滯后,導致電網(wǎng)結構的不合理等問題比較突出,故障后轉供裕度不足等問題更加大了負荷轉供的難度[2]。目前大多數(shù)配電網(wǎng)公司負荷轉供主要采取的方法為人工經(jīng)驗決策方法,方案的優(yōu)劣依賴于運行人員的經(jīng)驗水平,人為失誤可能導致負荷損失[3]。

        目前,負荷轉供的求解方法大致有以下幾類。①啟發(fā)式算法有分層樹搜索法[4]、支路交換法[5],利用啟發(fā)式規(guī)則來減小搜索空間和降低問題的復雜度比較簡單直觀,計算過程中重復使用規(guī)則且進行多次仿真計算,解的優(yōu)劣依賴于規(guī)則的制定與配電網(wǎng)初始狀態(tài),影響了速度與解的質量。②數(shù)學優(yōu)化算法有多階段優(yōu)化法[6]、非線性規(guī)劃法[7]、動態(tài)規(guī)劃法[8],將負荷轉供轉化為對數(shù)學問題的求解,但是當配電網(wǎng)絡結構龐大復雜、維數(shù)高時易出現(xiàn)“組合爆炸”的問題。③專家系統(tǒng)法[9]能夠調(diào)用已經(jīng)保存的策略庫,實時性好,適用性廣,但是庫的建立和集成費時費力,且當配電網(wǎng)建設發(fā)生變化時,專家系統(tǒng)需要不斷進行調(diào)整。④隨機搜索算法有禁忌算法[10]、遺傳算法[11-12]、粒子群優(yōu)化算法[13],這些算法魯棒性較好,但是搜索過程范圍較大,需要進行大量的仿真計算,可能不收斂,算法的優(yōu)化選取規(guī)則復雜,所用的時間較長。已有的研究方法都將負荷轉供視為優(yōu)化問題或者搜索問題來進行求解,盡管都采取了近似簡化方法或縮小搜索空間的方式,但由于配電網(wǎng)拓撲存在較大不確定性,轉供路徑存在“組合爆炸”的問題,故障后進行大量計算無法滿足故障恢復的時效性要求,只能犧牲求解質量來達到速度要求,難以解決求解質量與速度間的矛盾。目前,應用強化學習算法求解配電網(wǎng)負荷轉供問題的研究仍為空白。負荷轉供解決方案是由一系列開關動作構成,是一個連續(xù)的控制過程,而配電網(wǎng)的狀態(tài)只取決于上一時刻的狀態(tài)和動作,與歷史狀態(tài)無關,因此本文將負荷轉供過程視為一個馬爾可夫決策過程MDP(Markov Decision Process)[14],應用強化學習RL(Reinforcement Learning)理論來處理這一問題[15]。

        為此,本文提出了基于深度強化學習DRL(Deep Reinforcement Learning)的配電網(wǎng)負荷轉供控制方法,采用Dueling 深度Q 網(wǎng)絡DQN(Deep QNetwork)算法,與配電網(wǎng)實時電氣、拓撲數(shù)據(jù)進行交互,對聯(lián)絡開關與分段開關進行控制,自適應配電網(wǎng)拓撲變化的不確定性;針對算法動作策略加入了預模擬機制,調(diào)整了動作與學習的比例并采用自適應優(yōu)化算法進行求解,提高了算法的收斂速度與魯棒性,當配電網(wǎng)發(fā)生故障時可以即時給出高質量的轉供決策方案。

        1 負荷轉供的強化學習模型

        強化學習是一個與環(huán)境不斷進行交互,獲得反饋,更新策略,不斷迭代直至學習到最優(yōu)策略的過程。配電網(wǎng)作為強化學習的環(huán)境,在每一時刻t,可以為智能體提供當前配電網(wǎng)狀態(tài)空間S,智能體分析決策的結果為開關動作A,將動作施加在環(huán)境上,環(huán)境發(fā)生的狀態(tài)轉移概率為P,環(huán)境反饋給智能體即時獎勵值為R。強化學習智能體目標為通過有限的步數(shù)最大化累積獎勵值,從而找到最優(yōu)策略。負荷轉供的強化學習模型如圖1所示。圖中:V為電壓向量;I為電流向量;Sw為配電網(wǎng)中支路的開關狀態(tài)向量;F為支路故障狀態(tài)向量。

        圖1 負荷轉供的強化學習模型Fig.1 Reinforcement learning model for load transfer

        1.1 狀態(tài)空間

        狀態(tài)空間應盡可能考慮會對決策產(chǎn)生影響的因素。對于負荷轉供問題,從數(shù)值角度出發(fā),節(jié)點的電壓、支路的電流反映了用戶電壓質量與線路載荷能力,是關鍵的分析數(shù)據(jù);從空間角度出發(fā),配電網(wǎng)的拓撲狀態(tài)以及故障的位置信息可以作為選取合適的轉供路徑的依據(jù)。因此在強化學習中選擇這些數(shù)據(jù)構建狀態(tài)空間S,即:

        1.2 動作空間與狀態(tài)轉移概率

        一次完整的負荷轉供操作由一系列聯(lián)絡開關與分段開關的投切所構成,為了防止狀態(tài)空間過大,本文選取1次動作只投切1個開關的方式,所以相鄰的2個狀態(tài)之間,拓撲上的區(qū)別只有1個開關。此外負荷轉供應該在有限的動作數(shù)內(nèi)結束,應設置主動結束本次轉供的動作。所以智能體的動作空間選取為0、1、…、2NS,其中NS為可操作的支路數(shù)量。當動作值為2NS時代表不采取任何操作并退出,本次決策結束,當動作值為0、1、…、2NS-1 時,對A進行如下計算:

        式中:x為A除以2 得到的余數(shù);y為動作支路的編號。由于每條線路用2 個相鄰的整數(shù)控制其投入或切除,用相鄰奇偶位表示線路y的2 種動作狀態(tài),具體如下:

        這樣即可保證每次動作1 條支路或者直接完成轉供決策。在動作后若出現(xiàn)了電壓越界、電流過載、動作次數(shù)超限等情況,則狀態(tài)轉移至失敗退出狀態(tài);若恢復了全部非故障區(qū)域內(nèi)的負荷,且配電網(wǎng)呈單輻射狀,則狀態(tài)轉移至成功轉供狀態(tài)。由于有些情況下需要主動切除部分負荷以防止過載,因此智能體主動退出狀態(tài)也會轉移至結束狀態(tài)。除此之外,任何其他狀態(tài)都為過渡狀態(tài)。

        1.3 獎勵函數(shù)

        負荷轉供首先要保證電網(wǎng)在約束范圍內(nèi)運行,以恢復用戶供電,實現(xiàn)最佳的電能質量與經(jīng)濟效益為目標。本文將獎勵函數(shù)分為獎勵與懲罰2 個部分,用于最終評價指導智能體的動作。

        1)獎勵部分。

        負荷轉供的首要目標就是盡可能恢復所有用戶供電,因此最重要的就是負荷恢復量。將動作累積恢復負荷量RL作為目標函數(shù)的正比部分。

        式中:Nop為總動作次數(shù);Pres,k為第k次動作所恢復的負荷量。

        轉供應該在盡可能少的動作次數(shù)下完成,以降低運維的成本與失誤的可能性,同時也節(jié)省操作的時間,防止配電網(wǎng)結構變化過大,為故障消除后恢復原運行方式增加難度。因此本文考慮將動作次數(shù)Nop作為目標函數(shù)的反比部分。

        配電網(wǎng)的線損也是重要的成本因素,本文利用帶電線路的阻抗參數(shù),對配電網(wǎng)的線損情況進行評估,計算得到近似線損值ΔP為:

        式中:l為帶電線路總數(shù);Ii、ri分別為流過第i條線路的電流和第i條線路的電阻。

        目標函數(shù)RT可根據(jù)各影響因素正反比關系計算得到,同時為便于調(diào)節(jié)各因素對RT的影響程度,以達到最佳訓練效果,對各因素值分別添加偏置量a1、b1、c1,得到RT的計算公式如下:

        2)懲罰部分。

        維持正常的節(jié)點電壓是保證配電網(wǎng)正常運行的基本要求,電壓應保持在偏差為±7%的容許范圍內(nèi)[16],為了防止智能體動作時不滿足約束條件,對于超出該范圍的電壓,予以高懲罰,對于范圍內(nèi)的動作不設置懲罰。

        電壓越限后狀態(tài)應轉移至失敗退出狀態(tài),電壓懲罰PVolt計算方法如下:

        式中:Ui為節(jié)點i電壓的標幺值;PU為電壓越限后的懲罰值;Ui.max、Ui.min分別為節(jié)點i電壓的上、下限,通常取1.07 p.u.和0.93 p.u.。

        當傳輸容量超過線路與變壓器的極限值時,易引發(fā)設備二次故障,本文取設備電流極限值作為運行上限,電流越限后狀態(tài)轉移至失敗退出狀態(tài),電流懲罰PLim計算方法如下:

        式中:PI為電流越限后的懲罰值;Ij為設備j的電流值;Ij.max為設備j的電流值上限。

        配電網(wǎng)正常運行時應呈輻射狀,但也允許存在環(huán)網(wǎng)作為短時過渡狀態(tài),不允許作為長期運行狀態(tài)出現(xiàn),因此設置環(huán)網(wǎng)懲罰PLoop時應分情況考慮,即:

        式中:Pf為結束狀態(tài)下存在環(huán)網(wǎng)的懲罰值;Pm為過渡狀態(tài)下存在環(huán)網(wǎng)的懲罰值;gn為已恢復的區(qū)域;GR為不包含分布式電源時所有配電網(wǎng)輻射狀結構集合。

        當智能體采取無效的操作,如對已經(jīng)閉合的開關執(zhí)行閉合動作,即采取重復操作,以及對故障打開線路進行動作時,該動作視為無效,給予無效動作懲罰PAct,即:

        式中:PA為智能體采取無效動作時的懲罰值;ak為第k次的動作;OA為對故障打開線路進行動作的集合。

        獎勵函數(shù)中約束項RP可通過求和得到,正常狀態(tài)下有:

        最終模型的獎勵函數(shù)R由獎勵部分RT與懲罰部分RP構成,即:

        2 基于深度學習的負荷轉供算法

        2.1 Dueling DQN深度強化學習算法

        Q 學習是強化學習的主要算法之一,采用動作-價值函數(shù)Q(s,a)來評估策略的優(yōu)劣,即在某一狀態(tài)s下,采取動作a能夠獲得獎勵的期望,Q學習將狀態(tài)和動作構建成一張表來存儲Q值,在不斷更新學習中,根據(jù)Q值來選取能夠獲得最大收益的動作。

        根據(jù)Bellman 方程求解馬爾可夫決策過程的最佳決策序列,在某狀態(tài)下可能選擇一系列動作構成最終決策π,狀態(tài)值函數(shù)Qπ(s,a)表明每個狀態(tài)的值不僅由當前狀態(tài)決定還由后續(xù)狀態(tài)決定,Qπ(s,a)計算方法如下:

        式中:s0為當前狀態(tài);a0為當前狀態(tài)下所執(zhí)行的動作;γ為折扣因子,γ∈[0,1]表征未來回報相對于當前回報的重要程度;Ri為第i次動作后獲得的即時獎勵;Eπ[·]表示針對策略π求[·]期望。

        由于負荷轉供過程由多次開關動作組成,每次動作的好壞不僅與當前狀態(tài)有關,而且會影響未來的動作,進而影響最終轉供方案的優(yōu)劣。所以式(14)完全符合負荷轉供的目標,即Q(s,a)與之后做的所有可能的動作所獲得的獎勵都有關,即強化學習的目的是學習到整個負荷轉供過程的最優(yōu)控制策略。

        負荷轉供的強化學習模型是基于配電網(wǎng)運行數(shù)據(jù)進行決策的,其狀態(tài)空間是由電壓、電流等連續(xù)變量構成的連續(xù)空間,但Q 學習采用Q值表來存儲狀態(tài)與動作的映射關系,在連續(xù)狀態(tài)空間的情況下難以適用。因此本文采用深度強化學習,即DQN[17]算法進行求解。DQN使用深度神經(jīng)網(wǎng)絡產(chǎn)生Q值將狀態(tài)和動作相互映射,從大量訓練中不斷調(diào)整網(wǎng)絡參數(shù),在線尋求滿足最大回報的最優(yōu)控制策略。

        DQN 算法訓練過程中在同一網(wǎng)絡利用相同的Q值選擇動作和評估動作,這種情況下DQN 容易過高估計動作的Q值,過高估計的Q值易導致最終結果存在偏差,從而難以求得最優(yōu)解。Double DQN[18]對DQN 算法的更新計算方式進行了改進,由于目標網(wǎng)絡比主網(wǎng)絡更新滯后,Double DQN 不直接全部采用目標網(wǎng)絡計算Q值,而在估計下一狀態(tài)時先根據(jù)主網(wǎng)絡選擇動作,再用目標網(wǎng)絡計算Q值,這樣避免了盲目地過高估計Q值,提高了精確度,但其仍未考慮環(huán)境因素的影響,實際使用受到一定制約。在配電網(wǎng)轉供過程中,不同配電網(wǎng)狀態(tài)下采取相同的動作可能帶來完全不同的后果,為了能夠同時考慮配電網(wǎng)環(huán)境因素的影響與動作帶來的回報,本文采用考慮環(huán)境影響的Dueling DQN 算法,將Q值函數(shù)分為配電網(wǎng)環(huán)境信息回報和動作回報,使學習的目標更明確,其神經(jīng)網(wǎng)絡結構圖見附錄A圖A1。Dueling DQN 將狀態(tài)向量作為輸入,輸出一個包含每個動作Q值的向量,神經(jīng)網(wǎng)絡中價值函數(shù)標量V(st)僅與狀態(tài)有關,與動作無關,其值表現(xiàn)了當前配電網(wǎng)狀態(tài)的優(yōu)劣;優(yōu)勢函數(shù)向量A(at)進行了中心化處理,消除了配電網(wǎng)環(huán)境對開關動作的影響,體現(xiàn)了各開關動作之間的可辨識性,用來評估動作所帶來的額外收益:

        式中:ω、α、β分別為公共隱藏層參數(shù)、價值函數(shù)層參數(shù)、優(yōu)勢函數(shù)層參數(shù);A為所有動作的集合,| |A 表示集合A 中的元素個數(shù),即狀態(tài)s下的動作數(shù);a′為狀態(tài)s′下具有最大Q值的動作,其中s′為狀態(tài)s的下一狀態(tài)。A對向量A進行了中心化處理,突出了動作的差異,體現(xiàn)特定狀態(tài)下各開關動作的優(yōu)劣對比。

        2.2 改進訓練收斂效果與模型泛化

        1)預模擬-貪婪動作策略。

        配電網(wǎng)負荷轉供往往動作數(shù)量較多,且整個轉供過程可能的動作組合極多,傳統(tǒng)隨機貪婪策略(ε-greedy)在前期選擇動作隨機探索時效率較低,在較大的動作空間內(nèi)極易陷入局部最優(yōu)動作,即使偶爾隨機動作跳出局部最優(yōu),也難以影響學習的方向。且在選擇最優(yōu)動作時,神經(jīng)網(wǎng)絡對不常見的或復雜的故障狀態(tài)缺乏泛化能力,可能選擇次優(yōu)的或完全錯誤的動作,這在實際應用中可能導致嚴重的后果。

        為了解決這一問題,本文采用了改進的預模擬-貪婪動作策略,預模擬時首先采用集合對比的方式篩選排除無效/重復動作,該過程中無需進行仿真計算;其次保持原順序取出前k個動作仿真預模擬,排除越限動作;然后分別按照負荷恢復量、線損值、Q值對動作進行三級排序;最后輸出預模擬最優(yōu)的動作作為真實動作??紤]到修改了算法原本的動作機制,可能導致算法收斂性出現(xiàn)問題,本文保留了一定比例的貪婪動作,具體如圖2所示。

        圖2 預模擬-貪婪動作策略Fig.2 Pre-simulation-greedy action strategy

        本文中預模擬-貪婪動作策略采用了一定數(shù)值的有限的預模擬動作數(shù)量,可以保證較大動作空間內(nèi)的模擬仿真次數(shù)與時間。并且集合對比方法無需經(jīng)過仿真計算即可排除大量無效動作,縮小了解空間范圍,使強化學習訓練時更容易找到最佳動作,加快了訓練的速度;同時由于輸入數(shù)據(jù)為大量配電網(wǎng)運行數(shù)據(jù),失電時會引起大量輸入數(shù)據(jù)的突變,變化過大的輸入數(shù)據(jù)常常會導致神經(jīng)網(wǎng)絡學習振蕩且難以收斂,保留一定程度貪婪動作策略中的動作機制能保證在波動數(shù)據(jù)下的訓練效果與收斂性,使得神經(jīng)網(wǎng)絡能夠清晰地辨別各狀態(tài)下Q值最大的動作與真正的最優(yōu)動作。

        2)調(diào)整智能體學習頻率。

        在常規(guī)Dueling DQN 算法中,智能體每動作一次就要計算一次誤差,更新學習一次,但實際上高頻率的學習并不會提高神經(jīng)網(wǎng)絡的訓練速度,在本文中高維度輸入輸出、神經(jīng)網(wǎng)絡參數(shù)龐大的情況下,反而會出現(xiàn)神經(jīng)網(wǎng)絡參數(shù)反復振蕩的情況,導致參數(shù)難以收斂,學習速度較慢。因此本文調(diào)整了智能體學習頻率,并在算例中確定最適合算法的比例關系,提高算法的學習能力。

        3)Adadelta優(yōu)化算法。

        在訓練神經(jīng)網(wǎng)絡過程中,傳統(tǒng)隨機梯度下降法、Momentum 等優(yōu)化算法采用固定學習率,收斂速度較慢且容易陷入局部最優(yōu)解;自適應學習率優(yōu)化算法AdaGrad 對不同參數(shù)自動調(diào)節(jié)不同學習率,學習速度較快,但隨著迭代次數(shù)增加學習率趨近于0;本文采用的Adadelta 優(yōu)化算法可以加速神經(jīng)網(wǎng)絡的訓練,無需設定學習率反復試錯,而且避免了學習率越來越低的問題。

        2.3 算法流程

        基于深度強化學習的配電網(wǎng)負荷轉供算法流程如圖3所示,具體流程步驟見附錄B。

        圖3 基于深度強化學習的配電網(wǎng)負荷轉供方法流程圖Fig.3 Flowchart of load transfer method of distribution network based on deep reinforcement learning

        3 算例分析

        為了驗證本文算法的有效性,采用IEEE 33 節(jié)點配電系統(tǒng)進行驗證,該配電系統(tǒng)包含33 個節(jié)點以及37條支路,其中分段開關和聯(lián)絡開關分別有32個和5 個。配電系統(tǒng)基準電壓為12.66 kV,總負荷為3 826.06 kW+j2 366.49 kvar,基準功率為10 MV·A,其拓撲結構如圖4所示。

        圖4 IEEE 33節(jié)點配電系統(tǒng)結構Fig.4 Structure of IEEE 33-bus distribution system

        3.1 訓練過程

        利用OpenDSS 仿真數(shù)據(jù)作為樣本故障數(shù)據(jù),在制造樣本數(shù)據(jù)的過程中,采用了隨機生成故障點的方法。即在32個分段開關中隨機選取1個開關發(fā)生故障并直接打開,其中各開關被選取的概率相同。5條常開聯(lián)絡線由于作為備用線路,不發(fā)生任何故障。每回合開始動作之前,切除故障線路并進行仿真,確定配電網(wǎng)的初始狀態(tài),在此狀態(tài)下,智能體選擇操作故障線路將受到懲罰,并在狀態(tài)轉移至結束狀態(tài)時結束此回合,自動生成新的隨機故障,開始下一回合的負荷轉供。

        Dueling DQN 算法中公共隱藏層為2層,分別含有512和256個神經(jīng)元,價值函數(shù)層與優(yōu)勢函數(shù)層均為1層,價值函數(shù)有1個神經(jīng)元,輸出為標量,優(yōu)勢函數(shù)有75 個神經(jīng)元,輸出為與動作數(shù)相同的向量。激活函數(shù)均采用線性修正單元ReLU,批處理數(shù)量為200,折扣因子γ為0.9,探索值ε取0.95,經(jīng)驗池可存儲1 000 條經(jīng)驗數(shù)據(jù),Adadelta 優(yōu)化算法無需設定學習率,目標網(wǎng)絡參數(shù)每200回合更新一次。

        本文算法在50 000 次動作回合后收斂,在轉供決策時,動作的負荷恢復量等多方面接近最優(yōu),如圖5所示。

        圖5 動作次數(shù)與負荷恢復量訓練效果Fig.5 Training effect of action times and load restoration

        由圖5 可知,訓練初期智能體對配電網(wǎng)轉供環(huán)境不熟悉,初期動作次數(shù)較多且供電負荷比例低,轉供控制效果較差;隨著訓練次數(shù)的不斷增加,智能體不斷與環(huán)境進行交互獲得經(jīng)驗,學習到了用較少動作次數(shù)恢復更多負荷的方法,實現(xiàn)了負荷轉供的最佳決策控制。

        在共計14 652 個回合的轉供訓練過程中,由于存在一定比例的探索性隨機動作以及無法實現(xiàn)完全轉供的情況,所以最終有8874次轉供控制實現(xiàn)了恢復全部負荷。圖6 為恢復全部負荷的情況下線損率隨訓練次數(shù)的變化情況,可見在后期智能體學習到了最佳運行成本的控制策略。

        圖6 線損率訓練效果Fig.6 Training effect of line loss rate

        3.2 負荷轉供結果對比

        對故障發(fā)生后的配電網(wǎng)的負荷轉供進行測試。設支路12-13 發(fā)生永久性故障并進行隔離后,故障點下游負荷點13—17為失電區(qū)域,可供轉供直接使用的聯(lián)絡線有8-14、17-32,但這2條聯(lián)絡線單獨對失電負荷轉供時都會發(fā)生電壓越下限的情況,必須采用多次動作轉移負荷再進行轉供,分別采用本文算法與傳統(tǒng)強化學習算法、文獻[19]中的啟發(fā)式混合算法進行對比,其結果如表1 所示,表中網(wǎng)損率由網(wǎng)絡損耗除以網(wǎng)絡總傳輸功率計算得到。

        表1 負荷轉供結果對比Table 1 Comparison of load transfer results

        從表1 中可知,本文算法將重載線路上的部分負荷經(jīng)過2 條聯(lián)絡線轉移至輕載線路上,在較少的動作次數(shù)內(nèi)恢復全部負荷,且達到較低的網(wǎng)損水平;傳統(tǒng)強化學習算法基本所有的嘗試動作都會導致越限,所以最終切除部分負荷;啟發(fā)式混合算法轉移負荷后仍采用重載線路轉供,恢復所有負荷后網(wǎng)損率比本文算法高出0.4%,由此可見本文算法基本實現(xiàn)給出了最佳控制策略。

        對于不同故障下配電網(wǎng)的拓撲變化,即配電網(wǎng)狀態(tài)信息發(fā)生變化,本文算法也可以即時給出轉供方案,表2 為采用本文算法時部分故障情況下的動作輸出。可見在轉供會引起電壓越限時,智能體會切除較小的負荷以保證正常供電。在保證不越限的前提下,優(yōu)先執(zhí)行各方面綜合最優(yōu)的動作。

        表2 不同故障下的動作輸出Table 2 Action output under different faults

        負荷轉供方案需要多次進行動作,產(chǎn)生動作“組合爆炸”的問題導致實際求解的空間極大。本文算例中的37 條支路,由于每條支路分為開、關2 種狀態(tài),每次動作空間大小為74,在某故障下需要3次動作進行轉供時其動作組合數(shù)為405 224 個,需要5 次動作進行轉供時其動作組合數(shù)則達到約2.2×109個。而對于不同的故障也需要求解不同的動作。本文算法在50 000 次動作時訓練趨于收斂,實現(xiàn)故障時能夠從極大的動作組合中找到接近最優(yōu)的動作策略并即時給出。

        由于基于深度強化學習的配電網(wǎng)負荷轉供控制方法具有離線學習、在線應用的特點,在線時無需在故障后花費大量時間仿真迭代,本文將單次動作的預模擬仿真數(shù)設置為5,即每次動作仿真5 次,其單個動作時間基本為0.04 s,所以決策時間主要取決于動作次數(shù),在本文算例中大部分故障動作次數(shù)都為1~5 次,在線應用時求解過程的總仿真次數(shù)通常不超過25次,決策時間約為0.04~0.20 s,啟發(fā)式混合算法與遺傳算法在IEEE 33 節(jié)點系統(tǒng)及更小的系統(tǒng)中決策時間分別為0.808 s 及20.80 s[20],本文算法決策時間遠小于故障后其他算法的仿真計算時間。因此訓練完成的深度強化學習負荷轉供模型可以即時給出控制策略,可以在極短的時間內(nèi)恢復供電,實現(xiàn)較高的經(jīng)濟效益。

        3.3 訓練效果對比分析

        為驗證本文提出的基于Dueling DQN 的配電網(wǎng)負荷轉供控制方法的有效性,將基于Dueling DQN算法的調(diào)度方法與DQN、Double DQN 算法進行對比,對其設置相同的獎勵函數(shù),訓練過程動作所獲得的平均獎勵值對比見附錄C圖C1。

        為了提升動作獎勵以及加快訓練速度,采用了預模擬-貪婪動作策略的動作選取方式,改進前原強化學習模型在120 000 次動作時平均獎勵值仍然振蕩,選擇動作的效率低下,仍然存在大量動作,平均獎勵為0.37,本文方法在60 000 次動作后即趨于穩(wěn)定收斂,基本不會出現(xiàn)無效動作,平均獎勵接近0.8。而相對于預模擬完全取代最大Q值選擇方式,在波動較小的輸入數(shù)據(jù)訓練樣本上展現(xiàn)了較好的收斂效果,在波動較大的輸入數(shù)據(jù)樣本上后者可能會完全不收斂。因此,本文方法具有較好的收斂能力與魯棒性,大幅降低了訓練模型所需的計算量。

        通過設置不同的比例在相同動作次數(shù)60000次時對比其平均獎勵的大小,如表3 所示??梢娖渥畲螵剟畛霈F(xiàn)在動作學習比例為5時,比例為4、5時的平均獎勵非常接近,但比例為4 時的學習次數(shù)較多,所以會花費更多的時間進行學習。因此確定動作與學習的比例為5,即每5 次動作進行1 次學習時,本文算法具有最好的學習效果。

        表3 不同動作-學習比例比較Table 3 Comparison of different action-learning ratios

        本文提出的預模擬-貪婪動作策略防止了訓練過程中預模擬動作屏蔽Q值最大動作,使Q值最大動作有更多實際驗證的機會,避免了學習過程中對Q值的過高估計,結果顯示預模擬-貪婪動作策略訓練過程收斂趨勢穩(wěn)定,驗證了本文算法的穩(wěn)定性與收斂能力。全部采用預模擬動作與保留一定比例貪婪動作策略的損失函數(shù)對比見附錄C圖C2。

        4 結論

        本文利用數(shù)據(jù)驅動思維,將強化學習方法應用于負荷轉供控制。直接分析電網(wǎng)運行環(huán)境信息,從中提取有效信息并構建強化學習模型,通過控制配電網(wǎng)開關進而實現(xiàn)負荷轉供,自適應配電網(wǎng)拓撲變化的不確定性,對于不同故障、故障類型和運行方式的控制策略分析無需調(diào)整模型。

        本文算法通過改進動作機制提高了決策收益,加快了算法的訓練速度。相對于傳統(tǒng)算法,其具有離線學習、在線應用的特點,將計算量轉移至離線,通過大量的離線學習積累經(jīng)驗,在配電網(wǎng)發(fā)生故障后能夠快速地進行線上計算,在極短時間內(nèi)為運行人員提供有效的控制策略,減少停電損失并降低運行成本,這對于提高客戶供電滿意度有著重要意義。

        附錄見本刊網(wǎng)絡版(http://www.epae.cn)。

        猜你喜歡
        配電網(wǎng)動作故障
        故障一點通
        配電網(wǎng)自動化的應用與發(fā)展趨勢
        動作描寫要具體
        畫動作
        動作描寫不可少
        奔馳R320車ABS、ESP故障燈異常點亮
        基于IEC61850的配電網(wǎng)數(shù)據(jù)傳輸保護機制
        電測與儀表(2016年5期)2016-04-22 01:14:14
        配電網(wǎng)不止一步的跨越
        河南電力(2016年5期)2016-02-06 02:11:24
        非同一般的吃飯動作
        故障一點通
        亚洲无码专区无码| 日本在线观看一区二区三| 亚洲精品国精品久久99热| 免费人成在线观看视频播放| 无码国产精品一区二区免费97 | 青青青国产精品一区二区| 最新欧美一级视频| 亚洲精品中文字幕一二三| 国产av无码专区亚洲精品| 一本一道av无码中文字幕| 正在播放淫亚洲| 在线观看日本一区二区三区| 国产精品美女久久久免费| 国产99视频精品免视看9| 国产亚洲美女精品久久| 男女一区视频在线观看| 精品人妻大屁股白浆无码| 野外性史欧美k8播放| 欧美成人网视频| 亚洲一区亚洲二区视频在线| 正在播放国产多p交换视频| 欧美亚州乳在线观看| 国产在线观看不卡网址| 森中文字幕一区二区三区免费 | 精品视频一区二区三三区四区| 精品人妻一区二区三区蜜桃| 亚洲自拍偷拍色图综合| 超级碰碰色偷偷免费视频| 国产在线不卡AV观看| 最新中文字幕乱码在线| 亚洲av午夜精品无码专区| 69久久夜色精品国产69| 天堂av无码大芭蕉伊人av孕妇黑人| 久草手机视频在线观看| 无码任你躁久久久久久久| 国产精品高清视亚洲乱码有限公司| 国产熟女露脸大叫高潮| 亚洲综合网站久久久| 日韩无码视频淫乱| 国产麻豆一区二区三区在线播放 | 久久成人永久免费播放|