亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)高恢復(fù)力決策方法

2022-03-08 12:23:28羅欣兒杜進(jìn)橋田杰劉安迪王標(biāo)李妍王少榮

南方電網(wǎng)技術(shù) 2022年1期

羅欣兒，杜進(jìn)橋，田杰，劉安迪，王標(biāo)，李妍，王少榮

(1. 深圳供電局有限公司，廣東深圳518001；2. 華中科技大學(xué)強(qiáng)電磁工程與新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室，武漢430074)

0 引言

隨著全球?yàn)?zāi)害威脅的增加，電力系統(tǒng)在極端自然災(zāi)害下恢復(fù)力的研究得到越來(lái)越多的關(guān)注[1 - 2]。美國(guó)、歐盟、日本等國(guó)家和地區(qū)已將電網(wǎng)恢復(fù)力建設(shè)作為未來(lái)電網(wǎng)發(fā)展的重要方向。主動(dòng)配電網(wǎng)(active distribution network, AND)是智能配電網(wǎng)技術(shù)發(fā)展到高級(jí)階段的產(chǎn)物，可以通過(guò)拓?fù)浣Y(jié)構(gòu)、分布式發(fā)電(distributed generation, DG)和可中斷負(fù)荷(interruptible load, IL)等進(jìn)行主動(dòng)優(yōu)化控制，在故障恢復(fù)過(guò)程中減少用戶停電損失[3 - 5]。文獻(xiàn)[6]針對(duì)含微網(wǎng)的配電系統(tǒng)，在極端災(zāi)害下的網(wǎng)架重構(gòu)階段，根據(jù)故障位置的不同提出差異化供電恢復(fù)方案；文獻(xiàn)[7]提出通過(guò)動(dòng)態(tài)拓?fù)浞治?、孤島配置、含DG主網(wǎng)絡(luò)連通性恢復(fù)和網(wǎng)絡(luò)優(yōu)化解決故障快速恢復(fù)問(wèn)題；文獻(xiàn)[8]將多源協(xié)同的配電網(wǎng)故障恢復(fù)問(wèn)題建模為混合整數(shù)二階錐規(guī)劃模型，并利用商業(yè)優(yōu)化軟件MOSEK進(jìn)行求解。針對(duì)配電網(wǎng)在極端災(zāi)害下的故障恢復(fù)過(guò)程，建立適應(yīng)具有復(fù)雜動(dòng)態(tài)約束的混合整數(shù)非線性規(guī)劃模型，運(yùn)行狀態(tài)隨機(jī)性會(huì)導(dǎo)致場(chǎng)景組合激增[9]，求解的復(fù)雜度隨求解時(shí)段數(shù)成指數(shù)增長(zhǎng)，在極端災(zāi)害條件下或者在實(shí)際故障恢復(fù)過(guò)程中，以上優(yōu)化模型會(huì)消耗大量的計(jì)算資源也可能找不到最優(yōu)解[10]。

數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法已成為求解隨機(jī)優(yōu)化決策領(lǐng)域的研究熱點(diǎn)[11 - 12]，其中AlphaGo是成功的應(yīng)用案例[13]，其核心技術(shù)是自學(xué)習(xí)方法[14 - 16]。隨著智能電網(wǎng)技術(shù)發(fā)展，高級(jí)量測(cè)體系、各種監(jiān)控系統(tǒng)的大規(guī)模部署將產(chǎn)生和積累大量數(shù)據(jù)，基于數(shù)據(jù)驅(qū)動(dòng)的自學(xué)習(xí)方法在能源與電力系統(tǒng)優(yōu)化調(diào)度和控制決策等方面已引起廣泛關(guān)注[17 - 20]。配電網(wǎng)的故障恢復(fù)決策是隨機(jī)優(yōu)化決策的問(wèn)題，強(qiáng)化學(xué)習(xí)是一種無(wú)模型的方法，不需要先驗(yàn)知識(shí)，采用歷史狀態(tài)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)而得出復(fù)雜決策，本文將其引入到問(wèn)題求解中去，為解決極端災(zāi)害下故障恢復(fù)決策提供一條新的思路。本文首先構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型，考慮減少負(fù)荷停電的經(jīng)濟(jì)損失，同時(shí)兼顧故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本，采用觀測(cè)狀態(tài)數(shù)據(jù)，基于深度強(qiáng)化學(xué)習(xí)算法對(duì)競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)(dueling deep Q network, DDQN)進(jìn)行訓(xùn)練，迭代更新參數(shù)，完成歷史觀測(cè)狀態(tài)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)，實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。本文最后基于蒙特卡羅法隨機(jī)生成易損線路的故障狀態(tài)，得到易損線路故障集合，仿真研究IEEE33節(jié)點(diǎn)配電網(wǎng)算例的隨機(jī)故障場(chǎng)景，將DG孤島、網(wǎng)絡(luò)重構(gòu)和可中斷負(fù)荷等作為故障恢復(fù)的動(dòng)作手段，對(duì)DDQN結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，分析了3種決策策略下的負(fù)荷損失功率，說(shuō)明本文所提方法可有效提高主動(dòng)配電網(wǎng)極端災(zāi)害下供電恢復(fù)力。

1 基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型

本文基于數(shù)據(jù)驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)方法開(kāi)展極端災(zāi)害條件下的故障恢復(fù)決策，將極端災(zāi)害下配電網(wǎng)運(yùn)行狀態(tài)和線路故障狀態(tài)作為觀測(cè)狀態(tài)集合，自學(xué)習(xí)智能體Agent在當(dāng)前環(huán)境觀測(cè)狀態(tài)下尋求可行的決策策略進(jìn)行動(dòng)作，通過(guò)回報(bào)函數(shù)進(jìn)行動(dòng)作評(píng)價(jià)以開(kāi)展自學(xué)習(xí)，如圖1所示。

圖1 基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策機(jī)制

t時(shí)刻觀測(cè)狀態(tài)St包括極端災(zāi)害下的線路故障狀態(tài)和主動(dòng)配電網(wǎng)運(yùn)行狀態(tài)，其中，運(yùn)行狀態(tài)包括DG以及負(fù)荷的功率，線路故障狀態(tài)定義為極端災(zāi)害期間主動(dòng)配電網(wǎng)易損線路的受損狀態(tài)。

在主動(dòng)配電網(wǎng)極端災(zāi)害后故障恢復(fù)階段，本文提出可行的3種決策策略at并給出對(duì)應(yīng)約束條件，通過(guò)決策策略的約束建?？审w現(xiàn)故障恢復(fù)能力。

策略一：“DG”控制，以實(shí)現(xiàn)故障后孤島內(nèi)負(fù)荷的供電恢復(fù)；DG出力的功率存在上下限表明其恢復(fù)能力的大小，如式(1)所示。

(1)

策略二：“DG +網(wǎng)絡(luò)重構(gòu)”，靈活使用聯(lián)絡(luò)開(kāi)關(guān)轉(zhuǎn)供電，形成孤島聯(lián)絡(luò)，充分利用DG的容量；網(wǎng)絡(luò)重構(gòu)需要考慮配電網(wǎng)的潮流運(yùn)行方式約束，主要為功率平衡約束、相鄰節(jié)點(diǎn)電壓關(guān)系約束、線路容量約束以及電壓大小上下限約束等。以線路容量約束為例說(shuō)明，如(2)所示。

(2)

策略三：“源-網(wǎng)-荷”控制，通過(guò)可中斷負(fù)荷控制進(jìn)一步提高供電恢復(fù)能力；可中斷負(fù)荷的功率變化大小與自身屬性有關(guān)，如(3)所示。

(3)

(4)

故障恢復(fù)階段DG提供備用功率支撐，需要考慮其出力成本；此外，對(duì)可中斷負(fù)荷進(jìn)行控制時(shí)，需要考慮可中斷負(fù)荷的中斷補(bǔ)償成本。因此，本文考慮的故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本包括DG出力成本以及可中斷負(fù)荷的中斷補(bǔ)償成本，電網(wǎng)運(yùn)行的經(jīng)濟(jì)損失回報(bào)rc如式(5)所示。

(5)

綜合以上建立基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策自學(xué)習(xí)Agent的即時(shí)回報(bào)函數(shù)rt+1，見(jiàn)式(6)。

(6)

智能體Agent通過(guò)試錯(cuò)學(xué)習(xí)方式選擇動(dòng)作進(jìn)行即時(shí)回報(bào)評(píng)價(jià)，基于評(píng)價(jià)激勵(lì)可實(shí)現(xiàn)經(jīng)驗(yàn)積累與決策動(dòng)作優(yōu)化。

2 基于DDQN結(jié)構(gòu)的DRL自學(xué)習(xí)訓(xùn)練

本節(jié)基于DDQN網(wǎng)絡(luò)開(kāi)展DRL訓(xùn)練，自學(xué)習(xí)智能體Agent的試錯(cuò)經(jīng)驗(yàn)在估值函數(shù)Q矩陣中存儲(chǔ)，以實(shí)現(xiàn)狀態(tài)到主動(dòng)配電網(wǎng)實(shí)時(shí)故障恢復(fù)策略的非線性映射?；贒DQN結(jié)構(gòu)構(gòu)造Q函數(shù)，對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí)，DDQN用兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)分別擬合觀測(cè)狀態(tài)的狀態(tài)估值函數(shù)V(st)和當(dāng)前狀態(tài)每個(gè)動(dòng)作的優(yōu)勢(shì)估值函數(shù)[23]，并得到實(shí)現(xiàn)狀態(tài)和動(dòng)作解耦的Q(st,at)值。DDQN的Q函數(shù)如式(7)所示。

(7)

式中：A為所有可執(zhí)行動(dòng)作集合，執(zhí)行動(dòng)作包括DG出力ADG、聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作AS以及IL控制AIL； |A|表示可執(zhí)行動(dòng)作的總數(shù)。由于每個(gè)觀測(cè)狀態(tài)只對(duì)應(yīng)一個(gè)控制動(dòng)作，因此獲取的一個(gè)Q函數(shù)值無(wú)法拆解成唯一狀態(tài)估值函數(shù)V值和動(dòng)作優(yōu)勢(shì)函數(shù)A值，故為了去除多余的自由度，提高算法穩(wěn)定性，將動(dòng)作優(yōu)勢(shì)函數(shù)設(shè)置為單獨(dú)動(dòng)作優(yōu)勢(shì)函數(shù)減去當(dāng)前狀態(tài)下所有動(dòng)作優(yōu)勢(shì)函數(shù)的平均值。

引入ε-greedy策略進(jìn)行動(dòng)作選取體現(xiàn)自學(xué)習(xí)對(duì)環(huán)境的探索機(jī)制見(jiàn)式(8)。

(8)

式中：ε為ε-greedy策略中的固定常數(shù)；T為總訓(xùn)練次數(shù)；k為當(dāng)前訓(xùn)練次數(shù)；γ(0<γ≤ε)為計(jì)算機(jī)生成的隨機(jī)數(shù)；Q′(st，at)為狀態(tài)st下動(dòng)作at的預(yù)測(cè)估值。

DDQN執(zhí)行正向計(jì)算可得到所有控制動(dòng)作的Q值，將目標(biāo)Q值和神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值之間的均方差定義為損失函數(shù)，見(jiàn)式(9)。

(9)

式中：Qπ*(st,at)為目標(biāo)Q值；Qπ′(st,at,w)為神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值；ω為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)；n為小批量訓(xùn)練的樣本數(shù)。

為了消除短期內(nèi)樣本間的時(shí)序相關(guān)性，采用記憶回放來(lái)存儲(chǔ)狀態(tài)動(dòng)作傳輸對(duì)樣本(st，at，rt+1，st+1)。建立容量為N的經(jīng)驗(yàn)池，在每個(gè)訓(xùn)練周期內(nèi)，將主動(dòng)配電網(wǎng)觀測(cè)樣本存入其中，當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量M，則從經(jīng)驗(yàn)池中隨機(jī)抽取小批量的觀測(cè)樣本，開(kāi)展神經(jīng)網(wǎng)絡(luò)訓(xùn)練，通過(guò)隨機(jī)抽取觀測(cè)樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)，避免過(guò)擬合等現(xiàn)象的出現(xiàn)。若樣本數(shù)超過(guò)經(jīng)驗(yàn)池的最大容量，則剔除掉最早的觀測(cè)樣本再存入新樣本，保證神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最新的觀測(cè)狀態(tài)。

基于DDQN結(jié)構(gòu)的DRL自學(xué)習(xí)訓(xùn)練過(guò)程：首先設(shè)置合適的超參數(shù)λ、α、ε、n、N、M，初始化神經(jīng)網(wǎng)絡(luò)與經(jīng)驗(yàn)池，設(shè)定訓(xùn)練終止時(shí)刻T并令當(dāng)前訓(xùn)練時(shí)刻t=0；其次觀察當(dāng)前狀態(tài)st，結(jié)合ε-greedy策略選取下步動(dòng)作at，記錄下一狀態(tài)st+1并計(jì)算即時(shí)回報(bào)rt+1，不斷積累樣本數(shù)據(jù)；然后判斷經(jīng)驗(yàn)池是否存滿，若存滿則剔除掉早期樣本，并存入當(dāng)前時(shí)刻觀測(cè)樣本；當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量，從經(jīng)驗(yàn)池中隨機(jī)抽取n個(gè)小批量歷史樣本作為DDQN網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)開(kāi)展DRL自學(xué)習(xí)訓(xùn)練。具體來(lái)說(shuō)，首先通過(guò)DDQN的正向計(jì)算得到所有控制動(dòng)作的預(yù)測(cè)Q值，根據(jù)式(8)結(jié)合目標(biāo)Q值計(jì)算損失函數(shù)，使用小批量梯度下降法完成DDQN網(wǎng)絡(luò)的參數(shù)更新；令t=t+1，進(jìn)行循環(huán)迭代，在經(jīng)過(guò)足夠多的訓(xùn)練周期后，DDQN神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)會(huì)收斂于穩(wěn)定值，完成估值函數(shù)的近似，最后判斷t是否達(dá)到終止時(shí)刻T，若達(dá)到終止時(shí)刻則結(jié)束自學(xué)習(xí)的訓(xùn)練過(guò)程。

采用觀測(cè)狀態(tài)數(shù)據(jù)完成基于DDQN的DRL訓(xùn)練后，可實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。后面基于算例仿真進(jìn)行有效性分析。

3 算例分析

3.1 典型配電網(wǎng)隨機(jī)故障場(chǎng)景

選取IEEE 33節(jié)點(diǎn)典型配電系統(tǒng)作為算例，如圖1紅色虛線框內(nèi)所示，詳細(xì)的算例模型參數(shù)見(jiàn)文獻(xiàn)[22]；考慮臺(tái)風(fēng)極端天氣下算例系統(tǒng)的故障恢復(fù)過(guò)程。在節(jié)點(diǎn)6，13，23，29設(shè)置可控型DG1、DG2、DG3、DG4，容量限額分別為300 kVA、300 kVA、400 kVA、600 kVA，可控型DG的單位電量出力成本為0.4元/kWh，節(jié)點(diǎn)6，13，23，29負(fù)荷在停電時(shí)單位電量的停電損失為5.6元/kWh；在節(jié)點(diǎn)21、32設(shè)置風(fēng)電WT21、WT32，節(jié)點(diǎn)17、24設(shè)置光伏PV17、PV24；5條聯(lián)絡(luò)開(kāi)關(guān)支路33、34、35、36、37作為改變拓?fù)浣Y(jié)構(gòu)的動(dòng)作手段；在節(jié)點(diǎn)4、8、15、30設(shè)置可中斷負(fù)荷IL4、IL8、IL15、IL30，其單位電量的中斷補(bǔ)償成本分別為1.2、0.84、0.96、1.4元/kWh，在停電時(shí)其單位電量的停電損失成本為0.4元/kWh；其余節(jié)點(diǎn)負(fù)荷停電時(shí)單位電量停電損失成本為2元/kWh。

臺(tái)風(fēng)災(zāi)害下電力系統(tǒng)設(shè)備的故障率主要與臺(tái)風(fēng)風(fēng)速有關(guān)，根據(jù)現(xiàn)有的文獻(xiàn)，線路故障概率與臺(tái)風(fēng)風(fēng)速vtyp滿足威布爾累積分布[9]，如式(10)所示。算例中臺(tái)風(fēng)風(fēng)速模擬按照下述假設(shè)：臺(tái)風(fēng)風(fēng)速vtyp服從正態(tài)分布，本算例中vtyp～N(22,62)。

(10)

式中α>0，β>0，分別為尺度參數(shù)和形狀參數(shù)，結(jié)合配電網(wǎng)歷史故障數(shù)據(jù)。算例系統(tǒng)中支路5、9、15、20、22、28共6條線路為臺(tái)風(fēng)登陸時(shí)的易受損線路。線性擬合獲取α和β參數(shù)的估計(jì)值，本算例中α=32，β=6。

3.2 DDQN訓(xùn)練的樣本數(shù)據(jù)

基于DDQN結(jié)構(gòu)的深度強(qiáng)化學(xué)習(xí)算法開(kāi)展易受損線路故障下隨機(jī)決策過(guò)程的優(yōu)化，DDQN訓(xùn)練的樣本數(shù)據(jù)(st、at、rt+1、st+1)對(duì)應(yīng)的變量設(shè)置如表1所示。

表1 DDQN訓(xùn)練樣本數(shù)據(jù)

(11)

3.3 基于DDQN的DRL自學(xué)習(xí)算法的超參數(shù)

將仿真中的DDQN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為：狀態(tài)估值網(wǎng)絡(luò)V(st)和動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)A(st,at)的輸入層均含44個(gè)神經(jīng)元(和狀態(tài)變量個(gè)數(shù)相同)，隱含層分別含20個(gè)和25個(gè)神經(jīng)元，均以線性整流單元(Relu)作為激活函數(shù)，V(st)和A(st,at)的輸出層分別有1個(gè)和32個(gè)神經(jīng)元(代表聯(lián)絡(luò)開(kāi)關(guān)的動(dòng)作組合數(shù))，所有層之間采用全連接方式。DRL算法中超參數(shù)的設(shè)置見(jiàn)表2。

表2 DRL算法中超參數(shù)的設(shè)置

在迭代訓(xùn)練期間，DDQN的損失函數(shù)下降情況如圖2所示。由圖2可知，DDQN的損失函數(shù)迅速下降并趨于穩(wěn)定，說(shuō)明該算法收斂性較好。

圖2 訓(xùn)練期間DDQN的損失函數(shù)

3.4 基于DRL的決策結(jié)果

本文采用每隔15 min的運(yùn)行狀態(tài)數(shù)據(jù)，基于蒙特卡羅仿真方法隨機(jī)生成線路故障集合，仿真配電網(wǎng)故障運(yùn)行方式。把配電網(wǎng)觀測(cè)狀態(tài)(如表1所示)輸入到訓(xùn)練后的DDQN神經(jīng)網(wǎng)絡(luò)中，按照第1節(jié)3種不同的決策策略進(jìn)行動(dòng)作決策分析。

1)可控DG出力決策

可控DG出力在不同隨機(jī)運(yùn)行方式下的決策結(jié)果如表3所示。

表3 可控DG出力的決策結(jié)果

2)聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作

聯(lián)絡(luò)開(kāi)關(guān)在隨機(jī)運(yùn)行方式下的決策結(jié)果動(dòng)作情況如表4所示，其中1表示動(dòng)作，0表示未動(dòng)作。

表4 聯(lián)絡(luò)開(kāi)關(guān)決策結(jié)果

3)IL的中斷控制

針對(duì)隨機(jī)運(yùn)行方式M29、M73、M75、M76、M77、M78和M79的IL決策結(jié)果中斷負(fù)荷量數(shù)據(jù)見(jiàn)表5。

表5 可中斷負(fù)荷決策結(jié)果

IL的需求響應(yīng)曲線見(jiàn)圖3，其中藍(lán)色虛線代表IL的原始負(fù)荷需求，紅色實(shí)線代表優(yōu)化控制后的實(shí)際負(fù)荷曲線。

基于3種不同決策策略，隨機(jī)故障運(yùn)行方式下基于DRL的動(dòng)作決策結(jié)果說(shuō)明：本文基于DRL的高恢復(fù)力決策方法適應(yīng)多種隨機(jī)運(yùn)行方式。

3.5 不同決策策略的有效性

選取僅在DG支撐下無(wú)法完全恢復(fù)所有負(fù)荷供電的隨機(jī)運(yùn)行方式，其余運(yùn)行方式下由DG進(jìn)行孤島供電，均可完全恢復(fù)。不同隨機(jī)運(yùn)行方式下負(fù)荷

損失功率數(shù)據(jù)見(jiàn)表6。負(fù)荷損失功率是指該配電網(wǎng)算例中正常運(yùn)行條件下所有負(fù)荷的總功率P1與極端災(zāi)害導(dǎo)致的故障情況下所有負(fù)荷的總功率P2的差值，即負(fù)荷損失功率等于(P1-P2)。在隨機(jī)運(yùn)行方式M9、M24、M26、M67、M69、M72、M86、M89、M91和M93下，采用策略二能夠?qū)⒇?fù)荷損失功率減小到零，進(jìn)一步發(fā)揮了DG的恢復(fù)能力；最后策略三采用“源-網(wǎng)-荷”控制，隨機(jī)運(yùn)行方式M73、M75、M76和M79的負(fù)荷損失功率可減小到零。

表6 不同決策策略的負(fù)荷損失功率數(shù)據(jù)

綜上，針對(duì)配電網(wǎng)極端災(zāi)害條件下故障過(guò)程的隨機(jī)性，將DG、聯(lián)絡(luò)開(kāi)關(guān)以及IL作為減少停電損失的動(dòng)作手段，通過(guò)基于DDQN的深度強(qiáng)化學(xué)習(xí)算法形成隨機(jī)優(yōu)化動(dòng)作決策，可有效提升配電網(wǎng)在極端災(zāi)害條件下的恢復(fù)力。

5 結(jié)論

為提高極端災(zāi)害下主動(dòng)配電網(wǎng)供電恢復(fù)力，本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)高恢復(fù)力決策方法，通過(guò)典型算例研究了深度強(qiáng)化學(xué)習(xí)算法的隨機(jī)優(yōu)化決策能力。

1)在極端災(zāi)害導(dǎo)致的隨機(jī)故障場(chǎng)景下，本文構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型，定義自學(xué)習(xí)Agent恢復(fù)力回報(bào)函數(shù)，采用觀測(cè)狀態(tài)數(shù)據(jù)訓(xùn)練DDQN神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)了觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。

2)本文基于DDQN結(jié)構(gòu)構(gòu)造Q函數(shù)，對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí)，開(kāi)展基于DDQN的DRL自學(xué)習(xí)訓(xùn)練過(guò)程，損失函數(shù)迅速下降并趨于穩(wěn)定，說(shuō)明該算法收斂性較好。

3)算例仿真研究表明，基于DDQN的深度強(qiáng)化學(xué)習(xí)算法適應(yīng)多種隨機(jī)運(yùn)行方式，不同動(dòng)作決策均可實(shí)現(xiàn)有效提升故障恢復(fù)力。