羅欣兒,杜進(jìn)橋,田杰,劉安迪,王標(biāo),李妍,王少榮
(1. 深圳供電局有限公司,廣東 深圳518001;2. 華中科技大學(xué)強(qiáng)電磁工程與新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢430074)
隨著全球?yàn)?zāi)害威脅的增加,電力系統(tǒng)在極端自然災(zāi)害下恢復(fù)力的研究得到越來(lái)越多的關(guān)注[1 - 2]。美國(guó)、歐盟、日本等國(guó)家和地區(qū)已將電網(wǎng)恢復(fù)力建設(shè)作為未來(lái)電網(wǎng)發(fā)展的重要方向。主動(dòng)配電網(wǎng)(active distribution network, AND)是智能配電網(wǎng)技術(shù)發(fā)展到高級(jí)階段的產(chǎn)物,可以通過(guò)拓?fù)浣Y(jié)構(gòu)、分布式發(fā)電(distributed generation, DG)和可中斷負(fù)荷(interruptible load, IL)等進(jìn)行主動(dòng)優(yōu)化控制,在故障恢復(fù)過(guò)程中減少用戶停電損失[3 - 5]。文獻(xiàn)[6]針對(duì)含微網(wǎng)的配電系統(tǒng),在極端災(zāi)害下的網(wǎng)架重構(gòu)階段,根據(jù)故障位置的不同提出差異化供電恢復(fù)方案;文獻(xiàn)[7]提出通過(guò)動(dòng)態(tài)拓?fù)浞治?、孤島配置、含DG主網(wǎng)絡(luò)連通性恢復(fù)和網(wǎng)絡(luò)優(yōu)化解決故障快速恢復(fù)問(wèn)題;文獻(xiàn)[8]將多源協(xié)同的配電網(wǎng)故障恢復(fù)問(wèn)題建模為混合整數(shù)二階錐規(guī)劃模型,并利用商業(yè)優(yōu)化軟件MOSEK進(jìn)行求解。針對(duì)配電網(wǎng)在極端災(zāi)害下的故障恢復(fù)過(guò)程,建立適應(yīng)具有復(fù)雜動(dòng)態(tài)約束的混合整數(shù)非線性規(guī)劃模型,運(yùn)行狀態(tài)隨機(jī)性會(huì)導(dǎo)致場(chǎng)景組合激增[9],求解的復(fù)雜度隨求解時(shí)段數(shù)成指數(shù)增長(zhǎng),在極端災(zāi)害條件下或者在實(shí)際故障恢復(fù)過(guò)程中,以上優(yōu)化模型會(huì)消耗大量的計(jì)算資源也可能找不到最優(yōu)解[10]。
數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法已成為求解隨機(jī)優(yōu)化決策領(lǐng)域的研究熱點(diǎn)[11 - 12],其中AlphaGo是成功的應(yīng)用案例[13],其核心技術(shù)是自學(xué)習(xí)方法[14 - 16]。隨著智能電網(wǎng)技術(shù)發(fā)展,高級(jí)量測(cè)體系、各種監(jiān)控系統(tǒng)的大規(guī)模部署將產(chǎn)生和積累大量數(shù)據(jù),基于數(shù)據(jù)驅(qū)動(dòng)的自學(xué)習(xí)方法在能源與電力系統(tǒng)優(yōu)化調(diào)度和控制決策等方面已引起廣泛關(guān)注[17 - 20]。配電網(wǎng)的故障恢復(fù)決策是隨機(jī)優(yōu)化決策的問(wèn)題,強(qiáng)化學(xué)習(xí)是一種無(wú)模型的方法,不需要先驗(yàn)知識(shí),采用歷史狀態(tài)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)而得出復(fù)雜決策,本文將其引入到問(wèn)題求解中去,為解決極端災(zāi)害下故障恢復(fù)決策提供一條新的思路。本文首先構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型,考慮減少負(fù)荷停電的經(jīng)濟(jì)損失,同時(shí)兼顧故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本,采用觀測(cè)狀態(tài)數(shù)據(jù),基于深度強(qiáng)化學(xué)習(xí)算法對(duì)競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)(dueling deep Q network, DDQN)進(jìn)行訓(xùn)練,迭代更新參數(shù),完成歷史觀測(cè)狀態(tài)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL),實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。本文最后基于蒙特卡羅法隨機(jī)生成易損線路的故障狀態(tài),得到易損線路故障集合,仿真研究IEEE33節(jié)點(diǎn)配電網(wǎng)算例的隨機(jī)故障場(chǎng)景,將DG孤島、網(wǎng)絡(luò)重構(gòu)和可中斷負(fù)荷等作為故障恢復(fù)的動(dòng)作手段,對(duì)DDQN結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,分析了3種決策策略下的負(fù)荷損失功率,說(shuō)明本文所提方法可有效提高主動(dòng)配電網(wǎng)極端災(zāi)害下供電恢復(fù)力。
本文基于數(shù)據(jù)驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)方法開(kāi)展極端災(zāi)害條件下的故障恢復(fù)決策,將極端災(zāi)害下配電網(wǎng)運(yùn)行狀態(tài)和線路故障狀態(tài)作為觀測(cè)狀態(tài)集合,自學(xué)習(xí)智能體Agent在當(dāng)前環(huán)境觀測(cè)狀態(tài)下尋求可行的決策策略進(jìn)行動(dòng)作,通過(guò)回報(bào)函數(shù)進(jìn)行動(dòng)作評(píng)價(jià)以開(kāi)展自學(xué)習(xí),如圖1所示。
圖1 基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策機(jī)制
t時(shí)刻觀測(cè)狀態(tài)St包括極端災(zāi)害下的線路故障狀態(tài)和主動(dòng)配電網(wǎng)運(yùn)行狀態(tài),其中,運(yùn)行狀態(tài)包括DG以及負(fù)荷的功率,線路故障狀態(tài)定義為極端災(zāi)害期間主動(dòng)配電網(wǎng)易損線路的受損狀態(tài)。
在主動(dòng)配電網(wǎng)極端災(zāi)害后故障恢復(fù)階段,本文提出可行的3種決策策略at并給出對(duì)應(yīng)約束條件,通過(guò)決策策略的約束建??审w現(xiàn)故障恢復(fù)能力。
策略一:“DG”控制,以實(shí)現(xiàn)故障后孤島內(nèi)負(fù)荷的供電恢復(fù);DG出力的功率存在上下限表明其恢復(fù)能力的大小,如式(1)所示。
(1)
策略二:“DG +網(wǎng)絡(luò)重構(gòu)”,靈活使用聯(lián)絡(luò)開(kāi)關(guān)轉(zhuǎn)供電,形成孤島聯(lián)絡(luò),充分利用DG的容量;網(wǎng)絡(luò)重構(gòu)需要考慮配電網(wǎng)的潮流運(yùn)行方式約束,主要為功率平衡約束、相鄰節(jié)點(diǎn)電壓關(guān)系約束、線路容量約束以及電壓大小上下限約束等。以線路容量約束為例說(shuō)明,如(2)所示。
(2)
策略三:“源-網(wǎng)-荷”控制,通過(guò)可中斷負(fù)荷控制進(jìn)一步提高供電恢復(fù)能力;可中斷負(fù)荷的功率變化大小與自身屬性有關(guān),如(3)所示。
(3)
(4)
故障恢復(fù)階段DG提供備用功率支撐,需要考慮其出力成本;此外,對(duì)可中斷負(fù)荷進(jìn)行控制時(shí),需要考慮可中斷負(fù)荷的中斷補(bǔ)償成本。因此,本文考慮的故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本包括DG出力成本以及可中斷負(fù)荷的中斷補(bǔ)償成本,電網(wǎng)運(yùn)行的經(jīng)濟(jì)損失回報(bào)rc如式(5)所示。
(5)
綜合以上建立基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策自學(xué)習(xí)Agent的即時(shí)回報(bào)函數(shù)rt+1, 見(jiàn)式(6)。
(6)
智能體Agent通過(guò)試錯(cuò)學(xué)習(xí)方式選擇動(dòng)作進(jìn)行即時(shí)回報(bào)評(píng)價(jià),基于評(píng)價(jià)激勵(lì)可實(shí)現(xiàn)經(jīng)驗(yàn)積累與決策動(dòng)作優(yōu)化。
本節(jié)基于DDQN網(wǎng)絡(luò)開(kāi)展DRL訓(xùn)練,自學(xué)習(xí)智能體Agent的試錯(cuò)經(jīng)驗(yàn)在估值函數(shù)Q矩陣中存儲(chǔ),以實(shí)現(xiàn)狀態(tài)到主動(dòng)配電網(wǎng)實(shí)時(shí)故障恢復(fù)策略的非線性映射?;贒DQN結(jié)構(gòu)構(gòu)造Q函數(shù),對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí),DDQN用兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)分別擬合觀測(cè)狀態(tài)的狀態(tài)估值函數(shù)V(st)和當(dāng)前狀態(tài)每個(gè)動(dòng)作的優(yōu)勢(shì)估值函數(shù)[23],并得到實(shí)現(xiàn)狀態(tài)和動(dòng)作解耦的Q(st,at)值。DDQN的Q函數(shù)如式(7)所示。
(7)
式中:A為所有可執(zhí)行動(dòng)作集合,執(zhí)行動(dòng)作包括DG出力ADG、 聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作AS以及IL控制AIL; |A|表示可執(zhí)行動(dòng)作的總數(shù)。由于每個(gè)觀測(cè)狀態(tài)只對(duì)應(yīng)一個(gè)控制動(dòng)作,因此獲取的一個(gè)Q函數(shù)值無(wú)法拆解成唯一狀態(tài)估值函數(shù)V值和動(dòng)作優(yōu)勢(shì)函數(shù)A值,故為了去除多余的自由度,提高算法穩(wěn)定性,將動(dòng)作優(yōu)勢(shì)函數(shù)設(shè)置為單獨(dú)動(dòng)作優(yōu)勢(shì)函數(shù)減去當(dāng)前狀態(tài)下所有動(dòng)作優(yōu)勢(shì)函數(shù)的平均值。
引入ε-greedy策略進(jìn)行動(dòng)作選取體現(xiàn)自學(xué)習(xí)對(duì)環(huán)境的探索機(jī)制見(jiàn)式(8)。
(8)
式中:ε為ε-greedy策略中的固定常數(shù);T為總訓(xùn)練次數(shù);k為當(dāng)前訓(xùn)練次數(shù);γ(0<γ≤ε)為計(jì)算機(jī)生成的隨機(jī)數(shù);Q′(st,at)為狀態(tài)st下動(dòng)作at的預(yù)測(cè)估值。
DDQN執(zhí)行正向計(jì)算可得到所有控制動(dòng)作的Q值,將目標(biāo)Q值和神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值之間的均方差定義為損失函數(shù),見(jiàn)式(9)。
(9)
式中:Qπ*(st,at)為目標(biāo)Q值;Qπ′(st,at,w)為神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值;ω為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù);n為小批量訓(xùn)練的樣本數(shù)。
為了消除短期內(nèi)樣本間的時(shí)序相關(guān)性,采用記憶回放來(lái)存儲(chǔ)狀態(tài)動(dòng)作傳輸對(duì)樣本(st,at,rt+1,st+1)。建立容量為N的經(jīng)驗(yàn)池,在每個(gè)訓(xùn)練周期內(nèi),將主動(dòng)配電網(wǎng)觀測(cè)樣本存入其中,當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量M, 則從經(jīng)驗(yàn)池中隨機(jī)抽取小批量的觀測(cè)樣本,開(kāi)展神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過(guò)隨機(jī)抽取觀測(cè)樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),避免過(guò)擬合等現(xiàn)象的出現(xiàn)。若樣本數(shù)超過(guò)經(jīng)驗(yàn)池的最大容量,則剔除掉最早的觀測(cè)樣本再存入新樣本,保證神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最新的觀測(cè)狀態(tài)。
基于DDQN結(jié)構(gòu)的DRL自學(xué)習(xí)訓(xùn)練過(guò)程:首先設(shè)置合適的超參數(shù)λ、α、ε、n、N、M, 初始化神經(jīng)網(wǎng)絡(luò)與經(jīng)驗(yàn)池,設(shè)定訓(xùn)練終止時(shí)刻T并令當(dāng)前訓(xùn)練時(shí)刻t=0; 其次觀察當(dāng)前狀態(tài)st, 結(jié)合ε-greedy策略選取下步動(dòng)作at, 記錄下一狀態(tài)st+1并計(jì)算即時(shí)回報(bào)rt+1, 不斷積累樣本數(shù)據(jù);然后判斷經(jīng)驗(yàn)池是否存滿,若存滿則剔除掉早期樣本,并存入當(dāng)前時(shí)刻觀測(cè)樣本;當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量,從經(jīng)驗(yàn)池中隨機(jī)抽取n個(gè)小批量歷史樣本作為DDQN網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)開(kāi)展DRL自學(xué)習(xí)訓(xùn)練。具體來(lái)說(shuō),首先通過(guò)DDQN的正向計(jì)算得到所有控制動(dòng)作的預(yù)測(cè)Q值,根據(jù)式(8)結(jié)合目標(biāo)Q值計(jì)算損失函數(shù),使用小批量梯度下降法完成DDQN網(wǎng)絡(luò)的參數(shù)更新;令t=t+1, 進(jìn)行循環(huán)迭代,在經(jīng)過(guò)足夠多的訓(xùn)練周期后,DDQN神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)會(huì)收斂于穩(wěn)定值,完成估值函數(shù)的近似,最后判斷t是否達(dá)到終止時(shí)刻T, 若達(dá)到終止時(shí)刻則結(jié)束自學(xué)習(xí)的訓(xùn)練過(guò)程。
采用觀測(cè)狀態(tài)數(shù)據(jù)完成基于DDQN的DRL訓(xùn)練后,可實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。后面基于算例仿真進(jìn)行有效性分析。
選取IEEE 33節(jié)點(diǎn)典型配電系統(tǒng)作為算例,如圖1紅色虛線框內(nèi)所示,詳細(xì)的算例模型參數(shù)見(jiàn)文獻(xiàn)[22];考慮臺(tái)風(fēng)極端天氣下算例系統(tǒng)的故障恢復(fù)過(guò)程。在節(jié)點(diǎn)6,13,23,29設(shè)置可控型DG1、DG2、DG3、DG4,容量限額分別為300 kVA、300 kVA、400 kVA、600 kVA,可控型DG的單位電量出力成本為0.4元/kWh,節(jié)點(diǎn)6,13,23,29負(fù)荷在停電時(shí)單位電量的停電損失為5.6元/kWh;在節(jié)點(diǎn)21、32設(shè)置風(fēng)電WT21、WT32,節(jié)點(diǎn)17、24設(shè)置光伏PV17、PV24;5條聯(lián)絡(luò)開(kāi)關(guān)支路33、34、35、36、37作為改變拓?fù)浣Y(jié)構(gòu)的動(dòng)作手段;在節(jié)點(diǎn)4、8、15、30設(shè)置可中斷負(fù)荷IL4、IL8、IL15、IL30,其單位電量的中斷補(bǔ)償成本分別為1.2、0.84、0.96、1.4元/kWh,在停電時(shí)其單位電量的停電損失成本為0.4元/kWh;其余節(jié)點(diǎn)負(fù)荷停電時(shí)單位電量停電損失成本為2元/kWh。
臺(tái)風(fēng)災(zāi)害下電力系統(tǒng)設(shè)備的故障率主要與臺(tái)風(fēng)風(fēng)速有關(guān),根據(jù)現(xiàn)有的文獻(xiàn),線路故障概率與臺(tái)風(fēng)風(fēng)速vtyp滿足威布爾累積分布[9],如式(10)所示。算例中臺(tái)風(fēng)風(fēng)速模擬按照下述假設(shè):臺(tái)風(fēng)風(fēng)速vtyp服從正態(tài)分布,本算例中vtyp~N(22,62)。
(10)
式中α>0,β>0, 分別為尺度參數(shù)和形狀參數(shù),結(jié)合配電網(wǎng)歷史故障數(shù)據(jù)。算例系統(tǒng)中支路5、9、15、20、22、28共6條線路為臺(tái)風(fēng)登陸時(shí)的易受損線路。線性擬合獲取α和β參數(shù)的估計(jì)值,本算例中α=32,β=6。
基于DDQN結(jié)構(gòu)的深度強(qiáng)化學(xué)習(xí)算法開(kāi)展易受損線路故障下隨機(jī)決策過(guò)程的優(yōu)化,DDQN訓(xùn)練的樣本數(shù)據(jù)(st、at、rt+1、st+1)對(duì)應(yīng)的變量設(shè)置如表1所示。
表1 DDQN訓(xùn)練樣本數(shù)據(jù)
(11)
將仿真中的DDQN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為:狀態(tài)估值網(wǎng)絡(luò)V(st)和動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)A(st,at)的輸入層均含44個(gè)神經(jīng)元(和狀態(tài)變量個(gè)數(shù)相同),隱含層分別含20個(gè)和25個(gè)神經(jīng)元,均以線性整流單元(Relu)作為激活函數(shù),V(st)和A(st,at)的輸出層分別有1個(gè)和32個(gè)神經(jīng)元(代表聯(lián)絡(luò)開(kāi)關(guān)的動(dòng)作組合數(shù)),所有層之間采用全連接方式。DRL算法中超參數(shù)的設(shè)置見(jiàn)表2。
表2 DRL算法中超參數(shù)的設(shè)置
在迭代訓(xùn)練期間,DDQN的損失函數(shù)下降情況如圖2所示。由圖2可知,DDQN的損失函數(shù)迅速下降并趨于穩(wěn)定,說(shuō)明該算法收斂性較好。
圖2 訓(xùn)練期間DDQN的損失函數(shù)
本文采用每隔15 min的運(yùn)行狀態(tài)數(shù)據(jù),基于蒙特卡羅仿真方法隨機(jī)生成線路故障集合,仿真配電網(wǎng)故障運(yùn)行方式。把配電網(wǎng)觀測(cè)狀態(tài)(如表1所示)輸入到訓(xùn)練后的DDQN神經(jīng)網(wǎng)絡(luò)中,按照第1節(jié)3種不同的決策策略進(jìn)行動(dòng)作決策分析。
1)可控DG出力決策
可控DG出力在不同隨機(jī)運(yùn)行方式下的決策結(jié)果如表3所示。
表3 可控DG出力的決策結(jié)果
2)聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作
聯(lián)絡(luò)開(kāi)關(guān)在隨機(jī)運(yùn)行方式下的決策結(jié)果動(dòng)作情況如表4所示,其中1表示動(dòng)作,0表示未動(dòng)作。
表4 聯(lián)絡(luò)開(kāi)關(guān)決策結(jié)果
3)IL的中斷控制
針對(duì)隨機(jī)運(yùn)行方式M29、M73、M75、M76、M77、M78和M79的IL決策結(jié)果中斷負(fù)荷量數(shù)據(jù)見(jiàn)表5。
表5 可中斷負(fù)荷決策結(jié)果
IL的需求響應(yīng)曲線見(jiàn)圖3,其中藍(lán)色虛線代表IL的原始負(fù)荷需求,紅色實(shí)線代表優(yōu)化控制后的實(shí)際負(fù)荷曲線。
基于3種不同決策策略,隨機(jī)故障運(yùn)行方式下基于DRL的動(dòng)作決策結(jié)果說(shuō)明:本文基于DRL的高恢復(fù)力決策方法適應(yīng)多種隨機(jī)運(yùn)行方式。
選取僅在DG支撐下無(wú)法完全恢復(fù)所有負(fù)荷供電的隨機(jī)運(yùn)行方式,其余運(yùn)行方式下由DG進(jìn)行孤島供電,均可完全恢復(fù)。不同隨機(jī)運(yùn)行方式下負(fù)荷
損失功率數(shù)據(jù)見(jiàn)表6。負(fù)荷損失功率是指該配電網(wǎng)算例中正常運(yùn)行條件下所有負(fù)荷的總功率P1與極端災(zāi)害導(dǎo)致的故障情況下所有負(fù)荷的總功率P2的差值,即負(fù)荷損失功率等于(P1-P2)。在隨機(jī)運(yùn)行方式M9、M24、M26、M67、M69、M72、M86、M89、M91和M93下,采用策略二能夠?qū)⒇?fù)荷損失功率減小到零,進(jìn)一步發(fā)揮了DG的恢復(fù)能力;最后策略三采用“源-網(wǎng)-荷”控制,隨機(jī)運(yùn)行方式M73、M75、M76和M79的負(fù)荷損失功率可減小到零。
表6 不同決策策略的負(fù)荷損失功率數(shù)據(jù)
綜上,針對(duì)配電網(wǎng)極端災(zāi)害條件下故障過(guò)程的隨機(jī)性,將DG、聯(lián)絡(luò)開(kāi)關(guān)以及IL作為減少停電損失的動(dòng)作手段,通過(guò)基于DDQN的深度強(qiáng)化學(xué)習(xí)算法形成隨機(jī)優(yōu)化動(dòng)作決策,可有效提升配電網(wǎng)在極端災(zāi)害條件下的恢復(fù)力。
為提高極端災(zāi)害下主動(dòng)配電網(wǎng)供電恢復(fù)力,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)高恢復(fù)力決策方法,通過(guò)典型算例研究了深度強(qiáng)化學(xué)習(xí)算法的隨機(jī)優(yōu)化決策能力。
1)在極端災(zāi)害導(dǎo)致的隨機(jī)故障場(chǎng)景下,本文構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型,定義自學(xué)習(xí)Agent恢復(fù)力回報(bào)函數(shù),采用觀測(cè)狀態(tài)數(shù)據(jù)訓(xùn)練DDQN神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。
2)本文基于DDQN結(jié)構(gòu)構(gòu)造Q函數(shù),對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí),開(kāi)展基于DDQN的DRL自學(xué)習(xí)訓(xùn)練過(guò)程,損失函數(shù)迅速下降并趨于穩(wěn)定,說(shuō)明該算法收斂性較好。
3)算例仿真研究表明,基于DDQN的深度強(qiáng)化學(xué)習(xí)算法適應(yīng)多種隨機(jī)運(yùn)行方式,不同動(dòng)作決策均可實(shí)現(xiàn)有效提升故障恢復(fù)力。