亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)高恢復(fù)力決策方法

        2022-03-08 12:23:28羅欣兒杜進(jìn)橋田杰劉安迪王標(biāo)李妍王少榮
        南方電網(wǎng)技術(shù) 2022年1期
        關(guān)鍵詞:配電網(wǎng)動(dòng)作故障

        羅欣兒,杜進(jìn)橋,田杰,劉安迪,王標(biāo),李妍,王少榮

        (1. 深圳供電局有限公司,廣東 深圳518001;2. 華中科技大學(xué)強(qiáng)電磁工程與新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢430074)

        0 引言

        隨著全球?yàn)?zāi)害威脅的增加,電力系統(tǒng)在極端自然災(zāi)害下恢復(fù)力的研究得到越來(lái)越多的關(guān)注[1 - 2]。美國(guó)、歐盟、日本等國(guó)家和地區(qū)已將電網(wǎng)恢復(fù)力建設(shè)作為未來(lái)電網(wǎng)發(fā)展的重要方向。主動(dòng)配電網(wǎng)(active distribution network, AND)是智能配電網(wǎng)技術(shù)發(fā)展到高級(jí)階段的產(chǎn)物,可以通過(guò)拓?fù)浣Y(jié)構(gòu)、分布式發(fā)電(distributed generation, DG)和可中斷負(fù)荷(interruptible load, IL)等進(jìn)行主動(dòng)優(yōu)化控制,在故障恢復(fù)過(guò)程中減少用戶停電損失[3 - 5]。文獻(xiàn)[6]針對(duì)含微網(wǎng)的配電系統(tǒng),在極端災(zāi)害下的網(wǎng)架重構(gòu)階段,根據(jù)故障位置的不同提出差異化供電恢復(fù)方案;文獻(xiàn)[7]提出通過(guò)動(dòng)態(tài)拓?fù)浞治?、孤島配置、含DG主網(wǎng)絡(luò)連通性恢復(fù)和網(wǎng)絡(luò)優(yōu)化解決故障快速恢復(fù)問(wèn)題;文獻(xiàn)[8]將多源協(xié)同的配電網(wǎng)故障恢復(fù)問(wèn)題建模為混合整數(shù)二階錐規(guī)劃模型,并利用商業(yè)優(yōu)化軟件MOSEK進(jìn)行求解。針對(duì)配電網(wǎng)在極端災(zāi)害下的故障恢復(fù)過(guò)程,建立適應(yīng)具有復(fù)雜動(dòng)態(tài)約束的混合整數(shù)非線性規(guī)劃模型,運(yùn)行狀態(tài)隨機(jī)性會(huì)導(dǎo)致場(chǎng)景組合激增[9],求解的復(fù)雜度隨求解時(shí)段數(shù)成指數(shù)增長(zhǎng),在極端災(zāi)害條件下或者在實(shí)際故障恢復(fù)過(guò)程中,以上優(yōu)化模型會(huì)消耗大量的計(jì)算資源也可能找不到最優(yōu)解[10]。

        數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法已成為求解隨機(jī)優(yōu)化決策領(lǐng)域的研究熱點(diǎn)[11 - 12],其中AlphaGo是成功的應(yīng)用案例[13],其核心技術(shù)是自學(xué)習(xí)方法[14 - 16]。隨著智能電網(wǎng)技術(shù)發(fā)展,高級(jí)量測(cè)體系、各種監(jiān)控系統(tǒng)的大規(guī)模部署將產(chǎn)生和積累大量數(shù)據(jù),基于數(shù)據(jù)驅(qū)動(dòng)的自學(xué)習(xí)方法在能源與電力系統(tǒng)優(yōu)化調(diào)度和控制決策等方面已引起廣泛關(guān)注[17 - 20]。配電網(wǎng)的故障恢復(fù)決策是隨機(jī)優(yōu)化決策的問(wèn)題,強(qiáng)化學(xué)習(xí)是一種無(wú)模型的方法,不需要先驗(yàn)知識(shí),采用歷史狀態(tài)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)而得出復(fù)雜決策,本文將其引入到問(wèn)題求解中去,為解決極端災(zāi)害下故障恢復(fù)決策提供一條新的思路。本文首先構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型,考慮減少負(fù)荷停電的經(jīng)濟(jì)損失,同時(shí)兼顧故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本,采用觀測(cè)狀態(tài)數(shù)據(jù),基于深度強(qiáng)化學(xué)習(xí)算法對(duì)競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)(dueling deep Q network, DDQN)進(jìn)行訓(xùn)練,迭代更新參數(shù),完成歷史觀測(cè)狀態(tài)的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL),實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。本文最后基于蒙特卡羅法隨機(jī)生成易損線路的故障狀態(tài),得到易損線路故障集合,仿真研究IEEE33節(jié)點(diǎn)配電網(wǎng)算例的隨機(jī)故障場(chǎng)景,將DG孤島、網(wǎng)絡(luò)重構(gòu)和可中斷負(fù)荷等作為故障恢復(fù)的動(dòng)作手段,對(duì)DDQN結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,分析了3種決策策略下的負(fù)荷損失功率,說(shuō)明本文所提方法可有效提高主動(dòng)配電網(wǎng)極端災(zāi)害下供電恢復(fù)力。

        1 基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型

        本文基于數(shù)據(jù)驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)方法開(kāi)展極端災(zāi)害條件下的故障恢復(fù)決策,將極端災(zāi)害下配電網(wǎng)運(yùn)行狀態(tài)和線路故障狀態(tài)作為觀測(cè)狀態(tài)集合,自學(xué)習(xí)智能體Agent在當(dāng)前環(huán)境觀測(cè)狀態(tài)下尋求可行的決策策略進(jìn)行動(dòng)作,通過(guò)回報(bào)函數(shù)進(jìn)行動(dòng)作評(píng)價(jià)以開(kāi)展自學(xué)習(xí),如圖1所示。

        圖1 基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策機(jī)制

        t時(shí)刻觀測(cè)狀態(tài)St包括極端災(zāi)害下的線路故障狀態(tài)和主動(dòng)配電網(wǎng)運(yùn)行狀態(tài),其中,運(yùn)行狀態(tài)包括DG以及負(fù)荷的功率,線路故障狀態(tài)定義為極端災(zāi)害期間主動(dòng)配電網(wǎng)易損線路的受損狀態(tài)。

        在主動(dòng)配電網(wǎng)極端災(zāi)害后故障恢復(fù)階段,本文提出可行的3種決策策略at并給出對(duì)應(yīng)約束條件,通過(guò)決策策略的約束建??审w現(xiàn)故障恢復(fù)能力。

        策略一:“DG”控制,以實(shí)現(xiàn)故障后孤島內(nèi)負(fù)荷的供電恢復(fù);DG出力的功率存在上下限表明其恢復(fù)能力的大小,如式(1)所示。

        (1)

        策略二:“DG +網(wǎng)絡(luò)重構(gòu)”,靈活使用聯(lián)絡(luò)開(kāi)關(guān)轉(zhuǎn)供電,形成孤島聯(lián)絡(luò),充分利用DG的容量;網(wǎng)絡(luò)重構(gòu)需要考慮配電網(wǎng)的潮流運(yùn)行方式約束,主要為功率平衡約束、相鄰節(jié)點(diǎn)電壓關(guān)系約束、線路容量約束以及電壓大小上下限約束等。以線路容量約束為例說(shuō)明,如(2)所示。

        (2)

        策略三:“源-網(wǎng)-荷”控制,通過(guò)可中斷負(fù)荷控制進(jìn)一步提高供電恢復(fù)能力;可中斷負(fù)荷的功率變化大小與自身屬性有關(guān),如(3)所示。

        (3)

        (4)

        故障恢復(fù)階段DG提供備用功率支撐,需要考慮其出力成本;此外,對(duì)可中斷負(fù)荷進(jìn)行控制時(shí),需要考慮可中斷負(fù)荷的中斷補(bǔ)償成本。因此,本文考慮的故障恢復(fù)時(shí)電網(wǎng)運(yùn)行經(jīng)濟(jì)成本包括DG出力成本以及可中斷負(fù)荷的中斷補(bǔ)償成本,電網(wǎng)運(yùn)行的經(jīng)濟(jì)損失回報(bào)rc如式(5)所示。

        (5)

        綜合以上建立基于深度強(qiáng)化學(xué)習(xí)的故障恢復(fù)決策自學(xué)習(xí)Agent的即時(shí)回報(bào)函數(shù)rt+1, 見(jiàn)式(6)。

        (6)

        智能體Agent通過(guò)試錯(cuò)學(xué)習(xí)方式選擇動(dòng)作進(jìn)行即時(shí)回報(bào)評(píng)價(jià),基于評(píng)價(jià)激勵(lì)可實(shí)現(xiàn)經(jīng)驗(yàn)積累與決策動(dòng)作優(yōu)化。

        2 基于DDQN結(jié)構(gòu)的DRL自學(xué)習(xí)訓(xùn)練

        本節(jié)基于DDQN網(wǎng)絡(luò)開(kāi)展DRL訓(xùn)練,自學(xué)習(xí)智能體Agent的試錯(cuò)經(jīng)驗(yàn)在估值函數(shù)Q矩陣中存儲(chǔ),以實(shí)現(xiàn)狀態(tài)到主動(dòng)配電網(wǎng)實(shí)時(shí)故障恢復(fù)策略的非線性映射?;贒DQN結(jié)構(gòu)構(gòu)造Q函數(shù),對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí),DDQN用兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)分別擬合觀測(cè)狀態(tài)的狀態(tài)估值函數(shù)V(st)和當(dāng)前狀態(tài)每個(gè)動(dòng)作的優(yōu)勢(shì)估值函數(shù)[23],并得到實(shí)現(xiàn)狀態(tài)和動(dòng)作解耦的Q(st,at)值。DDQN的Q函數(shù)如式(7)所示。

        (7)

        式中:A為所有可執(zhí)行動(dòng)作集合,執(zhí)行動(dòng)作包括DG出力ADG、 聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作AS以及IL控制AIL; |A|表示可執(zhí)行動(dòng)作的總數(shù)。由于每個(gè)觀測(cè)狀態(tài)只對(duì)應(yīng)一個(gè)控制動(dòng)作,因此獲取的一個(gè)Q函數(shù)值無(wú)法拆解成唯一狀態(tài)估值函數(shù)V值和動(dòng)作優(yōu)勢(shì)函數(shù)A值,故為了去除多余的自由度,提高算法穩(wěn)定性,將動(dòng)作優(yōu)勢(shì)函數(shù)設(shè)置為單獨(dú)動(dòng)作優(yōu)勢(shì)函數(shù)減去當(dāng)前狀態(tài)下所有動(dòng)作優(yōu)勢(shì)函數(shù)的平均值。

        引入ε-greedy策略進(jìn)行動(dòng)作選取體現(xiàn)自學(xué)習(xí)對(duì)環(huán)境的探索機(jī)制見(jiàn)式(8)。

        (8)

        式中:ε為ε-greedy策略中的固定常數(shù);T為總訓(xùn)練次數(shù);k為當(dāng)前訓(xùn)練次數(shù);γ(0<γ≤ε)為計(jì)算機(jī)生成的隨機(jī)數(shù);Q′(st,at)為狀態(tài)st下動(dòng)作at的預(yù)測(cè)估值。

        DDQN執(zhí)行正向計(jì)算可得到所有控制動(dòng)作的Q值,將目標(biāo)Q值和神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值之間的均方差定義為損失函數(shù),見(jiàn)式(9)。

        (9)

        式中:Qπ*(st,at)為目標(biāo)Q值;Qπ′(st,at,w)為神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測(cè)Q值;ω為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù);n為小批量訓(xùn)練的樣本數(shù)。

        為了消除短期內(nèi)樣本間的時(shí)序相關(guān)性,采用記憶回放來(lái)存儲(chǔ)狀態(tài)動(dòng)作傳輸對(duì)樣本(st,at,rt+1,st+1)。建立容量為N的經(jīng)驗(yàn)池,在每個(gè)訓(xùn)練周期內(nèi),將主動(dòng)配電網(wǎng)觀測(cè)樣本存入其中,當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量M, 則從經(jīng)驗(yàn)池中隨機(jī)抽取小批量的觀測(cè)樣本,開(kāi)展神經(jīng)網(wǎng)絡(luò)訓(xùn)練,通過(guò)隨機(jī)抽取觀測(cè)樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),避免過(guò)擬合等現(xiàn)象的出現(xiàn)。若樣本數(shù)超過(guò)經(jīng)驗(yàn)池的最大容量,則剔除掉最早的觀測(cè)樣本再存入新樣本,保證神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最新的觀測(cè)狀態(tài)。

        基于DDQN結(jié)構(gòu)的DRL自學(xué)習(xí)訓(xùn)練過(guò)程:首先設(shè)置合適的超參數(shù)λ、α、ε、n、N、M, 初始化神經(jīng)網(wǎng)絡(luò)與經(jīng)驗(yàn)池,設(shè)定訓(xùn)練終止時(shí)刻T并令當(dāng)前訓(xùn)練時(shí)刻t=0; 其次觀察當(dāng)前狀態(tài)st, 結(jié)合ε-greedy策略選取下步動(dòng)作at, 記錄下一狀態(tài)st+1并計(jì)算即時(shí)回報(bào)rt+1, 不斷積累樣本數(shù)據(jù);然后判斷經(jīng)驗(yàn)池是否存滿,若存滿則剔除掉早期樣本,并存入當(dāng)前時(shí)刻觀測(cè)樣本;當(dāng)樣本數(shù)超過(guò)回放開(kāi)始容量,從經(jīng)驗(yàn)池中隨機(jī)抽取n個(gè)小批量歷史樣本作為DDQN網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)開(kāi)展DRL自學(xué)習(xí)訓(xùn)練。具體來(lái)說(shuō),首先通過(guò)DDQN的正向計(jì)算得到所有控制動(dòng)作的預(yù)測(cè)Q值,根據(jù)式(8)結(jié)合目標(biāo)Q值計(jì)算損失函數(shù),使用小批量梯度下降法完成DDQN網(wǎng)絡(luò)的參數(shù)更新;令t=t+1, 進(jìn)行循環(huán)迭代,在經(jīng)過(guò)足夠多的訓(xùn)練周期后,DDQN神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)會(huì)收斂于穩(wěn)定值,完成估值函數(shù)的近似,最后判斷t是否達(dá)到終止時(shí)刻T, 若達(dá)到終止時(shí)刻則結(jié)束自學(xué)習(xí)的訓(xùn)練過(guò)程。

        采用觀測(cè)狀態(tài)數(shù)據(jù)完成基于DDQN的DRL訓(xùn)練后,可實(shí)現(xiàn)觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。后面基于算例仿真進(jìn)行有效性分析。

        3 算例分析

        3.1 典型配電網(wǎng)隨機(jī)故障場(chǎng)景

        選取IEEE 33節(jié)點(diǎn)典型配電系統(tǒng)作為算例,如圖1紅色虛線框內(nèi)所示,詳細(xì)的算例模型參數(shù)見(jiàn)文獻(xiàn)[22];考慮臺(tái)風(fēng)極端天氣下算例系統(tǒng)的故障恢復(fù)過(guò)程。在節(jié)點(diǎn)6,13,23,29設(shè)置可控型DG1、DG2、DG3、DG4,容量限額分別為300 kVA、300 kVA、400 kVA、600 kVA,可控型DG的單位電量出力成本為0.4元/kWh,節(jié)點(diǎn)6,13,23,29負(fù)荷在停電時(shí)單位電量的停電損失為5.6元/kWh;在節(jié)點(diǎn)21、32設(shè)置風(fēng)電WT21、WT32,節(jié)點(diǎn)17、24設(shè)置光伏PV17、PV24;5條聯(lián)絡(luò)開(kāi)關(guān)支路33、34、35、36、37作為改變拓?fù)浣Y(jié)構(gòu)的動(dòng)作手段;在節(jié)點(diǎn)4、8、15、30設(shè)置可中斷負(fù)荷IL4、IL8、IL15、IL30,其單位電量的中斷補(bǔ)償成本分別為1.2、0.84、0.96、1.4元/kWh,在停電時(shí)其單位電量的停電損失成本為0.4元/kWh;其余節(jié)點(diǎn)負(fù)荷停電時(shí)單位電量停電損失成本為2元/kWh。

        臺(tái)風(fēng)災(zāi)害下電力系統(tǒng)設(shè)備的故障率主要與臺(tái)風(fēng)風(fēng)速有關(guān),根據(jù)現(xiàn)有的文獻(xiàn),線路故障概率與臺(tái)風(fēng)風(fēng)速vtyp滿足威布爾累積分布[9],如式(10)所示。算例中臺(tái)風(fēng)風(fēng)速模擬按照下述假設(shè):臺(tái)風(fēng)風(fēng)速vtyp服從正態(tài)分布,本算例中vtyp~N(22,62)。

        (10)

        式中α>0,β>0, 分別為尺度參數(shù)和形狀參數(shù),結(jié)合配電網(wǎng)歷史故障數(shù)據(jù)。算例系統(tǒng)中支路5、9、15、20、22、28共6條線路為臺(tái)風(fēng)登陸時(shí)的易受損線路。線性擬合獲取α和β參數(shù)的估計(jì)值,本算例中α=32,β=6。

        3.2 DDQN訓(xùn)練的樣本數(shù)據(jù)

        基于DDQN結(jié)構(gòu)的深度強(qiáng)化學(xué)習(xí)算法開(kāi)展易受損線路故障下隨機(jī)決策過(guò)程的優(yōu)化,DDQN訓(xùn)練的樣本數(shù)據(jù)(st、at、rt+1、st+1)對(duì)應(yīng)的變量設(shè)置如表1所示。

        表1 DDQN訓(xùn)練樣本數(shù)據(jù)

        (11)

        3.3 基于DDQN的DRL自學(xué)習(xí)算法的超參數(shù)

        將仿真中的DDQN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為:狀態(tài)估值網(wǎng)絡(luò)V(st)和動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)A(st,at)的輸入層均含44個(gè)神經(jīng)元(和狀態(tài)變量個(gè)數(shù)相同),隱含層分別含20個(gè)和25個(gè)神經(jīng)元,均以線性整流單元(Relu)作為激活函數(shù),V(st)和A(st,at)的輸出層分別有1個(gè)和32個(gè)神經(jīng)元(代表聯(lián)絡(luò)開(kāi)關(guān)的動(dòng)作組合數(shù)),所有層之間采用全連接方式。DRL算法中超參數(shù)的設(shè)置見(jiàn)表2。

        表2 DRL算法中超參數(shù)的設(shè)置

        在迭代訓(xùn)練期間,DDQN的損失函數(shù)下降情況如圖2所示。由圖2可知,DDQN的損失函數(shù)迅速下降并趨于穩(wěn)定,說(shuō)明該算法收斂性較好。

        圖2 訓(xùn)練期間DDQN的損失函數(shù)

        3.4 基于DRL的決策結(jié)果

        本文采用每隔15 min的運(yùn)行狀態(tài)數(shù)據(jù),基于蒙特卡羅仿真方法隨機(jī)生成線路故障集合,仿真配電網(wǎng)故障運(yùn)行方式。把配電網(wǎng)觀測(cè)狀態(tài)(如表1所示)輸入到訓(xùn)練后的DDQN神經(jīng)網(wǎng)絡(luò)中,按照第1節(jié)3種不同的決策策略進(jìn)行動(dòng)作決策分析。

        1)可控DG出力決策

        可控DG出力在不同隨機(jī)運(yùn)行方式下的決策結(jié)果如表3所示。

        表3 可控DG出力的決策結(jié)果

        2)聯(lián)絡(luò)開(kāi)關(guān)動(dòng)作

        聯(lián)絡(luò)開(kāi)關(guān)在隨機(jī)運(yùn)行方式下的決策結(jié)果動(dòng)作情況如表4所示,其中1表示動(dòng)作,0表示未動(dòng)作。

        表4 聯(lián)絡(luò)開(kāi)關(guān)決策結(jié)果

        3)IL的中斷控制

        針對(duì)隨機(jī)運(yùn)行方式M29、M73、M75、M76、M77、M78和M79的IL決策結(jié)果中斷負(fù)荷量數(shù)據(jù)見(jiàn)表5。

        表5 可中斷負(fù)荷決策結(jié)果

        IL的需求響應(yīng)曲線見(jiàn)圖3,其中藍(lán)色虛線代表IL的原始負(fù)荷需求,紅色實(shí)線代表優(yōu)化控制后的實(shí)際負(fù)荷曲線。

        基于3種不同決策策略,隨機(jī)故障運(yùn)行方式下基于DRL的動(dòng)作決策結(jié)果說(shuō)明:本文基于DRL的高恢復(fù)力決策方法適應(yīng)多種隨機(jī)運(yùn)行方式。

        3.5 不同決策策略的有效性

        選取僅在DG支撐下無(wú)法完全恢復(fù)所有負(fù)荷供電的隨機(jī)運(yùn)行方式,其余運(yùn)行方式下由DG進(jìn)行孤島供電,均可完全恢復(fù)。不同隨機(jī)運(yùn)行方式下負(fù)荷

        損失功率數(shù)據(jù)見(jiàn)表6。負(fù)荷損失功率是指該配電網(wǎng)算例中正常運(yùn)行條件下所有負(fù)荷的總功率P1與極端災(zāi)害導(dǎo)致的故障情況下所有負(fù)荷的總功率P2的差值,即負(fù)荷損失功率等于(P1-P2)。在隨機(jī)運(yùn)行方式M9、M24、M26、M67、M69、M72、M86、M89、M91和M93下,采用策略二能夠?qū)⒇?fù)荷損失功率減小到零,進(jìn)一步發(fā)揮了DG的恢復(fù)能力;最后策略三采用“源-網(wǎng)-荷”控制,隨機(jī)運(yùn)行方式M73、M75、M76和M79的負(fù)荷損失功率可減小到零。

        表6 不同決策策略的負(fù)荷損失功率數(shù)據(jù)

        綜上,針對(duì)配電網(wǎng)極端災(zāi)害條件下故障過(guò)程的隨機(jī)性,將DG、聯(lián)絡(luò)開(kāi)關(guān)以及IL作為減少停電損失的動(dòng)作手段,通過(guò)基于DDQN的深度強(qiáng)化學(xué)習(xí)算法形成隨機(jī)優(yōu)化動(dòng)作決策,可有效提升配電網(wǎng)在極端災(zāi)害條件下的恢復(fù)力。

        5 結(jié)論

        為提高極端災(zāi)害下主動(dòng)配電網(wǎng)供電恢復(fù)力,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)高恢復(fù)力決策方法,通過(guò)典型算例研究了深度強(qiáng)化學(xué)習(xí)算法的隨機(jī)優(yōu)化決策能力。

        1)在極端災(zāi)害導(dǎo)致的隨機(jī)故障場(chǎng)景下,本文構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的高恢復(fù)力決策模型,定義自學(xué)習(xí)Agent恢復(fù)力回報(bào)函數(shù),采用觀測(cè)狀態(tài)數(shù)據(jù)訓(xùn)練DDQN神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了觀測(cè)狀態(tài)到主動(dòng)配電網(wǎng)故障恢復(fù)策略的非線性映射。

        2)本文基于DDQN結(jié)構(gòu)構(gòu)造Q函數(shù),對(duì)狀態(tài)和動(dòng)作進(jìn)行分層學(xué)習(xí),開(kāi)展基于DDQN的DRL自學(xué)習(xí)訓(xùn)練過(guò)程,損失函數(shù)迅速下降并趨于穩(wěn)定,說(shuō)明該算法收斂性較好。

        3)算例仿真研究表明,基于DDQN的深度強(qiáng)化學(xué)習(xí)算法適應(yīng)多種隨機(jī)運(yùn)行方式,不同動(dòng)作決策均可實(shí)現(xiàn)有效提升故障恢復(fù)力。

        猜你喜歡
        配電網(wǎng)動(dòng)作故障
        故障一點(diǎn)通
        配電網(wǎng)自動(dòng)化的應(yīng)用與發(fā)展趨勢(shì)
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        基于IEC61850的配電網(wǎng)數(shù)據(jù)傳輸保護(hù)機(jī)制
        配電網(wǎng)不止一步的跨越
        河南電力(2016年5期)2016-02-06 02:11:24
        非同一般的吃飯動(dòng)作
        故障一點(diǎn)通
        日韩国产精品无码一区二区三区| 三级网址在线| 人妻无码中文专区久久五月婷 | 人妻中文字幕无码系列| 乱码一二三入区口| 99福利在线| 久久综合一本中文字幕| 婷婷丁香开心五月综合| 又色又爽又高潮免费视频国产| 亚洲乱妇老熟女爽到高潮的片| 亚洲人成绝费网站色www| 一本之道日本熟妇人妻| 亚洲熟妇久久精品| 久久精品国产一区二区电影| 资源在线观看视频一区二区| 国产自拍视频在线观看免费| 一本一本久久aa综合精品| 亚洲七七久久综合桃花| 少妇隔壁人妻中文字幕| 国产性色av一区二区| 欧美牲交videossexeso欧美| 中字幕久久久人妻熟女| 国产日韩亚洲中文字幕| 媚药丝袜美女高清一二区| 亚洲精品国产成人片| 国产绳艺sm调教室论坛| 极品粉嫩嫩模大尺度无码| 亚洲青青草视频在线播放| 嫩呦国产一区二区三区av| 国产精品无码人妻在线| 3344永久在线观看视频| 国产经典免费视频在线观看| 国产成人精品一区二三区在线观看 | 怡红院av一区二区三区| 嫖妓丰满肥熟妇在线精品| 国产精品久久久久免费看 | 精品三级国产一区二区三| 国产超碰人人爽人人做人人添| 国产美女在线一区二区三区| 亚洲精品综合久久国产二区| 无码人妻一区二区三区在线|