亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于近端策略優(yōu)化算法的災(zāi)后配電網(wǎng)韌性提升方法

        2022-11-14 06:27:56王子昊蔣傳文白冰青
        電力系統(tǒng)自動化 2022年21期
        關(guān)鍵詞:配電網(wǎng)動作優(yōu)化

        王子昊,王 旭,蔣傳文,龔 開,白冰青,鄧 暉

        (1. 電力傳輸與功率變換控制教育部重點實驗室(上海交通大學(xué)),上海市 200240;2. 國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,浙江省杭州市 310014;3. 國網(wǎng)浙江省電力有限公司電力市場仿真實驗室,浙江省杭州市 310014)

        0 引言

        臺風(fēng)災(zāi)害是影響中國沿海及部分內(nèi)陸地區(qū)的主要災(zāi)害性天氣系統(tǒng)之一,臺風(fēng)災(zāi)害會導(dǎo)致配電網(wǎng)負(fù)荷損失[1]。為了評估應(yīng)對極端自然災(zāi)害的能力,配電網(wǎng)引入了韌性(resilience)的概念[2]。配電網(wǎng)韌性用于評價配電網(wǎng)承受小概率-高損失事件的能力。文獻(xiàn)[3]提出了考慮多階段配電網(wǎng)拓?fù)渲貥?gòu)的配電網(wǎng)韌性評估指標(biāo)。文獻(xiàn)[4]將災(zāi)害過程中所有負(fù)荷的正常運行時間與災(zāi)害持續(xù)影響時間的比值作為韌性量化指標(biāo)。目前,在配電網(wǎng)韌性提升問題的研究中,文獻(xiàn)[5]采用線路加固方式實現(xiàn)了配電網(wǎng)韌性的提升;文獻(xiàn)[6]采用核密度估計法計算韌性概率分布并反映分布式發(fā)電(distributed generation,DG)對韌性的提升程度;文獻(xiàn)[7]構(gòu)建了3 層優(yōu)化模型以提升配電網(wǎng)-城市交通網(wǎng)耦合系統(tǒng)韌性;文獻(xiàn)[8-9]利用可控開關(guān)實現(xiàn)網(wǎng)絡(luò)重構(gòu)來滿足災(zāi)后負(fù)荷需求。

        強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域迅速發(fā)展的分支。目前,強(qiáng)化學(xué)習(xí)在配電網(wǎng)韌性的應(yīng)用尚處于初步階段,如何利用強(qiáng)化學(xué)習(xí)實現(xiàn)災(zāi)后配電網(wǎng)快速恢復(fù)仍面臨諸多技術(shù)難題。近年來,研究人員在電力系統(tǒng)中嘗試應(yīng)用各種強(qiáng)化學(xué)習(xí)方法,例如:基于深度強(qiáng)化學(xué)習(xí)的負(fù)荷頻率控制策略[10]、基于競爭深度Q 網(wǎng)絡(luò)的主動配電網(wǎng)運行優(yōu)化[11]、利用深度確定策略梯度(deep deterministic policy gradient,DDPG)算法實現(xiàn)配電網(wǎng)節(jié)點電壓總偏差與線損最?。?2]、基于深度強(qiáng)化學(xué)習(xí)的配電網(wǎng)高恢復(fù)力決策方法[13]、基于行動者-評論家(actor-critic,AC)框架的配電網(wǎng)多時間尺度無功優(yōu)化[14]、基于多智能體深度強(qiáng)化學(xué)習(xí)的配電網(wǎng)無功調(diào)度方案[15]等。這些方法都基于馬爾可夫決策過程(Markov decision process,MDP)進(jìn)行建模,MDP 也可應(yīng)用在配電網(wǎng)韌性領(lǐng)域[16]。常用的強(qiáng)化學(xué)習(xí)方法包括基于值函數(shù)的方法、基于策略梯度(policy gradient,PG)的方法以及兩者相結(jié)合的AC方法。目前的研究[10-15,17-21]涉及3 類強(qiáng)化學(xué)習(xí)方法,但尚未見文獻(xiàn)將屬于AC 方法的近端策略優(yōu)化(proximal policy optimization,PPO)算法應(yīng)用于災(zāi)后配電網(wǎng)韌性提升。

        PPO 算法是OpenAI 提出的一種強(qiáng)化學(xué)習(xí)算法,可在復(fù)雜的場景中快速學(xué)習(xí)到正確的策略。目前,PPO 算法已應(yīng)用在無人機(jī)集群攻防對抗[22]、物聯(lián)網(wǎng)環(huán)境溫度預(yù)測[23]、綜合能源系統(tǒng)的多目標(biāo)能源優(yōu)化調(diào)度[24]等領(lǐng)域?;谝陨涎芯縖22-24],在極端災(zāi)害發(fā)生后配電網(wǎng)的網(wǎng)絡(luò)重構(gòu)、DG 調(diào)度及負(fù)荷恢復(fù)問題中運用PPO 算法具備可行性,使用高效的PPO算法對于解決災(zāi)后配電網(wǎng)韌性提升問題有著重要意義。

        本文構(gòu)建了配電網(wǎng)韌性恢復(fù)力評價指標(biāo),將災(zāi)后配電網(wǎng)網(wǎng)絡(luò)重構(gòu)問題轉(zhuǎn)化為一個MDP,用深度神經(jīng)網(wǎng)絡(luò)擬合配電網(wǎng)已知狀態(tài)到聯(lián)絡(luò)線開關(guān)投切動作的函數(shù)映射,以最大化累計獎勵為優(yōu)化目標(biāo)以減少負(fù)荷損失,在每個動作周期進(jìn)行內(nèi)層優(yōu)化。最后,通過算例分析驗證了所提方法在提升災(zāi)后配電網(wǎng)韌性上的有效性以及PPO 算法的收斂性。

        1 PPO 算法

        PPO 算法是一種基于AC 框架的深度強(qiáng)化學(xué)習(xí)算法,該算法基于PG 獲得最優(yōu)策略。PPO 算法由評論家網(wǎng)絡(luò)(critic network,CN)和行動者網(wǎng)絡(luò)(actor network,AN)構(gòu)成。CN 學(xué)習(xí)環(huán)境和獎勵之間的關(guān)系并獲得當(dāng)前的動作優(yōu)勢函數(shù),AN 根據(jù)動作優(yōu)勢函數(shù)不斷調(diào)整策略的參數(shù),以增加獲得高獎勵值的概率。

        PPO 算法中,AN 的損失函數(shù)LAN表達(dá)式[25]為:

        式 中:Et(·)為t時 刻 的 期 望 函 數(shù);θ1為AN 的 參 數(shù);rt(·)為t時 刻 的 新 舊 策 略 概 率 函 數(shù);At為t時 刻 的 動作 優(yōu) 勢 函 數(shù);clip(·)為 修 剪 函 數(shù);ε為 小 于1 的 正常數(shù)。

        PPO 算法嘗試通過最小化取得更大劣勢動作概率的同時,最大化At的數(shù)值,使AN 向高獎勵值的方向更新。傳統(tǒng)PG 算法對新策略的更新幅度十分敏感,步長較小時,難以在限定的時間內(nèi)生成更好的策略,步長較大時,生成的策略收斂困難。PPO算法使用式(1)限制了新策略的更新幅度,當(dāng)步長較大時也可保證策略的穩(wěn)定收斂,從而兼顧了算法的策略優(yōu)化以及收斂性。

        CN 的作用是擬合狀態(tài)價值函數(shù),θ2為CN 的參數(shù),CN 的損失函數(shù)LCN表達(dá)式為:

        式中:s和a分別為強(qiáng)化學(xué)習(xí)中的狀態(tài)和動作;r(s,a)為狀態(tài)s下采取動作a的即時獎勵;γ為折扣因子;s′為狀態(tài)s下采取動作a的后繼狀態(tài);V(·)為狀態(tài)價值函數(shù)。

        2 災(zāi)后配電網(wǎng)韌性提升內(nèi)層優(yōu)化模型

        配電網(wǎng)韌性提升分為3 個階段,即災(zāi)前提升配電網(wǎng)抵御各類型極端事件的能力、災(zāi)中提升配電網(wǎng)應(yīng)對、適應(yīng)、吸收極端事件影響的能力、災(zāi)后配電網(wǎng)從極端事件影響中迅速恢復(fù)的能力。配電網(wǎng)韌性恢復(fù)力指標(biāo)衡量配電網(wǎng)逐步恢復(fù)負(fù)荷供電,使其盡快接近或者達(dá)到災(zāi)前正常狀態(tài)的調(diào)控能力[2]。

        本文用負(fù)荷失電率以及負(fù)荷停電率衡量配電網(wǎng)韌性恢復(fù)力。負(fù)荷失電率RLL為極端事件發(fā)生后,負(fù)荷減載總量占負(fù)荷總量的比值,表達(dá)式為:

        負(fù)荷停電率RLC為極端事件發(fā)生后,配電網(wǎng)負(fù)荷停電總次數(shù)占總仿真數(shù)的比值,表達(dá)式為:

        在遭受極端臺風(fēng)事件后,配電網(wǎng)部分線路斷線,以災(zāi)后配電網(wǎng)的負(fù)荷損失、發(fā)電成本和節(jié)點電壓偏差最小為目標(biāo),此時的優(yōu)化目標(biāo)函數(shù)為:

        具體約束條件如下:

        1)配電網(wǎng)輻射狀網(wǎng)絡(luò)約束[26]

        式(6)表示輻射狀網(wǎng)絡(luò)中的子節(jié)點最多有1 個父節(jié)點。

        2)線路電壓降約束[26]

        式 中:Pl,t和Ql,t分 別 為t時 段 流 經(jīng) 線 路l的 有 功 功 率和無功功率;Rl和Xl分別為線路l上的電阻和電抗;U1為電壓基值;M為一個取值很大的正數(shù)。

        3)功率平衡約束

        4)線路傳輸功率約束

        式 中:Pl,max和Pl,min分 別 為 流 經(jīng) 線 路l的 有 功 功 率 上、下 限;Ql,max和Ql,min分 別 為 流 經(jīng) 線 路l的 無 功 功 率上、下限。

        5)節(jié)點電壓約束

        3 災(zāi)后配電網(wǎng)韌性提升方法

        本文構(gòu)建基于PPO 算法的雙層優(yōu)化模型實現(xiàn)災(zāi)后配電網(wǎng)韌性提升,通過分析配電網(wǎng)負(fù)荷、DG 和聯(lián)絡(luò)線通斷數(shù)據(jù),獲得配電網(wǎng)韌性恢復(fù)力最優(yōu)的網(wǎng)絡(luò)重構(gòu)策略。

        3.1 基于強(qiáng)化學(xué)習(xí)的災(zāi)后配電網(wǎng)韌性提升模型

        3.1.1 配電網(wǎng)網(wǎng)絡(luò)模型及參數(shù)設(shè)置

        本文采用改進(jìn)的IEEE 33 節(jié)點配電網(wǎng)為研究對象,含聯(lián)絡(luò)線的配電網(wǎng)系統(tǒng)拓?fù)淙绺戒汚 圖A1所示。

        假設(shè)該配電網(wǎng)區(qū)域發(fā)生極端臺風(fēng)災(zāi)害,配電網(wǎng)內(nèi)易損線路設(shè)置情況如附錄A 圖A1 所示,該配電網(wǎng)與主網(wǎng)斷開連接,配電網(wǎng)其余線路均為電纜,在極端天氣下不會出現(xiàn)斷線事故。配電網(wǎng)被故障線路分隔形成多個原始孤島,此時,該配電網(wǎng)系統(tǒng)能量支撐來源于用戶側(cè)DG。極端災(zāi)害下,DG 難以適應(yīng)隨機(jī)性的故障位置。在原始孤島劃分下,可能存在部分孤島電源功率支撐不足的情況,造成配電網(wǎng)的負(fù)荷損失。設(shè)置5 條聯(lián)絡(luò)線,每條線上都有聯(lián)絡(luò)開關(guān)。各DG 技術(shù)參數(shù)見表A1,在本模型中不進(jìn)行棄風(fēng)、棄光操作,即當(dāng)風(fēng)機(jī)和光伏接入配電網(wǎng)時,其出力全部消納。

        3.1.2 災(zāi)后配電網(wǎng)韌性提升外層優(yōu)化模型

        若將災(zāi)后配電網(wǎng)系統(tǒng)作為環(huán)境,進(jìn)行動作決策的聯(lián)絡(luò)線調(diào)度中心作為智能體,則災(zāi)后配電網(wǎng)韌性提升問題可以轉(zhuǎn)化為典型的MDP 問題,其決策過程的狀態(tài)空間S、動作空間A、獎勵空間R定義如下。

        S為聯(lián)絡(luò)線調(diào)度中心獲取到的配電網(wǎng)信息,具體包括配電網(wǎng)中聯(lián)絡(luò)線、DG 與負(fù)荷的通斷信息。第k個動作周期的狀態(tài)sk表達(dá)式為:

        向 量sk有45 個 元 素;ak共 有16 種 取 值 情 況,即聯(lián)絡(luò)線調(diào)度中心每次有16 種動作選擇。

        本文構(gòu)建包含外層強(qiáng)化學(xué)習(xí)優(yōu)化與內(nèi)層傳統(tǒng)優(yōu)化的雙層優(yōu)化模型,即在每個動作周期完成內(nèi)層優(yōu)化模型的多時段優(yōu)化,并完成由全部動作周期構(gòu)成的外層強(qiáng)化學(xué)習(xí)優(yōu)化。假設(shè)配電網(wǎng)故障線路的斷線持續(xù)時間為40 min,每5 min 作為一個動作周期,共有8 個動作周期。每個動作周期包含5 個時段,即每分鐘進(jìn)行一次優(yōu)化調(diào)度。線路故障期間智能體首先根據(jù)上一個動作周期的狀態(tài)生成該動作周期的動作指令,重構(gòu)后的網(wǎng)絡(luò)應(yīng)最大限度地實現(xiàn)孤島間的功率聯(lián)絡(luò)并盡可能地恢復(fù)負(fù)荷。然后,根據(jù)新的系統(tǒng)拓?fù)鋱D,在約束條件下使內(nèi)層優(yōu)化模型的目標(biāo)函數(shù)值最大,基于內(nèi)層優(yōu)化模型的最優(yōu)解生成該動作周期的狀態(tài)與獎勵,此后,循環(huán)這一過程。

        R與負(fù)荷損失值有關(guān),其第k個動作周期rk的表達(dá)式為:

        若本動作周期的負(fù)荷損失值小于上個動作周期的負(fù)荷損失值,即當(dāng)本動作周期的動作能促進(jìn)配電網(wǎng)災(zāi)后負(fù)荷進(jìn)一步恢復(fù)時,rk取值為本動作周期的負(fù)荷恢復(fù)值,獎勵取為正數(shù)以促進(jìn)強(qiáng)化學(xué)習(xí)向配電網(wǎng)韌性提升方向優(yōu)化;兩者相等時,rk取一個絕對值較小的負(fù)值,ξ1=20;否則,rk取一個絕對值較大的負(fù)值,ξ2=80。

        顯然,外層強(qiáng)化學(xué)習(xí)優(yōu)化模型的優(yōu)化目標(biāo)為最大化累計獎勵值,模型的最優(yōu)解相當(dāng)于求解MDP的最優(yōu)策略,表達(dá)式為:

        式中:K為動作周期總數(shù)。

        強(qiáng)化學(xué)習(xí)流程如圖1 所示。值情況見附錄A 表A2。

        圖1 強(qiáng)化學(xué)習(xí)流程圖Fig.1 Flow chart of reinforcement learning

        3.2 PPO 算法訓(xùn)練過程

        3.2.1 PPO 算法訓(xùn)練過程原理

        基于災(zāi)后配電網(wǎng)韌性提升的PPO 算法學(xué)習(xí)框架如圖2 所示。樣本單元由上個動作周期的狀態(tài)信息、本動作周期的動作信息和動作價值函數(shù)信息構(gòu)成。CN 根據(jù)本動作周期的獎勵和狀態(tài)生成動作價值函數(shù)信息。在每個回合中,每隔指定的動作周期數(shù)后提取該區(qū)間的樣本單元集。CN 利用樣本單元集中的狀態(tài)信息和動作價值函數(shù)信息計算其損失函數(shù)值LCN并 更 新CN 的 參 數(shù)θ2。AN 中 包 含 新、舊2 個 策略,此時,結(jié)合CN 輸出的動作優(yōu)勢函數(shù)與樣本單元集中的動作信息、狀態(tài)信息計算AN 的損失函數(shù)值LAN,并更新AN 的參數(shù)θ1。在經(jīng)過足夠多的訓(xùn)練后,PPO 算法中的參數(shù)會收斂于穩(wěn)定值。AN 根據(jù)新策略和給定的狀態(tài)s生成動作a,根據(jù)動作a求解內(nèi)層優(yōu)化模型后形成獎勵r和新狀態(tài)s′并輸入CN以實現(xiàn)完整的PPO 算法優(yōu)化學(xué)習(xí)循環(huán)。

        圖2 PPO 算法優(yōu)化學(xué)習(xí)過程Fig.2 Optimal learning process of PPO algorithm

        對于AN 和CN,梯度下降優(yōu)化均選擇Adam 優(yōu)化器,其隱藏層個數(shù)均為1,隱藏層均采用Relu 函數(shù)作為輸出函數(shù),AN 的輸出層采用Softmax 函數(shù)來激活。AN 的輸入為含45 個元素的狀態(tài)向量s,輸出為基于s的16 個聯(lián)絡(luò)線開關(guān)動作組合概率。CN 的輸入也是狀態(tài)向量s,輸出為狀態(tài)價值函數(shù)。AN 和CN 的學(xué)習(xí)率分別是0.000 1 和0.000 2。clip 函數(shù)中的參數(shù)ε=0.2,折扣因子γ=0.9。在每個回合中依次選取前5 個動作周期和后3 個動作周期這2 個區(qū)間的樣本單元集對AN 和CN 進(jìn)行訓(xùn)練。設(shè)置節(jié)點23、24 處的負(fù)荷值遠(yuǎn)大于配電網(wǎng)其他節(jié)點的負(fù)荷值,因此,將節(jié)點23、24 處的負(fù)荷視為重要負(fù)荷。在內(nèi)層優(yōu)化模型中增加5 個時段內(nèi)配電網(wǎng)線路和聯(lián)絡(luò)線通斷情況不變的約束條件,內(nèi)層優(yōu)化問題的參數(shù)ω1=0.1、ω2=0.5,發(fā) 電 機(jī) 的 發(fā) 電 成 本 系 數(shù) 均為0.5。

        3.2.2 PPO 算法訓(xùn)練過程測試

        實驗基于Python 3.6 及Keras 庫實現(xiàn),采用Tensorflow 作為后端,采用Cplex 求解器求解內(nèi)層優(yōu)化問題。計算機(jī)CPU 為2.60 GHz 的Intel Core i7-9750H,內(nèi)存容量為16 GB。

        采用相對平均累計獎勵值及AN、CN 的損失函數(shù)的變化來評估PPO 算法的訓(xùn)練情況。相對平均累計獎勵值是指當(dāng)獲取第n個回合的累計獎勵值時,計算前n個回合累計獎勵值的平均值。在完成指定的回合數(shù)N后,計算每個回合對應(yīng)的平均累計獎勵值與最大平均累計獎勵值的比值,從而獲取PPO 算法的整體訓(xùn)練效果。

        設(shè)定總回合數(shù)N=700,PPO 算法訓(xùn)練過程中的相對平均累計獎勵值如圖3 所示。隨著回合次數(shù)的增加,相對平均累計獎勵值趨于穩(wěn)定。AN、CN損失函數(shù)值的變化情況分別如附錄A 圖A2 和圖A3所示。

        圖3 PPO 算法訓(xùn)練過程中的相對平均累計獎勵值Fig.3 Value of relative average cumulative reward in training process of PPO algorithm

        當(dāng)訓(xùn)練次數(shù)大于400 次后,AN、CN 的損失函數(shù)值振蕩衰減。隨著訓(xùn)練次數(shù)的增加,AN、CN 的損失函數(shù)值逐漸趨近于0,訓(xùn)練的神經(jīng)網(wǎng)絡(luò)穩(wěn)定較快。當(dāng)連續(xù)10 個回合累計獎勵值維持不變時,認(rèn)為算法生成穩(wěn)定策略。PPO 算法在第190 個回合生成了穩(wěn)定策略,可見PPO 算法的收斂性較好。

        PPO 算法訓(xùn)練過程中一個回合包括8 次動作值輸出、8 次內(nèi)層優(yōu)化模型的最優(yōu)解輸出以及AN、CN的參數(shù)更新,每一個回合均可在6 s 內(nèi)完成,求解過程較快。

        4 仿真結(jié)果分析

        4.1 改進(jìn)的IEEE 33 節(jié)點系統(tǒng)算例分析

        4.1.1 優(yōu)化結(jié)果分析

        動作周期第5 個時段的聯(lián)絡(luò)線、負(fù)荷、DG 的通斷數(shù)據(jù)是下一個動作周期的初始狀態(tài)數(shù)據(jù),也是下一個動作周期智能體發(fā)出動作指令的依據(jù),在最優(yōu)策略下的災(zāi)后配電網(wǎng)各動作周期第5 個時段的聯(lián)絡(luò)線通斷情況、切負(fù)荷組合、DG 調(diào)度情況以及孤島范圍如圖4 所示。

        PPO 算法與PG 算法在一個回合的用時基本相等,2 種算法最優(yōu)策略下各動作周期的負(fù)荷損失值見表1。結(jié)合表1 與圖4(a)至圖4(e)可知,在智能體完成網(wǎng)絡(luò)重構(gòu)動作后,孤島之間彼此聯(lián)絡(luò),前5 個動作周期失電孤島的數(shù)量依次為3、1、1、1、0,失電孤島的范圍不斷減小,前5 個動作周期第5 個時段DG 投入數(shù)量依次為2、3、4、5、5,配電網(wǎng)的供電能力呈現(xiàn)明顯的上升趨勢,前5 個動作周期第5 個時段配電網(wǎng)中斷負(fù)荷數(shù)量分別為21、17、13、11、10,負(fù)荷恢復(fù)能力持續(xù)提升。結(jié)合表1 與圖4(f)至圖4(h)可知,在配電網(wǎng)經(jīng)歷第6 個動作周期短暫的負(fù)荷損失增加后,配電網(wǎng)負(fù)荷損失值在第8 個動作周期再次降低到圖4(e)的水平,且負(fù)荷恢復(fù)速度大于前5 個動作周期的恢復(fù)速度。在8 個動作周期內(nèi),最優(yōu)策略始終保證對節(jié)點23、24 處的重要負(fù)荷供電。

        表1 不同算法最優(yōu)策略下各動作周期的負(fù)荷損失值Table 1 Load loss value of each operation cycle with the best strategies of different algorithms

        圖4 災(zāi)后配電網(wǎng)韌性提升策略及調(diào)度情況Fig.4 Resilience improvement strategy and dispatching situation of post-disaster distribution network

        災(zāi)后配電網(wǎng)各動作周期第5 個時段的DG 出力水平如附錄A 圖A4 所示??梢?,采取光伏、風(fēng)機(jī)出力全部消納的策略可較大程度地緩解配電網(wǎng)節(jié)點1處DG1 的發(fā)電壓力。

        4.1.2 PPO 算法性能分析

        PPO 算法、PG 算法最優(yōu)策略下各動作周期的獎勵值如表2 所示。求得PG 算法、PPO 算法最優(yōu)策略的累計獎勵值分別為107.010 0、332.357 5,PPO 算法在限定的總回合數(shù)內(nèi)生成了累計獎勵值更大的策略。

        表2 不同算法最優(yōu)策略下各動作周期的獎勵值Table 2 Reward value of each operation cycle with the best strategies of different algorithms

        PPO 算法與PG 算法最優(yōu)策略的負(fù)荷停電率和負(fù)荷失電率如表3 所示。由表3 可知,基于PPO 算法的災(zāi)后配電網(wǎng)韌性提升方法可以有效促進(jìn)災(zāi)后配電網(wǎng)的負(fù)荷恢復(fù)。

        表3 IEEE 33 節(jié)點配電網(wǎng)算例的不同算法對比Table 3 Comparison of different algorithms in the case of IEEE 33-bus distribution network

        PPO 算法和PG 算法生成的最優(yōu)策略對比如圖5 所示??梢姡? 個時段至第10 個時段PPO 算法的負(fù)荷恢復(fù)值短暫小于PG 算法外,其余35 個時段PPO 算法的負(fù)荷恢復(fù)值均大于或等于PG 算法的負(fù)荷恢復(fù)值,可見PPO 算法比PG 算法更有效地提升了災(zāi)后配電網(wǎng)韌性。

        圖5 PPO 算法與PG 算法生成的最優(yōu)策略對比Fig.5 Comparison of optimal strategies from PPO algorithm and PG algorithm

        4.2 改進(jìn)的IEEE 118 節(jié)點系統(tǒng)算例分析

        本算例的參數(shù)設(shè)置見附錄B。PG 算法在限定的總回合數(shù)內(nèi)沒有生成穩(wěn)定策略,而PPO 算法在第110 個回合生成了穩(wěn)定策略。PPO 算法、PG 算法最優(yōu)策略下各動作周期的獎勵值與負(fù)荷損失值分別如附錄B 表B3 和表B4 所示。由表B3 可求得PG 算法、PPO 算法最優(yōu)策略的累計獎勵值分別為-23.728、73.116,可見PPO 算法生成了累計獎勵值更大的策略。

        PPO 算法與PG 算法最優(yōu)策略的負(fù)荷停電率和負(fù)荷失電率如表4 所示。由表4 可知,相比PG 算法,PPO 算法最優(yōu)策略的負(fù)荷失電率和負(fù)荷停電率更小。

        表4 IEEE 118 節(jié)點配電網(wǎng)算例的不同算法對比Table 4 Comparison of different algorithms in the case of IEEE 118-bus distribution network

        5 結(jié)語

        本文將災(zāi)后配電網(wǎng)韌性提升問題轉(zhuǎn)化為MDP問題,以配電網(wǎng)的聯(lián)絡(luò)線、DG 與負(fù)荷的通斷狀態(tài)集作為狀態(tài)空間,以聯(lián)絡(luò)線開關(guān)動作集作為動作空間,以動作周期負(fù)荷恢復(fù)值作為即時獎勵,構(gòu)建了雙層優(yōu)化模型并采用深度強(qiáng)化學(xué)習(xí)中的PPO 算法求解災(zāi)后配電網(wǎng)韌性提升問題。主要結(jié)論如下:

        1)PPO 算法收斂性好。PPO 算法達(dá)到穩(wěn)定的韌性提升策略所需回合數(shù)少,且訓(xùn)練的AN、CN 穩(wěn)定較快。

        2)在本文算例中,相比于聯(lián)絡(luò)線開關(guān)不動作與采用PG 算法兩種情況,采用PPO 算法優(yōu)化后的負(fù)荷失電率與負(fù)荷停電率更低,生成的聯(lián)絡(luò)線、DG 與負(fù)荷最優(yōu)調(diào)度策略可以有效提升災(zāi)后配電網(wǎng)韌性恢復(fù)力。

        本文考慮了配電網(wǎng)線路故障情況不變的韌性提升方案,未對極端災(zāi)害發(fā)生期間線路故障動態(tài)變化、災(zāi)后配電網(wǎng)無功調(diào)度優(yōu)化等情況下PPO 算法的應(yīng)用進(jìn)行深入分析,如何進(jìn)一步降低災(zāi)后配電網(wǎng)負(fù)荷損失仍有待研究。

        附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

        猜你喜歡
        配電網(wǎng)動作優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        配電網(wǎng)自動化的應(yīng)用與發(fā)展趨勢
        動作描寫要具體
        畫動作
        動作描寫不可少
        基于IEC61850的配電網(wǎng)數(shù)據(jù)傳輸保護(hù)機(jī)制
        電測與儀表(2016年5期)2016-04-22 01:14:14
        配電網(wǎng)不止一步的跨越
        河南電力(2016年5期)2016-02-06 02:11:24
        国产做床爱无遮挡免费视频| 区二区三区玖玖玖| 久久久久亚洲精品无码网址| 久久中文字幕日韩精品| 伊人久久综合狼伊人久久| 亚洲中文字幕人妻久久| 少妇无码av无码一区| 日韩中文无线码在线视频观看| 按摩师玩弄少妇到高潮hd| 日本系列中文字幕99| 中国少妇内射xxxx狠干| 大香视频伊人精品75| 日韩狼人精品在线观看| 久久精品女人av一区二区| 亚洲中文字幕成人无码| 一本大道香蕉视频在线观看| 日韩熟女一区二区三区| 国内自拍色第一页第二页| 亚洲欧美日韩在线不卡| 欧美亚洲国产另类在线观看| 国产精品成人av在线观看 | 无码精品国产午夜| 国产精品一区二区三区四区亚洲| 亚洲av成人片在线观看| 国产一区日韩二区欧美三区| 久久精品国产亚洲av麻豆四虎| 日韩人妻免费视频一专区| 中文字幕无码毛片免费看| 欧美在线区| 亚洲一区二区一区二区免费视频| 变态调教一区二区三区女同| 亚洲男人第一无码av网站| 亚洲精品成人国产av| av中文字幕在线直播| 五月天国产成人av免费观看| 狠干狠爱无码区| 亚欧免费视频一区二区三区| 国产女主播福利在线观看| 欧美高清视频手机在在线| 三年片免费观看大全国语| 久久久亚洲精品午夜福利|