亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度確定性策略梯度的主動配電網(wǎng)有功-無功協(xié)調(diào)優(yōu)化調(diào)度

        2023-11-01 01:54:36孫國強殷巖巖衛(wèi)志農(nóng)臧海祥楚云飛
        電力建設(shè) 2023年11期
        關(guān)鍵詞:離線調(diào)度狀態(tài)

        孫國強,殷巖巖,衛(wèi)志農(nóng),臧海祥,楚云飛

        (河海大學(xué)能源與電氣學(xué)院,南京市 211100)

        0 引 言

        隨著分布式電源(distributed generation, DG)在配電層面的廣泛接入,配電系統(tǒng)正從無源網(wǎng)絡(luò)演變?yōu)橛性磁潆娋W(wǎng)絡(luò),即主動配電網(wǎng)(active distribution network, ADN)。同時,光伏發(fā)電(photovoltaic, PV)、風(fēng)電(wind turbines, WT)的隨機性和波動性增加了ADN的不確定性,導(dǎo)致電壓、潮流越限等問題變得更加嚴(yán)重[1-2]。

        目前,為了實現(xiàn)ADN的協(xié)調(diào)優(yōu)化控制,國內(nèi)外學(xué)者已經(jīng)提出諸多基于模型的優(yōu)化方法。例如,文獻[3]構(gòu)建了ADN的混合整數(shù)非線性規(guī)劃模型和等效混合整數(shù)二次約束模型,用于配電網(wǎng)中的電壓管理。文獻[4]將非線性潮流約束進行二階錐松弛,從而將配電網(wǎng)經(jīng)濟運行優(yōu)化模型轉(zhuǎn)化為混合整數(shù)二階錐規(guī)劃問題,提高了求解精度。進一步,考慮到DG不確定性因素對配電網(wǎng)運行的影響,文獻[5]中構(gòu)建了基于隨機規(guī)劃的多階段調(diào)度模型,驗證了該模型能在隨機狀態(tài)下自適應(yīng)調(diào)整儲能裝置、換流站及需求響應(yīng)決策。然而,隨機規(guī)劃需獲取不確定變量的概率分布參數(shù)[6],并采用大量場景刻畫不確定信息,導(dǎo)致準(zhǔn)確性和求解效率偏低[7-8]。為了消除ADN優(yōu)化配置模型中DG相關(guān)的不確定性變量,文獻[9]構(gòu)建了魯棒優(yōu)化框架,并采用漸緊線切割算法和列和約束生成算法相結(jié)合的方法對轉(zhuǎn)化模型求解,縮小了凸松弛間隙,提高了模型求解效率。文獻[10]計及新能源的預(yù)測誤差,基于離散不確定性域改進了現(xiàn)有魯棒優(yōu)化方法,從而獲得了更廣泛的“惡劣場景集”。上述魯棒優(yōu)化方法無需獲取不確定性量的概率分布,而是通過不確定性集來描述DG出力的不確定性,形式簡潔。但由于其在不確定性集的最惡劣實現(xiàn)情況下做出決策,因此可能導(dǎo)致優(yōu)化結(jié)果過于保守[11-13]。

        基于模型的方法在ADN協(xié)調(diào)優(yōu)化控制方面取得了廣泛的成效。然而,此方法依賴于完整且明確的配電網(wǎng)物理模型,需要獲取詳細的網(wǎng)絡(luò)拓撲、線路參數(shù)、負荷功率等信息[14-15]。然而這些信息在現(xiàn)實獲得過程中經(jīng)常有所缺失、準(zhǔn)確性低。如果參數(shù)和物理模型不準(zhǔn)確,將會導(dǎo)致不經(jīng)濟甚至不切實際的調(diào)度決策[16]。此外,基于模型的方法計算復(fù)雜度高、存在維度災(zāi)等問題,這使得模型計算十分耗時,難以實現(xiàn)在ADN中進行實時優(yōu)化控制[17]。

        近年來,深度強化學(xué)習(xí)(deep reinforcement learning, DRL)以其在線響應(yīng)快、無需對DG的隨機性分布建模的獨特優(yōu)勢[18-19],在電力系統(tǒng)領(lǐng)域獲得了廣泛關(guān)注。文獻[20]將能量儲存系統(tǒng)(energy storage systems, ESS)考慮到配電網(wǎng)的電壓控制中,并采用Q深度神經(jīng)網(wǎng)絡(luò)來逼近ESS的最佳動作價值。文獻[21]提出了一種基于深度Q網(wǎng)絡(luò)的有功安全校正策略,在消除線路過載和調(diào)節(jié)機組出力上具有良好的效果,但需要對連續(xù)動作空間離散化,可能會帶來維度災(zāi)難問題[22]。為了使DRL智能體學(xué)習(xí)連續(xù)狀態(tài)和動作空間之間的映射關(guān)系,文獻[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法應(yīng)用到綜合能源經(jīng)濟調(diào)度中。針對電壓控制問題,文獻[24]基于多智能體的DDPG算法協(xié)調(diào)優(yōu)化光伏逆變器的無功功率輸出,但未考慮無功-電壓控制設(shè)備,如可投切電容器組(switchable capacitor banks, SCB)、有載調(diào)壓變壓器(on-load tap-changers, OLTC)等。針對配電系統(tǒng)優(yōu)化控制問題,上述文獻側(cè)重于關(guān)注單一有功或無功資源控制,這在保證配電系統(tǒng)供電安全和降低運行成本方面存在一定局限性。此外,傳統(tǒng)DDPG方法中的經(jīng)驗回放機制忽略了不同經(jīng)驗的重要程度,可能存在訓(xùn)練效率低、過度學(xué)習(xí)等問題[25]。另一方面,優(yōu)先經(jīng)驗回放(priority experience replay, PER)機制在機器人控制和游戲任務(wù)中的應(yīng)用取得了巨大成功,提高了學(xué)習(xí)效率和策略穩(wěn)定性[26]。

        基于此,本文將PER機制結(jié)合到DDPG方法中,構(gòu)建了一種基于PER-DDPG的ADN在線調(diào)度框架。首先,以ADN日運行成本最小為目標(biāo),在計及節(jié)點電壓偏移和潮流越限約束的基礎(chǔ)上,協(xié)調(diào)SCB、OLTC、微型燃氣輪機(micro-gas turbines, MT)和ESS等有功/無功資源,構(gòu)建了ADN有功-無功協(xié)調(diào)調(diào)度模型。其次,將此模型轉(zhuǎn)化為馬爾科夫決策過程(Markov decision process, MDP),并基于PER-DDPG框架進行離線訓(xùn)練及在線測試。仿真結(jié)果表明,相較于傳統(tǒng)的DDPG方法,本文所提出的基于優(yōu)先經(jīng)驗重放的DPPG方法可以實現(xiàn)對連續(xù)動作空間的精確控制,并通過高效的經(jīng)驗學(xué)習(xí)以獲得安全、經(jīng)濟的動作策略。本文研究有望為基于深度確定性策略梯度的有功-無功協(xié)調(diào)優(yōu)化調(diào)度提供技術(shù)參考。

        1 ADN有功-無功協(xié)調(diào)調(diào)度強化學(xué)習(xí)建模

        本節(jié)首先構(gòu)建了基于ADN的有功-無功協(xié)調(diào)調(diào)度數(shù)學(xué)模型。在計及潮流約束和配電網(wǎng)安全約束的基礎(chǔ)上,該模型旨在以ADN日運行成本最小為目標(biāo),在不同時段協(xié)調(diào)各有功/無功資源的出力。然后,本節(jié)將此數(shù)學(xué)模型轉(zhuǎn)化成基于MDP的調(diào)度模型,以充分利用DRL自適應(yīng)源荷不確定性的優(yōu)勢進行求解。

        1.1 基于ADN的有功-無功協(xié)調(diào)調(diào)度數(shù)學(xué)模型

        1.1.1 目標(biāo)函數(shù)

        本文的目標(biāo)函數(shù)包括變電站的能源交易成本和MT的燃料成本:

        (1)

        1.1.2 約束條件

        1.1.2.1 潮流約束

        (2)

        (3)

        (4)

        1.1.2.2 配電網(wǎng)安全約束

        (5)

        1.1.2.3 可控設(shè)備運行約束

        1)SCB運行約束:

        (6)

        2)OLTC運行約束:

        (7)

        3)MT運行約束:

        (8)

        4)ESS運行約束:

        (9)

        1.2 基于MDP的調(diào)度模型

        本節(jié)將ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題建模為MDP。MDP通常由學(xué)習(xí)環(huán)境E、狀態(tài)空間S、動作空間A和獎勵空間R組成。在每個時段t,DRL智能體通過觀察ADN當(dāng)前的狀態(tài)st∈S,執(zhí)行動作at∈A,并從環(huán)境E中獲得獎勵值rt∈R,然后ADN的當(dāng)前狀態(tài)st將根據(jù)狀態(tài)轉(zhuǎn)移概率函數(shù)p(st+1|st,at)轉(zhuǎn)換到下一狀態(tài)st+1。直至t達到總調(diào)度時段T時,此過程終止。t時段MDP的詳細制定描述如下。

        1.2.1 狀態(tài)空間

        (10)

        狀態(tài)空間包括當(dāng)前時段、ESS的荷電狀態(tài)、過去T個時段內(nèi)的電價、過去T個時段內(nèi)PV、WT的有功功率和過去T個時段內(nèi)負荷的有功無功功率;狀態(tài)空間中的各個變量都是連續(xù)性變量;為充分利用新能源,本文假設(shè)PV和WT是不可調(diào)度資源,并以固定單位功率因數(shù)運行[27],故在狀態(tài)空間中不考慮新能源無功功率。

        1.2.2 動作空間

        (11)

        1.2.3 獎勵函數(shù)

        1.2.3.1 日運營成本項

        (12)

        1.2.3.2 約束違反項

        鑒于ADN安全運行的重要性,獎勵函數(shù)中還應(yīng)當(dāng)考慮電壓違反和潮流越限的風(fēng)險。因此,本文采用懲罰機制,對電壓違反和潮流越限進行懲罰。

        1)電壓違反懲罰項:

        (13)

        2)潮流越限懲罰項:

        (14)

        綜上,獎勵函數(shù)定義如下:

        (15)

        式(15)表明,當(dāng)潮流計算收斂時,獎勵函數(shù)的主要目標(biāo)是使ADN的日運營成本最小,同時避免電壓違反。當(dāng)潮流計算發(fā)散時,智能體將會受到一個較大的懲罰值。

        1.2.4 狀態(tài)動作價值函數(shù)

        為了在不同狀態(tài)下獲得最優(yōu)動作,需要使用狀態(tài)-動作價值函數(shù)Qπ(st,at;θ)來描述在當(dāng)前狀態(tài)st下執(zhí)行動作at,并遵循策略π后所能帶來的預(yù)期獎勵,該策略由一組網(wǎng)絡(luò)參數(shù)θ來控制。狀態(tài)-動作價值函數(shù)如下式所示:

        (16)

        式中:π為從綜合狀態(tài)映射到調(diào)度計劃的策略,智能體在狀態(tài)st選擇何種動作at由策略π(st)=at決定;γ為折扣因子,用來平衡未來獎勵和即時獎勵,γ∈[0,1];E(·)為數(shù)學(xué)期望。

        在ADN調(diào)度問題中,DRL智能體的目標(biāo)是在與環(huán)境的不斷交互過程中找到最優(yōu)策略π*,使ADN日運行成本最低。這個最優(yōu)策略可以通過最大化狀態(tài)-動作價值函數(shù)來實現(xiàn):

        (17)

        式中:Qπ*(st,at;θ)為最優(yōu)狀態(tài)-動作價值函數(shù)。

        2 基于DDPG的ADN有功-無功協(xié)調(diào)調(diào)度

        2.1 PER-DDPG學(xué)習(xí)框架

        為有效解決ADN有功-無功協(xié)調(diào)優(yōu)化中存在的連續(xù)動作空間問題,本文構(gòu)建了基于PER-DDPG算法的ADN在線調(diào)度框架,如圖1所示,該框架中的DDPG智能體由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)組成,每個網(wǎng)絡(luò)都有自己的目標(biāo)網(wǎng)絡(luò)以提高算法的穩(wěn)定性。為了提高智能體的采樣效率,該框架引入了優(yōu)先級經(jīng)驗緩沖區(qū)B。在訓(xùn)練過程中,智能體與ADN環(huán)境交互并收集若干組經(jīng)驗單元et={st,at,rt,st+1},然后根據(jù)優(yōu)先級pt對經(jīng)驗單元進行重要性采樣。pt值越大,相應(yīng)經(jīng)驗單元的重要性越高,智能體從中學(xué)到經(jīng)驗越多。

        圖1 PER-DDPG算法學(xué)習(xí)框架

        本文在文獻[25]的基礎(chǔ)上,對pt計算公式進行改進:

        pt=|δt|+ε

        (18)

        式中:δt為時間差分(temporal difference, TD)誤差;

        ε為較小正常數(shù),用以確保每個經(jīng)驗單元即使TD-誤差為零時仍有一定概率被抽樣。

        在常規(guī)方法中,智能體往往更傾向于重放pt值較高的經(jīng)驗單元,這可能會改變狀態(tài)訪問頻率,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程出現(xiàn)振蕩或發(fā)散。針對上述問題,本文使用了重要性采樣權(quán)重來計算每個經(jīng)驗單元對于權(quán)重變化的貢獻:

        (19)

        式中:wi為第i個經(jīng)驗單元所占權(quán)重;pi為第i個經(jīng)驗單元的優(yōu)先級;Bsize為經(jīng)驗緩沖區(qū)的大小;κ∈[0,1]。

        接下來詳細介紹Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)在離線訓(xùn)練階段的更新過程:

        1)Critic網(wǎng)絡(luò)。

        在訓(xùn)練過程中,Critic網(wǎng)絡(luò)使用具有參數(shù)θQ的深度神經(jīng)網(wǎng)絡(luò)來估計狀態(tài)-動作價值函數(shù)。智能體根據(jù)經(jīng)驗優(yōu)先級對一小批經(jīng)驗單元進行抽樣,在每次抽樣中,Critic網(wǎng)絡(luò)試圖最小化以下?lián)p失函數(shù):

        (20)

        (21)

        (22)

        2)Actor網(wǎng)絡(luò)。

        在訓(xùn)練過程中,Actor網(wǎng)絡(luò)用于學(xué)習(xí)動作策略和執(zhí)行動作。Actor網(wǎng)絡(luò)中的參數(shù)化函數(shù)μ(st;θμ)可以確定性地將狀態(tài)映射到特定動作來指定當(dāng)前策略。動作策略定義的目標(biāo)如下:

        J(θμ)=Est~B[Qπ(st,μ(st;θμ);θQ]

        (23)

        (24)

        其次,基于動作參數(shù)θμ更新:

        (25)

        式中:ημ為Actor網(wǎng)絡(luò)的學(xué)習(xí)率。

        2.2 離線訓(xùn)練過程

        本文所提PER-DDPG方法的離線訓(xùn)練過程如圖2所示。在每一輪訓(xùn)練中:首先,DDPG智能體的Actor網(wǎng)絡(luò)根據(jù)參數(shù)化函數(shù)μ(st;θμ)+Δμt制定SCB、OLTC、MT和ESS有功/無功資源的調(diào)度策略,Δμt為隨機噪聲。然后,智能體在當(dāng)前狀態(tài)st下執(zhí)行動作at,經(jīng)潮流計算后獲得獎勵rt,并觀察到新的狀態(tài)st+1,歷史樣本通過上述交互被收集存儲在經(jīng)驗緩沖區(qū)中的經(jīng)驗單元et。最后,智能體根據(jù)優(yōu)先經(jīng)驗回放機制對經(jīng)驗單元進行小批量采樣,并更新Actor和Critic估計網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)。當(dāng)t達到T時,一個訓(xùn)練集結(jié)束。重復(fù)以上步驟,直到訓(xùn)練集數(shù)達到最大訓(xùn)練集umax,離線訓(xùn)練過程結(jié)束,保存此時最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。

        圖2 PER-DDPG算法流程

        3 算例分析

        3.1 算例設(shè)置

        為了驗證所提PER-DDPG方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度的有效性,本文采用如圖3所示修改的IEEE-34節(jié)點配電算例[27]進行仿真驗證。該配電系統(tǒng)接入了2個MT、1個ESS、3組PV和3臺WT,各設(shè)備參數(shù)詳見表1。在節(jié)點7、8之間以及節(jié)點19、20之間分別接入2個OLTC,均具有33檔調(diào)節(jié)位置,調(diào)節(jié)范圍在-10%~10%之間。2個SCB分別安裝在節(jié)點24和節(jié)點34,每個SCB共有4組運行單元,每組運行單元的無功功率為120 kvar。變電站的容量為2 500 kVA。配電網(wǎng)節(jié)點電壓的限制范圍為0.95~1.05 pu。為了獲取配電網(wǎng)電價、各節(jié)點負荷需求和新能源有功及無功功率數(shù)據(jù),本文基于加州ISO開放存取同步信息系統(tǒng)時間序列數(shù)據(jù)[28]進行分析,并以1 h為時間段提取2018—2020三年的數(shù)據(jù)信息。其中,將2018—2019年的數(shù)據(jù)作為訓(xùn)練集,2020年的數(shù)據(jù)作為測試集,用以驗證所提方法在ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題上的有效性??傉{(diào)度時段T為24 h。

        表1 各設(shè)備參數(shù)

        圖3 修改后的IEEE-34節(jié)點標(biāo)準(zhǔn)配電系統(tǒng)

        本文采用Python中Tensorflow 2.2.0實現(xiàn)所提算法,并基于OpenAI Gym標(biāo)準(zhǔn)搭建了ADN有功-無功協(xié)調(diào)優(yōu)化調(diào)度學(xué)習(xí)環(huán)境。同時,為了進行潮流計算判斷收斂性,本文依賴電力系統(tǒng)分析包Pandapower。所有的算例仿真都在Intel(R) Core(TM) i7-11800H處理器2.30 GHz的工作站上進行。

        3.2 離線訓(xùn)練

        本文所提PER-DDPG方法的詳細參數(shù)設(shè)置如表2所示。在本文所建立的MDP中,動作空間同時存在連續(xù)和離散動作。然而PER-DDPG方法只能處理連續(xù)動作空間。因此在智能體離線訓(xùn)練之前,本文對離散動作進行了連續(xù)化處理,將離散-連續(xù)混合動作空間轉(zhuǎn)化成連續(xù)動作空間。在使用PER-DDPG方法進行訓(xùn)練后,本文再將OLTC和SCB的連續(xù)動作值舍入到最近的整數(shù)值。

        表2 所提方法參數(shù)設(shè)置

        由于PER機制可以從本文提出的方法中單獨分離,因此本文將所提PER-DDPG方法與DDPG方法進行比較。表3展示了不同方法在離線訓(xùn)練和在線測試(迭代一次)上的平均耗時對比。本文對每種方法使用不同的隨機種子運行5次,每次離線訓(xùn)練的最大迭代次數(shù)為106。結(jié)果表明,兩種DRL方法均能實現(xiàn)秒級在線求解,實現(xiàn)ADN有功-無功協(xié)調(diào)優(yōu)化在線調(diào)度策略。與DDPG方法相比,本文所提PER-DDPG方法的離線訓(xùn)練時間和在線測試時間更短,計算資源損耗更小。

        本文進一步比較了所提PER-DDPG方法和DDPG方法在不同隨機種子情況下的訓(xùn)練過程性能,如圖4所示。實線代表各DRL智能體的平均獎勵值,陰影部分代表獎勵值的波動范圍。通過圖4可以看出,在智能體與ADN環(huán)境的交互學(xué)習(xí)過程中,PER-DDPG方法和DDPG方法的獎勵值逐步增加,并最終均可收斂到一個穩(wěn)定值,表明兩種方法均可通過學(xué)習(xí)獲得使ADN日運行成本最小的經(jīng)濟調(diào)度策略。其中,PER-DDPG方法迭代到約2×105次時出現(xiàn)了一定振蕩,這屬于訓(xùn)練早期智能體探索ADN環(huán)境的正常行為,并不影響其總體收斂性。值得注意的是,PER-DDPG方法迭代到約5.7×104次時獲得獎勵值-19 500,而DDPG方法需要迭代到約17.1×104次時才能得到相同的獎勵值。因此,本文所提PER-DDPG方法的智能體能夠快速學(xué)習(xí)到成功樣本,積累得到一定的成功經(jīng)驗,從而更迅速學(xué)到ADN有功-無功協(xié)調(diào)調(diào)度策略。此外,基于PER-DDPG方法的最終收斂穩(wěn)定獎勵值為-9 500,而DDPG方法的最終穩(wěn)定獎勵值相對較低,為-10 500。因此,本文所提出的PER-DDPG方法具有更快的收斂速度,未來折扣獎勵回報相較DDPG方法提升了9.52%。

        圖4 不同算法下的訓(xùn)練過程

        3.3 在線測試表現(xiàn)

        在實驗交互過程達到所設(shè)置的最大迭代次數(shù)后,離線訓(xùn)練過程完成,本文保存此時訓(xùn)練完成的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型,并在測試集上進行測試。如圖5所示,測試集中PER-DDPG方法和DDPG方法的累積運行成本分別為243.07萬元和396.27萬元。結(jié)果表明,PER-DDPG方法在一年內(nèi)能夠降低38.66%的ADN運行成本,相比之下,DDPG方法效果較為有限。

        圖5 不同算法下測試過程的累計成本

        本文所提PER-DDPG智能體在測試集中某天的調(diào)度決策結(jié)果如圖6所示。

        圖6(a)展示了當(dāng)天WT和PV的有功功率輸出變化。圖6(b)展示了負荷有功無功功率需求以及電價變化情況。由圖6(c)可知,智能體在低電價時段調(diào)度ESS進行充電以儲存能量;而在高電價時段,智能體調(diào)度ESS進行放電以滿足負荷運行需求,從而降低配變功率峰谷差。由圖6(d)—(e)可知,兩個MT的功率因數(shù)被限制在0.8以上,智能體根據(jù)當(dāng)前電價和ADN負荷需求動態(tài)地調(diào)整MT的發(fā)電量。當(dāng)負荷需求減少或電價下降時,智能體調(diào)度MT減小發(fā)電量以避免過剩的電力浪費;而當(dāng)負荷需求增多或電價上漲時,智能體調(diào)度MT增大發(fā)電量以緩解ADN的運行壓力。在08:00—16:00之間,風(fēng)電和光伏的總有功功率較大,ESS進行充電且MT減少輸出功率,以就地消納新能源,減少功率倒送。通過上述調(diào)度方式,一定程度上減小了新能源隨機性對配電系統(tǒng)的干擾。

        圖6(f)—(g)分別展現(xiàn)了OLTC的擋位及SCB的運行數(shù)量變化情況,均滿足調(diào)度周期內(nèi)動作次數(shù)不宜過多的規(guī)定。在12:00—17:00時,風(fēng)電和光伏發(fā)電出力較大,SCB減少運行數(shù)量,防止因新能源功率倒送引起電壓越限。

        不同時段各節(jié)點的電壓分布情況如圖7所示。由圖7可知,在無功電壓調(diào)節(jié)設(shè)備SCB和OLTC的共同作用下,ADN的各節(jié)點電壓都被限制在安全范圍0.95~1.05 pu內(nèi)。其中,在14:00時節(jié)點22上的電壓最低,為0.970 7 pu;在15:00時節(jié)點5上的電壓最高,為1.001 3 pu。

        圖7 不同節(jié)點的電壓分布

        從算例結(jié)果可以看出,經(jīng)本文提出的PER-DDPG方法離線訓(xùn)練后,智能體能夠在線調(diào)度ESS、MT、OLTC和SCB有功/無功資源動作,并與PV及WT協(xié)同作用,以具有成本效益的方式響應(yīng)ADN電力負荷需求。該方法在新能源消納、削峰填谷和需求響應(yīng)等方面具有良好的效果。

        4 結(jié) 論

        本文針對ADN的有功-無功協(xié)調(diào)優(yōu)化調(diào)度問題,在DDPG方法的基礎(chǔ)上添加了PER機制,提出一種基于深度確定性策略梯度的主動配電網(wǎng)有功-無功協(xié)調(diào)優(yōu)化調(diào)度策略。基于算例分析,得到如下結(jié)論:

        1)本文所設(shè)計的MDP模型最大程度地模擬了ADN實際環(huán)境,不依賴于任何物理模型,避免了對新能源、負荷及電價的不確定性建模,具有實際應(yīng)用價值。

        2)采用本文所提出的PER-DDPG框架進行離線訓(xùn)練得到的最優(yōu)神經(jīng)網(wǎng)絡(luò)模型可以在線生成ADN調(diào)度策略,能夠有效解決電壓和潮流越限的問題,并同時最小化日常運行成本。

        3)在離線訓(xùn)練過程中,本文所提PER-DDPG方法相較于DDPG方法具有更高的未來折扣獎勵和更快的收斂速度。

        猜你喜歡
        離線調(diào)度狀態(tài)
        異步電機離線參數(shù)辨識方法
        防爆電機(2021年4期)2021-07-28 07:42:46
        呼吸閥離線檢驗工藝與評定探討
        淺談ATC離線基礎(chǔ)數(shù)據(jù)的準(zhǔn)備
        《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護手冊》正式出版
        一種基于負載均衡的Kubernetes調(diào)度改進算法
        狀態(tài)聯(lián)想
        虛擬機實時遷移調(diào)度算法
        離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
        中成藥(2018年2期)2018-05-09 07:20:09
        生命的另一種狀態(tài)
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        免费黄色福利| 欧洲AV秘 无码一区二区三| 国产在线欧美日韩一区二区| 久久午夜无码鲁丝片直播午夜精品| 国产三级国产精品国产专区 | AV无码中文字幕不卡一二三区| www.av在线.com| 亚洲天堂一区二区三区| 亚洲高清三区二区一区| 激情综合色五月丁香六月欧美| 免费a级毛片无码| 精品一区二区三区在线观看| 国产精品久久久久影视不卡| 被驯服人妻中文字幕日本| 国产麻豆放荡av激情演绎| 精品露脸熟女区一粉嫩av| 少妇夜夜春夜夜爽试看视频| 亚洲精品国产福利一二区| 欧美色色视频| 少妇特殊按摩高潮不断| 亚洲国产丝袜久久久精品一区二区| 少妇愉情理伦片丰满丰满| 最近中文字幕视频高清| 久久久国产精品福利免费| 精品久久一区二区av| 久久亚洲中文字幕精品熟| 无码人妻丰满熟妇区bbbbxxxx| 夜先锋av资源网站| 色爱无码A V 综合区| 99久久久69精品一区二区三区| 国产熟妇与子伦hd| 亚洲av区无码字幕中文色| 久久人妻av不卡中文字幕| 青青草亚洲视频社区在线播放观看| 女的扒开尿口让男人桶30分钟| 女人做爰高潮呻吟17分钟| 亚洲一区二区自拍偷拍| 免费视频亚洲一区二区三区| 亚洲精品乱码久久久久久不卡| 色综合中文综合网| 一区视频在线观看免费播放.|