亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮綜合需求響應的電-氣-熱綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度

        2023-06-10 09:55:20王海鑫周夕然楊俊友
        關鍵詞:動作系統(tǒng)

        董 健, 王海鑫, 周夕然, 高 柳, 楊俊友

        (沈陽工業(yè)大學 電氣工程學院,遼寧 沈陽 110870)

        0 引 言

        綜合能源系統(tǒng)(integrated energy system,IES)作為能源互聯(lián)網(wǎng)發(fā)展的重要載體,對于多種能源協(xié)同運行、提高能源利用效率和實現(xiàn)低碳運行起到關鍵作用[1]。但隨著多種能源耦合加深、風光出力的波動性以及多能源需求的不確定性,綜合能源系統(tǒng)優(yōu)化運行面臨巨大挑戰(zhàn)[2]。綜合能源的經(jīng)濟調(diào)度問題是發(fā)展綜合能源系統(tǒng)、提高能源效率的基礎[3,4]。

        目前國內(nèi)外對于綜合能源系統(tǒng)經(jīng)濟調(diào)度已有一定研究。文獻[5]針對區(qū)域電熱綜合能源系統(tǒng),利用電鍋爐、儲熱罐和蓄電池建立考慮網(wǎng)絡傳輸特性的協(xié)調(diào)模型,采用雙λ迭代算法求解。文獻[6]考慮多種類型發(fā)電和儲能約束,建立可再生能源和多能源需求優(yōu)化模型,實現(xiàn)多能源需求綜合利用和協(xié)同優(yōu)化。文獻[7]提出一種基于模型預測控制(model predictive control, MPC)動態(tài)時間間隔的IES調(diào)度方法。利用MPC中的軌跡偏差、能量及成本控制框架處理調(diào)度時間間隔內(nèi)的需求和約束。上述文獻主要通過建立綜合能源系統(tǒng)物理模型,對優(yōu)化目標函數(shù)求解,在一定程度上解決了綜合能源系統(tǒng)優(yōu)化調(diào)度問題。但上述方法局限于固定日前調(diào)度計劃,不能根據(jù)新能源出力與負荷需求的實時動態(tài)變化進行調(diào)整。

        在綜合能源系統(tǒng)的低碳運行方面,文獻[8]提出基于碳交易機制的優(yōu)化調(diào)度模型,發(fā)電廠在碳交易市場可自由購買或出售碳配額。結果表明,考慮碳交易可降低綜合能源系統(tǒng)的運行成本。文獻[9]提出一種考慮電、熱、冷負荷不確定性的低碳電力系統(tǒng)經(jīng)濟調(diào)度方法。文獻[10]建立微型燃氣輪機(micro turbine,MT)和電轉氣(power to gas,P2G)機組聯(lián)合使用的優(yōu)化調(diào)度模型,通過場景生成和場景縮減技術獲得典型負載場景,提高風電消納,減少二氧化碳排放。上述文獻雖然能夠實現(xiàn)系統(tǒng)的低碳運行,但沒有考慮負荷側的柔性資源。

        近年來,強化學習(reinforcement learning,RL)在電力系統(tǒng)的優(yōu)化控制中越來越受到重視[11,12]。文獻[13]提出基于深度強化學習的微電網(wǎng)實時能量管理系統(tǒng),微電網(wǎng)能源管理被建模為一個馬爾可夫決策過程(MDP),以最小化日常運營成本為目標。同時加入深度前饋神經(jīng)網(wǎng)絡來逼近最優(yōu)動作值函數(shù),并采用深度Q網(wǎng)絡(deep Q network,DQN)算法訓練神經(jīng)網(wǎng)絡。文獻[14]提出了一種基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)的綜合能源系統(tǒng)的優(yōu)化調(diào)度方法,該方法能夠解決連續(xù)動作控制問題,但在求解時容易出現(xiàn)估計值過高問題。上述文獻為深度強化學習方法在綜合能源系統(tǒng)的應用提供研究基礎,通過離散能源系統(tǒng)中連續(xù)的動作進行控制,但控制精度不準確。

        綜上所述,本文提出一種基于A3C的電-氣-熱綜合能源系統(tǒng)優(yōu)化調(diào)度方法。首先,考慮綜合能源系統(tǒng)中電-熱-氣網(wǎng)的運行約束以及能源供需側的多種不確定性因素,充分利用負荷側柔性資源,研究在不需建立系統(tǒng)復雜物理模型的情況下綜合能源系統(tǒng)的低碳經(jīng)濟調(diào)度問題。其次,將優(yōu)化問題描述為馬爾科夫決策過程,建立綜合能源系統(tǒng)環(huán)境模型,設計智能體的動作空間、狀態(tài)空間和獎勵機制。最后,通過仿真算例分析該方法的收斂能力和穩(wěn)定性,驗證該方法在綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度時的有效性。

        1 綜合能源系統(tǒng)模型與問題描述

        綜合能源系統(tǒng)運行優(yōu)化的首要目標是在滿足系統(tǒng)安全運行的約束下提升系統(tǒng)經(jīng)濟效益,即在滿足用戶負荷需求的前提下,以最優(yōu)經(jīng)濟運行為目標,有效調(diào)度各設備在每個時段的出力[15]。本文研究的IES結構如圖1所示。綜合能源系統(tǒng)中主要包括可再生能源(renewable energy,RE)、MT、P2G、電熱鍋爐(electric boiler,EB)、蓄電池(electricity storage,ES)、儲熱罐(heat storage,HS)和儲氣罐(gas storage,GS)。

        1.1 綜合能源系統(tǒng)數(shù)學模型

        (1)燃氣輪機

        以天然氣為動力的燃氣輪機是熱電聯(lián)產(chǎn)系統(tǒng)的關鍵設備。燃氣輪機數(shù)學模型如下式所示:

        PMT,t=GMT,t·ηMT

        (1)

        HMT,t=GMT,t·(1-ηMT-ηloss)

        (2)

        式中:PMT,t和HMT,t分別為燃氣輪機在時段t的電功率和熱功率;GMT,t為燃氣輪機在時段t天然氣的消耗功率;ηMT為燃氣輪機的發(fā)電效率;ηloss為燃氣輪機的能量損失系數(shù)。

        (2)P2G數(shù)學模型

        電轉氣設備產(chǎn)生的天然氣量與消耗電功率關系如式(3)所示:

        GP2G,t=ηP2G·PP2G,t

        (3)

        式中:GP2G,t為P2G設備在t時刻天然氣輸出功率;ηP2G為P2G設備轉化效率;PP2G,t為P2G設備在t時刻消耗的電功率。

        (3)電熱鍋爐

        電熱鍋爐將電能轉化為熱能,把水加熱至有壓力的熱水或蒸汽(飽和蒸汽),用于補充燃氣輪機供熱不足時剩余熱負荷需求。其消耗電功率與產(chǎn)生的熱量關系由式(4)表示。

        HEB,t=ηEB·(1-μLoss)·PEB,t

        (4)

        式中:HEB,t表示電熱鍋爐t時刻輸出的熱功率;PEB,t表示電熱鍋爐t時刻的耗電功率;ηEB表示電熱轉換效率;μLoss表示電熱鍋爐熱損失率。

        (4)儲能設備模型

        在綜合能源系統(tǒng)中加入各類的儲能設備可緩解風光出力不確定性、平穩(wěn)負荷波動,增加系統(tǒng)運行經(jīng)濟性。儲能設備數(shù)學模型如式(5)所示,儲能設備采取放能操作如式(6)~(7)所示。

        (5)

        ax,ch,t,ax,disch,t={0,1},?t∈T

        (6)

        ax,ch,t,ax,disch,t=0,?t∈T

        (7)

        式中:x為能源類別,其中ES表示蓄電池,GS表示儲氣罐,HS表示儲熱罐;Sx,t+1和Sx,t分別為儲能設備x在t和t+1時刻的存儲能量;Px,ch,t和Px,disch,t為儲能設備x在t時刻的充能和放能功率(Px,ch,t≥0,Px,disch,t≤0);Qx為儲能設備x容量;ηx,ch和ηx,disch是指儲能設備x的充能和放能效率;Δt為時間間隔;T為調(diào)度總時段;ax,ch,t和ax,disch,t分別為充能和放能的狀態(tài)參數(shù),ax,ch,t=1表示在t時刻儲能設備采取充能操作,ax,disch,t=1表示在t時刻儲能設備采取放能操作。

        1.2 綜合需求響應模型

        在綜合能源系統(tǒng)中加入綜合需求響應有利于實現(xiàn)系統(tǒng)經(jīng)濟運行,提高系統(tǒng)運行的可靠性。用戶參與綜合需求側響應(integrated demand response,IDR)后通過消減、轉換能源供給方式將負荷高峰時期的能源需求轉移到低負荷用電時段,通過較低電價滿足高峰時期的負荷需求,提高系統(tǒng)運行經(jīng)濟性。

        可轉移負荷的需求響應方式主要為用電高峰時段的電負荷轉移到其他時段,轉移負荷總量在調(diào)度周期內(nèi)保持不變,如式(8)所示。

        (8)

        式中:P′Load,t和P′Load,t+υ分別為t時刻和t+υ時刻轉移后的電負荷;PLoad,t和PLoad,t+υ分別為t時刻和t+υ時刻轉移前的電負荷;PTra,t為從t時刻向t+υ時刻轉移的電負荷。

        可中斷負荷需滿足的運行條件如式(9)所示。

        P′Load,t=PLoad,t-PInt,t

        (9)

        式中:PInt,t為t時刻中斷的電負荷。

        可轉換負荷在用電高峰時期將用電需求轉為其他能源種類。負荷轉換模型如式(10)所示。

        PCon,t=φPGGCon,t

        (10)

        式中:PCon,ta為電網(wǎng)在t時刻轉換后減少的電負荷;GCon,ta為氣網(wǎng)在t時刻轉換后增加的氣負荷;φPG為負荷轉系數(shù)。

        1.3 目標函數(shù)

        本文所提綜合能源系統(tǒng)的優(yōu)化調(diào)度是在保證系統(tǒng)安全運行的條件下,通過協(xié)調(diào)能源轉換設備與儲能設備的出力,充分利用負荷側資源。在滿足系統(tǒng)負荷需求的同時減少能源購買成本,節(jié)約系統(tǒng)運行成本。優(yōu)化目標函數(shù)如式(11)所示。

        F=min(CP+CG+CIDR+CC)

        (11)

        式中:CP是系統(tǒng)的購電成本;CG是系統(tǒng)的購氣成本;CIDR是IDR的調(diào)用成本;CC為系統(tǒng)碳交易成本。其中,系統(tǒng)的購電成本CP如式(12)所示。

        (12)

        式中:σP,t為t時刻電價;PE,t為t時刻購電功率。

        系統(tǒng)購氣成本CG如式(13)所示。

        (13)

        式中:σG,t為t時刻購買天然氣的單位熱值價格;GG,t為t時刻的購氣功率。

        IDR調(diào)用成本CIDR如式(14)所示:

        (14)

        式中:aTra、aInt、aCon分別可轉移負荷、可中斷負荷和可轉換負荷的成本系數(shù)。

        碳交易成本CC如式(15)所示。

        CC=σCO2(MP,t-MS,t)Δt

        (15)

        式中:σCO2為碳交易成本系數(shù);MP,t為綜合能源系統(tǒng)在t時段的碳排放量;MS,t為綜合能源系統(tǒng)在t時段的碳配額。其中,MP,t由式(16)計算。

        MP,t=(γE,CO2PE,t+γMT,CO2PMT,t)Δt

        (16)

        式中:γE,CO2和γMT,CO2分別為電網(wǎng)購電和燃氣輪機的碳排放系數(shù)。

        1.4 約束條件

        (1)系統(tǒng)平衡約束

        為滿足運行時各時段電-氣-熱負荷需求,系統(tǒng)平衡約束需滿足以下約束,如式(17)~(19)所示。

        (17)

        GG,t+GPtG,t+PGS,disch,t-GCHP,t-PGS,ch,t=

        GLoad,t+GCon,t

        (18)

        HCHP,t+HEB,t+PHS,disch,t-PHS,ch,t=HLoad,t

        (19)

        式中:PE,t為t時刻從電網(wǎng)的購電功率;GG,t為t時刻從氣網(wǎng)的購氣功率;PLoad,t、GLoad,t和HLoad,t分別為t時刻的電負荷、氣負荷和熱負荷。

        (2)設備運行約束

        燃氣輪機需滿足功率約束和爬坡約束如式(20)~(21)所示。

        (20)

        (21)

        P2G需滿足功率約束和爬坡約束如式(22)~(23)所示。

        (22)

        (23)

        電加熱爐所滿足的運行約束如式(24)所示。

        (24)

        儲能設備需要滿足充放電功率約束以及容量約束由式(25)~(28)表示。

        (25)

        (26)

        (27)

        Sx,1=Sx,T

        (28)

        可轉移負荷需滿足約束由式(29)表示。

        (29)

        可中斷負荷需滿足約束由式(30)表示。

        (30)

        可轉換負荷需滿足約束由式(31)表示。

        (31)

        2 電-氣-熱綜合系統(tǒng)優(yōu)化調(diào)度的深度強化學習模型

        本節(jié)首先將綜合能源系統(tǒng)的優(yōu)化調(diào)度問題轉換為馬爾科夫決策過程,然后闡述基于Actor-Critic架構A3C算法的原理以及訓練過程。本文采用基于深度強化學習的方法,主要通過數(shù)據(jù)驅動的方式解決了綜合能源能源系統(tǒng)調(diào)度中的不確定性問題,同時可以準確適應系統(tǒng)源荷動態(tài)變化,實現(xiàn)快速求解。

        具體的調(diào)度過程為,在每一優(yōu)化調(diào)度時刻,Agent得到當前時刻的狀態(tài)變量主要包括電池的荷電狀態(tài)SES,t、儲氣罐的容量SGS,t、儲熱罐的儲熱量SHS,t、風機發(fā)電量Pwind,t、光伏發(fā)電量PPV,t、電負荷PLoad,t、氣負荷GLoad,t、熱負荷HLoad,t以及時刻t,然后Agent計算得到采取當前動作時下一時刻狀態(tài)的轉移概率和獲得的獎勵。因為Agent得到了不同場景下的大量訓練,所以可以做出當前時刻下更優(yōu)的調(diào)度決策。

        2.1 馬爾科夫過程轉換

        RL主要通過智能體與環(huán)境之間的交互學習策略達到控制目的,其學習過程本質為MDP[21]。MDP的5個基本要素為狀態(tài)空間Σ、動作空間Α、轉移函數(shù)Τ、獎勵函數(shù)Ρ和折扣系數(shù)γ。其中,轉移函數(shù)描述了給定動作下智能體由狀態(tài)st轉變?yōu)閟t+1的概率:T:S×A×S→[0,1],其中S為狀態(tài)st的集合,A為動作at的集合。在本文中,智能體通過調(diào)節(jié)綜合能源系統(tǒng)源荷出力進行最優(yōu)調(diào)度決策。在每個優(yōu)化時刻t,智能體根據(jù)當前狀態(tài)st以及策略函數(shù)π在可能的動作集合A中選擇對應的動作at,智能體接收到下一個狀態(tài)信息st+1以及獎勵值Rt,然后重復上述步驟直到優(yōu)化結束。

        (1)狀態(tài)空間

        狀態(tài)空間st主要由智能體的觀測狀態(tài)組成,如式(32)所示。狀態(tài)空間主要包括儲能電池的荷電狀態(tài)SES,t、儲氣罐的容量SGS,t、儲熱罐的儲熱量SHS,t、風機發(fā)電量Pwind,t、光伏發(fā)電量PPV,t、電負荷PLoad,t、氣負荷GLoad,t、熱負荷HLoad,t以及時刻t。

        st=(SES,t,SGS,t,SHS,t,PWind,t,PLoad,t,GLoad,t,

        HLoad,t,t)

        (32)

        (2)動作空間

        動作空間主要包括綜合能源系統(tǒng)中智能體需要控制的狀態(tài)變量。智能體的動作空間主要包括燃氣輪機出力PMT,t、電轉氣設備消耗電功率PP2G,t、儲能電池輸出功率PES,t、儲氣罐輸出氣功率GGS,t、儲熱罐輸出熱功率HHS,t、電熱鍋爐消耗電功率PEB,t以及需求響應功率,如式(33)所示。

        at=(PCHP,t,PPtG,t,PES,t,GGS,t,HHS,t,PEB,t,PTra,t,

        PInt,t,Pcon,t)

        (33)

        (3)獎勵函數(shù)

        獎勵函數(shù)為指導智能體在選擇當前動作時獲得累計的最大回報。因此本文的獎勵函數(shù)包括綜合能源系統(tǒng)購買能源成本、IDR調(diào)度成本。為加快RL算法收斂獲得更優(yōu)的控制效果,在獎勵函數(shù)中加入智能體動作越限懲罰成本[16]。懲罰函數(shù)在智能體動作超過約束時產(chǎn)生懲罰成本,從而通過訓練將智能體動作值約束在指定范圍內(nèi)。

        智能體動作越限懲罰成本如式(34)所示。

        (34)

        式中:ζt為智能體在t時刻的動作懲罰成本;εur,i和εdr,i分別為智能體動作爬坡上限和下限懲罰系數(shù);ai,ur,max、ai,dr,min分別為動作變化率的上、下變化限值;εua,i和εda,i分別為智能體動作爬坡上限和下限懲罰系數(shù);ai,ua,max和ai,da,min為動作變化率的上、下變化限值。強化學習智能體獎勵目標函數(shù)如式(35)所示。

        Rt=-(CP+CG++CIDR+ζt)+r0

        (35)

        式中:r0為人工設定常數(shù),保證智能體在學習過程中累積回報由負轉正,提升模型訓練的收斂速度和穩(wěn)定性。

        2.2 基于A3C算法的問題求解

        相比傳統(tǒng)Actor-critic算法,A3C算法引入異步學習機制[19,20]。各agent在運行前通過pull函數(shù)從Global Network獲取網(wǎng)絡參數(shù),每個線程的agent單獨與環(huán)境交互并更新參數(shù),Global Network不需進行訓練,只存儲Actor-Critic結構參數(shù)。基于Actor-Critic架構的A3C算法主要包含策略函數(shù)(Actor)π(at|st;θ)和狀態(tài)價值函數(shù)(Critic)V(st;ω)。利用神經(jīng)網(wǎng)絡擬合綜合能源系統(tǒng)優(yōu)化調(diào)度中的源荷不確定性,獲得累計獎勵最優(yōu)策略。

        通過A3C算法求解優(yōu)化策略,在每個時刻t,actor根據(jù)策略函數(shù)采取動作at使環(huán)境狀態(tài)從st轉換為st+1,并獲得獎勵rt(at,st)。優(yōu)化序列τ,表示為s1,a1,r1,s2,a2,r2,…st,at,rt,…,sT,aT,rT,序列τ所獲得獎勵為每個階段所得獎勵總和,由式(36)表示。

        (36)

        式中:γ為折扣系數(shù),0≤γ≤1。

        在策略為π的情況下,Actor所能獲得期望獎勵由式(37)表示。

        (37)

        由式(37)可知,通過策略梯度優(yōu)化方法更新策略π,指導Actor采取動作,從而最大化獲取期望獎勵。因此通過求解網(wǎng)絡參數(shù)θ梯度更新策略π。梯度求解過程如式(38)所示。

        (38)

        Critic網(wǎng)絡用價值函數(shù)評估策略價值,用V(st;ω)表示,其中ω為Critic網(wǎng)絡參數(shù),由式(39)表示。

        Vπ(st;ω)=E[R(τ)|st;ω]

        (39)

        動作價值函數(shù)Qπ(at,st;ω)通過估算每個狀態(tài)-動作尋找最佳策略,如式(40)所示。

        Qπ(at,st;ω)=E[R(τ)|at,st;ω]

        (40)

        優(yōu)勢函數(shù)(Advantage function)Aπ(at,st;ω)表示actor采取動作at時,與平均預期相比當前狀態(tài)st的優(yōu)劣程度。優(yōu)勢函數(shù)如式(41)所示。

        Aπ(at,st;ω)=Qπ(at,st;ω)-Vπ(st;ω)

        (41)

        為加快學習過程,A3C算法采用了N步方法,其優(yōu)勢函數(shù)由式(42)表示。

        (42)

        式中:rt為st狀態(tài)下采取行動時的即時獎勵。

        因此,critic網(wǎng)絡參數(shù)ω訓練過程如式(43)、(44)所示。

        (43)

        ωt+1=ωt+nω▽ωL(ω)

        (44)

        式中:nω為批評家網(wǎng)絡學習率。

        為保證智能體在決策過程中的廣泛性,A3C算法加入策略交叉熵(policy cross entropy,PCE)H(π(at|st;θ))。策略函數(shù)的梯度更新如式(45)、(46)所示。

        (45)

        θt+1=θt+nθ▽θRθ

        (46)

        式中:β為正項權重因子;nθ為actor網(wǎng)絡學習率。

        圖2為A3C算法的訓練過程。訓練開始時隨機初始化Global Network參數(shù),基于pull函數(shù)將Global Network的參數(shù)θ、ω同步到各線程中actor和critic network的參數(shù)θ′、ω′。然后初始化全局計步器T和本地線程計步器t,并在每個episode中優(yōu)化系統(tǒng)設備的各時段出力,直到循環(huán)結束。

        圖2 A3C算法的訓練過程Fig. 2 Training process of A3C algorithm

        3 仿真及結果分析

        本文利用Open AI的Gym工具包搭建仿真環(huán)境。計算機硬件配置為英特爾core i7-8700@3.20 GHz,6核12線程,內(nèi)存32 GB,所研究綜合能源系統(tǒng)仿真結構如圖1所示,各設備參數(shù)如表1所示,分時電價參數(shù)見文獻[15]。A3C算法中Actor網(wǎng)絡輸入為當前時刻的狀態(tài)集合 ,輸出為動作集合 ,隱層數(shù)為3,神經(jīng)元個數(shù)分別200、200、100。Critic網(wǎng)絡輸入為狀態(tài)集合 和動作集合 ,輸出為動作價值 ,隱層數(shù)為3,神經(jīng)元個數(shù)分別200,100,100,均采用ReLU激活函數(shù)。

        表1 綜合能源系統(tǒng)仿真參數(shù)Tab.1 Simulation parameters of integrated energy system

        3.1 A3C訓練過程

        為驗證本文所提方法有效性,以國網(wǎng)遼寧省電力有限公司實際運行數(shù)據(jù)(2021年1月1日至2021年3月31日)為例進行訓練。將1月1日至2月28日數(shù)據(jù)作為訓練集,3月1日至3月31日作為測試集。負荷數(shù)據(jù)訓練結果如圖3所示。

        圖3 負荷訓練數(shù)據(jù)Fig. 3 Load training data

        A3C算法收斂特性如圖4所示。智能體初始階段獎勵較低,綜合能源系統(tǒng)優(yōu)化策略處于學習過程,通過智能體的不斷試錯,根據(jù)回報學習更優(yōu)的控制方法。由圖4可知,加入懲罰獎勵能夠幫助智能體快速學習更優(yōu)的控制策略,加速算法收斂。算法達到3 600 episode時基本收斂,相比于加入懲罰獎勵前收斂速度提高了21%。

        圖4 A3C優(yōu)化算法的訓練曲線Fig. 4 Training curve of A3C optimization algorithm

        3.2 綜合能源系統(tǒng)優(yōu)化控制效果

        為進一步分析算法訓練完后的控制效果,本文選取測試集中3月8日的數(shù)據(jù)進行分析。圖5為不同方法下的綜合能源系統(tǒng)各時段運行成本。考慮綜合需求響應后,在07:00~09:00和17:00~20:00電價高峰時段的總成本明顯減少,同時將部分用電需求轉移到其他時段。

        圖5 綜合能源系統(tǒng)各時段運行成本Fig. 5 Operating cost of integrated energy system

        考慮綜合需求響應前后系統(tǒng)的日運行成本如表2所示。可以看出,考慮綜合需求響應后總成本減少了約5.6%,同時系統(tǒng)的夠碳成本降低了8.6%。

        表2 綜合能源系統(tǒng)日運行成本Tab.2 Daily operating cost of integrated energy system (元)

        圖6為采用本文所提基于A3C綜合能源系統(tǒng)優(yōu)化調(diào)度方法的各設備出力情況。如圖5所示,23:00至05:00為電網(wǎng)谷電價時段,該時段風電出力較高,燃氣輪機不運行。電網(wǎng)側在滿足電負荷的同時對蓄電池進行充電。在氣網(wǎng)側,通過P2G設備產(chǎn)生單位天然氣比直接購氣成本低,此時主要通過P2G設備支撐氣負荷,當P2G供能不足時通過購氣支撐。熱網(wǎng)側,由于燃氣輪機停止工作,由電加熱爐供給熱負荷,同時儲熱罐儲熱。

        圖6 綜合能源系統(tǒng)優(yōu)化調(diào)度結果Fig. 6 Scheduling results of integrated energy system optimization

        在電網(wǎng)平電價時段(05:00~07:00、09:00~13:00、14:00~17:00和20:00~23:00),燃氣輪機開始運行,并與風、光發(fā)電系統(tǒng)、以及外部電網(wǎng)購電滿足電負荷需求,蓄電池根據(jù)當前環(huán)境采取充放電操作。例如14:00~17:00時段,該時段風光出力較高,蓄電池容量較低,采取充電操作。氣網(wǎng)側主要通過直接購氣與燃氣輪機滿足氣負荷需求。熱網(wǎng)側,燃氣輪機采取以熱定電模式,主要由燃氣輪機和儲熱罐滿足熱負荷需求。

        在電網(wǎng)峰電價時段(07:00~09:00、13:00~14:00和17:00~20:00),燃氣輪機采取以電定熱模式,此時電負荷主要由風光出力、燃氣輪機和蓄電池提供,供電不足時向電網(wǎng)購電。由于本文考慮綜合需求響應,由圖6(a)可以看出,在17:00~20:00時段,通過采取轉換、轉移和中斷的方式降低負荷需求,進一步減少峰時段購電成本。氣網(wǎng)側主要通過購氣滿足氣負荷需求,儲氣罐主要作用為平穩(wěn)氣負荷波動。熱網(wǎng)側熱負荷主要由燃氣輪機提供,多余熱量通過儲熱罐存儲。

        3.3 不同算法收斂速度及學習效果對比

        為驗證本文所提基于A3C調(diào)度策略的有效性,選用DDPG與DQN算法進行對比分析。DDPG算法中Actor與Critic網(wǎng)絡隱層數(shù)均為2,神經(jīng)元個數(shù)均為100,激活函數(shù)為ReLU。DDPG算法中,由于DQN不能對連續(xù)動作做出決策需進行離散化處理。將每個動作等分為5個固定值。DQN有兩個隱層,每層神經(jīng)元個數(shù)為200,隱層激活函數(shù)均為ReLU。

        三種深度強化學習方法在學習過程中的獎勵曲線如圖7所示。由于DQN不能實現(xiàn)智能體動作的連續(xù)控制,其收斂時的獎勵值低于DDPG和A3C算法。A3C算法中加入了策略交叉熵,能夠較好描述概率分布的不確定性,具有更好的探索多樣性,因此獲得更高的獎勵值。

        圖7 不同算法的獎勵曲線Fig. 7 Award curve of different algorithms

        為進一步驗證不同深度強化學習方法在解決綜合能源系統(tǒng)經(jīng)濟調(diào)度時的穩(wěn)定性以及泛化能力,從測試集中隨機選取20日的數(shù)據(jù)進行測試。表3為不同算法的日運行成本,從表中可以看出,A3C算法在多天測試中始終保持較好的控制效果,相比于DQN和DDPG方法,日平均運行成本分別降低了8.7%和5.2%。

        表3 不同算法的日運行成本Tab.3 Daily operating costs of different algorithms (元)

        4 結 論

        本文提出一種基于A3C綜合能源系統(tǒng)優(yōu)化調(diào)度策略。該策略不需要建立復雜的綜合能源系統(tǒng)優(yōu)化物理模型,基于馬爾科夫決策過程實現(xiàn)綜合能源系統(tǒng)優(yōu)化調(diào)度。該方法可有效減少系統(tǒng)求解時間,更快速響應負荷波動,能滿足系統(tǒng)實際運行不斷調(diào)整的需求。同時考慮綜合需求響應,有效減少了綜合能源系統(tǒng)的運行成本,降低了綜合能源系統(tǒng)的碳排放量。所提方法使各設備出力變化更加平穩(wěn),減小了由源、荷側預測誤差引起的系統(tǒng)功率波動,提高了系統(tǒng)運行的可靠性。仿真結果表明,相比于DQN和DDPG方法,日平均運行成本分別降低了8.7%和5.2%。

        猜你喜歡
        動作系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        下一個動作
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        動作描寫要具體
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        畫動作
        讓動作“活”起來
        丝袜美腿亚洲综合一区| 国内精品久久久久久久久久影院 | 中日无码精品一区二区三区| 国产免费网站在线观看不卡| 天天做天天摸天天爽天天爱| www国产无套内射com| 伊人亚洲综合网色AV另类| 风间由美中文字幕在线| 国精产品一区一区三区| 青草久久婷婷亚洲精品| 日日天干夜夜狠狠爱| 中文字幕av日韩精品一区二区 | 蜜桃av区一区二区三| 一本久道高清视频在线观看| 亚洲成a人v欧美综合天堂| 免费xxx在线观看| 黄色大片一区二区中文字幕| 国产毛片视频一区二区三区在线| 国产一区二区三区视频网| 四虎影视永久地址www成人| 91久久精品无码人妻系列| 国产精品美女久久久久浪潮AVⅤ| 手机在线免费观看av不卡网站| av人摸人人人澡人人超碰下载| 久久99精品国产麻豆| 久久亚洲日本免费高清一区| 国产一区二区熟女精品免费| 国产大片黄在线观看| 欧美黑人乱大交| 亚洲av高清在线观看三区| 国内人妖一区二区在线播放| 蜜桃av在线免费网站| 国产亚洲午夜高清国产拍精品| 国产短视频精品区第一页| 久久亚洲综合亚洲综合| 国产成人小视频| 日韩精品大片在线观看| 午夜国产小视频在线观看黄| 久久久99精品免费视频| 国产av电影区二区三区曰曰骚网| av手机在线天堂网|