亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)深度Q網(wǎng)絡(luò)算法的多園區(qū)綜合能源系統(tǒng)能量管理方法

        2022-12-12 01:29:52薛溟楓毛曉波肖浩浦驍威裴瑋
        電力建設(shè) 2022年12期
        關(guān)鍵詞:園區(qū)負(fù)荷能源

        薛溟楓,毛曉波,肖浩,浦驍威,裴瑋

        (1.國(guó)網(wǎng)江蘇省電力有限公司無(wú)錫供電分公司,江蘇省無(wú)錫市 214000;2.中國(guó)科學(xué)院電工研究所,北京市 100190)

        0 引 言

        為了推動(dòng)全球低碳轉(zhuǎn)型的進(jìn)程,中國(guó)在2020年9月宣布力爭(zhēng)2030年前實(shí)現(xiàn)碳達(dá)峰,2060年前實(shí)現(xiàn)碳中和的目標(biāo)[1]?!半p碳”目標(biāo)的提出給碳排放中占比較大的能源電力行業(yè)帶來(lái)了新的挑戰(zhàn)[2]。園區(qū)綜合能源系統(tǒng)可以實(shí)現(xiàn)電、熱、氣多能源互補(bǔ),是優(yōu)化能源結(jié)構(gòu)轉(zhuǎn)型、促進(jìn)低碳發(fā)展、助力“雙碳”目標(biāo)實(shí)現(xiàn)的重要抓手。面向園區(qū)微電網(wǎng)的建設(shè)方向正逐步從“源-源”橫向多能互補(bǔ)系統(tǒng)向“源-網(wǎng)-荷-儲(chǔ)”縱向一體化的綜合能源系統(tǒng)發(fā)展。合理地對(duì)園區(qū)綜合能源系統(tǒng)進(jìn)行能量管理是減小分布式能源(distributed energy resource,DER)波動(dòng)對(duì)電網(wǎng)沖擊、促進(jìn)可再生能源發(fā)展應(yīng)用,以及緩解化石能源緊張、減少碳排放的有效途徑。因此,對(duì)園區(qū)綜合能源系統(tǒng)配置合理有效的能量管理方法對(duì)加速推進(jìn)低碳綜合能源系統(tǒng)的建設(shè)具有重要意義[3]。

        目前,針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理和優(yōu)化調(diào)度已有大量研究[4-12],其中主流方法包括以非線性規(guī)劃、二階錐規(guī)劃、混合整數(shù)規(guī)劃等為代表的數(shù)學(xué)優(yōu)化類方法以及以遺傳算法、粒子群算法為代表的啟發(fā)式算法。在數(shù)學(xué)優(yōu)化方法方面,文獻(xiàn)[12]基于傳熱學(xué)原理推導(dǎo)出了熱網(wǎng)潮流的網(wǎng)絡(luò)流量-溫度基本方程,并用混合整數(shù)線性規(guī)范的方法解決了冷熱電聯(lián)供系統(tǒng)的優(yōu)化運(yùn)行問(wèn)題。文獻(xiàn)[13]提出了一種混合整數(shù)的二階錐優(yōu)化方法,采用二階錐松弛方法將園區(qū)綜合能源系統(tǒng)優(yōu)化模型轉(zhuǎn)化為具有凸可行域的數(shù)學(xué)規(guī)劃形式,使優(yōu)化問(wèn)題便于求解。上述方法雖然理論清晰,且一定程度能保障解的最優(yōu)性,但此類數(shù)學(xué)規(guī)劃模型通常是對(duì)供能系統(tǒng)的約束條件做適當(dāng)簡(jiǎn)化,在處理大規(guī)模非線性規(guī)劃問(wèn)題時(shí)具有局限性。在啟發(fā)式算法方面,文獻(xiàn)[14]采用兩階段多目標(biāo)優(yōu)化方法來(lái)設(shè)計(jì)園區(qū)綜合能源系統(tǒng)的運(yùn)行方案,第一階段采用多目標(biāo)粒子群算法優(yōu)化系統(tǒng)的設(shè)備類型和容量,第二階段用CPLEX求解器進(jìn)一步優(yōu)化設(shè)備的小時(shí)出力,有效提高了園區(qū)綜合能源系統(tǒng)的綜合收益。文獻(xiàn)[15]開(kāi)展了針對(duì)冷熱聯(lián)供分布式供能系統(tǒng)的能量管理研究,借鑒大系統(tǒng)經(jīng)濟(jì)調(diào)度優(yōu)化控制方法,將優(yōu)化問(wèn)題轉(zhuǎn)化為帶離散變量的非線性規(guī)劃問(wèn)題,并用遺傳算法進(jìn)行求解。文獻(xiàn)[16]著眼于園區(qū)綜合能源系統(tǒng)的經(jīng)濟(jì)性和環(huán)保性,用粒子群算法(particle swarm optimization,PSO)解決以電為核心的綜合能源系統(tǒng)優(yōu)化調(diào)度模型。上述啟發(fā)式算法雖然求解方便且可以保證在多項(xiàng)式時(shí)間內(nèi)給出較優(yōu)的結(jié)果,但是求解的結(jié)果難以保證解的全局最優(yōu)性。

        強(qiáng)化學(xué)習(xí)技術(shù)是近年來(lái)新興的一項(xiàng)人工智能技術(shù),其通過(guò)馬爾科夫決策過(guò)程,使智能體在與環(huán)境的不斷交互中逐漸學(xué)習(xí)到回報(bào)最大的策略,在高難度決策類問(wèn)題上有較出色的表現(xiàn)[17]。目前不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用到了園區(qū)綜合能源系統(tǒng)的決策控制中。文獻(xiàn)[18]將深度策略梯度方法(deep deterministic policy gradient,DDPG)應(yīng)用于園區(qū)綜合能源系統(tǒng)能源服務(wù)商的定價(jià)和調(diào)度策略。文獻(xiàn)[19]提出了一種雙層強(qiáng)化學(xué)習(xí)方法,該方法上層為深度Q網(wǎng)絡(luò)(deep Q network,DQN),下層為混合整數(shù)線性規(guī)劃優(yōu)化器,可以解決園區(qū)綜合能源系統(tǒng)中復(fù)雜的能源耦合關(guān)系。文獻(xiàn)[20]借助貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)不確定的學(xué)習(xí)環(huán)境建模,將綜合能源系統(tǒng)優(yōu)化運(yùn)行問(wèn)題轉(zhuǎn)變?yōu)轳R爾科夫決策問(wèn)題,并通過(guò)深度強(qiáng)化學(xué)習(xí)算法尋找最優(yōu)運(yùn)行策略。文獻(xiàn)[21-22]對(duì)園區(qū)綜合能源系統(tǒng)中多主體博弈的定價(jià)機(jī)制、多主體聯(lián)合規(guī)劃方式以及多能源優(yōu)化調(diào)度機(jī)制進(jìn)行了研究,分析了含配電網(wǎng)、配氣網(wǎng)、配熱網(wǎng)和多個(gè)能量樞紐組成的園區(qū)綜合能源系統(tǒng)的運(yùn)行機(jī)制,提出了考慮供能網(wǎng)絡(luò)安全約束的園區(qū)綜合能源系統(tǒng)多主體運(yùn)行優(yōu)化方法。但是多主體博弈理論下的能源優(yōu)化調(diào)度會(huì)面臨多主體互動(dòng)機(jī)制復(fù)雜、智能體動(dòng)作空間維度龐大的問(wèn)題,這會(huì)導(dǎo)致智能體對(duì)動(dòng)作空間的探索效率低下,算法的穩(wěn)定性不佳,從而易收斂至局部最優(yōu),學(xué)習(xí)到非最優(yōu)策略。

        針對(duì)現(xiàn)有工作的不足之處,本文針對(duì)多能耦合的多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題展開(kāi)研究,提出一種新型基于改進(jìn)深度Q網(wǎng)絡(luò)(modified deep Q network,MDQN)算法的園區(qū)綜合能源系統(tǒng)能量管理方法。該方法首先通過(guò)長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對(duì)多智能體決策的環(huán)境進(jìn)行封裝,解決馬爾科夫決策環(huán)境的動(dòng)態(tài)性問(wèn)題;其次在訓(xùn)練智能體階段引入一種優(yōu)先動(dòng)作采樣的策略來(lái)改進(jìn)DQN算法,解決在大規(guī)模動(dòng)作空間下的動(dòng)作探索效率低下的問(wèn)題,保證智能體在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)調(diào)度策略。最后通過(guò)園區(qū)綜合能源系統(tǒng)群的算例仿真驗(yàn)證所提方法的有效性與經(jīng)濟(jì)性。

        1 園區(qū)綜合能源系統(tǒng)群結(jié)構(gòu)

        本文以包含電力以及熱力的多園區(qū)綜合能源系統(tǒng)為例,其構(gòu)成如圖1所示。

        多園區(qū)綜合能源系統(tǒng)由若干個(gè)綜合能源系統(tǒng)以及一個(gè)外部綜合能源系統(tǒng)構(gòu)成。每個(gè)園區(qū)綜合能源系統(tǒng)之間可以自由定價(jià)、交易,同時(shí)也可以與外部綜合能源系統(tǒng)進(jìn)行交易,但不具備自主定價(jià)權(quán)。為了保證園區(qū)內(nèi)能源的平衡,將外部綜合能源系統(tǒng)設(shè)定為一個(gè)無(wú)窮大的能源系統(tǒng)。當(dāng)園區(qū)內(nèi)部總體能源過(guò)剩時(shí),外部綜合能源系統(tǒng)可以收購(gòu)盈余的能源;反之,當(dāng)園區(qū)內(nèi)部總體能源緊缺時(shí),外部綜合能源系統(tǒng)也可以出售足夠的能源。園區(qū)內(nèi)每個(gè)產(chǎn)消者所包含的能源設(shè)備包括:微燃機(jī)、燃?xì)忮仩t、分布式儲(chǔ)電設(shè)備、分布式儲(chǔ)熱設(shè)備、熱負(fù)荷以及電負(fù)荷,其中電負(fù)荷可以分成價(jià)格響應(yīng)型負(fù)荷以及恒溫控制型負(fù)荷(thermostatically controlled loads,TCL)。

        圖1 園區(qū)綜合能源系統(tǒng)總體結(jié)構(gòu)Fig.1 Overall structure of the park-level integrated energy system

        2 園區(qū)綜合能源系統(tǒng)內(nèi)部單元模型

        2.1 分布式儲(chǔ)能元件模型

        分布式儲(chǔ)能元件的儲(chǔ)能動(dòng)態(tài)過(guò)程可以由式(1)來(lái)表示:

        (1)

        式中:Bt∈[0,Bmax]為t時(shí)刻存儲(chǔ)在分布式儲(chǔ)能元件中的電能,Bmax為最大儲(chǔ)能能力;ηc、ηd∈[0,1]分別為儲(chǔ)能系統(tǒng)(energy storage system,ESS)的充放電系數(shù);Ct∈[0,Cmax]為t時(shí)刻的實(shí)時(shí)充電功率,Cmax為最大充電功率;Dt∈[0,Dmax]為t時(shí)刻的實(shí)時(shí)放電功率,Dmax為最大放電功率。

        同時(shí)為了整個(gè)綜合能源系統(tǒng)的量綱統(tǒng)一,引入表征分布式儲(chǔ)能元件的能量存儲(chǔ)量荷電狀態(tài)(state-of-charge,SoC)Soc,t的定義:

        (2)

        SoC反映了每一時(shí)刻ESS儲(chǔ)能罐的儲(chǔ)能百分比,同時(shí)滿足如式(3)所示的約束:

        (3)

        式(3)的約束表明任意時(shí)間段內(nèi)的儲(chǔ)能都有上下限,同時(shí)儲(chǔ)能裝置在每天開(kāi)始與最終的荷電狀態(tài)相同,確保儲(chǔ)能裝置滿足下一日的園區(qū)綜合能源系統(tǒng)運(yùn)行需求。

        2.2 恒溫控制負(fù)荷模型

        具有熱守恒性質(zhì)的負(fù)荷,如空調(diào)、冰箱、熱水器、熱泵等,都可以視為恒溫控制型負(fù)荷。

        TCL的溫度動(dòng)態(tài)過(guò)程可以由式(4)來(lái)刻畫:

        (4)

        (5)

        (6)

        圖2 TCL控制流Fig.2 Diagram of TCL control flow

        2.3 價(jià)格響應(yīng)型負(fù)荷模型

        無(wú)法直接被控制,主要由用戶需求影響的負(fù)荷稱為價(jià)格響應(yīng)型負(fù)荷。這類負(fù)荷通常會(huì)受到電價(jià)的間接影響,其負(fù)荷功率平衡方程為:

        (7)

        (8)

        (9)

        式中:ωij∈{0,1}為第i個(gè)價(jià)格響應(yīng)型負(fù)荷在第j個(gè)時(shí)刻轉(zhuǎn)移負(fù)荷的決策。

        價(jià)格響應(yīng)型負(fù)荷的ωij與當(dāng)前的市場(chǎng)價(jià)格水平δt及經(jīng)歷過(guò)的時(shí)間步有關(guān),服從式(10)所示的概率分布:

        (10)

        (11)

        式中:λi∈[0,1]為耐心系數(shù)。

        式(11)的概率分布刻畫了負(fù)荷轉(zhuǎn)移的決策機(jī)制,即當(dāng)前市場(chǎng)電價(jià)越高,當(dāng)前時(shí)間步距離目標(biāo)時(shí)間步越久,負(fù)荷就越不容易轉(zhuǎn)移。

        2.4 微燃機(jī)模型

        天然氣燃燒時(shí)的高品位熱能做功驅(qū)動(dòng)微燃機(jī)發(fā)電,所排出的高溫余熱煙氣經(jīng)溴冷機(jī)后用于取暖及供應(yīng)生活熱水[23]。忽略外界環(huán)境變化對(duì)發(fā)電、燃料燃燒效率的影響,微燃機(jī)的熱電關(guān)系數(shù)學(xué)模型為:

        (12)

        式中:QMT(t)、PMT(t)、ηMT(t)分別為t時(shí)段微燃機(jī)的排氣余熱量、電功率和發(fā)電效率;ηL為散熱損失率。

        (13)

        式中:Δt為單位調(diào)度時(shí)間;CMT(t)為t時(shí)段微燃機(jī)的燃料成本;CCH4為天然氣單價(jià);LHVNG為天然氣低熱值。

        2.5 燃?xì)忮仩t模型

        燃?xì)忮仩t可以實(shí)現(xiàn)電熱轉(zhuǎn)換并對(duì)電熱負(fù)荷進(jìn)行削峰填谷,有利于維護(hù)園區(qū)綜合能源系統(tǒng)內(nèi)部的能源供需平衡,其出力模型為:

        QEB(t)=PEB(t)ηah

        (14)

        式中:PEB(t)、QEB(t)分別為t時(shí)段蒸汽鍋爐用電和制熱功率;ηah為蒸汽鍋爐的電熱轉(zhuǎn)換效率。

        2.6 分布式儲(chǔ)熱罐模型

        分布式儲(chǔ)熱罐可對(duì)熱負(fù)荷進(jìn)行時(shí)段性轉(zhuǎn)移,緩解園區(qū)內(nèi)電熱負(fù)荷與熱電聯(lián)供系統(tǒng)電熱比不匹配的矛盾,進(jìn)而實(shí)現(xiàn)電熱統(tǒng)一協(xié)調(diào)管理,改善園區(qū)綜合能源系統(tǒng)的電熱調(diào)度水平[23],儲(chǔ)熱罐的動(dòng)態(tài)數(shù)學(xué)模型為:

        (15)

        式中:HHS(t)為t時(shí)段儲(chǔ)熱罐儲(chǔ)熱;μ為儲(chǔ)熱罐散熱損失率;QHS_ch(t)、QHS_dis(t)和ηhch、ηhdis分別為t時(shí)段的吸放熱功率及吸放熱效率。

        3 基于MDQN算法的園區(qū)綜合能源系統(tǒng)群能量管理方法

        多園區(qū)綜合能源系統(tǒng)的能量管理既要考慮熱、電多種能源的隨機(jī)性、儲(chǔ)能元件帶來(lái)的時(shí)序決策耦合性、多能源轉(zhuǎn)化、存儲(chǔ)的復(fù)雜性和多樣性,同時(shí)還要考慮其他園區(qū)綜合能源系統(tǒng)可能會(huì)采取的策略,因此其決策處在高維空間,給園區(qū)綜合能源系統(tǒng)的實(shí)時(shí)快速最優(yōu)能量管理帶來(lái)巨大挑戰(zhàn)。針對(duì)這一難題,本文首先對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值封裝建模,有效實(shí)現(xiàn)在外部輸入環(huán)境狀態(tài)下估值當(dāng)前能源交易額的功能,進(jìn)而將多智能體強(qiáng)化學(xué)習(xí)環(huán)境問(wèn)題轉(zhuǎn)化為單智能體強(qiáng)化學(xué)習(xí)問(wèn)題,降低多園區(qū)互動(dòng)運(yùn)行的決策復(fù)雜度。在此基礎(chǔ)上,針對(duì)每個(gè)園區(qū)綜合能源系統(tǒng)分別用MDQN方法進(jìn)行在線學(xué)習(xí),提高決策效率,進(jìn)一步保障多園區(qū)綜合能源系統(tǒng)在多種場(chǎng)景下的實(shí)時(shí)決策。

        3.1 基于LSTM深度網(wǎng)絡(luò)的各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模

        對(duì)于園區(qū)綜合能源系統(tǒng)群來(lái)說(shuō),各園區(qū)綜合能源系統(tǒng)能量管理可調(diào)資源除了內(nèi)部的可控機(jī)組外,還同時(shí)存在與外部各園區(qū)綜合能源系統(tǒng)的互動(dòng),而外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性復(fù)雜且時(shí)變,要實(shí)現(xiàn)對(duì)各園區(qū)綜合能源系統(tǒng)的有效能量管理,需要首先對(duì)外部各園區(qū)綜合能源系統(tǒng)的互動(dòng)特性精確感知。本文基于LSTM深度網(wǎng)絡(luò)對(duì)各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境進(jìn)行等值建模[24]。

        為了使封裝模型更具泛化能力,首先查詢各園區(qū)綜合能源系統(tǒng)的歷史能源交易數(shù)據(jù),獲取不同外部激勵(lì)下的能源交易信息;接著將外部環(huán)境的時(shí)序信息作為輸入特征,將對(duì)應(yīng)的能源交易信息作為輸出標(biāo)簽送入LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。具體的封裝流程如圖3所示。

        圖3所示的園區(qū)綜合能源系統(tǒng)封裝模型主要分為2個(gè)階段:第一階段是訓(xùn)練階段,通過(guò)海量離線數(shù)據(jù)的輸入,將不同外部激勵(lì)下的能源交易額和外部時(shí)序特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,查詢能源交易額作為監(jiān)督學(xué)習(xí)的標(biāo)簽;第二階段是預(yù)測(cè)階段,在訓(xùn)練完成后可以實(shí)時(shí)地根據(jù)不同的外部激勵(lì)預(yù)測(cè)出該產(chǎn)消者的能源交易額。

        3.2 MDQN算法

        園區(qū)綜合能源系統(tǒng)的能量管理過(guò)程可建模為馬爾科夫決策過(guò)程(Markov decision process,MDP),本文采用MDQN算法對(duì)其進(jìn)行建模和求解,具體包括狀態(tài)空間S、動(dòng)作空間A、獎(jiǎng)勵(lì)函數(shù)R以及衰減系數(shù)γ,記作δMDP={S,A,R,γ}。

        圖3 園區(qū)綜合能源系統(tǒng)等值封裝模型Fig.3 Equivalent package model of park-level integrated energy system

        3.2.1 狀態(tài)空間

        智能體可觀測(cè)到的狀態(tài)空間為:

        S=SC×SX×ST

        (16)

        式中:SC表示可控觀測(cè)量;SX表示不可控觀測(cè)量;ST表示時(shí)序信息觀測(cè)量。

        可控觀測(cè)量包括園區(qū)綜合能源系統(tǒng)內(nèi)部分布式儲(chǔ)能狀態(tài)量Soc,t,TCL的狀態(tài)量Sot,t以及市場(chǎng)價(jià)格水平δt,可控觀測(cè)量為:

        SC=[Soc,t,Sot,t,δt]

        (17)

        (18)

        時(shí)序信息觀測(cè)量包括當(dāng)前天數(shù)td、當(dāng)前小時(shí)th。

        ST=[td,th]

        (19)

        3.2.2 動(dòng)作空間

        將每個(gè)園區(qū)綜合能源系統(tǒng)的控制中心視作一個(gè)智能體,其動(dòng)作空間為一個(gè)10維的離散空間。該動(dòng)作空間主要包括對(duì)電能的控制Ae以及對(duì)熱能的控制Ah。

        A=Ae×Ah

        (20)

        對(duì)電能的控制動(dòng)作為:

        Ae=[atcl,al,ac,aG,ap,as]

        (21)

        式中:atcl為TCL的控制信號(hào);al為價(jià)格響應(yīng)型電負(fù)荷的控制信息;ac為分布式儲(chǔ)能罐的充放電控制信號(hào);aG為燃?xì)廨啓C(jī)的發(fā)電功率控制信號(hào);ap為電能交易價(jià)格控制信號(hào);as為電能交易順序控制信號(hào)。

        對(duì)熱能的控制動(dòng)作為:

        Ah=[ahc,ahG,ahp,ahs]

        (22)

        式中:ahc為儲(chǔ)熱罐的控制信號(hào);ahG為鍋爐補(bǔ)燃控制信號(hào);ahp為熱能交易價(jià)格控制信號(hào);ahs為熱能交易順序控制信號(hào)。

        3.2.3 獎(jiǎng)勵(lì)函數(shù)

        為了使每個(gè)園區(qū)綜合能源系統(tǒng)的能源管理方案負(fù)荷自身利益最大化,設(shè)計(jì)式(23)所示的獎(jiǎng)勵(lì)函數(shù)Rt:

        Rt=St-Ft+Mt

        (23)

        式中:St為出售能源所獲的收益;Ft為獲得能源的成本;Mt為違反SoC平衡的懲罰項(xiàng)。

        St主要來(lái)自向園區(qū)內(nèi)部用戶以及其他園區(qū)綜合能源系統(tǒng)出售能源的收益,如式(24)所示:

        (24)

        獲取能源的成本Ct主要來(lái)自分布式能源的發(fā)電、產(chǎn)熱成本以及向其他園區(qū)綜合能源系統(tǒng)的購(gòu)買成本,如式(25)所示:

        (25)

        為了滿足每一天開(kāi)始與結(jié)束時(shí)的SoC平衡,引入懲罰項(xiàng)Mt,如式(26)所示:

        (26)

        式中:λ為懲罰系數(shù),在每天的非起始時(shí)刻懲罰項(xiàng)始終為0,在每天的最后一個(gè)時(shí)刻根據(jù)與當(dāng)天初始時(shí)刻的SoC差值確定懲罰項(xiàng)。

        3.2.4 MDQN

        DQN算法是一種基于值的深度強(qiáng)化學(xué)習(xí)算法,在狀態(tài)空間連續(xù)的決策類問(wèn)題中具有較好的表現(xiàn)[25]。傳統(tǒng)DQN方法使用的是ε貪心策略,即每次選擇動(dòng)作時(shí)以1-ε的概率選擇最優(yōu)動(dòng)作,以ε的概率探索其他動(dòng)作,ε貪心策略的數(shù)學(xué)表達(dá)式為:

        (27)

        式中:π(a|s)表示策略函數(shù),是從狀態(tài)到動(dòng)作的一種映射;A(s)表示智能體可采取的動(dòng)作的總數(shù);a*=argmaxaQ(s,a)表示貪心動(dòng)作。

        DQN算法采用的ε貪心策略在小規(guī)模動(dòng)作空間中有助于遍歷動(dòng)作空間,平衡策略的探索率與利用率。但是傳統(tǒng)的DQN算法僅適用于低維離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)環(huán)境,在面對(duì)大規(guī)模離散動(dòng)作空間時(shí)會(huì)面臨探索效率低下、收斂速度慢且容易收斂于次優(yōu)解的問(wèn)題。這是由于在高維離散的動(dòng)作空間中,傳統(tǒng)的ε貪心策略在采取非貪心策略探索時(shí)過(guò)于低效,無(wú)法有效更新Q值網(wǎng)絡(luò)參數(shù)。本文多園區(qū)綜合能源系統(tǒng)能量管理問(wèn)題中動(dòng)作空間的維度較高,所有動(dòng)作的排列組合數(shù)高達(dá)125萬(wàn)個(gè)。

        為此,本文提出一種針對(duì)大規(guī)模離散動(dòng)作空間下的MDQN算法,其原理如圖4所示。

        圖4 MDQN算法原理Fig.4 MDQN method

        MDQN的核心思想是在DQN方法的基礎(chǔ)上用k-優(yōu)先采樣策略來(lái)代替ε貪心策略。k-優(yōu)先采樣策略的表達(dá)式為:

        (28)

        式中:A*為所有動(dòng)作價(jià)值Q(s,a)中最高的k個(gè)動(dòng)作所構(gòu)成的集合。

        A*={(an1,an2,…,ank)|Q(s,an1)≥Q(s,an2)≥…≥
        Q(s,ank)≥?Q(s,ai)∈A}

        (29)

        MDQN方法在初始階段與DQN相同,首先將當(dāng)前的狀態(tài)S送入Q網(wǎng)絡(luò),接著計(jì)算出所有動(dòng)作的動(dòng)作價(jià)值函數(shù)Q(s,a)。在動(dòng)作選擇階段采用如式(28)、(29)所示的k-優(yōu)先采樣策略,先根據(jù)所有動(dòng)作的Q值挑選出k個(gè)最高Q值的候選動(dòng)作,接著根據(jù)softmax函數(shù)計(jì)算出k個(gè)候選動(dòng)作的歸一化得分,最后按照符合歸一化得分的概率分布完成動(dòng)作的選取。

        4 算例仿真

        4.1 算例設(shè)置

        本文采用圖5所示的園區(qū)綜合能源系統(tǒng)進(jìn)行算例仿真,該算例由3個(gè)互聯(lián)的園區(qū)綜合能源系統(tǒng)構(gòu)成,并且整體與外部電網(wǎng)和熱管網(wǎng)相連。

        不失一般性,本文以園區(qū)綜合能源系統(tǒng)1作為決策主體為例,將其余園區(qū)綜合能源系統(tǒng)用2.1節(jié)所述的方法進(jìn)行等值封裝。每個(gè)園區(qū)綜合能源系統(tǒng)內(nèi)部含有數(shù)量不等的TCL、價(jià)格響應(yīng)型負(fù)荷及熱負(fù)荷,各園區(qū)內(nèi)部的能源由風(fēng)電、燃?xì)廨啓C(jī)以及鍋爐補(bǔ)燃提供,主要參數(shù)見(jiàn)表1。

        算法參數(shù)方面,用于園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的參數(shù)設(shè)置如下:輸入樣本為24 h的熱負(fù)荷、電負(fù)荷、風(fēng)電數(shù)據(jù)、光伏數(shù)據(jù)、電能交易價(jià)格數(shù)據(jù)以及熱能交易價(jià)格數(shù)據(jù),因此輸入數(shù)據(jù)維度為(24,6);經(jīng)過(guò)2層含有128個(gè)隱藏元的LSTM網(wǎng)絡(luò)后,再經(jīng)過(guò)256個(gè)神經(jīng)元的全連接網(wǎng)絡(luò),最后輸出維度為2的電能交易量以及熱能交易量。MDQN算法超參數(shù)設(shè)置方面,其中衰減系數(shù)γ=0.98,懲罰系數(shù)λ=0.25,k優(yōu)先采樣策略的初始k值設(shè)定為500且每100個(gè)訓(xùn)練周期(epoch)衰減一次,Q網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.01,Q目標(biāo)網(wǎng)絡(luò)與Q估計(jì)網(wǎng)絡(luò)之間的更新步長(zhǎng)為300個(gè)訓(xùn)練步長(zhǎng)。

        圖5 園區(qū)綜合能源系統(tǒng)算例仿真結(jié)構(gòu)Fig.5 Simulation structure of the park-level integrated energy system

        表1 算例參數(shù)Table 1 Simulation parameters

        4.2 結(jié)果分析

        首先,對(duì)園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值建模的LSTM深度網(wǎng)絡(luò)的有效性進(jìn)行驗(yàn)證,其中訓(xùn)練數(shù)據(jù)為10 000天內(nèi)24 h的園區(qū)綜合能源系統(tǒng)歷史決策數(shù)據(jù),訓(xùn)練集規(guī)模為10 000×24,測(cè)試集規(guī)模為200×24。LSTM網(wǎng)絡(luò)訓(xùn)練過(guò)程中的訓(xùn)練集與驗(yàn)證集損失函數(shù)變化趨勢(shì)如圖6所示,從結(jié)果來(lái)看,LSTM網(wǎng)絡(luò)訓(xùn)練后的準(zhǔn)確率保證在98%以上,有效保證了園區(qū)綜合能源系統(tǒng)封裝模型的準(zhǔn)確性。

        圖6 LSTM網(wǎng)絡(luò)損失函數(shù)變化趨勢(shì)Fig.6 Trend of loss function of LSTM network

        其次,分別采用提出的MDQN與傳統(tǒng)的DQN進(jìn)行園區(qū)綜合能源系統(tǒng)群能量管理策略的學(xué)習(xí)求解,得到的MDQN算法與DQN算法訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值對(duì)比如圖7所示。

        圖7 MDQN與DQN算法的獎(jiǎng)勵(lì)值對(duì)比Fig.7 Comparison of reward values of MDQN and DQN algorithms

        從圖7中的獎(jiǎng)勵(lì)值變化趨勢(shì)可以看出,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂特性,其收斂的獎(jiǎng)勵(lì)值更優(yōu),同時(shí)在訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)值波動(dòng)也更小。這是由于傳統(tǒng)DQN算法采用ε貪心策略,在大規(guī)模動(dòng)作空間中以隨機(jī)策略進(jìn)行探索時(shí)效率低下,無(wú)法在有限的時(shí)間內(nèi)學(xué)習(xí)到最優(yōu)策略,同時(shí)多次隨機(jī)的探索導(dǎo)致學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的波動(dòng)較大,算法魯棒性較差;而本文所提MDQN算法采用k優(yōu)先采樣策略,能根據(jù)概率選擇較優(yōu)的候選動(dòng)作,極大地提高了智能體對(duì)動(dòng)作空間的探索效率,可以保證算法收斂到更優(yōu)的獎(jiǎng)勵(lì)值,用時(shí)采用k優(yōu)先采樣策略避免了對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的大量訪問(wèn),降低了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)函數(shù)的方差。因此,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂性以及穩(wěn)定性。

        在該算例中,MDQN算法獲得的獎(jiǎng)勵(lì)均值為38.56,DQN算法的獎(jiǎng)勵(lì)均值為33.67;MDQN算法獲得的獎(jiǎng)勵(lì)方差為3.22,DQN算法的獎(jiǎng)勵(lì)方差為8.68。相比DQN算法,MDQN算法獲得的獎(jiǎng)勵(lì)值提高了14.5%,同時(shí)方差降低了62.9%。因此,所提MDQN算法在大規(guī)模動(dòng)作空間下的表現(xiàn)明顯優(yōu)于傳統(tǒng)DQN算法。

        為了進(jìn)一步驗(yàn)證本文所提算法在不同場(chǎng)景下的表現(xiàn),對(duì)比了DQN與MDQN兩種算法對(duì)于園區(qū)綜合能源系統(tǒng)1的能源管理情況,如圖8與圖9所示。

        結(jié)合圖8(a)以及圖9(a),在算例的前24 h中,風(fēng)電始終處于匱乏狀態(tài),此時(shí)2種智能體都利用燃?xì)廨啓C(jī)提供大部分電能,并從外界購(gòu)入少量的電能。但是MDQN智能體比DQN智能體更好地制定了園區(qū)內(nèi)部的電價(jià),有效降低了電能短缺期間的價(jià)格響應(yīng)型負(fù)荷的耗電量,保證了園區(qū)的經(jīng)濟(jì)效益。在算例的后24 h中,風(fēng)電為盈余狀態(tài),此時(shí)2個(gè)智能體給出的決策方案都是減少燃?xì)廨啓C(jī)的發(fā)電功率,同時(shí)適量地向外界出售多余的電能。但是MDQN智能體更傾向于向其他園區(qū)出售電能,DQN智能體選擇降低園區(qū)內(nèi)部市場(chǎng)電價(jià),激勵(lì)價(jià)格響應(yīng)型負(fù)荷的用電需求。從經(jīng)濟(jì)收益上看,外銷型的MDQN智能體比DQN智能體能獲得更高的收益。

        圖8(b)以及圖9(b)給出了2種算法對(duì)熱能的管理情況,與電能情況不同,園區(qū)綜合能源系統(tǒng)1熱能較為充裕,因此智能體的主要任務(wù)是如何出售多余的熱能使利益最大化。從結(jié)果中可以看出,DQN智能體只向園區(qū)3和熱管網(wǎng)進(jìn)行熱能交易,而MDQN智能體減少了對(duì)熱管網(wǎng)出售的熱能,增加了向園區(qū)綜合能源系統(tǒng)2出售熱能。在仿真時(shí)段內(nèi),園區(qū)3的熱能需求較大,園區(qū)2的熱能需求較小,同時(shí)園區(qū)2與園區(qū)3的熱能交易價(jià)格高于外部熱管網(wǎng)。因此,MDQN智能體的決策不僅使自身獲得的收益更高,同時(shí)促進(jìn)了不同園區(qū)之間的能源交易。

        圖8 DQN智能體的能源管理情況Fig.8 Energy management by DQN agent

        圖9 MDQN智能體的能源管理情況Fig.9 Energy management by MDQN agent

        MDQN算法與DQN算法在不同天數(shù)中的調(diào)度收益情況對(duì)比如圖10所示。從圖10中可以看出,在能源盈余的場(chǎng)景下,MDQN算法可以更好地調(diào)整與其余園區(qū)之間的交易策略從而獲得更高的收益;同時(shí)在能源匱缺的場(chǎng)景下,MDQN算法可以通過(guò)調(diào)整機(jī)組出力以及與其他園區(qū)的能源收購(gòu)策略,從而以較低的成本滿足園區(qū)內(nèi)部能源的供需平衡。在不同場(chǎng)景中,DQN算法的平均經(jīng)濟(jì)收益為18.76美元,MDQN算法的平均經(jīng)濟(jì)收益為24.23美元,同比提升了29.16%。因此,MDQN算法無(wú)論在何種場(chǎng)景下均可以獲得比DQN算法更高的收益,具有更好的經(jīng)濟(jì)性。

        綜合以上仿真結(jié)果,本文提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以合理實(shí)施能源的調(diào)度與分配,在保障用戶需求的基礎(chǔ)上進(jìn)行削峰填谷,提高園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。

        圖10 MDQN與DQN算法在不同場(chǎng)景下的收益對(duì)比Fig.10 Rewards comparison of MDQN and DQN algorithms in different scenarios

        5 結(jié) 論

        本文針對(duì)園區(qū)綜合能源系統(tǒng)群的能量管理問(wèn)題,為克服傳統(tǒng)數(shù)學(xué)類方法在模型近似上的局限性以及進(jìn)化類算法局限于局部最優(yōu)的缺陷,同時(shí)為了應(yīng)對(duì)傳統(tǒng)DQN方法在大規(guī)模離散動(dòng)作空間上探索效率低下的問(wèn)題,本文提出了基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法,主要結(jié)論如下:

        1)提出的基于LSTM網(wǎng)絡(luò)的各園區(qū)綜合能源系統(tǒng)外部互動(dòng)環(huán)境等值封裝模型可以較好地刻畫其余園區(qū)綜合能源系統(tǒng)的能源需求響應(yīng)特性,保證了馬爾科夫決策環(huán)境的動(dòng)態(tài)性。

        2)提出的MDQN算法相較DQN算法采用了k-優(yōu)先采樣策略,能夠在大規(guī)模動(dòng)作空間的探索中減少對(duì)低獎(jiǎng)勵(lì)值動(dòng)作的訪問(wèn)頻次,減少了學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)值的方差。相比DQN算法,MDQN算法在訓(xùn)練過(guò)程中獲得的平均獎(jiǎng)勵(lì)值提高了14.5%,同時(shí)方差降低了62.9%。因此MDQN算法具有更好的收斂性與穩(wěn)定性。

        3)提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以不需要了解園區(qū)設(shè)備的詳細(xì)參數(shù)信息,在復(fù)雜變化的場(chǎng)景中也可以實(shí)現(xiàn)熱、電多元能量管理策略的自適應(yīng)學(xué)習(xí)進(jìn)化,提升園區(qū)綜合能源系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。MDQN算法相比傳統(tǒng)DQN算法提升的經(jīng)濟(jì)效益可達(dá)29.16%。

        本文研究中的MDQN算法在面向更大規(guī)模的園區(qū)綜合能源系統(tǒng)能量管理時(shí),由于控制變量的離散化仍會(huì)面臨決策維度爆炸增長(zhǎng)的問(wèn)題,如何采用連續(xù)性變量的多智能體強(qiáng)化學(xué)習(xí)算法對(duì)多園區(qū)綜合能源系統(tǒng)的協(xié)同優(yōu)化控制策略進(jìn)行提升改進(jìn)將是本文后續(xù)進(jìn)一步的研究方向。

        猜你喜歡
        園區(qū)負(fù)荷能源
        第六章意外的收獲
        蘇通園區(qū):激蕩開(kāi)放潮 十年再出發(fā)
        用完就沒(méi)有的能源
        ————不可再生能源
        家教世界(2019年4期)2019-02-26 13:44:20
        園區(qū)的開(kāi)放樣本
        商周刊(2018年24期)2019-01-08 03:30:36
        從園區(qū)化到國(guó)際化
        商周刊(2018年12期)2018-07-11 01:27:18
        福能源 緩慢直銷路
        防止過(guò)負(fù)荷時(shí)距離保護(hù)誤動(dòng)新判據(jù)
        主動(dòng)降負(fù)荷才是正經(jīng)事
        負(fù)荷跟蹤運(yùn)行下反應(yīng)堆一回路控制系統(tǒng)仿真與驗(yàn)證
        園區(qū)開(kāi)發(fā)Ⅱ個(gè)股表現(xiàn)
        久久熟女少妇一区二区三区| 国产AV无码专区久久精品网站| 一区二区在线亚洲av蜜桃| 97久久国产精品成人观看| 国产一区二区黄色录像| 女人让男人桶爽30分钟| h在线国产| 加勒比一本大道大香蕉| 国产一级一级内射视频| 亚洲成av人在线观看天堂无码| 午夜毛片午夜女人喷潮视频| 国产精品99久久精品女同| av剧情演绎福利对白| 狠狠做深爱婷婷久久综合一区| 久久国产热精品波多野结衣av| 久久老熟女乱色一区二区 | 国产成人vr精品a视频| av无码一区二区三| 少妇下面好紧好多水真爽| 久久精品www人人爽人人| 麻豆国产人妻欲求不满| 中文字幕偷拍亚洲九色| 9久久婷婷国产综合精品性色| 日韩毛片无码永久免费看| 免费毛片在线视频| 国产av精品久久一区二区| 一本无码中文字幕在线观| 亚洲av无码久久寂寞少妇| 国产aⅴ丝袜旗袍无码麻豆| 日韩av一区二区不卡| 中文字幕欧美人妻精品一区| 亚洲AV无码久久久一区二不卡| 偷拍美女一区二区三区视频| 公与淑婷厨房猛烈进出| 成年女人毛片免费视频| 一片内射视频在线观看| 精品国产一区二区三区三级| 国产国语熟妇视频在线观看| 国产思思久99久精品| 国产一区二区黄色网页| 日韩视频中文字幕精品偷拍|