基于近端策略優(yōu)化算法含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟(jì)調(diào)度

2024-06-01 10:24:02王桂蘭張海曉劉宏曾康為

計(jì)算機(jī)應(yīng)用研究 2024年5期

王桂蘭張海曉劉宏曾康為

摘要：為了實(shí)現(xiàn)園區(qū)綜合能源系統(tǒng)（PIES）的低碳化經(jīng)濟(jì)運(yùn)行和多能源互補(bǔ)，解決碳捕集裝置耗電與捕碳需求之間的矛盾，以及不確定性源荷實(shí)時(shí)響應(yīng)的問題，提出了基于近端策略優(yōu)化算法含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟(jì)調(diào)度方法。該方法通過在PIES中添加碳捕集裝置，解決了碳捕集裝置耗電和捕碳需求之間的矛盾，進(jìn)而實(shí)現(xiàn)了PIES的低碳化運(yùn)行；通過采用近端策略優(yōu)化算法對(duì)PIES進(jìn)行動(dòng)態(tài)調(diào)度，解決了源荷的不確定性，平衡了各種能源的供給需求，進(jìn)而降低了系統(tǒng)的運(yùn)行成本。實(shí)驗(yàn)結(jié)果表明：該方法實(shí)現(xiàn)了不確定性源荷的實(shí)時(shí)響應(yīng)，并相比于DDPG（deep deterministic policy gradient）和DQN（deep Q network）方法在低碳化經(jīng)濟(jì)運(yùn)行方面具有有效性及先進(jìn)性。

關(guān)鍵詞：園區(qū)綜合能源系統(tǒng)；碳捕集；不確定性；低碳經(jīng)濟(jì)調(diào)度；近端策略優(yōu)化算法

中圖分類號(hào)：TM769?? 文獻(xiàn)標(biāo)志碼：A??? 文章編號(hào)：1001-3695（2024）05-032-1508-07

doi： 10.19734/j.issn.1001-3695.2023.08.0446

Low carbon economic scheduling of integrated energy systems based on proximal policy optimization algorithm with carbon capture

Abstract：In order to achieve low-carbon economic operation and multi energy complementarity of the PIES in the park， solve the contradiction between power consumption and carbon capture demand of carbon capture devices， as well as the problem of real-time response to uncertain source loads， this paper proposed a low-carbon economic scheduling method for the comprehensive energy system with carbon capture based on proximal strategy optimization algorithm. This method solved the contradiction between power consumption and carbon capture demand of carbon capture devices by adding carbon capture devices to PIES， thereby achieving low-carbon operation of PIES. By adopting a proximal strategy optimization algorithm for dynamic scheduling of PIES， it solved the uncertainty of source and load， and balanced the supply and demand of various energy sources， thereby reducing the operating cost of the system. The experimental results show that this method realizes the real-time response of uncertain source loads， and is effective and progressiveness in low-carbon economic operation compared with DDPG and DQN methods.

Key words：park integrated energy system（PIES）; carbon capture; uncertainty; low carbon economic dispatch; proximal policy optimization

0 引言

近年來，為應(yīng)對(duì)由于碳排放量的持續(xù)增加帶來的環(huán)境問題，各國(guó)開發(fā)和利用可再生能源，并結(jié)合碳捕集技術(shù)，減少碳排放量和對(duì)傳統(tǒng)化石燃料的依賴［1］。園區(qū)綜合能源系統(tǒng)具有耦合電能、熱能和燃?xì)獾榷喾N能源的特點(diǎn)，并能實(shí)現(xiàn)多種能源之間的多源互補(bǔ)，成為了高效和清潔利用能源，是實(shí)現(xiàn)“雙碳”目標(biāo)的重要抓手［2～4］。但隨著PIES中各設(shè)備之間的耦合日益緊密，多種能源需求具有不確定性，PIES低碳經(jīng)濟(jì)調(diào)度優(yōu)化面臨巨大挑戰(zhàn)［5］，因此有效減少系統(tǒng)碳排放，提升系統(tǒng)的經(jīng)濟(jì)效益成為當(dāng)前熱門的研究課題。

目前國(guó)內(nèi)外學(xué)者對(duì)PIES經(jīng)濟(jì)優(yōu)化調(diào)度問題進(jìn)行了一定的研究。文獻(xiàn)［6］以包含電力和熱力的區(qū)域綜合能源系統(tǒng)為研究對(duì)象，采用改進(jìn)粒子群算法對(duì)系統(tǒng)進(jìn)行優(yōu)化調(diào)度，降低系統(tǒng)運(yùn)行成本。文獻(xiàn)［7］采用雙λ迭代算法對(duì)園區(qū)電熱綜合能源系統(tǒng)優(yōu)化問題進(jìn)行求解。文獻(xiàn)［8］構(gòu)建的包含源-荷-網(wǎng)-儲(chǔ)的綜合能源系統(tǒng)協(xié)同優(yōu)化模型，能夠有效降低系統(tǒng)運(yùn)行成本。雖然上述方法在一定程度上能夠解決PIES優(yōu)化調(diào)度問題，但均未考慮碳排放問題。

碳捕集技術(shù)的快速發(fā)展為PIES實(shí)現(xiàn)低碳運(yùn)行提供了解決方案［1］。文獻(xiàn)［9］構(gòu)建了包含碳捕集系統(tǒng)的虛擬電廠協(xié)調(diào)調(diào)度模型，用于減少系統(tǒng)中的碳排放。文獻(xiàn)［10］將碳捕集、利用與封存（carbon capture，utilization and storage，CCUS）裝置和電轉(zhuǎn)氣（power to gas，P2G）設(shè)備作為一個(gè)整體運(yùn)行，CCUS裝置捕獲的部分CO2作為P2G設(shè)備甲烷化反應(yīng)過程中的碳源，在降低系統(tǒng)碳排放的同時(shí)，提升了系統(tǒng)的經(jīng)濟(jì)效益。文獻(xiàn)［11］考慮到分流式碳捕集電廠在吸收和再生環(huán)節(jié)之間存在耦合作用，引入儲(chǔ)液罐裝置結(jié)合風(fēng)電聯(lián)合調(diào)度，使得風(fēng)電消納能力和低碳經(jīng)濟(jì)效益得到了有效提升。雖然上述文獻(xiàn)在低碳經(jīng)濟(jì)調(diào)度方面具有優(yōu)越性，但都局限于建立詳細(xì)的PIES物理模型和固定的調(diào)度計(jì)劃，對(duì)源荷不確定性難以作出動(dòng)態(tài)響應(yīng)。

強(qiáng)化學(xué)習(xí)在解決PIES動(dòng)態(tài)調(diào)度優(yōu)化問題具有的優(yōu)勢(shì)受到了學(xué)者越來越多的關(guān)注，它不依賴于源荷的精準(zhǔn)預(yù)測(cè)，也不需要建立復(fù)雜的物理模型，可以對(duì)源荷的不確定性實(shí)時(shí)作出動(dòng)態(tài)響應(yīng)。文獻(xiàn)［12］以年度最小化運(yùn)行成本為目標(biāo)，基于深度Ｑ網(wǎng)絡(luò)（DQN）算法對(duì)綜合能源系統(tǒng)進(jìn)行能量管理，用于找到能實(shí)現(xiàn)系統(tǒng)經(jīng)濟(jì)效益最大化的目標(biāo)。文獻(xiàn)［13］構(gòu)建了子系統(tǒng)耗能量、分時(shí)電價(jià)和各類設(shè)備出力的能量管理模型，并采用深度確定性策略梯度（DDPG）算法對(duì)系統(tǒng)進(jìn)行優(yōu)化調(diào)度，仿真結(jié)果證實(shí)了所提方法能夠有效提升系統(tǒng)經(jīng)濟(jì)效益。文獻(xiàn)［14］使用差分進(jìn)化的深度Ｑ網(wǎng)絡(luò)算法提升了PIES的整體經(jīng)濟(jì)效益和儲(chǔ)能設(shè)備的利用率。

綜上所述，本文在上述研究的基礎(chǔ)上，從低碳和經(jīng)濟(jì)效益兩個(gè)方面出發(fā)，提出了一種基于深度強(qiáng)化學(xué)習(xí)的含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟(jì)調(diào)度方法。在PIES系統(tǒng)中引入CCUS裝置實(shí)現(xiàn)減碳目標(biāo)，并利用近端策略優(yōu)化算法（proximal policy optimization，PPO）克服對(duì)源荷預(yù)測(cè)的依賴性。具體做法為：a）構(gòu)建包含碳捕集和電轉(zhuǎn)氣設(shè)備耦合系統(tǒng)（CCUS-P2G）的PIES優(yōu)化調(diào)度模型，CCUS將捕集的一部分CO2作為電轉(zhuǎn)氣設(shè)備甲烷化反應(yīng)的碳源，一部分進(jìn)行驅(qū)油封存，在減少系統(tǒng)碳排放的同時(shí)有效減少購碳成本；b）針對(duì)CCUS裝置中吸收塔和再生塔存在耦合作用的問題，在CCUS裝置之間添加一組儲(chǔ)液罐（富液罐和貧液罐各一個(gè)），有效解決了CCUS耗電量和捕碳量之間的矛盾；c）將PIES低碳調(diào)度優(yōu)化問題描述為馬爾可夫決策過程，采用具有連續(xù)決策能力的PPO算法進(jìn)行求解，解決了源荷不確定性問題。

1 園區(qū)綜合能源系統(tǒng)結(jié)構(gòu)與建模

1.1 園區(qū)綜合能源系統(tǒng)結(jié)構(gòu)

本文的園區(qū)綜合能源系統(tǒng)主要包含電能、熱能、氣能三種能源，管理外部能源和用能負(fù)荷之間的能源傳輸、轉(zhuǎn)換以及存儲(chǔ)。在PIES結(jié)構(gòu)中，由上級(jí)電網(wǎng)、風(fēng)電以及燃?xì)廨啓C(jī)提供電負(fù)荷，由燃?xì)廨啓C(jī)和沼氣鍋爐提供熱負(fù)荷，由天然氣站和P2G設(shè)備提供氣負(fù)荷，以及由CCUS-電轉(zhuǎn)氣設(shè)備（P2G）耦合的碳捕集系統(tǒng)捕獲PIES中排放的二氧化碳。PIES的結(jié)構(gòu)如圖1所示。

1.2 園區(qū)綜合能源系統(tǒng)設(shè)備建模

1.2.1 CCUS靈活運(yùn)行方式的數(shù)學(xué)模型

碳捕集技術(shù)可以劃分為富氧燃燒捕集、燃燒前捕集和燃燒后捕集［15，16］。在實(shí)際應(yīng)用中多采用燃燒后捕集方法，本文同樣采用的是燃燒后捕集技術(shù)。為了解決碳捕集過程中吸收塔吸收過程和再生塔再生環(huán)節(jié)在CO2處理量方面的耦合問題，在CCUS中的吸收塔和再生塔之間添加一組儲(chǔ)液罐（富液罐和貧液罐各一個(gè)），解除了CO2在吸收過程和再生環(huán)節(jié)的耦合，使得再生塔CO2中處理量不再需要和吸收塔中CO2吸收量相匹配。碳捕集裝置的靈活運(yùn)行方式如圖2所示，系統(tǒng)的碳排放量與CCUS的關(guān)系如式（1）所示。

其中：t為時(shí)刻；Pccust為碳捕集系統(tǒng)（CCUS）總能耗；Pnort為CCUS的固定耗能，CCUS的固定耗能與CCUS的運(yùn)行狀態(tài)無關(guān)，通常視為常數(shù)；Prt為CCUS的運(yùn)行耗能；Ect為煙氣中的CO2；σc為碳排放強(qiáng)度；Pct為火電機(jī)組總的輸出功率；υ（t）為煙氣分流比；λc為CCUS捕集單位CO2消耗的電功率；γ1和γ2分別為吸收效率和再生效率；Emt和Ent分別為吸收塔吸收的CO2量和再生塔處理的CO2量；Ericht為富液罐中CO2流出量，負(fù)值表示CO2從吸收塔流向富液罐，正值表示CO2從富液罐流向再生塔；Eccust為CCUS捕獲的CO2量；γc為CCUS的CO2捕集率；ECO2t為系統(tǒng)總碳排放量。

儲(chǔ)液罐的數(shù)學(xué)模型如式（2）所示。

其中：oricht和opoort分別為富液罐和貧液罐中溶液的流出量，同一時(shí)刻富液罐中溶液的流出量和貧液罐中溶液的流入量相同；δCO2為富液罐中CO2溶液密度；Iricht和Ipoort分別為富液罐和貧液罐中溶液的儲(chǔ)存量；Irichmax和Ipoormax分別為富液罐和貧液罐中最大溶液儲(chǔ)存量。

CCUS將捕集來的一部分CO2用于P2G設(shè)備生成甲烷過程中的原材料，另一部分進(jìn)行驅(qū)油封存。這樣不僅能夠促進(jìn)碳的循環(huán)利用，還能夠節(jié)省購碳和碳封存成本。P2G設(shè)備甲烷化反應(yīng)過程中CO2消耗量如式（3）所示。

其中：ψh-e為熱電轉(zhuǎn)換系數(shù)；EP2Gt為P2G設(shè)備消耗CO2量； ηP2G為P2G設(shè)備電氣轉(zhuǎn)換效率；μP2G-loss為P2G設(shè)備電能損耗率；ρCO2為CO2的密度；HCH4為天然氣低位熱值。

CCUS驅(qū)油封存的CO2量如式（4）所示。

Estot=Eccust－EP2Gt（4）

1.2.2 CCUS靈活運(yùn)行方式的數(shù)學(xué)模型

燃?xì)廨啓C(jī)（GT）承擔(dān)系統(tǒng)中穩(wěn)定的電熱出力，GT設(shè)備消耗天然氣與產(chǎn)生熱能和電能的關(guān)系如式（5）（6）所示。

PGTt=GGTtηGT-E（5）

QGTt=GGTt（1－ηGT-E－μGT-loss）（6）

其中：PGTt為GT設(shè)備的產(chǎn)電功率；HGTt為GT設(shè)備的產(chǎn)熱功率；GGTt為GT設(shè)備耗氣功率；ηGT-E為GT設(shè)備發(fā)電效率；μGT-loss為GT設(shè)備燃?xì)鈸p失率。

1.2.3 生物質(zhì)供能單元模型

本文使用的生物質(zhì)能為沼氣，通過沼氣的燃燒來為系統(tǒng)提供熱能供給。沼氣鍋爐是生物質(zhì)供能單元的主要供能設(shè)備，沼氣鍋爐通過燃燒沼氣產(chǎn)生熱能。當(dāng)燃?xì)廨啓C(jī)和儲(chǔ)熱罐不能滿足系統(tǒng)中熱負(fù)荷的需求時(shí)，使用沼氣鍋爐來維持系統(tǒng)中熱能的供需平衡。沼氣鍋爐的能量轉(zhuǎn)換如式（7）所示。

QGBt=GBiotηGBHBio（1-μBio-loss）（7）

其中：QGBt為沼氣鍋爐的產(chǎn)熱功率；GBiot為沼氣鍋爐消耗沼氣量；ηGB為沼氣鍋爐產(chǎn)熱效率；HBio為沼氣鍋爐單位沼氣消耗量的低熱值；μBio-loss為沼氣鍋爐沼氣損耗率。

1.2.4 儲(chǔ)能設(shè)備單元模型

PIES中的儲(chǔ)能設(shè)備包括蓄電池、儲(chǔ)熱罐、儲(chǔ)氣罐和儲(chǔ)沼氣罐，這四種設(shè)備分別負(fù)責(zé)電能、熱能、燃?xì)夂驼託獾拇鎯?chǔ)或釋放。儲(chǔ)能設(shè)備的數(shù)學(xué)模型如式（8）所示。

其中：X為能源類別；ES、HS、GS、BS分別為蓄電池、儲(chǔ)熱罐、儲(chǔ)氣罐、儲(chǔ)沼氣罐；SXt、SXt+1分別為t時(shí)刻和t+1時(shí)刻的儲(chǔ)能量；μX-loss為儲(chǔ)能設(shè)備X的自損耗系數(shù)；PX，cht、PX，dist分別為儲(chǔ)能設(shè)備X在t時(shí)刻的儲(chǔ)能功率、放能功率；ηX，ch、ηX，dis分別為儲(chǔ)能設(shè)備X的儲(chǔ)能效率、放能效率；δX，cht為0-1變量，該變量表示在時(shí)隙t時(shí)的儲(chǔ)能設(shè)備X的儲(chǔ)能狀態(tài)；Δt為單位時(shí)隙長(zhǎng)度。

1.3 園區(qū)綜合能源系統(tǒng)設(shè)備建模

1.3.1 CCUS靈活運(yùn)行方式的數(shù)學(xué)模型

園區(qū)綜合能源系統(tǒng)動(dòng)態(tài)調(diào)度的目標(biāo)是在滿足負(fù)荷需求的情況下，調(diào)整能源系統(tǒng)中各個(gè)單元的出力，使系統(tǒng)總經(jīng)濟(jì)運(yùn)行成本最小。系統(tǒng)運(yùn)行成本包括購能成本Cen、碳封存成本Ccs、系統(tǒng)設(shè)備運(yùn)行維護(hù)成本Cfix和碳交易成本Cc四部分，系統(tǒng)運(yùn)行成本如式（9）所示。

F=min（Cen+Ccs+Cfix+Cc）（9）

1）購能成本

PIES的外部購能成本主要包括對(duì)電熱、燃?xì)夂驼託獾馁徺I，外部購能成本如式（10）所示。

其中：cElet、cGast、cBiot分別為t時(shí)刻的電能、天然氣和沼氣的價(jià)格；PElet、GGast、GBiot分別為t時(shí)刻的購電量、天然氣量和沼氣量。

2）碳封存成本

其中：φc為驅(qū)油封存成本系數(shù)［17］。

3）系統(tǒng)設(shè)備運(yùn)行維護(hù)成本

其中：ci，fix為設(shè)備i運(yùn)行維護(hù)成本系數(shù)；Pit為第i臺(tái)設(shè)備出力；M為設(shè)備類別，包括風(fēng)電、燃?xì)廨啓C(jī)、CCUS、沼氣鍋爐、蓄電池、儲(chǔ)熱罐、儲(chǔ)氣罐和儲(chǔ)沼氣罐。

4）碳交易成本

其中：cc為碳交易成本系數(shù)；αi為設(shè)備i的碳配額；N為火電機(jī)組總類（燃?xì)廨啓C(jī)和沼氣鍋爐）。

1.3.2 約束條件

園區(qū)綜合能源系統(tǒng)優(yōu)化調(diào)度模型需要考慮電功率平衡約束、熱功率平衡約束、氣功率平衡約束、外部能源交互功率約束、CCUS約束和PIES中設(shè)備運(yùn)行約束。

1）電功率平衡約束

Ploadt+PP2Gt+PES，cht+Pccust=PElet+PGTt+PPVt+PES，dist（14）

其中：Ploadt為電負(fù)荷；PES，cht和PES，dist分別為蓄電池充電和放電功率；PPVt為光伏陣列輸出的電功率。

2）電功率平衡約束

Qloadt+PHS，cht=QGTt+QGBt+PHS，dist（15）

其中：Qloadt為熱負(fù)荷；PHS，cht和PHS，dist分別為儲(chǔ)熱罐儲(chǔ)熱和放熱功率。

3）氣功率平衡約束

Gloadt+GGTt+PGS，cht=GGast+GP2Gt+PGS，dist（16）

其中：Gloadt為氣負(fù)荷；PGS，cht和PGS，dist分別為儲(chǔ)氣罐儲(chǔ)氣和放氣功率。

4）能源交互功率約束

其中：PElet和GGast分別為t時(shí)刻下外部電網(wǎng)購電功率和天然氣站購氣功率；PElemax和GGasmax分別為系統(tǒng)t時(shí)刻下與外部電網(wǎng)和天然氣站交互功率的上限。

5）CCUS約束

Pccusmin≤Pccust≤Pccusmax（18）

其中：Pccusmin和Pccusmax分別為CCUS電功率的下限和上限。

6）PIES中設(shè)備約束

燃?xì)廨啓C(jī)、沼氣鍋爐和P2G設(shè)備出力約束如式（19）所示。

Pimin≤Pit≤Pimax

0≤|Pit－Pit－1|≤ΔPimax（19）

其中：i為設(shè)備類別，包含燃?xì)廨啓C(jī)、沼氣鍋爐和P2G設(shè)備；Pit和Pimax分別為設(shè)備i在t時(shí)刻的出力和輸入功率的上限；ΔPimax為設(shè)備i爬坡功率的上限。

7）儲(chǔ)能設(shè)備約束

儲(chǔ)能設(shè)備X（蓄電池、儲(chǔ)熱罐、儲(chǔ)氣罐、儲(chǔ)沼氣罐）的狀態(tài)約束、容量約束、儲(chǔ)能和放能功率約束分別為

其中：SXmin、SXmax分別為儲(chǔ)能設(shè)備X的容量下限、容量上限；PX，chmax和PX，dismax分別為儲(chǔ)能設(shè)備X的最大儲(chǔ)能功率或放能功率。

2 PIES動(dòng)態(tài)調(diào)度問題的深度強(qiáng)化學(xué)習(xí)模型

2.1 馬爾可夫決策過程

由于深度強(qiáng)化學(xué)習(xí)在求解包含不確定因素的決策調(diào)度問題方面具有優(yōu)勢(shì)，本文基于深度強(qiáng)化學(xué)習(xí)，將PIES動(dòng)態(tài)經(jīng)濟(jì)調(diào)度問題轉(zhuǎn)換為馬爾可夫決策過程，能夠準(zhǔn)確適應(yīng)PIES源荷的動(dòng)態(tài)變化，實(shí)現(xiàn)問題的快速求解。

馬爾可夫決策過程是強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)。馬爾可夫決策過程（MDP）包含元素（S，A，R，γ），其中S表示環(huán)境的狀態(tài)集合，A表示智能體的動(dòng)作集合，R表示回報(bào)函數(shù)，γ是折扣因子且γ∈（0，1］。狀態(tài)轉(zhuǎn)換過程是t時(shí)刻，智能體根據(jù)當(dāng)前的環(huán)境狀態(tài)st，選擇動(dòng)作at與環(huán)境交互，獲得獎(jiǎng)勵(lì)rt并進(jìn)入下一個(gè)狀態(tài)st+1。智能體在每個(gè)時(shí)間步與環(huán)境進(jìn)行交互時(shí)，都會(huì)得到一個(gè)獎(jiǎng)勵(lì)，直到結(jié)束狀態(tài)。使用回報(bào)Gt來表示智能體的長(zhǎng)期收益，如式（23）所示。

其中：T為決策序列的長(zhǎng)度。

用動(dòng)作-價(jià)值函數(shù)Q來評(píng)判在狀態(tài)s下做出動(dòng)作a的好壞，狀態(tài)的好壞用狀態(tài)-價(jià)值函數(shù)V來評(píng)判，并且可以使用Q價(jià)值函數(shù)的數(shù)值來計(jì)算V價(jià)值函數(shù)，定義分別如式（24）（25）所示。

其中：π（a|s）為當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a的概率，表示的是智能體的策略。

1）狀態(tài)空間描述

智能體觀測(cè)到的狀態(tài)st包括電負(fù)荷、熱負(fù)荷、氣負(fù)荷、光伏發(fā)電量、儲(chǔ)能設(shè)備的狀態(tài)以及時(shí)刻t，狀態(tài)空間如式（26）所示。

st={Ploadt，Qloadt，Gloadt，PPVt，SESt，SHSt，SGSt，t}（26）

其中：Ploadt、Qloadt和Gloadt分別為電負(fù)荷、熱負(fù)荷和氣負(fù)荷；

SESt、SHSt和SGSt分別為蓄電池、儲(chǔ)熱罐和儲(chǔ)氣罐的狀態(tài)。

2）改進(jìn)的動(dòng)作空間描述

at={PGTt，PP2Gt，QGBt，Pccust，PES，ch/dist，PHS，ch/dist，PGS，ch/dist}（27）

其中：PGTt為GT設(shè)備耗電功率；PP2Gt為P2G設(shè)備耗電功率；QGBt為GB設(shè)備的產(chǎn)熱功率；PES，ch/dist、PHS，ch/dist、PHS，ch/dist分別為蓄電池的儲(chǔ)/放電功率、儲(chǔ)熱罐的儲(chǔ)/放熱功率、儲(chǔ)氣罐的儲(chǔ)/放氣功率。

在上層動(dòng)作空間中增加隨機(jī)擾動(dòng)來提升對(duì)環(huán)境的感知能力，改進(jìn)后的上層PPO動(dòng)作空間如式（28）所示。

3）改進(jìn)的獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)用于指導(dǎo)智能體尋得最優(yōu)調(diào)度策略，其

以獲得獎(jiǎng)勵(lì)最大化為目標(biāo)進(jìn)行參數(shù)更新。PIES動(dòng)態(tài)調(diào)度的目標(biāo)是使系統(tǒng)的運(yùn)行成本最小化，將該目標(biāo)轉(zhuǎn)換為獎(jiǎng)勵(lì)函數(shù)最大化的一部分。另外，為了維持PIES內(nèi)源荷的供需平衡，在獎(jiǎng)勵(lì)函數(shù)懲罰項(xiàng)中加入系統(tǒng)內(nèi)源荷供需不平衡造成的功率誤差，同時(shí)為了加快強(qiáng)化學(xué)習(xí)算法收斂獲得最優(yōu)的控制效果，將智能體動(dòng)作越限懲罰成本［18］添加獎(jiǎng)勵(lì)函數(shù)懲罰項(xiàng)。智能體動(dòng)作越限懲罰成本如式（29）所示。

其中：ψt為t時(shí)刻下，智能體動(dòng)作越限懲罰成本；κum，i和κdm，i分別為智能體動(dòng)作爬坡上限和下限的懲罰系數(shù)；aum，imax和adm，imin分別為動(dòng)作變化率的上變化限值和下變化限值；κun，i和κdn，i分別為智能體動(dòng)作爬坡上限和下限的懲罰系數(shù)；aun，imax和adn，imin分別為動(dòng)作變化率的上變化限值和下變化限值；

智能體獎(jiǎng)勵(lì)函數(shù)如式（30）所示。

Rt=－λ（F+ψt+ζEPENBt+ζHQHNBt+ζGGGNBt）+r0（30）

其中：ζE、ζH和ζG分別為電能、熱能、燃?xì)夤┬璨黄胶饬砍杀鞠禂?shù)；PENBt、QHNBt和GGNBt分別為t時(shí)刻下電能、熱能和燃?xì)夤┬璨黄胶饬浚沪藶楠?jiǎng)勵(lì)函數(shù)的縮放系數(shù)；r0為常數(shù)，可以使累積回報(bào)由負(fù)轉(zhuǎn)正，提高模型的穩(wěn)定性和收斂速度。

2.2 馬爾可夫決策過程

與傳統(tǒng)的策略梯度優(yōu)化算法相比，PPO算法具有對(duì)更新步長(zhǎng)不敏感、更新時(shí)無須重新采樣的優(yōu)勢(shì)，適用于包含光伏和負(fù)荷等連續(xù)數(shù)據(jù)的PIES，可有效避免維數(shù)災(zāi)難。

PPO是由OpenAI 在2017年提出的一種基于 Actor-Critic（AC）框架的強(qiáng)化學(xué)習(xí)的基準(zhǔn)算法。AC（Actor-Critic）方法包含了基于價(jià)值和策略的學(xué)習(xí)方法。AC框架包含Actor和Critic兩個(gè)網(wǎng)絡(luò)。其中：Actor網(wǎng)絡(luò)又稱為策略網(wǎng)絡(luò)，主要用于生成策略函數(shù)；Critic網(wǎng)絡(luò)又稱為價(jià)值網(wǎng)絡(luò)，主要用于對(duì)Actor作出的動(dòng)作進(jìn)行評(píng)估，來使得Actor網(wǎng)絡(luò)改進(jìn)策略函數(shù)。PPO算法的訓(xùn)練流程如圖3所示。

1）Actor網(wǎng)絡(luò)訓(xùn)練

Actor網(wǎng)絡(luò)通過優(yōu)化損失函數(shù)JCLIP（θ）來更新網(wǎng)絡(luò)參數(shù)θ。JCLIP（θ）表示為

其中：A（st，at）為優(yōu)勢(shì)函數(shù)；rt（θ）為重要性采樣比；θ為Actor網(wǎng)絡(luò)參數(shù)；ε為裁剪因子，是用于衡量新策略和老策略偏差程度的超參數(shù)。由于新策略與舊策略更新距離過大會(huì)造成算法不穩(wěn)定，為了避免上述情況，將重要性采樣權(quán)重限制在［1－ε，1+ε］。

式（5）中的優(yōu)勢(shì)函數(shù)定義如式（32）所示。

A（st，at）=yt－Vω（st），

yt=Rt+γVω（st+1）（32）

其中：Vω（st）為t時(shí)刻Critic網(wǎng)絡(luò)的輸出值；Rt為 t時(shí)刻的獎(jiǎng)勵(lì)；ω為Critic的網(wǎng)絡(luò)參數(shù)；yt為時(shí)刻t+1時(shí)對(duì)Vω（st）的估計(jì)值。

重要性采樣比為新策略分布函數(shù)與舊策略分布函數(shù)的比值，如式（33）所示。

使用梯度上升的方法來更新Actor網(wǎng)絡(luò)參數(shù)θ的大小，更新公式如式（34）所示。

θ←θ+σAθJ（θ）（34）

其中：σA為Actor網(wǎng)絡(luò)的學(xué)習(xí)率。

2）Critic網(wǎng)絡(luò)訓(xùn)練

Critic網(wǎng)絡(luò)通過優(yōu)化損失函數(shù)L（ω）來更新Critic的網(wǎng)絡(luò)參數(shù)ω，L（ω）的定義如式（35）所示。

L（ω）=E［yt－Vω（st）］2（35）

使用梯度下降的方法來更新Critic網(wǎng)絡(luò)參數(shù)ω，更新公式如式（36）所示。

ω←ω－σCωL（ω）（36）

其中：σC為Critic網(wǎng)絡(luò)的學(xué)習(xí)率。

2.3 基于PPO算法的動(dòng)態(tài)調(diào)度模型

基于PPO算法求解PIES動(dòng)態(tài)調(diào)度問題的模型如圖4所示。

Critic和Actor網(wǎng)絡(luò)的初始輸入狀態(tài)都是從經(jīng)驗(yàn)池中隨機(jī)抽樣獲取的狀態(tài)st，模型每輪訓(xùn)練的初始狀態(tài)都從經(jīng)驗(yàn)池中隨機(jī)抽樣的優(yōu)勢(shì)是：可以降低訓(xùn)練完成的模型在獲取PIES動(dòng)態(tài)調(diào)度方案方面的偶然性。同時(shí)，Critic網(wǎng)絡(luò)輸出的為Vt值，Actor網(wǎng)絡(luò)的輸出為動(dòng)作at，智能體按照時(shí)段與PIES環(huán)境進(jìn)行交互，并根據(jù)當(dāng)前環(huán)境狀態(tài)st，作出動(dòng)作at，PIES環(huán)境返回給智能體獎(jiǎng)勵(lì)值Rt，經(jīng)驗(yàn)池用來保存每一個(gè)時(shí)段的狀態(tài)st、動(dòng)作at和獎(jiǎng)勵(lì)Rt。智能體中網(wǎng)絡(luò)權(quán)重更新使用的樣本來源于經(jīng)驗(yàn)池中的隨機(jī)抽取。利用訓(xùn)練數(shù)據(jù)對(duì)基于PPO算法的DRL模型完成離線訓(xùn)練后，將該模型保存并應(yīng)用于PIES的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度。

3 算例仿真及結(jié)果分析

3.1 基于PPO算法的動(dòng)態(tài)調(diào)度模型

本文PIES中的電負(fù)荷、熱負(fù)荷、氣負(fù)荷和光伏發(fā)電數(shù)據(jù)來源于國(guó)內(nèi)某小型園區(qū)，系統(tǒng)主要設(shè)備仿真參數(shù)如表1所示，分時(shí)電價(jià)如表2所示，天然氣單價(jià)為3.6元/m3，沼氣價(jià)格為1元/m3。本文實(shí)驗(yàn)在TensorFlow平臺(tái)實(shí)現(xiàn)，Actor和Critic網(wǎng)絡(luò)的隱藏層層數(shù)均為3，每層含有200個(gè)神經(jīng)元，激活函數(shù)均為ReLU，使用Adam優(yōu)化器更新網(wǎng)絡(luò)權(quán)重。

3.2 算例仿真分析

為了驗(yàn)證本文所提含有CCUS-P2G耦合系統(tǒng)的PIES和PPO方法均能夠有效提升PIES經(jīng)濟(jì)效益，降低碳排放。設(shè)置了五種不同的方案，方案5為本文方法，方案中的傳統(tǒng)場(chǎng)景分析法是采用模型預(yù)測(cè)控制方法進(jìn)行求解，各方案分別為

方案1 不考慮CCUS，采用傳統(tǒng)場(chǎng)景分析法求解。

方案2 考慮CCUS、P2G非耦合系統(tǒng)，不考慮儲(chǔ)液罐，采用傳統(tǒng)場(chǎng)景分析法求解。

方案3 考慮CCUS、P2G耦合系統(tǒng)，不考慮儲(chǔ)液罐，采用傳統(tǒng)場(chǎng)景分析法求解。

方案4 考慮CCUS-P2G耦合系統(tǒng)，不考慮儲(chǔ)液罐，采用PPO算法求解。

方案5 考慮CCUS-P2G耦合系統(tǒng)，考慮儲(chǔ)液罐，采用PPO算法求解。

3.2.1 各方案調(diào)度結(jié)果分析

由表3和圖5可知，在提升系統(tǒng)經(jīng)濟(jì)效益和減少碳排放方面，考慮CCUS-P2G耦合系統(tǒng)、儲(chǔ)液罐和PPO算法對(duì)PIES進(jìn)行優(yōu)化調(diào)度的方案5均取得了最優(yōu)的結(jié)果，相比于方案1，總成本和碳交易成本分別下降15.9%和68.8%，凈碳排放量下降57.6%，充分驗(yàn)證了本文方法在低碳性和經(jīng)濟(jì)性方面均具有顯著優(yōu)越性。

a）方案2相比方案1。引入CCUS系統(tǒng)，該系統(tǒng)捕獲燃?xì)廨啓C(jī)和沼氣鍋爐設(shè)備產(chǎn)生的CO2，有效減少了系統(tǒng)的碳排放。

b）方案3相比方案2。采用CCUS-P2G耦合系統(tǒng)，將捕獲的CO2一部分作為P2G設(shè)備甲烷化反應(yīng)過程中的碳源，另一部分進(jìn)行驅(qū)油封存，減少系統(tǒng)碳排放量的同時(shí)也降低了P2G設(shè)備購碳成本，進(jìn)而降低了系統(tǒng)的總運(yùn)行成本。

c）方案4相比方案3。采用了PPO算法進(jìn)行PIES的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度，該方法相比于傳統(tǒng)調(diào)度方法，不再依賴于源荷的精確預(yù)測(cè)和固定的物理模型，能夠動(dòng)態(tài)響應(yīng)PIES中源荷的隨機(jī)波動(dòng)，根據(jù)分時(shí)電價(jià)合理調(diào)整PIES中各個(gè)設(shè)備的出力，維持PIES中能源的供需平衡，但由于CCUS能耗和捕碳需求之間存在矛盾，CCUS能耗提升有限，導(dǎo)致碳捕集量降低。

d）方案5相比方案4。通過引入了儲(chǔ)液罐的方式解決了方案4中存在的問題，儲(chǔ)液罐的引入解除了再生塔和吸收塔CO2處理量之間的耦合關(guān)系，使得CCUS耗電和捕碳之間的矛盾得以解決［19］。當(dāng)高電價(jià)時(shí)，CCUS幾乎不耗電，可以將吸收塔吸收的CO2放入富液罐中暫存；在低電價(jià)時(shí)，CCUS耗電量提升，將富液罐中的CO2流入貧液罐，增大CCUS耗電量，使得碳再生量得以提升，進(jìn)而降低系統(tǒng)碳排放量，提升系統(tǒng)經(jīng)濟(jì)效益。

3.2.2 方案4、5中PPO算法的收斂性能分析

從圖6可以看出，方案4和5均經(jīng)過約5 000個(gè)episode后收斂，充分驗(yàn)證了方案5在方案4的基礎(chǔ)上引入儲(chǔ)液罐不僅不影響算法的收斂性能，還能有效提升獎(jiǎng)勵(lì)值。

由于最初智能體對(duì)環(huán)境不熟悉，處于學(xué)習(xí)過程，初始階段的獎(jiǎng)勵(lì)值較低，隨著智能體不斷地與環(huán)境進(jìn)行交互，不斷試錯(cuò)，不斷積累經(jīng)驗(yàn)，所以智能體獲得的獎(jiǎng)勵(lì)值逐漸增加并最終收斂，這說明智能體能夠合理調(diào)整PIES中能源的轉(zhuǎn)換、購買和存儲(chǔ)行為，進(jìn)而達(dá)到提升系統(tǒng)經(jīng)濟(jì)效益的目的。由于系統(tǒng)中源荷具有不確定性，所以獎(jiǎng)勵(lì)值會(huì)出現(xiàn)波動(dòng)性。

3.2.3 方案5動(dòng)態(tài)調(diào)度性能分析

本文隨機(jī)選取PIES中連續(xù)30天的能源數(shù)據(jù)作為測(cè)試集，設(shè)置時(shí)間尺度為15 min。為進(jìn)一步分析方案5中算法的訓(xùn)練結(jié)果，驗(yàn)證CCUS系統(tǒng)中儲(chǔ)液罐的有效性，隨機(jī)選取一天的數(shù)據(jù)進(jìn)行分析，動(dòng)態(tài)調(diào)度優(yōu)化結(jié)果如圖7、8所示。圖7中的上、下兩部分分別為PIES能源供給功率和需求功率總和的柱狀堆積圖。

1）PIES電能、熱能和燃?xì)夤┬杵胶饨Y(jié)果分析

如圖7（a）所示，在電價(jià)谷時(shí)段，電力系統(tǒng)中GT設(shè)備幾乎不運(yùn)行，主要通過外部購電來滿足電負(fù)荷的需求，同時(shí)，P2G耗電量增加，蓄電池進(jìn)行充電操作；如圖7（b）所示，熱力系統(tǒng)主要通過沼氣鍋爐產(chǎn)熱來滿足熱功率的供需平衡；如圖7（c）所示，燃?xì)庀到y(tǒng)主要通過P2G設(shè)備來支撐氣負(fù)荷的需求，滿足燃?xì)庀到y(tǒng)的供需平衡。

綜合來看，電價(jià)平時(shí)段和峰時(shí)段，電力系統(tǒng)中GT設(shè)備運(yùn)行功率上升，主要由GT設(shè)備和光伏來滿足電負(fù)荷的需求，當(dāng)GT設(shè)備和光伏供能不足時(shí)，通過外部購電來彌補(bǔ)電功率的供需缺口；熱力系統(tǒng)主要由GT設(shè)備和沼氣鍋爐滿足熱功率的供需平衡；燃?xì)庀到y(tǒng)主要通過外部購氣滿足GT設(shè)備和氣負(fù)荷的需求，來維持燃?xì)庀到y(tǒng)的供需平衡。

2）碳捕集系統(tǒng)碳再生和能耗結(jié)果分析

由圖7和8可知：0：00～8：00為電價(jià)谷時(shí)段，在該時(shí)段將前一天富液罐中暫存的CO2流入貧液罐，增加CCUS耗電量，加大CCUS的碳再生力度，有效減少了PIES碳排放；8：00～23：00為電價(jià)平時(shí)段和峰時(shí)段，由于外部購電成本較高，將吸收塔中吸收的CO2放到富液罐中進(jìn)行暫存，以此來降低CCUS的耗電量，該時(shí)段儲(chǔ)存的碳在谷時(shí)段（23：00～次日8：00）進(jìn)行碳再生。

3.2.4 方案5能源損耗結(jié)果分析

為驗(yàn)證本文方法對(duì)能源損耗的自適應(yīng)能力，將PIES系統(tǒng)中的電負(fù)荷Ploadt、熱負(fù)荷Qloadt和氣負(fù)荷Gloadt分別增加增量Δh1、Δh2和Δh3后，再次對(duì)PIES進(jìn)行動(dòng)態(tài)調(diào)度求解分析，判斷其是否滿足PIES中電負(fù)荷、熱負(fù)荷和氣負(fù)荷的能源需求。

a）燃?xì)廨啓C(jī)和沼氣鍋爐考慮熱能損耗后的功率變化如圖9所示。

如圖9可知，在電價(jià)的谷時(shí)段，沼氣鍋爐輸出的熱功率變化較為明顯，在電價(jià)的平時(shí)段和峰時(shí)段，燃?xì)廨啓C(jī)輸出的熱功率變化比較明顯，表明本文方法中的燃?xì)廨啓C(jī)和沼氣鍋爐均能自適應(yīng)動(dòng)態(tài)調(diào)度決策，維持PIES中熱能的供需平衡。

b）燃?xì)廨啓C(jī)考慮電能損耗后的功率變化如圖10所示。

如圖10所示，在電價(jià)的谷時(shí)段，燃?xì)廨啓C(jī)輸出電功率變化不明顯，在電價(jià)的平時(shí)段和峰時(shí)段，燃?xì)廨啓C(jī)輸出電功率變化較明顯，燃?xì)廨啓C(jī)通過自適應(yīng)動(dòng)態(tài)調(diào)度決策，滿足PIES中電負(fù)荷的供需平衡。

c）P2G設(shè)備考慮燃?xì)鈸p耗后的功率變化如圖11所示。

如圖11所示，在電價(jià)的谷時(shí)段，P2G設(shè)備輸出氣功率變化明顯，在電價(jià)的平時(shí)段和峰時(shí)段，P2G設(shè)備輸出氣功率變化不明顯，P2G設(shè)備通過自適應(yīng)動(dòng)態(tài)調(diào)度決策，滿足PIES中氣負(fù)荷的供需平衡。

3.3 不同調(diào)度方法對(duì)比結(jié)果分析

為了進(jìn)一步驗(yàn)證本文方法的有效性，將本文方法與近幾年較流行的基于深度確定性策略梯度（DDPG）算法［9］和基于深度Q網(wǎng)絡(luò)（DQN）算法的動(dòng)態(tài)調(diào)度方法［1］進(jìn)行了比較。從測(cè)試數(shù)據(jù)集中隨機(jī)選取連續(xù)10日的數(shù)據(jù)進(jìn)行測(cè)試，其中調(diào)度總時(shí)段為24 h，時(shí)間尺度為15 min，三種深度強(qiáng)化學(xué)習(xí)方法在學(xué)習(xí)過程中的獎(jiǎng)勵(lì)曲線如圖12所示，調(diào)度算法結(jié)果如表4所示。

從圖12可知，PPO算法相較于DQN和DDPG算法獎(jiǎng)勵(lì)值最高，園區(qū)綜合能源系統(tǒng)優(yōu)化效果最佳。

從表4可以看出，PPO算法相比于DQN和DDPG算法總成本低2.3%和3.8%，碳交易成本低3.3%和6.1%，凈碳排放量低2.1%和3.7%。由此可見，基于PPO算法的動(dòng)態(tài)調(diào)度方法相比于DDPG和DQN方法擁有最低的運(yùn)行成本和碳排放量。

4 結(jié)束語

本文提出了一種考慮碳捕集的園區(qū)綜合能源系統(tǒng)低碳經(jīng)濟(jì)調(diào)度方法，構(gòu)建了包含CCUS-P2G耦合系統(tǒng)的PIES低碳經(jīng)濟(jì)調(diào)度模型，并在CCUS系統(tǒng)中添加了一組儲(chǔ)液罐，采用PPO方法對(duì)PIES進(jìn)行優(yōu)化調(diào)度。仿真結(jié)果證明，本文方法能夠有效降低系統(tǒng)碳排放，提升系統(tǒng)的經(jīng)濟(jì)效益，具體結(jié)論如下：

a）在PIES結(jié)構(gòu)中，采用CCUS-P2G耦合系統(tǒng)的運(yùn)行模式，在減少系統(tǒng)碳排放的同時(shí)，能夠?yàn)镻2G設(shè)備甲烷化反應(yīng)過程提供碳源，進(jìn)一步降低了系統(tǒng)的運(yùn)行成本；CCUS中儲(chǔ)液罐的引入，有效解決了CCUS能耗與捕碳需求之間的矛盾，降低了系統(tǒng)碳排放水平，提升了系統(tǒng)的經(jīng)濟(jì)效益。

b）本文采用PPO算法對(duì)PIES進(jìn)行動(dòng)態(tài)調(diào)度優(yōu)化，求解過程不需要建立復(fù)雜的物理模型，而是將該問題的求解轉(zhuǎn)換為馬爾可夫決策過程，用連續(xù)狀態(tài)空間和動(dòng)作空間來求解，不僅避免了離散化處理帶來的維數(shù)災(zāi)難問題，還能夠有效應(yīng)對(duì)源荷的不確定性，穩(wěn)定各設(shè)備出力，提升系統(tǒng)的可靠性。

c）仿真實(shí)驗(yàn)證明，在考慮能源損耗的基礎(chǔ)上，本文方法能夠進(jìn)行跟蹤學(xué)習(xí)，PIES中各設(shè)備能自適應(yīng)調(diào)度決策，滿足系統(tǒng)中能源需求，維持PIES中電能、熱能和燃?xì)獾墓┬杵胶?。同時(shí)，本文方法和DDPG、DQN算法相比，擁有最低的運(yùn)行成本和碳排放量。

本文研究重點(diǎn)為在滿足園區(qū)綜合能源系統(tǒng)能量供需平衡的前提下，驗(yàn)證本文方法在低碳經(jīng)濟(jì)調(diào)度方面的有效性，僅考慮了園區(qū)綜合能源系統(tǒng)獨(dú)立運(yùn)行的情況。而在實(shí)際的園區(qū)綜合能源系統(tǒng)運(yùn)行時(shí)可能會(huì)與電網(wǎng)產(chǎn)生能量交互，影響系統(tǒng)內(nèi)部設(shè)備出力情況，未來將重點(diǎn)研究園區(qū)綜合能源系統(tǒng)并網(wǎng)互聯(lián)的運(yùn)行優(yōu)化問題，并對(duì)單獨(dú)運(yùn)行和并網(wǎng)運(yùn)行能源系統(tǒng)的經(jīng)濟(jì)效益及碳排放情況展開進(jìn)一步的分析。

參考文獻(xiàn)：

［1］張沈習(xí)，王丹陽，程浩忠，等. 雙碳目標(biāo)下低碳綜合能源系統(tǒng)規(guī)劃關(guān)鍵技術(shù)及挑戰(zhàn) ［J］. 電力系統(tǒng)自動(dòng)化，2022，46（8）： 189-207. （Zhang Shenxi，Wang Danyang，Cheng Haozhong，et al. Key technolo-gies and challenges of low-carbon integrated energy system planning under the dual-carbon target ［J］. Automation of Electric Power Systems，2022，46（8）： 189-207.）

［2］Ma Yiming，Wang Haixin，Hong Feng，et al. Modeling and optimization of combined heat and power with power-to-gas and carbon capture system in integrated energy system ［J］. Energy，2021（5）： 121392.

［3］Ding Xiaoyi，Sun Wei，Gareth P H，et al. Multi-objective optimization for an integrated renewable，power-to-gas and solid oxide fuel cell/gas turbine hybrid system in microgrid ［J］. Energy，2020（213）： 118804.

［4］Lyu Jiawei，Zhang Shenxi，Cheng Haozhong，et al. Review on district-level integrated energy system planning considering interconnection and interaction ［J］. Proceedings of the CSEE，2021，41（12）： 4001-4021.

［5］Yu Xiaodan，Xu Xiandong，Chen Shuoyi，et al. A brief review to integrated energy system and energy internet ［J］. Trans of China Electrotechnical Society，2016，31（1）： 1-13.

［6］王丹，智云強(qiáng)，賈宏杰，等. 基于多能源站協(xié)調(diào)的區(qū)域電力-熱力系統(tǒng)日前經(jīng)濟(jì)調(diào)度［J］. 電力系統(tǒng)自動(dòng)化，2018，42（13）： 59-67. （Wang Dan，Zhi Yunqiang，Jia Hongjie，et al. Day-ahead economic dispatch strategy of regional electricity-heating integrated energy system based on multiple energy stations ［J］. Automation of Electric Power Systems，2018，42（13）： 59-67.）

［7］Ali E，Yang Qiang. Scenario-based investment planning of isolated multi-energy microgrids considering electricity，heating and cooling demand ［J］. Applied Energy，2019，235（1）： 1277-1288.

［8］帥挽瀾，朱自偉，李雪萌，等. 考慮風(fēng)電消納的綜合能源系統(tǒng)“源-網(wǎng)-荷-儲(chǔ)”協(xié)同優(yōu)化運(yùn)行［J］. 電力系統(tǒng)保護(hù)與控制，2021，49（19）： 18-26. （Shuai Wanlan，Zhu Ziwei，Li Xunmeng，et al. “Source network load storage” collaborative optimization operation of a comprehensive energy system considering wind power consumption ［J］. Power System Protection and Control，2021，49（19）： 18-26.）

［9］周任軍，肖鈞文，唐夏菲，等. 電轉(zhuǎn)氣消納新能源與碳捕集電廠碳利用的協(xié)調(diào)優(yōu)化［J］. 電力自動(dòng)化設(shè)備，2018，38（7）： 61-67. （Zhou Renjun，Xiao Junwen，Tang Xiafei，et al. Coordinated optimization of carbon utilization between power-to-gas renewable energy accommodation and carbon capture power plant ［J］. Electric Power Automation Equipment，2018，38（7）： 61-67.）

［10］周任軍，孫洪，唐夏菲，等. 雙碳量約束下風(fēng)電-碳捕集虛擬電廠低碳經(jīng)濟(jì)調(diào)度［J］. 中國(guó)電機(jī)工程學(xué)報(bào)，2018，38（6）： 1675-1683. （Zhou Renjun，Sun Hong，Tang Xiafei，et al. Low-carbon economic dispatch based on virtual power plant made up of carbon capture unit and wind power under double carbon constraint ［J］. Proceedings of the CSEE，2018，38（6）： 1675-1683.）

［11］Sepehr S，Ahmadreza S. A novel energy management method based on deep Q network algorithm for low operating cost of an integrated hybrid system ［J］. Energy Reports，2021，7： 2647-2663.

［12］王金鋒，王琪，任正某，等. 基于聯(lián)邦強(qiáng)化學(xué)習(xí)的電熱綜合能源系統(tǒng)能量管理策略［J/OL］. 上海交通大學(xué)學(xué)報(bào). （2023-03-15）［2023-08-27］. https：//doi. org/10. 16183/j. cnki. jsjtu. 2022. 418. （Wang Jinfeng，Wang Qi，Ren Zhengmou，et al. Energy management strategy for electric heating integrated energy systems based on federated reinforcement learning ［J/OL］. Journal of Shanghai Jiao Tong University. （2023-03-15）［2023-08-27］. https：//doi. org/10. 16183/j. cnki. jsjtu. 2022. 418.）

［13］Xu Zhengwei，Han Guangjie，Liu Li，et al. Multi-energy scheduling of an industrial integrated energy system by reinforcement learning-based differential evolution ［J］. IEEE Trans on Green Communications and Networking，2021，5（3）： 1077-1090.

［14］程耀華，杜爾順，田旭，等. 電力系統(tǒng)中的碳捕集電廠：研究綜述及發(fā)展新動(dòng)向［J］. 全球能源互聯(lián)網(wǎng)，2020，3（4）： 339-350. （Cheng Yaohua，Du Ershun，Tian Xu，et al. Carbon capture power plants in power systems： research review and new development trends ［J］. Global Energy Internet，2020，3（4）： 339-350.）

［15］康重慶，陳啟鑫，夏清. 應(yīng)用于電力系統(tǒng)的碳捕集技術(shù)及其帶來的變革［J］. 電力系統(tǒng)自動(dòng)化，2010，34（1）： 1-7. （Kang Chongqing，Chen Qixin，Xia Qing. Carbon capture technology applied to power systems and its transformation ［J］. Automation of Power Systems，2010，34（1）： 1-7.）

［16］田賀永，王萬福，王任芳，等. 二氧化碳捕集技術(shù)研究［J］. 能源環(huán)境保護(hù)，2012，26（6）： 39-41. （Tian Heyong，Wang Wanfu，Wang Renfang，et al. Research on carbon dioxide capture technology ［J］. Energy and Environmental Protection，2012，26（6）： 39-41.）

［17］Li Fangyuan，Qin Jiahu，Kang Yu. Closed-loop hierarchical operation for optimal unit commitment and dispatch in microgrids： a hybrid system approach ［J］. IEEE Trans on Power Systems，2020，35（1）： 516-526.

［18］喬驥，王新迎，張擎，等. 基于柔性行動(dòng)器-評(píng)判器深度強(qiáng)化學(xué)習(xí)的電-氣綜合能源系統(tǒng)優(yōu)化調(diào)度［J］. 中國(guó)電機(jī)工程學(xué)報(bào)，2021，41（3）： 819-833. （Qiao Ji，Wang Xinying，Zhang Qing，et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning ［J］. Proceedings of the CSEE，2021，41（3）： 819-833.）

［19］彭元，婁素華，吳耀武，等. 考慮儲(chǔ)液式碳捕集電廠的含風(fēng)電系統(tǒng)低碳經(jīng)濟(jì)調(diào)度［J］. 電工技術(shù)學(xué)報(bào)，2021，36（21）： 4508-4516. （Peng Yuan，Lou Suhua，Wu Yaowu，et al. Low-carbon economic dispatch of power system with wind power considering solvent-storaged carbon capture power plant ［J］. Trans of China Electrotechnical Society，2021，36（21）： 4508-4516.）

計(jì)算機(jī)應(yīng)用研究2024年5期

計(jì)算機(jī)應(yīng)用研究的其它文章: 異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法; 基于高頻車站及時(shí)間窗的立體軌道交通系統(tǒng)智能調(diào)度算法; 基于Spark Streaming的海量GPS數(shù)據(jù)實(shí)時(shí)地圖匹配算法; 面向車聯(lián)網(wǎng)的聯(lián)邦學(xué)習(xí)模型定制框架及算法改進(jìn); 基于區(qū)塊鏈和親友節(jié)點(diǎn)的電子健康記錄安全共享方案; 融合背景上下文特征的視覺情感識(shí)別與預(yù)測(cè)方法

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于近端策略優(yōu)化算法含碳捕集的綜合能源系統(tǒng)低碳經(jīng)濟(jì)調(diào)度