亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)能量管理算法

2022-12-23 03:14:40張宏濤吳怡之鄧開連

物聯(lián)網(wǎng)技術(shù) 2022年12期

張宏濤，吳怡之，鄧開連，張磊

（東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院，上海 201620）

0 引言

微電網(wǎng)是由可再生能源、儲(chǔ)能系統(tǒng)以及可在孤島或并網(wǎng)模式下運(yùn)行的負(fù)載組成的獨(dú)立電網(wǎng)集群，其中，可再生能源發(fā)電和儲(chǔ)能系統(tǒng)作為推動(dòng)能源行業(yè)可持續(xù)發(fā)展、滿足快速增長能源需求的關(guān)鍵解決方案，是未來電力基礎(chǔ)設(shè)施建設(shè)中的關(guān)鍵技術(shù)。然而，可再生能源發(fā)電具有間歇性和波動(dòng)性，對(duì)微電網(wǎng)運(yùn)營的可靠性、經(jīng)濟(jì)性帶來了重大挑戰(zhàn)[1-3]。服務(wù)供應(yīng)商（Service Provider, SP）通過調(diào)度儲(chǔ)能系統(tǒng)，能夠利用能源價(jià)格波動(dòng)，在需求低迷時(shí)期購買相對(duì)便宜的能源，并在需求高漲時(shí)高價(jià)出售來產(chǎn)生利潤[4-6]。隨著更多本地可再生能源發(fā)電機(jī)投入使用，供應(yīng)商能夠以由公用事業(yè)公司控制的動(dòng)態(tài)價(jià)格將能源賣回給公用事業(yè)公司，利用分布式可再生能源發(fā)電提高電網(wǎng)運(yùn)營的穩(wěn)定性和可靠性。

近年來，不少研究者優(yōu)化了微電網(wǎng)能量管理中的運(yùn)營成本。Zhong等[7]提出一種基于動(dòng)態(tài)規(guī)劃（Dynamic Programming, DP）的分布式優(yōu)化算法，能夠在無需與外界進(jìn)行信息交換的條件下，對(duì)儲(chǔ)能共享系統(tǒng)實(shí)施在線能量管理與運(yùn)營成本優(yōu)化。Hafiz等[8]提出一種基于預(yù)測(cè)文件的DP算法，可以減少微電網(wǎng)運(yùn)營成本，對(duì)各分布式單元進(jìn)行實(shí)時(shí)控制。Li等[9]提出一種基于李雅普諾夫優(yōu)化（Lyapunov Optimization, LO）的負(fù)載調(diào)度和儲(chǔ)能控制算法，提升電網(wǎng)高頻能量調(diào)度下的儲(chǔ)能利用率。Zhang等[10]提出一種基于在線競(jìng)爭(zhēng)的能量管理算法，優(yōu)化微電網(wǎng)場(chǎng)景下的運(yùn)營成本與服務(wù)質(zhì)量（Quality of Service, QoS）。上述工作只考慮了電網(wǎng)層面的運(yùn)營成本，提出的數(shù)學(xué)模型與相關(guān)算法難以應(yīng)用于實(shí)際微電網(wǎng)場(chǎng)景下的長期能量調(diào)度。

本文的主要貢獻(xiàn)如下：

（1）對(duì)微電網(wǎng)能源管理進(jìn)行理論建模，將長期優(yōu)化問題轉(zhuǎn)化為馬爾可夫決策過程，通過調(diào)度儲(chǔ)能裝置優(yōu)化能量管理系統(tǒng)（Energy Management System, EMS）的運(yùn)營利潤。

（2）引入強(qiáng)化學(xué)習(xí)算法，建立狀態(tài)空間，充放電動(dòng)作和獎(jiǎng)勵(lì)函數(shù)，通過ε-貪婪策略探索當(dāng)前環(huán)境得出最優(yōu)能量調(diào)度策略。

（3）通過實(shí)驗(yàn)仿真，對(duì)比所提算法在運(yùn)營利潤上的性能增益。

1 微電網(wǎng)能量管理優(yōu)化調(diào)度模型

實(shí)現(xiàn)微電網(wǎng)的經(jīng)濟(jì)調(diào)度和穩(wěn)定運(yùn)行是微電網(wǎng)能量管理的主要目標(biāo)。本文所述微電網(wǎng)能量管理系統(tǒng)采用并網(wǎng)運(yùn)行方式為本地負(fù)載提供能量，微電網(wǎng)EMS內(nèi)包含可再生能源發(fā)電單元、儲(chǔ)能系統(tǒng)、電動(dòng)汽車負(fù)荷與建筑負(fù)荷。微電網(wǎng)EMS可與常規(guī)電網(wǎng)相連進(jìn)行雙向能量交換，如圖1所示。其中，可再生能源發(fā)電單元作為供給側(cè)，建筑負(fù)荷與電動(dòng)汽車負(fù)荷構(gòu)成需求側(cè)。在考慮可再生能源發(fā)電、實(shí)時(shí)電價(jià)、實(shí)時(shí)負(fù)荷的不確定性情況下，綜合考量儲(chǔ)能系統(tǒng)充放電與從常規(guī)電網(wǎng)購電的經(jīng)濟(jì)性，建立了并網(wǎng)運(yùn)行模式下微電網(wǎng)EMS優(yōu)化調(diào)度模型。

圖1 微電網(wǎng)EMS優(yōu)化調(diào)度模型

1.1 微電網(wǎng)EMS運(yùn)行約束

微電網(wǎng)EMS優(yōu)化調(diào)度的目標(biāo)是在滿足各個(gè)分布式單元運(yùn)行約束、負(fù)荷需求和供需平衡的限制下，實(shí)現(xiàn)系統(tǒng)運(yùn)營利潤最高。根據(jù)微電網(wǎng)EMS運(yùn)行狀況可知，約束如下：

（1）可再生能源發(fā)電約束

微電網(wǎng)中可再生能源發(fā)電單元受技術(shù)、氣候條件限制，需滿足自身發(fā)電出力約束；同時(shí)，在任意時(shí)間段內(nèi)滿足優(yōu)先供給本地負(fù)載。發(fā)電出力約束和供給約束分別表示為：

式中，N(t)為t時(shí)段可再生能源發(fā)電單元的輸出能量；Nmin和Nmax分別為t時(shí)段可再生能源發(fā)電單元的最小、最大輸出能量；min{}運(yùn)算表示兩者取小；G(t)為t時(shí)段本地負(fù)載總能量需求；Ns(t)為t時(shí)段供給本地負(fù)載的可再生能源發(fā)電單元輸出能量。

t時(shí)段剩余的可再生能源發(fā)電單元輸出能量Nw(t)為：

式中，剩余能量Nw(t)通過雙邊能量流動(dòng)回售給常規(guī)電網(wǎng)。

（2）儲(chǔ)能系統(tǒng)運(yùn)行約束

儲(chǔ)能系統(tǒng)需滿足其自身的容量限制，充放電出力約束和能量平衡約束。充放電出力約束分別表示為：

式中：Fc(t)和Fd(t)分別為t時(shí)段儲(chǔ)能系統(tǒng)充電輸入能量、放電輸出能量；Fcmax為t時(shí)段儲(chǔ)能系統(tǒng)最大充電輸入能量；為t時(shí)段儲(chǔ)能系統(tǒng)最大放電輸出能量。由于電池物理特性，充、放電操作無法同時(shí)進(jìn)行，可表示為：

定義儲(chǔ)能系統(tǒng)能量狀態(tài)[11]（State of Energy, SoE），需滿足容量約束：

式中：SoE(t)為t時(shí)段儲(chǔ)能系統(tǒng)的能量狀態(tài)；Ec為儲(chǔ)能系統(tǒng)的額定容量；ζ(t)為t時(shí)段儲(chǔ)能系統(tǒng)的荷電狀態(tài)（State of Charge, SoC）；ζmax和ζmin分別為儲(chǔ)能系統(tǒng)荷電狀態(tài)最大值和最小值。

儲(chǔ)能系統(tǒng)滿足能量平衡約束：

式中：SoE(t+1)為t+1時(shí)段儲(chǔ)能系統(tǒng)的能量狀態(tài)；ηch和ηdis分別為充放電的能量轉(zhuǎn)換效率。

（3）購電售電定價(jià)約束

服務(wù)供應(yīng)商通過購電價(jià)格從常規(guī)電網(wǎng)側(cè)購電，通過售電價(jià)格向本地負(fù)載出售能源來獲利，購電價(jià)格由公用事業(yè)公司在t時(shí)段開始前公布；服務(wù)供應(yīng)商通過回售價(jià)格將t時(shí)段剩余的可再生能源發(fā)電單元輸出能量Nw(t)回售給常規(guī)電網(wǎng)。

購電價(jià)格、售電價(jià)格和回售價(jià)格需滿足定價(jià)約束：

式中：Pb(t)為t時(shí)段購電價(jià)格；Ps(t)為t時(shí)段售電價(jià)格；Pw(t)為t時(shí)段回售價(jià)格；α1為售電折扣參數(shù)；α2為回售折扣參數(shù)；Pbmax和Pbmin為購電價(jià)格的上下限。

（4）供需能量平衡約束

在任意調(diào)度時(shí)間內(nèi)，模型都必須滿足微電網(wǎng)EMS內(nèi)部的供需能量平衡約束：

式中：C(t)為t時(shí)段從常規(guī)電網(wǎng)購入用于滿足本地負(fù)載的電能；Gb(t)為t時(shí)段的建筑負(fù)荷；Gev(t)為t時(shí)段的電動(dòng)汽車負(fù)荷。

1.2 優(yōu)化問題

本節(jié)提出將最大化微電網(wǎng)EMS運(yùn)營利潤，最小化電池退化成本作為聯(lián)合優(yōu)化目標(biāo)，系統(tǒng)運(yùn)營凈利潤定義為：

結(jié)合式（18）可知，假設(shè)系統(tǒng)運(yùn)行T個(gè)時(shí)段，優(yōu)化問題可以表示為：

由于微電網(wǎng)EMS環(huán)境狀態(tài)時(shí)刻變化，式（20）定義的聯(lián)合優(yōu)化問題難以直接求得最優(yōu)解。下節(jié)引入強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法，對(duì)最優(yōu)解進(jìn)行全局探索，使結(jié)果逼近最優(yōu)解。

2 基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)EMS調(diào)度算法

本節(jié)提出了Q學(xué)習(xí)能量調(diào)度算法，將強(qiáng)化學(xué)習(xí)用于微電網(wǎng)場(chǎng)景下的能量調(diào)度問題。儲(chǔ)能系統(tǒng)與微電網(wǎng)環(huán)境實(shí)時(shí)交互，得出當(dāng)前環(huán)境下的最優(yōu)決策。該算法能夠在減少電池退化成本的同時(shí)，提高運(yùn)營利潤。

2.1 Q學(xué)習(xí)能量調(diào)度算法

本系統(tǒng)中儲(chǔ)能系統(tǒng)觀察到的狀態(tài)為微電網(wǎng)EMS在t時(shí)刻接收到的實(shí)時(shí)信息，t時(shí)刻系統(tǒng)的狀態(tài)st∈S為：

式中：Pb(t)代表t時(shí)刻的電價(jià)；G(t)代表t時(shí)刻的本地負(fù)載；ζ(t)代表t時(shí)刻的電池荷電狀態(tài)；Ns(t)為t時(shí)段供給本地負(fù)載的可再生能源發(fā)電單元輸出能量。

根據(jù)式（4）～式（6）中充放電動(dòng)作的大小范圍和約束，本文設(shè)計(jì)出了一組離散的動(dòng)作空間at∈A。

儲(chǔ)能系統(tǒng)在執(zhí)行完充放電動(dòng)作后，從微電網(wǎng)EMS環(huán)境中得到瞬時(shí)獎(jiǎng)勵(lì)Rt：

式中：U(t)為t時(shí)刻系統(tǒng)運(yùn)營凈利潤；V(t)為t時(shí)刻電池退化成本；β為懲罰參數(shù)。ζ(t)∈（0.1，0.9）表示微電網(wǎng)EMS滿足約束式（8），在電池荷電狀態(tài)安全條件下運(yùn)行；U(t)越大且V(t)越小時(shí)，儲(chǔ)能系統(tǒng)得到的獎(jiǎng)勵(lì)值越高。ζ(t)小于0.1或大于0.9時(shí)，電池荷電狀態(tài)處于過載、危險(xiǎn)運(yùn)行狀態(tài)，相應(yīng)的回報(bào)函數(shù)為負(fù)值。

建立運(yùn)營利潤-退化成本聯(lián)合優(yōu)化的Q學(xué)習(xí)模型。Q值采用貝爾曼方程進(jìn)行更新，即使用后繼狀態(tài)最大Q值估計(jì)當(dāng)前Q值，經(jīng)過不斷迭代，使Q值趨于最優(yōu)，從而得出最優(yōu)策略：

式中：α∈（0，1）為學(xué)習(xí)率，γ為折扣參數(shù)；過去的工作[12-15]證明，在馬爾可夫決策過程中，若狀態(tài)空間與動(dòng)作空間是離散的，動(dòng)作價(jià)值函數(shù)Q（st，at）經(jīng)過無數(shù)次迭代會(huì)收斂到最優(yōu)值Qπ*(s, a)，通過不斷學(xué)習(xí)更大的Q值，儲(chǔ)能系統(tǒng)能得到最優(yōu)動(dòng)作at*∈A。

為了使儲(chǔ)能系統(tǒng)能夠探索到最優(yōu)動(dòng)作，智能體需要兼顧已有經(jīng)驗(yàn)，利用和探索未知?jiǎng)幼鲀蓚€(gè)過程，以保證在每個(gè)狀態(tài)下，每個(gè)動(dòng)作都有被選中的可能。Q學(xué)習(xí)法采用ε-貪婪策略來選擇動(dòng)作，同時(shí)用來平衡利用和探索的過程：

式中：X是一個(gè)從0到1的隨機(jī)數(shù)，用來選擇動(dòng)作；ε為貪婪值；儲(chǔ)能系統(tǒng)以1-ε的概率選擇Q值最高的動(dòng)作進(jìn)行利用；以ε的概率隨機(jī)選擇動(dòng)作進(jìn)行探索。在Q學(xué)習(xí)初始階段，儲(chǔ)能系統(tǒng)未得出有效調(diào)度策略，Q(st, at)大部分?jǐn)?shù)值為零，智能體偏向探索；隨著學(xué)習(xí)的不斷進(jìn)行，Q(st, at)將不斷變大直至收斂，從而得出最佳調(diào)度策略πt。

2.2 Q學(xué)習(xí)調(diào)度算法實(shí)現(xiàn)

由于傳統(tǒng)能量管理沒有考慮儲(chǔ)能系統(tǒng)接入、實(shí)時(shí)電價(jià)、可再生能源輸出能量等因素，在面對(duì)現(xiàn)實(shí)環(huán)境時(shí)，算法性能隨著預(yù)測(cè)不確定性的提高而不斷下降，因此本文引入了在人工智能領(lǐng)域得到廣泛應(yīng)用的強(qiáng)化學(xué)習(xí)算法，該算法通過學(xué)習(xí)狀態(tài)量的變化趨勢(shì)來對(duì)決策值進(jìn)行實(shí)時(shí)更新，相比傳統(tǒng)能量管理算法具有更強(qiáng)的魯棒性。Q學(xué)習(xí)調(diào)度算法將儲(chǔ)能系統(tǒng)作為智能體，通過調(diào)度電池中的能量，來獲得微電網(wǎng)EMS中的最大運(yùn)營利潤。Q學(xué)習(xí)能量調(diào)度算法如下所示：

輸入：狀態(tài)量 {Pb(t)，G(t)，Ns(t)，ζ(t)}

輸出：優(yōu)化的充放電策略π

（1）初始化Q學(xué)習(xí)算法參數(shù)，初始化Q表；

（2）初始化狀態(tài)量 st0={Pb(t)，G(t)，Ns(t)，ζ(t)}；

（3）For 回合數(shù)=1，2，…，M；

（4）獲取初始狀態(tài)st0；

（5）For 時(shí)刻=1，2，…，T；

（6）觀察并計(jì)算動(dòng)作價(jià)值函數(shù)Q(st, at)；

（7）使用ε-貪婪策略選擇動(dòng)作at；

（8）執(zhí)行所選動(dòng)作at；

（9）計(jì)算退化成本，運(yùn)營利潤；

（10）計(jì)算優(yōu)化目標(biāo)；

（11）使用貝爾曼方程更新Q(st, at)；

（12）將結(jié)果存入Q表；

（13）計(jì)算累積獎(jiǎng)勵(lì)Rt；

（14）判斷累積獎(jiǎng)勵(lì)Rt是否收斂；

（15）輸出優(yōu)化后的充放電策略π。

微電網(wǎng)EMS收集t時(shí)刻的外部狀態(tài)信息Pb(t)、G(t)、Ns(t)和儲(chǔ)能系統(tǒng)內(nèi)部信息ζ(t)，將信息傳給儲(chǔ)能系統(tǒng)；儲(chǔ)能系統(tǒng)根據(jù)已知信息，使用ε-貪婪策略選擇動(dòng)作加以執(zhí)行，得到實(shí)時(shí)反饋；系統(tǒng)計(jì)算當(dāng)前時(shí)刻的運(yùn)營利潤和退化成本，使用貝爾曼方程更新Q(st, at)，將結(jié)果存入Q表；進(jìn)入下一個(gè)時(shí)刻后，再重新執(zhí)行以上步驟，直到獎(jiǎng)勵(lì)函數(shù)收斂。

3 仿真結(jié)果與分析

本節(jié)在仿真中模擬實(shí)時(shí)變化的微電網(wǎng)EMS環(huán)境，對(duì)比Q學(xué)習(xí)能量調(diào)度算法與現(xiàn)有基線算法的各個(gè)性能指標(biāo)。

3.1 仿真參數(shù)

實(shí)驗(yàn)使用Python編譯器，使用Torch模塊編寫算法，模擬真實(shí)微電網(wǎng)環(huán)境下實(shí)時(shí)變化的電價(jià)、負(fù)荷與可再生能源能量。其中，電價(jià)、本地負(fù)荷與可再生能源發(fā)電單元輸出能量數(shù)據(jù)源于澳大利亞新南威爾士州某市兩周的電力系統(tǒng)運(yùn)行數(shù)據(jù)。表1給出了仿真參數(shù)與配置。

表1 仿真參數(shù)與配置

3.2 仿真結(jié)果

首先，本文評(píng)估了Q學(xué)習(xí)能量調(diào)度算法的收斂性表現(xiàn)。所提出算法在10 000個(gè)回合內(nèi)進(jìn)行了訓(xùn)練，以學(xué)習(xí)優(yōu)化的儲(chǔ)能系統(tǒng)充電/放電調(diào)度，其中懲罰因子β設(shè)置為2。累積獎(jiǎng)勵(lì)的演變過程如圖2所示。觀察可得智能體獲得的累積獎(jiǎng)勵(lì)在前1 500個(gè)回合不斷增加，在第2 000個(gè)回合達(dá)到80后趨向穩(wěn)定，之后由于智能體不斷以10%的概率選擇隨機(jī)動(dòng)作，累積獎(jiǎng)勵(lì)曲線呈現(xiàn)輕微振蕩。因此，所提出Q學(xué)習(xí)能量調(diào)度算法能在短時(shí)間內(nèi)達(dá)到收斂。

圖2 累積獎(jiǎng)勵(lì)與回合數(shù)變化關(guān)系圖

圖3展示了系統(tǒng)利潤隨時(shí)間的變化情況，3種算法的系統(tǒng)利潤隨著時(shí)間的增加而不斷上升。其中，Greedy代表貪心算法，執(zhí)行貪心算法時(shí)，智能體只求得每個(gè)時(shí)刻的最優(yōu)收益，并將其累加；執(zhí)行Uncontrolled策略時(shí)，智能體會(huì)在電池荷電狀態(tài)低于0.1時(shí)以最大充電速率充電，在荷電狀態(tài)高于0.9時(shí)以最大放電速率放電。Q學(xué)習(xí)算法從微電網(wǎng)EMS運(yùn)行開始，其系統(tǒng)利潤一直高于Greedy和Uncontrolled策略；微電網(wǎng)EMS在經(jīng)過336個(gè)小時(shí)運(yùn)營之后，Q學(xué)習(xí)與Greedy算法比提高了8.32%，與Uncontrolled策略比提高了10.54%。

圖3 系統(tǒng)利潤與時(shí)間變化關(guān)系圖

4 結(jié) 語

本文提出了一個(gè)微電網(wǎng)儲(chǔ)能管理系統(tǒng)，該系統(tǒng)由可再生能源、儲(chǔ)能以及進(jìn)出常規(guī)電網(wǎng)的雙邊能量流組成。本文的目標(biāo)是在電池容量的約束下，最大化儲(chǔ)能管理系統(tǒng)的運(yùn)營利潤。為了解決上述問題，本文提出了一種基于Q學(xué)習(xí)的強(qiáng)化學(xué)習(xí)能量調(diào)度算法，以根據(jù)來自復(fù)雜環(huán)境的信息即電池的動(dòng)態(tài)變化荷電狀態(tài)、價(jià)格和需求變化、準(zhǔn)確的電池退化作為狀態(tài)，學(xué)習(xí)優(yōu)化的控制動(dòng)作。最后，與基于真實(shí)世界數(shù)據(jù)的性能評(píng)估表明，與2個(gè)基線算法相比，所提出的方法可以將系統(tǒng)利潤提高8.32%～10.54%。