亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MATSAC-LSTM 的綜合能源系統(tǒng)自動發(fā)電控制算法研究

        2023-10-31 09:39:38鄧棋宸
        智能計算機與應(yīng)用 2023年10期
        關(guān)鍵詞:區(qū)域智能模型

        李 昊, 榮 娜, 鄧棋宸

        (貴州大學 電氣工程學院, 貴陽 550025)

        0 引 言

        隨著全球能源轉(zhuǎn)型,新能源大規(guī)模分散式接入電網(wǎng),致使電力系統(tǒng)隨機性、間歇性不斷增強,傳統(tǒng)自動發(fā)電控制(AGC) 策略已經(jīng)不滿足電網(wǎng)需求[1-2]。 因此,從AGC 策略的角度,尋找一種在綜合能源系統(tǒng)背景下有效提高系統(tǒng)安全穩(wěn)定運行的控制策略具有重要意義[3-4]。

        AGC 控制策略實際上是根據(jù)電網(wǎng)實時運行工況在線計算出最優(yōu)決策[5]。 目前,AGC 控制策略可以分為傳統(tǒng)AGC 控制策略和智能AGC 動態(tài)優(yōu)化策略。 傳統(tǒng)AGC 控制策略有模糊控制、自適應(yīng)控制、魯棒控制、 比例積分微分(Proportional Integral Derivative, PID)控制等方法。 文獻[6]使用自適應(yīng)烏鴉搜索算法提出了一個最優(yōu)模糊PID 控制器,將其應(yīng)用于非線性兩區(qū)域和三區(qū)域再熱系統(tǒng)的AGC,減少頻率偏差。 隨著大規(guī)模新能源接入電網(wǎng),數(shù)據(jù)維度變大,傳統(tǒng)PID 控制方法控制難度急劇增大。伴隨人工智能的進步與發(fā)展,有關(guān)AGC 的智能算法也相繼應(yīng)用,試圖解決傳統(tǒng)控制方法暴露的問題。

        由于強化學習具有實時性和自適應(yīng)性,智能體可以與環(huán)境交互收集信息,不斷試錯和探索,從而可以在綜合能源系統(tǒng)獲得最優(yōu)控制策略。 文獻[7]將Q 學習算法應(yīng)用于AGC,依靠Q值函數(shù)和控制性能標準(Control Performance Standards,CPS)控制動作形成閉環(huán)反饋來形成最優(yōu)控制策略,增強了算法的適應(yīng)性和控制性能;文獻[8]提出多經(jīng)驗池概率回放的雙延遲深度確定性策略梯度(Multiple Experience pool experience replay Twin Delayed deep deterministic policy gradient, ME-TD3)算法,采用不同概率從不同經(jīng)驗池采樣,提高最優(yōu)策略的質(zhì)量;文獻[9]引入卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN),解決了傳統(tǒng)強化學習算法中維數(shù)災(zāi)難的問題,但缺乏考慮歷史狀態(tài)變化,造成局部最優(yōu)的問題;文獻[10]提出一種基于動態(tài)策略的贏或快速學習爬坡策略(Policy Dynamics based Win or Learn Fast Policy Hill-Climbing, PDWoLF-PHC)算法,通過改變學習率在各種復雜的電力系統(tǒng)環(huán)境中得到最優(yōu)策略,解決了新能源和分布式能源接入電網(wǎng)時產(chǎn)生的強隨機擾動問題,但由于采樣復雜度較高,算法收斂速度較慢。

        為解決復雜綜合能源系統(tǒng)背景下AGC 算法收斂速度慢、控制性能差的問題,本文提出了一種基于多智能體遷移柔性行動器-批判器與長短時記憶網(wǎng)絡(luò)(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory, MATSAC-LSTM)的算法,該算法具有更強魯棒性,最大熵政策可以使智能體具有更強的探索能力,能夠得到全局最優(yōu)解,融合遷移學習使得算法的收斂速度變快。 在一個修改的IEEE標準兩區(qū)域負荷頻率控制系統(tǒng)模型和一個五區(qū)域綜合能源系統(tǒng)進行了算例分析。 結(jié)果表明,該方法能有效提高系統(tǒng)的控制性能指標和收斂速度,降低了系統(tǒng)的區(qū)域控制誤差和頻率偏差。

        1 MATSAC-LSTM 算法

        傳統(tǒng)強化學習算法在AGC 應(yīng)用上收斂速度慢,控制性能差,因此本文在柔性行動器-批判器(Soft Actor-Critic, SAC)算法的基礎(chǔ)上,用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進行時序特征提取,作為MATSAC 算法的輸入,多智能體框架使得智能體之間信息共享,并通過遷移學習來解決收斂速度慢的問題,進而提出MATSAC-LSTM 算法來提高收斂速度和控制性能。

        本文提出MATSAC-LSTM 算法架構(gòu)如圖1 所示。 本文所研究的AGC 系統(tǒng)是動態(tài)隨機環(huán)境,MATSAC-LSTM 算法根據(jù)系統(tǒng)所處的狀態(tài)計算出相應(yīng)的獎勵值,將當前系統(tǒng)環(huán)境的狀態(tài)量作為MATSAC-LSTM 算法的輸入,智能體在每個控制周期中,給出最優(yōu)功率發(fā)電指令。

        1.1 柔性行動器-批判器算法

        深度強化學習具有處理高維連續(xù)狀態(tài)-動作空間的特點,而柔性行動器-批判器(SAC)算法是最好異策略深度強化學習算法之一,相較于雙延遲深度確定性策略梯度( Twin Delayed deep deterministic policy gradient, TD3)算法和近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法,該算法可以使政策的熵值和預(yù)期收益最大化,從而使樣本學習的效率得到提高,SAC 算法框架如圖2所示。

        圖2 SAC 算法框架Fig.2 Framework of SAC algorithm

        在SAC 算法中,概率策略的熵可以描述為式(1):

        其中,st代表當前智能體的狀態(tài),a代表當前智能體的動作。

        在強化學習算法框架中的最大熵值函數(shù),可以描述為式(2):

        其中,E代表數(shù)學期望;T為智能體和環(huán)境交互的時間步數(shù);at代表智能體在時間t執(zhí)行的動作。

        在SAC 算法中,有3 個神經(jīng)網(wǎng)絡(luò),分別是:V網(wǎng)絡(luò),Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

        V網(wǎng)絡(luò)Vψ(st) 由損失函數(shù)的均方誤差更新,式(3):

        其中,D是訓練樣本的經(jīng)驗回放池,λV是V網(wǎng)絡(luò)的學習速率。

        策略網(wǎng)絡(luò)π?(at |st) 可以由KL散度損失公式更新,式(4):

        其中,λπ代表V 網(wǎng)絡(luò)的學習速率。

        Q網(wǎng)絡(luò)Qπθ(st,at) 通過貝爾曼誤差公式進行更新,式(5) 和式(6):

        其中,r(st,at) 代表智能體執(zhí)行動作時獲得的獎勵,Vˉψ(st) 代表目標網(wǎng)絡(luò)。

        1.2 多智能體遷移柔性行動器-批判器算法

        與SAC 算法相比,多智能體遷移柔性行動器-批判器算法是將單智能體采用集中訓練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)框架拓展到多智能體。 在訓練階段,本文在每個區(qū)域設(shè)置一個智能體,智能體的Actor 網(wǎng)絡(luò)和目標Actor 網(wǎng)絡(luò)采集當前狀態(tài)的環(huán)境信息和下一狀態(tài)的環(huán)境信息,然后生成智能體的當前動作和目標動作。 將一個智能體觀察的環(huán)境狀態(tài)量,以及其他智能體的動作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,Critic 網(wǎng)絡(luò)輸出當前動作的Q值。 此外,每個智能體都有一個自己的經(jīng)驗回放池,以提高MASAC算法的穩(wěn)定性。 在智能體收集足夠經(jīng)驗回放池中的數(shù)據(jù)后,每個智能體從經(jīng)驗回放池中隨機取樣來訓練自己。 當經(jīng)驗回放池中有足夠的數(shù)據(jù)時,智能體隨機抽樣得到的數(shù)據(jù)接近于獨立的相同分布,設(shè)置經(jīng)驗回放池可以打破序列之間關(guān)聯(lián)性,避免模型陷入局部最優(yōu)。

        1.3 基于LSTM 網(wǎng)絡(luò)的MASAC 框架構(gòu)建

        長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)是在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)基礎(chǔ)上改進的,每個LSTM 都是一組捕獲數(shù)據(jù)的單元,這些單元從一個模塊連接到另一個模塊,傳輸過去的數(shù)據(jù),并收集當前的數(shù)據(jù)。LSTM 模型示意圖如圖3 所示。

        LSTM 網(wǎng)絡(luò)包括3 個門:輸入門、輸出門和遺忘門,幫助LSTM 處理順序數(shù)據(jù)。遺忘門ft、輸入門it、輸出門ot由式(7)~式(9) 計算得出。

        其中,xt,ht分別代表輸入層和輸出層;Wf,Wi,Wo,Wc是隱藏層輸入映射到3個門的權(quán)重矩陣;Uf,Ui,Uo,Uc是關(guān)于3 個門與輸入單元狀態(tài)之間連接相關(guān)的權(quán)重矩陣;bf,bi,bo,bc是偏差向量;σg是門激活函數(shù)。

        計算得到的3 個門的輸出后,由式(10)和式(11)更新輸出:

        其中,Ct代表長期記憶信息,ht代表短期記憶信息。

        在模型訓練時,LSTM 網(wǎng)絡(luò)將已經(jīng)輸出的記憶信息與電力系統(tǒng)的當前狀態(tài)連接,傳遞給Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)作為輸入,使得智能體輸入的信息更加完整。

        1.4 遷移學習

        遷移學習涉及源領(lǐng)域和目標領(lǐng)域,從源領(lǐng)域?qū)W習到的知識可以轉(zhuǎn)移到目標領(lǐng)域,源領(lǐng)域和目標領(lǐng)域相似,則知識轉(zhuǎn)移的過程相對容易,從而不考慮在兩者之間分布和適應(yīng)性方面的差異。 不同綜合能源系統(tǒng)由于其機組不同、結(jié)構(gòu)不同,所以其控制策略也有差異。 因此,遷移學習可以與SAC 算法相結(jié)合,從而使SAC 算法在AGC 中學習效率得到提高。 在遷移學習中,通常采用兩種策略,一種是傳遞學習模型的參數(shù);另一種是共享由以前訓練過的智能體。本文采用第一種方法,即在源領(lǐng)域訓練后的智能體向目標領(lǐng)域智能體進行參數(shù)傳遞。

        2 基于MATSAC-LSTM 的AGC 設(shè)計

        基于MATSAC-LSTM 算法的自動發(fā)電控制是通過各個區(qū)域的智能體實時感知綜合能源系統(tǒng)中的環(huán)境信息,智能體通過收集當前系統(tǒng)的環(huán)境信息狀態(tài)量作為MATSAC-LSTM 算法的輸入,以獎勵函數(shù)作為目標函數(shù),計算出相應(yīng)獎勵值,算法在每個控制周期中,智能體輸出最優(yōu)動作作為實際電網(wǎng)調(diào)度端所有機組最優(yōu)的總發(fā)電調(diào)節(jié)指令。

        1、工資費管理。工資費用是人員費用中最為敏感的話題,也是歷來審計查處的重點。直接費用是課題組活動中可以直接計入成本的費用。包括人員費、設(shè)備費等其他研究過程中的經(jīng)費。人員費即課題組成員的工資性費用。課題組成員所在單位有事業(yè)費撥款的,由所在單位按照國家規(guī)定的標準從事業(yè)費中及時足額支付給課題組成員,并按規(guī)定在課題預(yù)算的相關(guān)科目中列示,不得在國家資助的課題專項經(jīng)費中重復列支。國家另有規(guī)定的,按照有關(guān)規(guī)定執(zhí)行。

        綜合能源的控制性能可以通過區(qū)域控制偏差(Area Control Error, ACE)ACE 和CPS1 來衡量。

        ACE 計算,式(12):

        其中,Δf代表電網(wǎng)實際頻率與計劃頻率之差;ΔPT代表聯(lián)絡(luò)線上實際交換功率與計劃交換功率之差;B代表區(qū)域定義的頻率偏差系數(shù)。

        CPS1 指標,式(13):

        其中,ε1是互聯(lián)電網(wǎng)對全年1 min 頻率平均偏差均方根的控制目標值,Δfmin代表相應(yīng)變量在1 min內(nèi)的平均值。

        2.1 智能體設(shè)計

        (1)狀態(tài)空間:對于任何時刻t,Si代表智能體在t時刻當前的狀態(tài),可以用式(14)表示:

        其中,ACEi是第i區(qū)域的區(qū)域控制誤差的瞬時值,Δfi是第i區(qū)域頻率偏差的瞬時值。

        其中,ΔPGi是第i區(qū)域?qū)嶋H電網(wǎng)調(diào)度端所有機組的總發(fā)電調(diào)節(jié)指令。

        (3)獎勵函數(shù):將ACE作為目標函數(shù),能夠使CPS 指標保持高水平穩(wěn)定且功率限制在小范圍內(nèi)波動。 而系統(tǒng)控制性能也能由頻率偏差的絕對值|Δf |的大小直接反應(yīng)。 本文將ACE和|Δf |作為算法的獎勵函數(shù),并且對ACE和|Δf |的量綱進行歸一化處理,獎勵函數(shù)式(16):

        其中,| ACE(t)|是t時刻ACE的絕對值;|Δf(t)|是t時刻頻率偏差的絕對值;α1和α2是|ACE(t)|和|Δf |的權(quán)重,且α1=α2=0.5。

        2.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        本文智能體模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸入是LSTM 網(wǎng)絡(luò)的輸出,相較于其他神經(jīng)網(wǎng)絡(luò),LSTM 神經(jīng)網(wǎng)絡(luò)能夠更好的將歷史信息和目前的狀態(tài)信息結(jié)合起來,生成最優(yōu)策略。 Actor 網(wǎng)絡(luò)設(shè)置3個全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,其結(jié)構(gòu)示意圖如圖4 所示。 Actor 神經(jīng)網(wǎng)絡(luò)的隱藏神經(jīng)元分別是:128、64、1;Critic 網(wǎng)絡(luò)的輸入為環(huán)境狀態(tài)和動作的合集,也含3 個全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,最后輸出最優(yōu)策略,3 個全連接層的神經(jīng)元的個數(shù)分別是:64、32、1。

        圖4 Actor 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of Actor network structure

        3 算例分析

        為驗證本文所提的MATSAC-LSTM 算法的有效性和適用性,在一個修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型上采用多智能體柔性行動器-批判器與長短時記憶網(wǎng)絡(luò)算法驗證LSTM 網(wǎng)絡(luò)和多智能體結(jié)合SAC 算法在AGC 中的控制效果,并通過遷移學習在一個五區(qū)域綜合能源系統(tǒng)模型上采用MATSAC-LSTM 算法進行仿真實驗。

        模型中的一些參數(shù)的選擇將影響算法在自動發(fā)電控制中的應(yīng)用效果。 這些參數(shù)按照以下原則選?。?/p>

        (1)折扣因子:代表知識矩陣在更新過程中對過去獎勵值的折扣。 如果累計的獎勵值對實際問題的求解影響大,則折扣因子選擇較大的值。 對于自動發(fā)電控制而言,目前環(huán)境所得到的獎勵的瞬時值更為重要,所以折扣因子選擇較小的值。

        (2)學習率:如果設(shè)置太小,則算法收斂緩慢,但容易找到全局最優(yōu)解。 設(shè)置越大,算法的收斂速度越快,但可能導致算法無法收斂。 本文在引入遷移學習的方法后,算法已經(jīng)具有較好的先驗知識,所以學習率選擇較小的值。

        (3)經(jīng)驗池長度:如果經(jīng)驗池過大,則會導致無用的經(jīng)驗加入到抽樣過程中;如果經(jīng)驗池過小,則會導致算法不能通過經(jīng)驗池的抽樣獲得最優(yōu)解。 本文通過大量實驗,選取1 000 000。

        (4)dropout: dropout 如果過大則會影響算法的擬合能力;如果過小,則會導致數(shù)據(jù)樣本不足而過擬合。 本文在自動發(fā)電過程中,會獲得大量樣本,所以dropout 選擇較小的值。

        (5)批次大?。涸谝欢ǚ秶鷥?nèi),批次越大,引起訓練震蕩越小,收斂精度越高。 但如果過大,則會增加訓練時間,且收斂精度也不會提高。 本文進行了大量的實驗,選取批次大小為512 最為有效。

        通常,在不同環(huán)境下綜合能源系統(tǒng)的運行工況會實時變化,需要設(shè)置不同的最優(yōu)參數(shù)才能尋求到不同環(huán)境下自動發(fā)電控制的最優(yōu)解,但是這將耗費大量時間,本文根據(jù)參數(shù)選取的原則和大量的實驗仿真得到一組最優(yōu)的參數(shù)見表1。

        表1 模型參數(shù)Tab.1 Parameters of model

        3.1 一個修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型

        本文在IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型基礎(chǔ)上融入電池儲能、風電、光伏。

        3.1.1 智能體訓練

        MASAC-LSTM 算法分為離線訓練和在線測試兩個階段。 離線訓練階段,智能體的學習步長為AGC 系統(tǒng)的控制周期,該標準算例中取4 s,不斷更新智能體的策略,使控制器的控制效果達到最優(yōu)。最終對修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型的第一個區(qū)域施加一個周期800 s,幅值1 000 MW,時間8000 s 的正弦負荷擾動。

        各種算法智能體學習過程如圖5 所示。 與PID、Q、TD3、PDWoLF-PHC、SAC 算法相比,MASAC-LSTM 算法在1 200 s 后,已經(jīng)能夠穩(wěn)定地跟蹤負載擾動變化,能夠更準確的跟蹤負荷擾動,收斂速度最快。 由 于 MATSAC - LSTM 算 法 可 以 通 過LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進行時序特征提取,并作為MATSAC 算法的輸入,使得智能體能夠結(jié)合歷史信息做出更優(yōu)的決策,因此使得獎勵值震蕩次數(shù)減少,具有更好的動態(tài)性能。

        圖5 智能體學習過程Fig.5 The learning process of agents

        3.1.2 階躍擾動

        為了評估MASAC-LSTM 算法的可靠性和魯棒性,引入振幅為1 000 MW 階躍擾動。 基于Q、PID、TD3、PDWoLF-PHC、SAC、MASAC-LSTM 算法的在線測試結(jié)果如圖6 所示。 可以看出,MASAC-LSTM算法在兩個區(qū)域的ACE和Δf的峰值明顯小于其他3 種算法,說明MASAC-LSTM 算法有效地減小了ACE的偏差,在220 s 內(nèi)MASAC-LSTM 算法可以使各區(qū)域達到穩(wěn)定。 區(qū)域聯(lián)絡(luò)線功率偏差A(yù)CE可以直接看出區(qū)域之間數(shù)據(jù)的共享程度以及多個區(qū)域之間協(xié)同控制的配合程度,MASAC-LSTM 算法采用了多智能體集中訓練分散執(zhí)行框架,使智能體之間信息共享,有效實現(xiàn)多個區(qū)0 域之間的最優(yōu)協(xié)同控制。

        圖6 階躍擾動曲線Fig.6 Curve of step perturbation

        3.1.3 方波擾動

        引入考核周期為1 500 s,幅值在800 MW 以內(nèi)的方波負荷擾動,5 種算法的控制性能見表2。 可以看出,MASAC-LSTM 的|Δf |的平均值降低0.002 2~0.004 Hz,|ACE |的平均值降低2.391~11.869 MW,CPS1 的平均值增加0.841%~2.311%。

        表2 不同算法的控制性能Tab.2 Control performance of different algorithms

        3.2 一個五區(qū)域綜合能源系統(tǒng)模型

        隨著電網(wǎng)新能源占比提高,為了考慮大量分布能源并入電網(wǎng)造成的影響,本文構(gòu)建五區(qū)域綜合能源模型。 此模型在一個IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型上加入了電池儲能、風電、光伏、熱電聯(lián)產(chǎn)、柴油發(fā)電、核能水電等機組,每個區(qū)域設(shè)置獨立的智能體,實現(xiàn)多智能體協(xié)同控制。

        因為MASAC-LSTM 算法需要智能體與環(huán)境長時間進行交互,收集數(shù)據(jù)從而獲得最佳策略,本文對修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型的智能體向五區(qū)域綜合能源系統(tǒng)模型的智能體傳遞參數(shù),從而縮短智能體的訓練時間。

        第一組實驗采用MASAC-LSTM 算法在構(gòu)建的五區(qū)域綜合能源系統(tǒng)模型上訓練320 輪;第二組實驗采用遷移學習的方法,將修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層全連接層參數(shù)轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第三組實驗將修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型的訓練模型Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層和第二層全連接層轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第二組實驗和第三組實驗的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸出層都被重置,且將回放緩沖區(qū)清空,訓練320 輪。

        遷移學習訓練曲線如圖7 所示。 由圖7 可見,第一組實驗的起始獎勵為-26.7,第二組實驗為-23.2,第三組實驗為-21.2,說明MATSAC-LSTM 算法使智能體能更好地收集經(jīng)驗;在100 輪時,第三組實驗獎勵已經(jīng)達到-13,而第一組實驗的獎勵還在緩慢上升,MATSAC-LSTM 算法通過遷移學習可以使獎勵增長率變大;第一組實驗最后獎勵穩(wěn)定在-12.4,第二組實驗為-9.1,第三組實驗為-7.9,說明通過遷移學習MATSAC-LSTM 算法在求解質(zhì)量方面得到提高。 實驗結(jié)果說明通過遷移學習將舊任務(wù)訓練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以減少整個算法的訓練時間,而對于轉(zhuǎn)移模型參數(shù)的選擇,在重置輸入層和輸出層的基礎(chǔ)上,轉(zhuǎn)移的神經(jīng)網(wǎng)絡(luò)參數(shù)越多,訓練的收斂速度越快,且尋優(yōu)結(jié)果也更好。

        考慮到綜合能源系統(tǒng)的隨機性和間歇性,在五區(qū)域綜合能源系統(tǒng)中引入幅值為1 000 MW,持續(xù)時間為10 000 s 的隨機擾動,擾動曲線如圖8 所示。

        圖8 隨機擾動曲線Fig.8 The curves of random disturbance

        PID、Q、TD3、PDWoLF-PHC、SAC、MASAC-LSTM、MATSAC-LSTM 7 種算法在隨機擾動下的控制性能如圖9 所示。 相較于其他算法,本文所提算法的|Δf |、|ACE |、穩(wěn)態(tài)誤差、超調(diào)量有所降低,CPS1 有所提高。

        圖9 隨機擾動下算法的控制性能Fig.9 Control performance of algorithms under random perturbance

        4 結(jié)束語

        本文提出了一種基于MATSAC-LSTM 的綜合能源系統(tǒng)自動發(fā)電控制算法。 一個修改的IEEE 標準兩區(qū)域負荷頻率控制系統(tǒng)模型和一個五區(qū)域綜合能源系統(tǒng)模型的仿真結(jié)果表明,與傳統(tǒng)PID、Q、TD3、SAC 算法相比, 本文算法在CPS1,| ACE |,|Δf |,穩(wěn)態(tài)誤差,超調(diào)量等控制性能指標均表現(xiàn)較優(yōu)。 此外,有以下幾點發(fā)現(xiàn):

        (1)本文用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進行時序特征提取,并作為MATSAC算法的輸入,使智能體能結(jié)合歷史信息進行快速的有功功率分配決策;

        (2)本文采用集中訓練分散執(zhí)行框架,將一個智能體和環(huán)境的交互信息,以及其他智能體的動作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,實現(xiàn)了多智能體之間的信息共享;

        (3)通過遷移學習將舊任務(wù)訓練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以提高智能體的訓練效率。

        猜你喜歡
        區(qū)域智能模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        3D打印中的模型分割與打包
        關(guān)于四色猜想
        分區(qū)域
        狠狠色丁香婷婷久久综合2021| 森中文字幕一区二区三区免费| 久久综合九色综合97婷婷| 少妇被粗大的猛进出69影院 | 在线精品一区二区三区| 亚洲红怡院| 精品人妻久久av中文字幕| 五月天中文字幕日韩在线| 在线 | 一区二区三区四区| 亚洲男人精品| 国产日产免费在线视频| 变态另类手机版av天堂看网| 日韩人妻无码精品久久久不卡| 国产第19页精品| 国产乱人伦AⅤ在线麻豆A| 国产极品大奶在线视频| 国产精品丝袜美女久久| 国产亚洲欧美精品永久| 日本不卡一区二区三区在线| 日韩欧美国产亚洲中文| 亚洲高清精品一区二区| 国产精品免费无遮挡无码永久视频| 日韩精品久久久肉伦网站| 91尤物视频在线观看| 一本大道久久精品一本大道久久| 蜜桃夜夜爽天天爽三区麻豆av| 免费a级毛片在线播放| 情侣黄网站免费看| 91久久国产自产拍夜夜嗨| av成人综合在线资源站| 久久国产精品偷任你爽任你| 亚洲妇女水蜜桃av网网站| 韩国免费一级a一片在线| 中文字幕亚洲综合久久天堂av| 日日噜噜夜夜狠狠va视频| 999国产精品视频| 一区二区国产视频在线| 妺妺窝人体色www婷婷| 在线观看av永久免费| 粉嫩av一区二区在线观看| 久久精品国产91精品亚洲|