亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)優(yōu)化運(yùn)行策略

        2022-11-19 04:08:22趙鵬杰吳俊勇張和生
        電力自動(dòng)化設(shè)備 2022年11期
        關(guān)鍵詞:儲(chǔ)能經(jīng)驗(yàn)電網(wǎng)

        趙鵬杰,吳俊勇,王 燚,張和生

        (北京交通大學(xué) 電氣工程學(xué)院,北京 100044)

        0 引言

        微電網(wǎng)是由分布式發(fā)電、負(fù)荷、儲(chǔ)能裝置等組成的小規(guī)模電網(wǎng),可以有效提高電網(wǎng)中分布式電源滲透率,是實(shí)現(xiàn)“雙碳”目標(biāo)的有效途徑[1]。然而,分布式發(fā)電的間歇性和不穩(wěn)定性使得微電網(wǎng)能量管理變得更加困難[2]。

        微電網(wǎng)能量管理問題的求解算法包括經(jīng)典優(yōu)化算法和啟發(fā)式算法。經(jīng)典優(yōu)化算法主要包括線性規(guī)劃、混合整數(shù)規(guī)劃等,面對(duì)復(fù)雜的高維非線性、不連續(xù)的目標(biāo)函數(shù)和約束時(shí),該算法存在求解困難的問題[3]。啟發(fā)式算法對(duì)數(shù)學(xué)模型的依賴性較小,更容易處理非線性問題,但該算法的尋優(yōu)結(jié)果具有隨機(jī)性,通常為次優(yōu)[4]。上述2類算法能夠解決確定性微電網(wǎng)優(yōu)化問題,但實(shí)際微電網(wǎng)中的可再生能源出力、負(fù)荷等因素均是不確定因素,不確定性問題主要采用隨機(jī)規(guī)劃和魯棒優(yōu)化方法[5-7]進(jìn)行求解。隨機(jī)優(yōu)化方法的難點(diǎn)是如何保證概率分布準(zhǔn)確刻畫實(shí)際不確定性因素的變化規(guī)律[8]。魯棒優(yōu)化方法采用不確定性集描述不確定性因素的變化范圍,但所得優(yōu)化結(jié)果較為保守[9]。

        近年來,人工智能技術(shù)獲得了極大的發(fā)展,其中深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement Learning)算法因具有解決序貫決策問題的能力而受到電力系統(tǒng)研究人員的關(guān)注[10],目前主要包括基于值函數(shù)和基于策略梯度2類算法。

        在基于值函數(shù)的DRL 算法研究中:文獻(xiàn)[11]建立包含蓄電池和儲(chǔ)氫裝置的微電網(wǎng)復(fù)合儲(chǔ)能模型,采用基于值函數(shù)的深度Q 網(wǎng)絡(luò)DQN(Deep Q Network)算法解決儲(chǔ)能裝置的協(xié)調(diào)控制問題;文獻(xiàn)[12]針對(duì)社區(qū)微電網(wǎng)儲(chǔ)能系統(tǒng),提出Q-learning的能源管理策略,提高了儲(chǔ)能的效率和可靠性;文獻(xiàn)[13]提出采用DQN 和深度雙Q 網(wǎng)絡(luò)DDQN(Double Deep Q Network)算法解決家庭家電優(yōu)化調(diào)度問題,并證明DDQN 算法比DQN 算法更適合求解最小化成本問題;文獻(xiàn)[14]提出一種基于DQN 算法的微能源網(wǎng)能量管理模型,通過與遺傳算法進(jìn)行對(duì)比,驗(yàn)證了DQN 算法在解決能量管理問題時(shí)的有效性?;谥岛瘮?shù)的DRL 算法將微電網(wǎng)連續(xù)變量離散化,導(dǎo)致尋優(yōu)結(jié)果不精確。

        在基于策略梯度的DRL 算法研究中:文獻(xiàn)[15]建立含有空調(diào)系統(tǒng)和儲(chǔ)能系統(tǒng)的智能家居能源成本最小化模型,證明了深度確定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法可有效處理模型的不確定性;文獻(xiàn)[16]考慮居民行為、實(shí)時(shí)電價(jià)和室外溫度的不確定性,建立實(shí)時(shí)需求響應(yīng)模型,提出一種基于信賴域策略優(yōu)化的需求響應(yīng)算法,實(shí)現(xiàn)了不同類型設(shè)備的優(yōu)化調(diào)度;文獻(xiàn)[17]采用雙延遲深度確定性梯度算法解決了光儲(chǔ)電站儲(chǔ)能運(yùn)行問題。

        本文針對(duì)含有風(fēng)機(jī)、光伏、燃?xì)廨啓C(jī)、儲(chǔ)能設(shè)備和負(fù)荷的典型微電網(wǎng)架構(gòu),首先詳細(xì)描述將微電網(wǎng)運(yùn)行優(yōu)化問題轉(zhuǎn)化為馬爾可夫決策過程MDP(Markov Decision Process)的方法及步驟,然后采用DDPG算法求解微電網(wǎng)連續(xù)變量?jī)?yōu)化問題,為提高DDPG算法的收斂性,設(shè)計(jì)一種優(yōu)先經(jīng)驗(yàn)存儲(chǔ)的深度確定性策略梯度PES-DDPG(Priority Experience Storage Deep Deterministic Policy Gradient)算法,最后基于某微電網(wǎng)2018 年的風(fēng)機(jī)、光伏及負(fù)荷數(shù)據(jù)[18]進(jìn)行算例分析,驗(yàn)證了PES-DDPG 算法能夠提高DDPG 算法的收斂穩(wěn)定性以及該算法處理微電網(wǎng)能量?jī)?yōu)化問題時(shí)的有效性和優(yōu)越性。

        1 微電網(wǎng)系統(tǒng)及優(yōu)化模型

        1.1 微電網(wǎng)結(jié)構(gòu)

        本文微電網(wǎng)模型如圖1 所示,包括風(fēng)機(jī)、光伏、燃?xì)廨啓C(jī)、儲(chǔ)能設(shè)備、負(fù)荷以及與外部電網(wǎng)接口。微電網(wǎng)運(yùn)營(yíng)商的職責(zé)是調(diào)節(jié)各節(jié)點(diǎn)的功率流動(dòng),實(shí)現(xiàn)微電網(wǎng)經(jīng)濟(jì)運(yùn)行。

        圖1 微電網(wǎng)模型Fig.1 Model of microgrid

        1.2 微電網(wǎng)設(shè)備模型

        1)燃?xì)廨啓C(jī)。

        燃?xì)廨啓C(jī)通過燃燒天然氣為微電網(wǎng)提供可調(diào)節(jié)的電力供應(yīng),有效降低微電網(wǎng)對(duì)外部電網(wǎng)的依賴,其燃料成本以二次函數(shù)表示,如式(1)所示。

        2)儲(chǔ)能設(shè)備。

        儲(chǔ)能設(shè)備由蓄電池組成,其可與具有隨機(jī)性和波動(dòng)性的可再生能源協(xié)調(diào)運(yùn)行,發(fā)揮“削峰填谷”的作用,保證微電網(wǎng)的可靠性和經(jīng)濟(jì)性。考慮蓄電池的充放電功率和儲(chǔ)能荷電狀態(tài)SOC(State Of Charge),儲(chǔ)能設(shè)備充放電表達(dá)式為:

        3)需求響應(yīng)負(fù)荷。

        微電網(wǎng)運(yùn)營(yíng)商可通過電價(jià)或其他需求響應(yīng)手段調(diào)節(jié)居民負(fù)荷的消費(fèi)特性,為微電網(wǎng)調(diào)度運(yùn)行提供輔助服務(wù),但需求響應(yīng)不能一味改變用戶的用電行為,造成用戶體驗(yàn)下降。微電網(wǎng)運(yùn)營(yíng)商在執(zhí)行調(diào)度指令時(shí)應(yīng)考慮用戶滿意度因素。用戶滿意度有如下特性[19]:用戶傾向于消耗更多的能量直至達(dá)到目標(biāo)用電計(jì)劃;當(dāng)用戶消耗的能量接近目標(biāo)計(jì)劃時(shí),用戶滿意度將逐漸飽和。用戶滿意度ULt表達(dá)式為:

        4)微電網(wǎng)母線。

        微電網(wǎng)中含有大量以風(fēng)機(jī)、光伏為代表的分布式電源,為實(shí)現(xiàn)可再生能源的完全消納,默認(rèn)風(fēng)機(jī)、光伏功率全部并網(wǎng)。微電網(wǎng)中母線要保持功率平衡,可建模為:

        1.3 微電網(wǎng)優(yōu)化模型

        微電網(wǎng)運(yùn)營(yíng)商通過求解以下優(yōu)化問題來確定運(yùn)行方案:

        以式(14)為目標(biāo)函數(shù),式(1)—(13)為約束條件,形成混合整數(shù)二次規(guī)劃MIQP(Mixed Integer Quadratic Programming)問題。

        2 微電網(wǎng)MDP

        強(qiáng)化學(xué)習(xí)的本質(zhì)是使智能體和環(huán)境交互,智能體基于觀察到的環(huán)境狀態(tài)選擇動(dòng)作,環(huán)境對(duì)該動(dòng)作作出響應(yīng),智能體獲得環(huán)境的反饋后調(diào)整下一步動(dòng)作,最終實(shí)現(xiàn)智能體對(duì)環(huán)境的最優(yōu)響應(yīng)。

        假設(shè)未來獎(jiǎng)勵(lì)在每個(gè)時(shí)段的折扣因子為γ,在T時(shí)段終止,累積獎(jiǎng)勵(lì)定義如式(15)所示。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略μ*,使得所有狀態(tài)的預(yù)期回報(bào)最大,如式(16)所示。

        式中:Rt為t時(shí)段的累積獎(jiǎng)勵(lì);argmax 表示求解最大化問題時(shí)對(duì)應(yīng)的參數(shù);Eμ[·]表示變量的期望值。

        定義策略μ的動(dòng)作值函數(shù)為:

        式中:Qμ(s,a)為從狀態(tài)s開始采用動(dòng)作a后遵循策略μ的預(yù)期回報(bào)。

        利用強(qiáng)化學(xué)習(xí)尋找最優(yōu)策略μ*的問題可等價(jià)轉(zhuǎn)化為尋找最大的動(dòng)作價(jià)值函數(shù)問題,最大的動(dòng)作價(jià)值函數(shù)Q*(s,a)對(duì)應(yīng)的策略就是最優(yōu)策略μ*,如式(18)所示。

        微電網(wǎng)MIQP 問題轉(zhuǎn)化為MDP 進(jìn)行求解的關(guān)鍵是:環(huán)境狀態(tài)S、動(dòng)作A、獎(jiǎng)勵(lì)r的表達(dá)式;策略μ的獲取。

        1)狀態(tài)空間。

        微電網(wǎng)運(yùn)行優(yōu)化過程中所需的環(huán)境信息共同組成智能體狀態(tài)空間。環(huán)境信息可分為時(shí)變信息和時(shí)不變信息。為簡(jiǎn)化狀態(tài)空間,將時(shí)不變信息設(shè)定為智能體自身的已知信息,將時(shí)變信息作為本文模型的狀態(tài)信息,時(shí)變信息包括用戶預(yù)測(cè)負(fù)荷、風(fēng)機(jī)預(yù)測(cè)出力、光伏預(yù)測(cè)出力、儲(chǔ)能狀態(tài)、分時(shí)電價(jià),因此,狀態(tài)空間可以描述為:

        2)動(dòng)作空間。

        在微電網(wǎng)中,控制動(dòng)作包括實(shí)際負(fù)荷功率、燃?xì)廨啓C(jī)輸出功率和儲(chǔ)能充放電功率,智能體動(dòng)作空間可定義為:

        3)獎(jiǎng)勵(lì)函數(shù)。

        智能體選擇任一動(dòng)作后,環(huán)境會(huì)給予獎(jiǎng)勵(lì),一般為正,而懲罰成本為較大的負(fù)數(shù),智能體為了獲得最大獎(jiǎng)勵(lì),會(huì)逐漸約束動(dòng)作滿足動(dòng)作變化率。懲罰成本表達(dá)式為:

        式中:ζ為較大的正數(shù)。

        獎(jiǎng)勵(lì)函數(shù)由微電網(wǎng)運(yùn)行收益、用戶滿意度和懲罰成本組成:

        3 PES-DDPG算法

        本節(jié)介紹策略μ的求解算法,即PES-DDPG算法。

        3.1 DDPG算法

        DDPG 算法的基本思想是,給定狀態(tài)和參數(shù),則只輸出1 個(gè)確定的動(dòng)作。顯然,對(duì)于微電網(wǎng)優(yōu)化問題,針對(duì)確定的運(yùn)行狀態(tài),只有唯一的最優(yōu)調(diào)度策略,因此,本文選擇DDPG 算法作為求解微電網(wǎng)連續(xù)變量?jī)?yōu)化問題的基礎(chǔ)算法。

        DDPG算法的網(wǎng)絡(luò)架構(gòu)如附錄A圖A1所示。定義確定性動(dòng)作策略為μ,每步動(dòng)作at可通過at=μ(st)計(jì)算得到。采用神經(jīng)網(wǎng)絡(luò)對(duì)μ函數(shù)以及Q函數(shù)進(jìn)行模擬,分別稱為Actor 策略網(wǎng)絡(luò)(θ μ)和Critic 價(jià)值網(wǎng)絡(luò)(θQ)。定義函數(shù)Jπ(μ)衡量策略的好壞,Jπ(μ)的表達(dá)式為:

        式中:pπ為概率分布函數(shù);Qμ(s,μ(s))為智能體按照策略μ選擇動(dòng)作產(chǎn)生的Q值。Jπ(μ)等價(jià)為狀態(tài)s服從pπ分布時(shí),按照策略μ得到的Qμ(s,μ(s))的期望值。

        智能體通過與微電網(wǎng)環(huán)境的交互積累豐富經(jīng)驗(yàn)后進(jìn)入網(wǎng)絡(luò)更新階段。在更新階段,首先得到式(24)所 示 目 標(biāo) 獎(jiǎng) 勵(lì)yi、Critic 價(jià) 值 網(wǎng) 絡(luò) 實(shí) 際Q值QθQ(st,i,at,i),根據(jù)式(25)所示誤差方程得到Critic 價(jià)值網(wǎng)絡(luò)誤差L,并最小化誤差實(shí)現(xiàn)Critic 價(jià)值網(wǎng)絡(luò)的更新,然后通過求取式(26)所示策略梯度?θμJ(μθμ)確定Actor 策略網(wǎng)絡(luò)的更新方向,實(shí)現(xiàn)Actor 策略網(wǎng)絡(luò)的更新。其中,下標(biāo)“i”表示樣本經(jīng)驗(yàn)編號(hào)。

        式中:QθQ′(st+1,i,μθμ′(st+1,i))為目標(biāo)Critic 價(jià)值網(wǎng)絡(luò)得到的Q值,μθμ′為目標(biāo)Actor 策略網(wǎng)絡(luò)得到的策略;n為樣本經(jīng)驗(yàn)數(shù);?aQθQ(st,i,μθμ(st,i))、?θμ μθ(st,i)分別為Critic價(jià)值網(wǎng)絡(luò)和Actor策略網(wǎng)絡(luò)的梯度。

        DDPG 算法的特點(diǎn)主要有:采取隨機(jī)策略進(jìn)行動(dòng)作的探索,采取確定性梯度策略進(jìn)行策略的更新;采用Actor-Critic 結(jié)構(gòu),將其分為Actor 策略網(wǎng)絡(luò)和Critic 價(jià)值網(wǎng)絡(luò),并為其創(chuàng)建備份網(wǎng)絡(luò),稱為目標(biāo)網(wǎng)絡(luò),解決更新不穩(wěn)定的問題;利用DQN 算法的經(jīng)驗(yàn)回放對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最小化樣本的相關(guān)性。本文分別對(duì)DDPG 算法的動(dòng)作探索機(jī)制和經(jīng)驗(yàn)回放機(jī)制進(jìn)行改進(jìn),使該算法更適用于優(yōu)化問題的求解。

        3.2 動(dòng)態(tài)噪聲搜索策略

        搜索策略是為了搜索到完整的動(dòng)作狀態(tài)空間,本文在DDPG 算法的訓(xùn)練過程中引入高斯噪聲,將動(dòng)作的選擇從確定性過程變?yōu)殡S機(jī)性過程,并在隨機(jī)過程采樣得到動(dòng)作。

        動(dòng)態(tài)噪聲策略是指,在每次訓(xùn)練過程中,智能體通過策略網(wǎng)絡(luò)at=μ(st)生成動(dòng)作并疊加隨機(jī)噪聲時(shí),噪聲幅值隨著訓(xùn)練的進(jìn)行而逐漸變小,使智能體動(dòng)作完全符合策略μ。噪聲幅值εk的表達(dá)式如式(27)所示。

        式中:εmax、εmin分別為隨機(jī)選擇動(dòng)作概率的最大值和最小值;λ為衰減系數(shù);k為訓(xùn)練時(shí)的迭代輪數(shù)。

        3.3 經(jīng)驗(yàn)優(yōu)先存儲(chǔ)策略

        在DDPG 算法中,將智能體探索到的數(shù)據(jù)組合(st,at,rt,st+1)作為經(jīng)驗(yàn)并將其存在經(jīng)驗(yàn)復(fù)用池中,隨機(jī)抽取一批經(jīng)驗(yàn)對(duì)Actor策略網(wǎng)絡(luò)和Critic 價(jià)值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,由于經(jīng)驗(yàn)池大小固定,隨著訓(xùn)練的進(jìn)行,新獲取的經(jīng)驗(yàn)不斷覆蓋舊經(jīng)驗(yàn),只有新獲取的經(jīng)驗(yàn)逐漸一致時(shí),才能得到算法收斂結(jié)果。

        實(shí)際應(yīng)用過程中發(fā)現(xiàn),在探索初期,智能體得到高獎(jiǎng)勵(lì)經(jīng)驗(yàn)的概率遠(yuǎn)低于得到低獎(jiǎng)勵(lì)經(jīng)驗(yàn)的概率,該時(shí)期即使獲得了獎(jiǎng)勵(lì)極高的經(jīng)驗(yàn),隨著智能體趨向探索行為,低獎(jiǎng)勵(lì)經(jīng)驗(yàn)大量進(jìn)入經(jīng)驗(yàn)復(fù)用池,也會(huì)導(dǎo)致高獎(jiǎng)勵(lì)經(jīng)驗(yàn)的丟失,訓(xùn)練過程中波動(dòng)性較大,收斂結(jié)果不理想。

        考慮微電網(wǎng)能量?jī)?yōu)化問題的特點(diǎn),一天24 個(gè)不同時(shí)段之間的調(diào)度結(jié)果和收益存在較大差異,而同一時(shí)段的調(diào)度結(jié)果和收益具有相似性。在同一時(shí)段內(nèi),如果智能體搜索到的經(jīng)驗(yàn)比之前的經(jīng)驗(yàn)獎(jiǎng)勵(lì)高,則將其視為優(yōu)秀經(jīng)驗(yàn),并存儲(chǔ)到經(jīng)驗(yàn)復(fù)用池中,否則將其視為普通經(jīng)驗(yàn),并按照一定概率存儲(chǔ)到經(jīng)驗(yàn)復(fù)用池中。

        定義經(jīng)驗(yàn)池中t時(shí)段的經(jīng)驗(yàn)平均獎(jiǎng)勵(lì)rmeant為:

        式中:m為訓(xùn)練時(shí)的最大迭代輪數(shù);rt,k為t時(shí)段第k輪訓(xùn)練時(shí)的獎(jiǎng)勵(lì)值。

        經(jīng)驗(yàn)優(yōu)先存儲(chǔ)策略流程圖如圖2所示。

        圖2 經(jīng)驗(yàn)優(yōu)先存儲(chǔ)策略流程圖Fig.2 Flowchart of priority experience storage strategy

        結(jié)合動(dòng)態(tài)噪聲搜索策略和經(jīng)驗(yàn)優(yōu)先存儲(chǔ)策略,本文提出的PES-DDPG 算法偽代碼如附錄A 表A1所示。

        4 算例分析

        4.1 微電網(wǎng)場(chǎng)景設(shè)置

        本文建立的微電網(wǎng)各設(shè)備主要參數(shù)如附錄A 表A2 和表A3 所示。微電網(wǎng)中負(fù)荷最大值為400 kW,風(fēng)機(jī)安裝容量為250 kW,光伏安裝容量為150 kW。用戶滿意度系數(shù)vt、zt分別為2.2、2.5。

        4.2 算法及算例設(shè)置

        本文分別采用PES-DDPG 算法、傳統(tǒng)DDPG 算法、DDQN 算法和MIQP 算法求解微電網(wǎng)優(yōu)化運(yùn)行方案并對(duì)結(jié)果進(jìn)行對(duì)比?;谖㈦娋W(wǎng)馬爾可夫模型,PES-DDPG 算法和傳統(tǒng)DDPG 算法的狀態(tài)空間大小為7,動(dòng)作空間大小為3。設(shè)計(jì)的Actor策略網(wǎng)絡(luò)結(jié)構(gòu)如附錄A 圖A2 所示。輸入層為7 個(gè)神經(jīng)元,對(duì)應(yīng)輸入7個(gè)環(huán)境狀態(tài);隱藏層為3層全連接層,各層分別有128 個(gè)神經(jīng)元,采用線性修正函數(shù)ReLU(Rectified Linear Unit)作為激活函數(shù);輸出層為3個(gè)神經(jīng)元,對(duì)應(yīng)模型中的3 類動(dòng)作,采用tanh 作為激活函數(shù)。對(duì)DDQN 算法的動(dòng)作空間進(jìn)行離散化,將燃?xì)廨啓C(jī)、儲(chǔ)能設(shè)備、負(fù)荷動(dòng)作離散為9×4×2 種動(dòng)作。強(qiáng)化學(xué)習(xí)算法的超參數(shù)設(shè)置如下:Actor 策略網(wǎng)絡(luò)和Critic 價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率均為0.001,折扣因子γ=0.95,最大、最小噪聲幅值分別為1和0.004,每批抽樣數(shù)為128。

        本文設(shè)置如下2 個(gè)算例:算例1,微電網(wǎng)環(huán)境變量均為確定值,即風(fēng)機(jī)、光伏功率及負(fù)荷需求均可準(zhǔn)確預(yù)測(cè),在此基礎(chǔ)上,采用4 種算法進(jìn)行微電網(wǎng)日前運(yùn)行優(yōu)化;算例2,選取某地2018 年1 月1 日至3 月30 日的實(shí)際數(shù)據(jù),將其進(jìn)行標(biāo)幺化處理后作為訓(xùn)練集,采用本文提出的PES-DDPG 算法訓(xùn)練智能體,假設(shè)微電網(wǎng)環(huán)境中不確定性參數(shù)分別存在5%、10%、30%的預(yù)測(cè)誤差,面對(duì)不確定的環(huán)境變量,智能體進(jìn)行在線優(yōu)化。

        4.3 算例1結(jié)果及分析

        4.3.1 不同算法優(yōu)化結(jié)果分析

        微電網(wǎng)某日數(shù)據(jù)如附錄A 圖A3 所示。針對(duì)確定性環(huán)境,采用4 種算法進(jìn)行微電網(wǎng)日前運(yùn)行優(yōu)化,各方案所得微電網(wǎng)運(yùn)行收益如表1所示。

        表1 微電網(wǎng)運(yùn)行收益Table 1 Operation profit of microgrid

        由表1 可知:由于算例中調(diào)用Yalmip 工具箱求解器進(jìn)行求解,因此,MIQP 算法獲得了理論上的最高收益,為最優(yōu)的結(jié)果,但由于實(shí)際中未來24 h內(nèi)的風(fēng)機(jī)、光伏功率及負(fù)荷需求不可能準(zhǔn)確預(yù)測(cè),因此,MIQP 算法的求解結(jié)果難以直接應(yīng)用;PES-DDPG 算法和傳統(tǒng)DDPG算法的結(jié)果較接近最優(yōu)的結(jié)果;由于動(dòng)作離散,DDQN算法的效果不及傳統(tǒng)DDPG算法。

        圖3 展示了PES-DDPG 算法、傳統(tǒng)DDPG 算法和MIQP 算法的優(yōu)化結(jié)果。PES-DDPG 算法和傳統(tǒng)DDPG 算法的尋優(yōu)結(jié)果基本一致,體現(xiàn)在:在低電價(jià)時(shí),燃?xì)廨啓C(jī)運(yùn)行成本比電價(jià)高,因此燃?xì)廨啓C(jī)僅保持最低出力;儲(chǔ)能設(shè)備在夜間時(shí)段1—5 進(jìn)行充電,在中午高峰期進(jìn)行放電,通過低買高賣進(jìn)行套利,在下午時(shí)段15—18中等電價(jià)時(shí)繼續(xù)進(jìn)行充電,并在夜間高電價(jià)時(shí)進(jìn)行放電套利;在中午時(shí)段12—14,光伏出力較多,燃?xì)廨啓C(jī)也保持高出力,微電網(wǎng)向電網(wǎng)反送功率獲利。傳統(tǒng)DDPG 算法與MIQP 算法理論最優(yōu)結(jié)果的顯著區(qū)別是:在傳統(tǒng)DDPG 算法的結(jié)果中,微電網(wǎng)在時(shí)段12—14 向電網(wǎng)反送功率,而在MIQP 算法的結(jié)果中,微電網(wǎng)僅在時(shí)段12 向電網(wǎng)反送功率;在傳統(tǒng)DDPG 算法的結(jié)果中,儲(chǔ)能設(shè)備在高電價(jià)時(shí)(夜晚時(shí)段19、20)放電,而在MIQP 算法的結(jié)果中,儲(chǔ)能設(shè)備不僅在時(shí)段19、20 放電,還在時(shí)段21—24 放電,滿足夜間微電網(wǎng)內(nèi)的功率缺額需求,減少向電網(wǎng)購電。

        圖3 3種算法優(yōu)化結(jié)果Fig.3 Optimization results of three algorithms

        4.3.2 優(yōu)先經(jīng)驗(yàn)存儲(chǔ)策略分析

        針對(duì)算例1 場(chǎng)景,PES-DDPG 算法和傳統(tǒng)DDPG算法的收斂結(jié)果對(duì)比如圖4 所示。由圖可知,在傳統(tǒng)DDPG 算法的訓(xùn)練后期,隨機(jī)探索和經(jīng)驗(yàn)池中的低獎(jiǎng)勵(lì)經(jīng)驗(yàn)會(huì)導(dǎo)致算法收斂的不確定性,如果算法恰好在抽取到低獎(jiǎng)勵(lì)經(jīng)驗(yàn)訓(xùn)練時(shí)停止,則可能無法得到滿意的結(jié)果。

        圖4 PES-DDPG算法和DDPG算法的收斂結(jié)果對(duì)比Fig.4 Comparison of convergence results between PES-DDPG algorithm and traditional DDPG algorithm

        在不同的初始條件下,采用傳統(tǒng)DDPG 算法進(jìn)行訓(xùn)練,其收斂結(jié)果如圖5 所示。由圖可知,在3 次訓(xùn)練中,算法均在訓(xùn)練1000輪左右取得了基本一致的獎(jiǎng)勵(lì),但是隨著訓(xùn)練次數(shù)的增加,經(jīng)驗(yàn)池中隨機(jī)抽取的普通經(jīng)驗(yàn)改變了算法的收斂方向,當(dāng)訓(xùn)練到1 500 輪時(shí),訓(xùn)練結(jié)果變得更加糟糕,經(jīng)驗(yàn)質(zhì)量和訓(xùn)練終止的次數(shù)均會(huì)對(duì)算法的收斂結(jié)果產(chǎn)生隨機(jī)性的影響。

        圖5 不同初始條件下傳統(tǒng)DDPG算法的收斂結(jié)果對(duì)比Fig.5 Comparison of convergence results of traditional DDPG algorithm among different initial conditions

        為進(jìn)一步評(píng)估PES-DDPG 算法的收斂性,定義如下指標(biāo):

        式中:CMV為收斂均值;ri為完成第i次訓(xùn)練時(shí)的獎(jiǎng)勵(lì),在實(shí)際中可對(duì)獎(jiǎng)勵(lì)進(jìn)行縮放;N為訓(xùn)練總次數(shù),每次訓(xùn)練的初始條件不同;CV為收斂方差;CMAX為收斂最大值;CMIN為收斂最小值。

        基于算例1的場(chǎng)景,分別采用PES-DDPG算法和傳統(tǒng)DDPG算法進(jìn)行100次訓(xùn)練,收斂性評(píng)價(jià)指標(biāo)如表2所示。

        表2 收斂性評(píng)價(jià)指標(biāo)對(duì)比Table 2 Comparison of evaluation criteria for convergence

        由表2 可知:在多次訓(xùn)練中,采用PES-DDPG 算法和傳統(tǒng)DDPG算法得到的CMAX較接近,CMIN指標(biāo)相同,這說明2 種算法的尋優(yōu)能力相當(dāng),均能夠找到最優(yōu)解,同時(shí)也會(huì)陷入局部最優(yōu);采用PES-DDPG 算法得到的CMV大于傳統(tǒng)DDPG 算法,這說明在多次尋優(yōu)過程中采用PES-DDPG 算法取得較優(yōu)結(jié)果的次數(shù)多于傳統(tǒng)DDPG 算法;采用PES-DDPG 算法得到的CV約為傳統(tǒng)DDPG 算法的70.2%,由于CV越大,尋優(yōu)結(jié)果波動(dòng)越大,因此,PES-DDPG算法的穩(wěn)定性更高。

        4.3.3 動(dòng)態(tài)噪聲搜索策略分析

        本文應(yīng)用動(dòng)態(tài)噪聲搜索策略設(shè)計(jì)對(duì)比策略,以驗(yàn)證搜索策略對(duì)PES-DDPG 算法收斂性的影響:靜態(tài)策略,設(shè)置靜態(tài)噪聲,在前1 000 輪訓(xùn)練中噪聲幅值保持不變,在后500 輪訓(xùn)練中噪聲幅值為0;動(dòng)態(tài)策略,設(shè)置線性動(dòng)態(tài)噪聲,參數(shù)λ=4×10-5。圖6 為靜態(tài)策略和動(dòng)態(tài)策略下PES-DDPG 算法的收斂結(jié)果對(duì)比。由圖可知:當(dāng)在PES-DDPG 算法中采用靜態(tài)策略時(shí),訓(xùn)練至1 000 輪時(shí)噪聲突然消失,改變了算法的收斂方向,有可能導(dǎo)致最終收斂到的策略比當(dāng)前的策略差;而當(dāng)在PES-DDPG 算法中采用動(dòng)態(tài)策略時(shí),在訓(xùn)練過程中噪聲的影響逐步減弱,對(duì)算法收斂性產(chǎn)生的影響較小。

        圖6 靜態(tài)策略和動(dòng)態(tài)策略下PES-DDPG算法的收斂結(jié)果對(duì)比Fig.6 Comparison of convergence results of PES-DDPG algorithm between static strategy and dynamic strategy

        此外,DDQN算法作為另一類基于值函數(shù)的DRL算法,本文探討靜態(tài)策略和動(dòng)態(tài)策略對(duì)DDQN 算法收斂性的影響。該算法的靜態(tài)策略是指在前1000輪訓(xùn)練中智能體以0.5 的概率隨機(jī)選擇動(dòng)作,1 000 輪后智能體選擇當(dāng)前最大Q值所對(duì)應(yīng)的動(dòng)作;該算法的動(dòng)態(tài)策略是指在訓(xùn)練開始時(shí)智能體按照動(dòng)態(tài)衰減的概率隨機(jī)選擇動(dòng)作,隨著訓(xùn)練輪數(shù)的增加,隨機(jī)選擇動(dòng)作的概率最終衰減為0.004,智能體不再隨機(jī)選擇動(dòng)作,而是選擇最大Q值所對(duì)應(yīng)的動(dòng)作。靜態(tài)策略和動(dòng)態(tài)策略下DDQN 算法的收斂結(jié)果對(duì)比如圖7所示。由圖可知:當(dāng)在DDQN 算法中采用靜態(tài)策略時(shí),在前1 000 輪訓(xùn)練中獎(jiǎng)勵(lì)趨勢(shì)幾乎保持不變,每輪獎(jiǎng)勵(lì)在[-100,50]范圍內(nèi)波動(dòng);當(dāng)在DDQN 算法中采用動(dòng)態(tài)策略時(shí),在前1000輪訓(xùn)練中獲得的獎(jiǎng)勵(lì)逐漸提高,這說明算法逐漸尋找到了更好的策略,因此,在DDQN 算法中采用動(dòng)態(tài)策略的搜索效果優(yōu)于靜態(tài)策略。

        圖7 靜態(tài)策略和動(dòng)態(tài)策略下DDQN算法的收斂結(jié)果對(duì)比Fig.7 Comparison of convergence results of DDQN algorithm between static strategy and dynamic strategy

        分別在PES-DDPG 算法和DDQN 算法中采用靜態(tài)策略和動(dòng)態(tài)策略進(jìn)行100 次訓(xùn)練,收斂性評(píng)價(jià)指標(biāo)如表3所示。

        表3 靜態(tài)策略和動(dòng)態(tài)策略下的收斂性評(píng)價(jià)指標(biāo)對(duì)比Table 3 Comparison of evaluation criteria for conver‐gence between static strategy and dynamic strategy

        由表3 可知,在2 種算法中采用靜態(tài)策略時(shí),各項(xiàng)指標(biāo)均比采用動(dòng)態(tài)策略時(shí)的指標(biāo)差,這說明動(dòng)態(tài)策略提高了2 種算法的收斂性和尋優(yōu)能力。值得注意的是,PES-DDPG 算法的收斂性更好,多次訓(xùn)練得到的獎(jiǎng)勵(lì)方差很小,而由于離散化動(dòng)作空間,DDQN算法的尋優(yōu)能力弱于PES-DDPG算法。

        4.4 算例2結(jié)果及分析

        魯棒優(yōu)化假設(shè)不確定性存在于不確定性集中,本文構(gòu)造一種針對(duì)不確定性參數(shù)的最壞情況來實(shí)現(xiàn)最優(yōu)求解。本算例中不確定集采用盒式形式,風(fēng)、光、荷不確定集U的表達(dá)式為:

        式中:δ為最大預(yù)測(cè)誤差。

        考慮風(fēng)、光、荷不確定集下的系統(tǒng)能量?jī)?yōu)化,建立最惡劣的交互收益目標(biāo)為:

        當(dāng)微電網(wǎng)內(nèi)不確定性參數(shù)的預(yù)測(cè)誤差分別為5%、10%、30%時(shí),PES-DDPG 算法和魯棒優(yōu)化模型求解算法所得微電網(wǎng)收益如表4 所示,其中,魯棒優(yōu)化模型求解算法參考文獻(xiàn)[20]。隨著預(yù)測(cè)誤差的增大,微電網(wǎng)收益均逐漸降低。采用PES-DDPG 算法比魯棒優(yōu)化模型求解算法得到的收益更高,且隨著預(yù)測(cè)誤差的增大,PES-DDPG 算法的優(yōu)勢(shì)更明顯,其原因在于:預(yù)測(cè)誤差越大,場(chǎng)景越極端,由于魯棒優(yōu)化最優(yōu)解具有高度保守性,因此,極端場(chǎng)景降低了魯棒優(yōu)化性能,而PES-DDPG 算法是一種無模型和數(shù)據(jù)驅(qū)動(dòng)的DRL 算法,其通過數(shù)據(jù)的訓(xùn)練學(xué)習(xí)最優(yōu)控制策略,且可學(xué)習(xí)到封裝在數(shù)據(jù)中的不確定性。在30%的預(yù)測(cè)誤差下,采用PES-DDPG 算法可以比魯棒優(yōu)化模型求解算法提高約8.32%的收益。

        表4 不同預(yù)測(cè)誤差下的優(yōu)化算法結(jié)果比較Table 4 Result comparison between optimization algorithms under different prediction errors

        2 種算法的平均計(jì)算時(shí)間如表5 所示。對(duì)于微電網(wǎng)設(shè)備優(yōu)化問題,由于規(guī)模小以及復(fù)雜度低,求解器可以快速求解,但面對(duì)大規(guī)模變量及約束問題時(shí),求解器的求解效率難以保證,而DRL 智能體具備實(shí)時(shí)優(yōu)化的潛力。

        表5 優(yōu)化算法平均計(jì)算時(shí)間Table 5 Average calculation time of optimization algorithms

        5 結(jié)論

        本文采用DRL 算法求解微電網(wǎng)的優(yōu)化運(yùn)行問題,在算法層面,對(duì)傳統(tǒng)DDPG 算法進(jìn)行改進(jìn),提出PES-DDPG 算法,通過經(jīng)驗(yàn)優(yōu)先存儲(chǔ)方法和動(dòng)態(tài)噪聲搜索策略提高了算法在訓(xùn)練過程中的收斂穩(wěn)定性。訓(xùn)練完成的DDPG 智能體表現(xiàn)出了DDPG 算法處理連續(xù)變量的能力以及應(yīng)對(duì)不確定問題時(shí)的優(yōu)越性。通過算例驗(yàn)證了本文所提算法能夠?qū)崿F(xiàn)微電網(wǎng)的優(yōu)化調(diào)度。

        附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。

        猜你喜歡
        儲(chǔ)能經(jīng)驗(yàn)電網(wǎng)
        穿越電網(wǎng)
        2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
        黨課參考(2021年20期)2021-11-04 09:39:46
        相變儲(chǔ)能材料的應(yīng)用
        煤氣與熱力(2021年6期)2021-07-28 07:21:24
        經(jīng)驗(yàn)
        2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
        黨課參考(2018年20期)2018-11-09 08:52:36
        儲(chǔ)能技術(shù)在電力系統(tǒng)中的應(yīng)用
        儲(chǔ)能真要起飛了?
        能源(2017年12期)2018-01-31 01:42:59
        直流儲(chǔ)能型準(zhǔn)Z源光伏并網(wǎng)逆變器
        電網(wǎng)也有春天
        河南電力(2016年5期)2016-02-06 02:11:32
        一個(gè)電網(wǎng)人的環(huán)保路
        河南電力(2015年5期)2015-06-08 06:01:46
        久久理论片午夜琪琪电影网| 黄片午夜免费观看视频国产| 亚洲精品中文字幕乱码无线| 欧美牲交a欧美牲交aⅴ免费下载 | 亚洲高清在线观看免费视频| 女同恋性吃奶舌吻完整版| 欧美乱大交xxxxx潮喷| 特级毛片a级毛片免费播放| 亚洲国产精品综合久久20| 久久综合伊人有码一区中文字幕| 亚洲另类无码专区首页| 使劲快高潮了国语对白在线| 精品国产一区二区三区久久女人| 国产人妖直男在线视频| 欧美做受又硬又粗又大视频| 中文字幕乱码人妻一区二区三区 | 校花高潮一区日韩| 亚洲乱码中文字幕一线区| 免费无码av一区二区三区| 四月婷婷丁香七月色综合高清国产裸聊在线| 视频女同久久久一区二区三区| 亚洲中文字幕精品视频| 48久久国产精品性色aⅴ人妻| 国产欧美日韩综合在线一区二区| 亚洲国产精品美女久久久| 亚洲成人中文字幕在线视频| 鲁鲁鲁爽爽爽在线视频观看| 色欲AV成人无码精品无码| 国产理论亚洲天堂av| 深夜福利啪啪片| 1000部精品久久久久久久久| 亚洲最新中文字幕一区| 粉嫩国产av一区二区三区| 日本公与熄乱理在线播放| 国产成人av在线影院无毒| 中文字幕高清视频婷婷| 国产精品国三级国产av| 国产精品亚洲综合久久婷婷| 久久夜色精品亚洲天堂| 亚洲欧美日韩综合一区二区| 亚洲av无码成人黄网站在线观看|