亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度的高效深度確定性策略梯度算法

        2022-12-21 01:04:02宋煜浩黃少偉吳啟仁梅生偉
        電工技術(shù)學(xué)報(bào) 2022年23期
        關(guān)鍵詞:優(yōu)化策略

        宋煜浩 魏 韡 黃少偉 吳啟仁 梅生偉

        風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度的高效深度確定性策略梯度算法

        宋煜浩1魏 韡1黃少偉1吳啟仁2梅生偉1

        (1. 清華大學(xué)電機(jī)工程與應(yīng)用電子系 北京 100084 2. 中國三峽新能源(集團(tuán))股份有限公司 北京 101100)

        發(fā)展風(fēng)電等可再生能源對于實(shí)現(xiàn)雙碳目標(biāo)具有重要意義,風(fēng)儲聯(lián)合電站是未來風(fēng)電接入電網(wǎng)的主要形式。該文研究發(fā)電側(cè)商業(yè)化運(yùn)行的風(fēng)儲聯(lián)合電站的實(shí)時自調(diào)度問題,目標(biāo)是使自身的期望收益最大化。由于場站級風(fēng)電預(yù)測誤差較大,獨(dú)立發(fā)電商信息有限,難以準(zhǔn)確預(yù)測電網(wǎng)電價,風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度面臨多重不確定性,極具挑戰(zhàn)。該文提出高效深度確定性策略梯度(DDPG)算法求取風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度策略,實(shí)現(xiàn)不依賴預(yù)測的場站級在線決策。首先通過Lyapunov優(yōu)化構(gòu)建基礎(chǔ)策略,得到一個較好的但未必是局部最優(yōu)的策略;然后,采用基礎(chǔ)策略預(yù)生成樣本,用于初始化經(jīng)驗(yàn)庫,提升搜索效率;接著,應(yīng)用引入專家機(jī)制的DDPG算法,可以訓(xùn)練得到局部最優(yōu)的自調(diào)度策略;最后,算例分析表明,相比于基礎(chǔ)調(diào)度策略和經(jīng)典DDPG,該文所提方法能有效提升風(fēng)儲聯(lián)合電站的平均收益。

        風(fēng)儲聯(lián)合電站 實(shí)時自調(diào)度 Lyapunov優(yōu)化 深度確定性策略梯度(DDPG)

        0 引言

        近年來,新能源發(fā)電發(fā)展迅速。以風(fēng)電為例,截至2021年底,我國風(fēng)電累計(jì)裝機(jī)容量已經(jīng)超過3億kW,同比增長16.6%[1],僅2022年一季度便新增風(fēng)電790萬kW[2]。風(fēng)能作為一種綠色能源有望在未來的低碳電網(wǎng)中發(fā)揮主要作用。然而風(fēng)能本身的波動性和隨機(jī)性卻給電力系統(tǒng)的運(yùn)行帶來了巨大的挑戰(zhàn),需要足夠的備用資源。儲能可以平滑風(fēng)電出力,風(fēng)儲聯(lián)合電站是未來風(fēng)電接入電網(wǎng)的主要形式[3-5]。

        本文考慮由獨(dú)立發(fā)電商管理的風(fēng)儲聯(lián)合電站參與實(shí)時市場,發(fā)電商的目標(biāo)是最大化期望收益。由于場站級風(fēng)電預(yù)測誤差較大[6],且獨(dú)立發(fā)電商信息有限,難以準(zhǔn)確預(yù)測電網(wǎng)電價[7],風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度面臨多重不確定性,極具挑戰(zhàn)。目前關(guān)于風(fēng)儲聯(lián)合電站調(diào)度優(yōu)化的方法可大致分為以下幾類。

        1)基于模型預(yù)測控制(Model Predictive Control, MPC)或稱滾動優(yōu)化[8]。該方法利用一個預(yù)測模型求解當(dāng)下的最優(yōu)策略,如此隨時間向前推進(jìn)。文獻(xiàn)[9]中提出了風(fēng)儲聯(lián)合電站協(xié)調(diào)調(diào)度運(yùn)行的框架。然而,MPC方法的性能依賴預(yù)測的精度。在最壞的情況下,與無預(yù)測的貪婪算法相比,MPC并不能帶來更好的性能[10]。

        2)基于兩階段魯棒優(yōu)化或者隨機(jī)規(guī)劃。隨機(jī)規(guī)劃假設(shè)不確定量的分布已知,對目標(biāo)函數(shù)的期望值進(jìn)行優(yōu)化[11]。魯棒優(yōu)化考慮不確定集合中的最壞情況[12]。如采用隨機(jī)規(guī)劃方法研究風(fēng)儲聯(lián)合電站參與電力市場問題[13],采用魯棒優(yōu)化的方法研究風(fēng)儲聯(lián)合電站在微網(wǎng)中的能量管理問題[14]。這一類方法的主要問題在于,第二階段需要假設(shè)所有時段的不確定量都已獲知后才能做出決策,無法用于在線調(diào)度。

        3)以Lyapunov優(yōu)化[15]為代表的在線優(yōu)化方法,這一類方法既不需要預(yù)測也不需要?dú)v史數(shù)據(jù)。通過構(gòu)造儲能荷電狀態(tài)的虛擬隊(duì)列,將隊(duì)列長度作為懲罰項(xiàng)加入目標(biāo)函數(shù),從而將時段耦合的優(yōu)化問題分解為單時段決策。文獻(xiàn)[16]將Lyapunov優(yōu)化用于風(fēng)儲聯(lián)合電站的實(shí)時調(diào)度,提升長期收益。此類方法的共性問題在于懲罰項(xiàng)引入目標(biāo)函數(shù)可能會影響算法性能,導(dǎo)致得到的策略具有保守性。此外,完全忽略歷史數(shù)據(jù)與預(yù)測信息也會影響策略的最優(yōu)性。

        4)基于以強(qiáng)化學(xué)習(xí)為代表的近似動態(tài)規(guī)劃算法。相比于前兩類方法,強(qiáng)化學(xué)習(xí)為數(shù)據(jù)驅(qū)動,其本身不依賴預(yù)測信息且便于實(shí)現(xiàn)在線決策。而相比于Lyapunov優(yōu)化,強(qiáng)化學(xué)習(xí)可以充分利用歷史數(shù)據(jù)的價值。強(qiáng)化學(xué)習(xí)在電力系統(tǒng)調(diào)度問題中已有較多應(yīng)用[17-19]。特別地,對于風(fēng)儲聯(lián)合電站的調(diào)度,目標(biāo)包括最小化棄風(fēng)[20]和最大化收益[21]等。

        在強(qiáng)化學(xué)習(xí)算法中,深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法[22]適用于狀態(tài)和動作都為連續(xù)量的場景,和風(fēng)儲聯(lián)合電站的調(diào)度問題兼容性較好。然而,在不依賴預(yù)測的前提下,鮮有研究將DDPG算法應(yīng)用于風(fēng)儲聯(lián)合電站的實(shí)時自調(diào)度中。如文獻(xiàn)[23]將DDPG算法用于風(fēng)儲聯(lián)合電站日前調(diào)度,文獻(xiàn)[24]研究風(fēng)光儲聯(lián)合系統(tǒng)在線調(diào)度,都使用了預(yù)測信息,性能依賴預(yù)測精度。此外,當(dāng)調(diào)度時段較多時,各時段策略函數(shù)不同,離線訓(xùn)練效率降低;由于給儲能充電沒有即時收益,在訓(xùn)練時智能體容易短視而影響性能。這些也大大增加了DDPG算法應(yīng)用于本文問題的難度。

        Lyapunov優(yōu)化利用了系統(tǒng)運(yùn)行模型,可以有效規(guī)避不可行的調(diào)度動作和低收益動作,作為先驗(yàn)知識提升DDPG的探索效率;DDPG則可以充分利用歷史數(shù)據(jù)的價值,通過訓(xùn)練,降低Lyapunov優(yōu)化的保守性。鑒于二者具有互補(bǔ)性,本文提出高效DDPG算法。以Lyapunov優(yōu)化作為基礎(chǔ)策略,用于初始化DDPG的訓(xùn)練,求取風(fēng)儲聯(lián)合電站實(shí)時自調(diào)度策略,實(shí)現(xiàn)不依賴風(fēng)電出力和電價預(yù)測的場站級在線決策。最后對實(shí)際數(shù)據(jù)進(jìn)行算例分析,通過和經(jīng)典DDPG算法的對比,驗(yàn)證了所提策略的有效性。

        1 風(fēng)儲聯(lián)合電站自調(diào)度的數(shù)學(xué)模型

        風(fēng)儲電站及其內(nèi)部潮流如圖1所示。電站通過一條輸電線和主網(wǎng)相連,其傳輸容量是有限的。風(fēng)能既可以直接通過傳輸線送到電網(wǎng),也可以儲存在配套儲能中。儲能從風(fēng)機(jī)充電,向電網(wǎng)放電。為了提高收益,風(fēng)儲電站需要在電價低時儲存風(fēng)能,在電價高時賣出電能。然而在實(shí)時自調(diào)度的場景下,未來風(fēng)電出力和電網(wǎng)電價是不確定的,傳統(tǒng)優(yōu)化模型只能作為離線策略提供最優(yōu)值的基準(zhǔn),并不能提供在線策略。以下分別描述離線模型和在線模型。

        圖1 風(fēng)儲電站及其內(nèi)部潮流

        1.1 離線模型

        由于各階段狀態(tài)不存在不確定量,式(8)退化為式(10),形式上屬于線性規(guī)劃。

        1.2 在線模型

        為了得到性能較優(yōu)的策略,實(shí)現(xiàn)在線自調(diào)度模型(14)的求解,本文先基于Lyapunov優(yōu)化理論得到一個基礎(chǔ)調(diào)度策略,用該策略生成初始樣本。隨后提出高效DDPG算法,訓(xùn)練智能體改進(jìn)基礎(chǔ)調(diào)度策略。

        2 基于Lyapunov優(yōu)化的基礎(chǔ)調(diào)度策略

        選擇二次函數(shù)(19)為Lyapunov函數(shù)[15]。

        相鄰兩個時期的Lyapunov函數(shù)增量定義為漂移,即

        、和為常矩陣,為常向量,即

        3 基于DDPG的改進(jìn)調(diào)度策略

        基于Lyapunov優(yōu)化的基礎(chǔ)調(diào)度策略求解速度快,然而,由于完全忽略了歷史數(shù)據(jù)和預(yù)測信息,可導(dǎo)致應(yīng)用效果偏保守或貪婪,在一定程度上損失了最優(yōu)性。本節(jié)在基礎(chǔ)策略的基礎(chǔ)上,利用歷史數(shù)據(jù)通過DDPG算法改善策略的表現(xiàn)?;A(chǔ)策略利用了系統(tǒng)模型,提升了智能體的探索效率,相比于經(jīng)典DDPG性能更好。

        3.1 自調(diào)度的MDP表述

        式(14)可以看作一個馬爾可夫決策過程(Markov Decision Process, MDP)[27]。

        SOC的狀態(tài)轉(zhuǎn)移由式(5)描述。如果忽略實(shí)時電價和風(fēng)機(jī)實(shí)時出力的長程相關(guān)性,可近似認(rèn)為下一時期的狀態(tài)不受過去時期狀態(tài)和動作的影響,而受到當(dāng)前時期狀態(tài)和動作的影響,由此體現(xiàn)了MDP表述的合理性。

        3.2 DDPG算法

        表1 DDPG神經(jīng)網(wǎng)絡(luò)

        Tab.1 Neural networks of DDPG

        訓(xùn)練時,Actor評估網(wǎng)絡(luò)的目標(biāo)為最大化其輸出動作的函數(shù)值,其損失函數(shù)為

        Critic評估網(wǎng)絡(luò)的目標(biāo)是最小化和目標(biāo)網(wǎng)絡(luò)之間的時間差分損失。

        3.3 動作降維

        式中,relu()定義為當(dāng)>0時,relu()=;否則,relu()=0。

        可以驗(yàn)證,采用式(38)替換3.1節(jié)中原有獎勵式(28)得到新的MDP問題,其最優(yōu)策略及最優(yōu)值都是不變的,因此該問題和式(14)仍是等價的,但是訓(xùn)練難度降低了。

        3.4 策略初始化與高效DDPG算法

        引入基于基礎(chǔ)策略的樣本初始化和專家機(jī)制后,求解自調(diào)度MDP模型的高效DDPG算法結(jié)構(gòu)如圖2所示。

        圖2 高效DDPG算法結(jié)構(gòu)

        表2 高效DDPG算法訓(xùn)練流程

        Tab.2 Efficien DDPG algorithm training process

        算法1是在基礎(chǔ)調(diào)度策略樣本的基礎(chǔ)上進(jìn)一步訓(xùn)練。相比于之前的基礎(chǔ)策略,性能有進(jìn)一步的提升。當(dāng)訓(xùn)練完成后,Actor評估網(wǎng)絡(luò)可以直接用于調(diào)度動作的生成,由此得到表3中的改進(jìn)調(diào)度策略。由于神經(jīng)網(wǎng)絡(luò)的前饋在ms級時間即可完成,該策略是實(shí)時的,滿足在線需求,并且不依賴于對未來不確定量的預(yù)測。但由于利用了歷史數(shù)據(jù),電價與風(fēng)電出力的日變化模式包含在了最優(yōu)動作價值函數(shù)式(29)中,因此具有一定前瞻性,可以獲得比基礎(chǔ)策略更好的性能。

        表3 改進(jìn)調(diào)度策略

        Tab.3 Real-time self-dispatch improved strategy

        4 算例分析

        圖3 風(fēng)機(jī)實(shí)時出力(測試集)

        圖4 實(shí)時電價(測試集)

        表4 風(fēng)儲電站參數(shù)

        Tab.4 Wind - storage power plant parameters

        表5 高效DDPG算法的超參數(shù)

        Tab.5 Hyperparameters of the improved DDPG algorithm

        表6 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和優(yōu)化器

        Tab.6 Structure and optimizer of neural networks

        圖5 神經(jīng)網(wǎng)絡(luò)權(quán)重—訓(xùn)練輪次曲線

        在測試集上測試改進(jìn)調(diào)度策略、經(jīng)典DDPG算法訓(xùn)練的智能體及基礎(chǔ)調(diào)度策略三種算法,結(jié)果見表7。在運(yùn)行效果方面,三種策略不可行點(diǎn)數(shù)都為0,說明這些策略都運(yùn)行在安全范圍內(nèi),沒有給出越界的調(diào)度動作;在SOC方面,改進(jìn)策略的平均日最大SOC高于經(jīng)典DDPG,但都小于12%,說明儲能容量比較充足,而基礎(chǔ)調(diào)度策略的平均日最大SOC高達(dá)43.68%,這是因?yàn)長yapunov漂移懲罰項(xiàng)傾向于將SOC穩(wěn)定在50%附近;在收益方面,改進(jìn)調(diào)度策略的性能最好,經(jīng)典DDPG算法的效果最差,前者比后者收益增加了2.60%,比基礎(chǔ)調(diào)度策略增加了1.80%。由此可見,在基礎(chǔ)調(diào)度策略基礎(chǔ)上進(jìn)行的DDPG訓(xùn)練提升了其性能,而基礎(chǔ)策略的樣本初始化及專家機(jī)制這一改進(jìn)也明顯提升了DDPG的訓(xùn)練效果。在運(yùn)行過程中,改進(jìn)調(diào)度策略給出的調(diào)度動作都是可行的且平均收益相對其他兩種策略都有明顯提升,證明了算法的有效性。

        表7 平均性能比較(測試集)

        Tab.7 Average performance comparison (test set)

        為了進(jìn)一步對比策略的性能,選取測試集第19天,對比改進(jìn)調(diào)度策略和基礎(chǔ)調(diào)度策略的放電功率,如圖6所示,其SOC曲線如圖7所示。可以看到這一天的電價波動較大,凌晨時在22$/(MW·h)以下而下午則一度逼近30$/(MW·h)?;A(chǔ)策略的充電行為波動劇烈,放電行為出現(xiàn)在11:00電價上漲之后,然而隨著SOC的下降,式(20)中的Lyapunov漂移懲罰項(xiàng)開始影響決策,在臨近15:00出現(xiàn)了“高價充電”的情況;此外,在3:00附近由于長時間滿充,SOC較高,類似地也出現(xiàn)了“低價不充”的現(xiàn)象。這些都影響了其最終的收益。而改進(jìn)策略的充電行為比較平滑,如在0:00~5:00時SOC較低且電價有下降趨勢,因此不斷增加充電功率,5:00以后SOC達(dá)到較高水平且電價有上升趨勢,因此充電功率迅速減小。由此,改進(jìn)策略基本滿足“低充高放”,且改進(jìn)策略對電價變化的響應(yīng)非常靈敏。

        圖6 放電功率對比(測試集第19天)

        圖7 SOC對比(測試集第19天)

        圖8 隨機(jī)權(quán)重對算法結(jié)果的影響

        圖9 容量變化對算法結(jié)果的影響

        5 結(jié)論

        本文針對傳輸線并網(wǎng)的風(fēng)儲聯(lián)合電站的實(shí)時自調(diào)度問題,從并網(wǎng)上電經(jīng)濟(jì)收益最大化目標(biāo)出發(fā),利用基于Lyapunov優(yōu)化的基礎(chǔ)調(diào)度策略,由高效DDPG算法得到改進(jìn)調(diào)度策略。通過和經(jīng)典DDPG算法的對比,論證了該策略的有效性。結(jié)果表明:

        1)改進(jìn)調(diào)度策略在提升經(jīng)濟(jì)收益方面效果較佳。第4節(jié)的仿真算例表明,在風(fēng)電和電價等預(yù)測信息未知的條件下,本文所提方法相比于基礎(chǔ)調(diào)度策略和經(jīng)典DDPG算法得到的調(diào)度策略,平均收益都有明顯提升。

        2)基礎(chǔ)調(diào)度策略引入了額外的保守性,經(jīng)典DDPG算法容易陷入不給儲能充電的解。高效DDPG算法用基礎(chǔ)調(diào)度策略進(jìn)行初始化并引入專家機(jī)制,訓(xùn)練效率高。由此得到的改進(jìn)調(diào)度策略更充分地利用了儲能的存儲容量,對電價變化的響應(yīng)靈敏。

        3)高效DDPG算法收斂性較好。離線訓(xùn)練的智能體在線應(yīng)用,滿足了自調(diào)度的實(shí)時性需求。

        [1] 國家能源局. 2021年全國電力工業(yè)統(tǒng)計(jì)數(shù)據(jù)[EB/OL]. [2022-01-26]. http://www.nea.gov.cn/2022-01/26/c_1310441589.htm.

        [2] 國家能源局. 截至3月底全國發(fā)電裝機(jī)容量約24億千瓦,3月份可再生能源發(fā)電量較快增長.[EB/OL]. [2022-04-22]. http://www.nea.gov.cn/2022-04/22/c_ 1310569074.htm.

        [3] 姜書鵬, 喬穎, 徐飛, 等. 風(fēng)儲聯(lián)合發(fā)電系統(tǒng)容量優(yōu)化配置模型及敏感性分析[J]. 電力系統(tǒng)自動化, 2013, 37(20): 16-21.

        Jiang Shupeng, Qiao Ying, Xu Fei, et al. Capacity optimization and sensitivity analysis of cogeneration system of wind power and energy storage[J]. Automation of Electric Power Systems, 2013, 37(20): 16-21.

        [4] 陸秋瑜, 羅澍忻, 胡偉, 等. 集群風(fēng)儲聯(lián)合系統(tǒng)廣域協(xié)調(diào)控制及利益分配策略[J]. 電力系統(tǒng)自動化, 2019, 43(20): 183-191.

        Lu Qiuyu, Luo Shuxin, Hu Wei, et al. Wide-area coordinated control and benefit assignment strategy of clustering wind-energy storage integrated system[J]. Automation of Electric Power Systems, 2019, 43(20): 183-191.

        [5] 孫輝, 劉鑫, 賁馳, 等. 含風(fēng)儲一體化電站的電力系統(tǒng)多目標(biāo)風(fēng)險(xiǎn)調(diào)度模型[J]. 電力系統(tǒng)自動化, 2018, 42(5): 94-101.

        Sun Hui, Liu Xin, Ben Chi, et al. Multi-objective risk scheduling model of power system containing power station with integrated wind power and energy storage[J]. Automation of Electric Power Systems, 2018, 42(5): 94-101.

        [6] 王佳麗. 探路風(fēng)電預(yù)報(bào)[J]. 能源, 2014(3): 74-76.

        Wang Jiali. Pathfinder wind power forecast[J]. Energy, 2014(3): 74-76.

        [7] 姚子麟, 張亮, 鄒斌, 等. 含高比例風(fēng)電的電力市場電價預(yù)測[J]. 電力系統(tǒng)自動化, 2020, 44(12): 49-55.

        Yao Zilin, Zhang Liang, Zou Bin, et al. Electricity price prediction for electricity market with high proportion of wind power[J]. Automation of Electric Power Systems, 2020, 44(12): 49-55.

        [8] García C E, Prett D M, Morari M. Model predictive control: theory and practice—a survey[J]. Automatica, 1989, 25(3): 335-348.

        [9] Xie Le, Gu Yingzhong, Eskandari A, et al. Fast MPC-based coordination of wind power and battery energy storage systems[J]. Journal of Energy Engineering, 2012, 138(2): 43-53.

        [10] Lin Minghong, Liu Zhenhua, Wierman A, et al. Online algorithms for geographical load balancing[C]//2012 International Green Computing Conference (IGCC), San Jose, 2012: 1-10.

        [11] Wu Hongyu, Shahidehpour M, Li Zuyi, et al. Chance-constrained day-ahead scheduling in stochastic power system operation[J]. IEEE Transactions on Power Systems, 2014, 29(4): 1583-1591.

        [12] Ben-Tal A, Nemirovski A. Robust solutions of uncertain linear programs[J]. Operations Research Letters, 1999, 25(1): 1-13.

        [13] Garcia-Gonzalez J, de la Muela R M R, Santos L M, et al. Stochastic joint optimization of wind generation and pumped-storage units in an electricity market[J]. IEEE Transactions on Power Systems, 2008, 23(2): 460-468.

        [14] Lara J D, Olivares D E, Ca?izares C A. Robust energy management of isolated microgrids[J]. IEEE Systems Journal, 2019, 13(1): 680-691.

        [15] Neely M J. Stochastic network optimization with application to communication and queueing systems[M]. Berlin: Springer, 2010.

        [16] Guo Zhongjie, Wei Wei, Chen Laijun, et al. Real-time self-dispatch of a remote wind-storage integrated power plant without predictions: explicit policy and performance guarantee[J]. IEEE Open Access Journal of Power and Energy, 2021, 8: 484-496.

        [17] 趙冬梅, 陶然, 馬泰屹, 等. 基于多智能體深度確定策略梯度算法的有功-無功協(xié)調(diào)調(diào)度模型[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(9): 1914-1925.

        Zhao Dongmei, Tao Ran, Ma Taiyi, et al. Active and reactive power coordinated dispatching based on multi-agent deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2021, 36(9): 1914-1925.

        [18] 李濤, 胡維昊, 李堅(jiān), 等. 基于深度強(qiáng)化學(xué)習(xí)算法的光伏-抽蓄互補(bǔ)系統(tǒng)智能調(diào)度[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(13): 2757-2768.

        Li Tao, Hu Weihao, Li Jian, et al. Intelligent economic dispatch for PV-PHS integrated system: a deep reinforcement learning-based approach[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2757-2768.

        [19] 刁浩然, 楊明, 陳芳, 等. 基于強(qiáng)化學(xué)習(xí)理論的地區(qū)電網(wǎng)無功電壓優(yōu)化控制方法[J]. 電工技術(shù)學(xué)報(bào), 2015, 30(12): 408-414.

        Diao Haoran, Yang Ming, Chen Fang, et al. Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory[J]. Transactions of China Electrotechnical Society, 2015, 30(12): 408-414.

        [20] 梁煜東, 陳巒, 張國洲, 等. 基于深度強(qiáng)化學(xué)習(xí)的多能互補(bǔ)發(fā)電系統(tǒng)負(fù)荷頻率控制策略[J]. 電工技術(shù)學(xué)報(bào), 2022, 37(7): 1768-1779.

        Liang Yudong, Chen Luan, Zhang Guozhou, et al. Load frequency control strategy of hybrid power generation system: a deep reinforcement learning—based approach[J]. Transactions of China Electrotechnical Society, 2022, 37(7): 1768-1779.

        [21] 于一瀟, 楊佳峻, 楊明, 等. 基于深度強(qiáng)化學(xué)習(xí)的風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度[J]. 電力系統(tǒng)自動化, 2021, 45(1): 132-140.

        Yu Yixiao, Yang Jiajun, Yang Ming, et al. Prediction and decision integrated scheduling of energy storage system in wind farm based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(1): 132-140.

        [22] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[EB/OL]. 2019: arXiv: 1509.02971. https://arxiv.org/abs/1509. 02971

        [23] 蔡新雷, 崔艷林, 董鍇, 等. 基于改進(jìn)K-means和MADDPG算法的風(fēng)儲聯(lián)合系統(tǒng)日前優(yōu)化調(diào)度方法[J]. 儲能科學(xué)與技術(shù), 2021, 10(6): 2200-2208.

        Cai Xinlei, Cui Yanlin, Dong Kai, et al. Day-ahead optimal scheduling approach of wind-storage joint system based on improved K-means and MADDPG algorithm[J]. Energy Storage Science and Technology, 2021, 10(6): 2200-2208.

        [24] 張淑興, 馬馳, 楊志學(xué), 等. 基于深度確定性策略梯度算法的風(fēng)光儲系統(tǒng)聯(lián)合調(diào)度策略[J/OL]. 中國電力, 2022: 1-9. [2022-07-03]. http:// kns.cnki.net/ kcms/ detail/11.3265.TM.20211115.1426.002.html.

        Zhang Shuxing, Ma Chi, Yang Zhixue, et al. Joint dispatch of wind-photovoltaic-storage hybrid system based on deep deterministic policy gradient algorithm [J/OL]. Electric Power, 2022: 1-9. [2022-07-03]. http://kns.cnki.net/kcms/detail/11.3265.TM. 20211115. 1426.002.html.

        [25] Shen Ziqi, Wei Wei, Wu Danman, et al. Modeling arbitrage of an energy storage unit without binary variables[J]. CSEE Journal of Power and Energy Systems, 2021, 7(1): 156-161.

        [26] 束金龍, 聞人凱. 線性規(guī)劃理論與模型應(yīng)用[M]. 北京: 科學(xué)出版社, 2003.

        [27] Sigaud O, Buffet O. Markov decision processes in artificial intelligence[M]. New York: John Wiley & Sons, 2013.

        Efficient Deep Deterministic Policy Gradient Algorithm for Real-Time Self-Dispatch of Wind-Storage Power Plant

        Song Yuhao1Wei Wei1Huang Shaowei1Wu Qiren2Mei Shengwei1

        (1. Department of Electrical Engineering Tsinghua University Beijing 100084 China 2. China Three Gorges Renewables (Group) Co. Ltd Beijing 101100 China)

        The development of wind power and other renewable energy is of great significance to achieve the dual carbon goal, and the wind-storage power plant is the main form of wind power connected to the power grid in the future. This paper studies the real-time self-dispatch problem of the wind-storage power plant commercialized on the generating side, with the goal of maximizing its expected income. Due to the large prediction error of the field-level wind power and the difficulty in accurately predicting the electricity price of the grid due to the limited information of independent power producers, the real-time self-dispatch of the wind-storage power plant is faced with multiple uncertainties, which is extremely challenging. In this paper, an efficient DDPG algorithm was proposed to solve the real-time self-dispatch strategy of the wind-storage power plant, and realize the field-level online decision-making independent of prediction. Firstly, Lyapunov optimization was used to construct the basic strategy to obtain a good but not necessarily local optimal strategy. Then, samples were pre-generated by the basic strategy to initialize the experience base and improve the search efficiency. Further, DDPG algorithm with expert mechanism was applied to train the locally optimal self-scheduling strategy. Case study shows that compared with the basic dispatch strategy and the classical DDPG, the proposed method can effectively improve the average revenue of the wind-storage power plant.

        Wind-storage power plant, real-time self-dispatch, Lyapunov optimization, deep deterministic policy gradient(DDPG)

        10.19595/j.cnki.1000-6753.tces.220979

        TM614

        中國長江三峽集團(tuán)有限公司科研項(xiàng)目資助(202003128)。

        2022-05-30

        2022-07-18

        宋煜浩 男,1998年生,博士研究生,研究方向?yàn)閮δ芗夹g(shù)的應(yīng)用。E-mail:3160871816@qq.com

        黃少偉 男,1985年生,博士,副研究員,碩士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄茉陔娏ο到y(tǒng)中的應(yīng)用。E-mail:huangsw@mail.tsinghua.edu.cn(通信作者)

        (編輯 赫蕾)

        猜你喜歡
        優(yōu)化策略
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        尤物在线观看一区蜜桃| 久久露脸国产精品WWW| 久久综合激激的五月天| 在线观看国产激情视频| 国产做国产爱免费视频| 夜夜揉揉日日人人| 日韩av中出在线免费播放网站| 91精品国产综合久久国产| 久久久久99人妻一区二区三区| 天天躁狠狠躁狠狠躁夜夜躁| 无码毛片高潮一级一免费| 亚洲综合偷拍一区二区 | av人摸人人人澡人人超碰下载| 中文国产日韩欧美二视频| 野外三级国产在线观看| 国产午夜激情视频在线看| 亚洲国产成人精品无码区在线播放| 亚洲欧美在线观看| 中文字幕天天躁日日躁狠狠| 男人天堂亚洲一区二区| 人妻少妇乱子伦无码视频专区| 最新亚洲人成无码网站| 绿帽人妻被插出白浆免费观看| 亚洲av一区二区三区色多多| 亚洲欧美综合区自拍另类| 激情五月天伊人久久| 美腿丝袜网址亚洲av| 丰满熟妇乱又伦精品| 亚洲尺码电影av久久| 视频网站在线观看不卡| 亚洲综合网国产精品一区| 一本加勒比hezyo无码人妻 | 精品国产乱来一区二区三区| 亚洲乱码av中文一区二区| 亚洲av成人无码网站…| 久久99中文字幕久久| 日本女优激情四射中文字幕 | 人人爽亚洲aⅴ人人爽av人人片| 日韩精品视频免费在线观看网站| 狠狠躁夜夜躁人人爽天天古典| 久久久久亚洲女同一区二区|