亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的風儲合作決策方法

        2023-09-21 09:44:20翟蘇巍李文云邱振宇張新怡侯世璽
        智慧電力 2023年9期
        關鍵詞:電能系統(tǒng)

        翟蘇巍,李文云,邱振宇,張新怡,侯世璽

        (1.中國南方電網(wǎng)云南電網(wǎng)有限責任公司電力科學研究院,云南昆明 650217;2.中國南方電網(wǎng)云南電力調度控制中心,云南昆明 650011;3.河海大學物聯(lián)網(wǎng)工程學院,江蘇南京 210098)

        0 引言

        隨著全球資源短缺以及人類不斷增長的生活需求,世界各國積極呼吁進行節(jié)能減排,同時大力開發(fā)與研究清潔低碳能源,進一步加速全球能源轉型[1-2]。常用清潔能源有風能、太陽能以及潮汐能等,風力發(fā)電憑借其資源豐富、成本低廉、技術相對成熟等優(yōu)勢,被認為是代替?zhèn)鹘y(tǒng)不可再生能源的首選[3-5]。但風能與環(huán)境因素有著極大的相關性,使其發(fā)電呈現(xiàn)隨機性、不可控性、波動性等特點,嚴重影響電力系統(tǒng)的功率平衡,威脅電網(wǎng)的穩(wěn)定安全運行[6-9]。研究表明,在風電場配備具有調節(jié)能力的儲能系統(tǒng)可緩解以上問題,由此促使風儲合作系統(tǒng)成為近年來的研究熱點[10-11]。

        目前,無需建立精確模型的強化學習算法在電力系統(tǒng)實時優(yōu)化領域應用廣泛[12-16]。在風儲合作決策方面,國內外學者進行了初步探索[17-21],但仍存在一些問題:(1)現(xiàn)有風儲合作系統(tǒng)研究幾乎未考慮柔性負荷;(2)對基于強化學習的風儲合作決策方法缺乏深入研究。研究表明,在風儲合作系統(tǒng)中,對需求側柔性負荷進行適當管理可以顯著提高合作收益[22-24]。此外,現(xiàn)有研究僅采用深度Q 網(wǎng)絡(Deep Q-Network,DQN)等傳統(tǒng)方法,收益有待提升[25-27]。因此,有必要對現(xiàn)有深度強化學習方法進行優(yōu)化以進一步提高風儲合作系統(tǒng)的應用價值。

        綜上所述,針對最大化風儲合作收益問題,提出一種基于深度強化學習的風儲合作決策方法。研究的創(chuàng)新之處在于:構建了一種考慮恒溫可控負荷和居民價格響應負荷的新型風儲合作系統(tǒng),提出競爭雙深度Q 網(wǎng)絡(Dueling-Double-Deep QNetwork,D3QN),并運用D3QN 對風儲合作系統(tǒng)進行優(yōu)化決策。算例分析表明所提算法在提高風儲合作系統(tǒng)收益方面具有顯著的優(yōu)勢。

        1 風儲合作系統(tǒng)

        本文設計的風儲合作系統(tǒng)如圖1 所示。

        圖1 風儲合作系統(tǒng)Fig.1 Wind-storage cooperative system

        由圖1 可知,風儲合作系統(tǒng)包括外部大電網(wǎng)、風電場(Wind Farm,WF)、居民價格響應負荷(Residential Price-responsive Load,RPL)、恒溫可控負荷(Thermostatically Controlled Load,TCL)、儲能系統(tǒng)(Energy Storage System,ESS)、能源控制器(Energy Controller,EC)。其中,EC 負責TCL 的開關控制、ESS 的充放電控制以及系統(tǒng)與外部大電網(wǎng)之間的電能交易控制。

        1.1 系統(tǒng)電源

        風儲合作系統(tǒng)電源包括外部大電網(wǎng)、WF、ESS。考慮到風電的間歇性和不可控性,單獨使用WF 無法平衡系統(tǒng)內電能供需關系,因此系統(tǒng)需接入外部大電網(wǎng)。風電短缺時,外部大電網(wǎng)可為系統(tǒng)提供電能;風電過剩時,外部大電網(wǎng)也可接收多余電能。為體現(xiàn)場景真實性,向外部大電網(wǎng)采購或賣出電能均采用電力市場t時刻上調電價和下調電價。

        傳統(tǒng)風儲合作系統(tǒng)往往采用風力發(fā)電數(shù)學模型模擬真實風電場,但由于風電場運行場景多變,數(shù)學模型往往難以精確描述。目前,世界范圍內芬蘭的風儲合作系統(tǒng)發(fā)展較為成熟,需求側柔性負荷相關參數(shù)完善,為了盡可能貼合實際風電場的應用需求,測試系統(tǒng)的真實可用性,本文使用芬蘭某風電場1 a 的實際發(fā)電數(shù)據(jù)來進行研究[23]。

        社區(qū)儲能系統(tǒng)作為第三方投資的集中式獨立儲能電站,能夠將分散的電網(wǎng)側、電源側、用戶側儲能資源整合并優(yōu)化配置,實現(xiàn)儲能資源統(tǒng)一調度,且可實施精準充放電控制,提高電力系統(tǒng)柔性調節(jié)能力。基于社區(qū)儲能系統(tǒng)的優(yōu)點,為合理優(yōu)化用能配置、降低用能成本、提高經(jīng)濟效益,本文研究均采用社區(qū)儲能系統(tǒng),其ESS 模型為:

        t時刻ESS 的荷電狀態(tài)(State of Charge,SOC)用物理量表示,其表達式為:

        式中:Bmax為ESS 最大存儲電能。

        EC 實施ESS 充放電控制流程可概括為2 部分:(1)EC 給出充電信號后,先參考值以判斷ESS 是否可充電,再根據(jù)實際情況進行充電,將過剩電能出售給外部大電網(wǎng);(2)EC 給出放電信號后,ESS 再次對相關條件進行驗證以判斷操作可行性并釋放所需電能,若ESS 出現(xiàn)電能短缺,則由外部大電網(wǎng)提供差額部分電能,EC 來支付相應采購費用。

        1.2 居民負荷

        1.2.1 恒溫可控負荷

        TCL 因體量大、控制靈活、能量熱守恒等特點,成為電網(wǎng)重要的柔性資源。假設絕大多數(shù)居民家庭均配備空調、熱水器、冰箱等TCL,且每個TCL 均配備獨立控制器。獨立控制器首先從TCL 聚合器接收動作指令,然后驗證溫度約束以修改動作,從而將溫度保持在可接受的范圍內。t時刻第i個TCL 修改后的動作指令為:

        1.2.2 居民價格響應負荷

        假設居民每日用電量由居民日?;A用電量和受電價影響的柔性負荷組成,其中柔性負荷是指在使用時間上存在一定自由度的用電設備,能夠在用戶可接受的時間范圍內提前或延后運行。在居民價格響應負荷模塊中,t時刻第h個居民用電負荷為:

        2 風儲合作決策

        2.1 雙競爭深度Q網(wǎng)絡

        現(xiàn)有研究將DQN 和狀態(tài)行為價值網(wǎng)絡(State Action Reward State Action,SARSA)等強化學習策略用于風儲合作決策。DQN 和SARSA 的缺點為:(1)DQN 和SARSA 均采用同一網(wǎng)絡生成期望值和最大期望值,導致神經(jīng)網(wǎng)絡的時序差分目標不斷變動,不利于算法的收斂以及神經(jīng)網(wǎng)絡參數(shù)的最終穩(wěn)定;(2)在訓練前期模型不夠穩(wěn)定時使用最大期望值可能會導致EC 對某一動作的預期收益估計存在偏差,進而做出錯誤決策,無法實現(xiàn)最優(yōu)決策。針對以上2 點問題,本文使用D3QN 算法對風儲合作系統(tǒng)進行優(yōu)化求解。與DQN 和SARSA 相比,D3QN 的區(qū)別在于:

        1)參考雙深度Q 網(wǎng)絡(Double DQN,DDQN),構造2 個結構相同的神經(jīng)網(wǎng)絡分別作為估計網(wǎng)絡和目標網(wǎng)絡。估計網(wǎng)絡用于選擇對應最大期望值的動作,其網(wǎng)絡參數(shù)不斷更新;目標網(wǎng)絡用于計算期望值的目標值y,其網(wǎng)絡參數(shù)固定不變,但每隔一段時間會更新為當前估計網(wǎng)絡參數(shù)的值。

        2)參考競爭深度Q 網(wǎng)絡(Dueling DQN,DDQN)對深度神經(jīng)網(wǎng)絡結構進行調整,將輸出端劃分為表征當前狀態(tài)好壞的“狀態(tài)—價值”函數(shù)V和衡量當前狀態(tài)下各個動作額外價值的優(yōu)勢函數(shù)W。D3QN中Q 網(wǎng)絡的輸出端函數(shù)F由V和W輸出的線性組合組成,其表達式為:

        2.2 風儲合作決策要素定義

        為運用深度強化學習方法解決風儲合作決策問題,需將風儲合作系統(tǒng)轉換為離散馬爾科夫決策模型,采用EC 根據(jù)系統(tǒng)各個模塊的反饋信息做出相應指令動作。對馬爾科夫決策模型各要素進行3項定義:

        1)狀態(tài)空間。狀態(tài)空間由EC 在t時刻決策時所使用的信息組成,包括可控狀態(tài)分量、外部狀態(tài)分量和時間相關分量??煽貭顟B(tài)分量包括EC 能夠直接或間接影響的所有變量,如和δt。外部狀態(tài)分量由EC 無法控制的所有變量組成,如t時刻溫度Tt、風力發(fā)電量Et及上調電價Mupt。時間相關分量包含模型中與時間強相關的信息。ECt時刻狀態(tài)空間st表達式為:

        2)動作空間。動作空間包括TCL 動作空間aTCL、電價動作空間apri、電能短缺動作空間aD和電能過剩動作空間aK,且aTCL,apri,aD,aK均為無量綱量。ECt時刻動作空間at表達式為:

        3)獎懲函數(shù)。深度強化學習算法的目標是最大化獎勵函數(shù)。對風儲合作系統(tǒng)而言,為使售電商收益最大化,懲罰函數(shù)為風力發(fā)電成本和電能傳輸成本之和,獎勵函數(shù)為運營毛利,即t時刻出售給負荷和外部大電網(wǎng)電能所獲收入It減去懲罰函數(shù)。因此,t時刻獎勵函數(shù)Rt和懲罰函數(shù)Jt為:

        3 算例分析

        為驗證本文所提D3QN 算法的優(yōu)越性,將DQN,SARSA,D3QN 3 種算法進行對比分析。研究算例所采用計算機配置為Windows11,Python3.8,Tensorflow1.14,CPU 為AMD R7-5800H,GPU 為RTX3060,內存為16 GB。ESS 參數(shù)、WF 參數(shù)、外部大電網(wǎng)參數(shù)、負荷參數(shù)、算法參數(shù)分別如表1—表5 所示。

        表1 ESS參數(shù)Table 1 ESS parameters

        表2 WF參數(shù)Table 2 WF parameters

        表3 外部大電網(wǎng)參數(shù)Table 3 External large power grid parameters

        表4 負荷參數(shù)Table 4 Load Parameters

        表5 算法參數(shù)Table 5 Algorithm parameters

        3.1 懲罰函數(shù)曲線

        懲罰值由風力發(fā)電成本、從外部電網(wǎng)購入電力成本、電力運輸費用構成。DQN,SARSA,D3QN 算法的懲罰函數(shù)曲線對比如圖2 所示。其中,損失值為無量綱量。

        圖2 DQN,SARSA,D3QN算法的懲罰函數(shù)曲線對比Fig.2 Comparison analysis of penalty function value curves using DQN,SARSA and D3QN

        由圖2 可知,3 種算法的懲罰值均隨著訓練次數(shù)的增加而減少并逐漸收斂,對比發(fā)現(xiàn)D3QN 算法的收斂性能較其他2 種算法表現(xiàn)更好。這是因為DQN 和SARSA 算法均采用同一網(wǎng)絡生成期望值和最大期望值,不利于算法收斂,而D3QN 使用2 個Q網(wǎng)絡來分別計算期望值和最大期望值,直接減少了相關性,進而提高了算法收斂能力。

        3.2 獎勵函數(shù)曲線

        DQN,SARSA,D3QN 算法的獎勵函數(shù)曲線對比如圖3 所示。其中,獎勵值為無量綱量。

        圖3 DQN,SARSA,D3QN算法的獎勵函數(shù)曲線對比Fig.3 Comparison analysis of reward function value curves using DQN,SARSA and D3QN

        由圖3 可知,DQN 算法的獎勵值波動較大且獎勵值普遍偏小,SARSA 算法的獎勵值雖然趨于穩(wěn)定,但獎勵值一直低于D3QN 算法。對比發(fā)現(xiàn)對于不同的訓練次數(shù),D3QN 算法的獎勵值均高于SARSA 算法和DQN 算法,說明D3QN 算法更優(yōu)。這是因為D3QN 的輸出端包含衡量各動作額外價值的優(yōu)勢函數(shù),有利于提高獎勵值。

        3 種算法訓練結果如表6 所示。

        表6 3種算法訓練結果Table 6 Training results of three algorithms

        由表6 可知,D3QN 算法的最終獎勵均值高于其他2 種算法,對比發(fā)現(xiàn)基于D3QN 算法的風儲合作系統(tǒng)整體性能得到了明顯的提升。

        3.3 收益對比分析

        為對3 種算法性能的優(yōu)劣進行更直觀的呈現(xiàn),選取10 d 數(shù)據(jù)來展示3 種算法所獲每日收益。10 d內每日收益對比如圖4 所示。

        圖4 10 d內每日收益對比圖Fig.4 Comparison analysis of daily profit for 10 days

        由圖4 可知,10 d 內SARSA 算法與D3QN 算法的每日收益都高于DQN 算法,且10 d 中有9 d D3QN 算法的表現(xiàn)均優(yōu)于SARSA 算法。說明基于D3QN 的風儲合作決策算法可充分協(xié)調風電、儲能、外部大電網(wǎng)、恒溫可控負荷、居民價格響應負荷,在提升系統(tǒng)收益方面具有顯著優(yōu)勢。

        4 結語

        本文針對最大化風儲合作收益問題,提出一種基于深度強化學習的風儲合作決策算法。算例分析表明,所提方法不僅避免了次優(yōu)策略選擇問題,且相比傳統(tǒng)深度強化學習算法,顯著提高了風儲合作系統(tǒng)收益。由于深度強化學習算法學習過程中訓練時間較長且對大量訓練樣本的依賴性較強,現(xiàn)階段該方法在實際工程中的應用仍存在一些挑戰(zhàn)。在未來的研究工作中仍需進一步探索解決,以便更好地將深度強化學習應用到實際系統(tǒng)中。

        猜你喜歡
        電能系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        蘋果皮可以產生電能
        基于PowerPC+FPGA顯示系統(tǒng)
        電能的生產和運輸
        海風吹來的電能
        半沸制皂系統(tǒng)(下)
        配網(wǎng)電能質量控制技術探討
        澎湃電能 助力“四大攻堅”
        人大建設(2018年2期)2018-04-18 12:17:00
        老头巨大挺进莹莹的体内免费视频| 亚洲av高清一区二区三区| 日本精品视频一区二区三区四区| 亚洲avav天堂av在线网毛片| 亚洲一区中文字幕在线电影网| 欧美深夜福利视频| 在线高清亚洲精品二区| 亚洲综合av一区二区三区蜜桃| 天天鲁在视频在线观看| 99成人精品| 最新国产主播一区二区| 二区三区三区视频在线观看| 97夜夜澡人人双人人人喊| 国产日韩欧美在线| 久久精品一区二区三区不卡牛牛| 久久国内精品自在自线| 国产av丝袜旗袍无码网站| 久久香蕉成人免费大片| av免费一区在线播放| 青青草 视频在线观看| 熟妇人妻av中文字幕老熟妇| 午夜国产一区二区三区精品不卡| 高清成人在线视频播放| 蜜臀av在线观看| 欧美 国产 日产 韩国 在线 | 亚洲精品中文字幕不卡| 丰满人妻一区二区三区免费视频| 比比资源先锋影音网| 日日躁欧美老妇| 一区二区三区在线少妇| 国产精品无码无片在线观看3d| 91高清国产经典在线观看| 一区二区三区少妇熟女高潮 | 亚洲日韩精品无码专区网址| 窝窝影院午夜看片| 久久婷婷免费综合色啪| 91精品人妻一区二区三区久久久| 久久精品麻豆日日躁夜夜躁| 五月婷婷影视| 一区二区三区四区黄色av网站 | 在线观看免费午夜大片|