亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的軌交飛輪儲能系統(tǒng)能量管理

        2025-01-31 00:00:00王寧曲建真張志強類延霄高信邁
        科技創(chuàng)新與應(yīng)用 2025年2期
        關(guān)鍵詞:能量管理深度強化學(xué)習(xí)

        摘" 要:隨著城市化進程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)的運營效率和能源利用效率受到越來越多的關(guān)注。飛輪儲能技術(shù)憑借其高功率循環(huán)能力,為軌道交通系統(tǒng)的能源利用問題提供新的解決方案。該文采用馬爾科夫決策過程來描述單飛輪儲能系統(tǒng)的能量管理問題,并使用基于深度Q網(wǎng)絡(luò)的強化學(xué)習(xí)算法來學(xué)習(xí)最優(yōu)的充放電閾值動態(tài)調(diào)整策略。通過在Matlab/Simulink平臺搭建仿真環(huán)境,對開發(fā)的能量管理算法進行測試,并將其結(jié)果與固定充放電閾值、隨機充放電閾值策略進行對比,表明該策略在提高電能利用效率和系統(tǒng)運行穩(wěn)定性方面具有顯著效果。

        關(guān)鍵詞:飛輪儲能系統(tǒng);能量管理;馬爾科夫決策過程;深度強化學(xué)習(xí);深度Q網(wǎng)絡(luò)

        中圖分類號:TP29" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)02-0030-05

        Abstract: With the acceleration of urbanization and the development of public transportation systems, the operational efficiency and energy utilization efficiency of subway systems have attracted more and more attention. Flywheel energy storage technology provides new solutions to energy utilization problems in rail transit systems with its high-power cycle capabilities. In this paper, Markov decision process is used to describe the energy management problem of a single flywheel energy storage system, and a reinforcement learning algorithm based on deep Q network is used to learn the optimal dynamic adjustment strategy for charge and discharge thresholds. By building a simulation environment on Matlab/Simulink platform, the developed energy management algorithm is tested, and the results are compared with fixed charge and discharge threshold strategies and random charge and discharge threshold strategies, which shows that this strategy has significant effects on improving power utilization efficiency and system operation stability.

        Keywords: flywheel energy storage system; energy management; Markov decision process; deep reinforcement learning; Deep Q-Network (DQN)

        隨著城市化進程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)作為城市重要的交通工具,其運營效率和能源利用效率受到越來越多的關(guān)注。傳統(tǒng)的地鐵系統(tǒng)在能源利用方面存在一定的局限性,如制動能量回收利用不足、電網(wǎng)負載波動等問題。飛輪儲能技術(shù)的出現(xiàn)為解決這些問題提供了新的解決方案,其循環(huán)和提供高功率以及高功率梯度的能力使其非常適合頻率調(diào)節(jié)、電壓支持和功率固定等存儲應(yīng)用[1],且與電池相比,容量不會因高倍率充放電而衰減,更能適應(yīng)極端的溫度和天氣,對日常維護的要求較低[2]。飛輪儲能系統(tǒng)能夠有效地捕獲和存儲列車制動過程中產(chǎn)生的能量,并在需要時釋放能量,從而提高能源利用效率。通過優(yōu)化飛輪儲能系統(tǒng)的能量管理方法,可以提高牽引網(wǎng)的能量流動效率,優(yōu)化儲能系統(tǒng)的節(jié)能、穩(wěn)壓效果。

        飛輪儲能系統(tǒng)的能量管理可以通過調(diào)整充放電閾值來實現(xiàn)。文獻[3]將充放電閾值作為一個隨牽引網(wǎng)壓和飛輪SOC變化的函數(shù),進行自適應(yīng)調(diào)整,這種能量管理策略的實現(xiàn)較為簡單,但考慮的狀態(tài)變量較少,采用的函數(shù)形式不足以擬合系統(tǒng)的特性,系統(tǒng)的節(jié)能功能仍有較大優(yōu)化空間。文獻[4]提出了一種基于多閾值的電壓-電流雙閉環(huán)控制策略,將飛輪儲能系統(tǒng)劃分了4種工作模式,以兼顧節(jié)能與穩(wěn)壓功能,此類策略同樣由于對系統(tǒng)的狀態(tài)信息利用不夠充分,難以實現(xiàn)最優(yōu)的節(jié)能與穩(wěn)壓效果。

        強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,其主要思想是讓智能體在動態(tài)環(huán)境中,通過嘗試不同的行為并觀察環(huán)境的反饋來學(xué)習(xí)最優(yōu)的行為策略。在強化學(xué)習(xí)中,不需要對數(shù)據(jù)進行事先標注,而是由智能體通過試錯和反饋來逐步改進自己的決策策略。通過不斷地嘗試不同的動作并根據(jù)環(huán)境的反饋進行學(xué)習(xí),智能體逐步調(diào)整其行為策略,以獲得更高的累積獎勵。深度強化學(xué)習(xí)是一種結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)的技術(shù),與傳統(tǒng)的強化學(xué)習(xí)方法相比,深度強化學(xué)習(xí)通過深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從狀態(tài)感知數(shù)據(jù)到動作的映射,從而能夠處理更加復(fù)雜的環(huán)境和任務(wù)。深度Q網(wǎng)絡(luò)(DQN)算法是眾多深度強化學(xué)習(xí)方法中的重要代表之一。DQN算法由DeepMind團隊于2013年提出[5],旨在解決離散動作空間下的強化學(xué)習(xí)問題。DQN的核心思想是通過Q-learning算法,利用神經(jīng)網(wǎng)絡(luò)逼近Q值函數(shù),從而學(xué)習(xí)到最優(yōu)的動作策略。

        基于深度強化學(xué)習(xí)的能量管理方法已經(jīng)在地面式超級電容等軌道交通用儲能系統(tǒng)中得到應(yīng)用[6-7]。在飛輪儲能系統(tǒng)能量管理中,深度強化學(xué)習(xí)可以被用來優(yōu)化系統(tǒng)的運行策略,以實現(xiàn)更高效的能量利用和更穩(wěn)定的運行。通過將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于飛輪儲能系統(tǒng)的控制策略中,系統(tǒng)可以通過訓(xùn)練優(yōu)化不同工況下的充放電閾值選擇,從而提高系統(tǒng)的能量轉(zhuǎn)換效率,降低能量損耗,適應(yīng)不同的運行條件和需求,在動態(tài)環(huán)境中實現(xiàn)更好的性能表現(xiàn)。

        1" 用于飛輪儲能系統(tǒng)能量管理的強化學(xué)習(xí)模型設(shè)計

        本文采用馬爾科夫決策過程(Markov Decision Process, MDP)來描述單飛輪儲能系統(tǒng)的充放電閾值動態(tài)調(diào)整問題,并使用強化學(xué)習(xí)算法來學(xué)習(xí)最優(yōu)策略。以下是本文對問題中狀態(tài)、動作空間和獎勵的定義。

        1.1" 狀態(tài)空間

        狀態(tài)空間S定義為問題中可能的所有狀態(tài)的集合,每個時刻的狀態(tài)s是環(huán)境的一種特定觀察結(jié)果。此問題中狀態(tài)s包括儲能系統(tǒng)自身SOC、儲能系統(tǒng)所在變電所的功率P、整流機組的輸出電壓urec和電流irec。s表示為

        s=[P,SOC,irec,urec]。

        1.2" 動作空間

        動作空間A定義為代理可以采取的所有可能動作的集合。每個動作a是代理在特定狀態(tài)下可以執(zhí)行的動作。本文采用動態(tài)調(diào)整飛輪儲能系統(tǒng)充放電閾值的方式來實現(xiàn)能量管理,在變電站的空載電壓uss0的基礎(chǔ)上,通過疊加充電閾值調(diào)整因子或減去放電閾值調(diào)整因子來得到充電閾值uc和放電閾值ud。為了方便使用DQN算法求解,本文對閾值調(diào)整因子的選擇進行了離散化。動作空間A包含所有充放電閾值選項的組合,表示為

        A={[uc=uss0+kcΔu,ud=uss0+kdΔu];kc,kd∈[1,N]},

        式中:Δu為充放電閾值的單位變化量。

        1.3" 獎勵函數(shù)

        獎勵函數(shù)r將當(dāng)前狀態(tài)和代理選擇的動作映射到一個實數(shù)值,用于評估代理在特定狀態(tài)下執(zhí)行特定動作后獲得的即時反饋,獲取最大累積獎勵為代理學(xué)習(xí)的目標。本文對獎勵函數(shù)r的定義基于時間步長內(nèi)節(jié)能率和穩(wěn)壓率的加權(quán)和,并將節(jié)能率和穩(wěn)壓率截斷在[-10,1]區(qū)間內(nèi),以減少訓(xùn)練過程中的梯度爆炸或梯度消失問題、加快模型的收斂速度,以及提高模型的泛化能力。為了保證算法的穩(wěn)定運行,在節(jié)能率、穩(wěn)壓率的計算中對分母極小的情況進行了特殊處理。

        k時刻的獎勵函數(shù)rk的定義如下

        rk=0.4min(max(ek,-10),1)+0.6min(max(vk,-10),1),

        式中:ek為k時刻前時間步長ΔT內(nèi)的節(jié)能率。

        式中:u、i為啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓和電流;u、i為未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓和電流。

        vk為k時刻前時間步長ΔT內(nèi)的穩(wěn)壓率

        式中:Δu、Δu分別為啟用和未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓高于設(shè)置的電壓上限時與電壓上限的差值的絕對值,若未高于電壓上限則取零;Δu、

        Δu分別為啟用和未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓低于設(shè)置的電壓下限時與電壓下限的差值的絕對值,若未低于電壓上限則取零。

        2" 基于DQN的能量管理算法實現(xiàn)

        本文應(yīng)用的基于DQN的能量管理算法訓(xùn)練流程如圖1所示。

        在DQN算法中,通過經(jīng)驗回放和目標網(wǎng)絡(luò)的設(shè)計,實現(xiàn)了對訓(xùn)練樣本的高效利用和訓(xùn)練過程的穩(wěn)定性提升。此外,采用了ε-greedy策略來探索動作空間,從而平衡訓(xùn)練中的探索和利用。在本文中,探索概率ε隨時間指數(shù)衰減,從訓(xùn)練開始時的εmax逐步衰減至80%的片段已完成時的εmax,隨后保持不變。本文選用的DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

        在本研究中,我們使用PyTorch搭建了一個由輸入層、2個隱藏層和輸出層組成的DQN模型。網(wǎng)絡(luò)的輸入為包含4個分量的歸一化狀態(tài)向量,每個隱藏層含有64個神經(jīng)元。選擇ReLU作為激活函數(shù),并使用均方誤差(MSE)作為損失函數(shù),用于優(yōu)化網(wǎng)絡(luò)參數(shù)。本文選取Adam優(yōu)化器作為優(yōu)化算法,Adam是一種常用的自適應(yīng)學(xué)習(xí)率優(yōu)化算法,能夠自動調(diào)節(jié)學(xué)習(xí)率并針對每個參數(shù)提供不同的更新步長,具有收斂速度快、能夠有效地處理稀疏梯度和噪聲等優(yōu)點。

        3" 模型訓(xùn)練與測試

        為了訓(xùn)練實現(xiàn)的DQN模型、評估能量管理策略的性能,借助MATLAB/Simulink平臺搭建了一個仿真環(huán)境,以模擬配置有單個飛輪儲能系統(tǒng)的變電所及其整流機組,并搭建了對照組以模擬電阻制動,用于計算節(jié)能率與穩(wěn)壓率。儲能系統(tǒng)所在變電所的功率P根據(jù)港鐵屯馬線的運行圖計算得出,并實時發(fā)送給仿真系統(tǒng)。飛輪儲能系統(tǒng)的Simulink模型如圖3所示。

        訓(xùn)練和測試中,假設(shè)變電站的空載電壓uss0為定值1 500 V,用于計算穩(wěn)壓率的電壓上限uh設(shè)置為1 520 V,下限ul設(shè)置為1 480 V。動作空間設(shè)計中N取3,充放電閾值的單位變化量Δu設(shè)置為40 V,可選的充放電閾值共有9種組合。

        深度強化學(xué)習(xí)算法的訓(xùn)練參數(shù)選擇見表1。

        圖4給出了基于深度強化學(xué)習(xí)的能量管理算法的學(xué)習(xí)曲線。深色曲線表示每個片段的總獎勵,淺色曲線表示片段總獎勵的移動平均值??梢杂^察到,隨著訓(xùn)練片段數(shù)量的增加,總獎勵總體上呈現(xiàn)出上升趨勢,這表明DQN在不斷學(xué)習(xí)和改進其策略,逐步優(yōu)化其能量管理效果。

        為了評估訓(xùn)練得到的能量管理策略的性能,在仿真系統(tǒng)中對固定充放電閾值、隨機充放電閾值和基于DQN的能量管理策略進行了測試。每次測試中的仿真時間為8 000 s,對應(yīng)1 600次決策。通過將ΔT視為8 000 s,可以計算出整個時間段內(nèi)的節(jié)能率和穩(wěn)壓率,以供比較。各種能量管理策略在5次測試中的平均節(jié)能率和穩(wěn)壓率見表2。

        實驗結(jié)果表明,基于DQN的能量管理策略在節(jié)能率和穩(wěn)壓率方面均優(yōu)于隨機充放電閾值和固定充放電閾值策略。具體來說,基于DQN的能量管理策略的平均節(jié)能率為36.4%,高于隨機充放電閾值的34.7%和固定充放電閾值的35.0%。這一結(jié)果表明,基于DQN的策略能夠更有效地回收利用能量,從而減少不必要的能量浪費。在穩(wěn)壓率方面,基于DQN的能量管理策略也表現(xiàn)出明顯優(yōu)勢,其穩(wěn)壓率為75.5%,高于隨機充放電閾值的73.0%和固定充放電閾值的73.7%。這一優(yōu)勢意味著基于DQN的策略能夠更好地維持系統(tǒng)電壓的穩(wěn)定,減少電壓波動對線路運行的不利影響。

        4" 結(jié)論

        本文提出了一種基于深度強化學(xué)習(xí)的飛輪儲能系統(tǒng)能量管理策略,通過采用馬爾科夫決策過程描述能量管理問題,并利用DQN算法來學(xué)習(xí)最優(yōu)的充放電閾值動態(tài)調(diào)整策略。在MATLAB/Simulink平臺上搭建了仿真環(huán)境,根據(jù)港鐵屯馬線的運行圖計算儲能系統(tǒng)所在變電所的功率,對能量管理策略進行了測試。結(jié)果表明,與固定充放電閾值和隨機充放電閾值策略相比,該策略不僅提高了電能利用效率,而且能夠保持系統(tǒng)的運行穩(wěn)定性。這些結(jié)果表明深度強化學(xué)習(xí)在軌道交通儲能系統(tǒng)能量管理領(lǐng)域具有廣闊的應(yīng)用前景,為未來智能交通系統(tǒng)的發(fā)展提供了有益的啟示。

        參考文獻:

        [1] DONGXU H, XINGJIAN D, WEN L, et al. A review of flywheel energy storage rotor materials and structures[J]. Journal of Energy Storage,2023(74):109076.

        [2] RONGJIE R, YUNYU L, YEJIAN Y, et al. Study on magnetic flywheel energy storage system in urban rail transit[C]//2017 IEEE Transportation Electrification Conference and Expo, Asia-Pacific (ITEC Asia-Pacific). IEEE, 2017: 1-6.

        [3] 趙思鋒,唐英偉,王賽,等.基于飛輪儲能技術(shù)的城市軌道交通再生能回收控制策略研究[J].儲能科學(xué)與技術(shù),2018,7(3):524-529.

        [4] 李進.城軌交通地面飛輪儲能系統(tǒng)控制策略研究[D].北京:北京交通大學(xué),2022.

        [5] MNIH V, KAVUKCUOGLU K , SILVER D, et al.Playing atari with seep reinforcement learning[J].Computer Science, 2013.

        [6] YANG Z, ZHU F, LIN F. Deep-reinforcement-learning-based energy management strategy for supercapacitor energy storage systems in urban rail transit[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(2): 1150-1160.

        [7] 諸斐琴.城市軌道交通地面式超級電容儲能系統(tǒng)自適應(yīng)協(xié)調(diào)控制與容量配置綜合優(yōu)化研究[D].北京:北京交通大學(xué),2021.

        基金項目:國家重點研發(fā)項目(2023YFB4302103)

        第一作者簡介:王寧(1998-),男,碩士,助理工程師。研究方向高速磁浮控制技術(shù)。

        *通信作者:曲建真(1990-),男,博士,工程師。研究方向為電力電子變流器。

        猜你喜歡
        能量管理深度強化學(xué)習(xí)
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強化學(xué)習(xí)的圖像修復(fù)算法設(shè)計
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強化學(xué)習(xí)研究進展
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究
        直流微電網(wǎng)的能量管理
        光儲直流微網(wǎng)分散式協(xié)調(diào)控制運行策略
        探究船舶輔機電氣設(shè)備的節(jié)能技術(shù)
        CVT插電式混合動力汽車經(jīng)濟性控制策略
        91久久国产情侣真实对白| 国产女人18毛片水真多18精品| 天天综合色中文字幕在线视频| 日本一区二区三区精品免费| 日本精品视频一区二区三区四区| 亚洲av无码久久精品色欲| 亚洲国产韩国欧美在线| 国外亚洲成av人片在线观看| 亚洲AV无码秘 蜜桃1区| 中文人妻av大区中文不卡 | 蜜桃人妻午夜精品一区二区三区 | 亚洲国产精品成人天堂| 欧美牲交a欧美牲交aⅴ免费真| 精品国产18久久久久久| 欧洲国产精品无码专区影院| 国产女主播大秀在线观看| 久久精品国产av一级二级三级| 未满十八勿入av网免费| 国产精品久久无码一区二区三区网| 人人爽亚洲aⅴ人人爽av人人片| 97久久综合精品国产丝袜长腿| 毛茸茸的女性外淫小视频| 日本在线一区二区三区不卡 | 国产成人精品电影在线观看| 97色偷偷色噜噜狠狠爱网站97| 魔鬼身材极品女神在线| 精华国产一区二区三区| 日韩精品专区av无码| 国产chinese男男gay视频网| 精品一区二区三区在线观看l| 日本成人中文字幕亚洲一区| 日韩午夜理论免费tv影院| 久久久久亚洲精品中文字幕| 久久精品国产亚洲5555| 一区二区三区黄色一级片| 手机看片久久第一人妻| 亚洲精品一区二区国产精华液| 69一区二三区好的精华| 国产色秀视频在线播放| 91精品综合久久久久m3u8| 国产精品一区成人亚洲|