亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強化學習增強的電力系統(tǒng)研究*

        2022-06-24 03:04:16都小利
        山西電子技術(shù) 2022年3期
        關(guān)鍵詞:馬爾科夫能源管理代理

        程 琳,唐 毅,都小利

        (國網(wǎng)安徽省電力有限公司培訓中心,安徽 合肥 230022;2.安徽電氣工程職業(yè)技術(shù)學院,安徽 合肥 230051)

        1 背景介紹

        電力系統(tǒng)是一個復雜的動態(tài)大型電氣元件網(wǎng)絡,經(jīng)歷數(shù)百年的發(fā)展。在此期間,經(jīng)濟、技術(shù)、環(huán)境和政治激勵措施推動傳統(tǒng)電網(wǎng)轉(zhuǎn)變?yōu)楦鼜碗s、更健壯、更高效和更可持續(xù)的智能電網(wǎng)[1-3]。同時,智能電網(wǎng)促進了所有參與者之間的雙向能量流,并伴隨著雙向信息流[4]。包括生產(chǎn)商、消費者、輸配電系統(tǒng)運營商,這些因素給電力系統(tǒng)帶來了不同方面的問題。首先,可再生能源的高滲透率給電力系統(tǒng)帶來更大的不確定性。此外,對電力市場的放寬管制和客戶的積極參與使得找到允許整合分布式能源資源的解決方案更加復雜[5-6]。為解決這些問題,需要有效的方法來規(guī)劃和運行網(wǎng)格。這種持續(xù)的電網(wǎng)轉(zhuǎn)型導致了業(yè)務交易和電力物理流動的不確定性和復雜性[7]。

        2 深度強化學習

        深度強化學習結(jié)合深度學習的感知功能和強化學習的決策能力。它更接近人類的思維方式,被認為是真正的人工智能。深度強化學習的基本框架如圖1所示。

        強化學習用于計算最大化滿意度標準的行為策略,同時,通過與給定環(huán)境的反復試驗進行交互,可以獲得長期的獎勵總和。為實現(xiàn)這些功能,強化學習框架由一個決策者組成,稱為代理,在由狀態(tài)St建模的環(huán)境中運行。代理能夠根據(jù)當前狀態(tài)St采取某些行動。在時間t選擇一個動作后,代理收到一個標量獎勵rt+1并發(fā)現(xiàn)自己處于一個新狀態(tài)st+1中,該狀態(tài)取決于當前狀態(tài)和選擇的動作,如圖1所示。

        圖1 深度學習網(wǎng)絡架構(gòu)

        2.1 馬爾科夫決策過程

        滿足馬爾科夫性質(zhì)的馬爾科夫決策過程是強化學習的一種基本形式。馬爾科夫性質(zhì)意味著過程的未來只取決于當前狀態(tài)。

        圖2 馬爾科夫決策過程

        它可以描述為:

        P(st+1|s0,a0,…st,at)=P(st+1|st,at).

        (1)

        其中P是狀態(tài)轉(zhuǎn)移概率。

        在每個階段,代理采取一個行動來改變它在環(huán)境中的狀態(tài)并提供獎勵。為了進一步處理獎勵值,提出了價值函數(shù)和最優(yōu)策略。

        2.2 價值函數(shù)與最優(yōu)策略

        為最大化當前時間t后的長期累積獎勵,在時間T結(jié)束的有限時間范圍的情況下,回報Rt等于:

        (2)

        為找到最優(yōu)策略,一些算法基于價值函數(shù)V(s),它表示代理達到給定狀態(tài)s的好處。這樣的函數(shù)取決于代理遵循的實際策略π:

        (3)

        類似地,動作值函數(shù)Q表示在策略π下在狀態(tài)s中采取動作a的值

        Qπ(st,at)=E[Rt|st=s,at=a]=

        (4)

        在Q-學習算法中,Q函數(shù)可以用貝爾曼方程的迭代形式表示:

        Qπ(st,at)=E[rt+1+γQπ(st+1,at+1)|st,at].

        (5)

        最優(yōu)策略π是在長期內(nèi)實現(xiàn)最大累積獎勵的策略:

        π*=argmaxVπ(s).

        (6)

        此時,最佳價值函數(shù)和動作價值函數(shù)將是:

        V*(s)=maxVπ(s).

        (7)

        Q*(s,a)=maxQπ(s,a).

        (8)

        2.3 深度強化學習算法

        基于價值的方法通過在每次迭代中改進價值函數(shù),直到價值函數(shù)收斂,從同一環(huán)境中采樣的任何軌跡中學習。對于表格RL,例如Q-learning,Q函數(shù)的迭代過程如式(9)所示,而在DRL中,它的更新過程如式(10)所示。此時,目標函數(shù)可以定義為式(11)。

        Q(s,a)←Q(st,at)+α[rt+1+

        γmaxQ(st+1,a)-Q(st,at)].

        (9)

        θt+1=θt+α(rt+1+γmaxQ(st+1,a,θ)-

        Q(st,at,θ)θQ(st,at,θ).

        (10)

        J(θ)=E[(rt+1+γmaxQ(st+1,at+1,θ)-

        Q(st,at,θ))2].

        (11)

        基于策略的方法通過在每一步重新定義策略并根據(jù)這個新策略計算值直到策略收斂,直接優(yōu)化感興趣的數(shù)量,同時在函數(shù)近似下保持穩(wěn)定。首先,將目標函數(shù)的梯度作為策略參數(shù)計算,如(11)所示,然后權(quán)重矩陣將根據(jù)(12)進行更新。

        (12)

        θ←θ+αθJ(θ).

        (13)

        3 在電力系統(tǒng)中的應用

        經(jīng)過多年探索,已經(jīng)發(fā)表多篇關(guān)于深度強化學習在電力系統(tǒng)中的應用的論文。這些應用涵蓋電力系統(tǒng)中廣泛的決策、控制和優(yōu)化問題,包括能源管理、需求響應、電力市場等。

        3.1 能源管理

        在電力系統(tǒng),特別是微電網(wǎng)中,能源管理問題將源、負載、存儲系統(tǒng)和公用電網(wǎng)聯(lián)系起來,能源管理在幾個方面發(fā)揮著重要作用。一是可以提高可再生能源的利用率,管理家電消費。此外,它還可以規(guī)劃存儲調(diào)度策略并響應實時電價。大多數(shù)能源管理問題可以轉(zhuǎn)化為順序決策問題,并且可以通過深度強化學習很好地解決。

        3.2 需求響應

        需求響應(DR)是智能電網(wǎng)中的一個典型問題,它通過價格或激勵來保持客戶的電力需求和公用事業(yè)公司的供應之間的平衡。為提高電網(wǎng)的穩(wěn)定性和轉(zhuǎn)移峰值需求,需求響應需要將消費者的反饋和消費納入控制回路。因此,深度強化學習是一種有效的最優(yōu)控制方法,使用數(shù)據(jù)驅(qū)動的支持模型來解決這類問題。

        3.3 電力市場

        分級電力市場可分為電力批發(fā)市場和零售電力市場。它通過信息和權(quán)力將服務提供商與電力公司和客戶結(jié)合起來,如圖3所示。

        圖3 分層電力市場模型

        4 結(jié)論

        隨著智能電網(wǎng)的研究和發(fā)展,電力系統(tǒng)隨著可再生能源并網(wǎng)和市場化的深入發(fā)展,面臨新的挑戰(zhàn)。傳統(tǒng)方法在解決電力系統(tǒng)中的許多問題時面臨許多困難,因此對DRL等人工智能方法的需求越來越大。

        猜你喜歡
        馬爾科夫能源管理代理
        基于疊加馬爾科夫鏈的邊坡位移預測研究
        基于改進的灰色-馬爾科夫模型在風機沉降中的應用
        合同能源管理會計核算優(yōu)化對策
        活力(2019年22期)2019-03-16 12:47:24
        代理圣誕老人
        代理手金寶 生意特別好
        復仇代理烏龜君
        學生天地(2016年23期)2016-05-17 05:47:15
        馬爾科夫鏈在教學評價中的應用
        合同能源管理在TDM交換設備退網(wǎng)中的應用
        合同能源管理在重慶配網(wǎng)節(jié)能中的實踐應用
        機電信息(2014年27期)2014-02-27 15:54:09
        基于馬爾科夫法的土地格局變化趨勢研究
        河南科技(2014年11期)2014-02-27 14:10:11
        一本一道vs无码中文字幕| 丰满人妻一区二区三区免费| 国产一区二区三区四区在线视频| 九九九免费观看视频| 天堂aⅴ无码一区二区三区| 国产免费资源| 中文字幕精品乱码一二三区| 女女同恋一区二区在线观看| 国产乱码精品一区二区三区四川人| 亚洲AV电影天堂男人的天堂| 日本一区二区久久精品亚洲中文无| 91精品国产综合久久久密臀九色| 一进一出一爽又粗又大| 久久久久这里只有精品网| 国产一区二区三区资源在线观看| 在线a亚洲视频播放在线播放| 国产乱国产乱老熟300部视频 | 国产欧美成人一区二区a片| 亚洲欧美日韩中文无线码| 久久亚洲国产精品五月天| 女女同女同一区二区三区| 亚洲av无码av在线播放| 99久久精品免费看国产情侣| 东风日产系列全部车型| 国产肥熟女免费一区二区| 亚洲av无码xxx麻豆艾秋| 久久国产精品老女人| 麻豆成年人视频在线观看| 中文字幕免费在线观看动作大片| 国产高潮国产高潮久久久 | 亚洲国产精品成人天堂| 国产精品欧美成人| 爆乳日韩尤物无码一区| 手机在线免费观看av不卡网站| 国产无吗一区二区三区在线欢| 国产在线丝袜精品一区免费| 琪琪av一区二区三区| 成 人色 网 站 欧美大片在线观看| 少妇白浆高潮无码免费区| 国产高清黄色在线观看91| 成人av在线久色播放|