程 琳,唐 毅,都小利
(國網(wǎng)安徽省電力有限公司培訓中心,安徽 合肥 230022;2.安徽電氣工程職業(yè)技術(shù)學院,安徽 合肥 230051)
電力系統(tǒng)是一個復雜的動態(tài)大型電氣元件網(wǎng)絡,經(jīng)歷數(shù)百年的發(fā)展。在此期間,經(jīng)濟、技術(shù)、環(huán)境和政治激勵措施推動傳統(tǒng)電網(wǎng)轉(zhuǎn)變?yōu)楦鼜碗s、更健壯、更高效和更可持續(xù)的智能電網(wǎng)[1-3]。同時,智能電網(wǎng)促進了所有參與者之間的雙向能量流,并伴隨著雙向信息流[4]。包括生產(chǎn)商、消費者、輸配電系統(tǒng)運營商,這些因素給電力系統(tǒng)帶來了不同方面的問題。首先,可再生能源的高滲透率給電力系統(tǒng)帶來更大的不確定性。此外,對電力市場的放寬管制和客戶的積極參與使得找到允許整合分布式能源資源的解決方案更加復雜[5-6]。為解決這些問題,需要有效的方法來規(guī)劃和運行網(wǎng)格。這種持續(xù)的電網(wǎng)轉(zhuǎn)型導致了業(yè)務交易和電力物理流動的不確定性和復雜性[7]。
深度強化學習結(jié)合深度學習的感知功能和強化學習的決策能力。它更接近人類的思維方式,被認為是真正的人工智能。深度強化學習的基本框架如圖1所示。
強化學習用于計算最大化滿意度標準的行為策略,同時,通過與給定環(huán)境的反復試驗進行交互,可以獲得長期的獎勵總和。為實現(xiàn)這些功能,強化學習框架由一個決策者組成,稱為代理,在由狀態(tài)St建模的環(huán)境中運行。代理能夠根據(jù)當前狀態(tài)St采取某些行動。在時間t選擇一個動作后,代理收到一個標量獎勵rt+1并發(fā)現(xiàn)自己處于一個新狀態(tài)st+1中,該狀態(tài)取決于當前狀態(tài)和選擇的動作,如圖1所示。
圖1 深度學習網(wǎng)絡架構(gòu)
滿足馬爾科夫性質(zhì)的馬爾科夫決策過程是強化學習的一種基本形式。馬爾科夫性質(zhì)意味著過程的未來只取決于當前狀態(tài)。
圖2 馬爾科夫決策過程
它可以描述為:
P(st+1|s0,a0,…st,at)=P(st+1|st,at).
(1)
其中P是狀態(tài)轉(zhuǎn)移概率。
在每個階段,代理采取一個行動來改變它在環(huán)境中的狀態(tài)并提供獎勵。為了進一步處理獎勵值,提出了價值函數(shù)和最優(yōu)策略。
為最大化當前時間t后的長期累積獎勵,在時間T結(jié)束的有限時間范圍的情況下,回報Rt等于:
(2)
為找到最優(yōu)策略,一些算法基于價值函數(shù)V(s),它表示代理達到給定狀態(tài)s的好處。這樣的函數(shù)取決于代理遵循的實際策略π:
(3)
類似地,動作值函數(shù)Q表示在策略π下在狀態(tài)s中采取動作a的值
Qπ(st,at)=E[Rt|st=s,at=a]=
(4)
在Q-學習算法中,Q函數(shù)可以用貝爾曼方程的迭代形式表示:
Qπ(st,at)=E[rt+1+γQπ(st+1,at+1)|st,at].
(5)
最優(yōu)策略π是在長期內(nèi)實現(xiàn)最大累積獎勵的策略:
π*=argmaxVπ(s).
(6)
此時,最佳價值函數(shù)和動作價值函數(shù)將是:
V*(s)=maxVπ(s).
(7)
Q*(s,a)=maxQπ(s,a).
(8)
基于價值的方法通過在每次迭代中改進價值函數(shù),直到價值函數(shù)收斂,從同一環(huán)境中采樣的任何軌跡中學習。對于表格RL,例如Q-learning,Q函數(shù)的迭代過程如式(9)所示,而在DRL中,它的更新過程如式(10)所示。此時,目標函數(shù)可以定義為式(11)。
Q(s,a)←Q(st,at)+α[rt+1+
γmaxQ(st+1,a)-Q(st,at)].
(9)
θt+1=θt+α(rt+1+γmaxQ(st+1,a,θ)-
Q(st,at,θ)θQ(st,at,θ).
(10)
J(θ)=E[(rt+1+γmaxQ(st+1,at+1,θ)-
Q(st,at,θ))2].
(11)
基于策略的方法通過在每一步重新定義策略并根據(jù)這個新策略計算值直到策略收斂,直接優(yōu)化感興趣的數(shù)量,同時在函數(shù)近似下保持穩(wěn)定。首先,將目標函數(shù)的梯度作為策略參數(shù)計算,如(11)所示,然后權(quán)重矩陣將根據(jù)(12)進行更新。
(12)
θ←θ+αθJ(θ).
(13)
經(jīng)過多年探索,已經(jīng)發(fā)表多篇關(guān)于深度強化學習在電力系統(tǒng)中的應用的論文。這些應用涵蓋電力系統(tǒng)中廣泛的決策、控制和優(yōu)化問題,包括能源管理、需求響應、電力市場等。
在電力系統(tǒng),特別是微電網(wǎng)中,能源管理問題將源、負載、存儲系統(tǒng)和公用電網(wǎng)聯(lián)系起來,能源管理在幾個方面發(fā)揮著重要作用。一是可以提高可再生能源的利用率,管理家電消費。此外,它還可以規(guī)劃存儲調(diào)度策略并響應實時電價。大多數(shù)能源管理問題可以轉(zhuǎn)化為順序決策問題,并且可以通過深度強化學習很好地解決。
需求響應(DR)是智能電網(wǎng)中的一個典型問題,它通過價格或激勵來保持客戶的電力需求和公用事業(yè)公司的供應之間的平衡。為提高電網(wǎng)的穩(wěn)定性和轉(zhuǎn)移峰值需求,需求響應需要將消費者的反饋和消費納入控制回路。因此,深度強化學習是一種有效的最優(yōu)控制方法,使用數(shù)據(jù)驅(qū)動的支持模型來解決這類問題。
分級電力市場可分為電力批發(fā)市場和零售電力市場。它通過信息和權(quán)力將服務提供商與電力公司和客戶結(jié)合起來,如圖3所示。
圖3 分層電力市場模型
隨著智能電網(wǎng)的研究和發(fā)展,電力系統(tǒng)隨著可再生能源并網(wǎng)和市場化的深入發(fā)展,面臨新的挑戰(zhàn)。傳統(tǒng)方法在解決電力系統(tǒng)中的許多問題時面臨許多困難,因此對DRL等人工智能方法的需求越來越大。