孫立鈞,顧雪平,劉 彤,王鐵強(qiáng),楊曉東
一種基于深度強(qiáng)化學(xué)習(xí)算法的電網(wǎng)有功安全校正方法
孫立鈞1,顧雪平1,劉 彤1,王鐵強(qiáng)2,楊曉東2
(1.華北電力大學(xué)電氣與電子工程學(xué)院,河北 保定 071003;2.國網(wǎng)河北省電力有限公司,河北 石家莊 050021)
電力系統(tǒng)有功安全校正對于保障電網(wǎng)安全運行具有重要意義。傳統(tǒng)有功安全校正方法無法綜合考慮系統(tǒng)潮流分布狀態(tài)和機(jī)組的調(diào)整性能,求解效率低、涉及調(diào)整的機(jī)組多,存在調(diào)整反復(fù)的現(xiàn)象,在實際應(yīng)用中具有一定困難。因此,采用深度強(qiáng)化學(xué)習(xí)算法,提出一種基于深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)的有功安全校正策略。首先,建立系統(tǒng)有功安全校正模型。其次,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)挖掘電網(wǎng)運行狀態(tài)深層特征。進(jìn)一步利用DQN算法通過“狀態(tài)-動作”機(jī)制,以“獎勵”為媒介,構(gòu)建電網(wǎng)運行狀態(tài)與最優(yōu)調(diào)整機(jī)組組合的映射模型,確定調(diào)整機(jī)組。最后,根據(jù)過載線路對調(diào)整機(jī)組的靈敏度,計算得到調(diào)整量。IEEE39節(jié)點系統(tǒng)的驗證結(jié)果表明,所提出的有功安全校正策略在處理多線路過載時可綜合考慮系統(tǒng)潮流分布的總體狀況和機(jī)組調(diào)節(jié)性能,高效地消除線路過載。
電力系統(tǒng);安全校正;深度強(qiáng)化學(xué)習(xí);DQN算法;靈敏度
電力系統(tǒng)運行中,將線路潮流控制在合理閾值內(nèi)是保證系統(tǒng)安全穩(wěn)定運行的基本要求。一般情況下,對于系統(tǒng)負(fù)荷波動引起的頻率偏差和系統(tǒng)間聯(lián)絡(luò)線的功率波動,可以由自動發(fā)電控制(Automatic Generate Control, AGC)進(jìn)行調(diào)節(jié)[1]。對于檢修計劃、線路故障等因素導(dǎo)致系統(tǒng)運行方式變化引起的線路過載,則須重新安排機(jī)組出力來消除線路的過載情況以保證系統(tǒng)的安全運行。有功安全校正主要通過合理安排發(fā)電機(jī)的出力使潮流重新分配,達(dá)到減小系統(tǒng)頻率偏差、消除線路功率越限的目的,當(dāng)單獨調(diào)整發(fā)動機(jī)出力無法達(dá)到運行要求時需考慮切負(fù)荷措施[2-3]。
目前有功安全校正方法可劃分為優(yōu)化法和靈敏度算法兩類[4]。優(yōu)化類方法通過制定目標(biāo)函數(shù)和確定安全約束構(gòu)建優(yōu)化模型,利用數(shù)學(xué)規(guī)劃的方法求解。使用優(yōu)化類方法進(jìn)行安全校正的求解可以看作是一個最優(yōu)潮流問題,但該類方法往往只能得到局部最優(yōu)解,因此,大多數(shù)研究集中于求解算法的改善。文獻(xiàn)[5]通過將靜態(tài)安全控制模型分解為靈敏度計算和優(yōu)化控制兩個子問題,簡化了求解模型的復(fù)雜度。針對求解空間大、求解慢等問題,文獻(xiàn)[6]建立源-荷協(xié)同靜態(tài)安全校正控制模型,在控制代價最小的情況下消除靜態(tài)安全問題。文獻(xiàn)[7]通過減小模型的搜索空間,提高了求解效率。文獻(xiàn)[8]將模型結(jié)合多核并行技術(shù)加快了求解速度。文獻(xiàn)[9]將內(nèi)點法與進(jìn)化算法結(jié)合應(yīng)用于模型求解,通過對控制變量的局部搜索獲得最優(yōu)解。優(yōu)化類方法能兼顧各種約束條件,但結(jié)果涉及的調(diào)整機(jī)組的數(shù)目較多,難以在實際系統(tǒng)中應(yīng)用[10]。靈敏度算法通過將各個機(jī)組對線路的靈敏度進(jìn)行排序得到發(fā)電機(jī)組的調(diào)整順序,并以發(fā)電機(jī)出力對線路潮流的靈敏度指標(biāo)為依據(jù)對發(fā)電機(jī)出力進(jìn)行調(diào)整[11-12]。這一指標(biāo)雖能有效調(diào)整越限線路的潮流,但在調(diào)整過程中容易忽略其他線路的負(fù)載狀況,可能使原本處于高負(fù)載狀態(tài)的線路發(fā)生新的越限,導(dǎo)致調(diào)整反復(fù)。文獻(xiàn)[13]采用綜合靈敏度反映節(jié)點注入功率對所有過載線路功率的綜合影響。盡管已有兼顧其他支路的靈敏度評估指標(biāo),但這些評估指標(biāo)未能充分利用全局的狀態(tài)信息。針對上述問題,文獻(xiàn)[14]考慮機(jī)組對過載線路和接近過載線路的影響,提出綜合靈敏度;文獻(xiàn)[15]考慮調(diào)整節(jié)點對正常線路的靈敏度影響,對調(diào)整總量進(jìn)行約束,避免調(diào)整反復(fù);文獻(xiàn)[16]提出綜合靈敏度概念,利用反向配對技術(shù),通過負(fù)荷在送電端或受電端內(nèi)的相鄰節(jié)點間的轉(zhuǎn)移,達(dá)到消除支路過載的目的。
隨著人工智能技術(shù)的進(jìn)步,逐漸有學(xué)者將人工智能技術(shù)應(yīng)用到電力系統(tǒng)安全校正策略中[17-19]。深度學(xué)習(xí)對模型的狀態(tài)有較強(qiáng)的感知能力,強(qiáng)化學(xué)習(xí)則具有較強(qiáng)的決策能力[20]。二者相互結(jié)合對復(fù)雜系統(tǒng)的感知決策問題提供了新的解決思路。文獻(xiàn)[21]將BP神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)算法應(yīng)用于電網(wǎng)安全校正,證明了兩種方法與靈敏度法相比可以顯著降低誤差。文獻(xiàn)[22]將聚類算法與原-對偶內(nèi)點法相結(jié)合,通過對電力網(wǎng)絡(luò)潮流進(jìn)行重構(gòu),消除輸電斷面內(nèi)部有功過載。文獻(xiàn)[23]將反向傳播神經(jīng)網(wǎng)絡(luò)與靈敏度法結(jié)合,通過神經(jīng)網(wǎng)絡(luò)給出兼顧歷史數(shù)據(jù)的靈敏度值,避免了調(diào)整量偏小引起的多次調(diào)整。
深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合[24-26],通過神經(jīng)網(wǎng)絡(luò)建立模型,實現(xiàn)了對電力系統(tǒng)整體狀態(tài)的感知,提取出電力系統(tǒng)更深層次的狀態(tài)特征,強(qiáng)化學(xué)習(xí)依據(jù)深度學(xué)習(xí)提取的狀態(tài)特征構(gòu)建起系統(tǒng)狀態(tài)特征與動作決策的映射關(guān)系,實現(xiàn)對電網(wǎng)的智能調(diào)節(jié)。目前采用深度強(qiáng)化學(xué)習(xí)解決有功安全校正的問題鮮有研究。在已有的靈敏度類有功安全校正方法中,機(jī)組的選擇多是以靈敏度為基礎(chǔ),考慮其他因素建立選擇指標(biāo)指導(dǎo)機(jī)組選擇,這種選擇方法須人為確定各項參數(shù),受主觀因素的影響較大,與實際的調(diào)整效果可能存在偏差。深度強(qiáng)化學(xué)習(xí)算法通過多年來在訓(xùn)練算法、網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)機(jī)制等方面的改進(jìn),具有較好的應(yīng)用效果,在相關(guān)領(lǐng)域已有應(yīng)用研究。
本文基于深度強(qiáng)化學(xué)習(xí),同時結(jié)合優(yōu)化法和靈敏度法的優(yōu)點,提出了一種有功安全校正策略。該策略采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)提取電網(wǎng)狀態(tài)的深層特征,通過深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)算法確定調(diào)整機(jī)組的組合,最后以過載線路對機(jī)組的靈敏度為基礎(chǔ)計算調(diào)整量。算法以調(diào)整效果作為“獎勵”,指導(dǎo)模型自主學(xué)習(xí)構(gòu)建電網(wǎng)狀態(tài)與調(diào)整機(jī)組之間的映射,可在減少參與調(diào)整機(jī)組數(shù)目的同時,高效地消除線路過載,避免發(fā)電機(jī)功率的反復(fù)調(diào)節(jié)。通過與傳統(tǒng)調(diào)整方法進(jìn)行對比,驗證了本文方法的有效性。
電力系統(tǒng)校正控制通過對系統(tǒng)可控變量的調(diào)整,消除狀態(tài)變量的越限現(xiàn)象,使系統(tǒng)恢復(fù)到安全狀態(tài)。有功安全校正是其中一項重要內(nèi)容,一般情況下有功安全校正通過調(diào)整發(fā)電機(jī)出力,使系統(tǒng)潮流重新分配,達(dá)到消除系統(tǒng)中過載線路的目的。因此有功安全校正通常研究發(fā)電機(jī)出力的調(diào)整順序、調(diào)整幅度等內(nèi)容。常用的方法包括有約束最優(yōu)化方法和靈敏度分析法。
一般情況下,穩(wěn)態(tài)運行條件下的電力系統(tǒng)有功安全校正模型可用以下的模型來描述。
1.2.1系統(tǒng)有功功率平衡約束
在不計網(wǎng)損的情況下,機(jī)組出力和負(fù)荷的大小應(yīng)滿足式(1)。
1.2.2機(jī)組出力約束
機(jī)組出力應(yīng)滿足式(2)。
1.2.3線路有功安全約束
線路潮流應(yīng)滿足式(3)。
等式約束表示在任何時刻發(fā)電機(jī)產(chǎn)生的功率與負(fù)荷消耗的功率相等;不等式約束條件表示在有合格電能質(zhì)量的條件下,系統(tǒng)內(nèi)的有關(guān)設(shè)備處于安全的運行限值內(nèi)。
Q學(xué)習(xí)算法是解決馬爾可夫決策過程的經(jīng)典方法,同時是不依賴環(huán)境模型的強(qiáng)化學(xué)習(xí)算法。該算法通過不斷更新狀態(tài)-動作值函數(shù),達(dá)到學(xué)習(xí)目標(biāo)最優(yōu)策略的目的。其迭代公式為
Q學(xué)習(xí)算法需要構(gòu)建狀態(tài)-動作的一一對應(yīng)關(guān)系,對于狀態(tài)空間和動作空間的要求是離散且有限的,因此將強(qiáng)化學(xué)習(xí)運用于實際問題時需要將實際狀態(tài)和動作進(jìn)行離散化處理,較高的離散化粒度使算法的泛化能力變?nèi)?,而較低的離散化粒度則會帶來維數(shù)災(zāi)難。
針對Q學(xué)習(xí)算法的不足,DeepMind公司于2013年提出DQN算法,DQN算法利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力構(gòu)建狀態(tài)-動作的對應(yīng)關(guān)系,直接對狀態(tài)-動作值函數(shù)進(jìn)行表征,將強(qiáng)化學(xué)習(xí)的應(yīng)用范圍擴(kuò)展到了連續(xù)、高維的實際問題,結(jié)合目標(biāo)網(wǎng)絡(luò)技術(shù)和經(jīng)驗回放機(jī)制,使其更加貼近實際應(yīng)用場景。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
DQN模型訓(xùn)練過程中采用最小化損失函數(shù)進(jìn)行參數(shù)更新,如式(6)所示。
Q網(wǎng)絡(luò)基于梯度更新網(wǎng)絡(luò)權(quán)重,式(6)的損失函數(shù)對權(quán)重求偏導(dǎo),即可得到:
目標(biāo)Q網(wǎng)絡(luò)與Q網(wǎng)絡(luò)具有相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。深度強(qiáng)化學(xué)習(xí)在訓(xùn)練過程中,當(dāng)采用非線性函數(shù)逼近Q值函數(shù)時,Q值的更新容易發(fā)生震蕩,呈現(xiàn)出不穩(wěn)定的學(xué)習(xí)行為,因此引入目標(biāo)Q網(wǎng)絡(luò)。目標(biāo)Q網(wǎng)絡(luò)在結(jié)構(gòu)上與Q網(wǎng)絡(luò)相同,但在目標(biāo)Q網(wǎng)絡(luò)中,參數(shù)會在一定步數(shù)后獨立更新,因此訓(xùn)練過程中Q值暫時固定,使學(xué)習(xí)過程更加穩(wěn)定。
深度強(qiáng)化學(xué)習(xí)在數(shù)據(jù)學(xué)習(xí)過程中存在經(jīng)驗數(shù)據(jù)相關(guān)性和非平穩(wěn)分布的問題。DQN算法通過引入經(jīng)驗回放機(jī)制成功解決這兩個問題。在該機(jī)制中,每次訓(xùn)練獲取的經(jīng)驗都儲存在經(jīng)驗池中,每次學(xué)習(xí)時從經(jīng)驗池中抽取一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)。該方法具有多個優(yōu)勢:首先經(jīng)驗可以重復(fù)學(xué)習(xí),提高了數(shù)據(jù)利用率;其次由于樣本之間的強(qiáng)相關(guān)性,直接學(xué)習(xí)連續(xù)樣本效果較差,采用經(jīng)驗池打破了樣本之間的相關(guān)性,加快算法收斂速度;最后采用經(jīng)驗回放可避免算法陷入局部最優(yōu)解,通過經(jīng)驗回放行為,分布可在許多先前狀態(tài)中進(jìn)行平均,從而平滑學(xué)習(xí)過程,避免參數(shù)波動或發(fā)散。
本文綜合優(yōu)化法和靈敏度法各自的優(yōu)勢,提出基于DQN算法的有功安全校正策略。該策略采用DQN模型評估系統(tǒng)狀態(tài),并給出調(diào)整機(jī)組的組合。DQN算法中用卷積神經(jīng)網(wǎng)絡(luò)代替Q算法中的值函數(shù),避免了系統(tǒng)規(guī)模擴(kuò)大導(dǎo)致的效率降低問題。該策略在確定調(diào)整機(jī)組后根據(jù)靈敏度計算調(diào)整量,實現(xiàn)線路過載的準(zhǔn)確消除。深度強(qiáng)化學(xué)習(xí)方法用于有功校正的示意圖如圖2所示。
圖2 基于深度強(qiáng)化學(xué)習(xí)的有功安全校正模型示意圖
傳統(tǒng)靈敏度算法以過載線路對機(jī)組的靈敏度作為制定調(diào)整策略的依據(jù)。這類方法僅考慮發(fā)電機(jī)組對過載線路的影響,而未考慮出力改變后對其他重載線路及系統(tǒng)整體狀態(tài)的影響,易導(dǎo)致調(diào)整反復(fù)、低效。因此綜合考慮線路負(fù)載、系統(tǒng)拓?fù)浜凸?jié)點負(fù)荷,提出了狀態(tài)矩陣,如式(9)所示。
強(qiáng)化學(xué)習(xí)是計算機(jī)以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境交互獲得的獎勵指導(dǎo)行為,目標(biāo)是獲得最大的獎勵。強(qiáng)化學(xué)習(xí)中的獎勵是對模型決策的一種評價,而不是告訴計算機(jī)如何產(chǎn)生正確的動作,因此設(shè)計一個合適的獎勵對于提高強(qiáng)化學(xué)習(xí)的效率尤為重要。在實際操作中,調(diào)整過載線路不僅僅關(guān)注消除過載線路,同時應(yīng)考慮機(jī)組出力變化對系統(tǒng)整體狀態(tài)的影響以及調(diào)整成本最小化。為了以較低的成本實現(xiàn)機(jī)組出力的調(diào)整,達(dá)到改善系統(tǒng)整體負(fù)載率的目的,本文將調(diào)整前后機(jī)組的發(fā)電成本減少量作為經(jīng)濟(jì)性的評價指標(biāo),將線路負(fù)載率的標(biāo)準(zhǔn)差作為系統(tǒng)整體狀態(tài)的評價指標(biāo),提出如式(11)所示的獎勵函數(shù)。
在確定需要調(diào)整的機(jī)組后,根據(jù)待調(diào)整線路對機(jī)組的靈敏度確定各個機(jī)組的調(diào)整量。電力系統(tǒng)安全校正中的靈敏度是指節(jié)點有功出力對支路有功潮流的靈敏度,是指當(dāng)控制變量發(fā)生微小變化時,狀態(tài)變量和輸出變量相應(yīng)地發(fā)生微小變化,它們之間的微分比例關(guān)系稱作靈敏度指標(biāo)。本文提出的調(diào)整策略在Q網(wǎng)絡(luò)給出調(diào)整機(jī)組組合后,以機(jī)組對過載線路的靈敏度計算機(jī)組的調(diào)整量。用于有功安全校正的靈敏度指標(biāo)可由潮流方程推導(dǎo)得出。
在穩(wěn)態(tài)條件下,電力系統(tǒng)可由個非線性網(wǎng)絡(luò)方程表示。
式中:表示控制變量的列向量;表示狀態(tài)變量的列向量。方程形式隨著控制變量和狀態(tài)變量的選取、坐標(biāo)形式的變化而有所不同。在某一穩(wěn)定運行點下,該式變?yōu)?/p>
式(14)在運行點處采用泰勒級數(shù)展開,略去二階以上高階項,得
結(jié)合式(10),式(15)變?yōu)?/p>
該式為靈敏度方程的基本形式。
靈敏度反映了線路潮流對發(fā)電機(jī)出力改變的敏感程度,根據(jù)靈敏度矩陣,可計算出消除過載線路需要改變的發(fā)電機(jī)調(diào)節(jié)量,見式(18)。
首先應(yīng)基于DQN算法對樣本數(shù)據(jù)進(jìn)行深度強(qiáng)化學(xué)習(xí),訓(xùn)練得到有功安全校正模型。對電力系統(tǒng)隨機(jī)斷開線路,獲得不同運行狀態(tài)下的潮流分布,之后根據(jù)式(9)構(gòu)建訓(xùn)練樣本。
基于DQN算法的有功安全校正模型訓(xùn)練過程如圖3所示。
圖3 基于DQN算法的有功安全校正模型訓(xùn)練流程圖
訓(xùn)練結(jié)束后,DQN模型的參數(shù)將被保存,在有功安全校正問題中可加載模型參數(shù)直接用于問題的求解。
本文方法基于深度強(qiáng)化學(xué)習(xí)模型確定參與調(diào)節(jié)的機(jī)組,根據(jù)機(jī)組相對于過載線路的靈敏度計算相應(yīng)的調(diào)節(jié)量,過程如下所述。
校正過程采用已經(jīng)訓(xùn)練完成的模型。首先模型讀取系統(tǒng)狀態(tài)信息,并根據(jù)讀取的狀態(tài)信息給出參與調(diào)節(jié)的機(jī)組,包括增出力機(jī)組和減出力機(jī)組。然后在確定參與調(diào)節(jié)的機(jī)組后,根據(jù)靈敏度計算參與調(diào)節(jié)機(jī)組的出力變化量。根據(jù)新的機(jī)組出力計算系統(tǒng)潮流,判斷過載能否全部消除。若過載被消除,則說明調(diào)整策略對于消除當(dāng)前狀態(tài)的線路過載有效,系統(tǒng)執(zhí)行調(diào)整策略;若線路過載無法被消除,則說明在當(dāng)前狀態(tài)下采取機(jī)組出力再分配的調(diào)整策略無法完全消除線路過載,只能在一定程度上降低線路過載的影響,須考慮切負(fù)荷策略,達(dá)到消除過載的目的。
基于DQN算法的有功安全校正模型圖如圖4所示。
圖4 基于DQN算法的有功安全校正模型圖
本文以IEEE39節(jié)點系統(tǒng)為例進(jìn)行分析(如圖5所示),將實驗結(jié)果與傳統(tǒng)調(diào)整策略進(jìn)行對比,驗證了本文所提方法的有效性。實驗設(shè)計采用Pycharm開發(fā)環(huán)境在Tensorflow框架下建立有功安全校正模型,利用Matpower計算系統(tǒng)潮流。
圖5 IEEE39節(jié)點系統(tǒng)
初始系統(tǒng)參數(shù)如表1所示。
當(dāng)線路23-24線路斷開后,線路21-22、16-21出現(xiàn)過載,兩條線路過載量分別為135.8367 MW和59.205 2 MW,超出線路允許傳輸功率最大值15.09%和9.87%。
表1 系統(tǒng)初始狀態(tài)參數(shù)
當(dāng)采用本文算法進(jìn)行調(diào)整時,依據(jù)線路越限的嚴(yán)重程度對線路依次校正。首先形成狀態(tài)矩陣,輸入模型得到參與調(diào)整的機(jī)組為34號、36號,其中34號機(jī)組為加出力機(jī)組,36號機(jī)組為減出力機(jī)組。根據(jù)線路21-22對兩組機(jī)組的靈敏度可以得到,機(jī)組出力的改變量為146.134 6 MW,經(jīng)過本輪調(diào)整,線路21-22越限消除。模型更新當(dāng)前的狀態(tài)矩陣,得到下一輪參與調(diào)整的機(jī)組為32號和39號,其中32號機(jī)組增加出力82.461 3 MW,39號機(jī)組減小相應(yīng)出力,經(jīng)過本輪調(diào)整,線路26-29越限情況被消除。
若采用傳統(tǒng)靈敏度方法,首先對線路21-22進(jìn)行調(diào)整,經(jīng)計算,第一輪調(diào)整選擇36號、38號機(jī)組,根據(jù)相應(yīng)的調(diào)整策略,36號機(jī)組增加出力,38號機(jī)組減少出力,由于機(jī)組最大出力的限制,機(jī)組出力改變量被限制為60.273 2 MW,經(jīng)過本輪調(diào)整,線路21-22負(fù)載率有所降低,從1.150 9降低至1.102 7,越限情況未消除;第二輪選擇機(jī)組30號和37號,機(jī)組的出力調(diào)整分別為47.084 6 MW和-47.084 6 MW,經(jīng)過本輪調(diào)整,線路21-22的過載被消除。之后對線路16-21的過載進(jìn)行消除,首先根據(jù)相應(yīng)策略,選擇32號與39號機(jī)組,分別增加出力76.564 2 MW和減少相應(yīng)出力,此時雖然消除了線路26-29的越限現(xiàn)象,但線路22-35出現(xiàn)了潮流越限,根據(jù)調(diào)整策略,30號機(jī)組出力增加50.624 7 MW,并減少39號機(jī)組相應(yīng)出力,可消除線路16-21過載現(xiàn)象,且并未出現(xiàn)新的線路過載。若采用優(yōu)化方法,以調(diào)整量最小為目標(biāo)函數(shù),采用規(guī)劃法得到相應(yīng)調(diào)整結(jié)果。3種策略出力調(diào)整結(jié)果與調(diào)整成本結(jié)果分別如表2、表3所示。
由表2可以看出:優(yōu)化類方法調(diào)整策略涉及8臺發(fā)電機(jī),調(diào)整發(fā)電機(jī)的數(shù)量過多,增加了實際調(diào)度執(zhí)行的困難程度。傳統(tǒng)靈敏度法雖能減少參與調(diào)整的機(jī)組數(shù)量,但在調(diào)整的過程中導(dǎo)致新的過載線路出現(xiàn),擴(kuò)大了過載范圍。本文方法以最少的機(jī)組達(dá)到消除過載線路的目的。
由表3可以看出:本文方法將調(diào)整成本納入機(jī)組的選擇依據(jù)當(dāng)中,相比于優(yōu)化法和傳統(tǒng)靈敏度法,調(diào)整成本分別降低了約45%、47%。
表2 3種調(diào)整策略出力調(diào)整量結(jié)果對比
表3 三種調(diào)整策略調(diào)整成本結(jié)果對比
為進(jìn)一步體現(xiàn)本文方法與優(yōu)化類方法和靈敏度方法相比所具有的優(yōu)勢,將線路初始負(fù)載率由高到低排序后進(jìn)行編號,同時采用3種策略對線路進(jìn)行調(diào)整。在初始狀態(tài)下,線路21-22、16-21分別過載15.09%、9.87%,多數(shù)線路的負(fù)載水平處于20%~ 80%,但仍有13條線路的負(fù)載率不足10%,調(diào)整結(jié)果如圖6所示。
圖6 2種不同策略調(diào)整后線路負(fù)載率
由圖6可以看出:傳統(tǒng)靈敏度法在調(diào)整過程中通過將過載線路的負(fù)載轉(zhuǎn)移至另外3條重負(fù)載線路,達(dá)到消除過載的目的,但調(diào)整結(jié)束后系統(tǒng)將出現(xiàn)5條處于高負(fù)載率的線路,當(dāng)系統(tǒng)高負(fù)載率線路較多時,易產(chǎn)生新的過載線路。優(yōu)化類方法調(diào)整結(jié)果依然存在較多的負(fù)載率較低的線路,對于系統(tǒng)的整體狀況沒有較大改善。本文方法通過綜合考慮機(jī)組出力成本、過載線路對機(jī)組的靈敏度和系統(tǒng)的整體負(fù)載,引導(dǎo)DQN算法將過載線路的負(fù)載向負(fù)載率較低的線路轉(zhuǎn)移,在達(dá)到較小成本的同時減輕系統(tǒng)整體的負(fù)載率,避免產(chǎn)生新的重載線路。
對比3種調(diào)整策略可見,傳統(tǒng)靈敏度法未考慮機(jī)組調(diào)節(jié)容量,選擇最高靈敏度的機(jī)組可能調(diào)整容量不足、調(diào)整過程中可能出現(xiàn)新的線路過載,使處于過載狀態(tài)的線路擴(kuò)大。而優(yōu)化類方法參與調(diào)整的機(jī)組過多。同時兩種傳統(tǒng)方法均未將調(diào)整成本納入機(jī)組選擇的考慮因素。本文通過DQN算法調(diào)整機(jī)組特性與系統(tǒng)狀態(tài)之間的映射關(guān)系,將負(fù)載較重的線路的潮流在調(diào)整過程中向負(fù)載較輕的線路轉(zhuǎn)移,提高了輕載線路的負(fù)載率,改善了系統(tǒng)的整體負(fù)載水平,提高了系統(tǒng)應(yīng)對負(fù)荷增加的能力。同時機(jī)組的選擇考慮了線路對機(jī)組的靈敏度、機(jī)組的可調(diào)容量和機(jī)組的調(diào)整成本,在避免了傳統(tǒng)調(diào)整策略僅選擇靈敏度最高的機(jī)組而導(dǎo)致機(jī)組可調(diào)容量不足的同時降低了調(diào)整成本。
本文將DQN算法應(yīng)用于有功安全校正,實現(xiàn)了以消除線路過載為目標(biāo)的機(jī)組出力準(zhǔn)確調(diào)整。首先建立有功安全校正模型,采用DQN算法綜合考慮機(jī)組調(diào)整容量、調(diào)整成本以及系統(tǒng)整體潮流狀態(tài),建立系統(tǒng)狀態(tài)與最優(yōu)調(diào)整機(jī)組組合的對應(yīng)模型;進(jìn)一步,依據(jù)靈敏度法確定各機(jī)組的調(diào)整量,達(dá)到消除線路過載的目的。采用IEEE39節(jié)點系統(tǒng)算例驗證了本文方法的有效性和可行性。本文方法具有以下優(yōu)勢:
1) 與傳統(tǒng)有功安全校正方法相比,DQN算法通過引入“獎勵”媒介,能夠選擇對過載線路影響較大的機(jī)組的前提下兼顧機(jī)組調(diào)整容量,以較小的機(jī)組調(diào)整量的同時避免了過多機(jī)組參與調(diào)整。
2) 該方法相比于傳統(tǒng)靈敏度調(diào)整方法更加高效。由于采用卷積神經(jīng)網(wǎng)絡(luò)挖掘運行狀態(tài)的深層特征,在多支路過載的情況下可兼顧其他負(fù)載率較高的線路,避免了調(diào)整反復(fù)的現(xiàn)象。
[1] 楊蕾, 李勝男, 黃偉, 等. 考慮風(fēng)光新能源參與二次調(diào)頻的多源最優(yōu)協(xié)同控制[J]. 電力系統(tǒng)保護(hù)與控制, 2020, 48(19): 43-49.
YANG Lei, LI Shengnan, HUANG Wei, et al. Optimal coordinated control of multi-source for AGC with participation of wind and solar energy[J]. Power System Protection and Control, 2020, 48(19): 43-49.
[2] 林濤, 畢如玉, 陳汝斯, 等. 基于二階錐規(guī)劃的計及多種快速控制手段的綜合安全校正策略[J]. 電工技術(shù)學(xué)報, 2020, 35(1): 167-178.
LIN Tao, BI Ruyu, CHEN Rusi, et al. Comprehensive security correction strategy based on second-order cone programming considering multiple fast control measures[J]. Transactions of China Electrotechnical Society, 2020, 35(1): 167-178.
[3] MAGDY G, MOHAMED E A, SHABIB G, et al. Microgrid dynamic security considering high penetration of renewable energy[J]. Protection and Control of Modern Power Systems, 2018, 3(3): 236-246.
[4] 劉太學(xué), 李晨光, 王蕓波. 電力系統(tǒng)安全校正問題研究綜述[J]. 中國電力教育, 2010(4): 256-258.
LIU Taixue, LI Chenguang, WANG Yunbo. A review of power system safety correction problems[J]. China Electric Power Education, 2010(4): 256-258.
[5] 趙晉泉, 江曉東, 張伯明. 一種基于連續(xù)線性規(guī)劃技術(shù)的在線靜態(tài)安全校正算法[J]. 電網(wǎng)技術(shù), 2005, 29(5): 25-30.
ZHAO Jinquan, JIANG Xiaodong, ZHANG Boming. A successive linear programming based on-line static security corrective control approach[J]. Power System Technology, 2005, 29(5): 25-30.
[6] 王艷松, 盧志強(qiáng), 李強(qiáng), 等. 基于源-荷協(xié)同的電網(wǎng)靜態(tài)安全校正最優(yōu)控制算法[J]. 電力系統(tǒng)保護(hù)與控制, 2019, 47(20): 73-80.
WANG Yansong, LU Zhiqiang, LI Qiang, et al. Optimal control algorithm for static safety correction of power grid based on source-load coordination[J]. Power System Protection and Control, 2019, 47(20): 73-80.
[7] KUCUKTEZCAN C F, GENC V. Preventive and corrective control applications in power systems via big bang-big crunch optimization[J]. International Journal of Electrical Power and Energy Systems, 2015, 67.
[8] 傅志生, 白曉清, 李佩杰, 等. 一種快速求解大規(guī)模安全約束最優(yōu)潮流的多核并行方法[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(3): 29-37.
FU Zhisheng, BAI Xiaoqing, LI Peijie, et al. A high-speed multi-core parallel method for solving large-scale security constrained OPF[J]. Power System Protection and Control, 2015, 43(3): 29-37.
[9] WEN Yunfeng, GUO Chuangxin. Discussion on “Solving preventive-corrective SCOPF by a hybrid computational strategy"[J]. IEEE Transactions on Power Systems, 2014, 29(6): 3124-3134.
[10]吳際舜, 侯志儉. 利用帶上、下界變量的線性規(guī)劃法求解有功安全校正問題[J]. 電力系統(tǒng)自動化, 1985, 9(1): 12-20.
WU Jishun, HOU Zhijian. Active power security control using liner programming with bounded variables[J]. Automation of Electric Power Systems, 1985, 9(1): 12-20.
[11]徐雙雙, 姚維為. 基于靈敏度分析的有功安全校正[J]. 機(jī)電信息, 2015(33): 66-67.
XU Shuangshuang, YAO Weiwei. Active safety correction based on sensitivity analysis[J]. Mechatronics Information, 2015(33): 66-67.
[12]代飛, 崔挺, 徐箭, 等. 基于綜合靈敏度分析的電壓校正控制[J]. 電力自動化設(shè)備, 2011, 31(12): 15-20.
DAI Fei, CUI Ting, XU Jian, et al. Voltage correction control based on comprehensive sensitivity analysis[J]. Electric Power Automation Equipment, 2011, 31(12): 15-20.
[13]羅永建, 李曉明, 黃彥浩, 等. 基于準(zhǔn)穩(wěn)態(tài)靈敏度和校正成本最小化的過載線路實時校正方法[J]. 電力系統(tǒng)保護(hù)與控制, 2020, 48(23): 1-10.
LUO Yongjian, LI Xiaoming, HUANG Yanhao, et al. Real-time correction method for overloaded lines based on quasi-steady-state sensitivity and correction cost minimization[J]. Power System Protection and Control, 2020, 48(23): 1-10.
[14]程臨燕, 郝治國, 張保會, 等. 基于內(nèi)點法消除輸電斷面過載的實時控制算法[J]. 電力系統(tǒng)自動化, 2011, 35(17): 51-55.
CHENG Linyan, HAO Zhiguo, ZHANG Baohui, et al. Fast elimination of overload in transmission line section based on simplified primal-dual interior point method[J]. Automation of Electric Power Systems, 2011, 35(17): 51-55.
[15]姚峰, 張保會, 周德才, 等. 輸電斷面有功安全性保護(hù)及其快速算法[J]. 中國電機(jī)工程學(xué)報, 2006, 26(13): 31-36.
YAO Feng, ZHANG Baohui, ZHOU Decai, et al. Active power security protection of transmission section and its fast algorithm[J]. Proceedings of the CSEE, 2006, 26(13): 31-36.
[16]鐘貴和, 王星華, 甘德樹, 等. 輸電斷面的有功安全預(yù)防-校正負(fù)荷調(diào)整算法[J]. 電力系統(tǒng)保護(hù)與控制, 2014, 42(16): 15-20.
ZHONG Guihe, WANG Xinghua, GAN Deshu, et al. Load adjusted algorithm on active power prevention- correction of transmission section[J]. Power System Protection and Control, 2014, 42(16): 15-20.
[17]劉朝陽, 穆朝絮, 孫長銀. 深度強(qiáng)化學(xué)習(xí)算法與應(yīng)用研究現(xiàn)狀綜述[J]. 智能科學(xué)與技術(shù)學(xué)報, 2020, 2(4): 314-326.
LIU Zhaoyang, MU Chaoxu, SUN Changyin. An overview on algorithms and applications of deep reinforcement learning[J]. Journal of Intelligent Science and Technology, 2020, 2(4): 314-326.
[18]魏敏, 葉劍. 遺傳算法在電力市場下有功安全校正中的應(yīng)用[J]. 華中電力, 2003, 16(4): 1-5.
WEI Min, YE Jian. Application of genetic algorithm in active safety correction in an electricity market[J]. Central China Power, 2003, 16(4): 1-5.
[19]秦心筱, 張昌華, 徐子豪, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的電力系統(tǒng)低頻振蕩主導(dǎo)模態(tài)特征定性辨識[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(10): 51-58.
QIN Xinxiao, ZHANG Changhua, XU Zihao, et al. Research on qualitative identification of a low frequency oscillations dominant mode in power system based on a convolutional neural network[J]. Power System Protection and Control, 201, 49(10): 51-58.
[20]WANG H N, LIU B, ZHANG Y, et al. A review of deep reinforcement learning[J]. Frontiers of Information Technology & Electronic Engineering, 2020, 21(12): 1726-1745.
[21]王鵬翔. 基于機(jī)器自學(xué)習(xí)的電網(wǎng)安全校正算法研究[D]. 北京: 華北電力大學(xué), 2011.
WANG Pengxiang. The study of active power security correction algorithm based on machine self-learning methods[D]. Beijing: North China Electric Power University, 2011.
[22]孫淑琴, 顏文麗, 吳晨悅, 等. 基于原-對偶內(nèi)點法的輸電斷面有功安全校正控制方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(7): 75-85.
SUN Shuqin, YAN Wenli, WU Chenyue, et al. Active power flow safety correction control method of transmission sections based on a primal-dual interior point method[J]. Power System Protection and Control, 2021, 49(7): 75-85.
[23]朱足君, 李揚, 陳文浩, 等. 節(jié)能發(fā)電調(diào)度中的有功安全校正策略[J]. 電力系統(tǒng)及其自動化學(xué)報, 2008, 20(6): 47-50.
ZHU Zujun, LI Yang, CHEN Wenhao, et al. Correction strategy of active power security in energy conservation generation dispatching[J]. Proceedings of the CSU-EPSA, 2008, 20(6): 47-50.
[24] 王之偉, 陸曉, 刁瑞盛, 等. 基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)自主控制與決策技術(shù)[J]. 電力工程技術(shù), 2020, 39(6): 34-43.
WANG Zhiwei, LU Xiao, DIAO Ruisheng, et al. Deep-reinforcement-learning based autonomous control and decision making for power systems[J]. Electric Power Engineering Technology, 2020, 39(6): 34-43.
[25]ZHANG Z, ZHANG D, QIU R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2020, 6(1): 213-225.
[26] DU W, DING S. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications[J]. Artificial Intelligence Review, 2020, 53: 1-24.
A deep reinforcement learning algorithm-based active safety correction method for power grids
SUN Lijun1, GU Xueping1, LIU Tong1, WANG Tieqiang2, YANG Xiaodong2
(1. School of Electrical and Electronic Engineering, North China Electric Power University, Baoding 071003, China;2. State Grid Hebei Electric Power Co., Ltd., Shijiazhuang 050021, China)
Active safety correction of a power system is of great importance in ensuring the safe operation of a power grid. The traditional active safety correction method cannot comprehensively consider the system power flow distribution state and the adjustment performance of the units, and has difficulties in practical application because of the low solution efficiency, the adjustment involved in many units, and the need for repeated adjustment. Therefore, an active safety correction strategy based on the deep Q network (DQN) by using a deep reinforcement learning algorithm is proposed. First, a system active safety correction model is established; secondly, convolutional neural networks (CNN) are used to explore the deep features of the grid operation state. The DQN algorithm is used to construct a mapping model of the combination of power grid operation state and optimal adjustment unit through the mechanism of "state-action" and the medium of "reward", and the adjustment unit is determined. Finally, the adjustment quantity is calculated according to the sensitivity of overload line to the adjusting unit. The validation results of the IEEE39-bus system show that the active safety correction strategy proposed cancomprehensively consider the overall situation of system power flow distribution and unit regulation performance when dealing with multi-line overload, and effectively eliminate line overload.
power system;safety correction; deep reinforcement learning; DQN algorithm; sensitivity
10.19783/j.cnki.pspc.210917
國家電網(wǎng)公司科技項目資助(SGTYHT/17-JS-199)
This work is supported by the Science and Technology Project of State Grid Corporation of China (No. SGTYHT/17-JS-199).
2021-07-16;
2021-09-02
孫立鈞(1997—),男,通信作者,碩士研究生,主要研究方向為人工智能技術(shù)及其在電力系統(tǒng)中的應(yīng)用、電力系統(tǒng)安全評估與控制;E-mail: does877@163.com
顧雪平(1964—),男,博士,教授,博士研究生導(dǎo)師,主要研究方向為電力系統(tǒng)安全穩(wěn)定評估與控制、電力系統(tǒng)安全防御與恢復(fù)控制、智能技術(shù)在電力系統(tǒng)中的應(yīng)用;E-mail:xpgu@ncepu.edu.cn
劉 彤(1996—),女,博士研究生,主要研究方向為人工智能技術(shù)及其在電力系統(tǒng)中的應(yīng)用、電力系統(tǒng)安全評估與控制。E-mail: tongliu_1996@163.com
(編輯 姜新麗)