楊曉東,嚴(yán)劍峰,劉佳霖
(中國電力科學(xué)研究院有限公司,北京市 100192)
電網(wǎng)斷面功率調(diào)整是電網(wǎng)運行方式計算和安全穩(wěn)定分析工作的重要組成部分。隨著以新能源為主體的新型電力系統(tǒng)的發(fā)展[1-4],區(qū)域間的能量傳輸變化愈加劇烈[5],調(diào)度人員面臨越來越大的工作壓力。因此,研究斷面功率自動調(diào)整問題很有必要。
目前,在電網(wǎng)潮流計算過程中,控制斷面功率的方法主要分為傳統(tǒng)潮流斷面約束方法、靈敏度類方法和優(yōu)化控制方法。傳統(tǒng)潮流斷面約束方法是在傳統(tǒng)潮流計算的基礎(chǔ)上,增加斷面功率的約束條件,通過多次迭代調(diào)整反復(fù)計算潮流,計算速度難以滿足要求。靈敏度類方法[6-8]大多將研究重點放在如何選取、計算靈敏度指標(biāo)上,而對于實際調(diào)整工作中如何確定調(diào)整量的關(guān)注度不夠。文獻[9-13]采用非線性規(guī)劃方法來求解優(yōu)化控制問題,以網(wǎng)損最小為目標(biāo),并考慮輸電斷面的功率約束等條件。非線性規(guī)劃類方法在求解優(yōu)化模型的過程中耗時較多,計算速度慢,并且在大區(qū)互聯(lián)電網(wǎng)中潮流收斂性得不到保證,可應(yīng)用性較差。隨著電力系統(tǒng)中新能源比例的不斷提高,由于新能源發(fā)電存在日內(nèi)功率波動大、發(fā)電資源分布不均等問題,電力系統(tǒng)的區(qū)域間能量傳輸將越來越頻繁、規(guī)模也越來越大,上述控制方法很難滿足需要。
在電網(wǎng)的實際運行中,一般利用仿真軟件輔助完成潮流斷面功率調(diào)整工作。在保證發(fā)電和負(fù)荷平衡的基礎(chǔ)上,通過不斷調(diào)整發(fā)電機出力來調(diào)整目標(biāo)斷面的輸電功率。這種人工調(diào)整方法存在流程繁瑣、工作量大、依賴專家經(jīng)驗的問題,并且當(dāng)斷面功率與設(shè)定目標(biāo)值偏差較大時容易導(dǎo)致潮流計算不收斂。
目前,已經(jīng)有不少學(xué)者嘗試用人工智能方法解決電力系統(tǒng)調(diào)度運行中的問題[14-16],例如研制智能機器調(diào)度員以輔助電網(wǎng)運行人員進行決策[17],其中,很多技術(shù)已經(jīng)逐步在省級電網(wǎng)中得到應(yīng)用[18-21]。近年來,深度強化學(xué)習(xí)(deep reinforcement learning,DRL)發(fā)展迅速,在解決復(fù)雜決策問題時表現(xiàn)突出,已經(jīng)在自動發(fā)電控制[22-23]、需求響應(yīng)[24]、能量管理[25]等領(lǐng)域得到應(yīng)用。
本文嘗試將DRL 方法引入斷面功率自動調(diào)整問題中來,提出了一種基于近端策略優(yōu)化算法的斷面功率自動調(diào)整方法,并且在學(xué)習(xí)模型中引入了斷面功率調(diào)整的人工經(jīng)驗。
強化學(xué)習(xí)(reinforcement learning,RL)是機器學(xué)習(xí)方法的一種,適合用來求解最優(yōu)策略。在RL 中,智能體通過與環(huán)境交互來學(xué)習(xí)最優(yōu)策略。在每一個離散時刻t,智能體感知到當(dāng)前環(huán)境狀態(tài),根據(jù)當(dāng)前策略選擇并執(zhí)行一個動作。動作執(zhí)行完之后,環(huán)境轉(zhuǎn)移至下一時刻的環(huán)境狀態(tài)并反饋給智能體一個獎勵值。這一過程持續(xù)進行,直至某一預(yù)設(shè)時刻或到達特定環(huán)境狀態(tài)。RL 的目標(biāo)是最大化累計獎勵。智能體通過調(diào)整策略,不斷優(yōu)化狀態(tài)與動作之間的映射關(guān)系來達到這一目標(biāo)。
傳統(tǒng)RL 方法對策略的表征能力有限,僅能應(yīng)用在一些簡單低維的場景下,缺少可擴展能力。目前RL 已經(jīng)發(fā)展到了與深度學(xué)習(xí)(deep learning,DL)相融合的階段。DRL 結(jié)合了DL 對復(fù)雜高維數(shù)據(jù)的良好感知能力和RL 強大的決策能力,能模擬一些復(fù)雜的決策過程,可實現(xiàn)端到端的直接控制[26-27]。
DRL 方法可以分為2 類:基于值函數(shù)的方法和基于策略梯度的方法[28]?;谥岛瘮?shù)的DRL 方法用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù),基于策略梯度的DRL方法用深度神經(jīng)網(wǎng)絡(luò)逼近策略,并用策略梯度方法求得最優(yōu)策略。
基于值函數(shù)的DRL 方法適合用于解決動作空間離散的問題,而在進行斷面功率調(diào)整的實際工作中,需要對發(fā)電機出力進行連續(xù)調(diào)整,離散化的處理方式[29-30]并不符合實際情況,也會影響控制效果,因此,更適合采用基于策略梯度的算法??紤]到近端策 略 優(yōu) 化(proximal policy optimization,PPO)[31]算法的訓(xùn)練效果好、通用性強,并且易于實現(xiàn)和調(diào)整,本文采用PPO 算法來研究斷面功率的自動調(diào)整問題。
將DRL 方法應(yīng)用于電力系統(tǒng)中存在的問題在于智能體的動作空間大,這會導(dǎo)致訓(xùn)練效率低、所需時間長。在DRL 模型的訓(xùn)練過程中,通過引入知識經(jīng)驗,可以減小智能體的動作空間,從而大幅縮短模型的訓(xùn)練時間[32]。因此,在建立模型的時候引入電力系統(tǒng)的知識經(jīng)驗是很有必要的。
目前,在進行斷面功率調(diào)整的過程中,往往優(yōu)先針對靈敏度高的發(fā)電機進行調(diào)整,與此同時,為了保證發(fā)電和負(fù)荷平衡,也會對應(yīng)調(diào)節(jié)靈敏度低的發(fā)電機的有功出力。基于此人工經(jīng)驗,本文在建立DRL模型的過程中引入發(fā)電機提前篩選機制和功率補償機制,針對待調(diào)整的斷面,計算出各發(fā)電機對該斷面的靈敏度指標(biāo)并進行排序,將靈敏度較大的機組作為待調(diào)整機組,將靈敏度較小的機組作為功率補償機組以平衡待調(diào)整機組有功出力改變造成的功率不平衡。這樣可以大大縮小智能體的動作空間,降低模型訓(xùn)練過程中出現(xiàn)潮流計算不收斂和平衡機越限情況的概率。
與傳統(tǒng)的靈敏度定義不同,本文所采取的靈敏度并不是發(fā)電機出力變化1 個單位出力時斷面功率的變化量,而是發(fā)電機出力從當(dāng)前值變?yōu)樽畲笾祷蜃钚≈禃r斷面功率的變化量。在改變發(fā)電機k的有功出力以求取靈敏度的時候,所產(chǎn)生的有功功率不平衡量不是由平衡機承擔(dān),而是選擇固定的發(fā)電機進行補償。根據(jù)不同的斷面,將發(fā)電機按照與斷面的相對位置關(guān)系分為2 個集合,并針對這2 個集合,分別選擇2 臺發(fā)電機(或發(fā)電機組合),自動調(diào)整有功出力以平衡發(fā)電機k的有功出力變化導(dǎo)致的有功功率不平衡量。
按照式(1)至式(3)計算得到各發(fā)電機對給定斷面的3 個靈敏度指標(biāo)之后,將發(fā)電機分別按照Sposk和Snegk由大到小的順序排列得到發(fā)電機集合Ψpos和Ψneg,分別用于向正方向、負(fù)方向調(diào)整給定斷面的功率;將發(fā)電機按照Sbank由小到大的順序排列得到發(fā)電機集合Ψban,用于進行功率補償操作。然后,根據(jù)給定斷面的目標(biāo)功率值Ptar,依據(jù)式(4)和式(5)可以篩選出將斷面功率調(diào)到目標(biāo)值所需的最少數(shù)量的發(fā)電機。當(dāng)Ptar≥Pinit時,得到用于正向調(diào)整斷面功率到Ptar的子集合ψpos,反之得到子集合ψneg。
式中:ρ為在篩選待調(diào)整發(fā)電機時的裕度系數(shù),ρ≥1;N為滿足式(5)約束的發(fā)電機臺數(shù);n為待調(diào)整發(fā)電機的臺數(shù)。
選取出含有n臺待調(diào)整發(fā)電機組成的集合ψpos(ψneg)后,將動作值a的取值范圍分為n個子區(qū)間[ai,ai+1),i=1,2,…,n,根據(jù)動作值a落入的 子區(qū)間確定選中的發(fā)電機,其中,ai和ai+1分別為第i個子區(qū)間的下邊界和上邊界。當(dāng)Ptar≥Pinit時,子區(qū)間劃分規(guī)則如式(6)所示;當(dāng)Ptar<Pinit時,子區(qū)間劃分規(guī)則如式(7)所示。
式中:amax和amin為常數(shù),分別為智能體動作空間的上、下邊界;i=1,2,…,n;a1=amin。
在時刻t,當(dāng)Ptar≥Pinit時,智能體的動作值at如式(8)所示,映射為集合ψpos中發(fā)電機k的有功出力;反之,當(dāng)Ptar<Pinit時,智能體的動作值at如式(9)所示,映射為集合ψneg中發(fā)電機k的有功出力,其中,k的取值根據(jù)動作值at落入的區(qū)間[ai,ai+1)確定。
經(jīng)過上述過程,發(fā)電機出力情況發(fā)生改變,為了避免系統(tǒng)中功率波動過大造成平衡機越限,須進行功率補償操作。在上述調(diào)整過程中,系統(tǒng)中出現(xiàn)的有功功率波動的上邊界ΔPmax、下邊界ΔPmin可分別通過式(10)、式(11)計算得出。
式中:npos和nneg分別為用于正向、反向調(diào)整斷面功率到Ptar的集合ψpos和ψneg中發(fā)電機的數(shù)量。
計算出功率波動上邊界ΔPmax、下邊界ΔPmin后,從集合Ψban中選出子集合ψban用于補償功率。為了保證能同時補償波動功率的上、下邊界,可將功率補償發(fā)電機集合ψban分為3 個子集合ψa、ψb、ψc。ψa中的發(fā)電機既可以用于正向補償功率,也可用于反向補償功率;ψb中的發(fā)電機只用于正向補償功率;ψc中的發(fā)電機只用于反向補償功率。在滿足約束條件式(14)和式(15)的同時,優(yōu)化目標(biāo)函數(shù)式(13)即可從集合Ψban中得到用于功率補償?shù)淖蛹夕譩an。
式中:λ為功率補償機組的篩選閾值,目的是選中可調(diào)整余量較大的發(fā)電機作為補償機組。
通過引入發(fā)電機提前篩選和功率補償措施,能大大縮小智能體的動作空間,降低出現(xiàn)平衡機出力越限和潮流不收斂情況的概率,保證智能體在探索環(huán)境的過程中能快速積累有效樣本,進而保證模型的收斂性,提升模型訓(xùn)練速度。
為了解決DRL 算法的模型泛化問題,在本文所提出的方法中,先基于電力系統(tǒng)的知識經(jīng)驗,縮小智能體的動作空間;再根據(jù)當(dāng)前斷面功率與目標(biāo)功率的差值,按照靈敏度從高到低的順序,確定需要調(diào)整的發(fā)電機。在此基礎(chǔ)上,智能體通過經(jīng)驗回放方式高效學(xué)習(xí),學(xué)習(xí)到使斷面功率達到目標(biāo)值的策略??傮w框架如圖1 所示。
圖1 總體框架Fig.1 Overall framework
1)環(huán)境狀態(tài)
為了將給定斷面的功率調(diào)節(jié)到指定值,所建立的DRL 模型的環(huán)境狀態(tài)需要包含目標(biāo)斷面的有關(guān)信息。同時,環(huán)境狀態(tài)也會隨著智能體的每次動作而發(fā)生改變。因此,本文設(shè)定時刻t的環(huán)境狀態(tài)st包括斷面功率設(shè)定值、電網(wǎng)中發(fā)電機的有功出力以及目標(biāo)斷面輸出功率,如式(16)所示。
2)獎勵函數(shù)
電網(wǎng)斷面功率調(diào)整的目標(biāo)是使目標(biāo)斷面功率達到設(shè)定值,而智能體要通過最大化累計折扣獎勵來學(xué)習(xí)完成此任務(wù)的策略。本文中智能體獎勵函數(shù)的設(shè)置方法為:當(dāng)潮流計算收斂、平衡機出力不越限、斷面的實際功率與目標(biāo)值之差滿足給定的精度要求時,表示達到了調(diào)整目標(biāo),給予最大獎勵rmax;當(dāng)潮流計算不收斂或平衡機出力越限時,給予最小的獎勵rmin,表示最嚴(yán)重懲罰;當(dāng)潮流計算收斂、平衡機出力不越限、時刻t斷面的實際功率Pt與目標(biāo)值之差不滿足精度要求時,根據(jù)兩者差值,給予一個負(fù)的獎勵值-|Pt-Ptar|,兩者相差越小則獎勵值越大。
本文采用的PPO 算法的模型訓(xùn)練流程如圖2所示,圖中mod 為取余函數(shù)。首先,對神經(jīng)網(wǎng)絡(luò)和經(jīng)驗池進行初始化操作,設(shè)置最大經(jīng)驗累積數(shù)T以及終止時刻Tmax;然后,針對給定斷面和目標(biāo)值范圍,隨機初始化目標(biāo)斷面和功率設(shè)定值;智能體根據(jù)觀察到的環(huán)境狀態(tài)st,輸出動作值at,得到獎勵值rt,并將經(jīng)驗數(shù)據(jù)st,at,rt,st+1存入經(jīng)驗池。反復(fù)進行經(jīng)驗收集,直到達到最大經(jīng)驗累積數(shù)T,取出所有數(shù)據(jù),分批次更新神經(jīng)網(wǎng)絡(luò)參數(shù),在此過程中,達到回合終止條件則回合結(jié)束,并隨機選定斷面和目標(biāo)功率值,開始新的訓(xùn)練回合。當(dāng)時刻t達到設(shè)定的終止時刻Tmax時訓(xùn)練結(jié)束。
圖2 PPO 模型訓(xùn)練流程圖Fig.2 Flow chart of PPO model training
本文神經(jīng)網(wǎng)絡(luò)采用全連接神經(jīng)網(wǎng)絡(luò)。Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)和每層的節(jié)點數(shù)量由算例中的電網(wǎng)規(guī)模決定。在IEEE 39 節(jié)點算例中,Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)結(jié)構(gòu)相同,都含有1 個輸入層、3 個隱藏層和1 個輸出層,節(jié)點數(shù)量分別為12、128、128、128、1;在東北電網(wǎng)算例中,Actor 網(wǎng)絡(luò)和Critic 網(wǎng) 絡(luò) 也 都 采 用1 個 輸 入 層、3 個 隱 藏 層、1 個 輸出層的結(jié)構(gòu),節(jié)點數(shù)量分別為322、512、512、512、1。
神經(jīng)網(wǎng)絡(luò)的激活函數(shù)選用Tanh 函數(shù),優(yōu)化方法采用Adam 方法。有關(guān)參數(shù)設(shè)置如下:α=0.000 25,γ=0.9,c1=0.5,c2=0.01,ε=0.2,amin=-1,amax=1,λ=200 MW。其中,α為學(xué)習(xí)率,決定了神經(jīng)網(wǎng)絡(luò)參數(shù)每次更新的幅度,較大的α可以加快訓(xùn)練速度,較小的α擁有更好的訓(xùn)練穩(wěn)定性;γ為折扣因子,決定了智能體未來決策獎勵對當(dāng)前狀態(tài)值估計的影響大小,當(dāng)γ趨于0 時只考慮當(dāng)前獎勵,當(dāng)γ趨于1 時,將考慮更多未來決策獎勵;c1為值函數(shù)誤差系數(shù),決定了最終目標(biāo)函數(shù)中值函數(shù)誤差所占比重;c2為熵系數(shù),決定了最終目標(biāo)函數(shù)中當(dāng)前策略概率分布的熵所占比重;ε為截斷系數(shù),用于限制新舊策略之間的偏離程度,防止新策略嚴(yán)重偏離舊策略,保證訓(xùn)練過程的穩(wěn)定。
本文采用IEEE 39 節(jié)點算例和東北電網(wǎng)算例來驗證所提算法的有效性。仿真平臺是一臺配置為AMD Ryzen 2600X CPU、32 GB 內(nèi) 存、NVIDIA RTX2070 GPU 的個人計算機。相關(guān)代碼用Python編寫,神經(jīng)網(wǎng)絡(luò)用Tensorflow 搭建,潮流計算用Pandapower 執(zhí)行。
IEEE 39 節(jié)點系統(tǒng)內(nèi)10 臺發(fā)電機的額定功率均設(shè)為1 300 MW。選取2 個目標(biāo)斷面,其中,斷面1包含2 條聯(lián)絡(luò)線,初始傳輸功率為497 MW,斷面2包含1 條聯(lián)絡(luò)線,初始傳輸功率為158 MW。參考靈敏度指標(biāo)多次調(diào)整發(fā)電機出力,得到2 個斷面的功率最大值、最小值,據(jù)此設(shè)定IEEE 39 節(jié)點算例中斷面1 和斷面2 的傳輸功率調(diào)整范圍分別為[120,840]、[-80,520]MW,并要求調(diào)整后的斷面功率須在設(shè)定值[-10,10]MW 的范圍內(nèi)。
東北電網(wǎng)算例包含2 478 個母線節(jié)點、3 條直流線路、321 臺發(fā)電機和985 個負(fù)荷。斷面1 和斷面2 都包含3 條交流輸電線路,初始傳輸功率分別為1 178、1 372 MW,設(shè)定斷面1 和斷面2 的目標(biāo)傳輸范圍為[200,1 900]、[400,2 500]MW。
在模型訓(xùn)練過程中,針對多個斷面功率目標(biāo)值,通過統(tǒng)計模型給出的調(diào)整策略成功率,即可以表示模型訓(xùn)練的收斂情況。構(gòu)建2 個PPO 算法訓(xùn)練模型,一個包含發(fā)電機提前篩選和功率補償機制,另一個不包含,分別進行訓(xùn)練。2 個模型在訓(xùn)練過程中的成功率對比結(jié)果如圖3(a)所示。由圖3(a)可以看出,含有發(fā)電機提前篩選和功率補償?shù)哪P驮谟?xùn)練過程中,其測試成功率逐漸增加,表示模型逐漸收斂,當(dāng)訓(xùn)練批次達到790 次時,模型訓(xùn)練完成,測試成功率達到100%。而在相同的訓(xùn)練批次下,不包含發(fā)電機提前篩選和功率補償?shù)哪P?,其測試成功率沒有明顯的上升趨勢,模型不收斂。
圖3 IEEE 39 節(jié)點系統(tǒng)算例測試結(jié)果Fig.3 Testing results of IEEE 39-bus system case
由2 個模型訓(xùn)練效果的對比可知,在DRL 模型中,根據(jù)電網(wǎng)人工經(jīng)驗,引入發(fā)電機提前篩選和功率補償機制,可以有效提高模型的收斂性,大大縮短模型訓(xùn)練所需的時間。
在模型訓(xùn)練完成后,針對IEEE 39 節(jié)點系統(tǒng)中的斷面1 和2,按照提前設(shè)定的斷面功率傳輸范圍進行 測 試,結(jié) 果 如 圖3(b)和 圖3(c)所 示。圖 中:Gen.10 為平衡機編號,Gen.2、Gen.3、Gen.6 為調(diào)整的發(fā)電機編號。
由圖3(b)和圖3(c)可知,訓(xùn)練后的模型針對設(shè)定的斷面目標(biāo)傳輸功率,均能給出對應(yīng)的調(diào)整策略,且調(diào)整誤差在10 MW 之內(nèi),同時,平衡機Gen.10 的有功出力變化不大,不超過3%,對潮流收斂性影響較小。這證明了本文所構(gòu)建的模型能針對給定的斷面和設(shè)定的功率傳輸范圍,對斷面功率進行靈活有效的調(diào)整,避免了繁瑣的手動調(diào)整流程。
隨著電網(wǎng)規(guī)模的擴大,模型訓(xùn)練所需時間增加。針對IEEE 39 節(jié)點系統(tǒng),當(dāng)參數(shù)批量更新次數(shù)達到790 次時,模型測試正確率即可達到100%。對于中國東北電網(wǎng)算例,所需參數(shù)批量更新次數(shù)為3 700 次。應(yīng)用完成訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)調(diào)整東北電網(wǎng)的斷面功率,斷面1 和斷面2 的調(diào)整結(jié)果分別如圖4(a)和圖4(b)所示。
圖4 中國東北電網(wǎng)算例測試結(jié)果Fig.4 Testing results of Northeast China power grid case
在斷面1 的目標(biāo)功率逐漸增大的過程中,當(dāng)目標(biāo)值從初始值1 178 MW 增加到1 620 MW 時,受端發(fā)電機TC-2 被選中,其出力從670 MW 降低至6 MW;目標(biāo)值從1 620 MW 增加到19 000 MW 時,受端發(fā)電機BS-1 被選中,其輸出功率從額定值650 MW 降低至10 MW。最終,斷面1 的傳輸功率達到1 902 MW,調(diào)整誤差為2 MW。
在斷面1 目標(biāo)功率逐漸減小的過程中,發(fā)電機HYH-1、JZ-1、QH-1 依次被選中。隨著斷面1 目標(biāo)值從初始值逐步降低到200 MW,這3 臺受端發(fā)電機從停運狀態(tài)被依次投運。當(dāng)斷面1 目標(biāo)功率設(shè)置 為200 MW 時,發(fā) 電 機SZ-2、JZ-2、YSH-2 相 應(yīng)的出力被設(shè)置為793 MW(99%)、657 MW(98%)、229 MW(38%)。最終,斷面1 實際功率為202 MW,調(diào)整誤差為2 MW。
在斷面1 整個調(diào)整過程中,平衡機的出力在342 MW 和384 MW(57%額定功率和64%額定功率)之間波動。
類似的,在斷面2 的目標(biāo)功率從初始功率逐漸增大到2 500 MW 的過程中,送端發(fā)電機SL-5、HS-3、HG-3 從停運狀態(tài)被依次投運,最終斷面功率達到2 503 MW,誤差為3 MW。從初始功率逐漸減小到400 MW 的 過 程 中,送 端 發(fā) 電 機QTH-3、HG-2、SYS-5、QTH-4 逐漸被選中減小出力,最終斷面功率達到402 MW,誤差為2 MW。平衡機的出力保持在54%到68%的范圍內(nèi)。
東北電網(wǎng)算例的計算結(jié)果表明,本文提出的模型可以靈活自動地調(diào)整大電網(wǎng)的斷面功率,并且可以保證調(diào)整誤差不超過10 MW。同時,平衡機出力變化幅度不超過20%,對潮流收斂性影響不大,滿足工程中的實際需求。
通過在約束條件中加上目標(biāo)斷面功率約束,可以利用最優(yōu)潮流方法來解決斷面功率調(diào)整問題,最優(yōu)潮流模型通常采用內(nèi)點法(interior-point method,IPM)進行求解。為方便起見,本文采用MATPOWER 中的最優(yōu)潮流模型,求解算法使用IPM。由于IPM 在大電網(wǎng)中經(jīng)常出現(xiàn)計算不收斂的情況,本文采用基于直流潮流模型的內(nèi)點法(interior-point method based on DC power flow model,IPM-DC)。
表1 和表2 分別給出了在IEEE 39 節(jié)點系統(tǒng)斷面1、東北電網(wǎng)斷面1 上采用本文提出的PPO 算法與IPM-DC 的對比結(jié)果。由對比結(jié)果可知,在調(diào)整精度方面,本文提出的基于PPO 算法的自動調(diào)整方法明顯優(yōu)于IPM-DC。在大規(guī)模電網(wǎng)中,IPM-DC的誤差甚至?xí)_到數(shù)百兆瓦,而本文提出的調(diào)整方法可以將誤差控制在10 MW 以內(nèi)。
表1 IEEE 39 節(jié)點系統(tǒng)斷面1 功率調(diào)整結(jié)果Table 1 Power adjustment results of transmission section 1 in IEEE 39-bus system
基于本文提到的靈敏度指標(biāo),并引入功率補償策略,也可完成斷面功率調(diào)整工作。針對IEEE 39 節(jié)點系統(tǒng)中的斷面1 和東北電網(wǎng)中的斷面1,在其各自調(diào)整范圍內(nèi),隨機生成200 個調(diào)整目標(biāo)值,采用本文所提方法和靈敏度方法分別進行調(diào)整,調(diào)整精度設(shè)置為10 MW,200 次決策總共用時如表3 所示。決策所用時間是指從輸入斷面目標(biāo)值到輸出需要調(diào)整的發(fā)電機及其對應(yīng)出力所需要的時間。
表3 計算性能比較Table 3 Comparison of calculation performance
直接采用靈敏度方法進行斷面功率調(diào)整的難點在于發(fā)電機出力的調(diào)整量難以確定,需要經(jīng)過多次嘗試才能將調(diào)整誤差控制在給定范圍內(nèi),在此過程中需要反復(fù)進行潮流計算。而DRL 方法在線決策速度快,可以實現(xiàn)從狀態(tài)信息到調(diào)整策略的端到端映射,避免了繁瑣的調(diào)整過程。
本文基于數(shù)據(jù)驅(qū)動思維,開展了DRL 方法在電網(wǎng)斷面功率調(diào)整問題中的應(yīng)用研究,主要結(jié)論如下:
1)所提基于PPO 算法的斷面功率調(diào)整方法可有效根據(jù)電網(wǎng)運行信息自動得出斷面功率調(diào)整策略,實現(xiàn)了電網(wǎng)狀態(tài)信息到系統(tǒng)中發(fā)電機有功出力調(diào)節(jié)的端到端直接映射,克服了傳統(tǒng)調(diào)整方法計算繁瑣、需要借助人工經(jīng)驗的弊端。
2)針對電力系統(tǒng)中發(fā)電機動作空間大的問題,在建立DRL 模型的過程中,引入發(fā)電機提前篩選和功率補償機制,規(guī)避了潮流計算不收斂與正樣本稀少問題。通過對比訓(xùn)練過程中測試正確率變化曲線可以看出采用上述機制訓(xùn)練穩(wěn)定性更優(yōu)。
3)實驗結(jié)果表明所提方法對斷面功率調(diào)整精度較高,對潮流計算收斂性影響較小,具備一定的實際應(yīng)用價值。
在后續(xù)研究中,還需要考慮更多實際工程中的約束條件,如各發(fā)電廠站的發(fā)電計劃等,以提高所提方法的實用性。此外,為更好地指導(dǎo)智能體探索環(huán)境,提高模型訓(xùn)練效率,還需要進一步優(yōu)化獎勵函數(shù)。