嚴梓銘,徐 巖
(南洋理工大學(xué)電氣與電子工程學(xué)院,新加坡 639798,新加坡)
電力系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)一般不隨系統(tǒng)運行狀態(tài)改變而改變,若非檢修或故障,線路等主要輸電設(shè)備將保持閉合運行[1],而電力系統(tǒng)運行調(diào)度也通常不考慮拓撲結(jié)構(gòu)調(diào)整。近年來,隨著電力系統(tǒng)不確定性日趨復(fù)雜,可再生能源并網(wǎng)比例提高,傳統(tǒng)電力系統(tǒng)發(fā)電出力調(diào)整的靈活性有限,難以在有限控制資源下滿足電力系統(tǒng)安全經(jīng)濟運行的要求。因此,有研究開始嘗試將電網(wǎng)拓撲結(jié)構(gòu)作為電力系統(tǒng)運行的控制變量[2],以進一步優(yōu)化電力系統(tǒng)的運行水平。
輸電網(wǎng)拓撲結(jié)構(gòu)優(yōu)化無須加裝設(shè)備,可通過改變電網(wǎng)拓撲來改善潮流分布,從而解決線路過載與電壓越限等問題。近年來,常見的輸電網(wǎng)結(jié)構(gòu)優(yōu)化主要包括輸電線路最優(yōu)開斷[3-12]和變電站母線分裂[13-17]這2 類。在線路最優(yōu)開斷方面,文獻[3]提出了基于魯棒優(yōu)化與故障遍歷校驗的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化方法。文獻[4]計及電網(wǎng)N-1 安全性與短路電流,采用混合整數(shù)線性規(guī)劃求解線路開斷問題。文獻[5]提出了基于靈敏度分析、排序與驗算對比的網(wǎng)絡(luò)拓撲調(diào)整方法。文獻[6]提出了改善暫態(tài)穩(wěn)定性的線路開斷方法。文獻[7]基于直流潮流模型求解最優(yōu)傳輸線開斷問題。文獻[8-10]采用啟發(fā)式算法求解含傳輸線開斷的最優(yōu)潮流模型。文獻[11]采用混合整數(shù)非線性規(guī)劃求解最優(yōu)傳輸線開斷問題。在變電站母線分裂方面,文獻[13]介紹了變電站母線分裂等拓撲結(jié)構(gòu)控制的概念,并采用混合整數(shù)規(guī)劃求解考慮變電站拓撲的安全約束最優(yōu)潮流模型。文獻[14]提出了一種考慮最優(yōu)傳輸線與變電站母線的電網(wǎng)拓撲結(jié)構(gòu)優(yōu)化方法。文獻[15]將母線分裂優(yōu)化問題建模為混合整數(shù)優(yōu)化問題,并實現(xiàn)了個位數(shù)變電站的母線分裂求解。文獻[16]采用輸電網(wǎng)結(jié)構(gòu)混合整數(shù)非線性規(guī)劃求解得到改善電網(wǎng)均勻度的方案。上述文獻中主要通過在較小的變量集上計算混合整數(shù)優(yōu)化問題來求解拓撲結(jié)構(gòu),然而,在實際變電站中,各設(shè)備在母線上的不同連接方式都可作為獨立的拓撲決策,考慮所有變電站的系統(tǒng)級拓撲決策變量繁多,難以由傳統(tǒng)混合整數(shù)優(yōu)化方法在線求解該超高維度拓撲結(jié)構(gòu)優(yōu)化問題。此外,混合整數(shù)優(yōu)化方法僅改善當前時刻的系統(tǒng)運行成本,忽略了未來系統(tǒng)運行的狀態(tài)。相對而言,深度強化學(xué)習(xí)可通過價值函數(shù)近似考慮未來電力系統(tǒng)的運行狀態(tài)[18],可在考慮線路開斷[19]與不同拓撲結(jié)構(gòu)[20-21]等離散變量的情況下快速求解最優(yōu)控制問題,有望前瞻性地降低安全隱患,但存在圖論模型靈活性低或搜索空間和學(xué)習(xí)負擔(dān)過大的問題。
為實現(xiàn)系統(tǒng)級拓撲結(jié)構(gòu)優(yōu)化問題的求解并降低深度強化學(xué)習(xí)負擔(dān),本文提出了一種結(jié)合異步優(yōu)勢Actor-Critic(A3C)深度強化學(xué)習(xí)與領(lǐng)域知識的電力系統(tǒng)拓撲結(jié)構(gòu)優(yōu)化方法。以提升系統(tǒng)在各種隨機場景下的N-1 安全性為核心,本文采用最小化約束越限為獎勵訓(xùn)練智能體,將在線運行的優(yōu)化計算負擔(dān)轉(zhuǎn)移至離線訓(xùn)練過程,同時通過動作空間篩選降低訓(xùn)練負擔(dān),實現(xiàn)了良好的學(xué)習(xí)效果。
對于實際電網(wǎng),每個變電站均有多條母線。每一個負荷、每一臺發(fā)電機或每一條傳輸線均可連接在其中一條母線或另一條母線上。通過變電站節(jié)點分裂或重連、設(shè)備與線路所連母線的變化、線路開斷,都可以改變電力系統(tǒng)的拓撲結(jié)構(gòu),從而改變潮流分布,實現(xiàn)系統(tǒng)的經(jīng)濟與安全運行。
在考慮拓撲的電力系統(tǒng)運行優(yōu)化問題中,要求控制中心盡可能讓系統(tǒng)在負荷波動、線路故障等隨機因素影響下安全運行更長的時間,并降低運行成本。過載與線路故障可能造成連鎖故障并使潮流發(fā)散,因此系統(tǒng)拓撲結(jié)構(gòu)優(yōu)化的問題本質(zhì)是考慮N-1安全性的最優(yōu)潮流問題。
計及傳輸線網(wǎng)損和發(fā)電出力調(diào)整經(jīng)濟補償,并盡可能避免停電,系統(tǒng)運行的總成本可表述為:
式中:C為單個場景的總運行成本;cl(t)為時刻t傳輸線網(wǎng)損成本;p(t)為時刻t電價;rl為傳輸線l的電阻;yl(t)為傳輸線l在時刻t的電流;cr(t)為時刻t發(fā)電機出力調(diào)整的成本;cb(t)為時刻t停電成本;α為補償系數(shù),因增發(fā)或少發(fā)電的發(fā)電廠都有偏離計劃的出力調(diào)整,因此電網(wǎng)運營商需按補償協(xié)議α≥1彌補雙方的損失;εr(t)為發(fā)電出力調(diào)整量;D(t)為時刻t總負荷;β為停電成本系數(shù),β≥1;Tg為系統(tǒng)正常運行總時長;Te為系統(tǒng)停電總時長;nl為傳輸線總數(shù)。
為實現(xiàn)總成本最小化,系統(tǒng)須滿足潮流方程等式約束(5)和(6),以及發(fā)電機有功出力約束(7)、機組爬坡速率約束(8)、線路潮流約束(9)、線路熱穩(wěn)定極限約束(10)等不等式約束。
式中:PD,i、QD,i、PG,i、QG,i分別為節(jié)點i的有功負荷、無功負荷、有功出力、無功出力;Vi和Vj分別為節(jié)點i和j的電壓幅值;δij為母線i與母線j之間的相角差;Yij=Gij+jBij為節(jié)點導(dǎo)納矩陣第i行j列元素,Gij和Bij分別為相應(yīng)元素的電導(dǎo)和電納;為時刻t發(fā)電機i的有功出力;和分別為機組向下和向上爬坡率;Sij為輸電線路(i,j)的傳輸功率;為輸電線路(i,j)的最大額定值功率;為輸電線路(i,j)熱穩(wěn)定極限允許的最大功率;n為系統(tǒng)總節(jié)點數(shù)。
在系統(tǒng)運行時,由于受運行約束與熱穩(wěn)定極限約束,當線路過載超過一定時間后就會斷開,而當線路潮流超過熱穩(wěn)定極限約束時就會立即斷開。在智能體動作后,通過求解潮流方程判斷潮流方程是否發(fā)散,若發(fā)散則判斷為開始停電,從而可統(tǒng)計總運行成本。
拓撲結(jié)構(gòu)的決策是一個含離散變量的高維優(yōu)化問題,而每種不同的拓撲決策不僅影響當前狀態(tài)下的潮流分布,還會影響若干時間后系統(tǒng)在其他狀況下的潮流分布。因此,傳統(tǒng)優(yōu)化問題難以在考慮未來系統(tǒng)狀態(tài)的情況下及時求解最優(yōu)決策問題。為此,可將考慮拓撲變量的電力系統(tǒng)運行優(yōu)化問題建模成馬爾可夫決策過程,并通過深度強化學(xué)習(xí)來離線訓(xùn)練智能體,在線應(yīng)用時能及時求解系統(tǒng)最優(yōu)運行狀態(tài)。
目前,主流的深度強化學(xué)習(xí)方法包括基于價值(value-based)和基于策略(policy-based)的深度強化學(xué)習(xí)方法,前者會評價不同動作的預(yù)期收益并選擇最優(yōu)收益所對應(yīng)的動作,而后者直接求得使目標最優(yōu)的動作概率(或值)。兩種深度強化學(xué)習(xí)均通過與環(huán)境迭代互動來優(yōu)化智能體?;谏疃葟娀瘜W(xué)習(xí)優(yōu)化系統(tǒng)運行的過程可以用圖1 表示。如圖1 所示,智能體將觀測電力系統(tǒng)運行狀態(tài),并求解最優(yōu)控制動作;環(huán)境通過仿真對智能體動作進行評價,從而反饋給智能體,以引導(dǎo)智能體沿最大化預(yù)期獎勵的方向進行強化學(xué)習(xí)。
圖1 用于電力系統(tǒng)拓撲優(yōu)化的深度強化學(xué)習(xí)過程Fig.1 Deep reinforcement learning process for power system topology optimization
由于電力系統(tǒng)拓撲決策的動作空間巨大,單線程的強化學(xué)習(xí)策略難以有效遍歷可行決策。為了增加樣本多樣性,可設(shè)置多個線程,令智能體分別在學(xué)習(xí)過程中與不同的環(huán)境交互,從而克服難以收斂的問題。為此,本文基于A3C 算法設(shè)計電力系統(tǒng)運行控制智能體,通過并行創(chuàng)建多個不同的環(huán)境,讓多個不同的智能體同時在各個環(huán)境中更新全局網(wǎng)絡(luò)的參數(shù),從而增加樣本的多樣性并改善強化學(xué)習(xí)的收斂性。訓(xùn)練過程框架如圖2 所示,通過設(shè)置不同的環(huán)境場景,分別在不同線程中運行智能體,A3C 網(wǎng)絡(luò)結(jié)構(gòu)使用系統(tǒng)狀態(tài)作為輸入(詳見2.2 節(jié)),在經(jīng)過共享隱含層后,經(jīng)由Actor 隱含層計算并輸出動作空間中各個動作(詳見2.2 節(jié))的概率,Actor 會以概率采樣或直接選擇最高概率動作并執(zhí)行。共享隱含層之后,Critic 會評價在當前狀態(tài)下的狀態(tài)價值。
圖2 用于電力系統(tǒng)運行優(yōu)化的A3C 強化學(xué)習(xí)智能體訓(xùn)練框架Fig.2 Training framework of A3C reinforcement learning agent for power system operation optimization
在以上異步框架的基礎(chǔ)上,A3C 通過優(yōu)勢項,即智能體的實際獎勵與Critic 輸出預(yù)期狀態(tài)價值之間的差異來加快與穩(wěn)定訓(xùn)練過程。其訓(xùn)練過程主要由式(11)和式(12)更新深度神經(jīng)網(wǎng)絡(luò)參數(shù):
式中:ai為智能體i的控制動作(即拓撲決策與發(fā)電出力調(diào)整);si為智能體i的狀態(tài)(即電力系統(tǒng)當前拓撲結(jié)構(gòu)與潮流分布);V(si;θ′v)為預(yù)期狀態(tài)價值,即Critic 神經(jīng)網(wǎng)絡(luò)預(yù)測的狀態(tài)價值;R為獎勵函數(shù);θ為Actor 神經(jīng)網(wǎng)絡(luò)參數(shù),由多個運行過程下的優(yōu)勢項對Actor 參數(shù)梯度的累計求和更新;θv為Critic 神經(jīng)網(wǎng)絡(luò)參數(shù),由狀態(tài)價值預(yù)測誤差對Critic 參數(shù)梯度的累計求和更新;π為智能體動作策略(policy);θ′和θ′v分別為目標Actor 和Critic 神經(jīng)網(wǎng)絡(luò)參數(shù)。
經(jīng)過離線的深度強化學(xué)習(xí),智能體參數(shù)θ可以得到充分更新,并最大化運行過程中的預(yù)期獎勵。在此基礎(chǔ)上,以電力系統(tǒng)運行狀態(tài)為輸入、拓撲決策或發(fā)電出力調(diào)整的動作概率為輸出,所得的A3C 深度強化學(xué)習(xí)智能體可用于在線的電力系統(tǒng)運行優(yōu)化。在訓(xùn)練完成后,智能體可實時根據(jù)電力系統(tǒng)狀態(tài)計算得到當前時刻各動作的概率,概率最高的動作將會作為智能體的決策。在智能體選擇動作后,本文由潮流計算進一步檢驗動作的可行性。若當前動作無法滿足所有約束條件,則繼續(xù)檢驗概率次高的拓撲改變或發(fā)電出力調(diào)整動作,直至動作滿足約束條件為止。
在將電力系統(tǒng)運行優(yōu)化問題建模為深度強化學(xué)習(xí)問題的過程中,特征(智能體的輸入)與動作(智能體的可選輸出)的選擇直接決定了性能的好壞。
2.2.1 特征篩選
本文在智能體建模過程中使用的特征包括數(shù)值特征與拓撲結(jié)構(gòu)特征。數(shù)值特征包括負荷有功功率和無功功率、發(fā)電有功功率和無功功率、預(yù)測負荷、線路維修計劃(距下次維修所剩小時數(shù))、線路功率與功率約束。拓撲結(jié)構(gòu)特征基于節(jié)點臨界矩陣,在生成無向圖的基礎(chǔ)上,由NetworkX 包計算得到,包括圖的節(jié)點重要性(PageRank)、介數(shù)中心性(betweenness centrality) 、節(jié) 點 度 數(shù)(degree centrality)。線路開斷狀態(tài)直接作為額外的向量并入拓撲特征中。需要指出的是,圖神經(jīng)網(wǎng)絡(luò)[20]理論上更適合用于拓撲結(jié)構(gòu)優(yōu)化問題。在此基礎(chǔ)上,數(shù)值特征與拓撲結(jié)構(gòu)特征可同時存入列向量中,作為全連接神經(jīng)網(wǎng)絡(luò)(智能體)的輸入。
2.2.2 動作篩選
原問題可控參數(shù)包括系統(tǒng)拓撲結(jié)構(gòu)與發(fā)電機再調(diào)度功率,動作空間維度過于巨大,難以直接訓(xùn)練強化學(xué)習(xí)智能體。受限于機組爬坡速率約束,本文將所有的機組再調(diào)度問題都建模為離散決策問題。設(shè)機組再調(diào)度增發(fā)或減發(fā)功率為機組爬坡率所限制功率,發(fā)電再調(diào)度模型可建模為從ng臺可調(diào)整發(fā)電機中選擇k臺發(fā)電機進行增發(fā)或減發(fā)功率(共種不同決策),可將此離散決策動作采用不放回采樣的排列組合問題求解得到。通過排列組合工具箱Itertools 可直接枚舉所有包含發(fā)電機的決策組合,并在此基礎(chǔ)上通過動作篩選縮減動作空間。
在枚舉所有可行拓撲決策與再調(diào)度決策的基礎(chǔ)上,本文使用了滾動式動作篩選。設(shè)置一個基于窮舉法的智能體在環(huán)境中不斷運行,僅當系統(tǒng)發(fā)生潮流越限時開始篩選可行動作,并不斷仿真直到迭代結(jié)束。在動作篩選過程中,能讓系統(tǒng)從潮流越限狀態(tài)恢復(fù)至安全運行狀態(tài)的拓撲動作與發(fā)電出力調(diào)整動作合并至智能體訓(xùn)練所用的動作空間:
式中:ΩA,h和ΩA,h+1分別為第h步和h+1 步仿真時的可行動作集合;ΩS,h為第h步仿真時能夠滿足所有約束條件且當前獎勵優(yōu)于不執(zhí)行動作的動作集合;ΩT,h為第h步仿真時所有可行的拓撲動作集合;ΩR,h為第h步仿真時所有可行的發(fā)電出力調(diào)整動作集合;ΩR(·)為發(fā)電出力調(diào)整動作集合;Fh(ai)和Fh,max分別為第h步仿真時的懲罰函數(shù)及懲罰函數(shù)的最大值。
2.3.1 互為后備的雙學(xué)習(xí)模型
在本文中,由于計算資源有限,所構(gòu)建深度神經(jīng)網(wǎng)絡(luò)規(guī)模較小,因此無法保證在所有場景與數(shù)據(jù)集上都能收斂。為此,本文隨機劃分了數(shù)據(jù)集,并由A3C 模型構(gòu)建了2 個不同的智能體,依據(jù)所劃分的數(shù)據(jù)集分別對這2 個模型進行訓(xùn)練。在此基礎(chǔ)上,令2 個智能體在在線應(yīng)用階段互為后備,當其中之一失效時由后備智能體求得拓撲或發(fā)電出力調(diào)整動作(若其中一個模型無法滿足約束時,則另一個后備模型仍然有機會使系統(tǒng)恢復(fù)安全)。此外,本文使用2 種不同的獎勵函數(shù)訓(xùn)練2 個智能體,從系統(tǒng)安全性、運行成本2 個不同的角度優(yōu)化拓撲控制決策。
2.3.2 獎勵函數(shù)
在深度強化學(xué)習(xí)過程中,獎勵函數(shù)用于評價智能體動作的效果,并引導(dǎo)智能體調(diào)節(jié)其參數(shù)使預(yù)期獎勵最大化。本文采用2 個智能體互為后備,其獎勵函數(shù)分別從改善潮流分布均勻程度、降低系統(tǒng)運行成本2 個角度進行設(shè)計。
首先,提高系統(tǒng)潮流分布的均勻程度有助于提高系統(tǒng)運行的安全性[16,22]?;谳旊娫嶋H輸送容量與其最大輸電能力之比,可以最大化以線路平均傳輸容量為目標的默認獎勵函數(shù)R0,以反映電網(wǎng)運行均勻度。
式中:SL,l為輸電線路l的當前傳輸功率;SLm,l為輸電線路l的傳輸功率額定最大值。
其次,后備模型以電網(wǎng)運行總成本最小為目標,獎勵函數(shù)R′0為正常數(shù)減去運行成本或停電損失。
式中:Rb為正常數(shù),作用為鼓勵智能體盡可能運行更長時間,避免智能體因懲罰積累過多而使系統(tǒng)提前停止運行。
在基礎(chǔ)獎勵函數(shù)R0和R′0的基礎(chǔ)上,若發(fā)生潮流越限,則在獎勵函數(shù)上附加一個較大“懲罰”;若系統(tǒng)潮流發(fā)散,則給以智能體一個高額“懲罰”。此外,若懲罰項持續(xù)過高,預(yù)期累積獎勵為負,則智能體可能會嘗試直接使潮流發(fā)散以提前終止系統(tǒng)運行。為此,本文對系統(tǒng)運行時獎勵最小值進行了約束。所使用的最終獎勵函數(shù)R為:
式中:Rmin為系統(tǒng)運行時獎勵最小值;Rg為潮流發(fā)散時給予智能體的懲罰項;χl為輸電線路l潮流越限的懲罰系數(shù)。
2.3.3 強制約束校驗
若在訓(xùn)練過程中僅使用隨機搜索,則因動作空間過大,難以在有限時間內(nèi)獲得足夠高質(zhì)量樣本。為了提升樣本質(zhì)量,使強化學(xué)習(xí)智能體更快獲得理想效果,本文在離線強化學(xué)習(xí)過程中強制進行潮流約束檢驗,其流程如圖3 所示。在智能體采取運行控制動作后,在計算獎勵的同時計算系統(tǒng)所有潮流約束。若智能體采取的動作會造成約束越界,則將各動作概率按降序排列,并選擇動作概率次高的運行控制動作。以此類推,直到智能體發(fā)現(xiàn)能夠滿足約束條件的動作。若所有動作均無法滿足約束條件,則智能體將執(zhí)行最大化當前獎勵函數(shù)的動作。
圖3 結(jié)合強制約束校驗的訓(xùn)練搜索流程Fig.3 Training searching process combining forced constraint verification
由于動作空間過于巨大,傳統(tǒng)的深度強化學(xué)習(xí)難以有效探索遍歷可能的動作,因此局部最優(yōu)難以避免,且訓(xùn)練時間過于漫長。通過上述強制約束校驗過程,可以顯著降低搜索階段的計算量,加快深度強化學(xué)習(xí)的訓(xùn)練速度。
本文仿真驗證在CPU 內(nèi)存為16 GB、GPU 為GTX1070 的計算機上進行。所用于仿真的Python模 塊 主 要 包 括 Grid2op、Tensorflow、Keras、Pypownet、Networkx。本文模型與測試代碼均已開源[23]。
本文仿真所用系統(tǒng)的詳細信息及數(shù)據(jù)集場景來源詳見附錄A。該系統(tǒng)有35 個變電站、22 臺發(fā)電機、59 條輸電線路。考慮不同的變電站母線連接方式,該系統(tǒng)共有177 個節(jié)點,每步優(yōu)化時有65 536 種不同的拓撲結(jié)構(gòu)決策。當線路潮流超越熱穩(wěn)定極限時,線路將直接斷開。當線路潮流持續(xù)超過安全約束時,線路也將斷開。該系統(tǒng)的拓撲結(jié)構(gòu)如附錄A圖A1 所示。
為了驗證本文方法的有效性以及計算效率,采用無控制的參考方法以及基于窮舉拓撲決策的混合整數(shù)優(yōu)化(僅在約束越限時進行計算,搜索使系統(tǒng)恢復(fù)安全的拓撲結(jié)構(gòu),若發(fā)現(xiàn)系統(tǒng)能滿足約束條件則應(yīng)用該拓撲結(jié)構(gòu)并停止搜索)方法進行對比研究。需指出的是,65 536 種不同拓撲結(jié)構(gòu)決策并不能簡單視為某連續(xù)決策變量的離散化,原問題極度非凸且復(fù)雜度高,無法使用主流求解器(如Cplex 等)進行有效求解。文獻中現(xiàn)有混合整數(shù)優(yōu)化僅能考慮少量不同的拓撲決策[2-16],無法實現(xiàn)本問題的求解。
本文仿真通過降低學(xué)習(xí)率并使智能體在更大的數(shù)據(jù)集上進行訓(xùn)練,同時在本地測試數(shù)據(jù)集上實現(xiàn)所有場景下的安全運行,如圖4 和圖5 所示。在圖4和圖5 中,藍色餅圖表示系統(tǒng)安全運行的時長占總仿真時長的百分比[23],括號內(nèi)的數(shù)值是測試樣本數(shù)量。由圖4 和圖5 可知,本文方法通過拓撲結(jié)構(gòu)優(yōu)化可有效實現(xiàn)系統(tǒng)的安全運行。圖4 實現(xiàn)了所有測試場景的安全運行,而所對比的窮舉方法仍然難以實現(xiàn)所有場景下的安全運行,其在圖5(c)場景中僅能在13.5%的時長內(nèi)安全運行。
圖4 采用深度強化學(xué)習(xí)智能體的仿真結(jié)果Fig.4 Simulation results with adoption of deep reinforcement learning agent
圖5 采用窮舉方法的仿真結(jié)果Fig.5 Simulation results with adoption of exhaustive method
為了驗證本文方法的經(jīng)濟性,表1 和表2 對比了各方法的運行成本及其優(yōu)化比例。附錄A 圖A2對比了潮流未發(fā)散情況下各方法的系統(tǒng)運行成本。從表2 可看出,本文方法較無拓撲結(jié)構(gòu)優(yōu)化的對照方法降低了97.17%的總成本,較窮舉方法提升更為明顯。此外,在未出現(xiàn)停電的5 個場景(April18、Aug01、June13、Mar38、May23)下,本文方法也通過改善潮流分布降低了運行成本。成本降低主要原因在于本文方法自適應(yīng)地求解得到了各狀態(tài)下最優(yōu)的拓撲決策,能夠使系統(tǒng)在各種隨機因素作用下都能安全運行,并極大地降低停電損失。
表1 不同場景的運行成本對比Table 1 Comparison of operation costs in different scenarios
表2 總成本及優(yōu)化比例對比Table 2 Comparison of total costs and optimization proportion
表3 對比了不同方法在不同仿真算例場景下的總計算時間。由表3 可見,本文所提出的方法較窮舉方法極大地降低了計算負擔(dān),窮舉方法完成計算(僅在約束越限時窮舉)的總計算時間為3.9 h,難以在實際系統(tǒng)運行決策間隔中投入使用,而本文方法在系統(tǒng)運行過程中進行了8 640 次優(yōu)化決策的總計算時間為0.3 h,節(jié)省了92.26%的計算時間,具有在線使用的潛力。
表3 總計算時間對比Table 3 Comparison of total computation time
常規(guī)窮舉方法在約束越限時須對不同的拓撲結(jié)構(gòu)組合進行多次潮流計算,過程極其耗時,而本文方法可通過訓(xùn)練強化學(xué)習(xí)智能體,將大規(guī)模仿真的計算耗時轉(zhuǎn)移至離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,使在線決策階段快速求得滿足系統(tǒng)安全的拓撲結(jié)構(gòu)最優(yōu)解。
為了驗證智能體對于系統(tǒng)拓撲結(jié)構(gòu)優(yōu)化的實際效果,本文也在潮流發(fā)散前對系統(tǒng)在有無控制情況下的線路潮流分布進行了對比,詳見圖6 與附錄A圖A3。由圖6 可見,在2012-01-23T08:25:00 時,無拓撲結(jié)構(gòu)優(yōu)化的參考算例在輸電線路16-17 等多條輸電線路上出現(xiàn)了跳閘或停運,且輸電線路16-23、輸電線路26-23 與輸電線路23-25 的載流量也超過了額定安全值。相較而言,本文所提出的拓撲結(jié)構(gòu)優(yōu)化方法通過定義獎勵函數(shù)來懲罰潮流約束越限,引導(dǎo)智能體在環(huán)境中持續(xù)運行,可有效調(diào)整系統(tǒng)潮流分布,使線路潮流維持在約束范圍內(nèi)并避免連鎖跳閘,從而改善系統(tǒng)運行的安全性。
圖6 系統(tǒng)潮流分布Fig.6 Power flow distribution of power system
本文提供了一種結(jié)合A3C 深度強化學(xué)習(xí)與電力系統(tǒng)領(lǐng)域知識的系統(tǒng)拓撲與發(fā)電調(diào)整控制方法,以解決電力系統(tǒng)在線運行中決策變量計算量大與前瞻性不足的問題。為了在巨大的動作空間下高效地探索可行拓撲決策,本文引入A3C 強化學(xué)習(xí)框架,使各個智能體分別與不同的環(huán)境相交互,增加了樣本的多樣性,克服了訓(xùn)練難以收斂的問題。同時,為了使智能體能有效地對電力系統(tǒng)狀態(tài)進行建模,本文所設(shè)計智能體考慮了拓撲結(jié)構(gòu)特征與數(shù)值特征,并以若干先驗可行的動作作為動作空間。由于搜索量巨大,本文為了加快算法收斂并提高智能體性能,結(jié)合了電力系統(tǒng)領(lǐng)域知識設(shè)計獎勵函數(shù)與強制約束校驗。在一定條件下,智能體將強制尋找可以滿足約束條件的動作,以避免過多無效的隨機搜索。最后,通過隨機訓(xùn)練數(shù)據(jù)集的劃分,由不同數(shù)據(jù)訓(xùn)練的2 個神經(jīng)網(wǎng)絡(luò)互為后備,提高了電力系統(tǒng)運行控制的安全性能。
本文訓(xùn)練主要基于處理后的系統(tǒng)數(shù)值特征,并不一定能充分反映各種情況下的網(wǎng)絡(luò)拓撲特征與潮流的空間分布,后續(xù)研究可嘗試由圖神經(jīng)網(wǎng)絡(luò)建立智能體以提取潮流空間分布特征。此外,因該問題決策變量維數(shù)過高,搜索空間仍然巨大,后續(xù)研究可考慮以系統(tǒng)的圖論目標狀態(tài)為輸出來改進動作集的建立過程。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。