李志豪 夏雨成 周悅穎 王 芬 薛 灃
(國(guó)網(wǎng)浙江省電力有限公司培訓(xùn)中心)
隨著電力系統(tǒng)規(guī)模的不斷擴(kuò)大和智能化技術(shù)的快速發(fā)展,配電網(wǎng)規(guī)模日益龐大復(fù)雜,智能配網(wǎng)在電力領(lǐng)域中扮演著越來(lái)越重要的角色。傳統(tǒng)的配網(wǎng)檢修系統(tǒng)存在一些問(wèn)題,例如,人工檢修周期長(zhǎng)、效率低下,無(wú)法同時(shí)滿(mǎn)足大規(guī)模電力系統(tǒng)經(jīng)濟(jì)性、可靠性[1]。在現(xiàn)代電力系統(tǒng)中,需要一種智能化的檢修系統(tǒng),能夠在復(fù)雜環(huán)境中自動(dòng)識(shí)別故障和異常,并采取相應(yīng)的措施進(jìn)行修復(fù)和調(diào)整[2],通過(guò)智能供電、帶點(diǎn)區(qū)域隔離等方法,設(shè)計(jì)了一種變電站用智能化檢修調(diào)試平臺(tái)[3]。應(yīng)用遺傳聚類(lèi)算法,實(shí)現(xiàn)了電網(wǎng)設(shè)備檢修計(jì)劃智能編排和運(yùn)行方式輔助分析,表明智能化檢修系統(tǒng)具有可行性。
強(qiáng)化學(xué)習(xí)作為一種能夠從環(huán)境中學(xué)習(xí)并根據(jù)反饋信號(hào)采取行動(dòng)的機(jī)器學(xué)習(xí)方法,具有在智能化檢修系統(tǒng)中應(yīng)用的潛力。通過(guò)使用強(qiáng)化學(xué)習(xí)算法,智能配網(wǎng)智能化檢修系統(tǒng)可以在實(shí)時(shí)環(huán)境中學(xué)習(xí)和優(yōu)化策略,通過(guò)多智能體強(qiáng)化學(xué)習(xí)[4],實(shí)現(xiàn)了對(duì)電力系統(tǒng)異常模式的準(zhǔn)確識(shí)別,以實(shí)現(xiàn)自主的故障檢測(cè)、診斷和修復(fù)。另一方面,基于強(qiáng)化學(xué)習(xí)的智能化方法可以使系統(tǒng)具備自適應(yīng)性和智能化[5],能夠應(yīng)對(duì)不同的電力系統(tǒng)情況和故障類(lèi)型。
綜上所述,設(shè)計(jì)和實(shí)現(xiàn)一種基于強(qiáng)化學(xué)習(xí)的智能配網(wǎng)智能化檢修系統(tǒng)具有重要的研究意義和應(yīng)用前景。通過(guò)引入強(qiáng)化學(xué)習(xí)算法,可以提高配網(wǎng)檢修的效率和準(zhǔn)確性,實(shí)現(xiàn)電力系統(tǒng)的自主化和智能化管理。這將對(duì)電力系統(tǒng)的安全性、可靠性和穩(wěn)定性產(chǎn)生積極的影響,同時(shí)也能夠提高電力系統(tǒng)的運(yùn)行效率和經(jīng)濟(jì)性。
智能配網(wǎng)智能化檢修系統(tǒng)的檢修決策目標(biāo)。這些目標(biāo)可以包括最小化檢修成本、最小化檢修時(shí)間、最大化設(shè)備可用性等。根據(jù)電力系統(tǒng)的實(shí)際情況和需求,確定合適的檢修決策目標(biāo)。主要包括電力系統(tǒng)可靠性目標(biāo):定義電力系統(tǒng)的可靠性目標(biāo),例如最小化電力中斷次數(shù)、最小化停電時(shí)間、最大化供電可用性等。這些目標(biāo)可以作為評(píng)估檢修策略?xún)?yōu)劣的指標(biāo),以提高電力系統(tǒng)的可靠性。電力系統(tǒng)經(jīng)濟(jì)性目標(biāo):定義電力系統(tǒng)的經(jīng)濟(jì)性目標(biāo),例如最小化運(yùn)行成本、最大化能源利用效率等。這些目標(biāo)可以作為評(píng)估檢修策略?xún)?yōu)劣的指標(biāo),以提高電力系統(tǒng)的經(jīng)濟(jì)性。
智能配網(wǎng)檢修經(jīng)濟(jì)性模型中,用R來(lái)表示經(jīng)濟(jì)定量描述指標(biāo)。這個(gè)指標(biāo)通常是為了評(píng)估在檢修時(shí)間內(nèi)使得總費(fèi)用最低的方案。R值可以綜合考慮檢修費(fèi)用、負(fù)荷轉(zhuǎn)移網(wǎng)損費(fèi)用和開(kāi)關(guān)操作次數(shù)費(fèi)用等因素,以在檢修時(shí)間內(nèi)選擇最經(jīng)濟(jì)的方案,從而最大程度地降低總費(fèi)用。
式子中θi表示每個(gè)經(jīng)濟(jì)化定量描述變量的收縮系數(shù);r1為檢修費(fèi)用,r2為負(fù)荷轉(zhuǎn)移網(wǎng)損費(fèi)用,r3為開(kāi)關(guān)操作次數(shù)費(fèi)用。
另一方面,智能配網(wǎng)檢修的可靠性模型旨在最大程度地提高供電系統(tǒng)的穩(wěn)定性和可用性。這個(gè)模型涉及到幾個(gè)關(guān)鍵指標(biāo),包括最小化電力中斷次數(shù)。通過(guò)優(yōu)化檢修方案,盡量減少電力中斷次數(shù)是至關(guān)重要的,同時(shí),該模型也考慮到最小化停電時(shí)間的目標(biāo)。即使出現(xiàn)電力中斷,也希望通過(guò)快速的故障恢復(fù)和維修來(lái)縮短停電時(shí)間。最后,要確保盡可能多的用戶(hù)仍然能夠接受到穩(wěn)定的供電,從而提高整個(gè)供電系統(tǒng)的可用性。
因此,可靠性模型通過(guò)綜合考慮最小化電力中斷次數(shù)、最小化停電時(shí)間和最大化供電可用性等因素,建立可靠性定量指標(biāo)E,旨在保障供電系統(tǒng)在各種情況下的穩(wěn)定性和可靠性。
定義智能配網(wǎng)智能化檢修系統(tǒng)的檢修決策目標(biāo)。這些目標(biāo)可以包括最小化檢修成本、最小化檢修時(shí)間、最大化設(shè)備可用性等。根據(jù)電力系統(tǒng)的實(shí)際情況和需求,確定合適的檢修決策目標(biāo)。準(zhǔn)確評(píng)估設(shè)備的健康狀況、預(yù)測(cè)設(shè)備的故障概率、評(píng)估電力系統(tǒng)的負(fù)荷情況等。通過(guò)準(zhǔn)確的狀態(tài)評(píng)估,可以為檢修決策提供可靠的依據(jù)。
智能體訓(xùn)練的目標(biāo),以使其能夠?qū)W習(xí)和優(yōu)化檢修決策。這些目標(biāo)可以包括最大化累積獎(jiǎng)勵(lì)、最小化累積損失等。通過(guò)與環(huán)境的交互和獎(jiǎng)勵(lì)信號(hào)的反饋,智能體可以逐步改進(jìn)檢修決策的質(zhì)量,其中α和β分別表示智能配電網(wǎng)檢修可靠性定量描述指標(biāo)和經(jīng)濟(jì)化定量描述指標(biāo)的折衷因子,值越大表示在訓(xùn)練中模型更偏向該指標(biāo)。
強(qiáng)化學(xué)習(xí)方法包含有模型和無(wú)模型兩種,無(wú)模型強(qiáng)化學(xué)習(xí)方法可以通過(guò)與環(huán)境的直接交互來(lái)解決現(xiàn)實(shí)的控制問(wèn)題。然而,離線(xiàn)(基于模型的)強(qiáng)化學(xué)習(xí)方法通常用于安全關(guān)鍵系統(tǒng),如電網(wǎng),因?yàn)樘剿餍袨榇嬖诓豢山邮艿娘L(fēng)險(xiǎn)。
從表4看,與CK2相比CK1可使干物質(zhì)和淀粉含量減少,噴施緩解劑各處理干物質(zhì)、淀粉含量均高于CK1,但都低于CK2,說(shuō)明它們?cè)谳ソ蛟斐傻鸟R鈴薯品質(zhì)性狀降低上均可發(fā)揮一定作用,各緩解劑處理與CK1間無(wú)顯著差異,其中處理3(敵克松+吲哚乙酸)的干物質(zhì)、淀粉含量分別比CK1增加了1.2,1.3個(gè)百分點(diǎn),緩解效果最好,敵克松(處理1)的緩解效果次之,多樣芽孢桿菌(處理2)的緩解效果最差。
考慮一個(gè)由電網(wǎng)組成要素集合C={1,…,N},組成的智能配網(wǎng)系統(tǒng),在物理或功能上相互連接。定義環(huán)境的要素的特征是影響其中電力系統(tǒng)某退化的運(yùn)行組件d∈D,共np個(gè)電力設(shè)置。每一種退化機(jī)制都獨(dú)立于其他機(jī)制演化,遵循一個(gè)馬爾可夫過(guò)程,該過(guò)程模擬了從時(shí)刻t的狀態(tài)到下一狀態(tài)的隨機(jī)過(guò)渡,其中d∈D,i=1,…,np。也同樣的,該馬爾可夫過(guò)程定義了第p次電力變量的隨機(jī)轉(zhuǎn)移,一般來(lái)說(shuō),這些轉(zhuǎn)變?nèi)Q于天氣條件等外生因素。系統(tǒng)在t時(shí)刻的狀態(tài)向量可以定義為:
電力網(wǎng)的狀態(tài)表示包括電力網(wǎng)的拓?fù)浣Y(jié)構(gòu)、設(shè)備狀態(tài)(如發(fā)電機(jī)、變壓器、開(kāi)關(guān)等)、電力負(fù)荷信息、環(huán)境條件(如溫度、濕度等)等。狀態(tài)的選擇應(yīng)該能夠準(zhǔn)確地描述電力網(wǎng)的當(dāng)前情況,以便智能體做出決策。
在每個(gè)t時(shí)刻,智能體都可以對(duì)電網(wǎng)的某個(gè)組成部分g∈G執(zhí)行動(dòng)作,t時(shí)刻的系統(tǒng)動(dòng)作變量at。動(dòng)作集Age包括操作動(dòng)作(例如關(guān)閉閥門(mén)、發(fā)電機(jī)功率上升等)和維護(hù)動(dòng)作。本文考慮的維修行動(dòng)是糾正性維修(CM)和預(yù)防性維修(PM)。當(dāng)執(zhí)行CM操作來(lái)修復(fù)有故障的組件時(shí),該組件將從服務(wù)中斷狀態(tài)置于服務(wù)中、一如新(AGAN)狀態(tài)。不同的是,預(yù)測(cè)性維護(hù)可以對(duì)在役、無(wú)故障 (但降級(jí))的組件執(zhí)行,以改善其降級(jí)狀態(tài)。
獎(jiǎng)勵(lì)函數(shù),用于評(píng)估智能體的行為。
這里的獎(jiǎng)勵(lì)函數(shù)定義為衡量智能配網(wǎng)智能化檢修系統(tǒng)的決策目標(biāo)Target。
定義智能體的策略和價(jià)值函數(shù)。策略定義了智能體在給定狀態(tài)下選擇動(dòng)作的方式。可以使用值函數(shù)(如動(dòng)作值函數(shù))來(lái)估計(jì)在給定狀態(tài)下采取某個(gè)動(dòng)作的長(zhǎng)期回報(bào)預(yù)期。該智能配電智能化檢修系統(tǒng)的強(qiáng)化學(xué)習(xí)策略?xún)?yōu)化目標(biāo)是最大化行動(dòng)價(jià)值函數(shù)Qπ*(S,a),它提供了在狀態(tài)S下采取行動(dòng)a時(shí)的累積貼現(xiàn)未來(lái)收益的估計(jì),遵循最優(yōu)策略π*:
深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN):DQN是一種使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù)的方法。它通過(guò)將狀態(tài)作為輸入,輸出每個(gè)動(dòng)作的Q值,然后選擇具有最高Q值的動(dòng)作來(lái)進(jìn)行決策。DQN使用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)來(lái)提高訓(xùn)練的穩(wěn)定性和收斂性。
初始化Q網(wǎng)絡(luò)(即價(jià)值網(wǎng)絡(luò))和目標(biāo)Q網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同,但權(quán)重不同。
初始化經(jīng)驗(yàn)回放存儲(chǔ)器(Replay Buffer),用于存儲(chǔ)轉(zhuǎn)移樣本(狀態(tài),動(dòng)作,獎(jiǎng)勵(lì),下一狀態(tài))。
根據(jù)當(dāng)前策略(通常是ε-greedy策略)選擇動(dòng)作。
與環(huán)境交互,得到獎(jiǎng)勵(lì)R(t)和下一狀態(tài)S(t+1)。
存儲(chǔ)轉(zhuǎn)移樣本到經(jīng)驗(yàn)回放存儲(chǔ)器中。
從經(jīng)驗(yàn)回放存儲(chǔ)器中隨機(jī)抽取一批轉(zhuǎn)移樣本。
計(jì)算這些樣本的目標(biāo)Q值,通常使用目標(biāo)Q網(wǎng)絡(luò)和貝爾曼方程來(lái)計(jì)算。
計(jì)算當(dāng)前Q網(wǎng)絡(luò)的Q值。
根據(jù)計(jì)算得到的目標(biāo)Q值和當(dāng)前Q值的差異,通過(guò)梯度下降法來(lái)更新Q網(wǎng)絡(luò)的參數(shù)。
損失函數(shù)定義為:
按一定頻率更新目標(biāo)Q網(wǎng)絡(luò)的權(quán)重,使其逐漸接近當(dāng)前Q網(wǎng)絡(luò)的權(quán)重。
如果滿(mǎn)足終止條件(例如,達(dá)到最大訓(xùn)練步數(shù)或者性能達(dá)到要求),則終止算法。
一般通過(guò)檢查連續(xù)幾輪的平均獎(jiǎng)勵(lì)值是否穩(wěn)定,來(lái)判斷算法是否收斂。如果算法收斂,可以停止訓(xùn)練。目標(biāo)函數(shù)的DQN網(wǎng)絡(luò)結(jié)構(gòu)[6]如圖所示。
圖 基于最優(yōu)化智能化檢修目標(biāo)函數(shù)的DQN網(wǎng)絡(luò)結(jié)構(gòu)
最終針對(duì)每一個(gè)環(huán)境狀態(tài)S(t)使用訓(xùn)練后的Q網(wǎng)絡(luò)進(jìn)行策略選擇,實(shí)現(xiàn)智能配網(wǎng)系統(tǒng)的智能化檢修。
研究中使用Python作為編程語(yǔ)言,在RTX3070筆記本上,利用Pytorch深度學(xué)習(xí)框架進(jìn)行深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練,為了驗(yàn)證本文提出的基于DQN的智能配網(wǎng)智能化檢修系統(tǒng)能夠?qū)崿F(xiàn)電力設(shè)備維護(hù)計(jì)劃的決策優(yōu)化,本文采用IEEE-118節(jié)點(diǎn)系統(tǒng)對(duì)其網(wǎng)絡(luò)拓?fù)溥M(jìn)行驗(yàn)證,包括54臺(tái)發(fā)電機(jī)和132條線(xiàn)路。模擬環(huán)境基于MATLAB R2016,采用Intel酷睿I9 13900H CPU和16GB RAM計(jì)算機(jī)。針對(duì)模擬環(huán)境中檢修時(shí)間、檢修成本以及配電網(wǎng)可用性等進(jìn)行跟蹤檢測(cè)。傳統(tǒng)檢修策略和DQN強(qiáng)化學(xué)習(xí)策略的智能配網(wǎng)檢修對(duì)比情況見(jiàn)表。
表 傳統(tǒng)檢修策略和DQN強(qiáng)化學(xué)習(xí)策略的智能配網(wǎng)檢修對(duì)比
從上述實(shí)驗(yàn)結(jié)果來(lái)看,使用基于DQN的強(qiáng)化學(xué)習(xí)策略,在對(duì)智能配網(wǎng)中進(jìn)行單點(diǎn)故障誘發(fā)時(shí),檢修時(shí)間和檢修成本相對(duì)于傳統(tǒng)的檢修策略略有提高,但是提高幅度有限;通過(guò)五點(diǎn)故障并發(fā)誘發(fā)實(shí)驗(yàn),結(jié)果表明使用DQN強(qiáng)化學(xué)習(xí)策略,可以有效減少系統(tǒng)檢修成本和檢修完成時(shí)間。這可能是由于在五點(diǎn)同時(shí)誘發(fā)下,DQN算法所構(gòu)建的深度學(xué)習(xí)模型相比傳統(tǒng)檢修策略具有更強(qiáng)的資源調(diào)度協(xié)調(diào)能力,能夠較好地進(jìn)行智能配網(wǎng)系統(tǒng)中的故障預(yù)測(cè)和資源調(diào)度。從而更大幅度降低檢修成本,并且由于不依賴(lài)人工,具有智能化自動(dòng)化的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明本文所提出的基于強(qiáng)化學(xué)習(xí)的智能配網(wǎng)智能化檢修系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)能夠有效解決傳統(tǒng)檢修策略中資源調(diào)度緩慢,人工檢測(cè)效率低等缺點(diǎn),實(shí)現(xiàn)一個(gè)實(shí)時(shí)有效的智能配網(wǎng)智能化檢修系統(tǒng)。
本文旨在開(kāi)發(fā)一種基于強(qiáng)化學(xué)習(xí)的智能配電網(wǎng)檢修系統(tǒng),以提高電力系統(tǒng)的可靠性和效率。針對(duì)傳統(tǒng)的配網(wǎng)檢修系統(tǒng)存在的人工檢修周期長(zhǎng)、效率低下等問(wèn)題,首先針對(duì)智能配網(wǎng)智能化檢修系統(tǒng)的優(yōu)化目標(biāo)進(jìn)行建模,分別從可靠性和經(jīng)濟(jì)效益兩個(gè)角度進(jìn)行考慮,構(gòu)建了目標(biāo)函數(shù),作為后續(xù)深度強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)。隨后對(duì)智能配網(wǎng)系統(tǒng)進(jìn)行強(qiáng)化學(xué)習(xí)建模,建立了深度強(qiáng)化學(xué)習(xí)和電力配網(wǎng)系統(tǒng)之間的聯(lián)系,為后續(xù)進(jìn)行深度強(qiáng)化學(xué)習(xí)建模和求解提供了數(shù)學(xué)基礎(chǔ)。通過(guò)模擬實(shí)驗(yàn),表明本文提出的基于深度強(qiáng)化學(xué)習(xí)的方法實(shí)現(xiàn)了一個(gè)實(shí)時(shí)有效的智能配網(wǎng)智能化檢修系統(tǒng)。