陸怡菲,顧君佳,沈昊驄,吳 媖,潘俊姚,邢旭亮
(國網浙江省電力有限公司嘉興供電公司,浙江 嘉興 314000)
電力通信網承載著電網生產控制類業(yè)務以及管理信息類業(yè)務,是實現(xiàn)電網安全穩(wěn)定運行的重要基礎[1-3]。然而,隨著我國通信行業(yè)的快速發(fā)展,通信光纜線路問題日益頻發(fā),光纜受外力破壞造成了極大的經濟損失,影響電網業(yè)務的通信功能,威脅電網的安全穩(wěn)定運行。因此,通信光纜受破壞后通信業(yè)務的快速恢復至關重要。
目前,通信光纜遭外破后,需要通過迂回路徑進行業(yè)務恢復,一般采用基于圖的光路迂回算法。文獻[4]基于網絡元素安全性提出了一種改進的Dijkstra算法,用于光纖迂回通道路徑選擇,在一定程度上保障了全網鏈路安全狀態(tài)的均衡。文獻[5]提出了一種改進的Dijktra算法,在考慮可用空余纖芯的情況下,得到分業(yè)務等級的迂回方案和纖芯資源充足的迂回方案。文獻[6]提出了一種電力信息通信網絡最優(yōu)迂回路徑選擇方法,綜合考慮了光纜長度、纖芯余量和光纜新舊程度等因素,使用懲罰系數來計算加權最大傳輸時間,以快速尋求更優(yōu)迂回路徑。上述傳統(tǒng)的光纜迂回選路方法均是基于靜態(tài)網絡拓撲圖,網絡中每條邊的權重,即光纜的某些特征均是固定不變的。然而,在現(xiàn)實環(huán)境中,光纜的狀態(tài)隨著時間和周圍環(huán)境狀況而動態(tài)地變化,使用靜態(tài)的算法得到的路徑容易陷入局部最優(yōu)解,而無法得到全局最優(yōu)解。在實際工作中,目前浙江省某市供電公司仍采用人工方式進行選路,難以實現(xiàn)最優(yōu)路徑選擇,且選路效率低下,電網通信業(yè)務平均恢復時間約為5.25 h。
深度強化學習是近年來人工智能領域的研究熱點,它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,通過端對端的學習方式實現(xiàn)從原始輸入到輸出的直接控制[7]。深度強化學習具有強大的事物感知表達能力和決策學習能力,其結合深度神經網絡,利用“智能體”從環(huán)境中提取信息,不斷積累經驗,保持學習能力,并做出智能決策。目前,深度強化學習已廣泛應用于優(yōu)化與調度[8-9]、游戲[10-11]、機器人控制[12-13]和參數優(yōu)化[14]等領域。
根據光纜狀態(tài)數據動態(tài)變化的特征,本文提出了一種基于KSP(K條最短路徑)算法與Dueling DQN(競爭深度Q學習網絡)的電力通信光纜光路智能迂回算法。首先根據光纜靜態(tài)特征數據,利用KSP 算法選出K條最短迂回路徑,然后采用Dueling DQN 根據動態(tài)特征數據評估每條迂回路徑的風險值并實現(xiàn)路由選擇。
根據光纜類型、同溝道情況、光纜長度、光纜芯數等制定光纜迂回策略,采用KSP 算法根據光纜長度與光纜芯數利用率尋找K條最短迂回路徑,然后采用Dueling DQN 評估每條迂回路徑的風險值并實現(xiàn)路由選擇。利用動態(tài)變化的風險值增加Dueling DQN 的搜索空間,避免Dueling DQN 模型陷入局部最優(yōu)值,無法獲得全局最優(yōu)解。同時利用優(yōu)勢函數加快了算法的收斂速度。
本文建立了電力通信光纜光路智能迂回算法的模型,如圖1所示,智能光路選擇模型主要分為3 個組成部分:光纜網絡模擬環(huán)境、KSP 和Dueling DQN。
圖1 電力通信光纜光路智能迂回算法模型
將所有光纜與節(jié)點構成的圖視為一個整體,構建出一個圖網絡。在本模型中,將這些環(huán)境變量劃分為靜態(tài)的環(huán)境變量(包括光纜類型、光纜長度、同溝道情況、光纖芯數等)和動態(tài)的環(huán)境變量(包括外破風險值),分別交給KSP和Dueling DQN來處理并決策。
光纜網絡風險模型是一個概率模型。首先定義光纜的通信風險度f(eij),其反應的是光纜eij在電力通信網絡中發(fā)生外破時,該條鏈路作為光纜迂回目標的可行解的風險性程度,公式為:
式中:lij為光纜長度;pij為光纜外破風險值;ui為該條光纜承載業(yè)務的光纖總數;csi為光纜類型通信安全性;nij為光纖芯數;qij為纖芯利用率。光纖總數、光纜長度以及同溝道評價系數位于分子,三者相乘的積越大,表示該光纜可行解的風險性越高。而分母中相乘的光纜類型通信安全性、光纖芯數以及(1-纖芯利用率),三者的值越大,其乘積越大,風險性越小。
定義全網所有光纜的平均風險度為favg(G),其公式為:
式中:W為全網光纜的總數。
在智能體做出最終決策(即選出一條確定的迂回路徑)后,光纜網絡模擬環(huán)境根據當前每條光纜的風險度按相應概率給出模擬結果,即智能體選擇的迂回光纜路徑能正常工作,或智能體選擇的迂回光纜路徑再次發(fā)生了外破。根據模擬結果不同給予智能體相應的獎勵或懲罰。
傳統(tǒng)的Dijkstra 算法[17]只能尋找單源最短路徑,但是在本研究場景中,由于迂回路徑的選擇受多種環(huán)境變量的影響,而且每條光纜的外破風險值并不是固定的,而是與外部施工情況有關,因此不存在絕對的最短路徑。單純使用Dijkstra算法求解單一的最短路徑很有可能過于貪婪陷入局部最優(yōu)解,而無法得到全局最優(yōu)解。
因此需要將動態(tài)的環(huán)境變量(外破風險值)與靜態(tài)的環(huán)境變量(包括光纜類型、光纜長度、同溝道情況等)分離。先利用KSP 算法[18](其核心思想是多次利用Dijkstra算法求解圖中不同部分的最短路徑并合并)根據靜態(tài)的環(huán)境變量求解出K條通信光纜光路的最短路徑。為使探索足夠充分,避免遺漏最優(yōu)解,需要根據圖的大小設置K值使得K足夠大。本文綜合考慮算法收斂時長和算法準確率,對K的取值進行試驗,得到當K值設置為5時最為合適,如表1所示。
表1 K值的選擇依據
采用KSP 算法選出K條通信光纜光路的最短路徑后,根據動態(tài)的環(huán)境變量,利用Dueling DQN算法[19]評估每條迂回路徑的風險值,從而實現(xiàn)路由智能選擇。
Dueling DQN 將Q 網絡分成兩部分,第一部分僅與狀態(tài)S有關,與具體要采用的動作A無關,稱為價值函數,記為V(S,w,α),第二部分同時與狀態(tài)S和動作A有關,稱為優(yōu)勢函數,記為A(S,A,w,β),則最終的價值函數可以重新表示為:
式中:w為公共部分的卷積層網絡參數;α為價值函數獨有部分的全連接網絡參數;β為優(yōu)勢函數獨有部分的全連接網絡參數。
在本文的Dueling DQN 中,后面的兩個子網絡結構分別對應價格函數網絡部分和優(yōu)勢函數網絡部分,如圖2所示。最終Dueling DQN網絡的輸出由價格函數網絡的輸出和優(yōu)勢函數網絡的輸出線性組合得到。
圖2 Dueling DQN網絡結構示意圖
可以直接使用式(3)得到動作價值,但是該式無法確認最終輸出中V(S,w,α)和A(S,A,w,β)各自的作用,為體現(xiàn)這種可辨識性,對優(yōu)勢函數A(S,A,w,β)作中心化處理,減去均值,這樣可以保證在該狀態(tài)下各動作的優(yōu)勢函數相對排序不變,并縮小Q值的范圍,去除多余的自由度,提高算法的穩(wěn)定性。實際使用的組合公式如下:
在基于Dueling DQN 與KSP 結合的最佳迂回路徑智能選擇算法中,優(yōu)勢函數網絡的作用是將學習泛化到多個光路迂回線路選擇動作上,防止網絡的過擬合。優(yōu)勢函數是動作值函數與當前狀態(tài)的值函數之間的差值,如果優(yōu)勢函數大于0,說明該選路動作比平均選路動作好,反之說明當前動作不如平均動作好。因此,比平均動作更好的選路動作會輸出更大的值,從而加速算法的收斂。
在實驗和實際應用中,每隔10 000 步會復制一次用于計算動作狀態(tài)價值函數的神經網絡參數Q,用來降低相關性帶來的負面影響,Dueling DQN根據式(5)更新整個網絡的參數w。
式中:η為學習率;ft為采取動作t時的平均風險度,其定義即為式(2);γ為衰減系數;(st+1,A;w,α,β)為目標網絡在狀態(tài)st+1時的價值函數;-Q(st,At;w,α,β)為在狀態(tài)為st時動作At的價值。
基于KSP 與Dueling DQN 的最佳迂回路徑智能選擇算法的訓練過程如下。當起始點i到終點j的光纜發(fā)生外破時,將該光纜從光纜網絡模擬環(huán)境的圖網絡中移除,并通過KSP 算法尋找K條最短路徑。然后通過Dueling DQN 算法根據實時風險值對每條路徑進行評估,選取風險值最低的一條路徑作為選取的動作。將光纜網絡模擬環(huán)境中的動態(tài)環(huán)境變量視為狀態(tài)s,KSP算法選取的K條最短路徑視為動作空間,Dueling DQN 算法對路徑的選擇視為動作at(t表示選擇動作的編號)。在模擬環(huán)境中執(zhí)行動作at后,對該路徑包含的每條光纜的風險值(發(fā)生外破的概率)進行獨立采樣,若其中任意一條光纜的采樣結果小于該光纜的風險值,則表明該光纜發(fā)生了外破,該路徑的選擇是一個不好的選擇,算法不給予獎勵(r=0);若該路徑上的所有光纜都沒有發(fā)生外破,說明該選擇是一個好的選擇,算法給予一個獎勵(r=1)。經過足夠多的采樣后,算法可以學習到不同風險值下的價值評估,以便根據此評估做出正確的動作選擇。電力通信光纜光路智能迂回算法的流程如圖3所示。
圖3 電力通信光纜光路智能迂回算法流程
本研究采用的數據來源于浙江省某市供電公司的TMS(通信管理系統(tǒng))、光纜態(tài)勢感知系統(tǒng)平臺。具體包括以下數據:
1)光纜信息:光纜地理信息、光纜溝道信息、光纜類型、光纜纖芯數、光纜長度。
2)光纜所在地域環(huán)境信息:市政施工計劃。
從光纜態(tài)勢感知系統(tǒng)中導出光纜的網絡拓撲,將其結構化為一個圖數據模型,用G(T,E)表示,其中T={t1,t2,…,tn}表示網絡拓撲中路由器的集合,E={e12,e13,…,eij,…,e(n-1)n}表示路由器之間鏈路的集合,i表示光纜的起始路由器編號,j表示光纜的到達路由器編號。
每一條鏈路具備以下屬性:光纜類型、同溝道情況、光纜長度、外破風險值、光纖芯數、纖芯利用率。
1)光纜類型
電力通信業(yè)務中常用的光纜類型主要有OPGW(光纖復合架空地線)光纜、ADSS(全介質自承式)光纜和普通光纜等。OPGW光纜采用了全金屬材質,光纖外層由鋁包鋼線或鋁合金線包裹,具有傳輸信號損耗小、通信質量高、抗電磁干擾、抗電磁腐蝕、可靠性較高等特點,其包含電力架空地線和通信特種光纜雙重功能,一般應用于110 kV 以上高壓線路。ADSS 光纜是一種由全介質材料組成的非金屬光纜,光纜纜芯外均勻纏繞芳綸紗,絕緣性能好,重量輕,可不停電施工,但機械強度相對較低,一般應用于110 kV、35 kV等電壓等級的輸電線路[15-16]。
由于各類光纜有各自不同的優(yōu)缺點和適用場景,其通信安全性難以通過主觀判斷進行衡量。本文對浙江省電力通信光纜近10 年各類故障的數量進行了統(tǒng)計,利用歷史數據對不同類型光纜的故障原因和頻率進行客觀分析,得到各類光纜的年平均故障數據及其通信安全性,如表1所示。由表1 可以看到,OPGW 光纜故障主要由外力破壞和雷擊引起,ADSS 光纜故障主要由外力破壞和電腐蝕引起,而普通光纜故障則主要由外力破壞、電腐蝕、雷擊等原因引起。故障占比由大到小依次為普通光纜、ADSS 光纜和OPGW 光纜,說明OPGW 光纜每千公里發(fā)生故障的概率最低,其通信安全性最好,ADSS 光纜次之,普通光纜最差。據此定義:光纜通信安全性csi=1-每千公里光纜故障占比,其數值越高代表通信安全性越高。將光纜類型定義為集合V={v1,v2,v3},其中v1=OPGW光纜、v2=ADSS光纜、v3=普通光纜,具體如表1所示。
2)同溝道情況
根據光纜所在溝道的情況,可以將其定義為集合B={b1,b2},其中b1=同溝道光纜、b2=不同溝道光纜,其對應的評價系數定義為集合M={m1,m2},當一條光纜受外破時,另一條處于同溝道光纜的外破風險很高,算法應避免選擇同溝道光纜。由于本研究提取的光纜其他特征值的數量級均在10-2~102,因而根據式(1)計算出的通信風險度的數量級上界也是102。據此,將同溝道情況評價系數設為100,與上界的數量級相當,當光纜同溝道時通信風險度會在原先基礎上放大100 倍,而非同溝道的光纜則乘以1(即沒有變化),兩者相差較大,算法則會明顯傾向于選擇風險性程度較小的光纜,從而避免選擇同溝道光纜。同溝道情況評價系數見表3。
表2 浙江省各類電力通信光纜年均故障數據統(tǒng)計及其通信安全性
表3 同溝道情況評價系數
3)光纜長度
光纜的長度定義為集合L={l12,l13,…,lij,…,l(n-1)n},其中i表示光纜的起始路由器編號,j表示光纜的到達路由器編號。
4)外破風險值
根據光纜所在地域的施工狀況以及地理信息環(huán)境等外部數據,對每一條光纜定義了外破風險值,記為集合P={p12,p13,…,pij,…,p(n-1)n}。外破風險值會隨外部環(huán)境而改變,其主要影響因素為光纜施工區(qū)域數量和光纜外破振動預警次數,兩者對應的通信安全性如表4所示。光纜外破風險值定義為:pij=施工區(qū)域數量對應的通信安全性×振動預警次數對應的通信安全性,外破風險值越大,表示該段光纜越容易發(fā)生外破。
表4 外破風險評價系數
5)光纖芯數
不同光纜所包含的光纖芯數記為集合N={n12,n13,…,nij,…,n(n-1)n}。
6)纖芯利用率
纖芯利用率表示某光纖已使用的芯數占總光纖芯數的比例,記為集合Q={q12,q13,…,qij,…,q(n-1)n}。
本項目采用由浙江省某市供電公司的TMS、光纜態(tài)勢感知系統(tǒng)平臺獲取的光纜類型、同溝道情況、光纜長度、外破風險值、光纖芯數、纖芯利用率等數據,光纜鋪設范圍涵蓋地市及區(qū)縣,共涉及813條光纜線路,328個光纜站點,部分光纜數據如表5所示。
表5 部分光纜數據
根據光纜位置信息構建的局部電力通信光纜網絡拓撲圖如圖4所示,圖4中兩站之間連線上的兩個數字分別代表光纜線路長度(單位:m)和通信安全性,連線旁邊標注了剩余可用纖芯數目。
圖4 電力通信光纜局部網絡拓撲
本文采用最佳迂回路徑智能選擇算法選取最優(yōu)迂回路徑,通過與KSP 算法和Nature DQN 算法[11]進行對比,得到性能分析結果。
全網通信網絡風險度與訓練周期的關系如圖5所示,圖5 比較了3 種算法在進行光纜迂回規(guī)劃時,全網風險度在迭代過程中的變化。由圖5 可知,在訓練初期,Nature DQN算法和最佳迂回路徑智能選擇算法的全網風險度均高于KSP 算法。這是由于KSP 算法每次選路的結果是不變的,因此,無論迭代多少次平均風險度都沒有變化,而其他兩種算法在網絡剛開始訓練時都沒有先驗知識,它們在KSP 算法選擇的5 條迂回路徑所形成的新的動作空間(即原先光纜網絡拓撲的子集)中,對路線進行不同的嘗試,因此剛開始選路的平均風險度高于KSP 算法的平均風險度,但隨著不斷訓練迭代,平均風險度不斷下降,直至收斂。
圖5 3種算法網絡風險度與訓練周期關系
經過多次訓練后,全網風險度明顯降低,最佳迂回路徑智能選擇算法最終收斂得到的全網風險度最低,收斂效果比Nature DQN更好,大大降低了迂回路徑規(guī)劃后發(fā)生通信故障的可能性。
經過350 000多次迭代后,本算法的網絡經過約68 min后收斂,得到最優(yōu)結果。
算法收斂后,通過模擬光纜發(fā)生外破故障來驗證本算法的決策時間以及準確率,并與KSP 算法和Nature DQN 算法進行了對比,結果如表6所示。
由表6 可以看出,KSP 算法雖然不需要收斂,決策時間最短,但準確率很低,所選擇的迂回路徑較大概率是錯誤的。而使用Nature DQN算法以及KSP 與Dueling DQN 結合的最佳迂回路徑智能選擇算法的決策時間接近,均由原先人工選擇的分鐘級縮短至秒級,但最佳迂回路徑智能選擇算法的準確率更高,光纜外破后,智能迂回決策的準確率達到99.5%。
表6 KSP、Nature DQN與最佳迂回路徑智能選擇算法性能比較
以嘉興公司至煙雨變光傳輸網等32 條業(yè)務中斷為例,應用本文算法快速得出了光纜迂回路徑方案,并按性能評估結果進行了排序,具體如表7所示。某電力通信光纜遭外破后算法的智能選路結果如圖6所示。
表7 光纜迂回路徑最優(yōu)方案
由圖6可以看到,當嘉興公司至煙雨變光傳輸網等32 條業(yè)務中斷時,本算法成功選用4 條迂回路徑來承載32 條纖芯。此外,本算法盡可能地選取離中斷線路較近的路由,同時也滿足每條線路剩余纖芯數量能夠承載所需纖芯。但由線路4可以看到,相比路由“嘉興公司-禾城變-陸橋變-八聯(lián)變-煙雨變”,算法選擇了更遠的路由“嘉興公司-禾城變-王店變-煙雨變”,這是由于訓練后的Dueling DQN 網絡根據光纜動態(tài)變化的通信安全性,選擇了安全系數更高的一條路由,使線路再次遭到破壞的可能性降到最低,在實現(xiàn)光路迂回的同時將新迂回路徑的風險程度降至最低,最大化保證迂回后的光纜性能。
圖6 某電力通信光纜遭外破后算法智能選路結果示意圖
本文針對光纜外破后人工規(guī)劃迂回路徑效率低下且不是最優(yōu)的問題,使用光纜類型、同溝道情況、光纜長度、外破風險值、光纖芯數等數據,將深度強化學習技術應用于光路智能選路領域,提出了基于KSP 與Dueling DQN 的電力通信光纜光路智能選路方法。根據各類光纜狀態(tài)及環(huán)境數據,不斷學習和改善系統(tǒng)決策行為,獲得最佳迂回路徑。
對比實驗結果表明:相比于傳統(tǒng)KSP 算法和Nature DQN 算法,采用基于KSP與Dueling DQN的電力通信光纜光路智能選路算法的收斂效果更好,得到的全網光纜風險度最低,且智能迂回選路的決策準確率最高,決策時間由原先的分鐘級大幅降低至秒級,電網通信業(yè)務恢復時間從小時級下降至分鐘級,實現(xiàn)了快速光路智能迂回應用。
本研究為光纜光路智能迂回應用提出了新思路和新方法,通過實驗證明了基于KSP與Dueling DQN 的電力通信光纜光路智能選路方法的有效性,且能夠大幅度提高選路的效率,為光纜業(yè)務快速恢復提供了技術保障,提升了通信運維的自動化水平,保障了電網的安全生產與穩(wěn)定運行。