亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

電力光通信網(wǎng)中風險均衡路由算法研究

2021-02-23 11:26:18王亞男邢祥棟趙永利

光通信研究 2021年1期

張庚，王亞男，邢祥棟，吳紅，朱敏，趙永利

(1.中國電力科學研究院有限公司，北京 100192; 2．北京郵電大學信息光子學與光通信國家重點實驗室，北京 100876;3．國網(wǎng)四川省電力公司，成都 610041 )

0 引言

電力光通信網(wǎng)是支撐電網(wǎng)運行的重要基礎設施,當前日益復雜的業(yè)務承載在電力光通信網(wǎng)中按照傳統(tǒng)的業(yè)務規(guī)劃方法規(guī)化路由，會出現(xiàn)某條或多條鏈路被多條重要傳輸業(yè)務同時選中的情況，從而導致重要業(yè)務分布不均等問題[1]。因此在業(yè)務路由規(guī)劃時，不僅要考慮傳統(tǒng)約束，還要考慮不同業(yè)務類型所致影響，將重要業(yè)務盡可能平均分布到安全的鏈路中，避免在某一局部區(qū)域部署過多重要業(yè)務而形成的巨大風險[2]。

對于電力光通信網(wǎng)路由規(guī)劃問題，已有一些研究成果可以借鑒。文獻[3]直接將業(yè)務最短路徑作為業(yè)務傳輸通道；文獻[4]中采用K條最短路徑算法(Top-K-Shortest Paths,KSP)求出業(yè)務K條最短路徑，再從K條路徑中選出剩余容量最大的路徑作為最終傳輸路徑實現(xiàn)負載均衡；文獻[5]考慮了鏈路負載、光信噪比(Optical Signal-to-Noise Ratio, OSNR)和路由跳數(shù)等因素。但當前大多數(shù)路由規(guī)劃算法沒有把業(yè)務重要度、OSNR和鏈路剩余容量等因素與風險均衡結合起來，因此，現(xiàn)有算法無法滿足未來電力通信網(wǎng)實際的運行需求。

本文提出了一種基于深度強化學習的路由規(guī)劃算法，該算法基于業(yè)務重要度建立電力通信網(wǎng)風險均衡模型，同時兼顧OSNR和鏈路剩余容量等約束，可實現(xiàn)電力光通信業(yè)務可靠的路由分配。

1 電力光通信網(wǎng)業(yè)務路由規(guī)劃模型

在電力光通信網(wǎng)業(yè)務路由規(guī)劃流程中，主要涉及到的數(shù)學模型有電力通信網(wǎng)絡拓撲、業(yè)務、風險評價指標和路由可行性判別4個模型。

1.1 電力光通信網(wǎng)絡拓撲模型

網(wǎng)絡拓撲在本質上是一個圖數(shù)據(jù)模型，定義電力光通信網(wǎng)絡拓撲結構為G(V,E)，其中，V={v1,v2,…,vn}為電力通信網(wǎng)中傳輸設備的集合；E={e12,e13,…,e(n-1)n}為兩個互連傳輸設備間的光鏈路集合。每個鏈路都有屬性值，包括：鏈路長度、鏈路帶寬容量、鏈路剩余容量、鏈路業(yè)務風險度和鏈路OSNR等。

1.2 電力光通信業(yè)務模型

將電力通信網(wǎng)絡拓撲中的所有業(yè)務定義為集合S={s1,s2，…，sn}。每個業(yè)務也包括特有的屬性：業(yè)務類型Tsi。電力通信中業(yè)務類型繁多，不同類型的業(yè)務對傳輸?shù)囊蟛煌?，對不同類型業(yè)務進行重要度Isi量化對電力通信路由規(guī)劃算法具有重要意義。本文參考文獻[6]中的業(yè)務重要度影響因素對電力通信業(yè)務重要度進行了分析整理，如表1所示。

表1 典型電力通信業(yè)務重要度情況

業(yè)務源節(jié)點Vsource和宿節(jié)點Vdestination。代表業(yè)務的起始和結束位置信息，是路由規(guī)劃算法最重要的輸入?yún)?shù)。

業(yè)務帶寬Bsi。根據(jù)不同的業(yè)務類型，定義業(yè)務帶寬。在配置業(yè)務時，都需要更新網(wǎng)絡拓撲中的資源占用情況，當某條鏈路的剩余帶寬資源不足以承載業(yè)務時，需要舍棄此鏈路而選擇其他路徑承載業(yè)務。

1.3 電力光通信風險指標模型

在電力通信業(yè)務規(guī)劃過程中，應考慮全局風險均衡情況，使業(yè)務更趨向部署在風險度較低的鏈路上，從而增強電力通信網(wǎng)絡的健康度和健壯性[7]。

鏈路風險值r(eij)反映該鏈路對全網(wǎng)造成的風險程度，是求解業(yè)務風險均衡的基礎,公式為

式中：eij為第i個節(jié)點與第j個節(jié)點之間的邊；A為一個故障概率權值，該值為一個常數(shù)，在越注重歷史故障概率的情況下該值越大；p(eij)為鏈路eij發(fā)生故障的風險概率值；m為該鏈路承載的業(yè)務數(shù)量；Isk為鏈路所承載第k個業(yè)務的業(yè)務重要度。

定義鏈路平均風險值ravg(G)為全網(wǎng)所有鏈路風險值的平均值，計算公式為

式中：G為待求的光通信網(wǎng)絡；N為全網(wǎng)鏈路的數(shù)量。

全網(wǎng)風險均衡度B定義為鏈路風險值的標準差，計算公式為

相較傳統(tǒng)路由算法，在電力通信業(yè)務路由規(guī)劃時考慮鏈路風險值因素可以顯著降低全網(wǎng)風險均衡度，達到降低全網(wǎng)風險的目的。

1.4 路由可行判別模型

在最小化全網(wǎng)風險均衡度B的同時，要使業(yè)務所選鏈路的OSNR盡可能大，因為物理層最重要的參數(shù)就是OSNR，一旦不能滿足閾值要求，將會導致傳輸成本增加和傳輸質量降低等問題，這樣做是為了防止OSNR衰減對業(yè)務傳輸?shù)挠绊?。?guī)劃重要業(yè)務時，可適當增大OSNR閾值，使業(yè)務盡可能在OSNR高的鏈路上傳輸以提高可靠性。要使鏈路的剩余帶寬盡量大，使業(yè)務盡可能在負載小的鏈路上進行傳輸，避免風險過高。在選擇路由時，路由可行性要滿足兩個條件:一是要使鏈路OSNR大于預設閾值，鏈路的OSNR計算方式參照文獻[5]的方案;二是鏈路剩余帶寬資源要滿足業(yè)務傳輸所需要的帶寬。

2 深度強化學習

強化學習是智能體與環(huán)境進行迭代交互，最終得到最優(yōu)動作策略的一種機器學習算法，目前已廣泛用于網(wǎng)絡路由規(guī)劃問題中。為了應用強化學習來處理電力光通信網(wǎng)路由規(guī)劃問題，需要將電力光通信網(wǎng)業(yè)務路由選擇問題建模為馬爾可夫決策模型[8]，如圖1所示，它主要由智能體、動作、狀態(tài)、獎勵和環(huán)境(此場景下為電力光通信網(wǎng))5個部分組成。

圖1 強化學習結構圖

傳統(tǒng)的強化學習局限于動作和樣本空間都很小，且一般是離散的情境下。在對于基于風險均衡的電力通信網(wǎng)業(yè)務路由規(guī)劃時，狀態(tài)和動作空間較大，傳統(tǒng)的強化學習很難處理，深度強化學習就是把深度學習對于高維輸入的處理能力與強化學習結合起來，用神經(jīng)網(wǎng)絡來代表價值函數(shù)，通過對神經(jīng)網(wǎng)絡參數(shù)不斷更新直至收斂，得到最優(yōu)的動作策略，本文選取深度Q網(wǎng)絡(Deep Q-Network,DQN)算法來對電力光通信網(wǎng)絡風險均衡進行嘗試。

3 基于DQN的電力通信網(wǎng)業(yè)務路由算法

在基于DQN的電力通信網(wǎng)業(yè)務路由算法中，網(wǎng)絡中每個節(jié)點都是一個智能體。針對其中一個節(jié)點進行討論，在明確宿節(jié)點的背景下，從該節(jié)點出發(fā)經(jīng)過任意一條可到達業(yè)務宿節(jié)點Vdestination的鏈路，都是該智能體中的某一個候選動作am(m為候選動作編號)，每個動作的價值由神經(jīng)網(wǎng)絡的輸出得出，如圖2所示，該神經(jīng)網(wǎng)絡的輸入是電力通信網(wǎng)狀態(tài)st(t為狀態(tài)編號)，輸出為狀態(tài)為st時某個候選動作am的價值Q(st,am)，當狀態(tài)和動作空間非常龐大時，神經(jīng)網(wǎng)絡可以選擇更高級的結構或更多的層數(shù)等。

圖2 DQN神經(jīng)網(wǎng)絡結構圖

在執(zhí)行路由算法的過程中，途經(jīng)的每一個設備節(jié)點都面臨選擇下一條傳輸鏈路的情況。在明確業(yè)務宿節(jié)點的背景下，從該節(jié)點中的相應神經(jīng)網(wǎng)絡輸出中選擇輸出值最大的鏈路，并對此鏈路進行可行性判斷，即鏈路剩余帶寬容量和OSNR是否滿足業(yè)務傳輸要求，如果鏈路不可行，則從神經(jīng)網(wǎng)絡輸出中選擇輸出值次優(yōu)的動作；如果鏈路可行，繼續(xù)對鏈路到達的下一設備節(jié)點重復上一步驟。當選擇的鏈路包括宿節(jié)點時，完成整個基于DQN的路由規(guī)劃。

式中：θt為t時刻的網(wǎng)絡參數(shù)；Q(s,a;θ)為動作狀態(tài)價值函數(shù)微分值；α為學習率；Rt+1為采取某一動作的獎勵，在本文中，獎勵函數(shù)R定義為為一個常數(shù)；γ為衰減系數(shù)；為目標網(wǎng)絡在狀態(tài)st+1時的價值函數(shù)；Q(st,ak;θ)為狀態(tài)為st時動作ai的價值。詳細的算法流程如圖3所示。

圖3 基于DQN的電力通信網(wǎng)路由規(guī)劃算法流程圖

值得注意的是，基于DQN的電力通信業(yè)務路由算法相較于傳統(tǒng)算法可能會引入更高的復雜度，從而需要消耗更多的計算和存儲資源。在網(wǎng)絡拓撲結構很大的場景下，尤其是在電力骨干通信網(wǎng)中，一個網(wǎng)絡中的節(jié)點數(shù)目可能達到成百上千個，強化學習中的狀態(tài)和動作空間數(shù)目急劇增加，算法中的復雜性急劇增強，難以得到優(yōu)良的算法性能。

4 實驗結果與分析

為了驗證基于DQN的電力通信業(yè)務路由規(guī)劃算法的可靠性和有效性，本文在某省的真實電力通信子網(wǎng)拓撲(具有25個節(jié)點和33條光鏈路)上進行仿真驗證，仿真拓撲如圖4所示。

圖4 某省電力通信子網(wǎng)拓撲

針對上述仿真背景，本文在上述網(wǎng)絡拓撲上隨機生成400條業(yè)務，對于隨機生成的每一條業(yè)務信息，業(yè)務的源節(jié)點、宿節(jié)點和業(yè)務類型是隨機的，根據(jù)隨機生成的業(yè)務類型，可以確定業(yè)務其他屬性信息(業(yè)務重要度和業(yè)務帶寬等等)。本文采用第3節(jié)所述的基于DQN的路由算法對隨機產(chǎn)生的400條業(yè)務進行路由推薦，并且DQN算法在訓練過程中采用ε貪婪策略以探索全部動作空間。此外，為了表明本文方案的可行性，本文同時實現(xiàn)了電力通信網(wǎng)常用的傳統(tǒng)路由規(guī)劃算法(考慮鏈路剩余容量的K條最短路徑算法)作為對照實驗，進行結果分析。

全網(wǎng)風險均衡度與訓練周期的關系如圖5所示。圖中比較了對照算法和基于DQN算法的風險均衡路由策略在路由規(guī)劃時的全網(wǎng)風險均衡度，由圖可知，在DQN算法訓練初期，兩種算法的全網(wǎng)風險均衡度均較差；但是，在經(jīng)過多次訓練后，基于DQN算法的路由策略的全網(wǎng)風險均衡度顯著降低，相比對照算法要低2.6左右，這是因為前者可以從過去的全網(wǎng)風險中吸取經(jīng)驗教訓，找到規(guī)避網(wǎng)絡風險均衡度過高的辦法，從而大大降低網(wǎng)絡風險，增加全網(wǎng)的業(yè)務可靠性。

圖5 全網(wǎng)風險均衡度與訓練周期的關系

圖6所示為兩種算法的對比結果，對于業(yè)務平均跳數(shù)指標，對照算法在尋找最短路由跳數(shù)方面有很大的優(yōu)勢，平均業(yè)務跳數(shù)相差0.5，從而在時延方面有略微優(yōu)勢，但在業(yè)務平均OSNR以及全網(wǎng)風險均衡度方面，對照算法有著巨大劣勢，具體地，平均OSNR相差2.5左右，全網(wǎng)風險均衡度相差2.6左右，根本原因在于對照算法無法綜合考慮OSNR和鏈路風險值等影響業(yè)務可靠性的因素。綜上所述，基于DQN的路由策略會占用更多的鏈路資源保證OSNR和鏈路風險值等可靠性因素，但是對于當前電力通信網(wǎng)普遍存在全網(wǎng)資源浪費的情況，其消耗更多網(wǎng)絡資源去換取更高的網(wǎng)絡可靠性是完全合理的。

圖6 DQN和對照算法結果比較

5 結束語

相比于通用網(wǎng)絡，電力通信網(wǎng)業(yè)務種類繁雜。在路由規(guī)劃時要綜合考慮業(yè)務類型、OSNR和鏈路容量等多種約束，避免局部風險過高而降低電力通信網(wǎng)健壯性的問題。本文借助強化學習技術，提出了一種基于DQN算法的電力通信網(wǎng)風險均衡路由算法，綜合考慮鏈路風險值、OSNR和剩余容量等約束條件，該算法性能優(yōu)于電力通信網(wǎng)最常采用的K條最短路徑算法，可以有效解決電力通信業(yè)務在進行路由規(guī)劃時造成風險分布不均衡的問題，提高了電力通信網(wǎng)運行的可靠性。

光通信研究2021年1期

光通信研究的其它文章: 無線光中繼通信在弱湍流時的性能估計方法; 5G基站高精度地面授時鏈路構建方法及驗證; 基于偏振調制器并聯(lián)產(chǎn)生16倍頻毫米波的研究; 變電站內5G終端通信信道建模與分析; 基于透鏡天線陣的毫米波系統(tǒng)波束選擇研究; 蝶形激光器管腳振動疲勞壽命分析