亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的衛(wèi)星光網(wǎng)絡(luò)波長路由算法

        2023-02-11 12:29:38李勇軍趙尚弘
        關(guān)鍵詞:包率時延路由

        李 信, 李勇軍, 趙尚弘

        (空軍工程大學(xué)信息與導(dǎo)航學(xué)院, 陜西 西安 710003)

        0 引 言

        衛(wèi)星通信系統(tǒng)因其在全球通信、遙感遙測、軍事指揮等許多應(yīng)用領(lǐng)域的獨特優(yōu)勢而引起了人們的廣泛關(guān)注。然而,隨著接入用戶的爆炸式增長和對通信質(zhì)量要求的日益提升,傳統(tǒng)以微波通信技術(shù)為基礎(chǔ)的衛(wèi)星網(wǎng)絡(luò)遇到了一些瓶頸,如有限的頻帶資源、較差的方向性和有限的通信容量等[1-5]。激光通信技術(shù)由于通信質(zhì)量好、帶寬寬、功耗低等優(yōu)點引起了人們的關(guān)注。隨著未來天地一體化進程的加速推進,衛(wèi)星光網(wǎng)絡(luò)必然有廣泛的應(yīng)用前景[6-10]。在衛(wèi)星光網(wǎng)絡(luò)中,波長路由分配(routing and wavelength assignment,RWA)問題是一個研究的難點,動態(tài)的RWA問題已經(jīng)被證明是NP-hard問題[11-14]。

        現(xiàn)有對衛(wèi)星光網(wǎng)絡(luò)的研究多是基于分布式網(wǎng)絡(luò)架構(gòu),很難產(chǎn)生基于全局最優(yōu)的路由策略。軟件定義網(wǎng)絡(luò)(software defined network, SDN)架構(gòu)以及網(wǎng)絡(luò)功能虛擬化(network functions virtualization, NFV)技術(shù)的出現(xiàn)為解決這一問題提供了可能。由于SDN架構(gòu)可以實現(xiàn)控制與轉(zhuǎn)發(fā)的解耦,NFV技術(shù)可以實現(xiàn)網(wǎng)絡(luò)節(jié)點功能分塊化,已經(jīng)有越來越多學(xué)者開始研究SDN架構(gòu)和NFV技術(shù)與衛(wèi)星光網(wǎng)絡(luò)波長路由技術(shù)的結(jié)合[15-20]。文獻[21]的提出基于SDN和NFV的天地一體化三層架構(gòu),證明了該體系架構(gòu)可以實現(xiàn)靈活可靠的路由并且提高服務(wù)質(zhì)量,并進行了相關(guān)實驗進行驗證,但是未考慮具體的算法實現(xiàn)?;赟DN架構(gòu),文獻[22]針對衛(wèi)星光網(wǎng)絡(luò)的多業(yè)務(wù)問題,提出了一種改進蟻群算法,解決了衛(wèi)星光網(wǎng)絡(luò)業(yè)務(wù)的多服務(wù)質(zhì)量(quality of service, QoS)問題。

        然而,以上路由算法大多是通過啟發(fā)式算法實現(xiàn)的,存在計算復(fù)雜度大、收斂速度慢、容易陷入局部最優(yōu)等缺點。強化學(xué)習(xí)算法作為一種高效的智能化決策算法,已經(jīng)開始應(yīng)用于無線網(wǎng)絡(luò)路由決策中。強化學(xué)習(xí)可以通過智能體與環(huán)境之間的交互,快速得到接近全局最優(yōu)解的路由解決方案,并且不需要精確的底層網(wǎng)絡(luò)數(shù)學(xué)模型[23-24]。文獻[25]首次提出基于傳統(tǒng)強化學(xué)習(xí)Q-learning算法的逐跳路由算法,并且證明其在動態(tài)網(wǎng)絡(luò)中性能優(yōu)于傳統(tǒng)的路由協(xié)議。文獻[26]提出了一種基于深度強化學(xué)習(xí)的能量高效機會路由算法來解決無線多跳網(wǎng)絡(luò)中的路由問題,獲得了較好的路由和能耗性能,然而將其應(yīng)用于衛(wèi)星光網(wǎng)絡(luò)存在無法感知網(wǎng)絡(luò)環(huán)境狀態(tài)的問題。此外,由于衛(wèi)星光網(wǎng)絡(luò)拓撲結(jié)構(gòu)的動態(tài)變化和業(yè)務(wù)時空分布不均,會對波長路由策略產(chǎn)生較大影響。在進行路由策略選擇時應(yīng)該考慮網(wǎng)絡(luò)當(dāng)前的拓撲結(jié)構(gòu)和業(yè)務(wù)負載大小,確定合適的動態(tài)波長路由策略,確保達到最優(yōu)的網(wǎng)絡(luò)QoS[27]。

        綜上,在基于SDN的中軌/低軌(medium earth orbit/low earth orbit, MEO/LEO)雙層衛(wèi)星網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上,提出了基于深度強化學(xué)習(xí)的衛(wèi)星光網(wǎng)絡(luò)波長路由算法(deep reinforcement learning routing and wavelength algorithm, DRL-RWA)。該算法在進行路由選擇前先通過深度學(xué)習(xí)來感知網(wǎng)絡(luò)鏈路連接情況和負載分布情況,創(chuàng)建智能體決策的環(huán)境,然后通過強化學(xué)習(xí)來進行路由決策。在進行路由選擇時綜合考慮鏈路當(dāng)前時延、波長利用率、丟包率等信息,從而找到一條滿足QoS的較優(yōu)路徑。

        1 系統(tǒng)模型及問題描述

        1.1 衛(wèi)星光網(wǎng)絡(luò)模型

        圖1所示為基于SDN的衛(wèi)星光網(wǎng)絡(luò)3層架構(gòu)。網(wǎng)絡(luò)的應(yīng)用層主要由通信、導(dǎo)航、遙感和探測等各種空間任務(wù)組成[28]??刂茖影W(wǎng)絡(luò)的智能決策模塊,是整個網(wǎng)絡(luò)進行控制的核心,由若干高軌道(geosynchronous earth orbit, GEO)衛(wèi)星控制器或MEO控制器組成,本文采用時延較小、組網(wǎng)靈活的MEO衛(wèi)星作為控制器,MEO衛(wèi)星通過星間鏈路收集LEO衛(wèi)星的全網(wǎng)信息并通過深度強化學(xué)習(xí)算法制定和下發(fā)路由策略?;A(chǔ)設(shè)施層由具有轉(zhuǎn)發(fā)功能的LEO衛(wèi)星組成,主要執(zhí)行兩個任務(wù):一是上傳節(jié)點當(dāng)前狀態(tài)信息和業(yè)務(wù)到達信息;二是根據(jù)MEO衛(wèi)星下發(fā)的路由表進行數(shù)據(jù)的轉(zhuǎn)發(fā)。

        圖1 基于SDN的衛(wèi)星光網(wǎng)絡(luò)架構(gòu)Fig.1 Optical satellite network architecture based on SDN

        1.2 問題描述

        圖2所示為基于深度強化學(xué)習(xí)的衛(wèi)星光網(wǎng)絡(luò)路由機制的基本過程。通過引入SDN架構(gòu),可以實現(xiàn)網(wǎng)絡(luò)的集中控制,控制器可以掌握整個網(wǎng)絡(luò)的狀態(tài)信息,從而實現(xiàn)全局最優(yōu)的路由決策。當(dāng)有業(yè)務(wù)到達LEO衛(wèi)星時,LEO衛(wèi)星將當(dāng)前的業(yè)務(wù)信息和自身鏈路狀態(tài)信息通過南向接口上傳至對應(yīng)的MEO衛(wèi)星。為了簡化單個LEO衛(wèi)星被多個MEO衛(wèi)星同時覆蓋的問題,假設(shè)LEO衛(wèi)星只和距離最近的MEO衛(wèi)星建立激光鏈路。MEO衛(wèi)星中的SDN控制器收集全網(wǎng)的鏈路狀態(tài)信息和業(yè)務(wù)請求信息,通過深度學(xué)習(xí)的感知能力來創(chuàng)造與智能體交互的環(huán)境,通過強化學(xué)習(xí)算法構(gòu)造獎勵函數(shù),對各種路徑進行試探,最終得到最優(yōu)的路由決策,并通過南向接口下發(fā)至LEO衛(wèi)星。LEO衛(wèi)星根據(jù)MEO衛(wèi)星下發(fā)的路由表進行轉(zhuǎn)發(fā),并將最終服務(wù)質(zhì)量信息上傳至MEO衛(wèi)星,用于更新深度學(xué)習(xí)感知數(shù)據(jù)庫。

        圖2 基于深度強化學(xué)習(xí)的路由過程Fig.2 Routing process based on deep reinforcement learning

        在該路由機制下,由于實現(xiàn)了控制層面和轉(zhuǎn)發(fā)層面的解耦,LEO衛(wèi)星只需要根據(jù)路由表進行業(yè)務(wù)轉(zhuǎn)發(fā),減小了LEO衛(wèi)星的計算復(fù)雜度。在MEO衛(wèi)星控制層面,在深度學(xué)習(xí)感知的基礎(chǔ)上,利用強化學(xué)習(xí)進行路由決策代替?zhèn)鹘y(tǒng)的啟發(fā)式算法,可以減小計算復(fù)雜度,加快收斂,提高網(wǎng)絡(luò)性能。

        2 基于深度強化學(xué)習(xí)的路由策略

        2.1 算法框架

        深度強化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強化學(xué)習(xí)的決策能力相結(jié)合,以不斷試探的方式與環(huán)境進行相互交互,通過最大化獎勵函數(shù)的方式來獲得最優(yōu)決策。如圖3所示,深度學(xué)習(xí)感知模塊根據(jù)當(dāng)前LEO衛(wèi)星上傳的用戶業(yè)務(wù)信息和鏈路狀態(tài)信息來感知環(huán)境狀態(tài),為強化學(xué)習(xí)進行決策提供當(dāng)前環(huán)境狀態(tài)信息。強化學(xué)習(xí)決策模塊中智能體將深度學(xué)習(xí)感知的環(huán)境信息視為狀態(tài),衛(wèi)星之間的鏈路選擇視為動作,根據(jù)鏈路權(quán)重設(shè)置獎勵,根據(jù)獲得的獎勵來調(diào)整當(dāng)前和下一步的動作,最終達到獎勵最大化。通過訓(xùn)練,智能體執(zhí)行一系列動作獲得最大獎勵值,對應(yīng)到衛(wèi)星光網(wǎng)絡(luò),即選擇了一條滿足多種服務(wù)質(zhì)量約束的最優(yōu)路徑。本文強化學(xué)習(xí)算法采用的是Q學(xué)習(xí)算法,這是一種經(jīng)典的強化學(xué)習(xí)離線算法。

        圖3 基于深度強化學(xué)習(xí)的路由算法基本框架Fig.3 A basic framework of routing algorithms based on deep reinforcement learning

        2.2 路由策略

        2.2.1 數(shù)學(xué)模型

        深度強化學(xué)習(xí)的任務(wù)定義中主要有智能體和環(huán)境兩個可以進行交互的對象,基本要素有狀態(tài)s、動作a、狀態(tài)轉(zhuǎn)移概率p(s,a,s′)、即時獎勵r(s,a,s′)。通過四元數(shù)組(S,A,P,R)來定義深度強化學(xué)習(xí)的數(shù)學(xué)模型。

        S={s1,s2,…,sn}為有限狀態(tài)集,代表LEO衛(wèi)星當(dāng)前業(yè)務(wù)信息和鏈路狀態(tài)信息,通過深度學(xué)習(xí)模塊的感知得到。

        A={a1,a2,…,an}為有限動作集,代表當(dāng)前LEO衛(wèi)星節(jié)點業(yè)務(wù)可選擇的所有光鏈路情況的集合。

        P={(sn,an,sn+1)}為概率轉(zhuǎn)移集,表示在狀態(tài)sn情況下選擇動作an對應(yīng)光鏈路的概率,sn+1為選擇動作an后的下一狀態(tài)。

        R={(sn,an,sn+1)}為獎勵集合,表示在狀態(tài)sn情況下選擇動作an轉(zhuǎn)移到狀態(tài)sn+1可以得到的獎勵大小。

        2.2.2 獎勵設(shè)計

        深度強化學(xué)習(xí)的目的是實現(xiàn)獎勵最大化,即為當(dāng)前業(yè)務(wù)找到符合要求的最優(yōu)路徑?;赒學(xué)習(xí)算法,智能體根據(jù)當(dāng)前網(wǎng)絡(luò)拓撲中的實時鏈路連接狀態(tài),為當(dāng)前業(yè)務(wù)找到一條符合QoS約束的最優(yōu)路徑。獎勵函數(shù)值的確定應(yīng)該考慮鏈路當(dāng)前的時延、可用波長、丟包等參數(shù)?;赒oS的獎勵函數(shù)為

        (1)

        (2)

        式中:Delayij(n)表示節(jié)點上的排隊時延;Delayij(e)表示鏈路上的傳播時延。

        (3)

        式中:Lossij(e)表示單位時間內(nèi)路徑Lij中鏈路e的丟包率。

        (4)

        式中:|Nij|表示鏈路Lij上的總波長數(shù);nij(t)表示t時刻鏈路Lij上被占用的波長。

        歸一化處理方法如下,以Delayij為例:

        (5)

        式中:Delaymax和Delaymin分別表示當(dāng)前路徑上所有節(jié)點間鏈路的最大時延和最小時延。

        為了解決鏈路中的瓶頸因子對鏈路質(zhì)量的約束,即路由鏈路中單條鏈路上較大的時延、較大的丟包率和較小的剩余波長數(shù)對整個鏈路質(zhì)量的影響,引入Q調(diào)節(jié)因子,定義如下:

        (6)

        (7)

        衛(wèi)星網(wǎng)絡(luò)中,每次路徑的選擇并非隨機的,每個衛(wèi)星節(jié)點需要根據(jù)一個既定的選擇策略來選擇一條鏈路到達下一個衛(wèi)星節(jié)點。因此,在Q學(xué)習(xí)算法中,需要引入一個動作選擇策略π(st,at),即在狀態(tài)st下,智能體根據(jù)π(st,at)來執(zhí)行動作at。

        對于每次的動作選擇,可以分成兩種情況:對未知網(wǎng)絡(luò)空間的采樣叫做“探索”,利用探索的結(jié)果進行預(yù)測叫做“利用”,而“探索”和“利用”兩者是矛盾的。 Softmax算法是一種基于已知動作的平均獎勵來對“探索”和“利用”進行折中的動作選擇策略。對于softmax策略,處于st狀態(tài)下選擇動作at的概率π(st,at)服從

        (8)

        式中:n為采取的動作數(shù);Q(st,at)為狀態(tài)-動作價值函數(shù);τn是“溫度”參數(shù),τn越小越趨于“利用”,τn越大越趨于“探索”。為實現(xiàn)有限時間內(nèi)的學(xué)習(xí)收斂,將溫度設(shè)置為隨時間的線性函數(shù)

        (9)

        式中:T為達到收斂的時間;τ0和τT分別是初始時刻的溫度和最后T時刻的溫度。路由選擇的過程中,衛(wèi)星節(jié)點可以通過上述π(st,at)動作選擇策略進行鏈路選擇,最終達到獎勵最大化。

        智能體每次從當(dāng)前狀態(tài)執(zhí)行動作轉(zhuǎn)移到下一狀態(tài)時,都需要更新Q(st,at),其Q(st,at)的更新如下:

        Qt+1(st,at)=(1-α)Qt(st,at)+
        α[R(st,at)+γmaxQt(st+1,at+1)]

        (10)

        式中:α∈[0,1]為學(xué)習(xí)因子,表示學(xué)習(xí)速率;γ∈[0,1]為折扣因子,表示長期收益的重要性;maxQ(st+1,at+1)表示智能體執(zhí)行不同的動作可以獲得的最大累積回報的估計值。

        2.3 算法流程

        基于深度強化學(xué)習(xí)的衛(wèi)星光網(wǎng)絡(luò)波長路由算法實現(xiàn)步驟如下。

        DRL-RWA算法1: 輸入 初始化網(wǎng)絡(luò), 設(shè)定學(xué)習(xí)因子α;折扣因子γ;迭代次數(shù)N;輸出 當(dāng)前最優(yōu)路由策略2: 深度學(xué)習(xí)感知階段3: 根據(jù)請求業(yè)務(wù)和鏈路狀態(tài),生成感知環(huán)境;4: 將感知環(huán)境輸出到強化學(xué)習(xí)模塊5: 強化學(xué)習(xí)決策階段for i=1,2,…,N, do6: 智能體通過深度學(xué)習(xí)模塊得到初始狀態(tài)st7: 按照式(8)選擇動作at8: 按照式(7) 獲得獎勵rt并存儲,進入下一狀態(tài)st+19: if st+1不為目的節(jié)點,then執(zhí)行步驟710:else 結(jié)束,記錄本次路由表,并計算累計獎勵R11:find最大獎勵R的策略為當(dāng)前最優(yōu)路徑12:end if13:end14:下發(fā)當(dāng)前路由策略

        2.4 波長分配方法

        衛(wèi)星光網(wǎng)絡(luò)中視頻、話音和數(shù)據(jù)等業(yè)務(wù)對時延和帶寬的要求不同,即使同一類業(yè)務(wù)在軍用、商用和民用等不同場景中對服務(wù)質(zhì)量的要求也不同,因此應(yīng)該對不同業(yè)務(wù)進行劃分等級。根據(jù)對時延和吞吐量要求的不同,將業(yè)務(wù)劃分為A、B、C 3種等級。A等級業(yè)務(wù)對時延和吞吐量都有較高的要求,B等級業(yè)務(wù)對吞吐量有較高要求但對時延有一定的容忍,C等級業(yè)務(wù)為盡力而為型,對時延和吞吐量都有一定的容忍。

        針對A、B、C 3種不同等級的業(yè)務(wù),采用波長分組競爭合作機制進行波長分配。設(shè)LEO衛(wèi)星光鏈路之間可用波長數(shù)為6,即λV=(λ1,λ2,λ3,λ4,λ5,λ6),A、B、C 3種等級的業(yè)務(wù)的可用波長集分別為λA=(λ1,λ2,λ3,λ4),λB=(λ5,λ4,λ3),λc=(λ6,λ5),波長集中波長的先后順序表示該波長在該等級業(yè)務(wù)中的優(yōu)先級,例如對于B類業(yè)務(wù),波長優(yōu)先級順序為λ5>λ4>λ3,采用這種順序可以減少波長沖突,降低阻塞率。對于不同業(yè)務(wù)中的公共波長,高優(yōu)先級業(yè)務(wù)可以搶占低優(yōu)先級業(yè)務(wù)對應(yīng)的波長。波長分配步驟如圖4所示。

        圖4 區(qū)分優(yōu)先級波長分配Fig.4 Priority wavelength assignments

        2.5 算法復(fù)雜度分析

        DRL-RWA算法在搜尋最優(yōu)路徑時采用的基本方法是最大累計獎勵原則,當(dāng)網(wǎng)絡(luò)中衛(wèi)星節(jié)點數(shù)量為m,可用波長數(shù)為λ時,算法復(fù)雜度為O(λm2)。若設(shè)置迭代次數(shù)為k時獲得可行最優(yōu)路徑,則時間復(fù)雜度為O(kλm2),而深度優(yōu)先搜索(deep-first search, DFS)算法、廣度優(yōu)先搜索(breadth-first search, BFS)算法的時間復(fù)雜度均為O(kλ2m2)。相比來說,DRL-RWA算法時間復(fù)雜度較小,適用于計算資源受限的星上環(huán)境。

        3 仿真結(jié)果分析

        3.1 場景設(shè)置

        本文首先利用STK仿真軟件模擬基于SDN的衛(wèi)星光網(wǎng)絡(luò)架構(gòu),并產(chǎn)生相應(yīng)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)和連接關(guān)系,在此基礎(chǔ)上使用Matlab軟件對提出的算法進行了仿真驗證。

        仿真的場景如圖5所示,控制層由MEO衛(wèi)星組成,包含智能體感知決策模塊,負責(zé)制定和下發(fā)全網(wǎng)路由策略?;A(chǔ)設(shè)施層由LEO衛(wèi)星組成,通過路由表進行全網(wǎng)業(yè)務(wù)的轉(zhuǎn)發(fā)。網(wǎng)絡(luò)中鏈路均采用激光鏈路。

        圖5 仿真場景設(shè)計Fig.5 Simulation scene design

        衛(wèi)星光網(wǎng)絡(luò)仿真參數(shù)如表1所示。仿真過程中,業(yè)務(wù)類型包括A、B、C 3種等級。在LEO光網(wǎng)絡(luò)中隨機選取6對源目的節(jié)點衛(wèi)星,進行某一種等級業(yè)務(wù)的傳輸,并且隨著時間的增加,業(yè)務(wù)強度即每個節(jié)點的業(yè)務(wù)請求次數(shù)不斷增加。

        表1 仿真參數(shù)設(shè)置

        3.2 仿真結(jié)果分析

        α,γ值的選取對算法收斂性能有重要的影響,因此對不同的α,γ值對平均訓(xùn)練步數(shù)的影響進行數(shù)值計算,結(jié)果如圖6所示。從結(jié)果中可以看出,隨著學(xué)習(xí)因子α的增大,算法收斂速度加快,由于較小的折扣因子γ更加關(guān)注當(dāng)前回報,而較大的折扣因子γ更加關(guān)注長遠回報,因此折扣因子γ的取值應(yīng)該適當(dāng)。因此,本文在訓(xùn)練中取α=0.9,γ=0.6。

        圖6 α,γ與平均訓(xùn)練步數(shù)的關(guān)系Fig.6 α,γ in relation to the average number of training steps

        對本文提出的DRL-RWA算法性能進行分析,分別在平均傳輸時延、平均丟包率、波長利用率3個方面與Q-Routing算法和SDRA算法進行比較。其中,SDRA算法是一種基于SDN架構(gòu)的最短路徑算法[29],Q-Routing算法可看作是強化學(xué)習(xí)和Dijkstra的結(jié)合,其獎勵函數(shù)設(shè)置相對簡單,收斂速度較快,也能在一定程度上緩解鏈路擁塞[30]。

        平均時延隨業(yè)務(wù)強度變化的曲線如圖7所示。當(dāng)業(yè)務(wù)強度較小時,由于網(wǎng)絡(luò)負載較小,3種算法所選路徑基本相同,因此平均時延相差較小。隨著業(yè)務(wù)強度的增大,SDRA算法不考慮鏈路時延,選擇的路徑會變得擁塞,會導(dǎo)致業(yè)務(wù)的平均端到端時延不斷增大,而DRL-RWA算法和Q-routing算法會選擇避開負載較大的鏈路,優(yōu)先選擇時延較小的鏈路。DRL-RWA算法在路由選擇的過程中綜合考慮了鏈路的時延瓶頸因子,因此當(dāng)服務(wù)請求數(shù)較多時,DRL-RWA算法的平均時延特性更好。

        圖7 平均時延仿真結(jié)果Fig.7 Average time-delay simulation results

        波長利用率隨業(yè)務(wù)強度變化的曲線如圖8所示。當(dāng)業(yè)務(wù)強度較小時,由于網(wǎng)絡(luò)負載較輕,3種算法的波長利用率差別不大。隨著服務(wù)請求數(shù)量的增加,Q-routing算法和DRL-RWA算法的波長利用率與SDRA算法相比顯著增加。當(dāng)服務(wù)請求數(shù)較大時,由于SDRA算法會導(dǎo)致網(wǎng)絡(luò)擁塞,從而帶寬利用率基本不再增加。而DRL-RWA算法在路由選擇的過程中綜合考慮了鏈路波長占有情況和波長瓶頸因子因素,使得其在帶寬利用率方面有更好的表現(xiàn)。

        圖8 波長利用率仿真結(jié)果Fig.8 Simulation results of the wavelength utilization rate

        平均丟包率隨業(yè)務(wù)強度變化的曲線如圖9所示。當(dāng)業(yè)務(wù)強度較小時,3種算法的丟包率也基本相同。隨著服務(wù)請求數(shù)的增大,SDRA算法在路由過程中未考慮網(wǎng)絡(luò)中鏈路的當(dāng)前占用情況,部分鏈路開始出現(xiàn)擁塞,導(dǎo)致丟包率迅速增加,因此SDRA算法的丟包率明顯高于其他兩種路由算法。Q-routing算法和DRL-RWA算法都可以動態(tài)感知網(wǎng)絡(luò)節(jié)點的占用情況,丟包率比SDRA算法有顯著降低。在服務(wù)請求數(shù)量較多的情況下,DRL-RWA算法考慮鏈路的丟包率瓶頸因子,因此平均丟包率更低。

        圖9 平均丟包率仿真結(jié)果Fig.9 Simulation results of the average packet loss rate

        不同業(yè)務(wù)強度下不同等級業(yè)務(wù)阻塞率的比較如圖10所示。由圖10可知,隨著業(yè)務(wù)強度的增加,由于C等級業(yè)務(wù)可用波長較少,因此阻塞率迅速增加。A等級業(yè)務(wù)由于可用波長數(shù)較多并且可以搶占B等級業(yè)務(wù)的波長,因此A等級業(yè)務(wù)的阻塞率維持在較低水平。由結(jié)果可知,對業(yè)務(wù)進行劃分等級可以有效降低高優(yōu)先級業(yè)務(wù)的網(wǎng)絡(luò)阻塞率,提高衛(wèi)星光網(wǎng)絡(luò)按需服務(wù)能力。

        圖10 阻塞率仿真結(jié)果Fig.10 Blocking rate simulation results

        4 結(jié) 論

        本文提出了一種基于深度強化學(xué)習(xí)的衛(wèi)星光網(wǎng)絡(luò)波長路由算法,基于SDN的MEO/LEO雙層衛(wèi)星光網(wǎng)絡(luò)架構(gòu)下,將深度學(xué)習(xí)對環(huán)境的感知能力和強化學(xué)習(xí)的決策能力相結(jié)合,實現(xiàn)衛(wèi)星光網(wǎng)絡(luò)多QoS波長路由。提出的DRL-RWA算法在進行基于價值動作狀態(tài)函數(shù)的路徑選擇時,綜合考慮了鏈路的時延、丟包率和剩余波長,并且考慮了鏈路瓶頸因子對網(wǎng)絡(luò)性能的限制。仿真結(jié)果表明,與SDRA算法和Q-routing算法相比,本文所提算法在時延、波長利用率和丟包率方面均有較優(yōu)的性能,此外,還降低了高優(yōu)先級業(yè)務(wù)的阻塞率。下一步,可將深度強化學(xué)習(xí)與衛(wèi)星光網(wǎng)絡(luò)流量均衡和功率代價成本相結(jié)合,在保證業(yè)務(wù)對多QoS需求的同時,提高衛(wèi)星光網(wǎng)絡(luò)資源的綜合利用率。

        猜你喜歡
        包率時延路由
        支持向量機的船舶網(wǎng)絡(luò)丟包率預(yù)測數(shù)學(xué)模型
        一種基于噴泉碼的異構(gòu)網(wǎng)絡(luò)發(fā)包算法*
        基于GCC-nearest時延估計的室內(nèi)聲源定位
        電子制作(2019年23期)2019-02-23 13:21:12
        基于改進二次相關(guān)算法的TDOA時延估計
        探究路由與環(huán)路的問題
        一種新的VANET網(wǎng)絡(luò)鏈路丟包率估計算法
        FRFT在水聲信道時延頻移聯(lián)合估計中的應(yīng)用
        基于分段CEEMD降噪的時延估計研究
        TCN 協(xié)議分析裝置丟包率研究
        PRIME和G3-PLC路由機制對比
        国产sm调教视频在线观看| 蜜桃av一区二区三区久久| 国产尤物自拍视频在线观看 | 天堂丝袜美腿在线观看| 日韩一区二区三区无码影院| 青青久在线视频免费观看| 久久频精品99香蕉国产| 无码人妻丰满熟妇片毛片| 鲁一鲁一鲁一鲁一澡| 4hu44四虎www在线影院麻豆| 国产精品麻豆一区二区三区| 高h喷水荡肉爽文np肉色学校| 狠狠色丁香久久婷婷综合蜜芽五月 | 一本色道亚州综合久久精品| 美利坚日韩av手机在线| 麻豆精品国产精华精华液好用吗| 精品国产av最大网站| 久久这里只精品国产2| 久久av一区二区三区下| 亚洲最大一区二区在线观看| 丰满女人猛烈进入视频免费网站 | 亚洲人成欧美中文字幕 | 99久久久久久亚洲精品| 亚洲精品98中文字幕| 免费高清av一区二区三区| 亚洲 欧美精品suv| 精品国产AⅤ一区二区三区V免费 | 麻豆视频黄片在线免费观看| 精品国产一区二区三区av天堂| 无码乱肉视频免费大全合集| 乱人伦视频中文字幕| 国产福利美女小视频| 老女人下面毛茸茸的视频| 又色又爽又高潮免费视频国产| 亚洲欧美在线观看| 国产小视频网址| 少妇隔壁人妻中文字幕| 伦伦影院午夜理论片| 中文www新版资源在线| 国产乱子伦精品无码码专区| 精品午夜一区二区三区久久|