亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移深度強化學習的低軌衛(wèi)星跳波束資源分配方案

        2023-03-01 08:13:16陳前斌麻世慶段瑞吉梁承超
        電子與信息學報 2023年2期
        關鍵詞:系統(tǒng)

        陳前斌 麻世慶 段瑞吉 唐 倫 梁承超

        (重慶郵電大學通信與信息工程學院 重慶 400065)

        1 引言

        寬帶衛(wèi)星通信系統(tǒng)由于其通信覆蓋面廣、終端架設快捷、穩(wěn)定性高等特點,是全球信息高速公路的重要組成部分,也是空天地一體化的重要發(fā)展方向。作為寬帶衛(wèi)星通信系統(tǒng)的核心技術之一,多波束天線技術在波束成形和波束掃描方面具有高靈活性,目前已經(jīng)廣泛應用于實際衛(wèi)星通信系統(tǒng)。低軌道(Low Earth Orbit, LEO)衛(wèi)星通信系統(tǒng)是近年來應用多波束天線技術的熱門衛(wèi)星系統(tǒng)之一,也是未來空天地一體化的優(yōu)化發(fā)展方向,對完善空天地一體化網(wǎng)絡具有重要作用[1],LEO衛(wèi)星網(wǎng)絡的進步也引起了工業(yè)界和學術界的廣泛關注[2,3]。傳統(tǒng)的LEO多波束技術平等分配帶寬資源和功率資源,該方案星載資源損耗大,資源利用率低,容易造成特定小區(qū)資源分配策略無法滿足通信需求。跳波束(Beam Hopping, BH)技術通過相控陣技術控制星載波束的空間指向,并靈活分配帶寬和發(fā)射功率,為衛(wèi)星用戶動態(tài)分配通信資源[4],因此BH技術可以用于LEO場景以增加衛(wèi)星資源利用效率。

        BH衛(wèi)星系統(tǒng)相較于傳統(tǒng)衛(wèi)星系統(tǒng)在資源分配方面能大幅度地提高系統(tǒng)性能和資源分配效率。文獻[5]利用遺傳算法通過時分復用的方式設計與各時隙業(yè)務需求相匹配的BH方案,并展示引入BH技術對多波束衛(wèi)星系統(tǒng)性能優(yōu)化的效果。文獻[6]提出一種聯(lián)合資源優(yōu)化方案,該方案利用迭代算法設計功率控制和波束成形優(yōu)化策略,不僅能滿足系統(tǒng)安全性要求,也大幅度提高資源分配效率。基于BH動態(tài)資源分配的思想,文獻[7]以最大化高軌衛(wèi)星用戶性能公平性為目標,設計滿足信道容量限制下的波束跳變策略,保障了瓶頸用戶的通信質(zhì)量。文獻[8,9]均在提出BH系統(tǒng)資源分配的數(shù)學模型基礎上,利用啟發(fā)式算法等傳統(tǒng)算法設計有效改善衛(wèi)星前向鏈路的資源分配方案。為了降低傳統(tǒng)優(yōu)化問題的復雜性,文獻[10]在BH資源分配上做了優(yōu)化和改進,通過將雙變量優(yōu)化問題分解為兩個單變量優(yōu)化問題,有效地解決聯(lián)合優(yōu)化問題。文獻[11,12]探索一種結合學習和優(yōu)化的方法,為BH調(diào)度提供一種快速、可行和接近最優(yōu)的解決方案,學習分量能夠大大加快BH模式選擇和分配的過程,而優(yōu)化分量能保證解決方案的可行性,提高整體性能。

        盡管現(xiàn)有研究在基于BH的資源分配方面已取得較好的成果,但仍然存在3個方面的問題:(1)現(xiàn)有的對BH的研究集中在高軌衛(wèi)星,缺乏對LEO應用BH技術的可靠研究。(2)大多數(shù)基于BH的資源分配只關注系統(tǒng)的吞吐量,而LEO服務時間短暫,對業(yè)務的時延敏感,因此優(yōu)化問題應側重考慮減小業(yè)務時延性能,使優(yōu)化目標與系統(tǒng)特性相匹配。(3)由于在LEO環(huán)境下通信資源和通信需求劇烈變化,傳統(tǒng)的BH資源分配算法復雜度高、計算量大,無法直接使用于LEO上。

        針對上述問題,本文提出一種基于深度強化學習(Deep Reinforcement Learning, DRL)的低軌衛(wèi)星跳波束資源分配方案。本文主要的貢獻如下:(1)根據(jù)LEO場景特點,本文聯(lián)合星上緩沖信息、業(yè)務到達情況和信道狀態(tài)信息(Channel State Information, CSI),以最小化衛(wèi)星上數(shù)據(jù)包的平均排隊和傳輸時延為目標,建立了可靠的支持BH技術的LEO資源分配模型。(2)針對傳統(tǒng)BH圖案設計方法無法適應LEO場景的問題,本文考慮動態(tài)隨機變化的通信資源和通信需求,采用DRL算法,將衛(wèi)星數(shù)據(jù)包緩存量、信道狀態(tài)重構為狀態(tài)空間,執(zhí)行小區(qū)的波束調(diào)度、功率分配決策,根據(jù)小區(qū)數(shù)據(jù)包的積累量定義獎勵函數(shù),使LEO資源分配過程更加自動化和智能化。(3)為了降低模型的訓練成本,使模型更好地適應LEO動態(tài)變化的環(huán)境,提出了一種新穎的遷移深度強化學習(Transfer Deep Reinforcement Learning, TDRL)模型,將遷移學習(Transfer Learning, TL)和DRL算法結合起來,根據(jù)TL的策略遷移特性,使新接入網(wǎng)絡的衛(wèi)星在訓練初期擁有少量樣本的條件下,也能盡快取得最優(yōu)資源分配方案,提高了算法的收斂速度。

        2 系統(tǒng)模型

        如圖1所示,本文支持BH的衛(wèi)星系統(tǒng)包括低軌衛(wèi)星、網(wǎng)絡控制中心、信關站和衛(wèi)星用戶。LEO通過寬波束收集用戶信令,以統(tǒng)計不同小區(qū)的業(yè)務需求,星載處理器通過執(zhí)行智能算法得出當前時刻波束調(diào)度和功率分配決策,完成對地面熱點終端的靈活資源分配。新接入LEO網(wǎng)絡的用戶數(shù)據(jù)可以通過衛(wèi)星直接轉發(fā)給其他用戶或透明轉發(fā)至地面信關站,再由信關站通過地面網(wǎng)絡轉發(fā)數(shù)據(jù),從而建立終端之間的通信鏈路。

        圖1 基于跳波束的低軌衛(wèi)星通信架構

        2.1 天線模型

        多波束天線輻射特性參考國際電信聯(lián)盟(International Telecommunication Union, ITU)的建議書ITU-S.672,該建議書給出了衛(wèi)星單波束天線的輻射特性[13],LEO天線輻射特性估算參考模型可以設定為

        其中,θ為偏軸角,G(θ)為在該偏軸角下的天線增益大??;Gm為天線最大方向性的輻射效率,即天線最大增益,該數(shù)值與衛(wèi)星天線硬件參數(shù)有關;θα為 半波束角;θβ為式中第3個等式等于0 dBi時的θ值。LEO衛(wèi)星多波束模型可設置為由多個擁有該輻射特性的單波束組成,可計算任意時刻衛(wèi)星對小區(qū)的天線增益。

        2.2 信道模型

        信道矩陣H包含低軌衛(wèi)星前向鏈路預算信息和由于無線傳播引起的相位旋轉[12]。信道矩陣可以表示為

        其中,矩陣Z代表信號通過不同傳播路徑所引發(fā)的相位變化,矩陣Z的具體表示為

        其中,?x為 在區(qū)間[?π,π]上服從均勻分布的隨機變量。

        2.3 前向鏈路模型

        其中,hcn,ci(tj) 表示在時刻tj,覆蓋小區(qū)cj的波束到小區(qū)cn中心的信道增益,該數(shù)值可通過查詢信道矩陣得到;pci(tj)表 示在時刻tj, 覆蓋小區(qū)cn的波束發(fā)射功率;N0表 示噪聲功率譜密度;Bw為波束分配到的全帶寬。

        在tj時刻,信道條件可以定義為H(tj)={hcn,ci(tj)|cn,ci ∈C},由于低軌衛(wèi)星相對于地面移動速度很快,導致信道條件hcn,ci(tj)也隨時間快速變化。將當前波束調(diào)度時刻與該數(shù)據(jù)包到達時刻的時間差定義為該數(shù)據(jù)包的排隊時延,傳輸時延可以通過數(shù)據(jù)包大小和小區(qū)信道容量計算得出。假設小區(qū)數(shù)據(jù)包的到達服從泊松過程,到達率用L(tj)={λcn(tj)|cn ∈C}表示,其中λcn(tj)表 示小區(qū)cn在時間段[tj,tj+1]的 數(shù)據(jù)包到達率,假設數(shù)據(jù)包pi在tpi時刻到達衛(wèi)星緩沖區(qū),若波束調(diào)度時間間隔足夠小,可令tpi ≈tj。F(tj)={fcn(tj)|cn ∈C}表示在tj時刻各小區(qū)緩沖區(qū)的所有數(shù)據(jù)包,因此fcn(tj)代表該時刻小區(qū)cn緩 沖區(qū)數(shù)據(jù)包集合。定義Tth為數(shù)據(jù)包最大排隊時延,即數(shù)據(jù)包必須在到達后的Tth時段內(nèi)被傳輸,否則以最大時延作為該數(shù)據(jù)包的排隊時延。

        假設所有數(shù)據(jù)包的傳輸過程遵循先到先服務的原則。衛(wèi)星緩沖區(qū)中的數(shù)據(jù)包集合F(tj)僅由上一決策時刻的數(shù)據(jù)包集合F(tj?1)、波束調(diào)度決策X(tj?1)、 信道條件H(tj?1)、 功率分配情況P(tj?1)以及數(shù)據(jù)包到達率L(tj?1)決 定。因此,在tj時刻數(shù)據(jù)包的集合可以為式(6)表示

        由于當前時刻的數(shù)據(jù)包集合F(tj)僅與上一時刻F(tj?1)相關,而與之前狀態(tài)無關,因此,數(shù)據(jù)包在緩沖區(qū)的累計過程具有馬爾可夫性。系統(tǒng)的吞吐量也可以根據(jù)前后波束調(diào)度時刻緩沖區(qū)&數(shù)據(jù)包的數(shù)量和當前時刻數(shù)據(jù)包到達率確定,小區(qū)cn在tj?1~tj時間段內(nèi)的數(shù)據(jù)包吞吐量表示如式(7)所示

        系統(tǒng)的總吞吐量也可以根據(jù)所有時刻緩沖區(qū)數(shù)據(jù)包的數(shù)量和數(shù)據(jù)包到達率確定,小區(qū)cn在總的時間段內(nèi)的數(shù)據(jù)包吞吐量表示如式(8)所示

        2.4 優(yōu)化目標

        通過動態(tài)的波束調(diào)度和功率分配,以最小化一段時間內(nèi)每個小區(qū)數(shù)據(jù)包的平均時延。因此本文將最小化所有數(shù)據(jù)包的平均時延作為優(yōu)化目標,而每個數(shù)據(jù)包的時延由排隊時延和傳輸時延組成。假定所有數(shù)據(jù)包的大小相等,且均為Mbit,如式(9)所示,排隊時延由包到達時刻與決策時刻的時間差決定,傳輸時延由數(shù)據(jù)包大小和該時刻小區(qū)的信道容量決定

        波束調(diào)度X(tj)和 功率分配P(tj)作為當前時刻的決策變量,并且決策受到當前時刻其他條件影響,因此決策應該基于數(shù)據(jù)包集合F(tj?1)、波束調(diào)度決策X(tj?1)、 信道條件H(tj?1)、功率分配情況P(tj?1)以 及數(shù)據(jù)包到達率L(tj?1)。數(shù)據(jù)包平均時延的最小化數(shù)學模型如式(10)所示

        其中,集合T={t1,t2,...,t|T|}表示在衛(wèi)星覆蓋范圍內(nèi)的所有決策時刻的集合,Ptot是星載總功率,表示小區(qū)的最小吞吐量要求,Tth表示最大容忍排隊時延。C1為最大波束數(shù)限制,保證獲得波束調(diào)度的小區(qū)個數(shù)不能超過星載有源波束數(shù)K;C2為星載資源限制,意味著所有波束的發(fā)射功率應在衛(wèi)星最大星載功率要求之內(nèi);C3表示資源分配情況需滿足用戶服務質(zhì)量(Quality of Service,QoS)限制,保證小區(qū)的總吞吐量不能低于吞吐量閾值,即滿足網(wǎng)絡的最低服務要求;C4保證衛(wèi)星緩沖區(qū)每個數(shù)據(jù)包的排隊時延要在最大排隊時延之內(nèi);C5為波束調(diào)度狀態(tài)的二進制變量約束。

        3 基于TL-DRL的LEO-BH方案

        3.1 算法整體架構

        圖2為本文設計的基于TL-DRL的LEO-BH系統(tǒng)架構圖。系統(tǒng)架構主要包括資源管理系統(tǒng)和LEO前向鏈路傳輸網(wǎng)絡。首先,LEO寬波束搜集用戶信令,統(tǒng)計用戶業(yè)務量,數(shù)據(jù)包在即將發(fā)往各個小區(qū)的衛(wèi)星緩沖區(qū)里排隊;其次,監(jiān)控器負責收集緩沖區(qū)隊列情況、CSI、星載資源來更新控制器參數(shù);控制器則根據(jù)監(jiān)控器信息執(zhí)行相應的學習算法;最后,分配器根據(jù)控制器的配置參數(shù)進行波束動態(tài)智能調(diào)度和功率分配。

        對于該系統(tǒng)架構來說,控制器是可進行優(yōu)化的模塊,包含DRL和TL。DRL通過結合強化學習(Reinforcement Learning, RL)和深度學習(Deep Learning, DL),完成系統(tǒng)特征的學習并智能地執(zhí)行資源分配策略[14]。如圖2所示,控制器首先利用RL不斷與環(huán)境進行交互獲取樣本,再利用DL提取樣本特征,完成當前場景到資源分配策略的映射。再利用TL中的策略遷移加速智能體快速尋找最優(yōu)資源分配策略,優(yōu)化DRL算法的收斂性能。TL與DRL的結合可以優(yōu)化系統(tǒng)訓練的過程,提高資源分配的效果。

        圖2 基于TL-DRL的LEO-BH系統(tǒng)架構圖

        3.2 MDP模型

        由以上分析可知,小區(qū)緩沖區(qū)數(shù)據(jù)包的累計情況與上一時刻的數(shù)據(jù)包緩存量、波束調(diào)度情況、CSI、功率分配情況和數(shù)據(jù)包的到達率有關,因此數(shù)據(jù)包的變化過程具有馬爾可夫性,可以建模為馬爾可夫決策過程(Markov Decision Process,MDP),將系統(tǒng)的狀態(tài)、動作和獎勵設定如下。

        3.2.1 狀態(tài)

        狀態(tài)能抽象地表征環(huán)境,也是智能體進行波束調(diào)度和功率分配的依據(jù)。對于特定的時刻,衛(wèi)星的緩沖區(qū)情況F(tj) 和 信道條件H(tj)能直接影響波束調(diào)度決策X(tj)和 功率分配動作P(tj),其中信道條件會影響被服務小區(qū)緩沖區(qū)數(shù)據(jù)包的發(fā)送速率。在DQN中,若將衛(wèi)星中所有的小區(qū)信道狀態(tài)、功率分配和緩沖區(qū)數(shù)據(jù)包積累量等信息全部輸入到深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)中,網(wǎng)絡的負載量過大,影響智能體的學習效率,因此需合理定義狀態(tài),但又不能遺失重要的環(huán)境信息。這里使用文獻[15]的狀態(tài)重構概念進行設計,設計規(guī)則和實例如下所示。

        由于最大排隊時延Tth的限制,因此對于緩沖區(qū)fcn(tj)中 的任意一個數(shù)據(jù)包pi,其到達時間tpi一定處在時間間隔[tj ?Tth,tj]中。以當前的決策時刻tj為 起點,往前將Tth時間段分割成大小相等的多個部分,在每一個部分統(tǒng)計該時間段中緩沖包的積累量,該時間段中所有數(shù)據(jù)包的時延設置為與當前決策時刻tj的時間差。

        如圖3所示為狀態(tài)重構實例,“× ”符號表示在某段相鄰的決策時刻之間ts到達特定小區(qū)的數(shù)據(jù)包,假定數(shù)據(jù)包的時延閾值Tth=9·ts,即分成9個部分。W矩陣與D矩陣分別表示數(shù)據(jù)包的個數(shù)與時延,其中W矩陣由不同時間段的F組成,即W(tj)=(F(tj?9),F(tj?8),...,F(tj?1)),相鄰時間段的數(shù)據(jù)包差異反映了各小區(qū)數(shù)據(jù)包到達率、波束調(diào)度情況和數(shù)據(jù)包處理速率等信息,數(shù)據(jù)包的處理速率又與當前時刻各小區(qū)信道條件H(tj)和功率分配情況P(tj) 有 關。因此,重構后的狀態(tài)W和D既能反映當前環(huán)境下的重要狀態(tài)信息,又大幅度地減少存儲狀態(tài)所需的空間。在該實例中,假設在時隙[tj?4,tj?3]到 達了1個數(shù)據(jù)包,將要發(fā)送給小區(qū)c2,則W(tj) 中 的w2,6(tj)為 1,D(tj) 矩 陣中的d2,6(tj)為4。

        圖3 狀態(tài)重構過程

        3.2.2 動作

        智能體在觀察環(huán)境后,通過獲得相應的狀態(tài)S(tj), 確定在該狀態(tài)下執(zhí)行的動作A(tj)。由式(10)定義的時延最小化問題可知,決策組合應該是在滿足限制條件C1~C5的一組波束調(diào)度向量X(tj)和功率分配向量P(tj)。 所以可將動作空間A(tj)定義為式(12)

        其中,xcn(tj) 代表第n個小區(qū)的波束調(diào)度情況,pcn(tj)代 表第n個小區(qū)能分配到的功率,當小區(qū)未獲得波束調(diào)度權限時,分配到的功率為0,則有

        3.2.3 獎勵

        獎勵是MDP中智能體采取動作后的即時反饋。對于式(10)定義的時延最小化問題,根據(jù)重構后的狀態(tài),可以定義獎勵如式(16)所示

        利用當前時刻W矩陣與D矩陣對應元素的乘積之和,該結果能反映衛(wèi)星緩沖區(qū)所有小區(qū)的數(shù)據(jù)包從到達到當前時刻擬發(fā)送成功的時間差的和,即所有數(shù)據(jù)包時延的和,而將其相反數(shù)設定為當前時刻獎勵,滿足獎勵的定義要求,即當前的緩沖區(qū)數(shù)據(jù)包積累量越多,數(shù)據(jù)包的平均時延就越大,獲得獎勵就越小。

        3.2.4 DQN網(wǎng)絡結構設計

        在DRL中,深度Q網(wǎng)絡(Deep Q Network,DQN)是最受關注的算法之一,DQN使用非線性神經(jīng)網(wǎng)絡來近似狀態(tài)-動作值函數(shù),可以從高維數(shù)據(jù)中提取特征,并且DQN已廣泛應用于智能序貫決策問題中[16]。因此本文將LEO-BH資源分配算法轉化成一個深度Q學習過程,通過觀察當前網(wǎng)絡環(huán)境的狀態(tài),選擇適當?shù)馁Y源分配決策以最小化系統(tǒng)的平均時延。在智能體觀測環(huán)境并得到狀態(tài)s(ti)后,立刻通過神經(jīng)網(wǎng)絡得到基于當前狀態(tài)的決策動作a(ti), 并 輸出 獎勵r(ti) 。Q網(wǎng)絡 完成 狀態(tài)s(ti)到 狀態(tài)-動作值的映射,經(jīng)驗回放池負責存儲交互得到的4元組樣本,與目標網(wǎng)絡和自適應估計 (Adaptive moment estimation, Adam) 優(yōu)化器共同作用以訓練Q網(wǎng)絡,提高神經(jīng)網(wǎng)絡的擬合特性。

        Q?(s,a)為 最優(yōu)的Q值函數(shù),通常情況下以遞歸方式獲取函數(shù) (s(ti),a(ti),r(ti),s(ti+1),a(ti+1)),表示了在當前時刻ti下,系統(tǒng)處于s(ti)狀態(tài),采取動作a(ti)并 得到即時獎勵r(ti)后,在下一時刻進入狀態(tài)s(ti+1) 并 有一定概率采取動作a(ti+1) ,Q值函數(shù)更新規(guī)則如式(18)所示

        其中,α表示學習率,γ∈[0,1]是折扣因子,折扣因子反映了網(wǎng)絡對得到即時獎勵的期望程度。本文采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)來提取類像素矩陣,擬合Q值函數(shù)。為了打破數(shù)據(jù)間的關聯(lián)性和緩解非線性網(wǎng)絡中Q值函數(shù)出現(xiàn)的不穩(wěn)定問題,利用經(jīng)驗回放池存儲獲取到的4元組樣本,并隨機抽取小批量樣本數(shù)據(jù)進行訓練,通過存儲加采樣的方法將數(shù)據(jù)關聯(lián)性打破,使訓練更加穩(wěn)定。

        如圖4所示,深度神經(jīng)網(wǎng)絡由輸入層、兩層卷積層、3層全連接層和輸出層構成。網(wǎng)絡的輸入是當前時刻狀態(tài)重構后的時延矩陣和緩沖區(qū)數(shù)據(jù)包滯留矩陣,然后利用CNN提取類像素矩陣的特征,展開并作為全連接層的輸入。全連接層擁有“分類器”的功能,能增加系統(tǒng)模型的非線性表達能力。同時,為降低全連接層節(jié)點間相互依賴性,防止神經(jīng)網(wǎng)絡出現(xiàn)過擬合現(xiàn)象,在全連接層上采用隨機失活策略[17]。

        圖4 深度神經(jīng)網(wǎng)絡模型

        在Q網(wǎng)絡訓練時需要計算損失函數(shù),損失函數(shù)用于評價目標網(wǎng)絡和估值網(wǎng)絡的差距,引導下一步訓練的正確方向,因此損失函數(shù)最小也表明算法達到意義上的最優(yōu)[14]。本文將損失函數(shù)定義為

        需要通過抽取的4元組樣本計算當前估值網(wǎng)絡的梯度dw,再使用Adam算法[18]更新參數(shù)w

        Vdw和Sdw分別表示指數(shù)加權平均數(shù)和平方數(shù)指數(shù)加權平均數(shù),為了防止初始化權重更新出現(xiàn)偏差,利用式(23)和式(24)計算該兩個平均數(shù)的無偏估計,完成對偏差的修正[18]

        3.2.5 基于TL-DQN的低軌衛(wèi)星跳波束方案

        LEO雖然可以通過DRL算法采取最佳的資源分配動作,但對于新接入LEO網(wǎng)絡的衛(wèi)星(智能體)來說,雖然與其他衛(wèi)星覆蓋同一片區(qū)域,但仍然需要重新與LEO網(wǎng)絡環(huán)境交互獲取新的樣本并重新訓練DQN模型,以此來得到當前衛(wèi)星的最優(yōu)波束調(diào)度和功率分配策略。由于低軌衛(wèi)星對地移動速度過快,較長的訓練過程必定減少系統(tǒng)的有效服務時間,降低資源優(yōu)化性能,且若每一個新接入網(wǎng)絡的衛(wèi)星都需要獨立重新訓練模型,這無疑增加了系統(tǒng)的訓練成本,因此已有關于如何加快DRL算法訓練速度的文獻研究[19,20]。

        其中,ζt=ηt為遷移率,η∈(0,1)為相應的遷移率因子,隨著時間的推移和訓練次數(shù)的增加,遷移率會越來越小。不同取值的遷移率因子會影響系統(tǒng)的遷移率減小速率,即會對遷移學習過程的策略遷移比例。在學習剛開始階段,源衛(wèi)星策略(s(ti),a(ti))在整體策略中占主導地位,源衛(wèi)星策略的存在有較大概率促使系統(tǒng)選擇源任務中狀s(ti)態(tài)的最優(yōu)動作,然而隨著學習時間的推移,源衛(wèi)星策略對整體策略的影響逐漸變小,這是因為盡管源任務與目標任務相似,但仍然存在差異,例如在不同的時刻,源衛(wèi)星網(wǎng)絡觀測到的狀態(tài)與目標衛(wèi)星網(wǎng)絡觀測到的狀態(tài)一致,但由于衛(wèi)星處于不同位置,信道條件和各小區(qū)需求量也不同,目標衛(wèi)星應更積極地尋求匹配當前網(wǎng)絡環(huán)境的最優(yōu)資源分配策略。因此該TLDQN系統(tǒng)不僅能利用源衛(wèi)星網(wǎng)絡學習到的經(jīng)驗知識,也能逐漸消除外來策略的消極影響。最后,將TL-DQN算法總結在算法1中。

        算法1 基于TL-DQN的低軌衛(wèi)星跳波束方案

        4 性能仿真與分析

        4.1 參數(shù)設置

        為了評估模型和算法的有效性,針對LEOBH技術進行了實驗仿真。場景設計如下:待服務區(qū)域的大小為6670× 6670 km2,并且被劃分成49個規(guī)模相等的小區(qū),衛(wèi)星網(wǎng)絡包括既定軌道和一個擁有7個點波束的LEO衛(wèi)星組成。仿真場景的其余物理參數(shù)參考銥星系統(tǒng)[21],其中,數(shù)據(jù)包大小均值設置為M=50 kbit,數(shù)據(jù)包到達服從泊松分布且到達率(包/s)范圍為:λcn(t)∈[1,21]。仿真場景具體參數(shù)設置如表1所示。

        表1 低軌衛(wèi)星場景設置參數(shù)

        本文的算法采用TL-DQN算法來解決多波束低軌衛(wèi)星網(wǎng)絡中波束調(diào)度和功率分配問題,因此還需要對神經(jīng)網(wǎng)絡的參數(shù)進行訓練,表2即TL-DQN算法的參數(shù)設置。經(jīng)驗回放池存儲神經(jīng)網(wǎng)絡的樣本來源于智能體與環(huán)境交互所感知到的數(shù)據(jù),若容量過小,則會丟棄部分經(jīng)驗樣本以至于訓練不穩(wěn)定,本文將經(jīng)驗池的容量設置為5000。當前Q網(wǎng)絡每次進行訓練時,會隨機獲取經(jīng)驗池中的10組數(shù)據(jù)進行訓練,并且每100步更新目標Q網(wǎng)絡的參數(shù)值。由于Adam的系統(tǒng)時延收斂值明顯低于其他優(yōu)化器且震蕩幅度更小,因此本文選擇Adam優(yōu)化器對參數(shù)向量進行改進。神經(jīng)網(wǎng)絡的探索概率ε代表智能體隨機選取動作的概率,探索概率過大或過小都不利于網(wǎng)絡的訓練,因此本文使用動態(tài)的探索概率[22],其表達式滿足:

        表2 TL-DQN算法參數(shù)設置

        為了驗證加入遷移學習后的DQN算法在收斂系統(tǒng)時延和收斂速度的性能優(yōu)越性,需要設置不同遷移率,遷移率因子滿足η ∈{0,0.2,0.5},其中η=0時表示未使用遷移學習。

        4.2 性能分析

        4.2.1 算法收斂性能

        圖5展示了不同的遷移率因子收斂系統(tǒng)平均隊列時延的結果。由該結果可以看出,TL-DQN算法的收斂速率優(yōu)于DQN算法,同時,TL-DQN算法的穩(wěn)定平均隊列時延均低于DQN算法。隨著遷移率因子的增大,系統(tǒng)受到遷移過程的影響程度增大,TL-DQN算法的收斂速度越快,且最終收斂的效果也越好。當遷移率因子η=0.5時,TL-DQN算法所達到的系統(tǒng)的平均隊列時延相較于DQN算法降低了約13.23%。

        4.2.2 系統(tǒng)性能

        為了更好地體現(xiàn)本文基于TL-DQN算法的低軌衛(wèi)星跳波束方案在各個小區(qū)擁有不同業(yè)務需求量的條件下時延和吞吐量上的優(yōu)越性,本文將所提算法與輪詢調(diào)度算法(Round-Robin Scheduling, RRS)和最大隊列優(yōu)先算法(Max Queue First, MQF)進行了比較。圖6展示了在不同小區(qū)業(yè)務需求規(guī)律變化的情況下,不同算法的時隙分配個數(shù)、業(yè)務處理情況和包的平均時延。圖6(a)描述了不同算法在低軌衛(wèi)星服務用戶的6000個時隙內(nèi),不同小區(qū)的時隙獲得情況,其中RRS算法小區(qū)間的時隙分配差異不大,MQF算法則會根據(jù)當前決策時刻的小區(qū)隊列情況分配時隙,TL-DQN算法根據(jù)當前的隊列情況,信道狀態(tài)和功率分配情況構建狀態(tài)矩陣,通過神經(jīng)網(wǎng)絡得到小區(qū)的波束調(diào)度決策和功率分配情況,決定了小區(qū)獲得的時隙情況。圖6(b)描述了不同算法的業(yè)務處理情況,即小區(qū)吞吐率和QoS的滿足情況,可以看出TL-DQN算法在滿足小區(qū)QoS的前提下,大幅度地提高了熱點區(qū)域的業(yè)務處理性能,實現(xiàn)了資源的有效利用,TL-DQN算法、RRS算法和MQF算法的QoS滿足率為100%, 38.8%,71.4%,平均業(yè)務處理量分別超出QoS需求97.1%,0.4%, 27.6%。圖6(c)展示了不同算法下不同小區(qū)的包平均時延,結果表示TL-DQN算法小區(qū)的總體包時延明顯低于RRS算法和MQF算法,由于在RRS算法和MQF算法中,存在需求量較低的小區(qū)獲得更多的調(diào)度時隙,因此可以解釋TL-DQN算法有少量小區(qū)的包平均時延較高,但總體來說,TL-DQN各個小區(qū)的平均時延相較于RRS算法和MQF算法降低了28.15%和19.56%。

        圖6 小區(qū)需求規(guī)律變化下系統(tǒng)性能展示圖

        為了更直觀地衡量TL-DQN算法的優(yōu)化程度,現(xiàn)研究不同業(yè)務到達率對系統(tǒng)吞吐量、包平均時延的影響。圖7描述了在業(yè)務非均勻分布的情況下,系統(tǒng)吞吐量和包平均時延與系統(tǒng)平均業(yè)務到達率的關系??梢钥闯觯S著系統(tǒng)業(yè)務到達率的增大,待處理的數(shù)據(jù)包增多,系統(tǒng)的總吞吐量會增大,且由于隊列的積累量變大,包平均時延也會變大。進一步地,可以看出TL-DQN算法的系統(tǒng)總吞吐量和包平均時延均優(yōu)于RRS算法和MQF算法,且在業(yè)務到達率逐漸增大的情況下,性能惡化速度較慢。

        圖7 系統(tǒng)性能與業(yè)務到達率關系圖

        5 結束語

        本文研究了低軌衛(wèi)星波束調(diào)度和資源分配問題,通過將以最小化平均數(shù)據(jù)包時延為優(yōu)化目標的隨機優(yōu)化問題轉化為深度強化學習過程。本算法聯(lián)合星上緩沖信息、業(yè)務到達情況和CSI,將各個小區(qū)數(shù)據(jù)包緩存情況、平均時延作為狀態(tài)空間,協(xié)助低軌衛(wèi)星快速、智能地執(zhí)行小區(qū)波束調(diào)度、功率分配動作。進一步地,利用TL的算法特點,設置策略更新方式,加快DQN算法的收斂過程并提高收斂效果。仿真結果表明,TL-DQN算法在滿足最低QoS需求的情況下能夠實現(xiàn)包平均時延最小化,也有效地提高了系統(tǒng)的吞吐量。

        猜你喜歡
        系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
        半沸制皂系統(tǒng)(下)
        FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        一德系統(tǒng) 德行天下
        PLC在多段調(diào)速系統(tǒng)中的應用
        夫妇交换性三中文字幕 | 综合图区亚洲另类偷窥| 99久久免费国产精品| 亚洲视频毛片| 亚洲国产成人aⅴ毛片大全| 最新天堂一区二区三区| 国产精品亚洲片在线观看不卡| 国产婷婷一区二区三区| 国产精品高潮av有码久久| 久久亚洲综合亚洲综合| 一区二区三区内射美女毛片| 射死你天天日| 亚洲欧洲一区二区三区波多野| 蜜桃传媒免费观看视频| 无码人妻精品一区二区三区蜜桃| 亚洲男人的天堂在线播放| 在线观看av国产自拍| 日本高清在线播放一区二区| 国产成人无码a在线观看不卡| 国产午夜亚洲精品午夜鲁丝片| 亚洲男人堂色偷偷一区| 亚洲精品国产成人久久av盗摄| 色欲欲www成人网站| 广东少妇大战黑人34厘米视频| 国产午夜精品久久久久| 久久免费亚洲免费视频| 久久婷婷人人澡人人爽人人爱| 日日人人爽人人爽人人片av| 日本在线播放不卡免费一区二区| 看日本全黄色免费a级| 欧美金发尤物大战黑人| 2021年最新久久久视精品爱| 国产黄色一级大片一区二区| 国产在热线精品视频| 国产一区日韩二区欧美三区| 日韩成人精品一区二区三区| 不卡一区二区视频日本| 狠狠噜天天噜日日噜视频麻豆| 久久精品国产亚洲Av无码偷窍| 日本高清不卡二区三区| 亚洲av国产av综合av卡|