唐一強(qiáng),楊霄鵬,肖 楠,朱圣銘
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安,710077)
衛(wèi)星通信以其特殊的優(yōu)勢,已經(jīng)成為移動通信領(lǐng)域中不可替代的重要部分,其主要的特點如下[1]:通信容量大,最高支持超過300 Gbps的容量;通信范圍廣,理論上只需3顆地球同步軌道衛(wèi)星(GEO)就可以覆蓋除南北極以外的全球區(qū)域;能夠?qū)崿F(xiàn)“動中通”,支持包括空中飛行器、陸地移動設(shè)備和海上移動設(shè)施的移動中不間斷通信;業(yè)務(wù)種類豐富,涵蓋了語音、圖像、視頻等多業(yè)務(wù)的移動通信。
與此同時,不斷增長的用戶業(yè)務(wù)對衛(wèi)星通信的要求越來越高,傳統(tǒng)的衛(wèi)星通信技術(shù)已經(jīng)不能滿足業(yè)務(wù)增長的需求。多波束天線[2]是解決這個問題的重要方法[2]。多波束天線使用衛(wèi)星蜂窩通信,利用多個具有高增益的點波束實現(xiàn)目標(biāo)區(qū)域的通信,從而提升系統(tǒng)的頻帶和容量資源。但是,地球上的終端用戶往往分布是不均勻的,這會造成衛(wèi)星各個波束之間的業(yè)務(wù)量差別很大,信道資源的需求不盡相同。因此,必須對衛(wèi)星信道資源進(jìn)行合理的調(diào)度,以提高衛(wèi)星通信系統(tǒng)的性能。目前使用最廣泛的信道資源管理主要包括固定信道分配(FCA)、混合信道分配(HCA)和動態(tài)信道分配(DCA)[3]。
在固定信道分配方式中,即使在波束中沒有用戶使用信道資源,其他的波束用戶也不能使用該信道資源,這不僅造成信道資源的浪費,同時會增加網(wǎng)絡(luò)擁塞,降低網(wǎng)絡(luò)吞吐量?;旌闲诺婪峙浞桨赣晒潭ㄐ诺婪峙浜挽`活信道分配兩部分組成,但是固定信道分配占比很大,導(dǎo)致信道資源利用率往往較低。在動態(tài)信道分配方案中,會充分考慮用戶的業(yè)務(wù)需求、信道增益和業(yè)務(wù)擁塞等影響因素,避免同頻干擾和波束間共信道干擾(co-channel interference, CCI)的影響,允許各波束任意選擇可用的信道,可以在保證用戶業(yè)務(wù)質(zhì)量的前提下最大化信道資源利用效率[4]。
文獻(xiàn)[5]提出了一種結(jié)合終端的地理位置信息為用戶實時地分配資源的融合波束覆蓋信道動態(tài)分配算法(fusion beam coverage-dynamic channel allocation algorithm ,F(xiàn)BC-DCA),結(jié)果表明該算法對于帶寬利用率有一定的提升。文獻(xiàn)[6]分析了以最大化容量為目標(biāo)的資源自適應(yīng)動態(tài)分配算法,結(jié)果顯示該算法比較適合非對稱的通信需求。文獻(xiàn)[7]提出基于多終端和多業(yè)務(wù)優(yōu)先級的動態(tài)信道分配算法,算法根據(jù)不同終端和不同業(yè)務(wù)級別分配信道,結(jié)果表明該算法能較好地提升滿意度。文獻(xiàn)[8]提出一種為多類型呼叫、多類型業(yè)務(wù)和多類型終端的動態(tài)信道預(yù)留策略,結(jié)合遺傳與粒子群混合算法動態(tài)求解最佳的預(yù)留信道閾值分布,仿真表明算法能夠較好地為高等級用戶提供滿意的服務(wù)質(zhì)量。文獻(xiàn)[9]結(jié)合用戶的運動狀態(tài),對用戶的預(yù)測軌跡上擇取抽樣點,把這些點的平均干擾選為動態(tài)信道分配的指標(biāo),仿真結(jié)果得出該策略能將用戶的平均信噪比提升大約0.5 dB。
通過對上述關(guān)于DCA算法研究現(xiàn)狀的分析可知,目前DCA算法更多地關(guān)注單一獨立時刻的信道分配,忽略了當(dāng)前時刻的信道分配會對之后的信道資源產(chǎn)生影響,即信道分配具有時域相關(guān)性,這就造成了信道資源使用不夠充分和阻塞率高的問題。深度強(qiáng)化學(xué)習(xí)能夠有效解決具有時域相關(guān)性的序列決策問題[10],因此本文提出一種基于深度強(qiáng)化學(xué)習(xí)的動態(tài)衛(wèi)星信道分配算法DRL-DCA,將衛(wèi)星和環(huán)境交互建模為馬爾科夫決策過程,通過環(huán)境的反饋提升衛(wèi)星的決策能力。
強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)是指一類從(與)環(huán)境交互中不斷學(xué)習(xí)的問題以及解決這類問題的方法,包含智能體和環(huán)境2個可以交互的對象。
智能體(agent)可以感知外界環(huán)境的狀態(tài)(state)和反饋的獎勵(reward),并進(jìn)行學(xué)習(xí)和決策。環(huán)境(environment)是智能體外部的所有事物,并受智能體動作的影響改變其狀態(tài),并反饋給智能體相應(yīng)的獎勵。如圖1所示,智能體的決策功能是根據(jù)外界環(huán)境的狀態(tài)來做出不同的動作(action),而學(xué)習(xí)功能是根據(jù)外界環(huán)境的獎勵來調(diào)整策略。
圖1 智能體與環(huán)境的交互
深度強(qiáng)化學(xué)習(xí)則是利用深度學(xué)習(xí)的強(qiáng)大感知能力來定義問題和優(yōu)化目標(biāo),利用強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力來解決策略和值函數(shù)的建模問題[4]。
智能體每一個動作并不能直接得到監(jiān)督信息,需要通過整個模型的最終監(jiān)督信息(獎勵)得到,智能體在當(dāng)前狀態(tài)下的工作不會立刻被評判,需要在下一個狀態(tài)時獲得獎勵或懲罰[11]。這種算法是用不斷試錯的學(xué)習(xí)方式得到最優(yōu)的策略,可使得決策持續(xù)獲得收益。在本文研究的模型中,我們將深度強(qiáng)化學(xué)習(xí)建模為一組馬爾科夫決策過程(Markov decision process,MDP)。
本文將衛(wèi)星建模為智能體,地面用戶業(yè)務(wù)量建模為環(huán)境,衛(wèi)星獲得的收益值通過最優(yōu)化目標(biāo)函數(shù)對信道分配作出決策。具體而言,衛(wèi)星在時刻t通過對用戶和業(yè)務(wù)的觀測獲得狀態(tài)St∈S的抽象表達(dá),接著衛(wèi)星根據(jù)優(yōu)化策略選擇執(zhí)行動作at∈A(st),以概率pQ(st+1|st,at)進(jìn)入下一個狀態(tài),與此同時獲得收益rt+1,由獎勵信號對動作策略進(jìn)一步優(yōu)化更新,使智能體的收益最大化。
在本文的衛(wèi)星多波束間動態(tài)信道分配問題中,考慮衛(wèi)星在地面的多波束為n∈{n|n=1,2,…,N}。衛(wèi)星通信帶寬Btot被平均分成M個信道,每個信道的帶寬為Bav=Btot/M,衛(wèi)星的可用信道數(shù)目為m∈{m|m=1,2,…,M},地面用戶總數(shù)為K個,即時通信的用戶數(shù)目k∈{k|k=1,2,…,K}。在這個系統(tǒng)中,每個用戶終端u得到的信道資源分配用wu表示,wu=[wu,1,wu,2,…,wu,m]T,其中wu,m表示用戶u在第m個信道上的增益。由此可已得到整個通信系統(tǒng)為所有即時用戶分配信道的增益矩陣為W=[w1,w2,…,wu],W∈RM×K。在下行鏈路上,衛(wèi)星發(fā)送給用戶u的衛(wèi)星信號為:su=[su,1,su,2,…,su,m]T,其中su,m表示衛(wèi)星在第m個信道上發(fā)送給用戶u的信號。從衛(wèi)星到用戶終端的總衰減記為:L={li,j|1≤i,j≤K},L由自由空間路徑損耗A、發(fā)射衛(wèi)星天線增益Gs和用戶端天線增益Gu構(gòu)成。其中:
A=diag{a1,a2,…,ak};Gs={gk,n|1≤k≤K,1≤n≤N};Gu=diag{g1,g2,…,gk};L=A·Gu·Gs·XT。其中X表示用戶u在最大信號接入準(zhǔn)則的約束下選擇波束接入的接入矩陣:
(1)
式中:xu,n=1表示用戶u接入波束n,否則表示用戶沒有接入波束n。在用戶終端u接收到的信號為:
(2)
式中:?表示哈達(dá)瑪積,最右式中第1項是用戶的有用信號,第2項是共信道干擾,第3項是噪聲。
下面計算用戶信干噪比。首先,定義一個以信道為基的資源分配矩陣D=WT,D∈RM×K,記為Dm=[dm,1,dm,2,…,dm,k]T,每一項表示衛(wèi)星在信道m(xù)上的發(fā)射功率。由式(3)~(4)可知用戶在各個信道上的有用信號功率Pu和共信道干擾功率Iu。
Pu=|lu,u|2diag{wu}[diag{wu}]H
(3)
(4)
式中:gu=[lu,1,lu,2,…,lu,k]|(lu,k=0)。由此可得干擾信號和噪聲的和為:
Pnu=Iu+|σk|2EM
(5)
式中:EM表示M階單位陣。由香農(nóng)容量公式進(jìn)一步推知用戶u在資源分配下的理想可達(dá)速率為:
(6)
為了達(dá)到通信要求,可達(dá)速率不能低于某一個閾值,通常此閾值設(shè)為Cth,只有當(dāng)Cu≥Cth時,用戶u才能正常通信,否則用戶u將會掉話或阻塞。當(dāng)用戶有新的業(yè)務(wù)請求時,衛(wèi)星系統(tǒng)查看目前是否存在可使用的信道資源,如果此時存在信道資源可供使用,衛(wèi)星系統(tǒng)將會按照分配策略進(jìn)行信道分配。衛(wèi)星系統(tǒng)判斷波束是否存在閑置的信道資源,主要從以下幾個方面進(jìn)行決策[12]:星上功率是否達(dá)到飽和狀態(tài)、單個波束的功率是否達(dá)到飽和以及此次的信道分配是否會損害已分配用戶的服務(wù)。為便于反映性能,定義一個性能指標(biāo)Ψt,以此來表示新的業(yè)務(wù)請求是否被阻塞。
(7)
在此,定義以波束為基的資源分配矩陣B=[b1,b2,…,bn],每一項表示波束在對應(yīng)的信道上的發(fā)射信號幅值大小。由此可推知衛(wèi)星信道分配優(yōu)化所有的約束條件為:
(8)
(9)
Cu≥Cth,?u∈Ut
(10)
(11)
式中:Pall表示衛(wèi)星的最大發(fā)射功率;Pb表示單個波束的最大功率;Ut表示當(dāng)前時刻新請求的用戶的信息。式(11)表示各個信道上發(fā)射的功率相同,并且單個用戶只允許分配一個信道。
在上述的約束條件下,要達(dá)到的最優(yōu)化目標(biāo)可用式(12)表示:
(12)
在此模型中我們用最小化阻塞率來衡量信道分配優(yōu)劣[13-14],阻塞概率計算公式為:
Pfail=Ublock/Uarrival
(13)
式中:Ublock表示當(dāng)前時刻被阻塞的用戶數(shù)目,Uarrival表示當(dāng)前時刻達(dá)到衛(wèi)星通信系統(tǒng)總的用戶數(shù)目。
如圖2所示,我們將衛(wèi)星終端建模為智能體,把用戶業(yè)務(wù)量和信道占用狀態(tài)建模為環(huán)境,在智能體與環(huán)境交互的過程中使智能體的收益最大。智能體與環(huán)境的交互過程是一組馬爾科夫決策過程:衛(wèi)星根據(jù)對用戶的觀測獲得當(dāng)前的狀態(tài)St,接著衛(wèi)星按照優(yōu)化目標(biāo)策略執(zhí)行動作at,在環(huán)境改變時以概率p(st+1|st,at)轉(zhuǎn)為狀態(tài)St+1,從環(huán)境中獲得收益rt+1。
Q-learning是深度強(qiáng)化學(xué)習(xí)中一種非常經(jīng)典的算法,該算法根據(jù)系統(tǒng)的狀態(tài)-動作值函數(shù)Q(s,a)進(jìn)行不斷地迭代更新,根據(jù)收益r評估選擇接下來的動作的同時優(yōu)化Q函數(shù)[15-16]。系統(tǒng)迭代公式為:
Q(s,a)←Q(s,a)+
α[r+γmaxa′Q(s′,a′)-Q(s,a)]
(14)
式中:α為學(xué)習(xí)速率;γ為折扣因子??梢钥闯靓猎酱髣tQ值迭代后保留之前的效果越少;γ越大,長期的回報對當(dāng)前時刻的影響就越大。
如圖2所示,在信道業(yè)務(wù)請求時刻,衛(wèi)星根據(jù)當(dāng)前的環(huán)境得到環(huán)境收益,經(jīng)驗池中的數(shù)目達(dá)到一定的量值后,每一次的訓(xùn)練過程都會從池中隨機(jī)的選擇一批數(shù)據(jù),并與目標(biāo)網(wǎng)絡(luò)中的Q′一起對Q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,改變Q值函數(shù),完成衛(wèi)星通信系統(tǒng)信道資源的靈活分配。
圖2 衛(wèi)星系統(tǒng)信道分配模型
為便于研究,將衛(wèi)星與環(huán)境的交互看做是離散的時間序列。如圖3所示,衛(wèi)星從感知到的初始環(huán)境S0開始,然后決定做出一個相應(yīng)的動作a0,環(huán)境相應(yīng)地發(fā)生改變到新的狀態(tài)S1,并反饋給智能體一個即時的獎勵r1,然后智能體又根據(jù)新的狀態(tài)S1作出下一個動作a1,環(huán)境改變?yōu)镾2,反饋獎勵r2,交互一直進(jìn)行下去。
圖3 馬爾科夫決策過程
馬爾科夫決策過程在馬爾科夫過程中加了一個額外的變量:動作a,下一個時刻的狀態(tài)St+1取決于當(dāng)前的狀態(tài)St和動作at。
p(st+1st,at,st+2st,at,s0,a0)=p(st+1|st,at)
(15)
式中:p(st+1|st,at)為狀態(tài)轉(zhuǎn)移概率。
當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)時,交互過程就結(jié)束了,這一輪過程被稱作一個回合(episode)或?qū)嶒?trial)。為了應(yīng)對環(huán)境中沒有終止?fàn)顟B(tài)的情況發(fā)生,引入一個折扣回報來降低遠(yuǎn)期回報的權(quán)重[17],其定義為:
(16)
式中:γ∈[0,1]是折扣率。當(dāng)γ接近于0時,智能體更關(guān)注短期的回報;當(dāng)γ接近于1時,長期回報成為智能體考慮的重點。
3.2.1 狀態(tài)空間設(shè)計
所有即時用戶分配信道的增益矩陣Wt=[w1,w2,…,wu],即時通信的用戶數(shù)目kt∈{k|k=1,2,…,K},當(dāng)前時刻新請求的用戶的信息Ut。文中的狀態(tài)空間表示為:
st=F(Wt,Kt,Ut)
(17)
式中:F表示函數(shù)映射關(guān)系。為避免和抑制同頻干擾,相鄰的小區(qū)不能使用同一信道。波束n對信道的占用情況hup可以表示為:
(18)
當(dāng)前時刻的波束無可用信道資源時或者所有用戶均有信道資源時,整個系統(tǒng)達(dá)到終止?fàn)顟B(tài)。系統(tǒng)沒有達(dá)到終止?fàn)顟B(tài)時,衛(wèi)星將繼續(xù)根據(jù)當(dāng)前時刻的可用信道資源進(jìn)行動態(tài)的信道選取分配。
3.2.2 動作空間設(shè)計
衛(wèi)星根據(jù)所處的環(huán)境和Q網(wǎng)絡(luò),動作依照概率ε選擇最大狀態(tài)-動作值Q函數(shù)去執(zhí)行。首先確定狀態(tài)St下的可執(zhí)行動作集合A(St),在本文的場景下,A(St)?M,即可執(zhí)行動作是可用信道的子集。由此可得出動作at的表達(dá)式為:
at={(n,m)|n∈N,m∈A(St)}
(19)
動作at是在波束n和狀態(tài)St下可用的信道集合之中,為其分配信道資源m。當(dāng)前時刻不存在可用信道時,可用信道為空,表示為A(St)=?,這個時候的業(yè)務(wù)將會被阻塞無法正常進(jìn)行通信。
3.2.3 收益空間設(shè)計
收益是衛(wèi)星與環(huán)境交互過程中的回饋,一方面是對執(zhí)行動作后的評價,另一方面也是信道資源分配的性能優(yōu)劣的評估。在最優(yōu)信道分配中,我們的目的在于降低阻塞發(fā)生的次數(shù),提高服務(wù)的效率。所以,在文中設(shè)計收益與阻塞率呈負(fù)相關(guān),收益為0時表示完全不能通信,所有的業(yè)務(wù)請求均被阻塞。用公式表示為:
r=Rmax(1-Ublock/Uarrival)
(20)
式中:Rmax表示最大的獎賞值,Rmax>0。從式中我們可以看到,衛(wèi)星通信系統(tǒng)的阻塞率越低,獲得的收益就越大,通信系統(tǒng)的總體性能就越好。
基于3.2節(jié)中所述的空間設(shè)計,本文基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星信道分配算法的實現(xiàn)過程如下:
輸入:狀態(tài)空間S,動作空間A(S),γ,學(xué)習(xí)速率α,更新間隔G,初始探索概率εinit;1初始化經(jīng)驗池和相關(guān)參數(shù),Q(S,a),W=?,B=?,Nblock=0,Narrival=0;2repeat3t=1,T個業(yè)務(wù)請求時刻;更新業(yè)務(wù)到達(dá)參數(shù)Narrival=Narrival+1和探索概率4ε=max(ε-εgap,εf)5觀測環(huán)境,得到即時獎勵r,依據(jù)MDP過程狀態(tài)定義構(gòu)建狀態(tài)St;6計算當(dāng)前的新業(yè)務(wù)波束的動作A(St);7若無信道可用,即A(St)=?,則:8更新阻塞業(yè)務(wù)參數(shù)Nblock=Nblock+1;9由式(20)獲得立即收益值r;10若有信道可以使用,則:11由式(20)獲得立即收益值r;12將St,A(St),r,到經(jīng)驗池中;13以概率ε隨機(jī)選擇動作at∈A(S);14否則,選擇最大Q函數(shù)值的信道,即at=argmaxa∈A(St)Q(S,a);15進(jìn)行信道分配,更新參數(shù)W,B;16Q網(wǎng)絡(luò)訓(xùn)練;17在經(jīng)驗池中隨機(jī)選擇一批數(shù)據(jù);
18根據(jù)式(14)對網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練;19時間每經(jīng)過G步對Q網(wǎng)絡(luò)復(fù)制到目標(biāo)網(wǎng)絡(luò);20until εf←ε21根據(jù)得到的Nblock和Narrival,計算得到Pfail=Nblock/Narrival輸出:最終策率π(S)=argmaxa∈A(St)Q(S,a)和最終的信道分配結(jié)果Wt;算法結(jié)束
在上述算法中εgap表示衰減因子,εf表示算法最終的探索概率。為了對探索和利用進(jìn)行折中,本算法采用的是ε貪婪策率(ε-greedy),隨機(jī)地以ε概率進(jìn)行動作。探索是指拋棄已經(jīng)獲得的信息,嘗試一種新的方法,避免陷入到局部最優(yōu)化,盡量實現(xiàn)全局最優(yōu);利用則是指按照獲得的信息進(jìn)行決策,充分開發(fā)歷史經(jīng)驗信息的潛力[19]。算法中線性下降,逐漸減小,最終達(dá)到εf,算法結(jié)束。
本文的仿真基于Matlab2019b實驗平臺,分別選取了不同業(yè)務(wù)量分布、不同業(yè)務(wù)到達(dá)率作為仿真場景,并與固定信道分配(FCA)、混合信道分配(HCA)和融合波束覆蓋信道動態(tài)分配算法(FBC-DCA)進(jìn)行對比。實驗結(jié)果表明,本文所提出的基于深度學(xué)習(xí)的衛(wèi)星信道動態(tài)分配算法在多種場景下具有很好的性能,所有的場景下均有較低的阻塞率。
該算法仿真中,業(yè)務(wù)達(dá)到是參數(shù)為λ的泊松分布數(shù)據(jù)流(單位:次/業(yè)務(wù)時刻),業(yè)務(wù)服務(wù)時長是μ的負(fù)指數(shù)分布(單位:業(yè)務(wù)時刻)。假定波束為37個,業(yè)務(wù)傳輸閾值Cth=500 kbps,業(yè)務(wù)到達(dá)率λ次/業(yè)務(wù)時刻,業(yè)務(wù)時長隨機(jī)變化,服務(wù)率μ固定為20個/業(yè)務(wù)時刻。在神經(jīng)網(wǎng)絡(luò)中為了減少Q(mào)網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)較大的波動,我們設(shè)定較小的學(xué)習(xí)率α=0.01。DRL-DCA算法的主要仿真參數(shù)如表1所示。
表1 DRL-DCA仿真參數(shù)表
定義以下2個性能指標(biāo),以便更好地對比算法的差別[20-21]:
吞吐量:衛(wèi)星通信系統(tǒng)中單位時間內(nèi)成功地傳輸?shù)臄?shù)據(jù)的數(shù)量,與算法的性能密切相關(guān)。
阻塞率:衛(wèi)星通信系統(tǒng)中,信道處于繁忙狀態(tài)的概率。
如圖4所示,系統(tǒng)吞吐量隨著業(yè)務(wù)到達(dá)率的增加而增大,達(dá)到一定數(shù)量值后趨于穩(wěn)定。這是因為在通信信道的數(shù)目足量時,單位時間內(nèi)到達(dá)的業(yè)務(wù)量越多,系統(tǒng)的吞吐量自然愈多。到達(dá)率超過某一數(shù)值后,由于系統(tǒng)信道數(shù)目的限制,吞吐量不再隨著到達(dá)率的增加而改變,總體上趨于一個定值。在穩(wěn)定的狀態(tài)下,DRL-DCA的穩(wěn)定吞吐量約為2.4×107bit,F(xiàn)BC-DCA算法的吞吐量約為2.2×107bit,HCA的吞吐量約為2×107bit,F(xiàn)CA的吞吐量約為1.8×107bit。DRL-DCA的吞吐量較FBC-DCA算法高出0.2×107bit,較FCA高出0.6×107bit,較HCA高出0.4×107bit。在本文的仿真條件及仿真穩(wěn)定狀態(tài)下,DRL-DCA的吞吐量大約是FBC-DCA的1.1倍,是HCA的1.2倍,是FCA的1.3倍。仿真結(jié)果表明,本文所提出的DRL-DCA算法能夠有效地提升系統(tǒng)吞吐量,改善通信質(zhì)量。
圖4 3種算法的吞吐量比較
下面討論本文提出的DRL-DCA算法對于不同業(yè)務(wù)分布的通信性能。圖5展示了用戶具有不同的業(yè)務(wù)量的阻塞率,圖6展示了用戶不同業(yè)務(wù)量需求條件下的平均到達(dá)率下的阻塞率??梢钥闯觯ㄐ诺淖枞孰S著到達(dá)率的增加而增大。按照排隊論知識,在到達(dá)率小于服務(wù)率μ(20次/時刻)時,衛(wèi)星信道夠及時處理到達(dá)的業(yè)務(wù)。但當(dāng)?shù)竭_(dá)率超過系統(tǒng)的服務(wù)率μ時,業(yè)務(wù)就需要排隊等待處理,系統(tǒng)阻塞率就隨之增加。從圖5與圖6的對比中可以發(fā)現(xiàn),用戶具有相同業(yè)務(wù)量的通信阻塞率要低于不同業(yè)務(wù)量的阻塞率,這也證實了目前不同業(yè)務(wù)量條件下通信的嚴(yán)峻形勢。在較大到達(dá)率時,本文提出的DRL-DCA算法在阻塞率性能上均低于另外3種算法的阻塞率。
圖5 用戶不同業(yè)務(wù)量的阻塞率
圖6 用戶平均業(yè)務(wù)量的阻塞率
圖7展示了DRL-DCA算法的收斂性變化趨勢。以λ=100次/時刻作為算法的收斂性分析的仿真場景。從圖中可以看出,在前2 500步內(nèi)算法的性能沒有明顯的改善,這主要是因為經(jīng)驗池中必須滿足一定的經(jīng)驗數(shù)量時,才會按照信道分配的經(jīng)驗對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在訓(xùn)練中,網(wǎng)絡(luò)迅速優(yōu)化,大約在3 000步時算法性能趨于穩(wěn)定。在多波束衛(wèi)星的實際運行中,系統(tǒng)將會產(chǎn)生眾多的經(jīng)驗條目,這些條目會有助于算法的訓(xùn)練[21],系統(tǒng)也將能夠在短時間內(nèi)收斂。
圖7 DRL-DCA算法的收斂性分析
本文在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,以Q-learning算法為思路進(jìn)行衛(wèi)星信道的動態(tài)分配,詳細(xì)地分析了算法的實現(xiàn)流程,并在仿真參數(shù)的設(shè)定下對本文所提出的算法進(jìn)行了實驗仿真,最后通過Matlab2019b仿真得出結(jié)果,對本文的算法進(jìn)行佐證。
仿真結(jié)果表明,本文提出的DRL-DCA算法能夠有效地提升衛(wèi)星通信系統(tǒng)的吞吐量,能夠在較大業(yè)務(wù)量的情況下,提升系統(tǒng)的吞吐量,降低系統(tǒng)的阻塞率,提升用戶的使用體驗。通過對比4種算法,我們發(fā)現(xiàn)不同的業(yè)務(wù)量將會對系統(tǒng)的通信質(zhì)量產(chǎn)生重大影響,不同的算法表現(xiàn)出較大的性能差異??傮w上來說,本文提出的DRL-DCA算法能夠達(dá)到較低的阻塞概率和較高的吞吐量,多波束衛(wèi)星通信的性能有了實質(zhì)性的提高。