唐斯琪, 潘志松,*, 胡谷雨, 吳 煬, 李云波
(1. 陸軍工程大學(xué)指揮控制工程學(xué)院, 江蘇 南京 210007; 2. 北京信息通信技術(shù)研究中心, 北京 100036)
天基信息網(wǎng)絡(luò)(space information network,SIN)是全覆蓋、高速率、高可靠的未來6G網(wǎng)絡(luò)的重要組成部分。未來SIN的特點(diǎn)可歸納為[1]:① 網(wǎng)絡(luò)規(guī)模日趨龐大,包含大規(guī)模多層衛(wèi)星節(jié)點(diǎn)和異構(gòu)終端;② 環(huán)境動態(tài)多變,信道條件、網(wǎng)絡(luò)拓?fù)浜吞旎?jié)點(diǎn)狀態(tài)等因素動態(tài)變化;③ 業(yè)務(wù)需求多樣。隨著天基物聯(lián)網(wǎng)的發(fā)展,SIN業(yè)務(wù)日益多樣化,這意味著業(yè)務(wù)需求、優(yōu)先級、用戶偏好的多樣化。
上述特點(diǎn)給基于人工經(jīng)驗(yàn)建模并通過優(yōu)化、博弈論或元啟發(fā)式方法求解的傳統(tǒng)SIN方法帶來如下挑戰(zhàn):① 傳統(tǒng)方法大多建立在準(zhǔn)確已知模型的基礎(chǔ)上,但未來的SIN復(fù)雜異構(gòu),難以精確了解網(wǎng)絡(luò)細(xì)節(jié),確定性建模的誤差大;② 傳統(tǒng)方法需假設(shè)系統(tǒng)是靜態(tài)的,因此在動態(tài)環(huán)境中需不斷重復(fù)建模與優(yōu)化過程;③ 異構(gòu)的節(jié)點(diǎn)、多樣的需求導(dǎo)致SIN中的優(yōu)化問題通常是復(fù)雜且非凸的,傳統(tǒng)方法往往需要迭代計算,代價較高且時效性較差。
上述難點(diǎn)使研究者將目光投向數(shù)據(jù)驅(qū)動的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法[2]。在SIN領(lǐng)域中應(yīng)用DRL具有以下優(yōu)勢:① 不需已知準(zhǔn)確定義的SIN模型,而是能通過與環(huán)境的交互優(yōu)化控制策略;② 不局限于靜態(tài)的某一時刻,而是能夠優(yōu)化序列決策的長期收益,更適合衛(wèi)星生命周期內(nèi)的在線決策問題;③ 基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從環(huán)境特征到策略的映射,相比需迭代求解的優(yōu)化方法更具實(shí)時性;④ 可通過反饋感知環(huán)境變化,并隨之調(diào)整策略,更適合動態(tài)變化的SIN環(huán)境。
由于具備以上優(yōu)勢,引入DRL方法已成為智能SIN的重要發(fā)展趨勢,具有廣闊研究前景。本文旨在對DRL在SIN中的研究現(xiàn)狀、應(yīng)用思路和技術(shù)挑戰(zhàn)展開研究。首先梳理了應(yīng)用于SIN領(lǐng)域的主流DRL方法,并回顧了DRL應(yīng)用于資源分配、跳波束、計算卸載與緩存、路由、切換和網(wǎng)絡(luò)選擇領(lǐng)域的研究現(xiàn)狀,對現(xiàn)有研究工作介紹了其天基網(wǎng)絡(luò)場景、針對的問題和DRL方法的具體機(jī)制。在此基礎(chǔ)上,以星地網(wǎng)絡(luò)中繼選擇為例,說明DRL方法的設(shè)計思路,并通過仿真結(jié)果深入剖析現(xiàn)有基于DRL的方法對網(wǎng)絡(luò)性能的優(yōu)化效果與存在的問題。隨后,分析了DRL方法的局限性及將其應(yīng)用于SIN領(lǐng)域所面臨的挑戰(zhàn)。最后,歸納總結(jié)了DRL領(lǐng)域目前的研究熱點(diǎn),指出其可能解決的SIN應(yīng)用中的難題,并討論了未來可能的研究方向,希望能為學(xué)者和工程師在SIN領(lǐng)域應(yīng)用DRL方法提供研究思路。
本節(jié)梳理了SIN領(lǐng)域常用的DRL方法,并簡要介紹了其特點(diǎn)。SIN中常用的DRL方法及其分類如圖1所示。其中,深度Q網(wǎng)絡(luò)(deep Q network,DQN)是一種經(jīng)典的基于值函數(shù)的DRL方法,在SIN現(xiàn)有研究中應(yīng)用最為廣泛。但其局限性在于僅支持離散的動作空間,無法處理功率控制等連續(xù)動作空間問題。深度確定性梯度(deep deterministic policy gradient, DDPG)算法是一種常見的基于策略梯度的DRL方法,其優(yōu)勢在于具備處理連續(xù)決策變量的能力,且針對SIN中的高維動作空間問題,可將高維離散動作轉(zhuǎn)化為連續(xù)變量,并利用DDPG方法進(jìn)行決策。上述兩種常用的DRL方法都屬于集中式方法,而多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL),特別是多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning, MADRL),是一種分布式方法,可令大規(guī)模SIN的邊緣節(jié)點(diǎn)具備智能決策能力,避免集中式控制帶來的通信和時延代價。但此類方法收斂穩(wěn)定性相對較差,保證收斂效果的關(guān)鍵在于合理設(shè)計各智能體之間的通信和協(xié)作機(jī)制。
圖1 SIN中常用的DRL方法分類Fig.1 Taxonomy of common DRL methods in SIN
本節(jié)首先介紹了DRL方法應(yīng)用于SIN的整體框架,隨后從各類資源的優(yōu)化調(diào)度和網(wǎng)絡(luò)組織兩方面介紹了此領(lǐng)域的研究進(jìn)展,具體分為資源分配、跳波束、計算卸載與緩存、路由選擇、衛(wèi)星切換和接入選擇。最后,總結(jié)了現(xiàn)有研究工作,并進(jìn)一步歸納了SIN中DRL方法的設(shè)計思路。
將DRL方法應(yīng)用于解決SIN中的序列決策問題時,通常將待解決的問題建模為馬爾可夫決策過程(Markov decision process, MDP),其重點(diǎn)包含6個元素:智能體、環(huán)境、動作空間A、狀態(tài)空間S、即時收益r和策略π,如圖2所示。
DRL方法的學(xué)習(xí)過程可簡要描述如下:在時間t,首先,智能體根據(jù)狀態(tài)空間S,觀察環(huán)境得到當(dāng)前的狀態(tài)特征st,狀態(tài)空間S應(yīng)包含此問題相關(guān)的信息,例如信道質(zhì)量、衛(wèi)星節(jié)點(diǎn)狀態(tài)、用戶設(shè)備位置與傳輸需求,以及所需服務(wù)質(zhì)量(quality of service, QoS)等。隨后,智能體從動作空間A中依據(jù)策略π將狀態(tài)特征st映射為動作at,得到資源分配、路由或切換問題的決策結(jié)果。最后,環(huán)境狀態(tài)st依據(jù)轉(zhuǎn)移概率p轉(zhuǎn)移至新狀態(tài)st+1,并將即時收益rt反饋給智能體,智能體利用經(jīng)驗(yàn){st,at,rt,st+1}訓(xùn)練神經(jīng)網(wǎng)絡(luò)表征的策略π。
圖2 基于DRL的SIN方法框架圖Fig.2 Framework of DRL-based SIN methods
資源受限是包括衛(wèi)星網(wǎng)絡(luò)在內(nèi)的無線通信網(wǎng)絡(luò)面臨的關(guān)鍵挑戰(zhàn)。優(yōu)化頻譜、功率等資源分配方案一直是SIN的研究熱點(diǎn)。DRL應(yīng)用于資源分配領(lǐng)域,通常采用已分配資源、用戶需求、信道質(zhì)量等信息構(gòu)成狀態(tài)空間S,將可能的資源分配方案作為動作空間A,將吞吐量、能量利用率等優(yōu)化目標(biāo)作為即時收益r,學(xué)習(xí)最優(yōu)分配策略為π。
頻譜資源是衛(wèi)星網(wǎng)絡(luò)中最寶貴的資源之一。按照復(fù)用體制,頻譜資源分配可分為時分復(fù)用中的時隙分配和頻分復(fù)用中的信道分配。
時隙分配在已有研究中通常被建模為整數(shù)規(guī)劃并轉(zhuǎn)化為裝包問題進(jìn)行求解。文獻(xiàn)[3]指出,此類整數(shù)規(guī)劃求解思路難以在復(fù)雜動態(tài)環(huán)境中調(diào)整決策并優(yōu)化長期收益,因此提出一種基于DQN的多目標(biāo)時隙分配方法。以頻譜效率、能量效率和用戶業(yè)務(wù)滿意度指數(shù)的加權(quán)作為即時收益r,提高了系統(tǒng)的綜合性能。但此方法僅能為用戶分配單個時隙,而難以進(jìn)行多時隙聚合分配。
針對頻分復(fù)用體制中的信道分配問題,文獻(xiàn)[4]采用已經(jīng)分配的信道與其對應(yīng)地理位置為狀態(tài)s,將各個信道作為動作空間A,并通過求解Q網(wǎng)絡(luò)得到最優(yōu)策略π。文獻(xiàn)[4]指出,迭代的元啟發(fā)式資源分配算法[5]因計算復(fù)雜度高而難以保證實(shí)時性,且忽略了在線信道分配問題的序列性,因此提出了基于DQN的多波束地球靜止軌道(geostationary orbit, GEO)衛(wèi)星信道在線分配方法。在此基礎(chǔ)上,文獻(xiàn)[6]提出了低軌道(low earth orbit,LEO)衛(wèi)星物聯(lián)網(wǎng)場景下的信道資源分配方法。首先,提出了一種基于滑動塊的感知方法,以應(yīng)對LEO星座的移動性;其次,針對LEO衛(wèi)星能量受限問題,提出了考慮能量利用率的信道分配方法,采用與文獻(xiàn)[4]類似的狀態(tài)表示方法和網(wǎng)絡(luò)結(jié)構(gòu),利用能量利用率改進(jìn)DQN的即時收益r,將能耗降低了65%以上。但此方法并未考慮LEO衛(wèi)星切換對用戶信道分配方案的影響。
不同于文獻(xiàn)[4,6]主要研究用戶的信道分配問題,文獻(xiàn)[7]關(guān)注各波束帶寬分配問題,考慮到多波束GEO衛(wèi)星的各個波束傳輸需求不均衡且存在動態(tài)變化的問題,提出了一種基于MARL的帶寬分配算法。將每個波束視為一個智能體,感知本波束的傳輸需求,并將其作為狀態(tài)s,并通過各智能體間的協(xié)作學(xué)習(xí)到各波束協(xié)同頻譜分配策略π。仿真實(shí)驗(yàn)表明,此方法能使波束數(shù)據(jù)傳輸能力更符合動態(tài)流量需求,且時間復(fù)雜度更低。
星上功率資源受限于衛(wèi)星太陽能電池板的容量,因此如何高效利用有限功率是SIN中的關(guān)鍵問題。基于DRL的功率分配方法往往通過感知鏈路狀態(tài)、干擾情況、用戶流量需求,為各波束和用戶確定恰當(dāng)?shù)陌l(fā)送功率。文獻(xiàn)[8]利用DDPG方法感知各個波束緩沖區(qū)內(nèi)的數(shù)據(jù)量,并將其作為狀態(tài)s,將發(fā)送功率作為動作a,在滿足用戶需求的條件下有效降低了功耗。然而,此方法的DRL動作空間與波束個數(shù)成正比,因此為保障DRL收斂,較適合于小規(guī)模波束的衛(wèi)星場景。文獻(xiàn)[9]比較了基于遺傳算法、模擬退火、粒子群、粒子群-遺傳混合方法和DRL的GEO衛(wèi)星動態(tài)功率分配方法在時間收斂性、連續(xù)可操作性、可擴(kuò)展性和魯棒性等方面的性能。
為解決衛(wèi)星的鏈路配置問題,通常將用戶流量需求和信道環(huán)境作為狀態(tài)空間S,將需配置的傳輸鏈路的通信參數(shù),包括調(diào)制方案、編碼速率、帶寬等,作為動作空間A。傳統(tǒng)方法通?;诮?jīng)驗(yàn)規(guī)則或建模優(yōu)化得到固定配置,難以應(yīng)對動態(tài)變化的復(fù)雜SIN環(huán)境。針對此問題,文獻(xiàn)[10]提出基于集成DQN的多目標(biāo)鏈路資源配置認(rèn)知模塊,將最大化吞吐量、最小化誤碼率和功耗、保持帶寬穩(wěn)定等多個優(yōu)化目標(biāo)對應(yīng)的指標(biāo)加權(quán)作為即時收益r,優(yōu)化鏈路資源參數(shù)配置策略π,并進(jìn)一步將此認(rèn)知模塊部署于實(shí)際GEO衛(wèi)星進(jìn)行測試,實(shí)測結(jié)果表明其有效提高了GEO衛(wèi)星系統(tǒng)在不同天氣狀態(tài)下的傳輸性能。
綜上所述,基于DRL的資源分配方法可感知動態(tài)信道環(huán)境、可用資源和用戶流量需求,并收集這些信息作為狀態(tài)空間,利用空分復(fù)用降低同頻干擾,有效提高了頻譜和功率資源利用率。
對時分復(fù)用體制的多波束衛(wèi)星,跳波束機(jī)制使其能夠根據(jù)空間分布不均勻的流量需求,在某一時間片點(diǎn)亮部分活躍波束,提供數(shù)據(jù)傳輸服務(wù),如圖3所示。跳波束技術(shù)的關(guān)鍵是根據(jù)時變的流量動態(tài)調(diào)整,點(diǎn)亮波束集合。采用傳統(tǒng)方法求解跳波束問題多采用優(yōu)化或元啟發(fā)式方法,存在以下兩點(diǎn)不足:一是其解空間隨波束數(shù)量的增加急劇增加,易陷入局部最優(yōu);二是一旦流量分布發(fā)生變化,需重新建模并迭代求解,時效性差。
衛(wèi)星運(yùn)行過程中的跳波束決策是典型的動態(tài)環(huán)境中的序列決策問題,適合采用DRL求解。通常采用流量需求、信道質(zhì)量作為決策依據(jù)的狀態(tài)s,將各個波束是否點(diǎn)亮作為動作a。
圖3 衛(wèi)星跳波束效果圖Fig.3 Effect of satellite beam hopping
文獻(xiàn)[11]利用DQN方法進(jìn)行波束跳變決策,根據(jù)各波束緩沖區(qū)隊(duì)列長度和鏈路質(zhì)量決定每一波束是否點(diǎn)亮。文獻(xiàn)[12]考慮到實(shí)時服務(wù)需要降低時延,而非實(shí)時服務(wù)需要提高傳輸速率,在文獻(xiàn)[11]的基礎(chǔ)上改進(jìn)了即時收益r。并針對由動作空間大而導(dǎo)致的維度災(zāi)難問題,提出基于雙環(huán)學(xué)習(xí)的多行動決策方法。相比最大化最小速率和遺傳算法,基于DRL的跳波束策略使平均傳輸時延分別降低了42.12%和21.4%。
綜上所述,智能波束調(diào)度方法的優(yōu)勢在于可根據(jù)動態(tài)時變的業(yè)務(wù)需求和信道質(zhì)量進(jìn)行決策,使波束點(diǎn)亮方案所提供的傳輸速率與流量需求更趨一致。其面臨的主要問題在于隨著波束數(shù)量的增加,決策動作空間A成倍增加,對此文獻(xiàn)[12]提供了一種解決思路,但此問題尚未解決。
隨著計算任務(wù)在業(yè)務(wù)中占比的日益增加,計算卸載已成為地面網(wǎng)絡(luò)的研究熱點(diǎn)。隨著星上處理能力的日趨提高,衛(wèi)星不僅可以作為計算卸載的中繼傳輸節(jié)點(diǎn),也可部署邊緣計算服務(wù)器提供計算能力[13]?;贒RL的計算卸載問題通常將任務(wù)的所有備選計算位置作為動作空間A,以任務(wù)處理時延(包括通信時延和計算時延)為即時收益r,用于優(yōu)化決策策略π。通常組成狀態(tài)空間A的信息包括:任務(wù)的計算量、數(shù)據(jù)通信量、信道質(zhì)量和各網(wǎng)絡(luò)節(jié)點(diǎn)的通信與計算能力。
文獻(xiàn)[14]將空天地一體化的物聯(lián)網(wǎng)場景中的任務(wù)卸載問題建模為受限的MDP,利用風(fēng)險敏感的DQN,以當(dāng)前無人機(jī)位置和任務(wù)隊(duì)列作為狀態(tài)s,在能量受限條件下,決定此計算任務(wù)的處理位置。動作空間A包括在無人機(jī)本地處理、卸載到基站或是衛(wèi)星處理。利用同等能耗,將平均時延降低了35%。針對衛(wèi)星輔助車對車場景下的計算卸載、計算和通信資源分配問題,文獻(xiàn)[15]將其分解為兩個子問題:一是固定卸載決策下的計算與通信資源分配,采用拉格朗日乘子法求解;二是確定資源分配條件下的任務(wù)卸載,建模為MDP后采用DRL決定卸載位置,從而有效降低了平均時延。
緩存策略影響計算卸載效果,因此常對兩個問題進(jìn)行聯(lián)合優(yōu)化,文獻(xiàn)[16-17]關(guān)注計算卸載與緩存的聯(lián)合決策問題。文獻(xiàn)[16]提出了一種基于DRL的通信、緩存和計算資源聯(lián)合分配方法。仿真結(jié)果表明,在不同的用戶衛(wèi)星夾角、內(nèi)容大小、通信與緩存費(fèi)用條件下,所提方法均能達(dá)到更優(yōu)性能。文獻(xiàn)[17]采用DRL中的異步優(yōu)勢動作評論家(asynchronous advantage actor-critic, A3C)算法,通過觀察用戶與各衛(wèi)星相對位置、GEO數(shù)據(jù)中繼衛(wèi)星狀態(tài)、通信鏈路質(zhì)量、緩存狀態(tài)和各邊緣服務(wù)器的可用計算能力等信息作為狀態(tài)s,將接入的LEO衛(wèi)星、任務(wù)卸載的服務(wù)器、是否通過GEO衛(wèi)星中繼以及當(dāng)前請求內(nèi)容是否被緩存這4個問題的聯(lián)合決策作為動作a。此方案能有效提高單位資源的收益。
綜上所述,基于DRL的計算卸載方法能有效感知任務(wù)的計算量、數(shù)據(jù)通信量、信道質(zhì)量和各節(jié)點(diǎn)的通信與計算能力,通過對各任務(wù)進(jìn)行優(yōu)化調(diào)度,降低平均處理時延。對環(huán)境信息的收集越充分,DRL方法的性能越好。但對信息的收集意味著通信、時延代價,現(xiàn)有研究尚缺乏對此代價的討論,而僅關(guān)注算法性能的提升。此外,現(xiàn)有的智能計算卸載研究大多采用集中式控制方式,難以應(yīng)用于大規(guī)模SIN。
SIN的路由問題主要研究從發(fā)送端的接入衛(wèi)星到接收端的接入衛(wèi)星之間的傳輸路徑選擇,其過程如圖4所示。高效的衛(wèi)星路由算法應(yīng)當(dāng)對動態(tài)的網(wǎng)絡(luò)拓?fù)?、鏈路質(zhì)量、衛(wèi)星狀態(tài)和流量分布具備感知和自適應(yīng)調(diào)整能力。
圖4 衛(wèi)星路由問題示意圖Fig.4 Demonstration of satellite routing
傳統(tǒng)路由方法存在以下兩點(diǎn)不足:一方面,隨著星座規(guī)模的增加,優(yōu)化問題的解空間急劇增加,且多個目標(biāo)使優(yōu)化問題更加復(fù)雜;另一方面,傳統(tǒng)方法對時變流量的處理分為割裂的兩步:流量預(yù)測與后續(xù)的路由算法,由于預(yù)測本身存在誤差,分段式框架易導(dǎo)致誤差累積放大[18]。
在基于DRL的路由方法中,智能體通過觀察包含鏈路質(zhì)量的狀態(tài)空間S,將下一跳備選傳輸節(jié)點(diǎn)作為動作空間A,可以學(xué)習(xí)到能自適應(yīng)感知鏈路狀態(tài)并動態(tài)調(diào)整的路由策略π。文獻(xiàn)[20-21]主要利用DRL感知動態(tài)變化的鏈路帶寬、丟包率、擁塞情況等信息和時變的不均勻業(yè)務(wù)流量。文獻(xiàn)[19]提出了一種基于Double DQN的LEO衛(wèi)星網(wǎng)絡(luò)路由算法,在每個衛(wèi)星節(jié)點(diǎn)智能體感知兩跳鄰居范圍內(nèi)的鏈路狀態(tài),并決定下一跳路由。更進(jìn)一步,文獻(xiàn)[20]利用長短期記憶(long short-term memory, LSTM)網(wǎng)絡(luò)對流量和鏈路質(zhì)量的時序預(yù)測能力,提出了一種基于DDPG的軟件定義空天地一體化網(wǎng)絡(luò)路由算法。仿真結(jié)果表明,對比傳統(tǒng)方法,其能達(dá)到更低網(wǎng)絡(luò)時延和更高的吞吐量。
文獻(xiàn)[22-23]則將衛(wèi)星節(jié)點(diǎn)的運(yùn)行狀況加入狀態(tài)空間S,具體包括能量狀況和受干擾情況。針對巨型星座不考慮衛(wèi)星電池狀態(tài)的路由策略會集中消耗某些衛(wèi)星能量因而導(dǎo)致其電池壽命過早耗盡的問題,文獻(xiàn)[21]提出了一種基于DRL的能耗均勻路由算法。智能體感知由各節(jié)點(diǎn)能量狀況、當(dāng)前剩余時延等信息構(gòu)成的狀態(tài)s,并將下一跳路由作為動作a。仿真結(jié)果表明,所提算法能將端到端時延限制在所需范圍內(nèi),并有效延長了衛(wèi)星壽命。文獻(xiàn)[22]則利用DRL感知各衛(wèi)星節(jié)點(diǎn)的受干擾情況,提出了一種大規(guī)模異構(gòu)衛(wèi)星網(wǎng)絡(luò)中的智能抗干擾的路由算法。智能體通過學(xué)習(xí)歷史信息構(gòu)成的狀態(tài)s,感知受到干擾的衛(wèi)星節(jié)點(diǎn),從而獲取可選的路由路徑集合。仿真結(jié)果表明,相比傳統(tǒng)抗干擾路由算法,所提算法的路由代價更低,收斂速度更快。
綜上所述,基于DRL的智能路由方法通常將每個數(shù)據(jù)包作為智能體,利用動態(tài)變化的鏈路質(zhì)量、流量、衛(wèi)星節(jié)點(diǎn)狀態(tài)等信息構(gòu)成狀態(tài)空間S,利用歷史數(shù)據(jù)學(xué)習(xí)規(guī)律,并能根據(jù)環(huán)境的反饋進(jìn)行策略調(diào)整,從而優(yōu)化端到端時延,避開干擾和擁塞。然而現(xiàn)有方法未考慮冷啟動問題,即DRL在尚未收斂的探索階段路由決策能力差,導(dǎo)致在方法部署初期,用戶經(jīng)常面臨由路由失敗造成的數(shù)據(jù)丟包。
非靜止軌道衛(wèi)星的動態(tài)性導(dǎo)致衛(wèi)星與用戶產(chǎn)生相對運(yùn)動,因此當(dāng)衛(wèi)星無法繼續(xù)為用戶服務(wù)時,需在覆蓋此用戶的可選衛(wèi)星集合中選擇衛(wèi)星并進(jìn)行切換。圖5為切換問題示意圖,當(dāng)LEO衛(wèi)星1由于運(yùn)動無法再為用戶1服務(wù),用戶1需決定切換至LEO衛(wèi)星2或LEO衛(wèi)星3。
圖5 衛(wèi)星切換問題示意圖Fig.5 Demonstration of satellite handover
在已有傳統(tǒng)方法中,衛(wèi)星切換主要依據(jù)以下3個指標(biāo):最大服務(wù)時長[23]、最大仰角和最多可用信道資源,分別影響切換次數(shù)、服務(wù)質(zhì)量和網(wǎng)絡(luò)負(fù)載。傳統(tǒng)切換方法通常采用綜合加權(quán)進(jìn)行決策,各指標(biāo)的權(quán)值來自專家對其重要性的判斷。這種決策方法一方面缺乏客觀性,大規(guī)模異構(gòu)SIN的復(fù)雜性令專家難以歸納最優(yōu)權(quán)重;另一方面,這種決策方法對指標(biāo)的偏好在多樣動態(tài)的衛(wèi)星業(yè)務(wù)場景中會發(fā)生變化,專家歸納的固定規(guī)則難以在各時刻始終保持最優(yōu)效果。
針對上述問題,文獻(xiàn)[24]提出了一種用戶體驗(yàn)質(zhì)量(quality of experience, QoE)驅(qū)動的智能切換機(jī)制。首先,針對用戶終端高速運(yùn)動和業(yè)務(wù)分布不均衡問題,將剩余服務(wù)時間、可用信道資源和端到端時延作為切換因子,建立模型對其進(jìn)行估計,并進(jìn)一步構(gòu)成狀態(tài)空間S。隨后,利用DRL感知切換因子,進(jìn)行切換決策,并將用戶體驗(yàn)指標(biāo)作為即時收益r,優(yōu)化切換策略π。文獻(xiàn)[25]針對集中式切換控制造成的信令開銷問題,提出了基于MARL的分布式切換方法。基于各可選衛(wèi)星的剩余服務(wù)時間和負(fù)載情況構(gòu)成的狀態(tài)S,采用分布式Q學(xué)習(xí)學(xué)習(xí)切換策略π,并將是否發(fā)生切換和衛(wèi)星是否超載作為即時收益r,用于優(yōu)化策略π。這種機(jī)制避免了乒乓切換,大幅降低了平均切換次數(shù)和用戶阻塞率。
綜上所述,基于DRL的智能切換方法通常將各個衛(wèi)星的剩余服務(wù)時間、仰角和剩余資源作為環(huán)境信息,構(gòu)成狀態(tài)空間S,將所有可選衛(wèi)星的位置記為動作空間A,并根據(jù)需優(yōu)化的目標(biāo)設(shè)計即時收益r。作為動作空間有以下兩方面優(yōu)勢,一方面通過優(yōu)化長期收益,避免了乒乓切換,降低了整個通信時長內(nèi)的切換次數(shù);另一方面,不依賴專家對指標(biāo)的定義與加權(quán)權(quán)重,而是直接通過環(huán)境反饋的實(shí)際結(jié)果優(yōu)化切換策略。但已有的研究大多集中于單層LEO衛(wèi)星網(wǎng)絡(luò)中的同層橫向切換,而尚缺乏對空天地一體化多層網(wǎng)絡(luò)中橫向和縱向并存的切換問題的研究。
在未來SIN中,用戶接入網(wǎng)包含多層衛(wèi)星節(jié)點(diǎn)、無人機(jī)和地面基站等,因此終端需在異構(gòu)的網(wǎng)絡(luò)接入節(jié)點(diǎn)間進(jìn)行接入選擇,以優(yōu)化傳輸效率,其與切換問題的差異見表1所示。
表1 接入選擇與衛(wèi)星切換問題的區(qū)別
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,網(wǎng)絡(luò)結(jié)構(gòu)的日趨復(fù)雜,接入選擇問題也愈加復(fù)雜。與切換方法類似,傳統(tǒng)接入選擇方法往往基于某時刻的信號強(qiáng)度、鏈路質(zhì)量等指標(biāo)的組合加權(quán),而難以優(yōu)化動態(tài)網(wǎng)絡(luò)的長期性能?;贒RL的接入選擇方法[27]通過感知動態(tài)變化的環(huán)境信息進(jìn)行序列決策。
針對空天地一體化網(wǎng)絡(luò)接入基站選擇問題,文獻(xiàn)[26]指出,傳統(tǒng)基于信號強(qiáng)度的方法會導(dǎo)致負(fù)載不均衡和頻繁切換,因此提出一種基于DQN的智能接入選擇方法,將每個用戶節(jié)點(diǎn)作為智能體,感知各基站信號強(qiáng)度和用戶數(shù)量,并參考上一時刻連接基站和數(shù)據(jù)傳輸速率,將上述信息構(gòu)成狀態(tài)S,優(yōu)化接入基站選擇策略π,有效提高了吞吐量并減少了網(wǎng)絡(luò)切換次數(shù)。在無人機(jī)輔助中繼的低軌衛(wèi)星通信場景中,由于網(wǎng)絡(luò)拓?fù)鋭討B(tài)變化、衛(wèi)星數(shù)量繁多,文獻(xiàn)[27]利用DRL,將無人機(jī)接入選擇和飛行軌跡調(diào)整決策共同作為動作空間A,有效提高了系統(tǒng)的端到端數(shù)據(jù)傳輸速率和頻譜利用率。
基于DRL組網(wǎng)的接入選擇算法通常采用衛(wèi)星、無人機(jī)、地面基站等異構(gòu)接入點(diǎn)的狀態(tài)、業(yè)務(wù)需求和信道質(zhì)量作為狀態(tài)空間S,將可選接入網(wǎng)絡(luò)作為動作空間A,數(shù)據(jù)傳輸效果作為即時收益r,以優(yōu)化網(wǎng)絡(luò)接入策略π。其未來研究可改進(jìn)以下問題:①進(jìn)一步研究大規(guī)模節(jié)點(diǎn)接入選擇面臨的高維決策空間問題;②考慮用戶運(yùn)動性和用戶業(yè)務(wù)需求。
本節(jié)歸納了上述基于DRL的SIN方法。在SIN中利用DRL方法,研究者需要進(jìn)行以下判別:
(1) 判斷此問題是否適合利用DRL方法求解;
(2) 設(shè)計DRL方法的3個核心元素:行動空間A、狀態(tài)空間S和即時收益r。
盡管DRL在無線通信領(lǐng)域的應(yīng)用已有一定研究成果[29],但其在SIN領(lǐng)域中的應(yīng)用尚處于起步階段。針對現(xiàn)有工作中應(yīng)用DRL的研究方向,本節(jié)試圖根據(jù)其實(shí)用性的高低進(jìn)行列表排序,如表2所示。對實(shí)用性的討論主要根據(jù)DRL方法在訓(xùn)練階段和實(shí)際使用階段的計算換取策略的優(yōu)化效果,因此需要考察在SIN實(shí)際問題中是否能夠滿足DRL對計算能力的需求。同時也需要考慮算法實(shí)時性能是否能滿足應(yīng)用需要,綜合考慮應(yīng)用DRL方法是否能給此領(lǐng)域帶來收益。
表2 SIN中應(yīng)用DRL可行研究方向的實(shí)用性分析
隨后,本節(jié)總結(jié)了SIN中基于DRL的解決方案的設(shè)計思路(見圖6)。圖6概括了SIN領(lǐng)域的DRL方法常見的狀態(tài)空間S、即時收益r和動作空間A所考慮的因素。研究者需要首先分析SIN領(lǐng)域具體問題的相關(guān)影響因素、優(yōu)化目標(biāo)和決策任務(wù),隨后分別對應(yīng)設(shè)計DRL方法的狀態(tài)空間S、即時收益r和動作空間A,即可初步形成解決此問題的DRL思路。表3總結(jié)了本文介紹的現(xiàn)有研究,歸納概括了其應(yīng)用場景、針對問題、優(yōu)化目標(biāo)與采用的DRL方法。
圖6 基于DRL的SIN方法設(shè)計示意圖Fig.6 Design demonstration of DRL-based SIN methods
表3 基于DRL的SIN現(xiàn)有研究總結(jié)
對于星地網(wǎng)絡(luò)中繼節(jié)點(diǎn)選擇的已有研究,大多集中于信號強(qiáng)度、地理空間距離、信道質(zhì)量、負(fù)載等因素,將中繼節(jié)點(diǎn)選擇問題建模為針對傳輸速率、系統(tǒng)吞吐量、中斷概率、能量利用率等指標(biāo)的優(yōu)化問題,并利用優(yōu)化、博弈論等方法進(jìn)行求解。通過分析已有研究工作,可以發(fā)現(xiàn)已有的星地網(wǎng)絡(luò)中繼選擇算法面臨的挑戰(zhàn)主要包括以下幾點(diǎn)[34]:
(1) 大多數(shù)研究基于全局的信道狀態(tài)信息已知并且在較長一段時間內(nèi)穩(wěn)定的假設(shè)。但在實(shí)際系統(tǒng)中,星地之間的通信信道一方面受天氣(降雨、降雪)、開放空間干擾等因素影響較大,呈現(xiàn)動態(tài)變化的特點(diǎn),另一方面,大規(guī)模節(jié)點(diǎn)定期匯報、反饋其到衛(wèi)星和各個中繼節(jié)點(diǎn)間的信道質(zhì)量信息所需的通信開銷較大。同時,由于衛(wèi)星通信鏈路較長,反饋的信道質(zhì)量信息容易由于時延而過期。因此,在全網(wǎng)絡(luò)中定期進(jìn)行信道質(zhì)量信息的匯總、廣播,使每個設(shè)備都在明確全局實(shí)時、準(zhǔn)確的信道增益的前提下進(jìn)行中繼節(jié)點(diǎn)的選擇,這一思路在星地中繼網(wǎng)絡(luò)場景中難以實(shí)現(xiàn)。
(2) 如何高效協(xié)調(diào)大規(guī)模終端的中繼節(jié)點(diǎn)選擇。由于衛(wèi)星覆蓋范圍廣,其接入的設(shè)備具有海量性和異構(gòu)性,因此針對單個節(jié)點(diǎn)或者少量節(jié)點(diǎn)的中繼選擇算法難以協(xié)調(diào)成百上千的終端的中繼選擇控制。
針對問題(1),本章提出一種基于DRL的算法——多智能體深度強(qiáng)化學(xué)習(xí)的分布式中繼選擇(distributed deep reinforcement learning, D -DRL)算法,將終端視為智能體,將上一時刻各個終端是否滿足需求作為環(huán)境信息,構(gòu)成狀態(tài)空間S,將所有可接入的中繼節(jié)點(diǎn)作為動作空間A,將滿足QoS需求的傳輸速率作為即時收益r,優(yōu)化分布式的中繼選擇策略π。
針對問題(2),D-DRL算法忽略了智能體決策之間的相互影響。但隨著終端規(guī)模的增加,此算法中其他智能體的動作會導(dǎo)致環(huán)境不穩(wěn)定,從而造成智能體收斂效率下降。因此,本章進(jìn)一步采用平均場理論的MADRL方法,解決大規(guī)模終端中繼選擇問題。
最后,本章通過仿真實(shí)驗(yàn)討論了兩種方法對網(wǎng)絡(luò)性能的提升效果、時間效率,以及訓(xùn)練與部署開銷。
在本章中,一個衛(wèi)星物聯(lián)網(wǎng)系統(tǒng)包含一個提供衛(wèi)星互聯(lián)網(wǎng)服務(wù)的LEO衛(wèi)星系統(tǒng),N個用戶終端節(jié)點(diǎn)組成的用戶集合U={U1,…,Un,…,UN},以及M個中繼節(jié)點(diǎn)組成的中繼集合R={R1,…,Rm…,RM}。本章針對下行信道,且中繼節(jié)點(diǎn)采用放大發(fā)送機(jī)制。
根據(jù)中繼傳輸模式,將衛(wèi)星到地面終端的通信過程分為2個時隙。衛(wèi)星將信號xS(t)發(fā)送給地面中繼節(jié)點(diǎn)Rm和用戶節(jié)點(diǎn)Un,則地面節(jié)點(diǎn)處接收到的信號可以表示為
(1)
(2)
在第2個時隙中,中繼節(jié)點(diǎn)Rm將第1個時隙接收到的衛(wèi)星信號放大并發(fā)送給用戶節(jié)點(diǎn)Un,放大因子為
(3)
那么終端Un處接收到的來自中繼節(jié)點(diǎn)Rm的信號可以表示為
(4)
t時刻,終端Un處接收到的從中繼節(jié)點(diǎn)Rm放大轉(zhuǎn)發(fā)的衛(wèi)星信號信噪比可以表示為
(5)
根據(jù)香農(nóng)公式,衛(wèi)星信號經(jīng)過放大轉(zhuǎn)發(fā)機(jī)制的中繼節(jié)點(diǎn)Rm放大轉(zhuǎn)發(fā)傳輸給用戶節(jié)點(diǎn)Un可以實(shí)現(xiàn)的傳輸速率上限可表示為
(6)
(7)
系統(tǒng)中的每一個用戶都通過選擇合適的中繼節(jié)點(diǎn)使自己在滿足最低QoS需求的前提下,獲得更大的傳輸速率。因此每個用戶需要滿足其最低的QoS需求,即:
(8)
系統(tǒng)吞吐量為
(9)
本文所研究的中繼節(jié)點(diǎn)選擇問題可以建模為如下優(yōu)化問題:
其中,第1項(xiàng)約束表示任何一個用戶都只能接入一個中繼節(jié)點(diǎn);第2項(xiàng)約束中Pmax表示中繼節(jié)點(diǎn)最高可用功率,表示任何中繼節(jié)點(diǎn)消耗的功率不能超過其最高功率限制;第3項(xiàng)約束表示用戶的傳輸速率需要達(dá)到其最低QoS要求。
在星地網(wǎng)絡(luò)中繼選擇場景中,下一時刻系統(tǒng)的狀態(tài)只與當(dāng)前系統(tǒng)狀態(tài)和各個終端節(jié)點(diǎn)的中繼選擇決策有關(guān),與之前所有時刻的狀態(tài)都沒有關(guān)系,符合MDP的定義。將每個終端視為一個智能體,其關(guān)鍵因素,包括動作空間Ai,狀態(tài)空間Si和即時收益Ri,定義如下。
3.2.1 動作空間
每個終端可以在系統(tǒng)中存在的M個中繼節(jié)點(diǎn)中選擇一個進(jìn)行接入,因此動作空間(即可選的動作集合)為
Ai={1,2,…,M}
(10)
3.2.2 狀態(tài)空間
每個衛(wèi)星物聯(lián)網(wǎng)用戶的狀態(tài)向量包含其觀察到的與中繼節(jié)點(diǎn)選擇決策相關(guān)的環(huán)境信息。在本章中,用戶節(jié)點(diǎn)i在t時刻用來進(jìn)行中繼選擇決策的環(huán)境信息可以表示為:
(11)
(1)t-1時刻所選擇的中繼節(jié)點(diǎn)。
(12)
(2)t-1時刻各終端QoS需求滿足情況
為了降低通信代價,僅僅用一個01變量Qsi表示上一時刻節(jié)點(diǎn)i傳輸速率是否滿足QoS需求的情況:
(13)
3.2.3 即時收益
對第i個智能體,其即時收益可以定義為
(14)
DUn為節(jié)點(diǎn)滿足QoS需求的最低數(shù)據(jù)傳輸速率,如果QoS需求無法被滿足,即時收益為0。
采用一種簡單直接的MADRL方法,即每個智能體采用獨(dú)立的DQN算法[35],將其他智能體視為環(huán)境的一部分。智能體利用環(huán)境交互反饋得到的即時收益,通過下式迭代更新表征Q值的神經(jīng)網(wǎng)絡(luò)參數(shù)。
(15)
在基于獨(dú)立學(xué)習(xí)的MADRL方法中,每個智能體的環(huán)境不僅僅由其自身動作決定,也受其他智能體動作影響,因此環(huán)境的不穩(wěn)定會造成學(xué)習(xí)效果的降低。
針對此問題,本文提出一種基于平均場的多智能體深度強(qiáng)化學(xué)習(xí)(mean-field multi-agent deep reinforcement learning, MF-MADRL)算法,其核心思想是將大規(guī)模智能體間的相互作用轉(zhuǎn)化為某個智能體與鄰居之間的平均作用,從而僅使用雙邊交互將Q值函數(shù)進(jìn)行分解,即:
(16)
其中,N(i)為智能體i的鄰居。分解后,大幅降低了聯(lián)合動作a的維度,并且保持了物聯(lián)網(wǎng)終端的兩兩交互。
(17)
根據(jù)文獻(xiàn)[36],各個智能體兩兩相互作用的Q值函數(shù)Qi(s,a)可以進(jìn)一步簡化為
(18)
即對于每個智能體i,其與其他每個智能體的相互作用可以近似化簡為i與一個虛擬智能體的相互作用,虛擬智能體代表了所有鄰居智能體的平均作用。
(19)
(20)
由于DRL方法在訓(xùn)練階段需要大量訓(xùn)練數(shù)據(jù)對策略進(jìn)行迭代,因此需要付出計算能力和訓(xùn)練時間作為代價。通常采用的方法是在虛擬環(huán)境中訓(xùn)練模型,將訓(xùn)練好的模型部署到真實(shí)場景中。這種機(jī)制有助于避免真實(shí)場景中智能體由于探索造成的長時間低質(zhì)量決策,但也面臨訓(xùn)練環(huán)境與真實(shí)環(huán)境數(shù)據(jù)分布不一致的問題。
為解決此問題,本章提出了一種簡潔的基于遷移學(xué)習(xí)的部署方案,利用少量真實(shí)環(huán)境中的迭代訓(xùn)練,將模型從虛擬環(huán)境的源域高效遷移到真實(shí)場景的目標(biāo)域。其具體機(jī)制如算法1所示。
算法1 MF-MADRL算法的部署機(jī)制1. 在服務(wù)器中基于歷史數(shù)據(jù)構(gòu)建仿真場景,包括狀態(tài)空間包含的信息;2. 在虛擬場景中訓(xùn)練Q值網(wǎng)絡(luò)參數(shù)θ,至收斂;3. For終端節(jié)點(diǎn)U1, U2,…,UN:復(fù)制參數(shù)θ,初始化自身Q值網(wǎng)絡(luò);將前2層神經(jīng)元參數(shù)固定,只調(diào)整后2層神經(jīng)元參數(shù),至網(wǎng)絡(luò)收斂得到參數(shù) θ′n。
此部署方法基于微調(diào)機(jī)制,一方面固定前2層神經(jīng)元參數(shù),降低真實(shí)環(huán)境中收斂所需的訓(xùn)練步數(shù),一方面通過訓(xùn)練后2層神經(jīng)元使智能體從仿真環(huán)境的源域有效遷移至真實(shí)環(huán)境的目標(biāo)域,以適應(yīng)真實(shí)環(huán)境的數(shù)據(jù)分布。
仿真環(huán)境中,兩種能力不同的中繼節(jié)點(diǎn)分別為4個和9個,節(jié)點(diǎn)隨機(jī)分布,且發(fā)送功率分別為35 dbm和30 dbm。衛(wèi)星軌道高度為780 km,發(fā)射功率為50 dbm。地面終端不均勻地分布在仿真環(huán)境中,其QoS需求隨機(jī)分布在[80 kbps,100 kbps]范圍內(nèi)。為進(jìn)一步比較基于DRL的方法對網(wǎng)絡(luò)性能的優(yōu)化效果,并且分析其時效性,本節(jié)在節(jié)點(diǎn)數(shù)量為30和120的情況下分別利用遺傳(genetic algorithm,GA)算法和最大接收功率(maximum received power, MRP)方法與本章所提出的兩種基于MADRL的方法(D-DRL和MF-MADRL)進(jìn)行對比。
首先在終端數(shù)量為120的場景下進(jìn)行仿真,分析所提的兩種基于MADRL的方法的收斂性。如圖7所示,基于最簡單MADRL機(jī)制的D-DRL方法收斂效果較差,在500回合后,每個回合達(dá)到滿足各個終端傳輸需求的迭代步數(shù)均為180次左右,而MF-MADRL則可以在60回合后有效降低每回合所需要的訓(xùn)練次數(shù)。依據(jù)100回合后的模型,每次遇到環(huán)境發(fā)生變化,只需迭代訓(xùn)練30次左右,就可以滿足所有終端的傳輸需求。
圖7 兩種DRL方法滿足所有終端速率要求所需的訓(xùn)練步數(shù)Fig.7 Number of iterations needed by two DRL methods for satisfying terminal’s requirements
表4對比了兩種傳統(tǒng)方法和兩種基于MADRL的方法在不同節(jié)點(diǎn)規(guī)模情況下的吞吐量和運(yùn)算效率。
表4 各方法性能和可行性對比
通過觀察表4可以發(fā)現(xiàn),GA方法較適合終端數(shù)量較少的場景,而在大規(guī)模終端場景中,其難以求解?;贒RL的中繼選擇算法D-DRL和MF-MADRL能有效優(yōu)化網(wǎng)絡(luò)性能,在大規(guī)模終端場景下,相比MRP機(jī)制,能將系統(tǒng)吞吐量分別提高10.05%和26.90%。而MF-MADRL算法對系統(tǒng)性能的提升明顯優(yōu)于D-DRL算法,其原因主要在于考慮到了終端之間的相互作用,因而協(xié)同效果更好。
進(jìn)一步對方法的可用性進(jìn)行分析,主要包括時間效率和計算開銷。表4中的運(yùn)算時間分析表明,基于MADRL的兩種方法D-DRL和MF-MADRL采用終端分布式?jīng)Q策,因此其時間效率不因終端數(shù)量的增加而降低。兩種方法的運(yùn)算時間為算法從開始訓(xùn)練到收斂所需所有迭代步數(shù)的整體訓(xùn)練時間,兩者的整體訓(xùn)練時間都顯著低于GA方法。在大規(guī)模場景下,平均場機(jī)制將MADRL算法的訓(xùn)練所需時間降低了85.14%,有效提高了算法的收斂效率。主要原因在于D-DRL方法沒能考慮到智能體之間的交互,而是將其他智能體視為環(huán)境的一部分,因此其他智能體的決策會造成環(huán)境的不穩(wěn)定,影響DRL方法收斂。
為降低部署過程中的計算開銷,第3.5節(jié)提出了基于遷移學(xué)習(xí)的部署機(jī)制。本節(jié)對其效果進(jìn)行了仿真評估,如圖8所示,各個智能體若從頭開始訓(xùn)練,需要至少400步迭代才能初步收斂,但當(dāng)環(huán)境變化時,采用所提部署機(jī)制,僅需要200步訓(xùn)練就能實(shí)現(xiàn)在新環(huán)境中的收斂,從而將部署到新環(huán)境所需的計算資源和時間開銷降低至50%。
圖8 遷移機(jī)制MF-MADRL算法收斂效果的提升Fig.8 Improvement of convergence efficiency by transfer mechanism MF-MADRL algorithm
盡管DRL作為一種智能方法在SIN中展現(xiàn)了廣闊的應(yīng)用前景,但其特點(diǎn)決定其不可能適用于所有SIN領(lǐng)域內(nèi)的問題。本節(jié)主要討論DRL在SIN中的應(yīng)用局限性與面臨的挑戰(zhàn)。
從方法本身的特點(diǎn)出發(fā),DRL方法只能解決MDP問題,即有馬爾可夫性的序列決策問題,可以通過圖7判斷SIN中的其他領(lǐng)域是否可以嘗試DRL方法,并通過表2分析使用DRL方法的代價,以及是否可以在實(shí)際系統(tǒng)中帶來足夠的收益。
如圖9所示,首先非決策類問題無法用DRL方法優(yōu)化,例如信道估計[37]、性能分析[38]、異常數(shù)據(jù)流檢測[39]和天線設(shè)計[40]問題。其次,不需要多次決策的問題無法建模為MDP,無法利用DRL進(jìn)行序列決策,例如衛(wèi)星地球站選址、衛(wèi)星天線設(shè)計等問題,這類問題只能決策一次。且DRL方法的優(yōu)勢在于對序列決策問題能有效優(yōu)化長期收益,因而不適合只進(jìn)行一次決策的問題。再次,對于沒有明確指標(biāo)反饋以判斷策略優(yōu)劣的問題,例如網(wǎng)絡(luò)運(yùn)行狀態(tài)評估問題,DRL無法解決。最后,需要對環(huán)境是否變化進(jìn)行判斷,對于靜態(tài)問題,DRL方法難以表現(xiàn)出超過優(yōu)化等方法的優(yōu)勢。
圖9 DRL步驟是否可在SIN中應(yīng)用的判斷流程Fig.9 Flowchart to decide whether DRL procedure can be applied in SIN research fields
除上述DRL方法根本無法應(yīng)用的領(lǐng)域,DRL方法還面臨計算資源、數(shù)據(jù)一致性和維度災(zāi)難等挑戰(zhàn),本章將其進(jìn)行整理歸納。
雖然DRL方法在一定程度上對SIN領(lǐng)域的相關(guān)決策問題進(jìn)行了優(yōu)化,但其代價是訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò)過程中的計算開銷,與隨之帶來的能量開銷。
與地面基站不同,受太空輻射和電池容量的制約,星上計算能力和能量資源寶貴,這制約了DRL方法在星上的廣泛部署使用。
高維動作空間的DRL方法收斂不穩(wěn)定問題給其在SIN領(lǐng)域的應(yīng)用帶來了挑戰(zhàn)。SIN問題中往往存在相互耦合的多個需要決策的問題,例如多維資源的聯(lián)合分配、任務(wù)卸載與網(wǎng)絡(luò)接入選擇的聯(lián)合決策等,其決策空間往往比人工智能領(lǐng)域的通用強(qiáng)化學(xué)習(xí)所需處理的更大。基于DRL的SIN方法現(xiàn)有研究直接將通用DRL方法引入而并未針對此高維動作空間問題進(jìn)行改進(jìn),導(dǎo)致方法難以穩(wěn)定收斂。
現(xiàn)有方法通常在仿真環(huán)境中對DRL方法進(jìn)行訓(xùn)練,通過仿真環(huán)境產(chǎn)生的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。相比真實(shí)太空環(huán)境,仿真環(huán)境中模擬數(shù)據(jù)的生成通?;诤喕P汀W鳛橐环N數(shù)據(jù)驅(qū)動的方法,DRL方法主要依靠對環(huán)境狀態(tài)的觀察進(jìn)行決策。因此,真實(shí)環(huán)境與仿真環(huán)境中數(shù)據(jù)分布的差異往往會導(dǎo)致在仿真環(huán)境中訓(xùn)練收斂的DRL方法在實(shí)際部署中出現(xiàn)效果退化。仿真環(huán)境與實(shí)際環(huán)境之間的差異是DRL在SIN中進(jìn)一步應(yīng)用所面臨的挑戰(zhàn)。
雖然DRL方法作為一種數(shù)據(jù)驅(qū)動的方法,不需要基于專家經(jīng)驗(yàn)對環(huán)境進(jìn)行精確建模,但DRL方法的狀態(tài)特征、即時收益、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)往往需要人工選擇設(shè)計,且不同機(jī)制直接影響DRL方法對網(wǎng)絡(luò)狀態(tài)的感知效果和方法收斂能力,進(jìn)而影響DRL方法的優(yōu)化效果。因此,對狀態(tài)特征的選取、對即時收益和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計和對訓(xùn)練參數(shù)的選擇還需較有經(jīng)驗(yàn)的研究人員完成。在大規(guī)模SIN中,節(jié)點(diǎn)數(shù)量的增加使上述工作量急劇增加,給DRL方法的大范圍應(yīng)用帶來挑戰(zhàn)。
SIN往往面臨多個互相沖突的復(fù)雜優(yōu)化目標(biāo)或約束,例如時延、吞吐量、可靠性、功率利用率、頻譜利用率和業(yè)務(wù)QoS需求等?,F(xiàn)有基于DRL的SIN方法往往采用直接加權(quán)方法處理多個優(yōu)化目標(biāo),采用對即時收益的懲罰處理約束,過于簡單直接,影響了DRL方法的優(yōu)化效果。復(fù)雜的優(yōu)化目標(biāo)和約束是SIN中問題的核心難點(diǎn),也是進(jìn)一步提高DRL方法效果面臨的挑戰(zhàn)。
SIN長時延和動態(tài)連接的特點(diǎn)給DRL方法的狀態(tài)數(shù)據(jù)收集帶來挑戰(zhàn)。與地面通信系統(tǒng)相比,天基網(wǎng)絡(luò)中頻繁的切換和動態(tài)的拓?fù)鋵?dǎo)致智能體通過回傳鏈路、額外通信等方式得到的環(huán)境信息或反饋信息,可能存在丟包、由超時導(dǎo)致的信息丟失現(xiàn)象;同時鏈路時延較長導(dǎo)致收集到的信息也面臨過期問題。DRL方法依賴收集到的數(shù)據(jù)感知環(huán)境狀態(tài),因此缺失、過期和不準(zhǔn)確的狀態(tài)信息數(shù)據(jù)會使DRL方法難以有效決策。
在未來大規(guī)模異構(gòu)系統(tǒng)中,DRL方法的控制機(jī)制選擇是一大挑戰(zhàn)。集中式的DRL方法能有效收斂,不易陷入局部最優(yōu),且更能保證資源分配和路由等策略在整個系統(tǒng)中的優(yōu)化效果。但在大規(guī)模異構(gòu)系統(tǒng)中,集中式控制需付出通信和時延代價,且可拓展性差。與之相比,分布式DRL算法的優(yōu)勢在于可以使邊緣設(shè)備具備本地智能決策能力,時效性更好,且不增加核心網(wǎng)通信負(fù)擔(dān);節(jié)點(diǎn)新增或節(jié)點(diǎn)離開系統(tǒng)并不需要更新算法,可拓展性強(qiáng)。其缺點(diǎn)在于智能體僅能觀察到部分環(huán)境信息,因而容易陷入次優(yōu)解,且收斂過程不夠穩(wěn)定。因此,DRL方法在未來大規(guī)模SIN中的應(yīng)用面臨在集中式和分布式控制之間進(jìn)行選擇或找到平衡的挑戰(zhàn)。
不同于凸優(yōu)化、博弈論等較為成熟的方法,DRL類方法屬于人工智能的新興研究領(lǐng)域,其在經(jīng)典方法的基礎(chǔ)上還在不斷發(fā)展完善。本章簡要介紹了DRL方法的前沿進(jìn)展[41-42],有助于研究者有效利用其解決SIN中面臨的挑戰(zhàn)。
由于較多中、英文綜述已介紹了DRL方法和其近期進(jìn)展,本章將重點(diǎn)集中于前沿DRL方法在SIN中的應(yīng)用思路。
現(xiàn)有的經(jīng)典DRL方法往往采用人工設(shè)定的即時收益。然而,一旦獎勵功能設(shè)計不當(dāng),就會對DRL的效果產(chǎn)生巨大影響。逆強(qiáng)化學(xué)習(xí)[43]從觀察到的專家示例中學(xué)習(xí)適當(dāng)?shù)莫剟詈瘮?shù)。此方法適用于存在可以模仿的歷史決策記錄的應(yīng)用問題。
在SIN中,利用模仿學(xué)習(xí)是實(shí)現(xiàn)領(lǐng)域歷史記錄利用的可行途徑。在SIN領(lǐng)域中,存在珍貴有效的領(lǐng)域知識,例如經(jīng)過時間檢驗(yàn)效果較好的決策軌跡。僅僅采用數(shù)據(jù)驅(qū)動的DRL方法無法利用這部分領(lǐng)域知識,而是花費(fèi)大量計算資源和時間從大規(guī)模樣本中學(xué)習(xí)策略。借助模仿學(xué)習(xí),可以利用歷史決策記錄指導(dǎo)智能體的學(xué)習(xí)。
此外,現(xiàn)有經(jīng)典的DRL方法難以解決網(wǎng)絡(luò)運(yùn)維管理中的大部分問題,例如故障判斷與解決,原因不僅在于其中蘊(yùn)含大量運(yùn)維領(lǐng)域的專家知識,也在于其即時收益很難由人工設(shè)定。采用模仿學(xué)習(xí)來應(yīng)對此難題是一種值得嘗試的思路。
學(xué)習(xí)效率低是強(qiáng)化學(xué)習(xí)面臨的一大難題,往往需要數(shù)萬個訓(xùn)練樣本才能有效收斂。針對這一問題,遷移強(qiáng)化學(xué)習(xí)[44]提出根據(jù)先前的任務(wù)獲取有用的知識,來解決新的任務(wù),從而使智能體在一個新的目標(biāo)域環(huán)境中,僅利用源域的學(xué)習(xí)成果,使用少量可用數(shù)據(jù)快速學(xué)習(xí)到最優(yōu)策略。
遷移強(qiáng)化學(xué)習(xí)能降低智能體面對新環(huán)境的訓(xùn)練效率。將其應(yīng)用于SIN中,有助于解決仿真環(huán)境和真實(shí)環(huán)境之間數(shù)據(jù)分布差異的問題,在大規(guī)模節(jié)點(diǎn)的分布式?jīng)Q策機(jī)制中,可以在仿真環(huán)境中訓(xùn)練一個基礎(chǔ)神經(jīng)網(wǎng)絡(luò),將基礎(chǔ)神經(jīng)網(wǎng)絡(luò)分發(fā)給各個節(jié)點(diǎn)(衛(wèi)星或者終端)后,利用遷移學(xué)習(xí)使基礎(chǔ)神經(jīng)網(wǎng)絡(luò)高效適應(yīng)需部署的本地環(huán)境。
元強(qiáng)化學(xué)習(xí)[45]是遷移強(qiáng)化學(xué)習(xí)的一類,其目標(biāo)在于通過學(xué)習(xí)如何高效學(xué)習(xí)策略這一元知識,而在面對新任務(wù)或新環(huán)境時,具有較強(qiáng)泛化能力,能利用少量樣本快速學(xué)習(xí)。
與遷移強(qiáng)化學(xué)習(xí)類似,元強(qiáng)化能有效解決DRL方法在SIN中應(yīng)用面臨的仿真環(huán)境與真實(shí)環(huán)境的差異問題。其更進(jìn)一步的優(yōu)勢在于,若有多個任務(wù)都采用DRL方法進(jìn)行決策,例如終端需要進(jìn)行接入選擇、任務(wù)卸載、信道選擇和發(fā)送功率控制,可以通過元強(qiáng)化學(xué)習(xí)抽取這些相似任務(wù)背后的共同模式,即歸納偏置終端面臨的類似任務(wù),例如LEO衛(wèi)星在進(jìn)行切換決策時,可以重用這一歸納偏置,而不需從頭學(xué)習(xí)。
分層強(qiáng)化學(xué)習(xí)[46]的核心思路是將復(fù)雜問題抽象為不同層級,從而將復(fù)雜問題分解為子問題,分別進(jìn)行解決,適合解決大規(guī)模復(fù)雜問題。高級別智能體主要關(guān)注高層目標(biāo)是否達(dá)成,而低級別智能體則更關(guān)注精細(xì)的決策問題。
此方法已經(jīng)被應(yīng)用于無線通信領(lǐng)域,文獻(xiàn)[47]利用分層強(qiáng)化學(xué)習(xí)將中繼選擇和功率分配分解為兩個分層優(yōu)化目標(biāo),并在不同的層次上進(jìn)行訓(xùn)練,避免了由聯(lián)合決策造成的高維動作空間導(dǎo)致的DRL方法難以收斂的問題。
在SIN中,也面臨相互耦合的決策變量導(dǎo)致的高維動作空間問題。例如LEO衛(wèi)星在切換時同時面臨切換衛(wèi)星選擇與信道選擇問題,現(xiàn)有方法往往將其視為兩個獨(dú)立問題分布求解,但割裂兩個問題是次優(yōu)解決方案,其實(shí)質(zhì)是分層決策問題,可以采用此思路將聯(lián)合決策分解為多步,通過分層強(qiáng)化學(xué)習(xí)應(yīng)對各個層次決策的收益稀疏問題。
對比DRL方法,MARL由于考慮了智能體之間的合作或競爭作用,對于分布式控制系統(tǒng)具有重要意義。目前此領(lǐng)域的研究熱點(diǎn)集中于信息通信機(jī)制、信度分配和與博弈理論的結(jié)合。
MARL方法已被應(yīng)用于包括SIN在內(nèi)的無線通信領(lǐng)域中。針對大規(guī)模異構(gòu)且通信時延長的SIN集中式控制導(dǎo)致的通信代價高、難以實(shí)時控制的問題,在進(jìn)一步研究中,需要關(guān)注分布式的MARL方法與博弈論和聯(lián)邦學(xué)習(xí)的結(jié)合。研究智能體之間的通信、協(xié)作和競爭機(jī)制,使智能體獨(dú)立觀察本地環(huán)境信息并進(jìn)行決策,避免由傳輸環(huán)境信息導(dǎo)致的帶寬消耗,提高決策時效性。同時,由于信息感知在網(wǎng)絡(luò)邊緣進(jìn)行,不回傳至運(yùn)營商數(shù)據(jù)中心,可實(shí)現(xiàn)一定程度的用戶隱私保護(hù)。
更進(jìn)一步,可深入研究分布式與集中式強(qiáng)化學(xué)習(xí)結(jié)合的控制框架,利用集中式強(qiáng)化學(xué)習(xí)控制核心網(wǎng),利用分布式的MARL控制邊緣接入網(wǎng)絡(luò)。
經(jīng)典的DRL方法大多適用于相對簡單直接的計算機(jī)領(lǐng)域問題,將其應(yīng)用于SIN實(shí)際問題中,面臨高維決策空間、復(fù)雜約束和互相矛盾的多個優(yōu)化目標(biāo)等難點(diǎn),需要在DRL方法的改進(jìn)上進(jìn)行研究,使其適應(yīng)SIN實(shí)際問題。文獻(xiàn)[14]采用風(fēng)險敏感的DRL方法處理時延約束,對改進(jìn)約束處理方式進(jìn)行了初步探索,但此問題還有待深入研究。
針對多決策變量的SIN問題中,由DRL動作空間過大導(dǎo)致的難以收斂的問題,一種可行的研究思路是采用層次強(qiáng)化學(xué)習(xí)方法,將SIN中的多個決策問題按照領(lǐng)域知識進(jìn)行邏輯分層,通過分層強(qiáng)化機(jī)制降低動作空間維度,提高收斂效果。
針對多個互相矛盾的優(yōu)化目標(biāo),在未來動態(tài)的SIN中,不同應(yīng)用、不同網(wǎng)絡(luò)環(huán)境,對目標(biāo)偏好是動態(tài)可變的,因此需要同時學(xué)習(xí)動態(tài)偏好和適應(yīng)這一動態(tài)偏好的多目標(biāo)DRL策略[48],針對此領(lǐng)域有待進(jìn)一步研究。
現(xiàn)有基于DRL的SIN方法往往關(guān)注對各指標(biāo)優(yōu)化效果的提升,而未考慮方法實(shí)際部署中面臨的問題。實(shí)際部署問題可歸納如下:① 星上稀缺的計算資源與DRL方法訓(xùn)練代價之間的矛盾;② 訓(xùn)練環(huán)境與實(shí)際部署環(huán)境之間的數(shù)據(jù)分布差異;③ 在大規(guī)模節(jié)點(diǎn)中分別訓(xùn)練獨(dú)立模型,所消耗的計算資源較多;④ 面對由衛(wèi)星較長生命周期內(nèi)的環(huán)境變化導(dǎo)致的模型過時,需考慮如何對模型進(jìn)行更新。
上述在實(shí)際部署中面臨的問題需要進(jìn)一步進(jìn)行研究。其可行思路是結(jié)合遷移學(xué)習(xí)、在線學(xué)習(xí)等機(jī)制,付出較少的迭代時間和計算代價,使在地面仿真環(huán)境訓(xùn)練的DRL模型迅速適應(yīng)星上部署環(huán)境、各個節(jié)點(diǎn)面臨的不同環(huán)境和變化后的環(huán)境,從而實(shí)現(xiàn)DRL中策略網(wǎng)絡(luò)參數(shù)根據(jù)環(huán)境變化的自適應(yīng)調(diào)整與更新,進(jìn)一步降低運(yùn)維人員手動從頭訓(xùn)練或手動調(diào)整DRL方法的工作量,同時節(jié)約了計算資源。
基于遷移學(xué)習(xí)的思路將地面仿真環(huán)境中的數(shù)據(jù)視為源域,將真實(shí)數(shù)據(jù)視為目標(biāo)域?;谠从蚝湍繕?biāo)域的相似性,在仿真環(huán)境中訓(xùn)練收斂的神經(jīng)網(wǎng)絡(luò)參數(shù)對需要解決的問題已經(jīng)有了較好的認(rèn)識和決策能力,因此部署上星之后,通過少量訓(xùn)練步數(shù)的遷移,即可以有效解決具有不同數(shù)據(jù)分布的真實(shí)場景決策問題。
針對DRL方法在SIN中面臨的環(huán)境信息數(shù)據(jù)缺失、數(shù)據(jù)噪音和數(shù)據(jù)分布偏差挑戰(zhàn),結(jié)合其他機(jī)器學(xué)習(xí)方法對環(huán)境數(shù)據(jù)進(jìn)行預(yù)處理,值得深入研究。針對數(shù)據(jù)缺失問題,可以采用矩陣補(bǔ)全對缺失的信道質(zhì)量數(shù)據(jù)進(jìn)行補(bǔ)全,或利用循環(huán)神經(jīng)網(wǎng)絡(luò)[49]等方法對缺失的時序數(shù)據(jù)進(jìn)行估計;針對數(shù)據(jù)噪聲問題,可以利用主成分分析等數(shù)據(jù)投影方法在降維的同時對數(shù)據(jù)進(jìn)行降噪;針對仿真數(shù)據(jù)與真實(shí)數(shù)據(jù)存在的分布偏差,針對系統(tǒng)部署運(yùn)行前真實(shí)數(shù)據(jù)積累量過少的問題,可以采用對抗生成網(wǎng)絡(luò)[50]降低仿真數(shù)據(jù)與真實(shí)數(shù)據(jù)分布之間的偏差,生成與真實(shí)數(shù)據(jù)同分布的仿真數(shù)據(jù),輔助DRL的訓(xùn)練。
SIN的拓?fù)鋭討B(tài)變化,并在連續(xù)時間片內(nèi)構(gòu)成規(guī)律的時空動態(tài)圖,因此SIN問題中的網(wǎng)絡(luò)流量、節(jié)點(diǎn)狀態(tài)和剩余資源等要素往往具有時空規(guī)律,這些規(guī)律和知識蘊(yùn)含在SIN數(shù)據(jù)中?,F(xiàn)有方法大多對每個時間片內(nèi)的問題進(jìn)行割裂分析,而忽略了問題的時序特性和空間規(guī)律。如何挖掘并利用SIN中的時空規(guī)律進(jìn)行決策,是將DRL方法應(yīng)用于SIN時值得深入研究的方向。
對具有動態(tài)圖關(guān)系的各衛(wèi)星和用戶節(jié)點(diǎn)深入挖掘時空規(guī)律的可行研究思路之一是圖神經(jīng)網(wǎng)絡(luò)[51]及其重要分支——時間圖神經(jīng)網(wǎng)絡(luò)。
未來SIN的發(fā)展方向是通信、導(dǎo)航、遙感一體化的服務(wù)系統(tǒng),從而實(shí)現(xiàn)一星多用、多星組網(wǎng),通過系統(tǒng)集成提高資源利用率和服務(wù)效率[52]。上述一體化天基信息港的核心在于對通信、導(dǎo)航和遙感任務(wù)進(jìn)行協(xié)同資源分配、任務(wù)調(diào)度。包含大規(guī)模異構(gòu)節(jié)點(diǎn)與多種任務(wù)的復(fù)雜系統(tǒng)難以準(zhǔn)確建模,因此傳統(tǒng)方法難以求解。而DRL方法依靠其學(xué)習(xí)能力可以規(guī)避精確建模問題,是解決多任務(wù)協(xié)同問題的可行思路之一。
未來大規(guī)模SIN中需對多個節(jié)點(diǎn)、多個任務(wù)訓(xùn)練DRL模型,隨著整個系統(tǒng)規(guī)模的增加,需要訓(xùn)練的DRL模型數(shù)量成倍甚至成指數(shù)倍增長。因此,DRL的自動調(diào)參技術(shù)對其在實(shí)際應(yīng)用中降低運(yùn)維人員手動調(diào)參的工作量具有重要意義。在深度學(xué)習(xí)領(lǐng)域,針對自動調(diào)參方面的研究已較為成熟并得以實(shí)際應(yīng)用,而DRL的自動調(diào)參技術(shù)處于初始階段,有待進(jìn)一步研究。
由于DRL在SIN中的應(yīng)用研究尚處于起步階段,大多數(shù)研究更關(guān)注DRL方法對系統(tǒng)性能的優(yōu)化,而沒能充分權(quán)衡可用性與方法性能。
可用性一方面指星上資源能否滿足方法對計算能力和能量資源的需求,另一方面體現(xiàn)在方法帶來的額外通信量開銷。
針對星上資源受限問題,有以下幾種可能的解決思路:① 直接在方法設(shè)計時考慮相對淺層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),研究神經(jīng)網(wǎng)絡(luò)算法如何在嵌入式平臺上提高計算效率[53];② 利用深度學(xué)習(xí)領(lǐng)域中的知識蒸餾[54]、網(wǎng)絡(luò)結(jié)構(gòu)剪枝[55]或網(wǎng)絡(luò)參數(shù)量化等方法,降低DRL中深度神經(jīng)網(wǎng)絡(luò)的計算量,因而節(jié)省能量消耗;③ 將遷移學(xué)習(xí)結(jié)合仿真環(huán)境訓(xùn)練機(jī)制,降低模型部署過程中所需要的訓(xùn)練開銷;④ 更加關(guān)注分布式的MARL,將切換、資源分配、計算卸載、網(wǎng)絡(luò)接入等決策問題從衛(wèi)星集中式控制框架轉(zhuǎn)換為用戶自組織智能化決策框架,DRL方法部署在運(yùn)算能力較強(qiáng)的地面終端,做出決策后,衛(wèi)星只需要簡單地判斷是否可以對其服務(wù)即可。
針對額外通信開銷問題,由于DRL方法基于對環(huán)境的觀察進(jìn)行決策,因此對周圍通信信息的收集往往有助于提升決策效果,但收集信息(例如信道質(zhì)量信息)往往帶來了額外的開銷,因此在設(shè)計DRL狀態(tài)空間時需要考慮額外通信開銷和性能提升之間的權(quán)衡。目前僅有少數(shù)工作考慮到了此通信代價問題。
新興的DRL方法是應(yīng)對未來SIN大規(guī)模、異構(gòu)和動態(tài)難點(diǎn)的可行思路之一,其在SIN領(lǐng)域的應(yīng)用方興未艾,有廣闊研究前景。尚未有工作對DRL方法在SIN領(lǐng)域的應(yīng)用進(jìn)行充分總結(jié)與深入討論。為填補(bǔ)此研究空白,本文對DRL方法在SIN中的優(yōu)勢、應(yīng)用思路、研究現(xiàn)狀和挑戰(zhàn)進(jìn)行了全面綜述,內(nèi)容如下:
(1) 對DRL方法在SIN資源分配、跳波束、計算卸載與緩存、路由、衛(wèi)星切換和接入選擇領(lǐng)域的現(xiàn)有研究進(jìn)行了深入分析與總結(jié),有助于讀者了解如何設(shè)計應(yīng)用于SIN領(lǐng)域的DRL方法,并進(jìn)一步找到現(xiàn)有研究的改進(jìn)思路。
(2) 以星地網(wǎng)絡(luò)中繼選擇問題為例,提出了兩種基于DRL的算法,通過基于平均場的DRL方法解決了衛(wèi)星網(wǎng)絡(luò)問題中特有的大規(guī)模節(jié)點(diǎn)問題。仿真實(shí)驗(yàn)結(jié)果表明,結(jié)合實(shí)際問題特點(diǎn)利用改進(jìn)的DRL方法有助于進(jìn)一步提升性能,且基于微調(diào)的模型遷移機(jī)制能有效提高星上部署階段的訓(xùn)練效率,方法具有可行性。
(3) 基于研究現(xiàn)狀,總結(jié)了DRL方法的局限性和其在SIN領(lǐng)域面臨的關(guān)鍵挑戰(zhàn)。
(4) 分析了DRL領(lǐng)域的前沿?zé)狳c(diǎn)與其對SIN應(yīng)用難點(diǎn)的解決思路,并在此基礎(chǔ)上,進(jìn)一步討論了DRL方法在SIN應(yīng)用領(lǐng)域未來可能的研究方向。