李宛靜,李加洪,張 晨,劉昊鈞,張更新
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210000;2.中國空間技術(shù)研究院西安分院,西安 710000)
各通信領(lǐng)域權(quán)威標(biāo)準(zhǔn)化組織認為,引入衛(wèi)星通信網(wǎng)絡(luò)的空天地一體化網(wǎng)絡(luò)可以有效解決當(dāng)前第五代移動通信系統(tǒng)(5th generation mobile communication technology, 5G)基站覆蓋不足的問題。同時,衛(wèi)星通信網(wǎng)絡(luò)可以很好地為全球空天地全域范圍內(nèi)的用戶提供寬帶接入服務(wù)[1]。
與地球靜止軌道(geostationary earth orbit, GEO)衛(wèi)星和中地球軌道(medium earth orbit, MEO)衛(wèi)星相比,低軌(low earth orbit, LEO)衛(wèi)星具有低傳播時延、高時效性、低鏈路傳輸損耗等優(yōu)勢[2],但在低軌衛(wèi)星的發(fā)展過程中也面臨著如下挑戰(zhàn)。一方面,LEO衛(wèi)星的星上功率資源嚴(yán)重受限;另一方面,低軌衛(wèi)星的覆蓋區(qū)域不固定導(dǎo)致信道環(huán)境、用戶終端分布和業(yè)務(wù)需求情況不斷動態(tài)變化[3]。目前,大多數(shù)部署的衛(wèi)星通信系統(tǒng)在很大程度上仍依賴于人類的專業(yè)知識和人工干預(yù),這將對衛(wèi)星通信系統(tǒng)的性能造成一系列影響。首先,人為參與系統(tǒng)控制活動會導(dǎo)致高運營支出和系統(tǒng)時延[4]。其次,快速變化的無線電環(huán)境需要自主適應(yīng)機制,這是人為干預(yù)無法提供的。最后,衛(wèi)星通信服務(wù)于海量用例和場景將產(chǎn)生大量的數(shù)據(jù)。綜上,設(shè)計合理的資源調(diào)度策略以使衛(wèi)星能夠自主采取可靠的行動是有益且必要的。
為了合理利用和分配星上資源以滿足業(yè)務(wù)需求,研究人員從基于數(shù)學(xué)模型驅(qū)動的資源調(diào)度方法逐漸轉(zhuǎn)向數(shù)據(jù)驅(qū)動的資源調(diào)度方法。但上述方法存在精確度低、時效性差等問題,無法較好滿足衛(wèi)星通信低時延的要求。為了在滿足低軌衛(wèi)星通信低時延要求的同時充分發(fā)揮模型和數(shù)據(jù)驅(qū)動各自的優(yōu)勢,研究人員提出將基于理論模型和專家經(jīng)驗的領(lǐng)域知識與神經(jīng)網(wǎng)絡(luò)方法深度融合,設(shè)計數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法[5]。
本文針對數(shù)據(jù)和知識聯(lián)合驅(qū)動的低軌衛(wèi)星智能資源調(diào)度進行綜述。首先,概述數(shù)據(jù)驅(qū)動和知識驅(qū)動方法并對其特點進行分析。其次,對不同的低軌衛(wèi)星資源調(diào)度策略進行綜述,分為傳統(tǒng)數(shù)學(xué)模型驅(qū)動的低軌衛(wèi)星資源調(diào)度方法、數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源調(diào)度方法以及未來數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法。最后,對本文所提及的3種資源調(diào)度方法進行總結(jié),并展望低軌衛(wèi)星資源調(diào)度方法的未來研究方向。
從本質(zhì)上來看,數(shù)據(jù)驅(qū)動方法與知識驅(qū)動方法都源于對人類知識的總結(jié)和拓展,都是以一定的數(shù)學(xué)理論為基礎(chǔ)。雖然兩種方法都以數(shù)學(xué)理論為骨架,但仍然存在一定區(qū)別,數(shù)據(jù)驅(qū)動方法中經(jīng)驗?zāi)P偷墓δ苡蓸颖緮?shù)據(jù)決定,而知識驅(qū)動方法中則由功能和需求的特點決定機理模型的形式[6]。本節(jié)先介紹數(shù)據(jù)驅(qū)動方法,其次對知識的定義和分類進行介紹,進一步介紹知識驅(qū)動方法,最后對知識融入的途徑進行介紹。
數(shù)據(jù)驅(qū)動指通過對數(shù)據(jù)的分析和實驗驗證等手段,以事實為依據(jù)來制定決策和解決問題。數(shù)據(jù)驅(qū)動強調(diào)以事實為依據(jù),根據(jù)事實進行決策。數(shù)據(jù)驅(qū)動的實現(xiàn)過程是通過移動互聯(lián)網(wǎng)或者其他的相關(guān)軟件為手段采集海量的數(shù)據(jù),將數(shù)據(jù)進行組織形成信息,之后對相關(guān)的信息進行整合和提煉,在數(shù)據(jù)的基礎(chǔ)上經(jīng)過訓(xùn)練和擬合形成自動化的決策模型。因此,數(shù)據(jù)驅(qū)動的過程非常復(fù)雜,需要有數(shù)據(jù)和不斷的輸入,需要模型根據(jù)比對決策結(jié)果和現(xiàn)實數(shù)據(jù)把偏差信息反饋給機器學(xué)習(xí),在其后不斷的機器學(xué)習(xí)迭代過程中進行自我完善,數(shù)據(jù)驅(qū)動的流程圖如圖1所示。
圖1 數(shù)據(jù)驅(qū)動流程圖Fig.1 Data-driven flowchart
根據(jù)模型分析所使用理論工具的不同,文獻[6]將數(shù)據(jù)驅(qū)動方法分為統(tǒng)計分析方法和人工智能方法。統(tǒng)計分析方法更關(guān)注于分析樣本數(shù)據(jù)或數(shù)據(jù)集的特性,而人工智能方法更關(guān)注于構(gòu)建描述研究對象的近似模型。統(tǒng)計分析方法嚴(yán)格遵循數(shù)學(xué)推導(dǎo),相比人工智能方法有更好的解釋性,并且統(tǒng)計分析方法的性能不那么依賴于樣本數(shù)據(jù)的質(zhì)量和數(shù)量。人工智能方法雖然在可解釋性和樣本依賴性上略遜一籌,但它在發(fā)現(xiàn)輸入輸出數(shù)據(jù)間的非線性關(guān)系方面具有優(yōu)勢,并且可以在新的樣本數(shù)據(jù)產(chǎn)生時快速給出結(jié)果。
目前大多數(shù)關(guān)于數(shù)據(jù)驅(qū)動方法的研究都集中于人工智能方法,尤其是機器學(xué)習(xí)(machine learning, ML)。機器學(xué)習(xí)是人工智能的一個分支,通過利用從數(shù)據(jù)中獲得的經(jīng)驗和知識來進行計算、統(tǒng)計和預(yù)測。機器學(xué)習(xí)包括深度學(xué)習(xí)(deep learning, DL)和強化學(xué)習(xí)(reinforcement learning, RL)。深度學(xué)習(xí)允許模型在沒有明確編程的情況下根據(jù)大型數(shù)據(jù)集進行分類、預(yù)測或決策。三者與人工智能之間的關(guān)系如圖2所示[7]。此外,機器學(xué)習(xí)從訓(xùn)練方法上可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)[8]。監(jiān)督學(xué)習(xí)從標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)來解決分類或回歸問題,無監(jiān)督學(xué)習(xí)從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)來實現(xiàn)聚類或數(shù)據(jù)降維,半監(jiān)督學(xué)習(xí)算法從不完整的訓(xùn)練數(shù)據(jù)中開發(fā)數(shù)學(xué)模型,其中部分樣本輸入沒有標(biāo)簽[9]??梢詫W(xué)習(xí)和模擬人類的人工智能通常是由深度學(xué)習(xí)+強化學(xué)習(xí)實現(xiàn)的。
圖2 人工智能、機器學(xué)習(xí)、強化學(xué)習(xí)和深度學(xué)習(xí)關(guān)系圖Fig.2 Relationship graph of artificial intelligence, machine learning, reinforcement learning and deep learning
傳統(tǒng)數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)模型如圖3所示[10]。設(shè)x,y,θ分別表示神經(jīng)網(wǎng)絡(luò)的特征、數(shù)據(jù)集的標(biāo)簽和參數(shù)。對于輸入、輸出和參數(shù)的所有可能值的集合分別被稱為輸入空間X、輸出空間Y和參數(shù)空間Θ。數(shù)據(jù)驅(qū)動模型的任務(wù)是將數(shù)據(jù)集的實例從X映射到Y(jié),同時在Θ中找到全局最優(yōu)解。然而,在數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)網(wǎng)絡(luò)之間,X和Y的相關(guān)性難以捉摸,它不得不依靠龐大的數(shù)據(jù)集而不是數(shù)學(xué)模型進行優(yōu)化,這導(dǎo)致了網(wǎng)絡(luò)結(jié)構(gòu)的高復(fù)雜性和高訓(xùn)練成本。
圖3 數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)模型Fig.3 Data-driven machine learning model
雖然數(shù)據(jù)驅(qū)動方法有自身的優(yōu)勢,但該方法存在嚴(yán)重的“黑盒”問題,無法考慮問題全局特征,同時嚴(yán)重依賴歷史數(shù)據(jù)[11],這制約了其在實際系統(tǒng)上的應(yīng)用。此外,深度學(xué)習(xí)的可解釋性不足,這限制了其在無線通信系統(tǒng)等高可靠性場景中的應(yīng)用。
知識的定義為:(1)通過經(jīng)歷或教育獲得的專業(yè)知識和技能,對某一學(xué)科的理論或?qū)嵺`理解;(2)在某一特定領(lǐng)域或總體上已知的知識、事實和信息;(3)通過對事實或情況的經(jīng)驗獲得的認識或熟悉程度。根據(jù)定義,知識可以分為隱性知識和顯性知識兩種。在知識管理領(lǐng)域,隱性知識的概念是指一種只有個人知道的知識,這種知識很難與組織的其他成員交流。易于交流的知識稱為顯性知識,顯性知識是已經(jīng)或能夠被表述、編纂和存儲在特定媒介中的知識[12]。
在網(wǎng)絡(luò)領(lǐng)域,文獻[5]重新對知識進行定義,即網(wǎng)絡(luò)知識是對用戶主體、業(yè)務(wù)需求的個性化特征、演變規(guī)律等的整體描述,是對網(wǎng)絡(luò)資源調(diào)度過程中的邏輯規(guī)則、理論算法等的總結(jié)。從知識來源角度出發(fā),文獻[13]將其分為3大類:相對專業(yè)化和形式化的科學(xué)知識、日常生活中的世界知識以及更直觀的專家知識,對于3類知識,具體描述如下。
1)科學(xué)知識:科學(xué)知識包括技術(shù)、工程和數(shù)學(xué)。這些知識通常是通過科學(xué)實驗進行形式化和明確驗證的。例如物理學(xué)的普遍定律,基因序列的生物分子描述或物質(zhì)形成的過程。
2)世界知識:世界知識指的是幾乎所有人都知道的日常生活中的事實,因此也可以稱為一般知識。通常,它是直觀的并且可以通過人類對周圍世界的推理來隱含地驗證。因此,世界知識通常描述的是人類感知到的世界中出現(xiàn)的物體或概念之間的關(guān)系,例如鳥有羽毛而且會飛。此外,世界知識還包括語言學(xué)。
3)專家知識:專家知識是由特定專家掌握的一組知識。在專家的圈子里,它也可以被稱為常識,這類知識是非正式的,并且需要被形式化,例如人機界面。
為了滿足當(dāng)前低軌衛(wèi)星資源調(diào)度的復(fù)雜性和精確性,從越來越多的研究中考慮將專家知識融入數(shù)據(jù)驅(qū)動的資源調(diào)度方法,以降低系統(tǒng)復(fù)雜度并提升時效性和可解釋性。
知識驅(qū)動方法借助已有的領(lǐng)域知識、專家知識等,分析研究對象的運行機制和原理,并建立數(shù)學(xué)模型來描述因果關(guān)系。一方面,知識驅(qū)動方法通過指定一系列邏輯規(guī)則以增強數(shù)據(jù)驅(qū)動方法的穩(wěn)健性和可解釋性,并降低訓(xùn)練樣本大小、提升系統(tǒng)的學(xué)習(xí)性能;另一方面,通過知識的共享和遷移,來提升資源調(diào)度的決策速度[14]。
同樣地,根據(jù)所使用理論工具的不同,知識驅(qū)動方法可分為模式分析、概率模型和優(yōu)化模型等。模式分析方法注重狀態(tài)量和觀測量之間的關(guān)系,經(jīng)過大量場景驗證后形成模型或規(guī)則,但該方法存在主觀性且需要大量實驗時間來優(yōu)化和改進模型。概率模型方法側(cè)重于事件發(fā)生的可能性即概率,根據(jù)假設(shè)的特定條件或參數(shù),結(jié)合數(shù)據(jù)來形成模型的參數(shù)與形式。概率模型方法也因此易于和數(shù)據(jù)驅(qū)動方法結(jié)合。優(yōu)化模型方法通過算法求解帶約束條件目標(biāo)的最優(yōu)解或可行解,雖然建模過程簡單,但求解過程相對復(fù)雜。在實際應(yīng)用中,3種方法相輔相成,需要結(jié)合實際需求選擇合適的方法[6]。
考慮到數(shù)據(jù)驅(qū)動機器學(xué)習(xí)的缺點,文獻[10]提出了知識驅(qū)動機器學(xué)習(xí)(knowledge-driven machine learning,KDML)模型,該模型旨在利用領(lǐng)域知識簡化ML網(wǎng)絡(luò)結(jié)構(gòu),降低其訓(xùn)練成本,提高其可解釋性。雖然KDML是建立在數(shù)據(jù)驅(qū)動ML方法基礎(chǔ)上的,但它更強調(diào)領(lǐng)域知識的提取和開發(fā)。文獻[15]將無線領(lǐng)域知識定義為對各種無線通信和無線網(wǎng)絡(luò)中涉及的所有問題的描述、理解和認知的總稱。換句話說,無線領(lǐng)域知識包括對無線用戶、傳輸、系統(tǒng)、網(wǎng)絡(luò)、業(yè)務(wù)等的描述、理解和認知。在無線領(lǐng)域知識定義的基礎(chǔ)上,從無線領(lǐng)域知識的特征變量和數(shù)據(jù)模型出發(fā),進行無線領(lǐng)域知識的數(shù)據(jù)挖掘。
KDML的基本模型如圖4所示[10]。在數(shù)據(jù)驅(qū)動的ML中,將X映射到Y(jié)是導(dǎo)致神經(jīng)網(wǎng)絡(luò)高度復(fù)雜性的關(guān)鍵因素。相比之下,KDML的目的是通過在X輸入后續(xù)ML模塊之前降低X的維數(shù)來簡化整個學(xué)習(xí)網(wǎng)絡(luò)。在機器學(xué)習(xí)中,改變輸入數(shù)據(jù)空間的常用方法是特征提取和特征選擇,這兩者都可以實現(xiàn)空間轉(zhuǎn)換和降維。
圖4 知識驅(qū)動的機器學(xué)習(xí)模型Fig.4 Knowledge-driven machine learning model
KDML最重要的特點是利用領(lǐng)域知識來重建學(xué)習(xí)任務(wù),并使學(xué)習(xí)模塊的輸入空間與其輸出空間保持一致。神經(jīng)網(wǎng)絡(luò)的輸入特征數(shù)量會明顯減少,訓(xùn)練成本也會相應(yīng)降低。此外,知識模塊也可以直接給出學(xué)習(xí)問題的近似解。因此,即使學(xué)習(xí)模塊失敗了,KDML模型仍然能夠輸出近似解。同時,KDML模型在領(lǐng)域知識和機器學(xué)習(xí)之間具有清晰的交互機制,它將前者的輸出作為后者的輸入,使得KDML模型具有更高的可靠性和可解釋性。
目前,知識驅(qū)動方法的應(yīng)用領(lǐng)域越來越廣泛,下一小節(jié)將通過分析知識融入的途徑來分析數(shù)據(jù)和知識聯(lián)合驅(qū)動資源調(diào)度方法的實現(xiàn)形式。
如上所述,現(xiàn)有使用ML的資源調(diào)度方法大多忽略了領(lǐng)域知識的固有好處。隨著越來越多的學(xué)者開始研究數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法,目前關(guān)于如何將知識引入數(shù)據(jù)驅(qū)動方法的研究有3種研究類型。
(1)利用現(xiàn)有數(shù)據(jù)中的知識并將其應(yīng)用于特定的ML
文獻[16]考慮到監(jiān)督學(xué)習(xí)的關(guān)鍵問題之一是訓(xùn)練集大小的不足,利用可能在該領(lǐng)域可用的先驗知識或可以從原型示例中學(xué)習(xí)到的信息來解決泛化能力不足。通過創(chuàng)建虛擬示例來討論使用先驗知識的概念,從而擴大有效訓(xùn)練集的大小。在某些情況下,這個想法在數(shù)學(xué)上等同于將先驗知識作為正則化器,這表明該策略是動機良好的。
(2)將知識嵌入機器學(xué)習(xí)過程
文獻[17]利用正則化理論作為知識來解決ML的過擬合問題,其中ML的一些學(xué)習(xí)參數(shù)被限制在一定的范圍內(nèi)。文獻[18]進一步提供了將約束嵌入正則化框架的充分條件,這也使得機器學(xué)習(xí)算法在不同的數(shù)據(jù)集上表現(xiàn)更好。
(3)將成熟的傳統(tǒng)算法和ML方法的知識結(jié)合來解決實際問題
文獻[19]開發(fā)了一種知識輔助深度強化學(xué)習(xí)算法來設(shè)計5G蜂窩網(wǎng)絡(luò)中的無線調(diào)度器。該文獻提出了一個理論深度強化學(xué)習(xí)(deep reinforcement learning, DRL)框架,其中使用無線通信的理論模型來制定DRL中的馬爾可夫決策過程。為了縮短收斂時間并提高每個用戶的用戶服務(wù)質(zhì)量(quality of service, QoS),設(shè)計了一個知識輔助的深度確定性策略梯度(knowledge-assisted deep deterministic policy gradient, K-DDPG),該DDPG采用了調(diào)度器設(shè)計問題中的專家知識。仿真結(jié)果表明,該方法顯著縮短了DDPG的收斂時間,實現(xiàn)了比現(xiàn)有調(diào)度器更好的QoS。
綜上,為了更好地理解知識的融入方式,本文從知識分類出發(fā),將不同種類知識的表征形式和融入途徑歸納為如圖5所示[5]。
步驟2 對和進行脈沖壓縮,計算和脈壓后峰值位置x(n)和xd(n),相應(yīng)的位置偏移量Δn=x(n)-xd(n),并對定標(biāo)信號進行補償。
圖5 知識的分類、表達形式及融入途徑Fig.5 Classification, expression and integration of knowledge
傳統(tǒng)的低軌衛(wèi)星資源調(diào)度方法分為基于優(yōu)化理論等數(shù)學(xué)模型驅(qū)動的調(diào)度方法和基于深度強化學(xué)習(xí)等數(shù)據(jù)驅(qū)動的調(diào)度方法。基于數(shù)學(xué)模型驅(qū)動的研究方法在前計算機時代有其合理性和可解釋性,但是在計算機快速發(fā)展的今天,模型驅(qū)動的方法就存在諸多問題,如算法準(zhǔn)確度低、精準(zhǔn)性差等。數(shù)據(jù)的增加和計算機的發(fā)展帶動了數(shù)據(jù)驅(qū)動的資源調(diào)度方法迅速發(fā)展,其優(yōu)勢在于可以用大量的離線訓(xùn)練換取在線計算時間,但存在可解釋性差、泛化能力差等問題。學(xué)術(shù)界開始考慮融合各個方法的優(yōu)勢,將數(shù)學(xué)模型、深度強化學(xué)習(xí)和現(xiàn)有的知識融合,以達到在訓(xùn)練樣本有限的情況下提升訓(xùn)練速度并增強可解釋性和泛化性。由此誕生了數(shù)據(jù)和知識聯(lián)合的資源調(diào)度方法。本節(jié)將從3個方面介紹低軌衛(wèi)星資源調(diào)度方法,分別是傳統(tǒng)數(shù)學(xué)模型驅(qū)動的低軌衛(wèi)星資源調(diào)度方法、傳統(tǒng)數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源調(diào)度方法以及未來數(shù)據(jù)和知識聯(lián)合驅(qū)動的調(diào)度方法。為了更加清晰直觀地展示本文所調(diào)研的內(nèi)容,構(gòu)建低軌衛(wèi)星資源調(diào)度策略的知識圖譜如圖6所示。
圖6 低軌衛(wèi)星資源調(diào)度方法知識圖譜Fig.6 Knowledge graph of resource scheduling methods for LEO satellite
由于地面用戶的時空分布不均,導(dǎo)致各波位間的業(yè)務(wù)需求不平衡,為了滿足日益增長的用戶業(yè)務(wù)需求,早期的低軌衛(wèi)星資源調(diào)度方法大多利用數(shù)學(xué)模型驅(qū)動方法來解決資源分配問題。傳統(tǒng)數(shù)學(xué)模型驅(qū)動的低軌衛(wèi)星資源調(diào)度方法包括但不限于凸優(yōu)化算法、迭代算法、啟發(fā)式算法等。該類方法的優(yōu)點是可解釋性強,在衛(wèi)星系統(tǒng)中對系統(tǒng)性能的提升也較為明顯,可以很快解決業(yè)務(wù)和資源不匹配的問題。
文獻[20]利用遺傳算法對一個實際系統(tǒng)的跳波束時隙規(guī)劃進行了優(yōu)化。結(jié)果表明,與傳統(tǒng)系統(tǒng)相比,該系統(tǒng)的容量增益可以達到30%,雖然算法有一定的優(yōu)勢,但存在算法復(fù)雜度高、時效性低、不能適應(yīng)業(yè)務(wù)動態(tài)變化場景等問題。文獻[21]假設(shè)同信道干擾可以忽略不計,利用凸優(yōu)化方法來解決資源分配問題。文獻[22]針對業(yè)務(wù)請求分布不均勻的情況,研究了基于遺傳算法的動態(tài)波束跳變方法,以提高資源利用率。遺傳算法在尋找最優(yōu)解的過程中自適應(yīng)調(diào)整搜索空間,是一種能夠獲得全局最優(yōu)解的高效并行方法。在此基礎(chǔ)上,該文獻還采用了一種基于時分復(fù)用的多動作選擇方法,有效地降低了算法的復(fù)雜度。仿真結(jié)果表明,該方法能夠?qū)崿F(xiàn)滿足用戶需求的智能跳波束,有效提高系統(tǒng)性能。文獻[23]通過聯(lián)合功率控制和波束形成,提出了一種迭代算法來獲得優(yōu)化的功率分配策略。結(jié)果表明,聯(lián)合波束形成方案優(yōu)于固定波束形成方案,且可以保障系統(tǒng)安全性。文獻[24]研究了衛(wèi)星系統(tǒng)前向下行鏈路中資源分配的容量優(yōu)化算法并提出了兩種啟發(fā)式算法,根據(jù)流量請求來分配容量資源。結(jié)果表明,所提算法在可用容量方面比傳統(tǒng)系統(tǒng)有一定的提升。
綜上所述,傳統(tǒng)數(shù)學(xué)模型驅(qū)動的低軌衛(wèi)星資源調(diào)度方法在解決初期業(yè)務(wù)量和資源不匹配方面有一定的優(yōu)勢,它的模型依據(jù)通常是有一定研究基礎(chǔ)的數(shù)學(xué)理論等。但該方法存在復(fù)雜度高、建模時間長、成本昂貴等實際應(yīng)用問題。隨著計算機領(lǐng)域的發(fā)展,研究人員逐漸從數(shù)學(xué)模型驅(qū)動轉(zhuǎn)向數(shù)據(jù)驅(qū)動,以尋求更為簡單、高效的資源調(diào)度方案。
傳統(tǒng)數(shù)學(xué)模型驅(qū)動的資源調(diào)度方法通常是輸入數(shù)據(jù)后根據(jù)一定的模型來得到相應(yīng)的結(jié)果,而數(shù)據(jù)驅(qū)動則會根據(jù)訓(xùn)練過程中的變化相應(yīng)對原始模型做出改變和優(yōu)化。二者一個非常明顯的區(qū)別在于,模型驅(qū)動不會改變原始模型,但數(shù)據(jù)驅(qū)動會改變模型。數(shù)據(jù)驅(qū)動需要大量數(shù)據(jù),這就需要系統(tǒng)不斷采集和輸入以實現(xiàn)較理想的結(jié)果,然后需要模型根據(jù)比對決策結(jié)果和現(xiàn)實數(shù)據(jù)把偏差信息反饋給機器學(xué)習(xí),在之后不斷的機器學(xué)習(xí)迭代過程中自我完善,因此數(shù)據(jù)驅(qū)動還存在反饋過程。隨著低軌衛(wèi)星的不斷發(fā)展和研究學(xué)者們的不懈努力,已有不少數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源分配方法實現(xiàn)應(yīng)用。數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源調(diào)度方法系統(tǒng)架構(gòu)如圖7所示。衛(wèi)星建模為智能體,地面用戶建模為環(huán)境。衛(wèi)星寬波束收集地面業(yè)務(wù)請求發(fā)送至星上緩沖區(qū)等待數(shù)據(jù)處理,監(jiān)控器收集信道狀態(tài)、波束分配功率等信息并發(fā)送至控制器??刂破魍ㄟ^數(shù)據(jù)驅(qū)動的資源調(diào)度算法訓(xùn)練得到功率資源分配結(jié)果并通過分配器進行功率分配和波束調(diào)度。
圖7 數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源調(diào)度方法系統(tǒng)架構(gòu)Fig.7 System architecture of data-driven resource scheduling method in LEO satellite
文獻[25]提出了一種基于深度強化學(xué)習(xí)的多目標(biāo)優(yōu)化(multi-objective optimization, MOP)算法。所提算法基于DRL和MOP技術(shù),對動態(tài)變化的系統(tǒng)環(huán)境和用戶到達模型建模,以歸一化處理后的頻譜效率、能量效率和業(yè)務(wù)滿意度指數(shù)的加權(quán)和作為優(yōu)化目標(biāo),實現(xiàn)了系統(tǒng)和用戶累計性能的優(yōu)化。仿真對比表明,所提算法可以更好地解決面向多波束衛(wèi)星系統(tǒng)的多目標(biāo)優(yōu)化問題,系統(tǒng)性能和用戶滿意度優(yōu)化結(jié)果較好,且收斂快、復(fù)雜度低。文獻[26]提出了一種基于DRL的動態(tài)波束圖案和帶寬分配策略,該方案可靈活地利用時間、空間和頻率3個自由度。考慮到帶寬和波束圖案的聯(lián)合分配會導(dǎo)致動作空間溢出,文中提出了一種協(xié)同多智能體深度強化學(xué)習(xí)(multi-agents deep reinforcement learning, MADRL)的框架,其中每個智能體只負責(zé)一路波束的照明分配或帶寬分配。智能體可以通過共享成果來學(xué)習(xí)協(xié)作以實現(xiàn)通信目標(biāo),即最大吞吐量和最小單位間時延公平性。仿真結(jié)果表明,離線訓(xùn)練的MADRL模型能夠?qū)崿F(xiàn)實時的波束圖案和帶寬分配,以匹配非均勻和時變的流量請求。此外,當(dāng)流量需求增加時,所提模型具有良好的泛化能力。
綜上,基于數(shù)據(jù)驅(qū)動的低軌衛(wèi)星資源調(diào)度方法多數(shù)采用前文所述的人工智能方法,具體來說可以是強化學(xué)習(xí)、深度學(xué)習(xí)或者深度強化學(xué)習(xí)等方法。其中深度強化學(xué)習(xí)通過結(jié)合RL和DL,完成系統(tǒng)特征的學(xué)習(xí)并智能地執(zhí)行資源分配策略[27]。系統(tǒng)利用RL不斷與環(huán)境進行交互獲取樣本,再利用DL提取樣本特征,完成當(dāng)前場景到資源分配策略的映射[28]。雖然當(dāng)前的數(shù)據(jù)驅(qū)動方法對低軌衛(wèi)星系統(tǒng)性能已有大幅提升,但仍需對訓(xùn)練時間、樣本空間大小等進行優(yōu)化,這就需要研究數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法。
和數(shù)據(jù)驅(qū)動不同的是,數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法在訓(xùn)練過程中融合了知識。這些知識包括上文提及的專家知識、領(lǐng)域知識等。通過知識的融入可以實現(xiàn)減少訓(xùn)練周期、減少訓(xùn)練參數(shù)、改進算法收斂時間等目標(biāo)。文獻[29]提出了一種帶保護機制的知識輔助強化學(xué)習(xí)框架,如圖8所示。智能體接收到初始狀態(tài)后,根據(jù)策略生成動作,并將其傳遞給保護器。然后保護器通過求解優(yōu)化問題,從融入了專家知識、領(lǐng)域知識等信息的分析模型中得到標(biāo)準(zhǔn)動作,并通過標(biāo)準(zhǔn)動作對智能體生成的動作進行調(diào)整產(chǎn)生新的動作,稱為執(zhí)行動作。執(zhí)行動作是在環(huán)境中實際執(zhí)行的動作。在確認執(zhí)行動作安全后,執(zhí)行動作將被同時發(fā)送給環(huán)境和分析模型。智能體從環(huán)境中收集獎勵,同時從分析模型中收集指導(dǎo)獎勵,這兩種獎勵結(jié)合起來產(chǎn)生更新獎勵,策略使用更新獎勵來更新自己。在存儲數(shù)據(jù)并更新智能體策略之后,根據(jù)下一個狀態(tài)生成下一個智能體動作。如果分析模型認為執(zhí)行動作是不安全的,且執(zhí)行動作未通過安全確認,則保護器將拒絕執(zhí)行動作,并將其發(fā)送給智能體。基于該框架,本文從知識是否在系統(tǒng)中遷移出發(fā),將數(shù)據(jù)和知識聯(lián)合驅(qū)動的資源調(diào)度方法分為基于本地知識的資源調(diào)度方法和基于知識共享和遷移的資源調(diào)度方法。
圖8 知識輔助的強化學(xué)習(xí)系統(tǒng)架構(gòu)Fig.8 Architecture of knowledge-assisted reinforcement learning system
2.3.1 基于本地知識的資源調(diào)度方法
基于本地知識的資源調(diào)度方法,是從本地網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)到的知識出發(fā)來指導(dǎo)資源調(diào)度,知識在系統(tǒng)中沒有過多的遷移或共享。本文按照知識融入的途徑來綜述現(xiàn)有的低軌衛(wèi)星資源調(diào)度方法。
將知識嵌入機器學(xué)習(xí)過程的資源調(diào)度方法會對網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練參數(shù)等產(chǎn)生一定的影響。文獻[30] 從保證各波束間業(yè)務(wù)公平性、最小化實時業(yè)務(wù)傳輸延遲、最大化非實時業(yè)務(wù)傳輸吞吐量等多目標(biāo)出發(fā),研究了DVB-S2X衛(wèi)星跳波束的最優(yōu)策略。文獻采用無模型多目標(biāo)深度強化學(xué)習(xí)方法,通過與環(huán)境交互學(xué)習(xí)最優(yōu)策略。為了解決動作維度災(zāi)難問題,將領(lǐng)域知識融入學(xué)習(xí)過程提出了一種基于雙環(huán)學(xué)習(xí)(double-loop learning, DLL)的多動作選擇方法。并利用深度神經(jīng)網(wǎng)絡(luò)對其多維狀態(tài)進行了重新表述和獲取。結(jié)果表明,該方法能夠同時實現(xiàn)多個目標(biāo),并能根據(jù)用戶需求和信道條件智能地分配資源。然而,該方法只考慮了跳波束的情況,并假設(shè)每個波束共享整個帶寬,這將導(dǎo)致波束之間產(chǎn)生嚴(yán)重的共信道干擾。同時,由于視衛(wèi)星為單智能體,因此動作空間會隨著波束的增加而呈指數(shù)增長。
將成熟的傳統(tǒng)算法和ML方法的知識結(jié)合來解決實際問題的資源調(diào)度方法,以ML的相關(guān)知識為基礎(chǔ),融合其他算法以提升系統(tǒng)性能。文獻[31]以傳統(tǒng)強化學(xué)習(xí)算法為基礎(chǔ),結(jié)合了深度學(xué)習(xí)提取信道容量、用戶業(yè)務(wù)量、時延等特征的能力與強化學(xué)習(xí)進行波束調(diào)度決策的特點,提出了基于深度強化學(xué)習(xí)的動態(tài)波束調(diào)度算法。仿真表明,結(jié)合傳統(tǒng)算法和ML知識的算法可以降低系統(tǒng)時延并提高系統(tǒng)吞吐量。
綜上所述,基于本地知識的資源調(diào)度方法相比數(shù)據(jù)驅(qū)動方法對低軌衛(wèi)星系統(tǒng)的性能有一定的提升,在一定程度上降低訓(xùn)練成本并減少動作空間大小,加快了訓(xùn)練的收斂速度。但存在對實際應(yīng)用中影響因素考慮不夠全面的問題。
2.3.2 基于知識共享和遷移的資源調(diào)度方法
基于知識共享和遷移的資源調(diào)度方法可以更好地在不同網(wǎng)絡(luò)之間實現(xiàn)信息和策略更新,因此也更適用于現(xiàn)實系統(tǒng)。它可以很好地適應(yīng)業(yè)務(wù)快速變化、服務(wù)需求多樣性的場景,以滿足現(xiàn)代通信的要求。本文將這部分分為基于無監(jiān)督強化學(xué)習(xí)的遷移方法和基于有監(jiān)督深度學(xué)習(xí)的遷移方法。
無監(jiān)督強化學(xué)習(xí)側(cè)重讓算法自行發(fā)現(xiàn)數(shù)據(jù)集中的規(guī)律和模式,基于無監(jiān)督強化學(xué)習(xí)的知識遷移資源調(diào)度方法通常先訓(xùn)練模型再對數(shù)據(jù)進行遷移。文獻[32]提出并評估了低軌衛(wèi)星的在線決策算法。文中提出了兩種基于RL的解決方案,以克服傳統(tǒng)動態(tài)編程(dynamic programming, DP)的計算負擔(dān)。第一種方法是基于Actor-Critic方法并結(jié)合時序差分(temporal-difference, TD)學(xué)習(xí)的方法。這個方法中有兩個角色,第一個是Actor角色,在一些資料中也稱為“演員角色”。這個角色是一個相對獨立的模型,可以把它理解成一個神經(jīng)網(wǎng)絡(luò),任務(wù)就是學(xué)動作。優(yōu)化它的過程和優(yōu)化一個普通DQN網(wǎng)絡(luò)沒有太大的區(qū)別。另一個是Critic角色,也稱作“評論家角色”。它負責(zé)評估Actor的表現(xiàn),并指導(dǎo)Actor下一階段的動作,這個角色也是一個獨立的模型。在這種思維的指導(dǎo)下,估值學(xué)習(xí)也是一個獨立的、可優(yōu)化的任務(wù),需要通過一個模型進行擬合。動作輸出也是一個模型,通過一個模型進行擬合。這種方法中,兩個角色(網(wǎng)絡(luò))互相交互并訓(xùn)練模型,最后達到一個較好的效果;第二種方法是基于Critic-only的方法,稱為樂觀時序差分學(xué)習(xí)方法。該算法在存儲需求、計算復(fù)雜性和計算時間等方面都對系統(tǒng)性能有一定提高??傮w結(jié)果表明,RL框架可以很好地提升低軌衛(wèi)星系統(tǒng)性能。
有監(jiān)督深度學(xué)習(xí)相比無監(jiān)督強化學(xué)習(xí)有一個目標(biāo)值,訓(xùn)練過程中不停地和目標(biāo)值進行比對以改進模型。基于有監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的遷移方法通常是以領(lǐng)域知識或歷史數(shù)據(jù)為基礎(chǔ),構(gòu)建資源調(diào)度的神經(jīng)網(wǎng)絡(luò)模型或初始化模型參數(shù)[5]。文獻[28]提出一種基于遷移深度強化學(xué)習(xí)(transfer deep reinforcement learning, TDRL)的低軌衛(wèi)星跳波束資源分配方案。采用DRL算法,將衛(wèi)星數(shù)據(jù)包緩存量、信道狀態(tài)重構(gòu)為狀態(tài)空間,執(zhí)行小區(qū)的波束調(diào)度、功率分配決策。根據(jù)小區(qū)數(shù)據(jù)包的積累量定義獎勵函數(shù),使LEO資源分配過程更加自動化和智能化。在新的低軌衛(wèi)星接入網(wǎng)絡(luò)時需要重新獲取樣本數(shù)據(jù)并再次訓(xùn)練模型,因此為了降低模型的訓(xùn)練成本,使模型更快速地適應(yīng)LEO動態(tài)變化的環(huán)境,文獻提出將遷移學(xué)習(xí)(transfer learning, TL)和DRL算法結(jié)合起來。利用TL將模型訓(xùn)練得到的知識遷移至新的模型以引導(dǎo)新模型更快地收斂而非從零開始。結(jié)果表明,TDRL算法在保證用戶服務(wù)質(zhì)量的同時可以提升系統(tǒng)吞吐量并最小化包平均時延。
綜上所述,基于知識共享和遷移的資源調(diào)度方法讓知識在不同網(wǎng)絡(luò)中實現(xiàn)共享,可以很好地降低新接入衛(wèi)星的模型訓(xùn)練收斂時間,同時仍能提升系統(tǒng)性能。在實際中比基于本地知識的資源調(diào)度方法有更好的應(yīng)用前景。但現(xiàn)有研究沒有考慮到衛(wèi)星網(wǎng)絡(luò)中多種知識的融合和利用。
本文針對數(shù)據(jù)和知識驅(qū)動的低軌衛(wèi)星資源智能調(diào)度研究進行了綜述。首先概述數(shù)據(jù)驅(qū)動方法和知識驅(qū)動方法并分析其特點,其次對低軌衛(wèi)星資源調(diào)度方法進行綜述。傳統(tǒng)數(shù)學(xué)模型驅(qū)動的方法雖然可解釋性強,但由于存在復(fù)雜度高、求解困難等問題,已經(jīng)逐漸被數(shù)據(jù)驅(qū)動方法取代。數(shù)據(jù)驅(qū)動方法大大降低了求解復(fù)雜度,但為了得到較好的訓(xùn)練結(jié)果往往需要大量樣本數(shù)據(jù),且訓(xùn)練時間長、可解釋性差、泛化性差。由此,研究學(xué)者考慮采用知識和數(shù)據(jù)聯(lián)合驅(qū)動的調(diào)度方法來提升系統(tǒng)的穩(wěn)定性。在未來的研究中,更應(yīng)注意以下幾個方面的突破:(1)現(xiàn)有數(shù)據(jù)和知識聯(lián)合驅(qū)動資源調(diào)度方法中融合的知識相對單一,如何在保證算法低復(fù)雜度的基礎(chǔ)上實現(xiàn)多種知識融合;(2)資源調(diào)度方法的設(shè)計過程離不開跳波束圖案設(shè)計,如何在波束成形、網(wǎng)絡(luò)拓撲等層次上設(shè)計更加靈活的有效載荷;(3)面對未來業(yè)務(wù)種類更加多樣、應(yīng)用場景更加豐富多元的情況,如何將不同領(lǐng)域和場景的知識提取并融入低軌衛(wèi)星通信系統(tǒng)。綜上,本文總結(jié)了低軌衛(wèi)星資源智能調(diào)度方法并為后續(xù)研究奠定基礎(chǔ)。