蔡曉烽,望運武,顧家驊,朱 敏
(1.東南大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 南京 210096,2.東南大學(xué) 移動通信國家重點實驗室,江蘇 南京 210096)
隨著5G通信設(shè)備數(shù)量的急劇增加,傳統(tǒng)的無線接入網(wǎng)架構(gòu)已不能滿足設(shè)備對計算資源、帶寬和延遲的嚴格要求。下一代無線接入網(wǎng)(NG-RAN)是一種很有前景的解決方案,基帶單元被分割為分布式單元(DU)和集中式單元(CU)[1],這為5G發(fā)展的靈活性奠定了重要的技術(shù)基礎(chǔ)。受到NG-RAN中基于虛擬網(wǎng)絡(luò)功能的服務(wù)鏈啟發(fā),有研究人員提出了細粒度的功能分割機制[2]。細粒度功能拆分架構(gòu)參考了3GPP的功能拆分方式,基帶處理單元(BBU)被進一步拆分為一組多個細粒度功能單元(FU)。部署在不同網(wǎng)絡(luò)節(jié)點中處理池(PP)里的FU可通過光路路由相互連接,共同實現(xiàn)基帶處理功能。與現(xiàn)有的DU-CU架構(gòu)相比,FU架構(gòu)可以進一步提高基帶處理的靈活性。因此研究了智能FU部署和路由策略,以進一步優(yōu)化資源分配,提高資源利用率。
在FU部署過程中,我們引入一種策略,即不同切片請求中相同類型的FU功能可以部署到同一個PP,以共享PP上已經(jīng)激活的實例。這種功能復(fù)用(FR)策略可以顯著減少PP上所需激活的實例數(shù)量,極大提高計算資源利用率。然而,功能復(fù)用FR策略不可避免地引入實例競爭現(xiàn)象[3],增加了FU功能的處理延遲。因此,在基于FU的5G-RAN架構(gòu)中,需要設(shè)計一種有效的功能部署和路由優(yōu)化方案,利用功能復(fù)用策略,不僅可以減少PP中實例資源消耗,還能滿足每個切片請求的端到端延遲閾值。
以往的工作研究了基帶功能部署和路由問題。文獻[4]的作者提出了一種最小化功耗的啟發(fā)式算法,解決了DU-CU部署問題,達到節(jié)能的目的。在文獻[2]中,作者證明了基于FU的功能部署策略可以緩解基帶集中處理的壓力,并能降低傳輸帶寬的需求。但上述工作沒有考慮FU的功能復(fù)用策略,而且BBU處理時延模型較為簡單,僅設(shè)置為固定值。
近年來,深度強化學(xué)習(xí)(DRL)方法被應(yīng)用于解決多維資源管理問題[5-9]。與啟發(fā)式算法相比,DRL可以根據(jù)當前觀察到的網(wǎng)絡(luò)狀態(tài)采取自適應(yīng)策略。與整數(shù)線性規(guī)劃方法相比,DRL方法可以在更短的執(zhí)行時間內(nèi)獲得性能更優(yōu)的可行解。文獻[10]的作者提出了一種DRL算法,該算法為云無線接入網(wǎng)絡(luò)(C-RAN)中的BBU池虛擬機的處理需求分配計算資源。在文獻[11]中,作者同樣采用DRL方法為C-RAN和NG-RAN提供網(wǎng)絡(luò)功能部署策略。上述文獻的結(jié)果表明,DRL的性能優(yōu)于傳統(tǒng)的啟發(fā)式算法。但上述文獻沒有考慮基于細粒度功能拆分FU的RAN應(yīng)用場景,也沒有考慮功能復(fù)用策略。
本文引入功能復(fù)用策略,并提出了一種基于DRL算法的FU功能部署和路由解決方案。首先建立了一個以最小化計算資源、帶寬資源和切片延遲總成本為目標的MILP模型,以此生成的最優(yōu)解將作為性能基準,并研究了功能復(fù)用FR策略對MILP模型性能的影響。其次,由于MILP模型的不可擴展性,文章提出了一種DRL輔助的功能部署和路由方法,該方法不僅能獲得接近最優(yōu)解方案,而且能在可接受的時間內(nèi)收斂,得到一種可行解。此外,提出了一種節(jié)點驅(qū)動策略來幫助DRL進行高效決策,該策略有效緩解了最短路徑優(yōu)先算法中可能出現(xiàn)的局部熱點擁塞問題。
如圖1所示,彈性光網(wǎng)絡(luò)(EON)為研究對象。每個節(jié)點都配備了EON中帶寬可變的光交叉連接(BV-OXC)和可切片帶寬可變應(yīng)答器(S-BVT)?;贓ON的5G接入網(wǎng)可以表示為有向圖G(V,E),其中V為節(jié)點集,E為光纖鏈路集。所有節(jié)點都連接到本地的PP,部分節(jié)點連接到射頻單元(RU),圖中的一個目的節(jié)點連接到5G核心(5GC)。每個光纖鏈路上都有一定數(shù)目的頻隙(FS)。
圖2展示了FU架構(gòu)的基帶處理功能分割方式,其中一個BBU被分為五個FU(FU1 - FU5)[12]。FU1負責(zé)解調(diào);FU2負責(zé)信道解碼;FU3負責(zé)媒體訪問控制(MAC),用于對來自不同無線電承載的數(shù)據(jù)進行多路復(fù)用;FU4負責(zé)無線鏈路控制(RLC),用來對上一層分割和重組;FU5負責(zé)分組數(shù)據(jù)匯聚協(xié)議(PDCP)協(xié)議,用于解決安全問題。系統(tǒng)把包含5 個FU的RAN切片請求從RU發(fā)送到5GC,這些FU可以被部署在相同或不同的PP中,并按照規(guī)定的順序進行鏈接:RU, FU1, FU2, FU3, FU4, FU5,從而生成用于基帶處理的服務(wù)鏈。一個RAN切片請求可以表示為R[s,(b1, FU1),(b2, FU2),(b3, FU3),(b4, FU4),(b5, FU5),b6,d]。其中s和d分別是切片請求的源節(jié)點和目的節(jié)點,bk是經(jīng)過FUk之前的帶寬需求,其中b6是經(jīng)過FU5后的帶寬需求。PP中的FU實例在有FU到達時被激活,并且消耗計算資源。從RU到5GC的路由則會導(dǎo)致帶寬消耗。簡單起見,每一個切片請求都設(shè)置了相同的計算資源需求、帶寬需求和端到端延遲需求(閾值),而不考慮服務(wù)請求的類型區(qū)別。本文假設(shè)上述需求是由給定的公式和參數(shù)[13]得到的固定值。下文探索一種有效的策略來管理網(wǎng)絡(luò)切片的FU部署和路由,以最小化資源消耗和延遲,而不超過端到端延遲和資源容量的閾值。需要考慮的資源有:計算資源、帶寬資源和時延。
注:b1=86 016 Mbps; b2=32 256 Mbps;b3=7 140 Mbps;b4=4 500 Mbps;b5=3 024 Mbps;b6=3 000 Mbps。圖2 基帶處理功能的分割選項
(1)
式中αk為各個FUk的因子,A為天線數(shù),M為調(diào)制比特,RTcoding為編碼率,L為MIMO層數(shù),PRB為物理資源塊數(shù)。αk可通過文獻[14]中的參數(shù)來計算獲得。
FU實例是一種可復(fù)用的資源,相同類型的FU可以共享一個實例。例如,要將一個FU2部署到一個無已激活實例的PP中,就需要在PP中激活一個FU2實例,從而產(chǎn)生相應(yīng)的計算資源開銷。之后有新的FU2部署到這個PP中時,由于FU2實例復(fù)用,就不會產(chǎn)生新的計算資源成本。
每當部署一個FU之后,請求的帶寬需求將會改變。所需要的FS數(shù)量可以用[bk/(ML·bfs)]表示[2],其中bk是通過FUk前的帶寬需求,ML是調(diào)制格式的階數(shù),bfs是每個FS的帶寬[3]。在EON中設(shè)置光路時,應(yīng)考慮光譜的連續(xù)性、一致性和容量限制。
對于時延,可從五個方面來計算。
處理時延:一個FU在PP中的停留時間定義為FU的處理延遲。假設(shè)經(jīng)過每個FU實例的FU流是一個輸入隊列,每個實例的計算資源可視為服務(wù)于FU的服務(wù)器。因此,對應(yīng)的M/M/1模型為[15]
(2)
虛擬化時延:假設(shè)啟動一個FU實例需要的虛擬化延遲為Tv。由于FU實例是一種可復(fù)用的資源,當PP中已經(jīng)啟動了相同類型的FU實例時,系統(tǒng)不會啟動新實例,因此FU實例復(fù)用方案可以節(jié)省相應(yīng)的虛擬化時延。
封裝時延:細粒度分割采用了通用接口(GI)。GI時延包括處理PP中最后一個FU后的封裝時延和PP中第一個FU前的解封裝時延。
光電切換時延:切片請求的光信號在PP中進行FU處理之前需要切換到電子域,這就造成了Toeo時延。請求離開此PP時,信號需要進行反向切換。
因此,請求r的端到端總時延為
(3)
式中Xi,j,r,k是二進制變量,表示前k個FU處理完畢后的請求r是否在鏈路e(i,j)上傳輸。Hr,i是二進制變量,表示請求r是否在節(jié)點i上處理。Zr,k,i是二進制變量,表示FUk是否為請求r在節(jié)點i上處理的最后一個FU。Or,k,i是二進制變量,表示請求r的FUk是否在節(jié)點i上處理。SVr,k是二進制變量,表示請求r的FUk是否激活了新的實例。
本文提出了一個MILP模型來管理的FU的部署和路由,目標函數(shù)設(shè)計為使計算資源、帶寬容量和時延三種資源的總成本最小化。
目標函數(shù)Minimize:
(4)
MILP的目標是同時最小化計算資源、帶寬資源和請求的端到端延遲。目標函數(shù)中第一項是所需PP的數(shù)量,第二項是MFSI,第三項是請求的端到端延遲。權(quán)重α,β,γ用于平衡每個資源對目標函數(shù)的貢獻。
限制條件
FU部署限制
(5)
(6)
(7)
式(5)確保請求從起點出發(fā),到終點5GC結(jié)束。式(6)確保每個請求中的每個FU選擇且僅選擇一個PP進行部署。式(7)保證了Di值為1時,有FU在PPi上處理,值為0時則無。
(8)
(9)
式(8)保證了Qk,i值為1時,有FUk在PPi上處理,值為0時則無。式(9)保證了PP的計算工作量不超過其計算能力限制。
路由限制
(10)
(11)
(12)
式(10)確保了請求在部署過程中不會回到起點,同時保證最終到達5GC。式(11)確保建立了從起點到5GC的光路。式(12)保證了一個鏈路不能被一個請求重復(fù)使用。
(13)
(14)
式(13)表示如果節(jié)點i是請求r的起點,并且請求r在這里處理了FUk,請求r將會以FUk已處理的狀態(tài)離開節(jié)點i。式(14)表示如果請求b的FUk在節(jié)點nd被處理,請求r將以FUk未處理的狀態(tài)到達這個節(jié)點,并以FUk已處理的狀態(tài)離開節(jié)點nd。
XFi,j,0,r,k=0,?i,j(j≠i),r,k,
(15)
(16)
式(15)確保FS的索引從1開始,而不是從0。式(16)確保處理完FUk后,為請求r選擇一組連續(xù)的FS。
(17)
MFSI≥f·UFi,j,f,?i,j(j≠i),f,
(18)
MFSI≤NBlink
(19)
式(17)保證了頻譜不重疊。式(18)計算網(wǎng)絡(luò)的MFSI,式(19)保證MFSI不能超過每條鏈路上的FS數(shù)量。
時延限制
(20)
式(20)為頻譜的連續(xù)性約束。
(21)
(22)
2·Zr,k,i≤Or,k,i-Or,k+1,i+1≤Zr,k,i+1,?r,2 (23) 式(21)計算了FUk在PPi上的復(fù)用次數(shù)。式(22)確保了請求r在節(jié)點i上處理時Hr,i值為1,否則為0。式(23)確保了FUk為請求r在節(jié)點i上處理的最后一個FU時Zr,k,i值為1,否則值為0。 (24) 式(24)計算了節(jié)點i上每個FUk的處理延遲,屬于非線性約束。這里引入一個輔助變量Gk,i來線性化。 (25) (26) (27) (28) 式(25~28)列出了變量Gk,i的約束條件,其中有一個新的非線性約束條件(27),該約束條件也需要線性化。式(26)確保FU處理延遲的計算只與實際參與處理的節(jié)點有關(guān)。 Pr,k,i=Gk,i·Lr,k,i,?r,k,i, (29) Pr,k,i≤Gk,i,?r,k,i, (30) Pr,k,i≥Gk,i+N·(Lr,k,i-1),?r,k,i, (31) Pr,k,i≤N·Lr,k,i,?r,k,i, (32) (33) 式(29~33)列出了變量Pr,k,i的約束條件。 (34) 式(34)計算了請求r中每個FUk的處理時延,屬于非線性約束。這里引入一個輔助變量ab,k,r來線性化。 (35) (36) (37) ar,k,i≤N·Or,k,i,?r,1≤k<|K|,i, (38) (39) 式(35)為ar,k,i的定義式,其約束條件為式(36~38)。式(39)為線性化的結(jié)果。 (40) 式(40)確保滿足延遲要求。簡單起見,所有的限制都加入了虛擬化延遲。 值得一提的是,上述提出的混合整數(shù)線性規(guī)劃MLIP模型僅僅適用于規(guī)模網(wǎng)絡(luò)小,請求較少的情況,雖然可求得最優(yōu)解,但不適用于大網(wǎng)絡(luò)場景,缺乏可擴展性。因此,本文設(shè)計一種深度強化學(xué)習(xí)DRL模型,它可以適用于網(wǎng)絡(luò)規(guī)模大,請求較多的情況,而且從后面仿真中可以看出,性能優(yōu)于啟發(fā)式算法,可求得近似最優(yōu)解,具有較好的可擴展性。 圖3展示了DRL如何通過與基于FU的RAN環(huán)境進行迭代交互來學(xué)習(xí)和做出決策。在每個決策時刻,DRL從環(huán)境接收更新的狀態(tài)。深度神經(jīng)網(wǎng)絡(luò)(DNN)將狀態(tài)輸入和切片請求的需求映射為多個Q值。每個Q值分別與一個動作相關(guān)。DRL會選擇執(zhí)行Q值最大的動作。在動作執(zhí)行后,DRL從RAN環(huán)境中獲得獎勵。至此,DRL執(zhí)行了一個循環(huán),并且從這次經(jīng)歷中學(xué)習(xí)如何行動,以有效地解決BBP&R問題。 圖3 基于DRL的資源分配 與傳統(tǒng)的最短路徑優(yōu)先映射方案不同,算法1提出了DRL輔助的節(jié)點優(yōu)先映射方案。算法的第1,2行初始化要部署的切片請求的狀態(tài)。在第3,4行中,為方便DRL進行決策,算法將一個請求R分解為5 個單元,即(b1, FU1),(b2, FU2),(b3, FU3),(b4, FU4),(b5, FU5,b6),分5 步來部署一個請求。FUk與第k(k≠5)個頻譜資源需求bk組合為R中的第k個元素,其中R中的第5 個元素(b5, FU5,b6)包括第5 個計算資源需求FU5,第5個和第6個頻譜資源需求(即b5和b6)。該方案主要由節(jié)點映射來驅(qū)動。首先DRL選擇一個PP節(jié)點來部署FU。然后在所選節(jié)點和上一個已選節(jié)點之間路由,以此來選擇光路。 在第5 行,DRL在第t個時間步中獲得將要部署第r個切片請求的第k個FU時的環(huán)境狀態(tài),狀態(tài)信息由第k個FU的信息和當前基于FU的RAN信息組成。狀態(tài)定義為 在第6~9行中,DRL通過ε-greedy策略[11]的來選擇動作。動作空間包括|Snode| 個動作,其中|Snode|是RAN中的節(jié)點總數(shù)。每個動作都與一個候選PP節(jié)點對應(yīng)。在第10~12行中,如果選擇了可行的動作,FU將被部署到指定的節(jié)點中。然后,計算所選節(jié)點和上一個所選節(jié)點之間的K個最短路徑。在第13~16行中,Ik定義為部署所需FS的最小起始索引。選擇具有最小Ik的路徑,并在光路中的光纖上分配所需的FS。在部署切片請求的最后一個FU時,應(yīng)該在所選節(jié)點和上一個所選節(jié)點以及5GC節(jié)點之間分別分配兩條光路。 如果發(fā)生以下三種情況,動作選擇了同一個請求的前幾個FU(上一個FU除外)已經(jīng)選擇的某個PP,可用資源不足,或者超過請求的延遲閾值,動作就不可行。在第18~19行中,如果這個動作是不可行的,則給DRL一個較大的懲罰。在第17 行中,當行動可行時,根據(jù)式(3)設(shè)置負值作為每一步的獎勵。 在第20~24行中,經(jīng)驗數(shù)據(jù)以(st,at,rt,st+1)的方式記錄下來。為了訓(xùn)練DRL模型,DNN的參數(shù)通過loss=E{[rt+ζmaxQ(st+1,at+1) -Q(st,at)]2}進行更新,其中rt+ζmaxQ(st+1,at+1)為理想Q值,Q(st,at)表示更新前的Q值。當損失函數(shù)收斂到一個較小的固定值時,DNN的輸出很好地擬合了動作的最優(yōu)Q值。 本節(jié)通過仿真來評估MILP和DRL輔助算法的性能,這兩種算法將和啟發(fā)式算法K最短路徑首次匹配(KSPFF)相比較,同時也比較了FR方案的優(yōu)劣。仿真采用了9節(jié)點網(wǎng)絡(luò),如圖4所示。節(jié)點1設(shè)置為請求1~4的起點,節(jié)點2設(shè)置為請求5~7的起點。節(jié)點9作為5GC的所在點,是所有請求的目的地。本仿真中MILP和DRL均運行在的Intel i7-10750H CPU 2.60 GHz 16G RAM環(huán)境,其中MILP在GUROBI 9.1.2(https:∥www.gurobi.com/)上編程并執(zhí)行,DRL神經(jīng)網(wǎng)絡(luò)的搭建和訓(xùn)練使用了Theano優(yōu)化編譯器。詳細仿真參數(shù)如下:天線個數(shù)為32,PRB個數(shù)為500,調(diào)制比特為6 bit,MIMO層數(shù)為2 層,光路存在100 個FS,學(xué)習(xí)率為10-4,衰減因子為0.9,訓(xùn)練批次大小為32,經(jīng)驗回放池容量為4×104,探索率為0.8。 圖4 拓撲圖 圖5給出了代表不同算法消耗的總資源的平均成本。隨著請求數(shù)量的增加,這幾種算法都會消耗更多的資源,因為更多的請求會帶來更多的資源需求。需要注意的是,三種使用FR方案的算法比不使用FR方案的MILP消耗的資源更少,這是由于多個切片請求之間實現(xiàn)了PP上的FU實例資源共享。除此以外,DRL與KSPFF相比,節(jié)省了更多的平均資源成本。 圖5 總成本 圖6的(a)和(b)中,使用的PP和MFSI數(shù)量隨著請求數(shù)量的增加而增加。有FR方案的算法比沒有FR方案的算法使用更少的PP和MFSI。這是因為一個FU實例可以由來自不同請求的相同類型的FU共享,從而開啟更少的FU實例,使用更少的PP。較低的MFSI是由于FU在地理位置上的集中節(jié)省了FU之間的帶寬。而KSPFF雖然所選擇的節(jié)點較為集中,需要最少的PP,但不同請求路徑的選擇也由于首次匹配的規(guī)則而過于集中,導(dǎo)致了高MFSI。從圖6(c)中可以看出,三種算法都能滿足時延要求,時延性能相近。FR方案雖然會帶來排隊延遲,但通過復(fù)用FU實例,避免了虛擬化延遲和光電切換延遲。因此,使用FR方案不會帶來太大的額外延遲。 圖7為DRL的訓(xùn)練過程。圖7顯示,DRL的損失在500回合內(nèi)迅速下降,之后收斂到0。在1 300個回合內(nèi),總獎勵會因為探索過程而隨機變化。在1 300個回合之后,總獎勵收斂到一個較高的值,約為-0.7。結(jié)果表明,本文基于DRL的算法具有較快的收斂速度,從而達到近似最優(yōu)解。 圖7 DRL算法的訓(xùn)練過程 圖8對比了MILP和DRL算法的運算時間。在小于6 個請求的情況下,MILP比DRL算法消耗的運行時間更短,因為小規(guī)模的情況下,GUROBI中的數(shù)學(xué)運算只需幾步就能精確求解,而DRL算法需要足夠的迭代來進行訓(xùn)練。但是,在超過6 個請求的情況下,MILP的運行時間明顯多于DRL算法的運行時間,并且MILP的運行時間隨著請求數(shù)目增加而呈指數(shù)級增長,而DRL算法運算時間呈線性增長趨勢。因此,在大規(guī)模場景下,基于DRL的細粒度功能部署和路由算法在運行時間方面優(yōu)于MILP模型。在請求較少的情況下,例如切片業(yè)務(wù)請求的低谷期,使用MILP能夠快速地給出最優(yōu)FU部署方案,而在請求較多的場景下,例如切片業(yè)務(wù)請求的高峰期,使用DRL是更好的選擇。 圖8 DRL算法和MILP算法的處理時間 本文提出了一種DRL輔助的資源優(yōu)化分配方法,高效地解決了基于功能復(fù)用機制的FU基帶功能部署和路由的問題。首先采用MILP模型,對問題進行建模分析。從MILP仿真結(jié)果中可以看出,功能復(fù)用策略大大提升的資源利用率,驗證其有效性;在DRL仿真中,DRL算法比不采用功能復(fù)用策略的MILP具有更好的性能??梢?DRL算法能夠充分發(fā)揮資源復(fù)用的潛力,有效提高系統(tǒng)性能。而且,DRL算法在總成本上優(yōu)于KSPFF啟發(fā)性算法,這體現(xiàn)了DRL算法在不同網(wǎng)絡(luò)狀態(tài)下能夠靈活地做出有效決策。另一方面,在大規(guī)模請求情況下,DRL算法比MILP花費的時間要少得多,更具擴展性。因此,我們提出的DRL輔助方法,有望為5G RAN架構(gòu)中細粒度功能布局和路由算法提供出色的性能。3 深度強化學(xué)習(xí)模型
4 實驗結(jié)果
5 結(jié)論