鐘云杰,張金麗,張潮陽,嚴(yán)曉康,沈曉輝
(1.新鳳鳴集團(tuán)股份有限公司,浙江 桐鄉(xiāng) 314513;2.浙江五疆科技發(fā)展有限公司,浙江 桐鄉(xiāng) 314513)
為了滿足各類場景的應(yīng)用需求,3GPP提出了5G通信的3大應(yīng)用場景,即高可靠低時延通信(uRLLC)、增強(qiáng)移動寬帶(eMBB)、大規(guī)模機(jī)器類通信(mMTC)[1]。工業(yè)互聯(lián)網(wǎng)場景對工業(yè)生產(chǎn)的信息傳輸可靠性要求較高,5G uRLLC業(yè)務(wù)的應(yīng)用可以在超低時延要求下,實(shí)現(xiàn)高可靠的工業(yè)生產(chǎn)數(shù)據(jù)傳輸,可以滿足工業(yè)互聯(lián)網(wǎng)場景的應(yīng)用要求[2]。然而,工業(yè)互聯(lián)網(wǎng)場景下5G uRLLC資源調(diào)度問題始終影響著業(yè)務(wù)通信質(zhì)量,需要采取合理的資源調(diào)度策略,提高時頻資源的利用效率,從而充分保障數(shù)據(jù)傳輸性能。
上行傳輸場景的資源調(diào)度問題集中在uRLLC與eMBB混合業(yè)務(wù)的資源調(diào)度問題,此時基站范圍內(nèi)同時存在著m個uRLLC用戶(Nu)與n個eMBB用戶(Nb),前者具有零星、隨機(jī)發(fā)送給業(yè)務(wù)的特征,發(fā)送業(yè)務(wù)狀態(tài)定義為0=休眠、1=激活,則uRLLC用戶的狀態(tài)集為:
NU={stateU1,stateU2,…,stateUm},stateUi∈{0,1}
(1)
其中,stateUi=0表示uRLLC用戶i處于休眠狀態(tài),不需要分配資源;stateUi=1表示uRLLC用戶i處于激活狀態(tài)。
當(dāng)總頻率資源塊數(shù)一定時,首先面向uRLLC用戶分配少部分資源,即私有資源,其余資源同時供2種用戶使用,通過中斷概率對傳輸可靠性進(jìn)行約束。則資源調(diào)度問題可轉(zhuǎn)化為最大化系統(tǒng)與速率為目標(biāo)的優(yōu)化問題,約束條件共有4項(xiàng),分別為uRLLC業(yè)務(wù)傳輸速率閾值約束、eMBB業(yè)務(wù)傳輸速率閾值約束、共享資源數(shù)量約束、共享資源中用戶數(shù)量約束,數(shù)學(xué)模型如下:
s.t.C1:RUi≥RUmin?stateUi=1
C2:RBj≥RBmin?j
C3:F-x≥Fb
C4:「(Nuact+Nb)*Fb/F-x?≥Nuserf≥「(Nuact+Nb)Fu/F-x?
(2)
其中,C1—C4對應(yīng)上述約束條件;RUi、RBj分別為uRLLC用戶與eMBB用戶的傳輸速率;RUmin、RBmin分別為uRLLC用戶與eMBB用戶的最小傳輸速率;F為總資源;x為私有資源數(shù)量;Fb為eMBB業(yè)務(wù)傳輸?shù)馁Y源塊數(shù);Nuact為uRLLC用戶激活數(shù)量。
在下行鏈路場景中,業(yè)務(wù)終端隨機(jī)分配到蜂窩網(wǎng)絡(luò)中,由N個小區(qū)組成,基站處于網(wǎng)絡(luò)中心,每個小區(qū)的終端數(shù)為K,有M個資源塊RB,且M (3) 整個系統(tǒng)的容量和為: (4) (5) 對于上行傳輸場景的5G uRLLC資源調(diào)度問題,本研究設(shè)計(jì)了一種基于Q學(xué)習(xí)算法的動態(tài)資源調(diào)度算法。在上行傳輸場景中,將基站設(shè)定為智能體學(xué)習(xí)資源分配策略,基站在學(xué)習(xí)時,可獲取的狀態(tài)S為: S={S1,S2,…,Sm,Sm+1,…,Sm+n-1,Sm+n} (6) 其中,Sm為用戶m各項(xiàng)參數(shù)的集合,包括位置信息、用戶狀態(tài)信息、用戶發(fā)射功率信息與信道狀態(tài)信息。 基站作為智能體,其動作空間應(yīng)劃分出私有資源分配與共享資源分配2種,私有資源分配行為定義為1,共享資源分配行為定義為0,因此基站可以執(zhí)行的某一動作a為: a={kindf1,kindf2,…,kindfl,…,kindfF}, kindfl∈{0,1} (7) 其中,kindfl=0表示資源塊l為私有資源;kindfl=1表示資源塊l為共享資源。 根據(jù)構(gòu)建的數(shù)學(xué)模型,優(yōu)化目標(biāo)設(shè)定為最大化系統(tǒng)和速率,因此可以依據(jù)系統(tǒng)和速率進(jìn)行獎勵函數(shù)的設(shè)定,此外還需要考慮系統(tǒng)的資源分配需要充分保障數(shù)據(jù)傳輸?shù)目煽啃?即保障所有用戶均可以成功傳輸,則此時可以滿足C1、C2 2個約束條件,則獎勵函數(shù)如下: (8) 其中,γUi、γBj分別為uRLLC用戶與eMBB用戶的信干燥比。 狀態(tài)轉(zhuǎn)移矩陣是指描述狀態(tài)改變的概率矩陣,馬爾科夫模型的求解通常需要采用Model-free的方法,Q學(xué)習(xí)算法正符合這一要求[3]。 基于Q學(xué)習(xí)算法的動態(tài)資源調(diào)度算法是以基站為中心面向不同業(yè)務(wù)進(jìn)行資源分配的動態(tài)資源調(diào)度算法,在對模型訓(xùn)練時,采用貝爾曼方程設(shè)計(jì)Q值更新策略,通過對下一個狀態(tài)的Q值推出當(dāng)前狀態(tài)的Q值,以狀態(tài)間的Q值比計(jì)算出增量,從而實(shí)現(xiàn)對Q值的不斷更新。在設(shè)計(jì)的算法中,Q值的更新前提為新Q值大于當(dāng)前Q值,設(shè)定的具體更新策略為: Q(st,αt)=(1-α)Q(st,αt)+α[rt(st,αt)+μmaxQ(st+1,αt+1)] (9) 其中,α為學(xué)習(xí)率,α∈[0,1]學(xué)習(xí)率的值決定了Q函數(shù)的更新速度;μ為折扣因子,μ∈[0,1],其值為0時,基站進(jìn)行學(xué)習(xí)時更側(cè)重即時獎勵,其值為1時,基站進(jìn)行學(xué)習(xí)時更側(cè)重未來回報(bào)。當(dāng)基站每更新一次Q值時,便需要利用ε貪婪策略進(jìn)行下次學(xué)習(xí)動作的更新。該策略的具體流程如下:設(shè)定常數(shù)ε,取值范圍為[0,1],當(dāng)Q學(xué)習(xí)算法需要選取動作時,常數(shù)ε隨機(jī)生成x∈[0,1],隨機(jī)生成的數(shù)x小于常數(shù)ε時,會在動作空間中隨機(jī)選取下一動作,而大于時則在現(xiàn)有動作中選取最大Q值的動作作為下一動作。本研究設(shè)計(jì)的基于Q學(xué)習(xí)算法的動態(tài)資源調(diào)度算法具體流程如圖1所示。 圖1 基于Q學(xué)習(xí)算法的動態(tài)資源調(diào)度算法 對于下行鏈路場景的5G uRLLC資源調(diào)度問題,本研究設(shè)計(jì)了一種基于終端業(yè)務(wù)調(diào)度時延要求的DPF算法,該算法在對終端資源調(diào)度的優(yōu)先級順序進(jìn)行判定時,主要依據(jù)調(diào)度時延要求、實(shí)時信道條件與獲取到的平均資源數(shù)量,則調(diào)度優(yōu)先級的判定公式如下: (9) 具體算法流程如下。 (1)將終端速率R0作為初始化速率。 (3)所有終端都可以獲得RB調(diào)度,同時下行傳輸功率進(jìn)行均分處理,求得不同終端的預(yù)計(jì)可達(dá)傳輸速率:R_exp(a,b,t0)。 (4)對所有終端的優(yōu)先級進(jìn)行更新,并按照降序方式進(jìn)行排列,將小區(qū)M個資源塊按照順序分配到前M個終端。 t=t0時隙的信道資源調(diào)度結(jié)束后,進(jìn)行功率分配,當(dāng)完成本輪的資源調(diào)度與功率分配后,接著開始下一輪的資源調(diào)度,重新從流程(1)開始。 為了驗(yàn)證本研究提出的工業(yè)互聯(lián)網(wǎng)場景下5G uRLLC資源調(diào)度方案的有效性,本節(jié)分別對2種場景的資源調(diào)度算法進(jìn)行仿真驗(yàn)證,仿真參數(shù)設(shè)定如表1所示。 表1 主要參數(shù) 針對上行傳輸場景,仿真了用戶數(shù)量變化時,不同資源分配方案對傳輸速率的影響,eMBB、uRLLC的用戶數(shù)量分別設(shè)定為5、10,在仿真條件下,系統(tǒng)迭代收斂代數(shù)為84次,因此設(shè)定最大迭代次數(shù)K為100。經(jīng)驗(yàn)證,隨著uRLLC用戶數(shù)量不斷增加,設(shè)計(jì)的資源調(diào)度算法對系統(tǒng)與速率提升效果越好,對比資源復(fù)用方案與資源預(yù)分配方案,分別平均提升了38.98%與48.74%。同時,在uRLLC平均傳輸速率方面,本研究算法也有明顯優(yōu)勢,平均傳輸速率可達(dá)114.62 bps。 針對下行鏈路場景,仿真了小區(qū)終端數(shù)量變化對系統(tǒng)可靠性與傳輸速率的影響。在仿真條件下,設(shè)計(jì)的調(diào)度算法可滿足不同等級終端的調(diào)度優(yōu)先級要求,且當(dāng)小區(qū)終端數(shù)量提高時,可靠性越高,系統(tǒng)吞吐量越小,越可以保證調(diào)度公平性,即可以保證所有終端均可以獲取到信道資源調(diào)度,可以滿足資源調(diào)度要求。 工業(yè)互聯(lián)網(wǎng)對資源調(diào)度提出了高可靠低時延的要求,5G uRLLC業(yè)務(wù)可以滿足其資源調(diào)度要求,本研究工業(yè)互聯(lián)網(wǎng)場景下5G uRLLC資源調(diào)度方案,上行傳輸場景采用基于Q學(xué)習(xí)算法的動態(tài)資源調(diào)度算法,下行鏈路場景采用基于終端業(yè)務(wù)調(diào)度時延要求的DPF算法,從而實(shí)現(xiàn)全場景下的合理資源調(diào)度。2 工業(yè)互聯(lián)網(wǎng)場景下5G uRLLC資源調(diào)度研究
2.1 上行傳輸場景的5G uRLLC資源調(diào)度
2.2 下行鏈路場景的5G uRLLC資源調(diào)度
3 仿真驗(yàn)證與分析
4 結(jié)語