楊 健,張 晶
(中國電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081)
10.3969/j.issn.1003-3114.2018.01.16
楊健,張晶.基于能效和服務(wù)質(zhì)量保障的動態(tài)資源分配機制[J].無線電通信技術(shù),2018,44(1):78-81.
[YANG Jian,ZHANG Jing.Power Efficient Resource Allocation with QoS Guaranteed [J].Radio Communications Technology,2018,44(1):78-81.]
基于能效和服務(wù)質(zhì)量保障的動態(tài)資源分配機制
楊 健,張 晶
(中國電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081)
以最小化平均消耗功率為目標(biāo),提出了一種具有服務(wù)質(zhì)量保障的用戶調(diào)度和功率分配機制。每個用戶維持一個用于存儲隨機到達(dá)業(yè)務(wù)的數(shù)據(jù)隊列,用戶的服務(wù)質(zhì)量要求被刻畫成平均排隊時延?;跓o線信道和數(shù)據(jù)隊列長度的動態(tài)變化,將用戶調(diào)度和功率分配刻畫成一個帶有約束條件的馬爾可夫決策問題。為了應(yīng)對系統(tǒng)難以精確獲取信道和數(shù)據(jù)到達(dá)過程分布參數(shù)的情況,采用Q學(xué)習(xí)算法求解馬爾科夫決策問題,進(jìn)而提出了一種在線學(xué)習(xí)的用戶調(diào)度和功率控制算法。系統(tǒng)通過在線學(xué)習(xí)進(jìn)行用戶調(diào)度和功率分配,以實現(xiàn)平均消耗功率的最小化目標(biāo)。
用戶調(diào)度;功率控制;服務(wù)質(zhì)量要求;馬爾可夫決策;Q學(xué)習(xí)
TN911.7
A
1003-3114(2018)01-78-4
2017-10-11
河北自然科學(xué)基金項目(F2014210123)
PowerEfficientResourceAllocationwithQoSGuaranteed
YANG Jian,ZHANG Jing
(The 54th Research Institute of CECT,Shijiazhuang 050081,China)
In this paper,a joint user scheduling and power control scheme is investigated for systems with quality of service (QoS) requirements to minimize the time-averaged power consumption.Each user maintains a buffer to store random arrival data,and the QoS requirements are characterized by the time-averaged queuing delay.The joint user scheduling and power control is formulated as a constrained Markov decision problem (CMDP) according to the dynamics of the wireless channels and the length of data buffers.An on-line learning based algorithm is proposed by solving the CMDP with the aid of Q-learning approach,based on which the system,without prior knowledge of the distributions of wireless channels and data arrivals,can make a user scheduling and power control decision to minimize the time-averaged power consumption.
user scheduling;power control;QoS requirement;Markov decision;Q-learning
隨著無線通信技術(shù)的高速發(fā)展和移動設(shè)備的大規(guī)模應(yīng)用,無線網(wǎng)絡(luò)承載了種類繁多的業(yè)務(wù),但是無線通信中的能耗已成為不容忽視的問題[1]。同時,業(yè)務(wù)數(shù)據(jù)在無線網(wǎng)絡(luò)傳輸過程中有其所需的服務(wù)質(zhì)量,業(yè)務(wù)數(shù)據(jù)的服務(wù)質(zhì)量保障面臨著嚴(yán)重的挑戰(zhàn)[2]。而無線信道的時變特性和有限的網(wǎng)絡(luò)承載能力對網(wǎng)絡(luò)的能效和業(yè)務(wù)的服務(wù)質(zhì)量保障產(chǎn)生嚴(yán)重影響。因此如何設(shè)計有效的資源動態(tài)分配算法和用戶調(diào)度策略用以保障服務(wù)質(zhì)量是一個永恒的挑戰(zhàn)[3-6]。
文獻(xiàn)[7]將服務(wù)質(zhì)量要求量化為實時傳輸速率限制條件,以最小化傳輸功率為目標(biāo),提出了一種功率和用戶調(diào)度機制。文獻(xiàn)[8]將服務(wù)質(zhì)量要求量化為用戶之間的實時傳輸速率比例限制條件,并提出了一種能量有效的功率控制和用戶調(diào)度算法。針對服務(wù)質(zhì)量要求用戶和無服務(wù)質(zhì)量要求用戶共存的無線網(wǎng)絡(luò),文獻(xiàn)[9]提出了一種優(yōu)先保障用戶服務(wù)質(zhì)量要求的資源分配和用戶調(diào)度算法。
盡管文獻(xiàn)[7-9]提出的算法在相應(yīng)場景下都能實現(xiàn)相應(yīng)系統(tǒng)效能的最優(yōu)化,并能很好的保障用戶服務(wù)質(zhì)量要求。但文獻(xiàn)[7-9]提出的算法都是基于信道狀態(tài)信息,通過傳統(tǒng)的凸優(yōu)化理論實現(xiàn)的。然而,在實際系統(tǒng)中,每個用戶在數(shù)據(jù)鏈路層都維持著一個用于存儲隨機到達(dá)業(yè)務(wù)的數(shù)據(jù)隊列。因此,在面向?qū)嶋H系統(tǒng)設(shè)計具有服務(wù)質(zhì)量保障的資源分配算法時,必須同時考慮信道狀態(tài)信息和用戶數(shù)據(jù)隊列狀態(tài)信息。
從保障實際系統(tǒng)服務(wù)質(zhì)量的角度出發(fā),以最小化平均消耗功率為目標(biāo),提出了一種基于信道狀態(tài)信息和用戶數(shù)據(jù)隊列狀態(tài)信息的用戶調(diào)度和功率控制算法。首先將服務(wù)質(zhì)量保障問題刻畫成一個有約束條件的馬爾可夫決策問題??紤]在實際系統(tǒng)中很難獲取信道分布和隨機到達(dá)分布,采用Q學(xué)習(xí)算法求解馬爾科夫決策問題,進(jìn)而提出了一種在線學(xué)習(xí)的用戶調(diào)度和功率控制算法,從而在保障用戶服務(wù)質(zhì)量要求的前提下最小化系統(tǒng)平均消耗功率。
如圖1所示,考慮一個時分多址上行系統(tǒng),系統(tǒng)包含一個基站和K個用戶。K個用戶通過無線信道向基站傳輸數(shù)據(jù)。每個用戶維持一個數(shù)據(jù)隊列以儲存沒有被及時發(fā)送的數(shù)據(jù)包。若用Qk(t)表示用戶k在時隙t開始時刻數(shù)據(jù)隊列中數(shù)據(jù)包數(shù)量,則Qk(t)滿足
Qk(t+1)=[Qk(t)-Rk(t)]++ak(t)
(1)
式中,Rk(t)表示在時隙t用戶k到基站的傳輸速度,單位為數(shù)據(jù)包/s;ak(t)為隨機到達(dá)速率,用以刻畫業(yè)務(wù)到達(dá)的隨機性;[x]+表示max{x,0}。
圖1 系統(tǒng)模型
定義hk(t)為用戶k與基站之間在時隙t的信道增益,則基站在以速度Rk(t)服務(wù)用戶k的情況下需要消耗的功率為:
(2)
式中,N0和B分別代表白噪聲功率和系統(tǒng)帶寬。假定信道增益hk(t)在每個時隙內(nèi)保持不變,但是在不同時隙間是獨立同分布的。為衡量用戶到基站的端到端時延,用平均隊列時延來刻畫用戶的服務(wù)質(zhì)量要求,即
(3)
本文的目標(biāo)是在滿足所有用戶服務(wù)質(zhì)量要求的前提下,最小化系統(tǒng)總的平均功率消耗。相應(yīng)的問題可以表述為
(4)
式(4)包含一個時間平均的目標(biāo)函數(shù),K個時間平均的約束條件和一個線性功率約束條件。不能使用傳統(tǒng)的線性/非線性優(yōu)化方法解決上述優(yōu)化問題。文中,采用馬爾可夫決策描述式(4),并提出一種基于在線Q學(xué)習(xí)的用戶調(diào)度和功率控制算法以適用實際系統(tǒng)不知道信道參數(shù)分布的情況。
使用K-Means算法需要預(yù)先確定K的值,故本文利用最小生成樹算法估計K值,再利用K-Means算法將數(shù)據(jù)進(jìn)行分類,以達(dá)到劃分腦區(qū)或ROI的效果。
定義H(t)={hk(t),?k}和Q(t)={Qk(t),?k}分別為系統(tǒng)在時隙t的全局信道狀態(tài)信息和全局隊列狀態(tài)信息。若系統(tǒng)在時隙t的狀態(tài)信息表示為X(t)=(H(t),Q(t)),由于不同用戶的信道增益在不同時隙間是獨立同分布的,因此{(lán)X(t)}是一個馬爾可夫過程,則系統(tǒng)狀態(tài)的轉(zhuǎn)移概率可以表示為:
Pr(X(t+1)|X(t))=
Pr(H(t+1))Pr(Q(t+1)|X(t),Q(t))。
(5)
由以上分析可知,式(4)是一個有約束條件的馬爾科夫決策問題?;趧討B(tài)優(yōu)化理論[10],可將帶有約束條件的馬爾可夫決策式(4)轉(zhuǎn)變?yōu)闊o約束的馬爾科夫決策式(6):
(6)
(7)
式中,s和s'分別表示相鄰時隙的系統(tǒng)狀態(tài),V(s)稱之為系統(tǒng)在狀態(tài)s的值函數(shù)。
(8)
(9)
在實際系統(tǒng)中,很難精確獲取信道增益和隨機到達(dá)過程的分布參數(shù),因此很難直接用傳統(tǒng)值函數(shù)迭代的方式求解貝爾曼方程(7)。下面將介紹在道信道增益分布函數(shù)和隨機到達(dá)過程分布未知的情況下,系統(tǒng)如何采用基于Q學(xué)習(xí)的值函數(shù)迭代算法來求解貝爾曼方程式(7)。
由式(7)、式(8)、式(9)可知,系統(tǒng)最優(yōu)的用戶調(diào)度和功率控制策略由每個用戶的值函數(shù)Vk(sk)決定,而值函數(shù)的更新則決定于系統(tǒng)狀態(tài)的轉(zhuǎn)移。因此,利用Q學(xué)習(xí)算法[10]近似逼近值函數(shù)Vk(sk)和與之相對應(yīng)的拉格朗日乘子μk,具體計算公式為
Vk(X(t+1))];
(10)
Vk(Xk(t+1))=(1-ft)Vk(Xk(t))+ft{P(t)+
(11)
μk,t+1=μk,t+et(I(Qk(t)=0)-εk)。
(12)
式中,ft和et稱為步長,并且滿足以下條件:
(13)
根據(jù)以上分析,提出一種基于Q學(xué)習(xí)的用戶調(diào)度和功率控制算法。具體算法流程如下所示:
④ 利用式(11)在線更新值函數(shù)Vk(Xk(t+1));
⑤ 利用式(12)在新更新拉格朗日乘子μk,t+1;
⑥ 重復(fù)步驟②~⑤直至傳輸結(jié)束。
本節(jié)驗證提出的用戶調(diào)度和功率控制算法。仿真場景中,用戶隨機分布在基站覆蓋區(qū)域內(nèi),且假定用戶與基站的最小距離為40 m,最大距離為300 m。用戶最大發(fā)射功率為4 J/s,系統(tǒng)白噪聲功率為-174 dBm/Hz[11]。假定用戶到基站之間的信道增益同時包含路徑損耗和小尺度衰落。路徑損耗由用戶與基站之間的距離d決定且路徑損耗系數(shù)為3[10],即d-3;小尺度衰落采用瑞利衰落模型f(x)=1/αexp(-x/α),其中參數(shù)α和文獻(xiàn)[10]中一致。數(shù)據(jù)包的長度為4 000 bits,系統(tǒng)時隙長度為1 ms。所有用戶能夠容忍的平均隊列時延為5個數(shù)據(jù)包長度,用戶的隨機達(dá)到過程為平均速率為0.5數(shù)據(jù)包/時隙的泊松到達(dá)過程。系統(tǒng)采用實際的BPSK、QPSK、8-QAM、16-QAM、32-QAM、64-QAM、128-QAM、256-QAM調(diào)制方式。為突出本文提出算法性能,將其與文獻(xiàn)[7]中的算法進(jìn)行對比。文獻(xiàn)[7]中的算法不能根據(jù)隊列狀態(tài)信息調(diào)整傳輸速率,因此用戶被調(diào)度時的傳輸速率固定為用戶到達(dá)速率乘以用戶個數(shù)。
圖2描述了在一個擁有3個用戶的系統(tǒng)中,拉格朗日乘子的收斂性曲線。從圖2可以看出,拉格朗日乘子收斂速度比較快,大概迭代300次(時隙)就能收斂。在仿真中,系統(tǒng)帶寬B=4 MHz,設(shè)定時隙長度為1 ms,即本文提出的基于Q學(xué)習(xí)的用戶調(diào)度和功率控制算法收斂時間大概為0.3 s。一般情況下用戶的業(yè)務(wù)傳輸時間單位以或計算,遠(yuǎn)遠(yuǎn)大于本文提出的算法的收斂時間。因此,本文所提算法能很容易的應(yīng)用于實際無線網(wǎng)絡(luò)。
圖3描述了在不同用戶數(shù)的場景中,系統(tǒng)帶寬B為4 MHz時系統(tǒng)平均消耗的功率情況。從圖3中可以清楚地看出,與文獻(xiàn)[7]中的算法相比,本文提出的功率控制和用戶調(diào)度算法的性能更好,即消耗的平均功率更小。這是因為文獻(xiàn)[7]中的算法只考慮了信道狀態(tài)信息對功率消耗的影響,而本文提出的算法同時考慮了信道狀態(tài)信息和數(shù)據(jù)隊列狀態(tài)信息對功率消耗的影響。同時,隨著用戶的增加,系統(tǒng)消耗的平均功率也會增加。這種現(xiàn)象是合理的,因為隨著用戶數(shù)的增加,用戶競爭信道的概率增加,即在單個時隙內(nèi)需消耗更多的功率發(fā)送數(shù)據(jù)包。
圖2 拉格朗日乘子收斂性
圖3 用戶數(shù)不同時平均消耗功率
針對時間平均質(zhì)量保障的需求,以最小化平均功率消耗為目標(biāo),考慮實際系統(tǒng)很難精確獲取信道分布參數(shù)和隨機到達(dá)過程參數(shù)的情況,提出了一種基于Q學(xué)習(xí)的用戶調(diào)度和功率控制算法,從而在保障用戶服務(wù)質(zhì)量要求的前提下實現(xiàn)系統(tǒng)平均消耗功率的最小化目標(biāo)。仿真結(jié)果表明提出的在線學(xué)習(xí)算法在信道分布和到達(dá)過程先驗知識未知的情況下仍能取得明顯的性能提升。
[1] 吳凡,毛玉明,黃曉燕.OFDMA系統(tǒng)中最優(yōu)能效功率分配[J].電子與信息學(xué)報,2014,36(7):1673-1679.
[2] 吳冀衍,喬秀全,程渤.延遲敏感的移動多媒體會議端到端服務(wù)質(zhì)量保障[J].計算機學(xué)報,2013,36(7):1399-1412.
[3] 劉賀,張陸勇,陳明剛,等.無線Mesh網(wǎng)絡(luò)集中式信道分配算法設(shè)計[J].無線電工程,2011,41(5):4-6.
[4] 程靜,秘建寧,劉科科.一種認(rèn)知網(wǎng)絡(luò)中的帶寬分配方法研究[J].無線電工程,2013,43(2):5-9.
[5] 宋蒙,范斌,孫雷.LTE系統(tǒng)小數(shù)據(jù)包業(yè)務(wù)無線資源優(yōu)化研究[J].移動通信,2014,38(15):85-90.
[6] 趙希鵬,張欣,楊大成,等.基于QoE的無線網(wǎng)絡(luò)資源調(diào)度優(yōu)化研究[J].移動通信,2014,38(22):8-13.
[7] Kivanc D,Li G,Liu H.Computationally Efficient Bandwidth Allocation and Power Control for OFDMA [J]IEEE Transactions on Wireless Communications,2003,2(5):940-947.
[8] Girici T,Zhu C,Agre J.Proportional Fair Scheduling Algorithm in OFDMA-Based Wireless Systems with QoS Constraints[J].Journal on Communications and Networking,208,12(1):30-32.
[9] Ren Z,Chen S,Hu B.Energy-Efficient Resource Allocation in Downlink OFDM Wireless Systems with Proportional Rate Constraints [J]IEEE Transaction on Vehicular Technology,2010,53(4):2108-2110.
[10] Salodkar N,Bhorka A,Karandikar A.An On Line Learning Algorithm for Energy Efficient Delay Constrained Scheduling over a Fading Channel [J].IEEE Journal on Selected Areas in Communications,2008,26(4):732-742.
[11] Perez D,Xiao C,Vasilakos A.Power Minimization Based Resource Allocation for Interference Mitigation in OFDMA Femtocell Networks [J].IEEE Journal on Selected Areas in Communications,2014,32(2):333-344.
楊健(1989—),男,博士,工程師,主要研究方向:無人機/彈群數(shù)據(jù)鏈動態(tài)組網(wǎng)協(xié)議、面用服務(wù)質(zhì)量的跨層資源配置;
張晶(1989—),女,碩士,助理工程師,主要研究方向:通信數(shù)據(jù)鏈、面用服務(wù)質(zhì)量的跨層資源配置。