趙治羽,張 娟
(西南科技大學(xué)信息工程學(xué)院,四川綿陽621010)
基于跨層優(yōu)化的HE-PDS最優(yōu)傳輸算法設(shè)計
趙治羽,張 娟
(西南科技大學(xué)信息工程學(xué)院,四川綿陽621010)
針對信道狀態(tài)時變性以及無線設(shè)備電量有限性的影響,從跨層設(shè)計的角度出發(fā),聯(lián)合物理層發(fā)送功率和信道狀態(tài)條件以及鏈路層的緩沖隊列擁塞控制來尋找最優(yōu)傳輸策略,并提出一種啟發(fā)式評估后決策算法(HE-PDS)進(jìn)行求解。仿真分析表明該算法在動態(tài)無線環(huán)境下能以較快的速度收斂于最優(yōu)傳輸策略,對于不同的延時和吞吐量限制,該算法的性能要明顯優(yōu)于傳統(tǒng)的Q學(xué)習(xí)算法和后決策狀態(tài)學(xué)習(xí)算法。
跨層優(yōu)化;啟發(fā)式評估后決策算法;最優(yōu)傳輸
對于靠電池提供有限電能的無線通信,最小化能量開銷已成為一項巨大的挑戰(zhàn)[1]。然而,受信道狀態(tài)、包到達(dá)速率和緩沖隊列的時變性以及業(yè)務(wù)特征的動態(tài)性等因素的影響,這一問題變得非常復(fù)雜[2]。目前關(guān)于無線傳輸節(jié)能問題的相關(guān)研究現(xiàn)狀如下。
文獻(xiàn)[3]分析了延時和能量開銷間的平衡,文獻(xiàn)[4-5]分析了吞吐量和能量開銷間的平衡。這些研究獲得了較好的節(jié)能效果,但沒有綜合考慮延時、吞吐量和能量開銷三者間的平衡。針對MDP模型特點,文獻(xiàn)[4-6]將最優(yōu)包傳輸策略建模成一個控制策略,借助強化學(xué)習(xí)(Reinforcement Learning,RL)理論進(jìn)行求解。然而,上述傳輸策略是通過離線計算來完成的,這使得其應(yīng)用受到較大限制。文獻(xiàn)[3]經(jīng)引入后決策狀態(tài)(Post Decision State,PDS)和PDS值函數(shù)來構(gòu)建PDS算法,但其未考慮系統(tǒng)級的電源狀態(tài)對傳輸模型的影響。文獻(xiàn)[6]雖基于PDS算法考慮了電源狀態(tài)變化,并獲得了較好的節(jié)能策略,但卻未對學(xué)習(xí)中動作探索和利用進(jìn)行動態(tài)平衡,因此算法的收斂性能有待提高。
為解決以上問題,本文綜合考慮系統(tǒng)的吞吐量和傳輸延時,提出一種基于啟發(fā)式評估后決策狀態(tài)(Heuristic Evaluation Post Decision State,HE-PDS)算法的包傳輸策略。該算法計算復(fù)雜度低、收斂速度快,使得其在延時和吞吐量的限制下能獲得較好的節(jié)能性能。
如圖1所示,傳輸模型是收發(fā)雙方在時變信道條件下,通過有限緩沖隊列傳輸數(shù)據(jù)。本文把傳輸時間劃為等長的時隙,時隙周期為Δt,時隙n代表離散時間段[nΔt,(n+1)Δt]。設(shè)傳輸決策和電源管理決策在每個時隙前是確定的,系統(tǒng)狀態(tài)信息在每個時隙中不變。根據(jù)接收端反饋的延時、吞吐量和信道狀態(tài)信息,發(fā)送端對傳輸速率和傳輸功率分別進(jìn)行自適應(yīng)調(diào)整。
1.1 PHY信道模型
考慮一個帶有加性高斯白噪聲的離散塊狀衰落瑞利信道模型[7-8],其功率譜密度為N0/2,無線信道帶寬為W。信道狀態(tài)轉(zhuǎn)移只發(fā)生在相鄰信道狀態(tài)之間,在一個時隙內(nèi),信道增益固定不變。如圖2所示,本文采用具有k個信道狀態(tài)的有限狀態(tài)馬爾科夫信道模型(Finite State Markov channel,F(xiàn)SMC)來描述無線信道。
圖1 無線通信模型
圖2 FSMC模型
式中:πk為信道平穩(wěn)狀態(tài)概率,即
1.2 MAC緩沖隊列模型
如圖3所示,設(shè)緩沖隊列具有先進(jìn)先出特性。緩沖隊列容量為B個數(shù)據(jù)包。緩沖隊列滿時,新到數(shù)據(jù)包被丟棄。每個時隙到達(dá)的數(shù)據(jù)包為獨立隨機分布,在第n時隙,發(fā)送端將上層到達(dá)的l個數(shù)據(jù)包存儲在緩沖隊列,并將緩沖隊列中一些數(shù)據(jù)包發(fā)送出去。
圖3 緩沖隊列時序圖
設(shè)發(fā)送端在第n時隙可傳輸zn包數(shù)據(jù),其中,zn∈{0,1,…,B},受系統(tǒng)誤比特率(Bit Error Ratio,BER)的影響,接收端所接收的數(shù)據(jù)包數(shù)fn(BERn,zn)≤zn,設(shè)傳輸?shù)臄?shù)據(jù)包間相互獨立,因此fn服從二項式分布
式中:PER是包丟失率(Packet Error Ratio),且PERn= 1-(1-BERn)ln。
設(shè)緩沖隊列初始時有bint包數(shù)據(jù),n時隙緩沖隊列有bn包數(shù)據(jù),因此發(fā)送端緩沖隊列中的數(shù)據(jù)包數(shù)為
傳統(tǒng)的Q學(xué)習(xí)算法在狀態(tài)—動作對的學(xué)習(xí)過程中,往往假設(shè)環(huán)境狀態(tài)信息是完全不確定的,然而,在許多通信模型中,可分類出確定的環(huán)境信息。這樣在學(xué)習(xí)中就能充分利用系統(tǒng)確定的狀態(tài)信息,縮短收斂到最優(yōu)策略的時間。PDS算法是改進(jìn)后的Q算法[6],不同的是,它通過引入PDS來組織和構(gòu)建對最優(yōu)策略的搜索[9]。
2.1 HE-PDS算法描述
在RL中,PDS算法可利用已確定信息來減少動作的探索[6],但卻不能對動作的探索與利用進(jìn)行平衡。本文設(shè)計的HE-PDS算法解決了該問題,在HE-PDS算法中,使用啟發(fā)函數(shù)和評估函數(shù)來改進(jìn)貪婪算法。啟發(fā)函數(shù)和評估函數(shù)分別為狀態(tài)sn時執(zhí)行動作an的重要性和可行性。
式中:ε和ω用于權(quán)衡啟發(fā)函數(shù)和評估函數(shù)的影響;q是均勻分布在0~1間的隨機值;p(0≤p≤1)為探索與利用的比重,p越大,隨機選擇的概率越小。啟發(fā)函數(shù)Hn(sn,an)影響動作選擇,但因大部分動作不滿足最優(yōu)策略要求,需經(jīng)評估函數(shù)En(sn,an)來減少待選動作數(shù)量。為了最小化啟發(fā)函數(shù)和評估函數(shù)的誤差,其值要盡可能低,相應(yīng)函數(shù)值分別定義為
式中:σ是一個較小的實數(shù);πH(sn)是啟發(fā)式建議動作。另外,式(5)中arandom是sn下從所有可能動作中隨機選擇的動作,即故意執(zhí)行一種非最優(yōu)動作來獲得未知狀態(tài)的知識。為保證探索過程中所有狀態(tài)-動作對遍歷的有效性,本文采用文獻(xiàn)[10]中的模擬退火算法進(jìn)行動作選擇。在當(dāng)前狀態(tài)下執(zhí)行動作a的概率為
式中:τ為溫度系數(shù),其控制動作選擇的隨機程度。
無線傳輸節(jié)能模型的求解過程為:利用HE-PDS算法與環(huán)境交互,對第n次學(xué)習(xí)中系統(tǒng)觀察當(dāng)前狀態(tài)為sn,選擇和執(zhí)行動作an,接受立即回報r(s,a)和r),再觀察后續(xù)狀態(tài) sn+1,根據(jù)式(9)來調(diào)整的值。
2.2 算法步驟
根據(jù)上述分析,HE-PDS算法的算法步驟:
第二步:對于當(dāng)前狀態(tài)sn,執(zhí)行由式(8)所得到的動作an,觀察立即回報r()和下一個狀態(tài)an+1;
第四步:更新時間索引n←n+1;
第五步:如果n小于仿真次數(shù)N,轉(zhuǎn)向第二步,否則仿真結(jié)束。
針對本文所提出的HE-PDS節(jié)能算法分別在固定延時和吞吐量限制、不同延時和不同吞吐量限制下,與傳統(tǒng)Q算法和PDS算法的節(jié)能算法進(jìn)行了對比,并對三者的收斂性進(jìn)行了仿真分析。
3.1 仿真環(huán)境及參數(shù)配置
為驗證HE-PDS算法對無線通信節(jié)能策略的有效性,假設(shè)物理層設(shè)計為處理QAM矩陣星座,并使用格雷碼將信息比特映射成QAM符號;緩沖隊列B=25,包大小為5 000 bit,包到達(dá)概率分布和信道轉(zhuǎn)移概率是先驗不確定的,其信道狀態(tài)及轉(zhuǎn)移概率見表1。
表1 信道狀態(tài)及其轉(zhuǎn)移概率
噪聲功率譜密度N0/2=10-11W/Hz,帶寬W與符號率相等(W=1/Ts),1/Ts=500×103symbol/s。在典型IEEE802.11a/b/g無線網(wǎng)卡應(yīng)用中,設(shè)定Pidle為0.05 W,Pon和Ptr為0.31W,時隙周期為1 ms,BER為{2,4,8,16,32}×10-6%,傳輸動作z為{0,1,2,…,10}packet/slot。因此仿真實驗共有7×26×2×5×11×2個狀態(tài)—動作對。設(shè)折現(xiàn)系數(shù)γ=0.98,啟發(fā)評估函數(shù)的參數(shù)設(shè)置為: ε=ω=1,p=0.78,σ=0.005,τ=5 000。
3.2 固定延時和吞吐量限制
圖4是三種算法在最大延時限制值和最大吞吐量限制值分別為4/B包和0.1/B包時進(jìn)行80 000次仿真的結(jié)果對比圖。
從圖4a中可看出PDS算法和HE-PDS算法的平均累積總開銷較傳統(tǒng)的Q算法下降了10倍左右。同時,從圖4a,4b,4c知,相對于PDS算法,HE-PDS算法的平均累積總開銷、平均累積延時開銷、平均累積吞吐量開銷降低較為明顯,分別降低了8%,10%,9%左右。另外,從圖4d可知,Q算法在仿真初期能量開銷較小。但隨著仿真時間的增加,其能量開銷也隨之增加,并在第40 000時隙左右達(dá)到穩(wěn)定。而PDS算法和HE-PDS算法在仿真初期由于沒有無線環(huán)境的全部先驗知識,其能量開銷較大,但隨著學(xué)習(xí)次數(shù)增加,其能量開銷也隨之減小。HE-PDS算法在滿足固定延時和吞吐量限制下,能較快降低系統(tǒng)的能量開銷,并具有快速的收斂速度。
3.3 不同延時和吞吐量限制
1)不同延時限制下的性能分析
為驗證不同延時限制下的算法性能,對延時限制值為[3,4,5,6,7,8,9,10,11]/B packet/slot分別進(jìn)行仿真。圖5為三種學(xué)習(xí)算法的仿真結(jié)果。
圖4 固定延時和吞吐量限制下的仿真結(jié)果
圖5 不同延時限制下的能量開銷
從圖5可以看出,對不同延時限制值,HE-PDS算法的能量開銷較Q算法和PDS算法的能量開銷分別減小50%和28%左右。隨著延時限制值逐漸變大,三種算法的能量開銷也隨之變小,且Q算法和PDS算法分別在9/B packet/slot和8/B packet/slot達(dá)到穩(wěn)定,而HE-PDS算法在5/B packet/slot達(dá)到穩(wěn)定。因此,在不同延時限制下,HE-PDS算法在減少能量開銷方面有明顯優(yōu)勢。
2)不同吞吐量限制下的性能分析
為驗證不同吞吐量限制的算法性能,對[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]/B packet/slot的吞吐量限制進(jìn)行算法仿真,如圖6所示的仿真結(jié)果。
圖6 不同吞吐量限制下的能量開銷
從圖6可以看出,在不同吞吐量限制下,Q算法和PDS算法的能量開銷較HE-PDS算法要大100%和56%左右。Q算法和PDS算法在吞吐量為0.7/B packet/slot后趨于穩(wěn)定,HE-PDS算法能較快尋找到最優(yōu)策略,在吞吐量限制為0.5/B packet/slot后即趨于穩(wěn)定。顯然,HE-PDS算法具有更好的學(xué)習(xí)性能。
在滿足延時和吞吐量限制的動態(tài)業(yè)務(wù)特征下,降低能量開銷給無線通信帶來了巨大的挑戰(zhàn)。由于點對點無線業(yè)務(wù)傳輸過程中,受動態(tài)的緩沖隊列、時變的信道條件以及系統(tǒng)級的動態(tài)電源能量消耗對無線傳輸?shù)挠绊?,本文提出一種HE-PDS算法,通過配置跨層參數(shù)實現(xiàn)用戶在動態(tài)未知環(huán)境中的節(jié)能策略。仿真結(jié)果表明在固定的延時和吞吐量限制以及不同的延時、不同的吞吐量限制下該算法與傳統(tǒng)的Q算法、PDS算法相比具有更好的學(xué)習(xí)性能。
[1]MADAN R,CUIS,LALLS,etal.Cross-layer design for lifetimemaximization in interference-limited sensor networks[J].IEEE Trans.Wireless Communications,2006(11),3142-3152.
[2]YANG J,ULUKUSS.Optimal packetscheduling in an energy harvesting communication system[J].IEEE Trans.Communications,2012,60(1): 220-230.
[3]SALODKAR N,BHORKAR A,KARANDIKAR A,et al.An on-line learning algorithm for energy efficient delay constrained scheduling over a fading channel[J].IEEE Journal on Selected Areas in Communications,2008,26(4):732-742.
[4] ZHONG X,XU C.Energy-efficient wireless packet schedulingwith qualityof service control[J].IEEE Trans.Mobile Computing,2007,6 (10):1158-1170.
[5]HOANG A T,MOTANIM.Cross-layer adaptive transmission:optimal strategies in fading channels[J].IEEE Trans.Communications,2008,56(5):799-807.
[6]MASTRONARDE N,SCHAAR M V D.Fast reinforcement learning for energy-efficient wireless communication[J].IEEE Trans.Signal Processing,2011,59(12):6262-6266.
[7]白鷺,郭靜波.多徑衰落信道下混沌直擴通信的可破解性[J].物理學(xué)報,2011,60(7):82-89.
[8]HUSSAIN S I,HASNA M O.Performance analysis of selective cooperation with fixed gain relays in Nakagami-m channels[J].MS Physical Communication,2012,5(3):272-279.
[9]PANDANA C,LIU K JR.Throughputmaximization for energy efficient multi-node communicaitons using actorcritic approach[C]// Proc.Global Telecommunicaitons Conference.Dallas:IEEE Press,2004:3578-3582.
[10]BANDYOPADHYAY S,SAHA S,MAULIK U,etal.A simulated annealing-based multiobjective optimization algorithm:AMOSA[J].IEEE Trans.Evolutionary Computation,2008,12(3):269-283.
Design of HE-PDSOptimal Transm ission Based on Cross-layer Optim ization
ZHAO Zhiyu,ZHANG Juan
(School of Information Engineering,Southwest University of Science and Technology,Sichuan Mianyang 621010,China)
Due to time-varying channel state and limited energy supply,in thispaper,a Heuristic Evaluation Post-decision State learning algorithm is proposed with the aspect in cross-layer design by analyzing the system cross-layer parameter adjustment,the transmitting power and channel state condition at the physical layer and the buffer congestion control at themedia access control layer are jointly considered to achieve a scheduling policingmechanism.The simulation results demonstrate that the proposed algorithm has better performance than the traditional Q learning algorithms and PDS learning algorithm.
cross-layer optimization;heuristic evaluation post decision;optimal transmission
TN92
A
?? 京
2014-03-14
【本文獻(xiàn)信息】趙治羽,張娟.基于跨層優(yōu)化的HE-PDS最優(yōu)傳輸算法設(shè)計[J].電視技術(shù),2014,38(23).
國家自然科學(xué)基金項目(61379005);西南科技大學(xué)博士基金項目(122x7127)