周 洋,周 琴,吳楚鑫
(湖北大學(xué) 湖北 武漢 430062)
為了滿足頻譜需求,部署在授權(quán)頻段上的LTE開始轉(zhuǎn)向非授權(quán)頻段,Rel-13提出了在未授權(quán)頻譜上的授權(quán)輔助(licensed-assisted access,LAA)技術(shù)。5GHz頻段上有豐富的頻譜資源,但已部署有Wi-Fi技術(shù),因此LAA和Wi-Fi的公平高效共存問題一直在被研究。授權(quán)輔助(licensed-assisted access,LAA)引入先聽后說(listen before talk,LBT)公平機(jī)制,該機(jī)制主要是對信道進(jìn)行監(jiān)聽,當(dāng)信道顯示忙碌時(shí),等待數(shù)據(jù)傳輸?shù)墓?jié)點(diǎn)應(yīng)該延遲訪問進(jìn)入回退階段,它需要從競爭窗口中隨機(jī)選擇一個(gè)回退時(shí)間,在回退階段結(jié)束后再傳輸數(shù)據(jù)。Wi-Fi采用與此類似的帶有沖突避免的載波偵聽多路訪問(carrier sense multiple access with collision avoid,CSMA/CA)機(jī)制[1],經(jīng)過一段空閑的分布式幀間間隙(distributed inter-frame spacing,DIFS)后,節(jié)點(diǎn)進(jìn)入回退階段,當(dāng)回退時(shí)間減少至零時(shí)開始傳輸數(shù)據(jù)。
為了獲得更大的可用帶寬和更高的數(shù)據(jù)傳輸速率,LAA引入了多載波LBT機(jī),通過聚合多個(gè)載波傳輸數(shù)據(jù)。該機(jī)制有兩種類型,類型A和類型B。在類型A中,每個(gè)候選載波都需要進(jìn)行LBT過程,且使用率先完成LBT的載波來進(jìn)行數(shù)據(jù)傳輸,顯然在每個(gè)載波上進(jìn)行LBT過程會(huì)造成資源的浪費(fèi)。而在類型B中首先在候選載波中選出一個(gè)載波作為主載波在其上進(jìn)行LBT過程,當(dāng)主載波上的LBT快結(jié)束時(shí),在其他的輔助載波上進(jìn)行一個(gè)快速的CCA過程,然后將主載波與空閑的輔助載波進(jìn)行聚合來傳輸數(shù)據(jù)。Wi-Fi引入了信道綁定技術(shù),信道綁定技術(shù)是指在根據(jù)選定主信道之后再盡可能地與其他空閑連續(xù)信道進(jìn)行綁定。多信道的傳輸雖然可以提高數(shù)據(jù)的傳輸效率但是也有增加節(jié)點(diǎn)之間碰撞的風(fēng)險(xiǎn),因此節(jié)點(diǎn)在競爭信道時(shí),信道的選取十分重要。Liu、Shen等[2]提出了一種針對B型LBT的主載波選擇機(jī)制,即先完成LBT過程的載波被選為主載波,不觀察信道情況而隨意選取主信道的方式過于隨意,會(huì)降低系統(tǒng)的性能。高通協(xié)議提出了一種基于自延遲的LBT機(jī)制來實(shí)現(xiàn)多載波運(yùn)行。每個(gè)節(jié)點(diǎn)將獨(dú)立執(zhí)行LBT過程,如果其中一個(gè)節(jié)點(diǎn)完成了LBT過程,則需要繼續(xù)等待,直到LBT同步邊界(LSB)允許其他節(jié)點(diǎn)完成退避。這種方法會(huì)使得率先完成LBT過程的節(jié)點(diǎn)因?yàn)榈却渌?jié)點(diǎn)上的LBT過程而失去傳輸機(jī)會(huì)。Faridi A等[3]在不存在碰撞的假設(shè)下,提出了利用馬爾可夫鏈模型來提高系統(tǒng)性能的方法。這種方式過于理想,在現(xiàn)有的無線接入機(jī)制中,不可能忽略節(jié)點(diǎn)之間的碰撞。Kai、Liang等[4]提出了一種實(shí)現(xiàn)DCB無線局域網(wǎng)最大吞吐量的信道分配算法。將吞吐量最大化建模為整數(shù)非線性規(guī)劃問題,并采用基于分支定界法的最優(yōu)信道分配算法求解該問題。這種方法計(jì)算的過程較為復(fù)雜繁瑣,需要大量的計(jì)算。Lanante L等[5]提出了一種通過計(jì)算閾值來確定是否綁定更寬的信道方法,該算法需要的網(wǎng)絡(luò)參數(shù)較多,不便收集。
近年來對深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的研究十分廣泛,DRL是強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)和深度學(xué)習(xí)(deep learning,DL)的結(jié)合體,RL擅長學(xué)習(xí)解決問題的策略,但由于維度問題缺乏拓展性。DL具有強(qiáng)大的函數(shù)擬合能力和表示學(xué)習(xí)特性,能在一定程度上解決了自身高維度的本質(zhì)特性。DRL包含了強(qiáng)化學(xué)習(xí)(RL)的學(xué)習(xí)能力和深度神經(jīng)網(wǎng)絡(luò)的泛化和逼近能力。在無線通信中,可以采用DRL的方式來選擇最佳競爭窗口來提高系統(tǒng)的性能[6]。另外,流量達(dá)到的模式也可以通過DRL在線學(xué)習(xí)來適應(yīng)不斷變化的環(huán)境[7]。
在LAA和Wi-Fi的公平高效共存問題上,假如LAA或Wi-Fi系統(tǒng)其中一種使用多信道數(shù)據(jù)傳輸?shù)姆绞?,則會(huì)對另一系統(tǒng)不公平。目前很少有論文研究當(dāng)這兩類異構(gòu)的網(wǎng)絡(luò)節(jié)點(diǎn)同時(shí)引入多信道數(shù)據(jù)傳輸?shù)募夹g(shù)的情況。
結(jié)合上述分析,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的智能算法。在將LAA的多載波LBT機(jī)制和Wi-Fi信道綁定技術(shù)同時(shí)引入信道競爭的情況下,節(jié)點(diǎn)通過智能信道選擇來提高系統(tǒng)性能。另一方面,單agent DRL會(huì)使動(dòng)作空間的大小隨著網(wǎng)絡(luò)異構(gòu)節(jié)點(diǎn)的數(shù)量呈指數(shù)增長,嚴(yán)重影響了學(xué)習(xí)速度。為了加快學(xué)習(xí)速度,本文采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)來快速達(dá)到收斂效果。
假設(shè)考慮有NL個(gè)LAA節(jié)點(diǎn)和NW個(gè)Wi-Fi節(jié)點(diǎn),以及K條20MHz的基本信道。Wi-Fi節(jié)點(diǎn)在綁定信道時(shí)嚴(yán)格按照如圖一所示的信道化標(biāo)準(zhǔn)[8],它可以將相鄰不重疊的基本信道綁定成20 MHz、40 MHz、80 MHz、160 MHz的寬信道,且Wi-Fi節(jié)點(diǎn)采用802.11 ac節(jié)點(diǎn)。假設(shè)K=4,Wi-Fi節(jié)點(diǎn)i可用信道集合Ci={[1],[2],[3],[4],[1,2][3,4][1,2,3,4]}。LAA節(jié)點(diǎn)j在使用多載波LBT機(jī)制時(shí),只要聚合的載波數(shù)量在候選載波數(shù)量范圍之內(nèi),載波的數(shù)量以及載波是否為連續(xù)載波不受限制,因此LAA節(jié)點(diǎn)j可用載波(信道)集合Cj={[1],[2],[3,][4],[1,2],[1,3],[1,4],[2,3],[2,4],[3,4],[[1,2,3],[1,2,4],[2,3,4],[1,3,4],[1,2,3,4]}。在整個(gè)過程中,數(shù)據(jù)傳輸失敗的原因只考慮到節(jié)點(diǎn)之間發(fā)生碰撞。另一方面,時(shí)間被離散成若干個(gè)等距時(shí)隙,即t={t1,t2,t3…tend},在每一個(gè)等距的時(shí)隙內(nèi),節(jié)點(diǎn)要綁定的信道參數(shù)都不會(huì)發(fā)生變化。
圖1 802.11信道標(biāo)準(zhǔn)化
節(jié)點(diǎn)競爭信道的過程可以被看成典型的馬爾可夫決策問題(markov decision process,MDP),該決策完全符合強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是指智能體與環(huán)境進(jìn)行交互的一個(gè)過程,它包含智能體、環(huán)境、動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)。智能體通過與環(huán)境交互,獲取狀態(tài)st并且經(jīng)過不斷地探索選擇出最佳策略π。具體來講,智能體在每一次探索中,都會(huì)執(zhí)行某個(gè)動(dòng)作at,此時(shí)環(huán)境會(huì)發(fā)生變化達(dá)到一種新的狀態(tài)st+1,隨后智能體會(huì)被給出獎(jiǎng)勵(lì)信號rt。根據(jù)這個(gè)獎(jiǎng)勵(lì)信號,智能體會(huì)按照一定的策略執(zhí)行新的動(dòng)作,通過不斷更新策略π尋找出最大預(yù)期的Q值,如式(1)。
其中,Q(s,a)表示智能體在接收到當(dāng)前信道的狀態(tài)s后,根據(jù)策略π執(zhí)行動(dòng)作a,所獲得的未來累計(jì)獎(jiǎng)勵(lì)。γ∈[0,1]為折扣因子。用未來的獎(jiǎng)勵(lì)乘以該因子來減弱此類獎(jiǎng)勵(lì)對智能體當(dāng)前動(dòng)作的影響,隨后通過貝爾曼公式不斷更新值函數(shù)直到逼近最優(yōu)值函數(shù),此時(shí)智能體能夠?qū)W到最優(yōu)的策略π*,以及對應(yīng)的Q*值,如式(2)、式(3)。
傳統(tǒng)的RL受到維數(shù)限制,無法在大規(guī)模系統(tǒng)中應(yīng)用,它僅僅適用于當(dāng)動(dòng)作空間和狀態(tài)空間都比較小的場景。為了克服傳統(tǒng)RL技術(shù)的維數(shù)限制,DRL技術(shù)被提出,它將DL集成到RL中,利用深度神經(jīng)網(wǎng)絡(luò)克服維數(shù)詛咒,從而能夠有效地解決大規(guī)模問題。目前一些研究已經(jīng)成功地將DRL引入到了無線應(yīng)用當(dāng)中[9-10]。本文針對具有連續(xù)高維狀態(tài)空間和動(dòng)作空間的復(fù)雜任務(wù),進(jìn)一步引入了深度確定性策略梯度(deep deterministic strategy gradient,DDPG)。DDPG屬于DRL中的一種,它能夠在連續(xù)的高維狀態(tài)空間和動(dòng)作空間中進(jìn)一步完成復(fù)雜任務(wù)。該算法基于Actor-Critic架構(gòu),通過相同的神經(jīng)網(wǎng)絡(luò)框架構(gòu)成當(dāng)前的Actor網(wǎng)絡(luò)和當(dāng)前Critic網(wǎng)絡(luò),目標(biāo)Actor網(wǎng)絡(luò)以及目標(biāo)Critic網(wǎng)絡(luò),共同來完成算法的決策和更新。當(dāng)前Actor網(wǎng)絡(luò)采用確定性策略μ來輸出動(dòng)作at,at=at,at=μ(st|θμ),通過目標(biāo)函數(shù)J來評價(jià)策略μ,用來找到最佳策略,即μ=argmaxμ J(μ),其中θμ表示產(chǎn)生確定性動(dòng)作的參數(shù)。當(dāng)前Actor網(wǎng)絡(luò)通過鏈?zhǔn)揭?guī)則更新,如式(4)。
當(dāng)前Critic網(wǎng)絡(luò)用于擬合參數(shù)化Q函數(shù)為Q(s,a|θQ),通過均方差函數(shù)梯度更新,具體如式(5)所示,式中yi=ri+γQ′(si+1,μ′(si+1|Qμ′)|θQ′),其中μ′和Q′分別對應(yīng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。
目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)的更新采用軟更新的形式,能夠使得目標(biāo)網(wǎng)絡(luò)參數(shù)變化小,訓(xùn)練更易于收斂,軟更新的具體形式如(6)。
本文提出了一種基于DRL的信道競爭方法。由于競爭信道的節(jié)點(diǎn)個(gè)數(shù)較多,動(dòng)作空間的大小呈指數(shù)增長,嚴(yán)重影響到學(xué)習(xí)速度。為了加快學(xué)習(xí)速度,本文采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)來較快達(dá)到收斂效果。其動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)設(shè)計(jì)如下:
有實(shí)驗(yàn)和理論分析表明,信道綁定參數(shù)(P,B)對系統(tǒng)性能有重要影響,其中P表示主信道,B表示綁定的信道數(shù)量,為保證性能增益,應(yīng)謹(jǐn)慎選擇信道綁定參數(shù),當(dāng)基本信道K=4時(shí),異構(gòu)節(jié)點(diǎn)在t時(shí)刻所對應(yīng)的動(dòng)作空間如下。
LAA 節(jié)點(diǎn)i:
Wi-Fi節(jié)點(diǎn)j
LAA節(jié)點(diǎn)和Wi-Fi節(jié)點(diǎn)采用相同的狀態(tài),定義如下:
其中ι表示為隊(duì)長,λ表示數(shù)據(jù)包的到達(dá)率。
整個(gè)實(shí)驗(yàn)的目標(biāo)是降低整個(gè)網(wǎng)絡(luò)的實(shí)驗(yàn),提高系統(tǒng)的吞吐量,因此獎(jiǎng)勵(lì)設(shè)計(jì)如下:
算法一中給出了基于MADDPG信道競爭算法的偽碼,首先隨機(jī)初始化Actor網(wǎng)絡(luò)μi(s|θiμ)和Critic網(wǎng)絡(luò))Qi(s,a|θiQ),建立對應(yīng)的Actor目標(biāo)網(wǎng)絡(luò)Q′i和Critic目標(biāo)網(wǎng)絡(luò)μ′i以及一個(gè)緩沖區(qū)。在每一個(gè)episode的最開始,節(jié)點(diǎn)的初始狀態(tài)都為{0,0}。在時(shí)刻t,節(jié)點(diǎn)根據(jù)當(dāng)前Actor網(wǎng)絡(luò)選取動(dòng)作,并根據(jù)動(dòng)作改變信道綁定參數(shù),獲得對應(yīng)的獎(jiǎng)勵(lì)以及達(dá)到的新狀態(tài),另外將全局動(dòng)作、全局狀態(tài)、全局獎(jiǎng)勵(lì),和新的全局狀態(tài)放入到緩沖區(qū)中。接下來的每個(gè)節(jié)點(diǎn)都要在緩沖尺中采樣出一個(gè)尺寸大小為L的mini-batch并且通過所有節(jié)點(diǎn)的目標(biāo)網(wǎng)絡(luò),緩沖區(qū)的樣本以及Critic網(wǎng)絡(luò)來計(jì)算損失,最后更新Critic網(wǎng)絡(luò),Actor網(wǎng)絡(luò)以及對應(yīng)的目標(biāo)網(wǎng)絡(luò)。
算法一:初始化Actor網(wǎng)絡(luò)μi(s|θiμ)和Critic網(wǎng)絡(luò))Qi(s,a|θiQ),建立對應(yīng)的 Actor 目標(biāo)網(wǎng)絡(luò)Q′i和 Critic目標(biāo)網(wǎng)絡(luò)μ′i以及一個(gè)緩沖區(qū)R。
a)For episode in {1,2...}do
b)初始化狀態(tài)si,1= {0,0}
c)For t in {t1,t2,t3…tend}
d)For each agenti/j,選擇ai/j,t=Sample [μi/j(si/j,t)]
e)根據(jù)式(8)獲得獎(jiǎng)勵(lì)ri/j,t并且達(dá)到新狀態(tài)si/j,t+1
f)在緩沖尺 R中存儲(chǔ) (st,at,rt,st+1),其中st={s1,t…sN,t},at={a1,t…aN,t},rt={r1,t…rN,t},st+1={s1,t…sN,t+1}
g)For agenti/jin {1,2,3…,N}
h)在緩沖尺R中采樣出一個(gè)尺寸大小為L的minibatch
i)yi/j=ri+γQ′(si/j+1,μ′(si/j+1|Qμ′)|Qμ′)
j)根據(jù)式(3)更新actor網(wǎng)絡(luò)
k)根據(jù)式(4)更新critic網(wǎng)絡(luò)
l)結(jié)束
m)根據(jù)式 (6)為每一個(gè)代理更新目標(biāo)網(wǎng)絡(luò)
n)結(jié)束
采用Python3.6+TensFlow1.5進(jìn)行模擬仿真實(shí)驗(yàn)??紤]到了不同節(jié)點(diǎn)數(shù)下的LAA和Wi-Fi競爭信道的情況,異構(gòu)節(jié)點(diǎn)上的流量包按照隨機(jī)模式到達(dá),且在固定時(shí)間內(nèi)發(fā)生變換。其主要參數(shù)如表1、表2所示。
表1 仿真參數(shù)
表2 神經(jīng)網(wǎng)絡(luò)參數(shù)
為了證實(shí)MADDPG算法的優(yōu)越性,本文將該算法的性能與如下算法進(jìn)行比較。
隨機(jī)選擇算法(Random select):不考慮信道環(huán)境,節(jié)點(diǎn)完全隨機(jī)選擇通道鍵合參數(shù)。
DQN算法:該算法是每個(gè)代理獨(dú)立學(xué)習(xí)并最大化其回報(bào)。對于單個(gè)agent,動(dòng)作和狀態(tài)的設(shè)計(jì)與MADDPG算法相同,但不是整體的平均獎(jiǎng)勵(lì),每個(gè)agent有一個(gè)單獨(dú)的獎(jiǎng)勵(lì)。
圖2顯示了MADDPG算法在四種不同節(jié)點(diǎn)數(shù)情況下的收斂性。除波動(dòng)較大的場景(c)外,其他三種場景的收斂相對穩(wěn)定。這表明該算法具有良好的收斂性。圖3顯示了在不同場景中使用MADDPG算法時(shí)Wi-Fi和LAA各自的吞吐量,表明使用該算法時(shí)Wi-Fi和LAA的共存相對公平。圖4和圖5顯示了四種場景下不同算法下所有節(jié)點(diǎn)的總吞吐量和平均延遲。結(jié)果表明,該算法的總吞吐量優(yōu)于其他算法。此外,該算法的平均延遲明顯低于其他兩種算法。
圖2 不同節(jié)點(diǎn)數(shù)在(a)、(b)、(c)、(d)情境下訓(xùn)練的總獎(jiǎng)勵(lì)
圖3 不同情景下LAA和Wi-Fi各自的吞吐量
圖4 不同算法下LAA和Wi-Fi節(jié)點(diǎn)的總吞吐量
圖5 不同算法及不同總節(jié)點(diǎn)數(shù)下各個(gè)節(jié)點(diǎn)的平均時(shí)延
本文提出了一種基于MADDPG的競爭信道智能算法,在該算法中,LAA和Wi-Fi節(jié)點(diǎn)通過不斷地探索、依據(jù)最佳策略選擇出最優(yōu)的主信道和信道的綁定數(shù)量來提高系統(tǒng)的性能,仿真結(jié)果表明MADDPG算法具有較好的收斂性,使得LAA/Wi-Fi保持相對的公平,且在吞吐量、平均時(shí)延等方面優(yōu)于其他對比算法。