鄧 邱,方旭明
(西南交通大學(xué),四川 成都 611756)
近年來,隨著無線技術(shù)的飛速發(fā)展,無線業(yè)務(wù)的應(yīng)用越來越廣泛,比如在移動教學(xué)、視頻會議、虛擬現(xiàn)實(Virtual Reality,VR)和物聯(lián)網(wǎng)等設(shè)備[1]中的應(yīng)用。由于各種智能設(shè)備的不斷涌現(xiàn),移動數(shù)據(jù)流量呈現(xiàn)爆炸式增長。為了滿足流量需求,Wi-Fi 不斷地提升傳輸速率,然而想要進(jìn)一步突破吞吐量的瓶頸,盲目地提升傳輸速率并不可行。有研究[2]表明,IEEE 802.11 標(biāo)準(zhǔn)具有理論吞吐量上限和理論延遲下限,當(dāng)傳輸速率達(dá)到足夠高時,僅僅增加傳輸速率而不減少開銷將限制吞吐量的提升。因此,減少開銷對于Wi-Fi 網(wǎng)絡(luò)實現(xiàn)更高的吞吐量是尤為關(guān)鍵的。在IEEE 802.11n 標(biāo)準(zhǔn)中引入了幀聚合技術(shù)[3-4],可以較好地解決上述問題。通過該技術(shù),將多個較短的媒體訪問控制(Medium Access Control,MAC)幀組合成一個長的MAC 幀進(jìn)行傳輸,可減少MAC 層和物理層的幀頭開銷以及信道訪問開銷,提高M(jìn)AC 效率。
單用戶傳輸場景下的幀聚合機(jī)制迄今為止已經(jīng)得到了廣泛的研究。文獻(xiàn)[5]提出了一種基于802.11n 網(wǎng)絡(luò)的服務(wù)質(zhì)量(Quality of Service,QoS)保證的幀聚合算法,根據(jù)隊列指標(biāo)(例如平均隊列長度和鏈路利用率)并結(jié)合有效容量的概念,使用比例積分導(dǎo)數(shù)控制器來選擇合適的聚合MAC 協(xié)議數(shù)據(jù)單元(Aggregation-MAC Protocol Data Unit,A-MPDU)長度,以提高信道利用率和降低時延。文獻(xiàn)[6]針對幀聚合過程中的能耗問題,提出了一種基于在線學(xué)習(xí)的幀聚合方案,通過ε貪婪策略和模糊邏輯從MPDU 子幀大小集合中找到最優(yōu)子幀長度,以最大限度地減少網(wǎng)絡(luò)中的能耗。文獻(xiàn)[7]提出了一種基于隨機(jī)森林方法的幀聚合方案,首先利用Minstrel 速率控制算法確定調(diào)制與編碼方案(Modulation and Coding Scheme,MCS),再根據(jù)網(wǎng)絡(luò)狀態(tài)(例如信道利用率、所選MCS 傳輸成功率等)選擇合適的聚合幀長度,以提高網(wǎng)絡(luò)吞吐量。
IEEE 802.11n 之后的標(biāo)準(zhǔn)繼續(xù)使用幀聚合技術(shù),并對此進(jìn)行改進(jìn)升級。IEEE 802.11ac 標(biāo)準(zhǔn)和IEEE 802.11ax 標(biāo)準(zhǔn)分別引入了多用戶多輸入多輸出(Multi-User Multiple-Input Multiple-Output,MUMIMO)技術(shù)和OFDMA 技術(shù)來支持多用戶幀聚合傳輸。在多用戶幀聚合傳輸機(jī)制下,用戶的傳輸時間需保持對齊[8]。由于網(wǎng)絡(luò)流量異構(gòu)性強(qiáng)[9],且每個用戶的傳輸速率不同,導(dǎo)致用戶的傳輸時間不同,傳輸時間較短的用戶需要填充比特。在傳輸?shù)倪^程中,過多的填充比特會降低信道的利用率,影響系統(tǒng)的吞吐量。因此,設(shè)計有效的多用戶聚合幀長度優(yōu)化方案來合理填充比特顯得愈發(fā)重要。
目前,針對多用戶幀聚合傳輸技術(shù)的研究主要基于MU-MIMO 多用戶傳輸機(jī)制。文獻(xiàn)[10]提出用其他用戶的數(shù)據(jù)來代替填充的比特,以提高傳輸效率。文獻(xiàn)[11]與文獻(xiàn)[10]類似,提出用其他用戶的數(shù)據(jù)幀來填補(bǔ)空閑信道時間,設(shè)計了兩種填充方案,能以非常小的開銷收集所需的信息,同時防止填充幀損害原始幀的可解碼性。雖然用其他站點的數(shù)據(jù)來代替填充比特可以提高傳輸效率,但是這種方法需要修改標(biāo)準(zhǔn),以允許空間流中有多個目的地,且需更改用戶幀結(jié)構(gòu)以及MCS,增加了發(fā)送和接收過程的復(fù)雜性。文獻(xiàn)[12]提出了一種基于802.11ac 網(wǎng)絡(luò)的多用戶傳輸幀聚合方案,根據(jù)站點的數(shù)據(jù)緩存狀態(tài)和傳輸速率,找到最優(yōu)的多用戶聚合幀長度,以最大化傳輸效率。但是該方案是從所有用戶的傳輸時間中找出一個使當(dāng)前網(wǎng)絡(luò)吞吐量最優(yōu)的傳輸時間,作為多用戶傳輸時間,這樣可能會陷入局部最優(yōu)。
針對OFDMA 多用戶幀聚合傳輸?shù)难芯旷r少,現(xiàn)有研究大多側(cè)重于OFDMA 中資源的優(yōu)化,比如資源單元(Resource Unit,RU)調(diào)度[13]、子載波分配[14]以及接入機(jī)制[15]的研究。多用戶聚合幀長度優(yōu)化這一問題在文獻(xiàn)中尚未得到深入的探討,但是多用戶幀的填充開銷對系統(tǒng)性能的影響不容忽視,是無線局域網(wǎng)中多用戶傳輸?shù)囊粋€重要設(shè)計因素。
綜上所述,盡管當(dāng)前已有對多用戶幀聚合傳輸技術(shù)的研究,但主要是針對MU-MIMO 多用戶傳輸。由于OFDMA 多用戶傳輸與MU-MIMO 多用戶傳輸在傳輸機(jī)制方面有一定差異,因此針對MUMIMO 多用戶幀聚合傳輸?shù)膬?yōu)化方案不能完全適用于OFDMA 多用戶傳輸。
本文基于802.1ax Wi-Fi 網(wǎng)絡(luò),對OFDMA 多用戶聚合幀長度優(yōu)化問題進(jìn)行了研究,主要貢獻(xiàn)如下:
(1)提出了一種基于強(qiáng)化學(xué)習(xí)的OFDMA 多用戶聚合幀長度優(yōu)化方案,該方案將AP 作為智能體,通過訓(xùn)練和學(xué)習(xí),根據(jù)站點的緩存狀態(tài)決策出最佳的多用戶聚合幀長度。
(2)所提方案適用于下行和上行OFDMA 傳輸。因為無論是上行還是下行傳輸,都由AP 進(jìn)行集中調(diào)度,AP 能夠獲得上、下行需要傳輸?shù)臄?shù)據(jù)信息[8],并以此來決策多用戶聚合幀長度。
(3)以上行傳輸場景為例進(jìn)行問題建模,并通過仿真驗證了所提方案能夠減少幀聚合傳輸過程中的填充比特,增加傳輸?shù)挠行ж?fù)載,提升了系統(tǒng)吞吐量和信道利用率。
在本文中,幀聚合傳輸考慮上行傳輸場景,基于集中式網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。如圖1 所示,系統(tǒng)中有一個AP 和n個站點(Station,STA),n個STA 均與AP 相關(guān)聯(lián),由AP 調(diào)度STA 的傳輸。AP 采用緩沖狀態(tài)報告輪詢(Buffer Status Report Poll,BSRP)的方式調(diào)度上行多用戶幀聚合傳輸,周期性地向STA發(fā)送觸發(fā)幀來收集緩存信息,根據(jù)緩存信息為STA分配RU 進(jìn)行數(shù)據(jù)傳輸。
圖1 一個AP 和多個STA 組成的網(wǎng)絡(luò)拓?fù)?/p>
假設(shè)系統(tǒng)中STA 的集合表示為SSTA={STA1,STA2,…,STAn},忽略干擾,則STAi與AP 之間的信噪比(Signal to Noise Ratio,SNR)可表示為:
式中:PTX為STA 的發(fā)送功率,GTX和GRX分別為站點天線的發(fā)送增益和AP 天線的接收增益,PL為路徑傳輸損耗,路損模型使用標(biāo)準(zhǔn)中的802.11 傳輸模型[16],為環(huán)境中的噪聲功率。
根據(jù)香農(nóng)公式可以計算出STAi在給定RU 下的最大傳輸速率:
式中:B為RU 的帶寬。
基于OFDMA 多用戶幀聚合傳輸?shù)倪^程如圖2所示,為了保證多用戶傳輸時間對齊,需要對傳輸時間較短的站點進(jìn)行額外的比特填充,而多用戶聚合幀長度的設(shè)置決定了填充比特的數(shù)量。若采取聚合幀長度L1所對應(yīng)的傳輸時間,那么所有站點都需要填充比特,這樣會降低系統(tǒng)吞吐量。若采取聚合幀長度L2所對應(yīng)的傳輸時間,那么所有站點傳輸?shù)挠行ж?fù)載大大減少,也會降低系統(tǒng)吞吐量。因此,本文的目標(biāo)是設(shè)計出合理的方案來對多用戶聚合幀長度進(jìn)行優(yōu)化,以此最大化系統(tǒng)吞吐量,提高信道利用率。
圖2 OFDMA 多用戶幀聚合傳輸過程[8]
將STAi的緩存隊列記為li,對應(yīng)的傳輸時間為li/vi,i=1,2,…,n,vi為STAi的實際傳輸速率。假設(shè)多用戶聚合幀長度設(shè)置為L,那么多用戶聚合幀傳輸時間為:
式中:vave為n個STA 的平均速率。
假設(shè)有k個STA 的傳輸時間小于多用戶幀聚合傳輸時間,那么這類STA 需要額外填充比特,據(jù)此系統(tǒng)吞吐量可以表示為:
式中:tcost為多用戶傳輸機(jī)制開銷;tdifs為分布式幀間隔持續(xù)時間;tsifs為短幀幀間隔持續(xù)時間;tbsrp和tbsr分別為緩存區(qū)狀態(tài)報告輪詢觸發(fā)幀和緩存區(qū)狀態(tài)報告的持續(xù)時間;ttf,tpre,thead和tba分別為觸發(fā)幀、前導(dǎo)碼、聚合幀幀頭和塊確認(rèn)應(yīng)答幀的傳輸時間。
因此,優(yōu)化問題可以表示為:
式中:Lmin為最小多用戶聚合幀長度;Lmax為最大多用戶聚合幀長度。
上述OFDMA 多用戶幀聚合傳輸場景下的幀長優(yōu)化問題實際上是一個動態(tài)調(diào)優(yōu)問題,而動態(tài)未知環(huán)境下的優(yōu)化問題可以被建模成馬爾可夫決策過程(Markov Decision Process,MDP)。Q learning 算法可以有效解決MDP 問題。然而OFDMA 多用戶傳輸過程較為復(fù)雜,且具有較大的狀態(tài)和動作空間,簡單的Q learning 算法難以解決。深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)算法在Q learning 算法的基礎(chǔ)上引入了神經(jīng)網(wǎng)絡(luò),來擬合Q 表,可以很好地解決此類復(fù)雜問題。因此,本文提出了利用DQN 算法來優(yōu)化OFDMA 多用戶聚合幀長度。
在強(qiáng)化學(xué)習(xí)中,智能體根據(jù)環(huán)境的狀態(tài)選擇動作并且執(zhí)行,環(huán)境根據(jù)智能體的動作進(jìn)行狀態(tài)轉(zhuǎn)移,并給智能體一個獎勵或者懲罰。強(qiáng)化學(xué)習(xí)的三要素包括狀態(tài)空間、動作空間和獎勵函數(shù)。對于本文所考慮的OFDMA 多用戶場景,將AP 作為智能體,狀態(tài)空間、動作空間和獎勵函數(shù)定義如下:
狀態(tài)空間S:st∈S,S=[s1,s2,…,st],st=[l1,l2,…,ln],表示在t時刻n個STA 的緩存數(shù)據(jù)長度。AP 可以通過BSRP 幀向STA 發(fā)出請求,STA 通過緩存狀態(tài)報告(Buffer Status Report,BSR)向AP 反饋緩存數(shù)據(jù)信息。
動作空間A:at∈A,A=[a1,a2,…,at],對于當(dāng)前狀態(tài)st,智能體可以根據(jù)決策策略采取動作at。at為可選的聚合幀長度L,范圍為[a,b],以步長δbyte 進(jìn)行離散化。
獎勵函數(shù)r:r(st,at)表示在當(dāng)前狀態(tài)st下選擇動作at得到的即時獎勵。在前面的優(yōu)化問題中,本文的研究目標(biāo)是最大化系統(tǒng)吞吐量。因此,定義即時獎勵為t時刻的系統(tǒng)吞吐量,并將其歸一化,表達(dá)式如下:
式中:Th為式(5)中給出的含義;Thmax為網(wǎng)絡(luò)預(yù)期的最大吞吐量。
在t時刻,智能體通過觀察狀態(tài)st,按照策略π選擇相應(yīng)的動作at,作用于環(huán)境,環(huán)境反饋給智能體一個即時獎勵r(st,at),然后轉(zhuǎn)移到下一個狀態(tài)。st+1智能體的目標(biāo)是學(xué)習(xí)策略π,使其獲得的長期累積折扣獎勵最大化,表達(dá)式如下:
式中:γ∈[0,1]是折扣率。當(dāng)γ接近于0 時,表明智能體更在意短期回報;反之,當(dāng)γ接近于1 時,長期回報變得更加重要。因此,在選擇γ值時,應(yīng)根據(jù)系統(tǒng)特性進(jìn)行調(diào)整,來確保γ在合理的范圍內(nèi)。
策略π是將當(dāng)前狀態(tài)映射至動作的概率分布。狀態(tài)st的狀態(tài)值函數(shù)表示智能體在遵循策略π時一個狀態(tài)的值,表達(dá)式如下:
狀態(tài)-動作值函數(shù)則表示智能體在遵循策略π時,在狀態(tài)st下采取某個動作的好壞程度,表達(dá)式如下:
Bellman 方程常用于求解MDP 問題,其核心思想是尋找最優(yōu)狀態(tài)值函數(shù),即所有狀態(tài)值函數(shù)中的最大值函數(shù),表達(dá)式如下:
對于V*(s),一個狀態(tài)的最優(yōu)值等于在該狀態(tài)下采取的所有動作所產(chǎn)生的狀態(tài)-動作值函數(shù)中的最大值,表達(dá)式如下:
因此,可以通過尋找最優(yōu)狀態(tài)-動作值函數(shù)來尋找最優(yōu)策略π*。在Q learning 算法中,更新Q值Q(st,at)[17]的公式為:
式中:α為學(xué)習(xí)率。
Q learning 算法使用一張Q 表來存儲Q 值,在DQN 算法中,使用神經(jīng)網(wǎng)絡(luò)來近似Q 表輸出Q 值,即Q(st,at;θ)≈Q(st,at)。本文使用的DQN 算法模型如圖3 所示,為了提高網(wǎng)絡(luò)訓(xùn)練的收斂性和穩(wěn)定性,DQN 引入了目標(biāo)網(wǎng)絡(luò)和經(jīng)驗回放策略。通過梯度下降來更新θ值,損失函數(shù)表達(dá)如下:
圖3 DQN 算法模型
式中:Q_target為Q的目標(biāo)值;θ'為目標(biāo)網(wǎng)絡(luò)的權(quán)重。
本文提出的多用戶聚合幀長度優(yōu)化算法流程如下:
本節(jié)通過MATLAB 仿真對所提出的基于DQN算法的聚合幀長度優(yōu)化方案的性能進(jìn)行驗證。
仿真場景設(shè)置為單AP 多STA 場景,STA 在AP周圍隨機(jī)分布。仿真采用IEEE 802.11ax 標(biāo)準(zhǔn)中基于OFDMA 的上行多用戶傳輸機(jī)制,由AP 調(diào)度STA 進(jìn)行傳輸。信道帶寬設(shè)置為20 MHz,聚合幀采用A-MPDU 傳輸方式。具體參數(shù)如表1 所示。
表1 仿真參數(shù)設(shè)置
為了準(zhǔn)確體現(xiàn)本文所提方案對網(wǎng)絡(luò)吞吐量性能的提升,在仿真中對所提方案與3 種基線方案進(jìn)行了比較,這3 種基線方案具體如下文所述。
(1)基線方案1:將多用戶聚合幀傳輸過程中最長的用戶傳輸時間設(shè)置為多用戶傳輸時間,記為最大(Max)聚合方案。
(2)基線方案2:將多用戶聚合幀傳輸過程中最短的用戶傳輸時間設(shè)置為多用戶傳輸時間,記為最?。∕in)聚合方案。
(3)基線方案3:隨機(jī)選擇一個用戶的傳輸時間,將其設(shè)置為多用戶傳輸時間,記為隨機(jī)(Random)聚合方案。
圖4 給出了所提算法累積獎勵收斂曲線。在算法初期,累積獎勵較低,智能體通過不斷地探索和訓(xùn)練,掌握了環(huán)境狀態(tài)和動作之間的映射,能夠做出更優(yōu)的動作選擇,累積獎勵不斷增加,最終達(dá)到收斂。
圖4 累積獎勵收斂曲線
圖5 給出了不同學(xué)習(xí)參數(shù)對系統(tǒng)吞吐量的影響。圖5(a)表示,設(shè)置ε=0.2,α=0.5,γ=0.2 時,系統(tǒng)吞吐量相對較大。在這種情況下,α值降低對于吞吐量的影響較小,但是α值增大,吞吐量卻大大降低。圖5(b)表示,設(shè)置ε=0.5,α=0.5 時,改變γ的值,系統(tǒng)吞吐量的變化較小。圖5(c)表示,對于ε=0.8,α=0.5,設(shè)置γ=0.8 時,系統(tǒng)吞吐量得到顯著提升。因此,在設(shè)置ε,α和γ的值時,應(yīng)根據(jù)系統(tǒng)特性不斷調(diào)整,以使算法具有較好的性能提升效果。
圖5 吞吐量與學(xué)習(xí)參數(shù)的關(guān)系
圖6 和圖7 分別給出了4 種方案下不同STA 的吞吐量以及系統(tǒng)吞吐量。從圖6 可以看出,基于DQN 算法的聚合方案能夠有效提升每個STA 的吞吐量。
圖6 STA 吞吐量
圖7 系統(tǒng)吞吐量
從圖7 可以看出,Min 聚合方案吞吐量最低,而DQN 聚合方案吞吐量最高,其次是Max 和Random 聚合方案。主要是因為Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,大大減少了每次傳輸過程中的有效負(fù)載,增加了協(xié)議開銷在聚合幀傳輸時間中的占比,從而降低系統(tǒng)吞吐量。Max 和Random 聚合方案相較于Min 聚合方案,能夠減少協(xié)議開銷在整個聚合幀傳輸時間中的占比,然而不可避免地會帶來一定程度的比特填充,從而降低系統(tǒng)吞吐量。而基于DQN 算法的聚合方案,可以根據(jù)站點的數(shù)據(jù)緩存情況,自適應(yīng)地調(diào)整聚合幀長度,從而減少填充比特,增加傳輸過程中的有效負(fù)載,提升系統(tǒng)性能。
圖8 和圖9 分別給出了4 種方案下不同STA 的填充比特數(shù)量以及系統(tǒng)填充比特數(shù)量。從圖8 可以看出,基于DQN 算法的聚合方案能夠有效減少每個STA 的填充比特數(shù)量。
圖8 STA 填充比特數(shù)量
圖9 系統(tǒng)填充比特數(shù)量
從圖9 可以看出,由于Max 聚合方案將最長的用戶傳輸時間作為多用戶傳輸時間,導(dǎo)致填充比特數(shù)量最多,Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,基本沒有填充比特,Random和DQN 聚合方案有一定程度的比特填充,但是DQN 聚合方案填充相對較少。因此,結(jié)合系統(tǒng)吞吐量與填充比特數(shù)量,可以看出DQN 聚合方案對于系統(tǒng)性能的提升是優(yōu)于其他三種方案的。
圖10 給出了4 種方案下的系統(tǒng)頻譜效率。從圖中可以看出,基于DQN 算法的聚合方案的頻譜效率較高。這是因為其可以根據(jù)各個站點的數(shù)據(jù)緩存情況,動態(tài)地找出最優(yōu)的聚合幀長度,從而減少填充比特,提高系統(tǒng)頻譜效率。其他3 種聚合方案的系統(tǒng)頻譜效率相對較低,這是因為過多地填充比特或者減少傳輸有效負(fù)載,會導(dǎo)致帶寬資源的浪費。
圖10 系統(tǒng)頻譜效率
本文基于OFDMA 傳輸過程,對多用戶聚合幀長度優(yōu)化問題進(jìn)行了研究。首先給出了多用戶幀聚合傳輸過程的系統(tǒng)模型并建立了優(yōu)化問題,其次設(shè)計了基于深度強(qiáng)化學(xué)習(xí)框架的聚合幀長度優(yōu)化方案,最后通過MATLAB 進(jìn)行仿真。仿真結(jié)果表明,本文所提出的方案能夠根據(jù)站點的數(shù)據(jù)緩存情況自適應(yīng)選擇聚合幀長度,減少填充比特,增加有效傳輸負(fù)載,降低協(xié)議開銷在聚合幀傳輸時間中的占比,從而提升系統(tǒng)吞吐量和頻譜效率。
然而本文的研究還存在一些局限:一是在仿真過程中,只搭建了上行傳輸場景,從而只驗證了該方案對于上行傳輸系統(tǒng)性能提升的有效性和適用性;二是并未分析算法的復(fù)雜性,只驗證了算法對于系統(tǒng)性能的提升。在接下來的研究工作中,會從以下兩個方面進(jìn)行完善:一是通過仿真驗證所提方案對于下行傳輸系統(tǒng)性能提升的有效性和適用性;二是在不同的仿真場景下,對于系統(tǒng)性能的提升以及算法的復(fù)雜性,與其他優(yōu)化算法進(jìn)行對比分析。