亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的多用戶聚合幀長度優(yōu)化方案*

2023-08-17 12:38:16方旭明

通信技術(shù) 2023年5期

鄧邱，方旭明

（西南交通大學(xué)，四川成都 611756）

0 引言

近年來，隨著無線技術(shù)的飛速發(fā)展，無線業(yè)務(wù)的應(yīng)用越來越廣泛，比如在移動教學(xué)、視頻會議、虛擬現(xiàn)實（Virtual Reality，VR）和物聯(lián)網(wǎng)等設(shè)備[1]中的應(yīng)用。由于各種智能設(shè)備的不斷涌現(xiàn)，移動數(shù)據(jù)流量呈現(xiàn)爆炸式增長。為了滿足流量需求，Wi-Fi 不斷地提升傳輸速率，然而想要進(jìn)一步突破吞吐量的瓶頸，盲目地提升傳輸速率并不可行。有研究[2]表明，IEEE 802.11 標(biāo)準(zhǔn)具有理論吞吐量上限和理論延遲下限，當(dāng)傳輸速率達(dá)到足夠高時，僅僅增加傳輸速率而不減少開銷將限制吞吐量的提升。因此，減少開銷對于Wi-Fi 網(wǎng)絡(luò)實現(xiàn)更高的吞吐量是尤為關(guān)鍵的。在IEEE 802.11n 標(biāo)準(zhǔn)中引入了幀聚合技術(shù)[3-4]，可以較好地解決上述問題。通過該技術(shù)，將多個較短的媒體訪問控制（Medium Access Control，MAC）幀組合成一個長的MAC 幀進(jìn)行傳輸，可減少MAC 層和物理層的幀頭開銷以及信道訪問開銷，提高M(jìn)AC 效率。

單用戶傳輸場景下的幀聚合機(jī)制迄今為止已經(jīng)得到了廣泛的研究。文獻(xiàn)[5]提出了一種基于802.11n 網(wǎng)絡(luò)的服務(wù)質(zhì)量（Quality of Service，QoS）保證的幀聚合算法，根據(jù)隊列指標(biāo)（例如平均隊列長度和鏈路利用率）并結(jié)合有效容量的概念，使用比例積分導(dǎo)數(shù)控制器來選擇合適的聚合MAC 協(xié)議數(shù)據(jù)單元（Aggregation-MAC Protocol Data Unit，A-MPDU）長度，以提高信道利用率和降低時延。文獻(xiàn)[6]針對幀聚合過程中的能耗問題，提出了一種基于在線學(xué)習(xí)的幀聚合方案，通過ε貪婪策略和模糊邏輯從MPDU 子幀大小集合中找到最優(yōu)子幀長度，以最大限度地減少網(wǎng)絡(luò)中的能耗。文獻(xiàn)[7]提出了一種基于隨機(jī)森林方法的幀聚合方案，首先利用Minstrel 速率控制算法確定調(diào)制與編碼方案（Modulation and Coding Scheme，MCS），再根據(jù)網(wǎng)絡(luò)狀態(tài)（例如信道利用率、所選MCS 傳輸成功率等）選擇合適的聚合幀長度，以提高網(wǎng)絡(luò)吞吐量。

IEEE 802.11n 之后的標(biāo)準(zhǔn)繼續(xù)使用幀聚合技術(shù)，并對此進(jìn)行改進(jìn)升級。IEEE 802.11ac 標(biāo)準(zhǔn)和IEEE 802.11ax 標(biāo)準(zhǔn)分別引入了多用戶多輸入多輸出（Multi-User Multiple-Input Multiple-Output，MUMIMO）技術(shù)和OFDMA 技術(shù)來支持多用戶幀聚合傳輸。在多用戶幀聚合傳輸機(jī)制下，用戶的傳輸時間需保持對齊[8]。由于網(wǎng)絡(luò)流量異構(gòu)性強(qiáng)[9]，且每個用戶的傳輸速率不同，導(dǎo)致用戶的傳輸時間不同，傳輸時間較短的用戶需要填充比特。在傳輸?shù)倪^程中，過多的填充比特會降低信道的利用率，影響系統(tǒng)的吞吐量。因此，設(shè)計有效的多用戶聚合幀長度優(yōu)化方案來合理填充比特顯得愈發(fā)重要。

目前，針對多用戶幀聚合傳輸技術(shù)的研究主要基于MU-MIMO 多用戶傳輸機(jī)制。文獻(xiàn)[10]提出用其他用戶的數(shù)據(jù)來代替填充的比特，以提高傳輸效率。文獻(xiàn)[11]與文獻(xiàn)[10]類似，提出用其他用戶的數(shù)據(jù)幀來填補(bǔ)空閑信道時間，設(shè)計了兩種填充方案，能以非常小的開銷收集所需的信息，同時防止填充幀損害原始幀的可解碼性。雖然用其他站點的數(shù)據(jù)來代替填充比特可以提高傳輸效率，但是這種方法需要修改標(biāo)準(zhǔn)，以允許空間流中有多個目的地，且需更改用戶幀結(jié)構(gòu)以及MCS，增加了發(fā)送和接收過程的復(fù)雜性。文獻(xiàn)[12]提出了一種基于802.11ac 網(wǎng)絡(luò)的多用戶傳輸幀聚合方案，根據(jù)站點的數(shù)據(jù)緩存狀態(tài)和傳輸速率，找到最優(yōu)的多用戶聚合幀長度，以最大化傳輸效率。但是該方案是從所有用戶的傳輸時間中找出一個使當(dāng)前網(wǎng)絡(luò)吞吐量最優(yōu)的傳輸時間，作為多用戶傳輸時間，這樣可能會陷入局部最優(yōu)。

針對OFDMA 多用戶幀聚合傳輸?shù)难芯旷r少，現(xiàn)有研究大多側(cè)重于OFDMA 中資源的優(yōu)化，比如資源單元（Resource Unit，RU）調(diào)度[13]、子載波分配[14]以及接入機(jī)制[15]的研究。多用戶聚合幀長度優(yōu)化這一問題在文獻(xiàn)中尚未得到深入的探討，但是多用戶幀的填充開銷對系統(tǒng)性能的影響不容忽視，是無線局域網(wǎng)中多用戶傳輸?shù)囊粋€重要設(shè)計因素。

綜上所述，盡管當(dāng)前已有對多用戶幀聚合傳輸技術(shù)的研究，但主要是針對MU-MIMO 多用戶傳輸。由于OFDMA 多用戶傳輸與MU-MIMO 多用戶傳輸在傳輸機(jī)制方面有一定差異，因此針對MUMIMO 多用戶幀聚合傳輸?shù)膬?yōu)化方案不能完全適用于OFDMA 多用戶傳輸。

本文基于802.1ax Wi-Fi 網(wǎng)絡(luò)，對OFDMA 多用戶聚合幀長度優(yōu)化問題進(jìn)行了研究，主要貢獻(xiàn)如下：

（1）提出了一種基于強(qiáng)化學(xué)習(xí)的OFDMA 多用戶聚合幀長度優(yōu)化方案，該方案將AP 作為智能體，通過訓(xùn)練和學(xué)習(xí)，根據(jù)站點的緩存狀態(tài)決策出最佳的多用戶聚合幀長度。

（2）所提方案適用于下行和上行OFDMA 傳輸。因為無論是上行還是下行傳輸，都由AP 進(jìn)行集中調(diào)度，AP 能夠獲得上、下行需要傳輸?shù)臄?shù)據(jù)信息[8]，并以此來決策多用戶聚合幀長度。

（3）以上行傳輸場景為例進(jìn)行問題建模，并通過仿真驗證了所提方案能夠減少幀聚合傳輸過程中的填充比特，增加傳輸?shù)挠行ж?fù)載，提升了系統(tǒng)吞吐量和信道利用率。

1 系統(tǒng)模型與問題建模

1.1 網(wǎng)絡(luò)模型

在本文中，幀聚合傳輸考慮上行傳輸場景，基于集中式網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。如圖1 所示，系統(tǒng)中有一個AP 和n個站點（Station，STA），n個STA 均與AP 相關(guān)聯(lián)，由AP 調(diào)度STA 的傳輸。AP 采用緩沖狀態(tài)報告輪詢（Buffer Status Report Poll，BSRP）的方式調(diào)度上行多用戶幀聚合傳輸，周期性地向STA發(fā)送觸發(fā)幀來收集緩存信息，根據(jù)緩存信息為STA分配RU 進(jìn)行數(shù)據(jù)傳輸。

圖1 一個AP 和多個STA 組成的網(wǎng)絡(luò)拓?fù)?/p>

假設(shè)系統(tǒng)中STA 的集合表示為SSTA={STA1,STA2,…,STAn}，忽略干擾，則STAi與AP 之間的信噪比（Signal to Noise Ratio，SNR）可表示為：

式中：PTX為STA 的發(fā)送功率，GTX和GRX分別為站點天線的發(fā)送增益和AP 天線的接收增益，PL為路徑傳輸損耗，路損模型使用標(biāo)準(zhǔn)中的802.11 傳輸模型[16]，為環(huán)境中的噪聲功率。

根據(jù)香農(nóng)公式可以計算出STAi在給定RU 下的最大傳輸速率：

式中：B為RU 的帶寬。

1.2 問題建模

基于OFDMA 多用戶幀聚合傳輸?shù)倪^程如圖2所示，為了保證多用戶傳輸時間對齊，需要對傳輸時間較短的站點進(jìn)行額外的比特填充，而多用戶聚合幀長度的設(shè)置決定了填充比特的數(shù)量。若采取聚合幀長度L1所對應(yīng)的傳輸時間，那么所有站點都需要填充比特，這樣會降低系統(tǒng)吞吐量。若采取聚合幀長度L2所對應(yīng)的傳輸時間，那么所有站點傳輸?shù)挠行ж?fù)載大大減少，也會降低系統(tǒng)吞吐量。因此，本文的目標(biāo)是設(shè)計出合理的方案來對多用戶聚合幀長度進(jìn)行優(yōu)化，以此最大化系統(tǒng)吞吐量，提高信道利用率。

圖2 OFDMA 多用戶幀聚合傳輸過程[8]

將STAi的緩存隊列記為li，對應(yīng)的傳輸時間為li/vi，i=1,2,…,n，vi為STAi的實際傳輸速率。假設(shè)多用戶聚合幀長度設(shè)置為L，那么多用戶聚合幀傳輸時間為：

式中：vave為n個STA 的平均速率。

假設(shè)有k個STA 的傳輸時間小于多用戶幀聚合傳輸時間，那么這類STA 需要額外填充比特，據(jù)此系統(tǒng)吞吐量可以表示為：

式中：tcost為多用戶傳輸機(jī)制開銷；tdifs為分布式幀間隔持續(xù)時間；tsifs為短幀幀間隔持續(xù)時間；tbsrp和tbsr分別為緩存區(qū)狀態(tài)報告輪詢觸發(fā)幀和緩存區(qū)狀態(tài)報告的持續(xù)時間；ttf，tpre，thead和tba分別為觸發(fā)幀、前導(dǎo)碼、聚合幀幀頭和塊確認(rèn)應(yīng)答幀的傳輸時間。

因此，優(yōu)化問題可以表示為：

式中：Lmin為最小多用戶聚合幀長度；Lmax為最大多用戶聚合幀長度。

2 基于強(qiáng)化學(xué)習(xí)的聚合幀長度優(yōu)化方案

上述OFDMA 多用戶幀聚合傳輸場景下的幀長優(yōu)化問題實際上是一個動態(tài)調(diào)優(yōu)問題，而動態(tài)未知環(huán)境下的優(yōu)化問題可以被建模成馬爾可夫決策過程（Markov Decision Process，MDP）。Q learning 算法可以有效解決MDP 問題。然而OFDMA 多用戶傳輸過程較為復(fù)雜，且具有較大的狀態(tài)和動作空間，簡單的Q learning 算法難以解決。深度Q 網(wǎng)絡(luò)（Deep Q-Network，DQN）算法在Q learning 算法的基礎(chǔ)上引入了神經(jīng)網(wǎng)絡(luò)，來擬合Q 表，可以很好地解決此類復(fù)雜問題。因此，本文提出了利用DQN 算法來優(yōu)化OFDMA 多用戶聚合幀長度。

2.1 強(qiáng)化學(xué)習(xí)三要素定義

在強(qiáng)化學(xué)習(xí)中，智能體根據(jù)環(huán)境的狀態(tài)選擇動作并且執(zhí)行，環(huán)境根據(jù)智能體的動作進(jìn)行狀態(tài)轉(zhuǎn)移，并給智能體一個獎勵或者懲罰。強(qiáng)化學(xué)習(xí)的三要素包括狀態(tài)空間、動作空間和獎勵函數(shù)。對于本文所考慮的OFDMA 多用戶場景，將AP 作為智能體，狀態(tài)空間、動作空間和獎勵函數(shù)定義如下：

狀態(tài)空間S：st∈S，S=[s1,s2,…,st]，st=[l1,l2,…,ln]，表示在t時刻n個STA 的緩存數(shù)據(jù)長度。AP 可以通過BSRP 幀向STA 發(fā)出請求，STA 通過緩存狀態(tài)報告（Buffer Status Report，BSR）向AP 反饋緩存數(shù)據(jù)信息。

動作空間A：at∈A，A=[a1,a2,…,at]，對于當(dāng)前狀態(tài)st，智能體可以根據(jù)決策策略采取動作at。at為可選的聚合幀長度L，范圍為[a,b]，以步長δbyte 進(jìn)行離散化。

獎勵函數(shù)r：r(st,at)表示在當(dāng)前狀態(tài)st下選擇動作at得到的即時獎勵。在前面的優(yōu)化問題中，本文的研究目標(biāo)是最大化系統(tǒng)吞吐量。因此，定義即時獎勵為t時刻的系統(tǒng)吞吐量，并將其歸一化，表達(dá)式如下：

式中：Th為式（5）中給出的含義；Thmax為網(wǎng)絡(luò)預(yù)期的最大吞吐量。

2.2 多用戶聚合幀長度優(yōu)化策略

在t時刻，智能體通過觀察狀態(tài)st，按照策略π選擇相應(yīng)的動作at，作用于環(huán)境，環(huán)境反饋給智能體一個即時獎勵r(st,at)，然后轉(zhuǎn)移到下一個狀態(tài)。st+1智能體的目標(biāo)是學(xué)習(xí)策略π，使其獲得的長期累積折扣獎勵最大化，表達(dá)式如下：

式中：γ∈[0,1]是折扣率。當(dāng)γ接近于0 時，表明智能體更在意短期回報；反之，當(dāng)γ接近于1 時，長期回報變得更加重要。因此，在選擇γ值時，應(yīng)根據(jù)系統(tǒng)特性進(jìn)行調(diào)整，來確保γ在合理的范圍內(nèi)。

策略π是將當(dāng)前狀態(tài)映射至動作的概率分布。狀態(tài)st的狀態(tài)值函數(shù)表示智能體在遵循策略π時一個狀態(tài)的值，表達(dá)式如下：

狀態(tài)－動作值函數(shù)則表示智能體在遵循策略π時，在狀態(tài)st下采取某個動作的好壞程度，表達(dá)式如下：

Bellman 方程常用于求解MDP 問題，其核心思想是尋找最優(yōu)狀態(tài)值函數(shù)，即所有狀態(tài)值函數(shù)中的最大值函數(shù)，表達(dá)式如下：

對于V*(s)，一個狀態(tài)的最優(yōu)值等于在該狀態(tài)下采取的所有動作所產(chǎn)生的狀態(tài)－動作值函數(shù)中的最大值，表達(dá)式如下：

因此，可以通過尋找最優(yōu)狀態(tài)－動作值函數(shù)來尋找最優(yōu)策略π*。在Q learning 算法中，更新Q值Q(st,at)[17]的公式為：

式中：α為學(xué)習(xí)率。

Q learning 算法使用一張Q 表來存儲Q 值，在DQN 算法中，使用神經(jīng)網(wǎng)絡(luò)來近似Q 表輸出Q 值，即Q(st,at;θ)≈Q(st,at)。本文使用的DQN 算法模型如圖3 所示，為了提高網(wǎng)絡(luò)訓(xùn)練的收斂性和穩(wěn)定性，DQN 引入了目標(biāo)網(wǎng)絡(luò)和經(jīng)驗回放策略。通過梯度下降來更新θ值，損失函數(shù)表達(dá)如下：

圖3 DQN 算法模型

式中：Q_target為Q的目標(biāo)值；θ'為目標(biāo)網(wǎng)絡(luò)的權(quán)重。

本文提出的多用戶聚合幀長度優(yōu)化算法流程如下：

3 仿真結(jié)果及分析

本節(jié)通過MATLAB 仿真對所提出的基于DQN算法的聚合幀長度優(yōu)化方案的性能進(jìn)行驗證。

3.1 仿真場景及參數(shù)設(shè)置

仿真場景設(shè)置為單AP 多STA 場景，STA 在AP周圍隨機(jī)分布。仿真采用IEEE 802.11ax 標(biāo)準(zhǔn)中基于OFDMA 的上行多用戶傳輸機(jī)制，由AP 調(diào)度STA 進(jìn)行傳輸。信道帶寬設(shè)置為20 MHz，聚合幀采用A-MPDU 傳輸方式。具體參數(shù)如表1 所示。

表1 仿真參數(shù)設(shè)置

為了準(zhǔn)確體現(xiàn)本文所提方案對網(wǎng)絡(luò)吞吐量性能的提升，在仿真中對所提方案與3 種基線方案進(jìn)行了比較，這3 種基線方案具體如下文所述。

（1）基線方案1：將多用戶聚合幀傳輸過程中最長的用戶傳輸時間設(shè)置為多用戶傳輸時間，記為最大（Max）聚合方案。

（2）基線方案2：將多用戶聚合幀傳輸過程中最短的用戶傳輸時間設(shè)置為多用戶傳輸時間，記為最?。∕in）聚合方案。

（3）基線方案3：隨機(jī)選擇一個用戶的傳輸時間，將其設(shè)置為多用戶傳輸時間，記為隨機(jī)（Random）聚合方案。

3.2 仿真結(jié)果分析

圖4 給出了所提算法累積獎勵收斂曲線。在算法初期，累積獎勵較低，智能體通過不斷地探索和訓(xùn)練，掌握了環(huán)境狀態(tài)和動作之間的映射，能夠做出更優(yōu)的動作選擇，累積獎勵不斷增加，最終達(dá)到收斂。

圖4 累積獎勵收斂曲線

圖5 給出了不同學(xué)習(xí)參數(shù)對系統(tǒng)吞吐量的影響。圖5（a）表示，設(shè)置ε=0.2，α=0.5，γ=0.2 時，系統(tǒng)吞吐量相對較大。在這種情況下，α值降低對于吞吐量的影響較小，但是α值增大，吞吐量卻大大降低。圖5（b）表示，設(shè)置ε=0.5，α=0.5 時，改變γ的值，系統(tǒng)吞吐量的變化較小。圖5（c）表示，對于ε=0.8，α=0.5，設(shè)置γ=0.8 時，系統(tǒng)吞吐量得到顯著提升。因此，在設(shè)置ε，α和γ的值時，應(yīng)根據(jù)系統(tǒng)特性不斷調(diào)整，以使算法具有較好的性能提升效果。

圖5 吞吐量與學(xué)習(xí)參數(shù)的關(guān)系

圖6 和圖7 分別給出了4 種方案下不同STA 的吞吐量以及系統(tǒng)吞吐量。從圖6 可以看出，基于DQN 算法的聚合方案能夠有效提升每個STA 的吞吐量。

圖6 STA 吞吐量

圖7 系統(tǒng)吞吐量

從圖7 可以看出，Min 聚合方案吞吐量最低，而DQN 聚合方案吞吐量最高，其次是Max 和Random 聚合方案。主要是因為Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間，大大減少了每次傳輸過程中的有效負(fù)載，增加了協(xié)議開銷在聚合幀傳輸時間中的占比，從而降低系統(tǒng)吞吐量。Max 和Random 聚合方案相較于Min 聚合方案，能夠減少協(xié)議開銷在整個聚合幀傳輸時間中的占比，然而不可避免地會帶來一定程度的比特填充，從而降低系統(tǒng)吞吐量。而基于DQN 算法的聚合方案，可以根據(jù)站點的數(shù)據(jù)緩存情況，自適應(yīng)地調(diào)整聚合幀長度，從而減少填充比特，增加傳輸過程中的有效負(fù)載，提升系統(tǒng)性能。

圖8 和圖9 分別給出了4 種方案下不同STA 的填充比特數(shù)量以及系統(tǒng)填充比特數(shù)量。從圖8 可以看出，基于DQN 算法的聚合方案能夠有效減少每個STA 的填充比特數(shù)量。

圖8 STA 填充比特數(shù)量

圖9 系統(tǒng)填充比特數(shù)量

從圖9 可以看出，由于Max 聚合方案將最長的用戶傳輸時間作為多用戶傳輸時間，導(dǎo)致填充比特數(shù)量最多，Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間，基本沒有填充比特，Random和DQN 聚合方案有一定程度的比特填充，但是DQN 聚合方案填充相對較少。因此，結(jié)合系統(tǒng)吞吐量與填充比特數(shù)量，可以看出DQN 聚合方案對于系統(tǒng)性能的提升是優(yōu)于其他三種方案的。

圖10 給出了4 種方案下的系統(tǒng)頻譜效率。從圖中可以看出，基于DQN 算法的聚合方案的頻譜效率較高。這是因為其可以根據(jù)各個站點的數(shù)據(jù)緩存情況，動態(tài)地找出最優(yōu)的聚合幀長度，從而減少填充比特，提高系統(tǒng)頻譜效率。其他3 種聚合方案的系統(tǒng)頻譜效率相對較低，這是因為過多地填充比特或者減少傳輸有效負(fù)載，會導(dǎo)致帶寬資源的浪費。

圖10 系統(tǒng)頻譜效率

4 結(jié)語

本文基于OFDMA 傳輸過程，對多用戶聚合幀長度優(yōu)化問題進(jìn)行了研究。首先給出了多用戶幀聚合傳輸過程的系統(tǒng)模型并建立了優(yōu)化問題，其次設(shè)計了基于深度強(qiáng)化學(xué)習(xí)框架的聚合幀長度優(yōu)化方案，最后通過MATLAB 進(jìn)行仿真。仿真結(jié)果表明，本文所提出的方案能夠根據(jù)站點的數(shù)據(jù)緩存情況自適應(yīng)選擇聚合幀長度，減少填充比特，增加有效傳輸負(fù)載，降低協(xié)議開銷在聚合幀傳輸時間中的占比，從而提升系統(tǒng)吞吐量和頻譜效率。

然而本文的研究還存在一些局限：一是在仿真過程中，只搭建了上行傳輸場景，從而只驗證了該方案對于上行傳輸系統(tǒng)性能提升的有效性和適用性；二是并未分析算法的復(fù)雜性，只驗證了算法對于系統(tǒng)性能的提升。在接下來的研究工作中，會從以下兩個方面進(jìn)行完善：一是通過仿真驗證所提方案對于下行傳輸系統(tǒng)性能提升的有效性和適用性；二是在不同的仿真場景下，對于系統(tǒng)性能的提升以及算法的復(fù)雜性，與其他優(yōu)化算法進(jìn)行對比分析。