黃新林 鄭人華
(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201800)
如今,無(wú)線(xiàn)局域網(wǎng)(Wireless Local Area Network, WLAN)的用戶(hù)數(shù)正不斷增長(zhǎng)。除此之外,物聯(lián)網(wǎng)(Internet of Things, IoT)的迅猛發(fā)展也帶來(lái)了大量需要接入無(wú)線(xiàn)網(wǎng)絡(luò)的機(jī)器設(shè)備,導(dǎo)致在有限的地理區(qū)域內(nèi)存在許多的接入點(diǎn)(Access Point,AP)和更多的站點(diǎn)(STAtion, STA)。同時(shí),在物聯(lián)網(wǎng)場(chǎng)景下,醫(yī)療、火警、交通等方面的傳輸業(yè)務(wù)相對(duì)于普通業(yè)務(wù)有更高的服務(wù)質(zhì)量(Quality of Service,QoS)要求,上傳數(shù)據(jù)時(shí)需要保證這些業(yè)務(wù)的優(yōu)先級(jí)和實(shí)時(shí)性等。在上述的密集用戶(hù)環(huán)境(dense user environments)中,來(lái)自相鄰設(shè)備的干擾增加以及來(lái)自信道爭(zhēng)用的嚴(yán)重沖突導(dǎo)致網(wǎng)絡(luò)性能下降,無(wú)法提供良好的用戶(hù)體驗(yàn)。因此,IEEE標(biāo)準(zhǔn)協(xié)會(huì)(IEEE Standards Association, IEEE-SA)標(biāo)準(zhǔn)委員會(huì)于2014年3月批準(zhǔn)了802.11ax[1]協(xié)議以提高每個(gè)用戶(hù)的平均吞吐量并應(yīng)對(duì)密集接入問(wèn)題。802.11ax的上行鏈路包括兩種接入方式:隨機(jī)接入(Random Access, RA)和調(diào)度接入(Scheduled Access, SA)[2]。為了保證物聯(lián)網(wǎng)設(shè)備上傳數(shù)據(jù)的準(zhǔn)確性和傳輸?shù)牡脱訒r(shí),需要減少?zèng)_突,使用調(diào)度接入是更好的選擇。本文研究的重點(diǎn)是正交頻分多址(Orthogonal Frequency Division Multiple Access, OFDMA)技術(shù)和802.11ax上行鏈路的調(diào)度接入問(wèn)題。
調(diào)度接入算法并非新的研究方向,長(zhǎng)期演進(jìn)(Long Term Evolution, LTE)已經(jīng)使用了OFDMA技術(shù)并且對(duì)調(diào)度問(wèn)題進(jìn)行了深入的研究[3],調(diào)度算法包括首次最大擴(kuò)展(First Maximum Expansion,FME)、遞歸最大擴(kuò)展(Recursive Maximum Expansion, RME)等[4]。使用運(yùn)營(yíng)商頻段的LTE,可以進(jìn)行時(shí)域和頻域兩個(gè)維度的調(diào)度,即可以對(duì)每個(gè)資源塊(Resource Block, RB)進(jìn)行單獨(dú)分配。802.11ax則不行,因?yàn)樗€保留了載波偵聽(tīng)多路訪(fǎng)問(wèn)/沖突避免(Carrier Sense Multiple Access with Collision Avoid, CSMA/CA)技術(shù)。該技術(shù)已經(jīng)固定了管理幀、數(shù)據(jù)幀和幀間隔的時(shí)間長(zhǎng)短,所以無(wú)法實(shí)現(xiàn)時(shí)域維度的調(diào)度。除此之外,802.11ax上行鏈路調(diào)度的子信道資源,即資源單元(Resource Unit, RU)[5]的大小可變,使得LTE的調(diào)度算法難以遷移到802.11ax中。
802.11ax中上行鏈路的傳輸效率很大程度上取決于這些RU的調(diào)度方式。標(biāo)準(zhǔn)中提供了靈活的框架,卻沒(méi)有定義任何調(diào)度算法,這給本文的研究帶來(lái)了可能性。Bankov等人[6]提出了一種通用的方法,可用于使現(xiàn)有的LTE調(diào)度器能適應(yīng)802.11ax的特性,并證明OFDMA是在密集用戶(hù)環(huán)境中提供高質(zhì)量服務(wù)的關(guān)鍵技術(shù)。Wang等人[7]針對(duì)實(shí)際的上行鏈路RU調(diào)度問(wèn)題,提出了兩種實(shí)用算法:貪婪算法和遞歸算法,仿真結(jié)果表明遞歸調(diào)度非常接近最優(yōu)調(diào)度。
以上的研究均沒(méi)有關(guān)注密集用戶(hù)環(huán)境下的物聯(lián)網(wǎng)場(chǎng)景,并且泛化能力不足。物聯(lián)網(wǎng)場(chǎng)景具有接入量大、實(shí)時(shí)性要求高、低功耗等特點(diǎn),不同業(yè)務(wù)具有不同的QoS要求。針對(duì)這個(gè)場(chǎng)景,本文提出一種基于強(qiáng)化學(xué)習(xí)的802.11ax上行鏈路調(diào)度算法。首先建立系統(tǒng)模型并將RU調(diào)度問(wèn)題轉(zhuǎn)化為0-1背包問(wèn)題;然后引入指針網(wǎng)絡(luò)模型并使用演員-評(píng)論家(Actor-Critic)[8]強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,增強(qiáng)算法的泛化能力;最后使用訓(xùn)練好的模型去調(diào)度RU資源,并在上行鏈路中進(jìn)行仿真。仿真結(jié)果表明,在物聯(lián)網(wǎng)場(chǎng)景下相比于經(jīng)典的調(diào)度算法,本文算法具有更好的表現(xiàn),能夠保證各個(gè)STA的QoS要求和公平性,并且具有更好的穩(wěn)定性和用戶(hù)體驗(yàn)。
IEEE 802.11ax是一項(xiàng)WLAN標(biāo)準(zhǔn),其標(biāo)準(zhǔn)草案由 I E E E 標(biāo)準(zhǔn)協(xié)會(huì)的T G a x 工作組制定。802.11ax制定之初所關(guān)注的就是密集用戶(hù)環(huán)境,其設(shè)計(jì)思想與以往的802.11標(biāo)準(zhǔn)存在差異。由于非授權(quán)頻段的資源有限,因此為了提高資源利用率從而克服密集接入問(wèn)題,引入了OFDMA,雙向多用戶(hù)多輸入多輸出(Multi-User Multiple-Input Multiple-Output, MU-MIMO)等技術(shù),并采取了最高支持1024-正交振幅調(diào)制(Quadrature Amplitude Modulation, QAM)的調(diào)制方式,基本服務(wù)集(Basic Service Set, BSS)著色等措施[9]。
802.11ax標(biāo)準(zhǔn)中的信道被劃分成若干大小為78.125 kHz的子載波(tone)。一定數(shù)量的子載波構(gòu)成了標(biāo)準(zhǔn)中的RU。根據(jù)子載波數(shù)的不同,RU可以分為7種,它們分別為:26 tones,52 tones,106 tones,242 tones,484 tones,996 tones和2×996 tones。因此,OFDMA將現(xiàn)有的802.11ax信道(大小包括20, 40, 80和160 MHz)劃分為一個(gè)個(gè)包含特定數(shù)量子載波的RU。如圖1所示,20 MHz信道可以被劃為若干大小不同的RU,不考慮MU-MIMO的情況下最多可容納9個(gè)STA同時(shí)上傳數(shù)據(jù)。如何分配這些RU給各個(gè)STA的方案并未在標(biāo)準(zhǔn)中定義,這為找到改善頻譜效率的優(yōu)化調(diào)度算法提供了可能性。
圖1 使用各種大小的RU劃分20 MHz的信道
如圖2所示是實(shí)際系統(tǒng)中的802.11ax上行鏈路調(diào)度接入過(guò)程[10]。按照時(shí)間順序,AP總共會(huì)向所有STA發(fā)送3個(gè)觸發(fā)幀以獲取特定的反饋信息或進(jìn)行資源調(diào)度。首先,AP會(huì)發(fā)送類(lèi)型為緩存狀態(tài)報(bào)告輪詢(xún)(Buffer Status Report Poll, BSRP)的觸發(fā)幀1,請(qǐng)求各STA反饋緩存狀態(tài)報(bào)告(Buffer Status Reports, BSR)信息,其中包含調(diào)度所需的緩存數(shù)據(jù)量和QoS值。然后,AP會(huì)使用調(diào)度算法計(jì)算每個(gè)STA應(yīng)該如何分配RU。再發(fā)送多用戶(hù)請(qǐng)求發(fā)送(Multi-User Request To Send, MU-RTS)幀,即觸發(fā)幀2,來(lái)實(shí)際分配RU資源,從而避免上行鏈路沖突的發(fā)生,盡可能提高每個(gè)用戶(hù)的吞吐量。各STA在接收到該幀后需要反饋準(zhǔn)許發(fā)送(Clear To Send, CTS)幀,告知AP已知曉并認(rèn)可當(dāng)前的資源分配[11]。AP接收到CTS后會(huì)接著發(fā)送觸發(fā)幀3,通知各STA開(kāi)始在對(duì)應(yīng)的RU上進(jìn)行上行鏈路傳輸。值得注意的是,由于802.11ax的上行傳輸是基于幀的,所以當(dāng)存在不同步的情況時(shí),需要在數(shù)據(jù)幀最后添加PAD。最后,當(dāng)上行鏈路的數(shù)據(jù)傳輸完成后,AP會(huì)向各STA發(fā)送多站點(diǎn)塊確認(rèn)(Multi-Station Block Acknowledgement, MS-BA)幀進(jìn)行確認(rèn)。
圖2 基于OFDMA的802.11ax上行鏈路調(diào)度接入過(guò)程
常用的調(diào)度算法有輪詢(xún)算法和比例公平算法。Filoso等人[12]設(shè)計(jì)了一種基于比例的資源分配算法(Proportional-based Resource Allocation, PRA),該算法利用各個(gè)STA上傳的QoS信息和緩存數(shù)據(jù)量進(jìn)行有效的RU分配,并同時(shí)考慮了優(yōu)先級(jí)和公平性,但其算法結(jié)構(gòu)固定,無(wú)法應(yīng)對(duì)更為復(fù)雜的網(wǎng)絡(luò)環(huán)境。而B(niǎo)ai等人[13]提出了一種自適應(yīng)STA分組算法,該算法使用基于BSR的兩階段機(jī)制來(lái)克服IEEE 802.11ax面對(duì)的密集網(wǎng)絡(luò)挑戰(zhàn)。自適應(yīng)分組算法雖然能夠利用分組來(lái)有效避免沖突,減少系統(tǒng)能耗。但是其分組方案較為復(fù)雜,且每個(gè)分組會(huì)輪流使用信道,這導(dǎo)致它只能較好地保障公平性和組內(nèi)優(yōu)先級(jí)排布,而缺乏組與組之間優(yōu)先級(jí)的保障。本文所提調(diào)度算法旨在將自適應(yīng)RU調(diào)度問(wèn)題抽象成背包問(wèn)題,并使用指針網(wǎng)絡(luò)模型和強(qiáng)化學(xué)習(xí)算法予以解決。最終讓AP合理分配RU資源給各個(gè)STA,實(shí)現(xiàn)優(yōu)先級(jí)和公平性的雙重保障,并具備較強(qiáng)的泛化能力和調(diào)節(jié)能力。
在本節(jié)中,首先介紹本文建立的上行鏈路系統(tǒng)模型,再提出自適應(yīng)RU調(diào)度問(wèn)題,然后使用指針網(wǎng)絡(luò)對(duì)問(wèn)題進(jìn)行建模,并利用Actor-Critic強(qiáng)化學(xué)習(xí)算法對(duì)指針網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)IEEE 802.11ax上行鏈路的RU調(diào)度。本文提出的基于強(qiáng)化學(xué)習(xí)的802.11ax上行鏈路調(diào)度算法,用于幫助AP給每個(gè)STA合理分配RU資源,以實(shí)現(xiàn)有效而公平的通信。
本文建立的系統(tǒng)模型是由1個(gè)AP和nSTA個(gè)STA構(gòu)成的物聯(lián)網(wǎng)場(chǎng)景下的802.11ax網(wǎng)絡(luò),研究的數(shù)據(jù)傳輸路徑是上行鏈路。本文的調(diào)度算法要使用到所有STA的BSR,其中包含它們的緩存數(shù)據(jù)量和QoS值。QoS值指示了STA業(yè)務(wù)的優(yōu)先級(jí),如表1所示。其數(shù)值越小對(duì)應(yīng)的優(yōu)先級(jí)就越高,對(duì)傳輸數(shù)據(jù)低延遲的要求也越高[14]。
表1 QoS值與業(yè)務(wù)類(lèi)型對(duì)應(yīng)關(guān)系
為了便于仿真實(shí)驗(yàn)對(duì)系統(tǒng)模型進(jìn)行一些簡(jiǎn)化:
(1) 僅考慮了調(diào)度接入的RU分配。
(2) 僅將1個(gè)RU分配給1個(gè)STA,不考慮MU-MIMO。
(3) 每次AP將RU分配給STA的數(shù)據(jù)流時(shí),將占用一個(gè)完整的時(shí)間窗(Tw)時(shí)間。
(4) 所有仿真使用相同的信道帶寬。
對(duì)于以上系統(tǒng)模型,理想情況下,只要保證QoS值小(優(yōu)先級(jí)高)的STA能優(yōu)先獲取RU,及時(shí)上傳數(shù)據(jù)就能完成有效的通信。但對(duì)于實(shí)際場(chǎng)景并非如此,由于物聯(lián)網(wǎng)場(chǎng)景下,連接數(shù)巨大,QoS值小的STA數(shù)量太多,可能會(huì)導(dǎo)致某些QoS值大(優(yōu)先級(jí)低)的STA長(zhǎng)期處于等待RU分配的狀態(tài),使得整個(gè)網(wǎng)絡(luò)的公平性無(wú)法保障。
因此,為了評(píng)估調(diào)度算法能否既滿(mǎn)足了QoS需求又保障了公平性,本文設(shè)計(jì)一種價(jià)值函數(shù)。根據(jù)STA上行數(shù)據(jù)流的數(shù)據(jù)量、QoS值和等待時(shí)間,共同計(jì)算該STA傳輸數(shù)據(jù)的價(jià)值,價(jià)值越高表示數(shù)據(jù)流在上行鏈路中的傳輸優(yōu)先級(jí)越高。
背包問(wèn)題是一類(lèi)經(jīng)典的組合優(yōu)化問(wèn)題。在面對(duì)大規(guī)模的背包問(wèn)題時(shí),傳統(tǒng)的啟發(fā)式算法并不能保證得到最優(yōu)解。因此本文提出使用指針網(wǎng)絡(luò)模型來(lái)解決背包問(wèn)題,并用強(qiáng)化學(xué)習(xí)算法來(lái)訓(xùn)練指針網(wǎng)絡(luò)。
表2 不同MCS與不同RU大小情況下的數(shù)據(jù)傳輸速率(Mbps)
圖3 指針網(wǎng)絡(luò)結(jié)構(gòu)圖
強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境互動(dòng)不斷改善策略,使得最終獲得的累計(jì)獎(jiǎng)勵(lì)最大化[17],是解決組合優(yōu)化問(wèn)題的重要機(jī)器學(xué)習(xí)算法。本文使用Actor-Critic算法來(lái)優(yōu)化指針網(wǎng)絡(luò)的參數(shù)θ,將指針網(wǎng)絡(luò)作為Actor。在輸入序列為c,策略為p的情況下定義解碼器輸出的價(jià)值之和為V(π|c)。因此,Actor的最大化目標(biāo)函數(shù)為式(10)
為獲得最優(yōu)的調(diào)度策略需要最大化目標(biāo)函數(shù),使用策略梯度方法優(yōu)化指針網(wǎng)絡(luò)參數(shù)θ。根據(jù)REINFORCE算法,可以得出訓(xùn)練目標(biāo)的梯度為式(11)。為保證價(jià)值越高的實(shí)例被選擇的概率越大,需要采用隨機(jī)梯度上升法來(lái)更新網(wǎng)絡(luò)參數(shù),如果采用梯度下降法更新,則式(11)要取相反數(shù)
其中,b(c)是 不依賴(lài)策略p的基線(xiàn)函數(shù),目的是減小
最終,使用Actor-Critic算法訓(xùn)練指針網(wǎng)絡(luò)的過(guò)程如表3所示。
表3 Actor-Critic算法訓(xùn)練指針網(wǎng)絡(luò)的過(guò)程
與指針網(wǎng)絡(luò)訓(xùn)練過(guò)程類(lèi)似,構(gòu)建新的指針網(wǎng)絡(luò)模型,將訓(xùn)練好的參數(shù)θ導(dǎo)入到新的模型中,形成調(diào)度策略p?(π?|c)。然后在每個(gè)時(shí)間窗中,將各個(gè)STA的數(shù)據(jù)流編碼為2維向量ci=(wi,vi)。 再將nSTA個(gè)站點(diǎn)組成的背包實(shí)例序列c={ci}ni=ST1A輸入到指針網(wǎng)絡(luò)的編碼器中,通過(guò)解碼器結(jié)合注意力機(jī)制輸出選擇的背包實(shí)例序列π?( 本文使用pytorch搭建了用于求解802.11ax上行鏈路自適應(yīng)RU調(diào)度問(wèn)題的指針網(wǎng)絡(luò),并使用Actor-Critic算法對(duì)其進(jìn)行了訓(xùn)練,最終實(shí)現(xiàn)了基于強(qiáng)化學(xué)習(xí)的上行鏈路調(diào)度算法,在指針網(wǎng)絡(luò)中設(shè)置輸入層大小為2,隱藏層大小l為128,訓(xùn)練采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)定為10–4。同時(shí),為模擬真實(shí)場(chǎng)景,在MATLAB中使用WLAN工具箱搭建了802.11ax上行鏈路仿真模型,并按照實(shí)際系統(tǒng)設(shè)置參數(shù)。在仿真模型中設(shè)置信道帶寬(背包大小)為20 MHz,并且采用TGax NLOS室內(nèi)信道模型;時(shí)間窗大小Tw為 1 ms;STA數(shù)量nSTA為120;STA的天線(xiàn)數(shù)為4,但未使用MU-MIMO技術(shù);信道編碼方式則采用LDPC。仿真過(guò)程中,將超參數(shù)、指針網(wǎng)絡(luò)參數(shù)和各STA的等待時(shí)間等參數(shù)直接存儲(chǔ)于A(yíng)P中。并將指針網(wǎng)絡(luò)模型加載到AP中。同時(shí),在RU分配之前,調(diào)度所需的緩存數(shù)據(jù)量和QoS值會(huì)由各STA上傳給AP。保證了AP在每次調(diào)度RU資源之前都能即時(shí)獲得需要的所有參數(shù)。而在上行傳輸結(jié)束后,還可以根據(jù)AP實(shí)際接收的數(shù)據(jù)得到各STA的吞吐量和數(shù)據(jù)流價(jià)值,便于算法測(cè)試以及對(duì)比分析。 本文算法的仿真結(jié)果如圖4所示。圖4展示了其中5個(gè)STA在上行傳輸中吞吐量隨時(shí)間變化的結(jié)果,用于分析QoS值在本文算法中的影響。每個(gè)STA的總緩存數(shù)據(jù)量為37 MB,MCS都為7,因?yàn)镸CS相同所以吞吐量可以直接反映出占用RU資源的大小。STA1, STA21, STA41, STA61, STA81的QoS值分別為1, 2, 3, 4, 5。由于這5個(gè)STA涵蓋了所有可選的QoS值,將它們作為其余QoS值與之相同STA的代表,便于展示。從圖4可以看出,QoS值較小的STA能夠優(yōu)先獲得AP調(diào)度的RU資源,并且RU的平均大小也比QoS值較大的站點(diǎn)更大,所以平均吞吐量較高,因此能夠在相同緩存數(shù)據(jù)量的情況下,更早地結(jié)束上行傳輸。同時(shí),QoS值較大的STA雖然優(yōu)先級(jí)較小,但并未產(chǎn)生“餓死”現(xiàn)象,雖然平均吞吐量較低,但也能被AP分配到適當(dāng)?shù)腞U資源。并且從圖4中30 s之后展示的曲線(xiàn)來(lái)看,QoS值較大的STA在優(yōu)先級(jí)較高STA的信息傳輸完畢后,還能在本文算法的調(diào)度下立即獲取更大的RU資源,保持了較高的信道利用率,沒(méi)有造成資源浪費(fèi)。因此,可以總結(jié):本文算法既能夠保證QoS值較小的STA可以?xún)?yōu)先傳輸大量數(shù)據(jù)、占用更大的RU資源,又能保證整個(gè)上行鏈路的公平性,不會(huì)造成“餓死”現(xiàn)象的發(fā)生。 圖4 本文算法的吞吐量隨時(shí)間變化的仿真結(jié)果 IEEE 802.11ax中的調(diào)度算法有輪詢(xún)調(diào)度算法、PRA算法和自適應(yīng)分組算法。因此,接下來(lái)會(huì)將本文所提上行鏈路調(diào)度算法與3者相比較,分析優(yōu)劣與適用場(chǎng)景。 如圖5所示,是4種算法對(duì)于STA1(q1=1,m1=7)和STA63(q63=4,m63=5)的RU調(diào)度情況在吞吐量上的直接反映,STA1和STA63分別代表了QoS值較小和QoS值較大的兩種STA。從圖5(a)可以看出相比于另外3種調(diào)度算法,本文算法能夠優(yōu)先且穩(wěn)定地分配更大的RU資源給QoS值較小的STA,保證業(yè)務(wù)優(yōu)先級(jí)高數(shù)據(jù)流的低延時(shí)和高吞吐,讓STA1在30 s以?xún)?nèi)就能將數(shù)據(jù)上傳完畢,早于其他算法。而在圖5(b)也可以看出,本文算法相比于另外3種算法略微延長(zhǎng)了QoS值較大的STA63的傳輸時(shí)間。雖然STA63的平均吞吐量較小,但并未出現(xiàn)“餓死”現(xiàn)象,說(shuō)明本文算法保證了STA之間的公平性,且調(diào)度RU資源過(guò)程相較于PRA算法更穩(wěn)定。圖5(c)則展示了各算法在STA業(yè)務(wù)類(lèi)型隨時(shí)間變化時(shí)的適應(yīng)能力。圖中STA1的QoS值在最初5 s內(nèi)為1,5~15 s變?yōu)?,15 s后一直保持為2,而其余STA的業(yè)務(wù)類(lèi)型保持不變。從仿真結(jié)果可以發(fā)現(xiàn)除輪詢(xún)算法以外的3種算法都具有QoS自適應(yīng)能力,且本文算法與自適應(yīng)分組算法的業(yè)務(wù)類(lèi)型跟蹤能力較PRA算法更優(yōu)秀,調(diào)節(jié)更及時(shí),吞吐量波動(dòng)更小,傳輸更穩(wěn)定。 圖5 4種算法下STA1和STA63的吞吐量隨時(shí)間變化的仿真結(jié)果 4種算法的仿真結(jié)果中,各個(gè)STA的平均等待時(shí)間也有所不同。如表4所示是5個(gè)STA代表在4種算法中因AP連續(xù)未分配RU資源而等待的平均時(shí)間??傮w來(lái)看,輪詢(xún)算法和自適應(yīng)分組算法的平均等待時(shí)間較公平,即不具備優(yōu)先級(jí)區(qū)分。自適應(yīng)分組算法組內(nèi)具有一定優(yōu)先級(jí)保障,組間則沒(méi)有,其平均等待時(shí)間與分組數(shù)正相關(guān)。而本文算法和PRA算法都對(duì)各STA實(shí)現(xiàn)了優(yōu)先級(jí)劃分,且本文算法平均等待時(shí)間更短。說(shuō)明本文算法兼具優(yōu)先級(jí)和公平性保障,既能讓優(yōu)先級(jí)高的業(yè)務(wù)平均等待時(shí)間更短,又能保證不同STA的平均等待時(shí)間相差不大。即實(shí)現(xiàn)了更穩(wěn)定而公平的RU調(diào)度。 表4 4種算法下5個(gè)STA代表的平均等待時(shí)間(ms) 圖6展示了在4種算法的調(diào)度過(guò)程中,上行鏈路數(shù)據(jù)流總價(jià)值隨時(shí)間變化的情況??梢园l(fā)現(xiàn),本文算法在調(diào)度開(kāi)始的55 s內(nèi),上行數(shù)據(jù)流的總價(jià)值都是高于另外3種算法的,而輪詢(xún)算法、PRA算法和自適應(yīng)分組算法的總價(jià)值平均來(lái)看基本持平。除此之外,若將整個(gè)仿真時(shí)間段內(nèi)的總價(jià)值取均值,可以得到對(duì)4種算法的總體評(píng)價(jià)。為了檢驗(yàn)本文算法模型的泛化能力,將802.11ax網(wǎng)絡(luò)的STA數(shù)量nSTA依次設(shè)置為80, 100, 120, 140, 160,并進(jìn)行相同的對(duì)比實(shí)驗(yàn),仿真結(jié)果如圖7所示。可以看出本文算法模型雖然只按照nSTA=120進(jìn)行訓(xùn)練,但是訓(xùn)練后的模型可以應(yīng)用到STA數(shù)量更多或更少的場(chǎng)景中,并且本文算法在各場(chǎng)景中的表現(xiàn)依然優(yōu)于另外3種調(diào)度算法,足以證明本文算法的有效性和優(yōu)秀的泛化能力。 圖6 4種算法上行鏈路數(shù)據(jù)流總價(jià)值隨時(shí)間變化的仿真結(jié)果 圖7 4種算法上行鏈路數(shù)據(jù)流平均總價(jià)值與STA數(shù)量的關(guān)系 綜上所述,本文的調(diào)度算法對(duì)優(yōu)先級(jí)的保障是優(yōu)于輪詢(xún)算法、PRA算法和自適應(yīng)分組算法的,并且相較于PRA算法更加穩(wěn)定和公平,有效增強(qiáng)了802.11ax上行鏈路的傳輸性能。雖然本文算法的復(fù)雜度相較于另外3者略高:由于需要先編碼再解碼所以時(shí)間復(fù)雜度為O(2nSTA),另外3種算法則為O(nSTA);AP需要額外存儲(chǔ)指針網(wǎng)絡(luò)的參數(shù)所以空間復(fù)雜度為O(3nSTA+2l),輪詢(xún)和自適應(yīng)分組算法則為O(nSTA), PRA算法為O(2nSTA)。對(duì)于結(jié)構(gòu)較簡(jiǎn)單、計(jì)算能力較差的AP來(lái)說(shuō)不太適合。但是在密集用戶(hù)環(huán)境下的物聯(lián)網(wǎng)場(chǎng)景中,本文算法具有更好的表現(xiàn),更能滿(mǎn)足AP調(diào)度RU資源時(shí)對(duì)公平性和有效性的需求。 為解決密集用戶(hù)環(huán)境下802.11ax 上行鏈路的自適應(yīng)RU調(diào)度問(wèn)題。針對(duì)物聯(lián)網(wǎng)場(chǎng)景,本文提出了一種基于強(qiáng)化學(xué)習(xí)的802.11ax上行鏈路調(diào)度算法。該算法應(yīng)用在WLAN的AP上,用于向所有接入該AP的STA調(diào)度RU資源。首先,根據(jù)物聯(lián)網(wǎng)場(chǎng)景的特點(diǎn)建立通信系統(tǒng)模型;然后,在系統(tǒng)模型的基礎(chǔ)上提出802.11ax上行鏈路的自適應(yīng)RU調(diào)度問(wèn)題,并將該問(wèn)題轉(zhuǎn)換為背包問(wèn)題;之后,使用Actor-Critic強(qiáng)化學(xué)習(xí)算法訓(xùn)練用于解決背包問(wèn)題的指針網(wǎng)絡(luò),并存儲(chǔ)訓(xùn)練后的網(wǎng)絡(luò)參數(shù);最后,在仿真平臺(tái)上使用訓(xùn)練好的網(wǎng)絡(luò)參數(shù)進(jìn)行上行鏈路RU資源調(diào)度和數(shù)據(jù)傳輸實(shí)驗(yàn)。通過(guò)與輪詢(xún)算法、PRA算法和自適應(yīng)分組算法對(duì)比可以發(fā)現(xiàn),本文算法在密集用戶(hù)環(huán)境下的物聯(lián)網(wǎng)場(chǎng)景中表現(xiàn)更優(yōu),相比于其他調(diào)度算法更能滿(mǎn)足優(yōu)先級(jí)和公平性的需求,分配資源的過(guò)程也更加穩(wěn)定而有效,同時(shí)算法所訓(xùn)練的模型具有很好的泛化能力,對(duì)于實(shí)際應(yīng)用場(chǎng)景有一定的實(shí)用價(jià)值。4 仿真實(shí)驗(yàn)與對(duì)比分析
5 結(jié)束語(yǔ)