王冰穎,方旭明
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756)
近年來,隨著用戶日益增長的服務(wù)需求,無線局域網(wǎng)(wireless local area network, WLAN)終端設(shè)備不斷增加,無線環(huán)境變得越來越復(fù)雜,環(huán)境的變化對無線保真(wireless fidelity, WiFi)設(shè)備的干擾影響是無法準確度量的,給干擾分析和干擾抑制帶來了難度。而無線網(wǎng)絡(luò)的干擾管理研究主要依靠干擾協(xié)調(diào)和協(xié)同傳輸,干擾消除或者干擾對齊一般難以實現(xiàn)。IEEE802.11ax協(xié)議為解決密集場景下的覆蓋問題,提出了多項多用戶介質(zhì)訪問控制(multi user medium access control, MU-MAC)增強技術(shù)[1],為協(xié)調(diào)干擾、協(xié)同傳輸以及提高并發(fā)能力提供了新的解決思路,相關(guān)文獻對此進行了大量研究。在干擾協(xié)調(diào)方面,802.11ax打破了傳統(tǒng)的802.11協(xié)議使用固定載波偵聽門限(carrier sense threshold, CST)的慣例,并且為頻譜資源的豐富和資源塊(resource unit, RU)劃分提供了更多的調(diào)度可能。在協(xié)同傳輸方面,一般需要共享數(shù)據(jù)資源,協(xié)同波束的傳輸更需要大量天線和信道探測開銷。而對于WiFi功率控制,802.11標準中對具體實現(xiàn)并沒有明確規(guī)定,屬于開放問題。我們認為,其中的關(guān)鍵問題是如何利用設(shè)備的功率協(xié)調(diào)干擾,同時盡可能簡化傳遞的信息和算法。
功率協(xié)調(diào)的本質(zhì)可以抽象為一個搜索優(yōu)化問題,而通過啟發(fā)式算法協(xié)調(diào)功率提升系統(tǒng)性能的研究也并不少見。文獻[2]利用一種啟發(fā)式算法解決基站操作關(guān)聯(lián),但只涉及簡單的基站開閉。文獻[3-5]在其他無線網(wǎng)絡(luò)中研究使用啟發(fā)式算法改善系統(tǒng)能效,但在已知范圍內(nèi)少有將WiFi網(wǎng)絡(luò)干擾管理和啟發(fā)式算法兩者結(jié)合在一起的。實際上,我們可以將無線網(wǎng)絡(luò)的優(yōu)化問題建模為馬爾可夫決策過程(Markov decision process, MDP),以描述系統(tǒng)的狀態(tài)轉(zhuǎn)換。但是,由于MDP具有許多變量,求解較為困難,因此,我們探索用強化學(xué)習(xí)方法來求解。
無論是啟發(fā)式算法還是強化學(xué)習(xí)都需要一個計算中心,現(xiàn)有的無線局域網(wǎng)主要使用分布式網(wǎng)絡(luò)架構(gòu),使得無線資源的管理效率很低,而中心控制式的網(wǎng)絡(luò)架構(gòu)可以使用全局信息來對接入點(access point, AP)和用戶設(shè)備(user equipment, UE) 進行統(tǒng)一管理,對無線資源的管理效率更高[6-7]。因此,本文針對802.11ax基于中心的架構(gòu),假設(shè)本文研究對象密集WiFi網(wǎng)絡(luò)至少有一個控制中心器可以執(zhí)行網(wǎng)絡(luò)控制算法。
本文針對WiFi密集用戶網(wǎng)絡(luò)場景的干擾管理進行研究,考慮場景中存在一個可以計算和暫時控制周圍接入點的中心接入點,把多接入點的干擾管理問題抽象成一個多目標的資源分配問題,根據(jù)提出的優(yōu)化目標和約束條件,通過改進遺傳算法(genetic algorithm,GA)和強化學(xué)習(xí)(reinforcement learning, RL)協(xié)調(diào)功率來控制干擾,在保證用戶服務(wù)質(zhì)量前提下,通過感知系統(tǒng)容量的上升實現(xiàn)干擾最小化。
下一代IEEE中有提案提到將AP分為主從AP,本文主要將主控接入點(master access point,MAP)作為控制中心,服務(wù)訪問點(slave access point,SAP)作為主要服務(wù)用戶的AP,在一個WiFi網(wǎng)絡(luò)中有多個AP同時工作,工作在5 GHz頻段,用戶隨機均勻分布,移動性較低,用戶分布如圖1。
圖1 密集用戶場景示意圖Fig.1 Dense user scenario diagram
假設(shè)網(wǎng)絡(luò)由若干AP和若干用戶組成,AP共享頻譜,其中單個AP服務(wù)N個UE。用戶受到的同頻干擾主要來自于其他AP的能量泄露。所以,對應(yīng)的UE的信噪比為
SINRij=
(1)
(1)式中:Pt,ij是第j個UE對應(yīng)的第i個AP的發(fā)射功率;Gt,ij是第j個UE對應(yīng)的AP的發(fā)射天線增益;Gr,ij是第j個UE的接收天線增益;Gh,ij是第i個UE與提供服務(wù)的AP之間的信道增益,包括大尺度衰落和小尺度衰落;Pt,ab→ij·Gt,ab→ij·Gr,ab→ij·Gh,ab→ij代表其他APa與用戶b之間的通信鏈路對APi與用戶j通信鏈路產(chǎn)生的干擾。為了簡化方便,本文只考慮下行鏈路的吞吐率為
(2)
(2)式中:C表示當前整個網(wǎng)絡(luò)的吞吐率;Rij表示第i個AP第j個UE對應(yīng)的吞吐率;Bij是第j個UE對應(yīng)的第i個AP的帶寬。
本文關(guān)注的是降低WiFi網(wǎng)絡(luò)間的同頻干擾,同頻干擾的優(yōu)化實質(zhì)上是提高用戶服務(wù)滿意度,而對于用戶來說,AP發(fā)射功率在滿足傳輸需要的同時盡可能少地受到來自其他AP的干擾。但用戶需要的服務(wù)速率越高,往往要求的發(fā)射信號強度越高,AP的發(fā)射功率都增加時干擾也會增強,且用戶使用設(shè)備也需要低功耗來維持長時間的使用,則在提升容量性能和縮小功耗的問題上,可能是一種博弈。由于干擾信號較小且難以測量,干擾優(yōu)化的目的主要是提升系統(tǒng)吞吐性能,將系統(tǒng)吞吐率提升設(shè)為干擾優(yōu)化的主要目標。
由于802.11ax的物理層是基于正交頻分復(fù)用技術(shù) (orthogonal frequency division multiplexing, OFDM)實現(xiàn)的,同時考慮到無線硬件是線性功率放大器件,長期處于極值的狀態(tài)可能會加大損耗,降低使用壽命或?qū)е滦盘柺д鎇8],為可持續(xù)地使用功率放大器件,需要使其穩(wěn)定在線性區(qū)間內(nèi),因此,對平均功率作出如下約束
(3)
為系統(tǒng)性能平滑,一般對于單個AP,每次功率調(diào)整的步長不宜太大。若P0為調(diào)整前的功率值,則最小功率調(diào)整步長為
(4)
綜上,為了在系統(tǒng)總功耗最小的情況下實現(xiàn)最大的用戶滿意度,得到最優(yōu)的系統(tǒng)能效,建立優(yōu)化模型表示為
(5)
(5)式中:Pt,i是第i個AP的發(fā)射功率;P0,i是第i個AP調(diào)整前的發(fā)射功率;Pt,max是AP發(fā)射功率最大值。
根據(jù)優(yōu)化模型,不難看出干擾優(yōu)化被抽象成有關(guān)發(fā)射功率的尋優(yōu)問題,根據(jù)信噪比公式可知在帶寬、天線增益等參數(shù)固定的情況下,發(fā)射功率和吞吐率完全是正相關(guān)的,但理想的優(yōu)化目標也希望發(fā)射功率盡可能小。本文采用遺傳算法綜合考慮系統(tǒng)的干擾情況和業(yè)務(wù)滿足能力,參考小生境算法的思想[9],在遺傳過程中同時并行搜索結(jié)果,使其合成精英種群,加強全局搜索能力,以AP的隨機發(fā)射功率作為遺傳算法的初始解,每次迭代后在種群中選擇一定比例優(yōu)秀的結(jié)果,然后,同時讓他們迭代若干次,記錄每一次的最優(yōu)結(jié)果,直到解集趨于穩(wěn)定。
遺傳算法的核心是其目標函數(shù),從(5)式可以看出,約束C1和C2會和核心目標最大化吞吐率有一定沖突,同時約束C1和C2待優(yōu)化的目標也是發(fā)射功率,求最小值也相當于求負的最大值,因此,將目標函數(shù)定義為適應(yīng)度f(Sl),表示為
(6)
(6)式中:CSl為基因Sl對應(yīng)的系統(tǒng)吞吐率;Cmax為802.11ax協(xié)議下系統(tǒng)的吞吐率最大值。
可以根據(jù)對目標的期盼程度對影響權(quán)重參數(shù)α,β,γ進行調(diào)整。α主要表征吞吐率影響,α越大表示對算法推算的吞吐率期望高,必要時可以犧牲一定的功率代價;β,γ分別表征對系統(tǒng)平滑過渡和平均功率的期望。期望f(Sl)>0,同時,由于吞吐率為核心目標,經(jīng)過我們反復(fù)分析和驗證,發(fā)現(xiàn)當α=0.4,β=0.6,γ=0.6;α=1,β=0.6,γ=0.4;α=1,β=0.4,γ=0.6等設(shè)定參數(shù)時,系統(tǒng)的吞吐率提升不足1%,而只有當參數(shù)α∈(0.5,1],β∈[0,0.5],γ∈[0,0.5],α>β+γ時,系統(tǒng)性能處于較為理想的范圍。一組AP的發(fā)射功率構(gòu)成基因Sl,表示為
Sl={Pt,1,…,Pt,M}s.t.Pt,i∈[0,Pt,max]
(7)
基于當前場景,優(yōu)化目標的改進遺傳算法步驟如下。
步驟1隨機化生成一組AP發(fā)射功率作為初始解S0,1~N_SS個包含初始解的種群大小為Nind的子種群SS,子種群合并為S,設(shè)置最大迭代次數(shù)genMax,精英比例Px等參數(shù);
步驟2對每個子SS執(zhí)行遺傳算法,計算種群SS中每個個體的適應(yīng)度值f(Sl);
步驟3降序排列適應(yīng)度值f(Sl),選擇數(shù)量為genMax·Px的優(yōu)異個體放入集合SG;
步驟5重復(fù)步驟2,步驟3,直到迭代得到S中最優(yōu)解Sl-best。
強化學(xué)習(xí)已被證明是通信和計算系統(tǒng)中資源分配的有效解決方案之一。通過與環(huán)境交互的即時獎勵反饋,RL代理可以相應(yīng)地生成(接近)最佳控制動作[10]。Q學(xué)習(xí)[11](Q-learning, QL)是一種典型的強化學(xué)習(xí)方法,同遺傳算法相比,學(xué)習(xí)算法更加簡單,不存在種群的概念,僅根據(jù)反饋調(diào)整單個目標。根據(jù)遺傳算法的設(shè)置,發(fā)射功率的狀態(tài)是離散的,調(diào)整發(fā)射功率的動作也是離散的,并且狀態(tài)執(zhí)行動作時會不連續(xù)地更改。因此,本文將QL用于當前場景干擾優(yōu)化,假設(shè):①當前的環(huán)境狀態(tài)S:網(wǎng)絡(luò)內(nèi)AP的發(fā)射功率的設(shè)定值,S={S0,…Sl,…},其中,Sl是本次觀測的初始狀態(tài)推測出的轉(zhuǎn)移狀態(tài),與遺傳算法中的個體相同;②動作空間A:一次對于發(fā)射功率的調(diào)整,由于這種調(diào)整的可能性比較多,且隨著AP數(shù)目變化,將其定為數(shù)目為K的隨機動作α,其中,α∈A,α與Sl規(guī)模相同,α中元素有0,±δ這3種值,δ為調(diào)整步長;③反饋信號rt:由適應(yīng)值f(Sl)與上一次的差值決定,可直觀的體現(xiàn)本次策略調(diào)整相比于上一次的好壞,保證了策略更新的優(yōu)化。其中策略更新的規(guī)則為
Qt+1(Sl,a)=(1-σ)Qt(Sl,a)+
(8)
(8)式中:Qt+1(Sl,a)是下一次Q值表中對應(yīng)狀態(tài)Sl;Sl’是當前觀察到的狀態(tài);α’是觀察時選擇的動作;σ∈(0,1]為學(xué)習(xí)率,σ=1/(1+Nα(x)),Nα(x)是迭代x次后選擇動作的次數(shù),隨著迭代次數(shù)趨于無窮,若Q值經(jīng)歷無數(shù)多次更新,最終收斂于最優(yōu)策略;τ∈(0,1)為時間折現(xiàn)因子,是一個常數(shù),它體現(xiàn)了未來回報相對當前回報的重要性,τ值越高表示當前回報越高。
基于當前場景優(yōu)化目標的學(xué)習(xí)算法步驟如下。
步驟1隨機化生成一組AP發(fā)射功率作為初始狀態(tài)S0,1~K個隨機產(chǎn)生的動作集A;
步驟2獲取當前狀態(tài)下的Qmax值,根據(jù)Qmax值選擇行為a;
步驟3計算執(zhí)行行為a后的適應(yīng)值f(Sl);
步驟4根據(jù)適應(yīng)值f(Sl)與上一次的差值判斷干擾改善情況,決定反饋值rt;
2)預(yù)加載結(jié)束后開始正式加載至試件破壞,加載過程時間不少于15 min,因此加載速度定在80 kN/min;
步驟5根據(jù)(8)式更新Q值表;
步驟6重復(fù)步驟2—5,直到得到S中最優(yōu)狀態(tài)Sl-best。
由于期望狀態(tài)是吞吐率和發(fā)射功率的一個折中,算法期望通過采取合適的行為將初始狀態(tài)轉(zhuǎn)移到一個更好的狀態(tài),因此,在有限的迭代中找到最好的折衷態(tài)即可。
使用MATLAB對所提的干擾管理方案進行仿真驗證。根據(jù)1.1節(jié)設(shè)置的網(wǎng)絡(luò)場景,以及對1.2節(jié)優(yōu)化目標使用所提算法對系統(tǒng)干擾進行優(yōu)化,在適應(yīng)度函數(shù)中對一些條件進行約束,根據(jù)適應(yīng)度函數(shù)對優(yōu)勢基因進行選擇,得到隨迭代次數(shù)變化的情況,本文的仿真結(jié)果也與其他應(yīng)用于無線場景中的啟發(fā)式算法[12-13]進行了對比。仿真依據(jù)802.11ax協(xié)議,假設(shè)無干擾情況下滿足最大調(diào)制編碼策略(modulation and coding scheme, MCS)的速率對應(yīng)的功率為最大發(fā)射功率,滿足MCS7的功率為平均發(fā)射功率,工程上可按經(jīng)驗值進行設(shè)置,其他相關(guān)參數(shù)[14-15]如表1。
表1 仿真參數(shù)Tab.1 Simulation parameter values
圖2對比了固定AP數(shù)和UE數(shù)時使用遺傳算法,自適應(yīng)調(diào)整概率的遺傳算法(adaptive genetic algorithm ,AGA),改進遺傳算法(improved genetic algorithm ,IGA),粒子群算法(particle swarm optimization ,PSO),強化學(xué)習(xí)算法情況下隨著迭代次數(shù)變化的平均吞吐率仿真,仿真中的平均吞吐率是包含了一定的通信和計算開銷,反映了各算法執(zhí)行的吞吐率水平。從圖 2中可知,優(yōu)化算法的迭代次數(shù)和系統(tǒng)平均吞吐率基本成正比,QL得到的吞吐率在迭代會有一定的波動,總體呈上升趨勢,且在第14次反超改進遺傳算法,第18次迭代時達到吞吐率峰值,相比遺傳算法、自適應(yīng)遺傳算法、PSO、改進遺傳算法分別提升約3%,2%,2%,1‰。相比于其他論文中應(yīng)用的啟發(fā)式算法可以看出,改進的遺傳算法可以更加快速地反應(yīng),吞吐率在第2次迭代時有明顯提升,之后又下降是因為搜索到的發(fā)射功率值太高,雖然吞吐率明顯提升,但適應(yīng)度并不高,之后被其他搜索結(jié)果取代,搜索第5次后基本趨于穩(wěn)定,隨著迭代次數(shù)的增加,其提升效果趨于穩(wěn)定,如果迭代次數(shù)足夠大,可能結(jié)果與其他啟發(fā)式算法趨同。
圖2 用戶平均吞吐率對比Fig.2 User average throughput comparison
圖3和圖4分別是不同算法下隨著迭代次數(shù)變化的適應(yīng)度值趨勢和適應(yīng)度的累計分布函數(shù)(cumulative distribution function,CDF),從圖3可以看出,應(yīng)用QL算法和改進遺傳算法整體提高了適應(yīng)度,即在提升吞吐的情況下盡可能滿足了減小發(fā)射功率穩(wěn)定平均功率的限制,綜合考慮了使用情況,結(jié)果趨向于收斂,反映了對單次功率調(diào)整能力要求較小,便于硬件的保護,延長使用壽命。圖 4對不同的適應(yīng)度CDF進行了對比,可以看出,應(yīng)用QL算法調(diào)整基站發(fā)射功率能夠比較快速地提升適應(yīng)度,滿足系統(tǒng)期望的目的,而改進遺傳算法前期反應(yīng)速度比較快,且搜索比較全面,但結(jié)果與其他優(yōu)化算法差別不大,總的來說,所提算法保證了用戶的通信質(zhì)量且易于實現(xiàn)。
圖3 不同算法適應(yīng)度對比Fig.3 Fitness comparison under different algorithms
圖4 適應(yīng)度累積分布函數(shù)對比Fig.4 Cumulative distribution functions of fitness
本文針對密集用戶場景下802.11ax網(wǎng)絡(luò),同頻設(shè)備功率損耗大并且相互之間干擾嚴重的情況,基于本文中的網(wǎng)絡(luò)結(jié)構(gòu),提出了一種干擾協(xié)調(diào)方案。仿真結(jié)果表明,一定條件下額外的開銷是值得的,強化學(xué)習(xí)算法和改進遺傳算法在考慮了基站對功率的調(diào)節(jié)能力和持久服務(wù)能力下能提升系統(tǒng)吞吐率,達到期望目的。值得一提的是,所提方案需要動態(tài)地協(xié)調(diào)干擾,基站之間需要交互彼此的發(fā)射功率信息和協(xié)調(diào)調(diào)度用戶,無疑增加了信令開銷和計算開銷。