李中捷,吳園君 ,金閃,鐘小輝
(中南民族大學 電子信息工程學院&智能無線通信湖北重點實驗室,武漢 430074)
足夠高的可用帶寬、小型化的天線和設備、較高的天線增益使得毫米波(mmWave)成為5G通信系統(tǒng)的關(guān)鍵技術(shù)之一[1].支持高移動性、高數(shù)據(jù)速率的毫米波通信系統(tǒng),可實現(xiàn)廣泛的重要應用,如車載通信和無線虛擬/增強現(xiàn)實(AR/VR)等.但是在實踐應用中需克服毫米波頻段傳輸距離短、自由空間傳損耗大、穿透和繞射能力差、易受氧氣吸收等氣候環(huán)境影響等缺點[2].尤其在車聯(lián)網(wǎng)這類快速移動場景下,由于其相干時間很小,多普勒效應將變得更加明顯,無線信道會同時受到頻率選擇性衰落和時間選擇性衰落的影響,因此極大制約了用戶的移動性和系統(tǒng)的可靠性[3].波束成形的主要任務是補償無線傳播過程中由空間損耗、多徑效應等因素引入的信號衰落與失真,同時降低同信道用戶間的干擾[4].在快速移動場景下,為實現(xiàn)mmWave通信的傳輸可靠性,發(fā)射和接收波束的精確快速對準至關(guān)重要,因此在毫米波通信系統(tǒng)引入結(jié)合功率控制和干擾約束的波束成形技術(shù)以增強終端用戶的性能是一項重大挑戰(zhàn).
目前國內(nèi)外的研究針對上述問題,提出了若干解決方案.文獻[5]-文獻[11]研究了在上行鏈路和下行鏈路中聯(lián)合優(yōu)化功率控制和波束成形的相關(guān)問題.其中,文獻[5]在沒有考慮mmWave傳播中的散射或陰影的情況下,提出了聯(lián)合優(yōu)化傳輸功率和波束成形矢量以達到最大化SINR的方案.文獻[6]采用幾乎空白子幀(almost blank subframe,ABS)的方法來解決兩個基站的同信道小區(qū)間干擾問題.文獻[7]提出雖然ABS在固定波束天線模式中運行良好,但波束成形的動態(tài)特性降低了ABS的有效性.文獻[8]針對SINR平衡、功率最小化、速率和容量最大化這三種典型的下行鏈路波束成形優(yōu)化問題,分別提出了不同的深度學習優(yōu)化方案.文獻[9]研究了上行鏈路波束成形聯(lián)合功率控制的優(yōu)化問題,提出最大化兩個用戶的和速率,同時確保每個用戶滿足最小速率的優(yōu)化方案.但該算法采用的強化學習算法計算復雜度高,導致用戶設備(user equipment,UE)的電池耗盡過快.文獻[10]基于深度強化學習(deep reinforcement learning,DRL)提出了一種分布式動態(tài)下行波束成形協(xié)調(diào)(dynamic downlink-beamforming coordination,DDBC)方案,其中每個基站根據(jù)有限信息交換協(xié)議訓練各自的DQN網(wǎng)絡,決策出最佳的波束形成向量.文獻[11]基于DQN算法提出了28GHz毫米波MISO系統(tǒng)下行鏈路波束成形優(yōu)化算法,但該方案僅考慮了UEs以2 km/h的低速移動場景中的可靠性通信問題.
本文在文獻[11]的基礎上,研究在快速移動環(huán)境下引入功率控制和干擾協(xié)調(diào)的毫米波MISO系統(tǒng)下行鏈路波束成形聯(lián)合優(yōu)化問題.首先考慮到UEs快速移動時毫米波系統(tǒng)中的時變特性和延遲問題,基于文獻[12]中的信道模型推導引入多普勒頻移的快速移動毫米波系統(tǒng)信道模型;然后考慮功率限制和干擾約束,以移動用戶接收信號干擾噪聲比(signal to interference plus noise ratio,SINR)最優(yōu)為準則,將毫米波下行鏈路的波束成形建模為聯(lián)合優(yōu)化問題.最后提出一種基于DQN的在線學習算法,通過學習小區(qū)間干擾和波束間干擾的隱含特征,推導出近似最優(yōu)策略以最大化用戶SINR.該算法利用強化學習的優(yōu)點,通過交互學習探索一種同時控制服務BS發(fā)射功率及協(xié)調(diào)干擾BS發(fā)射功率的聯(lián)合優(yōu)化方案.
包含N個基站的正交頻分復用(orthogonal frequency division multiplexing,OFDM)多址下行鏈路蜂窩網(wǎng)絡如圖1所示.該網(wǎng)絡包括一個服務基站k和至少一個干擾基站j,基站間距為R,小區(qū)半徑r>R/2,覆蓋范圍允許重疊.移動用戶隨機分散在它們的服務區(qū)域中,并且以速度v勻速移動.移動用戶通過上行鏈路將測量的SINR信息反饋到其服務基站k,再由該基站通過回程鏈路中繼到云端控制單元,最后在云端執(zhí)行聯(lián)合動作來選擇服務基站和其他干擾基站的碼本索引和發(fā)射功率.
圖1所示的系統(tǒng)模型中,每個基站配備M個均勻線性陣列(uniform linear array, ULA)天線,用戶配備單根天線,第k個用戶在服務基站k處的接收信號為:
(1)
圖1 系統(tǒng)模型框圖Fig.1 System transmission model
鑒于毫米波收發(fā)器的硬件限制,基站僅使用模擬波束成形向量,其中每個波束成形向量fk,k=1,2,…,N的波束成形權(quán)重由恒模移相器即[fk]m=ejθm定義.假定每個波束成形向量均選自基于波束導向的波束成形碼本F.此碼本大小為|F|=NCB,第k個元素定義為:
(2)
其中d和K表示天線間距和子載波數(shù)量,而θk表示轉(zhuǎn)向角度,a(θk)是沿θk方向的陣列響應向量,值θk通過將0和π弧度之間的天線角度除以天線數(shù)M獲得的.
設基站k的發(fā)射功率PTX,k∈P,其中P是候選發(fā)射功率集合.本文依據(jù)文獻[13]選擇P,選定基站發(fā)射功率以上(或以下)的功率偏移值為發(fā)射功率.
本文采用有L個簇的窄帶幾何信道模型[12],引入用戶移動導致的多普勒頻移來構(gòu)建高速移動毫米波時變信道模型.t時刻基站k到用戶k之間下行鏈路信道可建模為:
(3)
(4)
在時間t內(nèi)用戶在一組物理資源塊(physical resource blocks,PRBs)上接收到的下行鏈路功率PUE[t]可定義為:
(5)
其中PTX,k是基站k的PRB發(fā)射功率.故在時間間隔t中計算用戶k在服務基站k處接收到的有效SINR可定義為:
(6)
本方案旨在聯(lián)合優(yōu)化N個基站處的波束成形向量和發(fā)射功率,以最大化UEs可實現(xiàn)的速率和,即將包含功率約束和干擾約束的波束成形優(yōu)化問題建模為:
(7)
其中γtarget表示下行鏈路傳輸?shù)哪繕薙INR.P和F分別表示候選傳輸功率集和波束成形碼本集.由于前兩個約束的非凸性,此優(yōu)化問題是一個非凸優(yōu)化問題.為找到t時刻基站i的最優(yōu)PTX,i和fi,通常采用在P×F的笛卡爾積空間上進行全局窮舉搜索即暴風算法(Brute Force, BF)算法來找到最佳解決方案.已知Brute Force的復雜度是基站數(shù)量的指數(shù)級,即使用經(jīng)典算法(非機器學習技術(shù))解決此問題通常需要在大空間上進行窮舉搜索以找到最優(yōu)解,因此本文基于深度強化學習技術(shù)解決以上問題.
(1)時間復雜度:傳統(tǒng)算法運行時間復雜度上限可以計算,但由于缺乏收斂性和穩(wěn)定性保證,故給所提出的DQN算法定義類似表達式具有一定挑戰(zhàn)性[14].因此通過天線大小為M時的運行時間來表征計算復雜度.
(2)收斂性:針對網(wǎng)絡中所有用戶在采樣周期TS內(nèi)達到目標SINR的episode定義收斂性ζ.預計隨著天線數(shù)量M的增加,ζ也將增加.
(4)速率和容量:根據(jù)下行鏈路有效SINR值,平均傳輸速率和容量(sum-rate capacity)C可表示為:
(8)
其中Ts表示采樣的無線幀長度.
本節(jié)描述了深度強化學習中智能體通過不斷探索,學習到如何選擇最優(yōu)動作來最大化其在交互環(huán)境中的預期未來獎勵.所提出的JB-PCIC方案同時控制基站的波束成形向量和發(fā)射功率,以最大化(7)中的目標函數(shù)算法. JB-PCIC方案中智能體與環(huán)境之間的交互如圖2所示.
圖2 所提方案中智能體與環(huán)境交互流程圖fig.2 The flow chart of interaction between agent and environment
首先,智能體依據(jù)公式(9)中的增量(n+1)或減量(n-1)來分別為服務基站k和干擾基站j選擇波束成形向量對應的碼本索引值:
n|→fn[t]:n=(n±1)modM,
(9)
為給定用戶選擇波束成形向量后,智能體通過一串比特位動作寄存器同時執(zhí)行一系列二進制動作,來更改服務基站(或干擾基站)的發(fā)射功率,實現(xiàn)該波束的功率控制和干擾協(xié)調(diào).當服務基站k執(zhí)行功率控制動作PCk[t]后,其發(fā)射功率可描述為:
(10)
(11)
其中IC、PC命令實際上相同,主要作用是區(qū)分基站中的服務者(需要功率控制)或干擾者(需要協(xié)調(diào)干擾).綜上基于DQN算法的PCIC優(yōu)化問題可建模如圖3所示.
圖3 下行鏈路中考慮功率約束和干擾約束的波束成形優(yōu)化問題模塊Fig.3 Downlink joint beamforming, power control, and interference coordination module
表1 二進制編碼動作集Tab.1 Binary coded action set
(12)
當對數(shù)據(jù)傳輸采取聯(lián)合功率控制和波束成形動作時,會在每個時間段對智能體給予最大的獎勵.如果公式(7)中的任一約束不滿足條件,則中止該episode,且智能體收到的獎勵為γs,s′,a[t]=γmin.如下一節(jié)算法1所示,根據(jù)是否小余最小值γmin或達到γtarget,給定γmin或最大獎勵γmax.
其中有效目標SINR定義為:
(13)
采用第2節(jié)中的網(wǎng)絡、系統(tǒng)和信道模型,無線環(huán)境參數(shù)如表2所示,所提出方案的DQN超參列表如表3所示.仿真實驗部分依據(jù)不同性能指標與Brute Force算法進行比較.
表2 無線環(huán)境參數(shù)列表Tab.2 wireless environment parameters
表3 強化學習超參列表Tab.3 Reinforcement learning hyperparameters
根據(jù)以上參數(shù)設置和2.2節(jié)中的性能指標做出以下仿真實驗,分析了所提出的JB-PCIC算法在顯著降低運行復雜度的情況下,可以近似達到Brute Force算法的性能(圖4).
圖4 歸一化運行時間與天線數(shù)量M的關(guān)系Fig.4 The normalized run time for the optimal and JB-PCIC algorithm vs M.
如圖4所示,運行時間隨著天線數(shù)量M增大而增加,在Brute Force算法中運行時間復雜度隨M呈指數(shù)性變化,因此曲線更為陡峭.以M=16時為例,所提算法的運行時間顯著減少,僅需要Brute Force算法的6.7%,即本方案顯著降低了時間復雜度.
圖5 JB-PCIC算法γeff的CDF函數(shù)與天線數(shù)量M關(guān)系Fig.5 Coverage CDF of γeff for the JB-PCIC algorithm vs M.
圖5表示UE移動速度v=30 km/h時γeff[t]的累積函數(shù)分布圖,在同等概率值下,隨著基站天線數(shù)量增加,用戶能達到的的SINRγeff[t]也隨之增加,因為根據(jù)公式(9)所定義,γeff[t]取決于與M有關(guān)的波束成形陣列增益.此CDF圖還表明隨著M增大,服務基站的覆蓋范圍能滿足更多的UEs實現(xiàn)可靠通信.
圖6 JB-PCIC算法的歸一化收斂時間與天線數(shù)量M的關(guān)系Fig.6 The normalized convergence time for the JB-PCIC algorithm vs M.
如圖7所示,所獲得的有效SINRγeff與天線數(shù)量M成正比,且歸一化傳輸功率幾乎等于最優(yōu)值,即所提出的JB-PCIC算法能達到與Brute Force算法相當?shù)男阅?而且可觀察到,因為訓練好的DQN網(wǎng)絡能夠估算出性能上限,傳輸功率和SINR的性能差距幾乎在所有M取值范圍內(nèi)都減小了.
圖7 兩種算法歸一化傳輸功率和γeff值與天線數(shù)量M的關(guān)系Fig.7 Achievable SINR and normalized transmit power for the two algorithm vs M.
如圖8所示,選取了500個episode中某一次10幀片段.當模型訓練過程中,所提出的算法在UEs勻速移動的整個10ms過程中,智能體每毫秒執(zhí)行二進制動作PC、IC來控制服務BS和干擾BS的傳輸功率,均能保證下行鏈路每個UE正常通信(即SINR達到最小值以上),且最大化UEs速率和容量.
圖8 JB-PCIC算法使UEs達到目標SINR值的某次訓練過程Fig.8 Training process of the JB-PCIC algorithm enables UEs to reach the target SINR.
圖9顯示了JB-PCIC算法的速率和容量的性能上限,可以觀察到UEs以不同速度移動時都能達到與Brute Force相近的速率和容量.仿真表明UEs移動速度的變化對性能的影響較小,證明了根據(jù)多普勒頻移特性建模的高速移動環(huán)境下的信道模型較為可靠,且說明了所提出的算法能夠滿足快速移動環(huán)境下多用戶的可靠性傳輸.
圖9 所提出算法的速率和容量與天線數(shù)量M的關(guān)系Fig.9 Sum-rate capacity for the optimal and JB-PCIC algorithm vs M.
本文旨在解決移動場景下MISO系統(tǒng)的OFDM多址蜂窩網(wǎng)絡中,聯(lián)合優(yōu)化服務BS和干擾BS的發(fā)射功率來最大化下行鏈路的SINR值.所提出的JB-PCIC方案不需要完整的信道狀態(tài)信息,只需要UEs每毫秒將其坐標及其接收的SINR發(fā)送到基站,從而消除了對信道估計和相關(guān)訓練序列的開銷.此外,還降低了來自UE的總反饋量,因為UE不需要發(fā)送用于波束成形向量改變、功率等級控制或協(xié)調(diào)干擾BS的顯式命令.假定每個BS可以從有限集合中選擇波束成形向量和功率控制命令,本文表明找到最佳波束需要進行詳盡的搜索,且窮舉搜索的運行時間是基站數(shù)量的指數(shù)級.為避免窮舉搜索,本文基于DQN提出了適應動態(tài)環(huán)境的JB-PCIC算法,仿真表明該算法能近似達到Brute Force方案的性能,且運行時間復雜性比Brute Force方案低得多。未來研究可考慮MIMO系統(tǒng)或更復雜的混合異構(gòu)網(wǎng)絡環(huán)境,也可考慮采用收斂效果更好的Double DQN或適用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法等其他深度強化學習算法來尋找最佳的混合波束成形方案.