亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

移動場景中基于DQN的毫米波MISO系統(tǒng)下行鏈路波束成形

2021-06-25 02:12:28李中捷吳園君金閃鐘小輝

中南民族大學學報(自然科學版) 2021年3期

關(guān)鍵詞：優(yōu)化

李中捷，吳園君，金閃，鐘小輝

(中南民族大學電子信息工程學院&智能無線通信湖北重點實驗室，武漢 430074)

足夠高的可用帶寬、小型化的天線和設備、較高的天線增益使得毫米波(mmWave)成為5G通信系統(tǒng)的關(guān)鍵技術(shù)之一[1].支持高移動性、高數(shù)據(jù)速率的毫米波通信系統(tǒng)，可實現(xiàn)廣泛的重要應用，如車載通信和無線虛擬/增強現(xiàn)實(AR/VR)等.但是在實踐應用中需克服毫米波頻段傳輸距離短、自由空間傳損耗大、穿透和繞射能力差、易受氧氣吸收等氣候環(huán)境影響等缺點[2].尤其在車聯(lián)網(wǎng)這類快速移動場景下，由于其相干時間很小，多普勒效應將變得更加明顯，無線信道會同時受到頻率選擇性衰落和時間選擇性衰落的影響，因此極大制約了用戶的移動性和系統(tǒng)的可靠性[3].波束成形的主要任務是補償無線傳播過程中由空間損耗、多徑效應等因素引入的信號衰落與失真，同時降低同信道用戶間的干擾[4].在快速移動場景下，為實現(xiàn)mmWave通信的傳輸可靠性，發(fā)射和接收波束的精確快速對準至關(guān)重要，因此在毫米波通信系統(tǒng)引入結(jié)合功率控制和干擾約束的波束成形技術(shù)以增強終端用戶的性能是一項重大挑戰(zhàn).

目前國內(nèi)外的研究針對上述問題，提出了若干解決方案.文獻[5]-文獻[11]研究了在上行鏈路和下行鏈路中聯(lián)合優(yōu)化功率控制和波束成形的相關(guān)問題.其中，文獻[5]在沒有考慮mmWave傳播中的散射或陰影的情況下，提出了聯(lián)合優(yōu)化傳輸功率和波束成形矢量以達到最大化SINR的方案.文獻[6]采用幾乎空白子幀(almost blank subframe，ABS)的方法來解決兩個基站的同信道小區(qū)間干擾問題.文獻[7]提出雖然ABS在固定波束天線模式中運行良好，但波束成形的動態(tài)特性降低了ABS的有效性.文獻[8]針對SINR平衡、功率最小化、速率和容量最大化這三種典型的下行鏈路波束成形優(yōu)化問題，分別提出了不同的深度學習優(yōu)化方案.文獻[9]研究了上行鏈路波束成形聯(lián)合功率控制的優(yōu)化問題，提出最大化兩個用戶的和速率，同時確保每個用戶滿足最小速率的優(yōu)化方案.但該算法采用的強化學習算法計算復雜度高，導致用戶設備(user equipment，UE)的電池耗盡過快.文獻[10]基于深度強化學習(deep reinforcement learning，DRL)提出了一種分布式動態(tài)下行波束成形協(xié)調(diào)(dynamic downlink-beamforming coordination，DDBC)方案，其中每個基站根據(jù)有限信息交換協(xié)議訓練各自的DQN網(wǎng)絡，決策出最佳的波束形成向量.文獻[11]基于DQN算法提出了28GHz毫米波MISO系統(tǒng)下行鏈路波束成形優(yōu)化算法，但該方案僅考慮了UEs以2 km/h的低速移動場景中的可靠性通信問題.

本文在文獻[11]的基礎上，研究在快速移動環(huán)境下引入功率控制和干擾協(xié)調(diào)的毫米波MISO系統(tǒng)下行鏈路波束成形聯(lián)合優(yōu)化問題.首先考慮到UEs快速移動時毫米波系統(tǒng)中的時變特性和延遲問題，基于文獻[12]中的信道模型推導引入多普勒頻移的快速移動毫米波系統(tǒng)信道模型；然后考慮功率限制和干擾約束，以移動用戶接收信號干擾噪聲比(signal to interference plus noise ratio，SINR)最優(yōu)為準則，將毫米波下行鏈路的波束成形建模為聯(lián)合優(yōu)化問題.最后提出一種基于DQN的在線學習算法，通過學習小區(qū)間干擾和波束間干擾的隱含特征，推導出近似最優(yōu)策略以最大化用戶SINR.該算法利用強化學習的優(yōu)點，通過交互學習探索一種同時控制服務BS發(fā)射功率及協(xié)調(diào)干擾BS發(fā)射功率的聯(lián)合優(yōu)化方案.

1 系統(tǒng)模型和信道模型

1.1 網(wǎng)絡模型

包含N個基站的正交頻分復用(orthogonal frequency division multiplexing，OFDM)多址下行鏈路蜂窩網(wǎng)絡如圖1所示.該網(wǎng)絡包括一個服務基站k和至少一個干擾基站j，基站間距為R，小區(qū)半徑r>R/2，覆蓋范圍允許重疊.移動用戶隨機分散在它們的服務區(qū)域中，并且以速度v勻速移動.移動用戶通過上行鏈路將測量的SINR信息反饋到其服務基站k，再由該基站通過回程鏈路中繼到云端控制單元，最后在云端執(zhí)行聯(lián)合動作來選擇服務基站和其他干擾基站的碼本索引和發(fā)射功率.

1.2 MISO信道系統(tǒng)模型

圖1所示的系統(tǒng)模型中，每個基站配備M個均勻線性陣列(uniform linear array, ULA)天線，用戶配備單根天線，第k個用戶在服務基站k處的接收信號為：

(1)

圖1 系統(tǒng)模型框圖Fig.1 System transmission model

鑒于毫米波收發(fā)器的硬件限制，基站僅使用模擬波束成形向量，其中每個波束成形向量fk,k=1,2,…,N的波束成形權(quán)重由恒模移相器即[fk]m=ejθm定義.假定每個波束成形向量均選自基于波束導向的波束成形碼本F.此碼本大小為|F|=NCB，第k個元素定義為：

(2)

其中d和K表示天線間距和子載波數(shù)量，而θk表示轉(zhuǎn)向角度，a(θk)是沿θk方向的陣列響應向量，值θk通過將0和π弧度之間的天線角度除以天線數(shù)M獲得的.

設基站k的發(fā)射功率PTX,k∈P，其中P是候選發(fā)射功率集合.本文依據(jù)文獻[13]選擇P,選定基站發(fā)射功率以上(或以下)的功率偏移值為發(fā)射功率.

1.3 高速移動環(huán)境中的信道模型

本文采用有L個簇的窄帶幾何信道模型[12]，引入用戶移動導致的多普勒頻移來構(gòu)建高速移動毫米波時變信道模型.t時刻基站k到用戶k之間下行鏈路信道可建模為：

(3)

(4)

在時間t內(nèi)用戶在一組物理資源塊(physical resource blocks，PRBs)上接收到的下行鏈路功率PUE[t]可定義為：

(5)

其中PTX,k是基站k的PRB發(fā)射功率.故在時間間隔t中計算用戶k在服務基站k處接收到的有效SINR可定義為：

(6)

2 問題描述

2.1 聯(lián)合優(yōu)化問題建模

本方案旨在聯(lián)合優(yōu)化N個基站處的波束成形向量和發(fā)射功率，以最大化UEs可實現(xiàn)的速率和，即將包含功率約束和干擾約束的波束成形優(yōu)化問題建模為：

(7)

其中γtarget表示下行鏈路傳輸?shù)哪繕薙INR.P和F分別表示候選傳輸功率集和波束成形碼本集.由于前兩個約束的非凸性，此優(yōu)化問題是一個非凸優(yōu)化問題.為找到t時刻基站i的最優(yōu)PTX,i和fi，通常采用在P×F的笛卡爾積空間上進行全局窮舉搜索即暴風算法(Brute Force, BF)算法來找到最佳解決方案.已知Brute Force的復雜度是基站數(shù)量的指數(shù)級，即使用經(jīng)典算法(非機器學習技術(shù))解決此問題通常需要在大空間上進行窮舉搜索以找到最優(yōu)解，因此本文基于深度強化學習技術(shù)解決以上問題.

2.2 性能指標

(1)時間復雜度：傳統(tǒng)算法運行時間復雜度上限可以計算，但由于缺乏收斂性和穩(wěn)定性保證，故給所提出的DQN算法定義類似表達式具有一定挑戰(zhàn)性[14].因此通過天線大小為M時的運行時間來表征計算復雜度.

(2)收斂性：針對網(wǎng)絡中所有用戶在采樣周期TS內(nèi)達到目標SINR的episode定義收斂性ζ.預計隨著天線數(shù)量M的增加，ζ也將增加.

(4)速率和容量：根據(jù)下行鏈路有效SINR值，平均傳輸速率和容量(sum-rate capacity)C可表示為：

(8)

其中Ts表示采樣的無線幀長度.

3 深度強化學習聯(lián)合優(yōu)化算法

3.1 深度強化學習智能體-環(huán)境交互模型

本節(jié)描述了深度強化學習中智能體通過不斷探索，學習到如何選擇最優(yōu)動作來最大化其在交互環(huán)境中的預期未來獎勵.所提出的JB-PCIC方案同時控制基站的波束成形向量和發(fā)射功率，以最大化(7)中的目標函數(shù)算法. JB-PCIC方案中智能體與環(huán)境之間的交互如圖2所示.

圖2 所提方案中智能體與環(huán)境交互流程圖fig.2 The flow chart of interaction between agent and environment

首先，智能體依據(jù)公式(9)中的增量(n+1)或減量(n-1)來分別為服務基站k和干擾基站j選擇波束成形向量對應的碼本索引值：

n|→fn[t]:n=(n±1)modM,

(9)

為給定用戶選擇波束成形向量后，智能體通過一串比特位動作寄存器同時執(zhí)行一系列二進制動作，來更改服務基站(或干擾基站)的發(fā)射功率，實現(xiàn)該波束的功率控制和干擾協(xié)調(diào).當服務基站k執(zhí)行功率控制動作PCk[t]后，其發(fā)射功率可描述為：

(10)

(11)

其中IC、PC命令實際上相同，主要作用是區(qū)分基站中的服務者(需要功率控制)或干擾者(需要協(xié)調(diào)干擾).綜上基于DQN算法的PCIC優(yōu)化問題可建模如圖3所示.

圖3 下行鏈路中考慮功率約束和干擾約束的波束成形優(yōu)化問題模塊Fig.3 Downlink joint beamforming, power control, and interference coordination module

表1 二進制編碼動作集Tab.1 Binary coded action set

(12)

當對數(shù)據(jù)傳輸采取聯(lián)合功率控制和波束成形動作時，會在每個時間段對智能體給予最大的獎勵.如果公式(7)中的任一約束不滿足條件，則中止該episode，且智能體收到的獎勵為γs,s′,a[t]=γmin.如下一節(jié)算法1所示，根據(jù)是否小余最小值γmin或達到γtarget，給定γmin或最大獎勵γmax.

3.2 JB-PCIC算法

其中有效目標SINR定義為：

(13)

4 仿真結(jié)果與分析

采用第2節(jié)中的網(wǎng)絡、系統(tǒng)和信道模型，無線環(huán)境參數(shù)如表2所示，所提出方案的DQN超參列表如表3所示.仿真實驗部分依據(jù)不同性能指標與Brute Force算法進行比較.

表2 無線環(huán)境參數(shù)列表Tab.2 wireless environment parameters

表3 強化學習超參列表Tab.3 Reinforcement learning hyperparameters

根據(jù)以上參數(shù)設置和2.2節(jié)中的性能指標做出以下仿真實驗，分析了所提出的JB-PCIC算法在顯著降低運行復雜度的情況下，可以近似達到Brute Force算法的性能(圖4).

圖4 歸一化運行時間與天線數(shù)量M的關(guān)系Fig.4 The normalized run time for the optimal and JB-PCIC algorithm vs M.

如圖4所示，運行時間隨著天線數(shù)量M增大而增加，在Brute Force算法中運行時間復雜度隨M呈指數(shù)性變化，因此曲線更為陡峭.以M=16時為例，所提算法的運行時間顯著減少，僅需要Brute Force算法的6.7%，即本方案顯著降低了時間復雜度.

圖5 JB-PCIC算法γeff的CDF函數(shù)與天線數(shù)量M關(guān)系Fig.5 Coverage CDF of γeff for the JB-PCIC algorithm vs M.

圖5表示UE移動速度v=30 km/h時γeff[t]的累積函數(shù)分布圖，在同等概率值下，隨著基站天線數(shù)量增加，用戶能達到的的SINRγeff[t]也隨之增加，因為根據(jù)公式(9)所定義，γeff[t]取決于與M有關(guān)的波束成形陣列增益.此CDF圖還表明隨著M增大，服務基站的覆蓋范圍能滿足更多的UEs實現(xiàn)可靠通信.

圖6 JB-PCIC算法的歸一化收斂時間與天線數(shù)量M的關(guān)系Fig.6 The normalized convergence time for the JB-PCIC algorithm vs M.

如圖7所示，所獲得的有效SINRγeff與天線數(shù)量M成正比，且歸一化傳輸功率幾乎等于最優(yōu)值，即所提出的JB-PCIC算法能達到與Brute Force算法相當?shù)男阅?而且可觀察到，因為訓練好的DQN網(wǎng)絡能夠估算出性能上限,傳輸功率和SINR的性能差距幾乎在所有M取值范圍內(nèi)都減小了.

圖7 兩種算法歸一化傳輸功率和γeff值與天線數(shù)量M的關(guān)系Fig.7 Achievable SINR and normalized transmit power for the two algorithm vs M.

如圖8所示，選取了500個episode中某一次10幀片段.當模型訓練過程中，所提出的算法在UEs勻速移動的整個10ms過程中，智能體每毫秒執(zhí)行二進制動作PC、IC來控制服務BS和干擾BS的傳輸功率，均能保證下行鏈路每個UE正常通信(即SINR達到最小值以上)，且最大化UEs速率和容量.

圖8 JB-PCIC算法使UEs達到目標SINR值的某次訓練過程Fig.8 Training process of the JB-PCIC algorithm enables UEs to reach the target SINR.

圖9顯示了JB-PCIC算法的速率和容量的性能上限，可以觀察到UEs以不同速度移動時都能達到與Brute Force相近的速率和容量.仿真表明UEs移動速度的變化對性能的影響較小，證明了根據(jù)多普勒頻移特性建模的高速移動環(huán)境下的信道模型較為可靠，且說明了所提出的算法能夠滿足快速移動環(huán)境下多用戶的可靠性傳輸.

圖9 所提出算法的速率和容量與天線數(shù)量M的關(guān)系Fig.9 Sum-rate capacity for the optimal and JB-PCIC algorithm vs M.

5 結(jié)語

本文旨在解決移動場景下MISO系統(tǒng)的OFDM多址蜂窩網(wǎng)絡中，聯(lián)合優(yōu)化服務BS和干擾BS的發(fā)射功率來最大化下行鏈路的SINR值.所提出的JB-PCIC方案不需要完整的信道狀態(tài)信息，只需要UEs每毫秒將其坐標及其接收的SINR發(fā)送到基站，從而消除了對信道估計和相關(guān)訓練序列的開銷.此外，還降低了來自UE的總反饋量，因為UE不需要發(fā)送用于波束成形向量改變、功率等級控制或協(xié)調(diào)干擾BS的顯式命令.假定每個BS可以從有限集合中選擇波束成形向量和功率控制命令,本文表明找到最佳波束需要進行詳盡的搜索，且窮舉搜索的運行時間是基站數(shù)量的指數(shù)級.為避免窮舉搜索，本文基于DQN提出了適應動態(tài)環(huán)境的JB-PCIC算法，仿真表明該算法能近似達到Brute Force方案的性能，且運行時間復雜性比Brute Force方案低得多。未來研究可考慮MIMO系統(tǒng)或更復雜的混合異構(gòu)網(wǎng)絡環(huán)境，也可考慮采用收斂效果更好的Double DQN或適用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法等其他深度強化學習算法來尋找最佳的混合波束成形方案.