鄒易奇
(西安鐵路職業(yè)技術學院,陜西 西安 710000)
在當代通信領域,無線異構網絡已成為廣域無縫覆蓋的關鍵技術之一。無線異構網絡通過整合不同類型的無線接入技術,構建了多層次、多樣化的網絡架構,顯著提升了網絡的容量和覆蓋范圍。中繼節(jié)點在無線異構網絡中扮演著重要的角色,不僅解決了地理位置限制和信號衰減問題,還通過信號的轉發(fā)和處理,擴大網絡的覆蓋范圍,提高通信質量,因此,合理的中繼決策對于改善網絡性能至關重要。深度Q網絡(Deep Q-Network,DQN)作為深度強化學習(Deep Reinforcement Learning, DRL)的一種經典算法,以其獨特的優(yōu)勢在復雜決策問題中顯現出巨大潛力。本文旨在探索DQN算法在無線異構網絡中繼決策中的應用,以實現網絡性能的最優(yōu)化。
無線異構網絡是一種融合多種無線接入技術的網絡架構,通過協同不同的無線接入網絡,實現服務的無縫覆蓋。無線異構網絡由多種無線接入網絡以及這些子網絡之間的中繼節(jié)點組成。在無線異構網絡中,子網絡之間通過中繼節(jié)點相互連接和互操作。中繼節(jié)點位于源節(jié)點和目標節(jié)點之間,其主要功能是對無線信號進行放大加強后再轉發(fā),以擴大網絡覆蓋范圍、提高信號傳輸質量。中繼節(jié)點有助于改善網絡的熱點區(qū)域容量,在人流密集的熱點區(qū)域,大量用戶同時訪問網絡,可能會導致網絡擁塞甚至短時中斷,設置中繼節(jié)點區(qū)域性分流數據,可以顯著增強熱點區(qū)域的網絡容量,設置室分布節(jié)點,還能使信號在穿透建筑物時中繼放大,改善室內覆蓋效果。
DQN是深度強化學習算法之一,其基本思想是建立一個深層神經網絡來近似表示Q值函數,采用經驗回放和定期復制目標網絡進行訓練。DQN中的評估網絡(Evalution Network,EvalNet)用于估算當前策略的Q值函數,目標網絡(Target Network)用于計算期望Q值。EvalNet首先輸入當前狀態(tài)s,輸出各可能動作a對應的Q(s,a)。智能體根據探索策略選擇動作,環(huán)境返回新的狀態(tài)s′和獎勵r,將經歷(s,a,r,s′)存入經驗回放池。每次從回放池中隨機采樣訓練EvalNet,并定期復制其參數到TargetNet,其損失函數為:
(1)
其中,θ為EvalNet參數;θ′為TargetNet參數;E為期望值;y為目標Q值。通過最小化損失函數訓練神經網絡,EvalNet能夠逼近最優(yōu)的行動價值函數[3]。
本研究構建了一個基于Tensorflow的DQN模型,用于學習無線異構網絡的中繼節(jié)點布置策略,模型結構如圖1所示。
圖1 模型結構
模型主要包含2個深度神經網絡:評估網絡EvalNet和目標網絡TargetNet。這2個網絡都由輸入層、2個全連接隱層和輸出層組成。設網絡隱層節(jié)點數分別為N1、N2,輸入狀態(tài)向量維度為Ns,輸出動作數為Na,則2個網絡的參數可表示為:
θeval={W1,b1,W2,b2,W3,b3}
(2)
(3)
狀態(tài)空間定義了智能體可觀測到的環(huán)境信息,是智能體做出動作決策的依據。本研究將狀態(tài)空間定義為一個Ns維向量s,包含以下狀態(tài)特征:(1)當前時刻每個中繼節(jié)點的信道增益gi,維度為Na;(2)每個中繼節(jié)點的剩余傳輸能量ei,維度為Na;(3)系統當前時刻的總業(yè)務量請求r。則狀態(tài)表示為:
s=(g1,g2,…,gNa,e1,e2,…,eNa,r)
(4)
該狀態(tài)空間綜合考慮了網絡拓撲、信道和業(yè)務因素的實時狀態(tài),可為中繼決策提供全面的環(huán)境信息。
為解決無線網絡的中繼決策問題,需要合理定義動作空間[1]。研究將動作定義為中繼節(jié)點的開關狀態(tài)組合,采用一個Na維向量a表示,其中:
(5)
對于第i個中繼節(jié)點,如果ai=1表示開啟,ai=0表示關閉。動作空間包含所有可能的開關組合,對于Na個中繼節(jié)點,動作空間大小為2Na。為實現動作空間,構建一個Actor類,包含2個功能:
(1)從策略網絡輸出中采樣動作。
def sample_action(self,policy_net,s):
action_prob=policy_net(s)
action=torch.multinomial(action_prob,1)
return action
(2)根據概率分布確定概率最高的動作。
def get_action(self,policy_net,s):
action_prob=policy_net(s)
action=torch.argmax(action_prob)
return action
通過定義簡明的動作集合,并配合代碼實現動作采樣功能,該離散動作空間可以明確指導智能體對無線網絡中繼節(jié)點的開啟或關閉操作。
獎勵函數評估一個動作導致的狀態(tài)轉移所獲得的即時獎勵。設計無線異構網絡中繼節(jié)點的獎勵機制時考慮了傳輸的成本和收益:
(6)
其中,Rttrans為轉發(fā)收益;Rtsaving為節(jié)能收益;Rtloss為數據丟失罰函數;w1、w2、w3為系數,平衡不同獎勵的比重。
如果在t時刻成功轉發(fā)數據,則有Rttrans=B,其中B為基礎獎勵。如果等待不轉發(fā),則Rttrans=0。節(jié)能獎勵與節(jié)點剩余電量成正比,Rtsaving=α,其中et∈[0,1],為剩余電量,α為系數。當隊列溢出導致數據丟失時,有Rtloss=-C,其中C為罰函數系數,否則Rtloss=0。
基于前述的狀態(tài)空間、動作空間以及獎勵函數,無線異構網絡中繼節(jié)點決策的DQN算法實現流程如下:
(1)采用2個相互協作的深度神經網絡,即評估網絡和目標網絡。評估網絡用于及時近似Q函數,產生中繼節(jié)點的開關策略;目標網絡的網路參數定期從評估網絡復制,用于計算目標Q值,使訓練過程更加穩(wěn)定。2個網絡的參數分別表示為θ和θ′。
(3)每C步從評估網復制參數至目標網[2]。如此循環(huán)往復,評估網絡能夠在線逼近無線網絡中繼的最優(yōu)策略。
為驗證所提方法的優(yōu)勢,本文構建了仿真環(huán)境,并與典型的經驗決策法和隨機決策法進行了比較。主要性能指標包括平均吞吐量、傳輸延遲、丟包率等。仿真參數設置如表1所示。
表1 仿真參數設置
3種方法在不同網絡負載條件下的平均吞吐量和丟包率指標如表2所示。
表2 不同算法的吞吐量和丟包率比較
固定中繼策略打開所有中繼節(jié)點,隨機中繼隨機選擇開啟節(jié)點。結果顯示,DQN算法可以根據網絡狀態(tài)智能選擇最優(yōu)的中繼組合,在所有負載下,DQN算法都實現了最高的平均吞吐量和最低的丟包率,充分利用了網絡資源,顯著提高了吞吐量水平,同時大幅降低了擁塞丟包概率。
本文探索了深度強化學習在無線異構網絡中的應用,提出了一個基于DQN的中繼節(jié)點優(yōu)化方法。該方法可以根據網絡狀態(tài)動態(tài)選擇中繼,從而改善網絡性能。仿真結果表明,與傳統方法相比,該方法可以提高網絡吞吐量,降低丟包率,提供了一種利用深度強化學習優(yōu)化無線網絡智能化資源的新思路。