亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學習支持下的無線異構網絡中繼決策分析

2024-04-28 06:36:46鄒易奇

無線互聯科技 2024年5期

關鍵詞：動作

鄒易奇

(西安鐵路職業(yè)技術學院,陜西西安 710000)

0 引言

在當代通信領域,無線異構網絡已成為廣域無縫覆蓋的關鍵技術之一。無線異構網絡通過整合不同類型的無線接入技術,構建了多層次、多樣化的網絡架構,顯著提升了網絡的容量和覆蓋范圍。中繼節(jié)點在無線異構網絡中扮演著重要的角色,不僅解決了地理位置限制和信號衰減問題,還通過信號的轉發(fā)和處理,擴大網絡的覆蓋范圍,提高通信質量,因此,合理的中繼決策對于改善網絡性能至關重要。深度Q網絡(Deep Q-Network,DQN)作為深度強化學習(Deep Reinforcement Learning, DRL)的一種經典算法,以其獨特的優(yōu)勢在復雜決策問題中顯現出巨大潛力。本文旨在探索DQN算法在無線異構網絡中繼決策中的應用,以實現網絡性能的最優(yōu)化。

1 無線異構網絡中的中繼節(jié)點

無線異構網絡是一種融合多種無線接入技術的網絡架構,通過協同不同的無線接入網絡,實現服務的無縫覆蓋。無線異構網絡由多種無線接入網絡以及這些子網絡之間的中繼節(jié)點組成。在無線異構網絡中,子網絡之間通過中繼節(jié)點相互連接和互操作。中繼節(jié)點位于源節(jié)點和目標節(jié)點之間,其主要功能是對無線信號進行放大加強后再轉發(fā),以擴大網絡覆蓋范圍、提高信號傳輸質量。中繼節(jié)點有助于改善網絡的熱點區(qū)域容量,在人流密集的熱點區(qū)域,大量用戶同時訪問網絡,可能會導致網絡擁塞甚至短時中斷,設置中繼節(jié)點區(qū)域性分流數據,可以顯著增強熱點區(qū)域的網絡容量,設置室分布節(jié)點,還能使信號在穿透建筑物時中繼放大,改善室內覆蓋效果。

2 DQN算法原理與網絡結構

DQN是深度強化學習算法之一,其基本思想是建立一個深層神經網絡來近似表示Q值函數,采用經驗回放和定期復制目標網絡進行訓練。DQN中的評估網絡(Evalution Network,EvalNet)用于估算當前策略的Q值函數,目標網絡(Target Network)用于計算期望Q值。EvalNet首先輸入當前狀態(tài)s,輸出各可能動作a對應的Q(s,a)。智能體根據探索策略選擇動作,環(huán)境返回新的狀態(tài)s′和獎勵r,將經歷(s,a,r,s′)存入經驗回放池。每次從回放池中隨機采樣訓練EvalNet,并定期復制其參數到TargetNet,其損失函數為:

(1)

其中,θ為EvalNet參數;θ′為TargetNet參數;E為期望值;y為目標Q值。通過最小化損失函數訓練神經網絡,EvalNet能夠逼近最優(yōu)的行動價值函數[3]。

3 基于DQN的無線異構網絡中繼決策模型

3.1 DQN模型結構及超參數選擇

本研究構建了一個基于Tensorflow的DQN模型,用于學習無線異構網絡的中繼節(jié)點布置策略,模型結構如圖1所示。

圖1 模型結構

模型主要包含2個深度神經網絡:評估網絡EvalNet和目標網絡TargetNet。這2個網絡都由輸入層、2個全連接隱層和輸出層組成。設網絡隱層節(jié)點數分別為N1、N2,輸入狀態(tài)向量維度為Ns,輸出動作數為Na,則2個網絡的參數可表示為:

θeval={W1,b1,W2,b2,W3,b3}

(2)

(3)

3.2 狀態(tài)空間定義

狀態(tài)空間定義了智能體可觀測到的環(huán)境信息,是智能體做出動作決策的依據。本研究將狀態(tài)空間定義為一個Ns維向量s,包含以下狀態(tài)特征:(1)當前時刻每個中繼節(jié)點的信道增益gi,維度為Na;(2)每個中繼節(jié)點的剩余傳輸能量ei,維度為Na;(3)系統當前時刻的總業(yè)務量請求r。則狀態(tài)表示為:

s=(g1,g2,…,gNa,e1,e2,…,eNa,r)

(4)

該狀態(tài)空間綜合考慮了網絡拓撲、信道和業(yè)務因素的實時狀態(tài),可為中繼決策提供全面的環(huán)境信息。

3.3 動作空間定義

為解決無線網絡的中繼決策問題,需要合理定義動作空間[1]。研究將動作定義為中繼節(jié)點的開關狀態(tài)組合,采用一個Na維向量a表示,其中:

(5)

對于第i個中繼節(jié)點,如果ai=1表示開啟,ai=0表示關閉。動作空間包含所有可能的開關組合,對于Na個中繼節(jié)點,動作空間大小為2Na。為實現動作空間,構建一個Actor類,包含2個功能:

(1)從策略網絡輸出中采樣動作。

def sample_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.multinomial(action_prob,1)

return action

(2)根據概率分布確定概率最高的動作。

def get_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.argmax(action_prob)

return action

通過定義簡明的動作集合,并配合代碼實現動作采樣功能,該離散動作空間可以明確指導智能體對無線網絡中繼節(jié)點的開啟或關閉操作。

3.4 獎勵函數設計

獎勵函數評估一個動作導致的狀態(tài)轉移所獲得的即時獎勵。設計無線異構網絡中繼節(jié)點的獎勵機制時考慮了傳輸的成本和收益:

(6)

其中,Rttrans為轉發(fā)收益;Rtsaving為節(jié)能收益;Rtloss為數據丟失罰函數;w1、w2、w3為系數,平衡不同獎勵的比重。

如果在t時刻成功轉發(fā)數據,則有Rttrans=B,其中B為基礎獎勵。如果等待不轉發(fā),則Rttrans=0。節(jié)能獎勵與節(jié)點剩余電量成正比,Rtsaving=α,其中et∈[0,1],為剩余電量,α為系數。當隊列溢出導致數據丟失時,有Rtloss=-C,其中C為罰函數系數,否則Rtloss=0。

3.5 DQN算法描述

基于前述的狀態(tài)空間、動作空間以及獎勵函數,無線異構網絡中繼節(jié)點決策的DQN算法實現流程如下:

(1)采用2個相互協作的深度神經網絡,即評估網絡和目標網絡。評估網絡用于及時近似Q函數,產生中繼節(jié)點的開關策略;目標網絡的網路參數定期從評估網絡復制,用于計算目標Q值,使訓練過程更加穩(wěn)定。2個網絡的參數分別表示為θ和θ′。

(3)每C步從評估網復制參數至目標網[2]。如此循環(huán)往復,評估網絡能夠在線逼近無線網絡中繼的最優(yōu)策略。

4 中繼決策性能分析

為驗證所提方法的優(yōu)勢,本文構建了仿真環(huán)境,并與典型的經驗決策法和隨機決策法進行了比較。主要性能指標包括平均吞吐量、傳輸延遲、丟包率等。仿真參數設置如表1所示。

表1 仿真參數設置

3種方法在不同網絡負載條件下的平均吞吐量和丟包率指標如表2所示。

表2 不同算法的吞吐量和丟包率比較

固定中繼策略打開所有中繼節(jié)點,隨機中繼隨機選擇開啟節(jié)點。結果顯示,DQN算法可以根據網絡狀態(tài)智能選擇最優(yōu)的中繼組合,在所有負載下,DQN算法都實現了最高的平均吞吐量和最低的丟包率,充分利用了網絡資源,顯著提高了吞吐量水平,同時大幅降低了擁塞丟包概率。

5 結語

本文探索了深度強化學習在無線異構網絡中的應用,提出了一個基于DQN的中繼節(jié)點優(yōu)化方法。該方法可以根據網絡狀態(tài)動態(tài)選擇中繼,從而改善網絡性能。仿真結果表明,與傳統方法相比,該方法可以提高網絡吞吐量,降低丟包率,提供了一種利用深度強化學習優(yōu)化無線網絡智能化資源的新思路。