亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Dueling-DDQN的星上帶寬資源預(yù)留算法研究

2024-01-04 04:31:34劉治國(guó)張姣姣潘成勝

兵器裝備工程學(xué)報(bào) 2023年12期

劉治國(guó),張姣姣,潘成勝

(1.大連大學(xué) 信息工程學(xué)院, 遼寧大連 116600; 2.大連大學(xué) 通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室, 遼寧大連 116600;3.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 211800)

0 引言

衛(wèi)星通信網(wǎng)絡(luò)由于其覆蓋廣、部署快、不受地面情況影響的優(yōu)點(diǎn),已經(jīng)被用于多個(gè)商用系統(tǒng),同時(shí)在國(guó)家基礎(chǔ)服務(wù)、搶險(xiǎn)救災(zāi)、軍事應(yīng)用等方面也是最可靠的通信手段[1-2]。然而由于衛(wèi)星高速運(yùn)動(dòng),低地球軌道(low earth orbit,LEO)衛(wèi)星經(jīng)常發(fā)生點(diǎn)波束切換。新的點(diǎn)波束沒(méi)有足夠的可用帶寬,可能會(huì)導(dǎo)致切換失敗概率增加,降低用戶服務(wù)(quality of service,QoS)滿意度。因此本文中的重點(diǎn)在于如何利用合適的帶寬預(yù)留策略來(lái)滿足用戶的高QoS需求。

Maral等[3]提出了允許保證切換(guaranteed handover,GH)策略,該策略實(shí)現(xiàn)了一個(gè)合適的信道預(yù)留過(guò)程,保證正在進(jìn)行的呼叫所有切換的成功,仿真證明GH方案比排隊(duì)方案獲得了更好的服務(wù)質(zhì)量。但是,造成信道資源嚴(yán)重浪費(fèi),鎖定的信道無(wú)法為其他新的業(yè)務(wù)或者是切換業(yè)務(wù)使用。

Huang等[4]提出基于概率的動(dòng)態(tài)信道預(yù)留(probability dynamic reservation,PDR)的通信接納方案,根據(jù)實(shí)時(shí)業(yè)務(wù)的切換概率來(lái)動(dòng)態(tài)預(yù)留帶寬。仿真證明該方案不僅降低了新通信阻塞概率,而且在一定程度上減少了越區(qū)切換連接丟失概率,同時(shí)保持了較高的資源利用率。

Chen等[5]提出一種基于自適應(yīng)概率的預(yù)留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,為前一個(gè)小區(qū)預(yù)留的帶寬可以分配給新呼叫請(qǐng)求。仿真證明,通過(guò)這種方式,增加系統(tǒng)可以服務(wù)的用戶數(shù)量并有效地使用帶寬。

Li等[6]提出了一種多波束聯(lián)合資源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不擁擠的波束帶寬資源,在保證QoS的同時(shí)提高系統(tǒng)性能。

雖然上述文獻(xiàn)在一定程度上解決了頻繁點(diǎn)波束切換缺乏可用帶寬導(dǎo)致用戶連接中斷的問(wèn)題,并降低了切換失敗率和新呼叫阻塞概率,提高了用戶服務(wù)質(zhì)量,但是策略中關(guān)于相關(guān)參數(shù)的計(jì)算過(guò)度依賴人工先驗(yàn)條件,其策略缺少靈活性。

針對(duì)上述問(wèn)題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可根據(jù)用戶的業(yè)務(wù)特性進(jìn)行帶寬資源預(yù)留。該方法首先構(gòu)建SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型來(lái)獲取衛(wèi)星資源情況,然后構(gòu)建Dueling-DDQN(dueling-double deep Q-network)網(wǎng)絡(luò)結(jié)構(gòu),并作為決策評(píng)估器,可以避免人為條件的干擾,其中在網(wǎng)絡(luò)結(jié)構(gòu)中引入Noisy方法,增加探索效率。最后通過(guò)Dueling-DDQN算法對(duì)帶寬資源進(jìn)行智能分配,有效提高用戶的服務(wù)質(zhì)量和帶寬利用率。

1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型

SDN[7]衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型由3個(gè)部分組成,包括GEO控制層、LEO轉(zhuǎn)發(fā)層和用戶請(qǐng)求接入層。

在圖1中,利用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法來(lái)解決星上帶寬資源的動(dòng)態(tài)預(yù)留問(wèn)題[8-9],其中 SDN 控制器被部署為 GEO(geosynchronous earth orbit) 衛(wèi)星中的智能體(Agent),對(duì)整個(gè)衛(wèi)星網(wǎng)絡(luò)的全局資源控制,為各類呼叫請(qǐng)求制定動(dòng)態(tài)細(xì)粒度的預(yù)留方法。通信用戶向LEO衛(wèi)星發(fā)出呼叫請(qǐng)求,LEO衛(wèi)星會(huì)將用戶呼叫請(qǐng)求信息作為狀態(tài)信息(State,s),傳遞給Agent以分配帶寬,Agent處理呼叫請(qǐng)求總共有3種動(dòng)作策略(Action,a)以最大帶寬分配、以最小帶寬分配和不分配,通過(guò)最小帶寬分配和不分配來(lái)預(yù)留帶寬。Agent將動(dòng)作策略返回給LEO衛(wèi)星,LEO衛(wèi)星會(huì)返回給Agent一個(gè)獎(jiǎng)勵(lì)(Reward,r),為了評(píng)估當(dāng)前動(dòng)作的質(zhì)量,通過(guò)環(huán)境狀態(tài)和智能體之間的持續(xù)交互,最終獲得獎(jiǎng)勵(lì)積累最大的策略,并將最終的帶寬資源預(yù)留策略返回給用戶。

圖1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型圖

關(guān)于模型的元素設(shè)置如下:

1) 狀態(tài)信息。假設(shè)一顆LEO衛(wèi)星的每個(gè)點(diǎn)波束對(duì)應(yīng)的總帶寬為Bm,可以為G種業(yè)務(wù)類型提供服務(wù),類別屬于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。業(yè)務(wù)優(yōu)先級(jí)的權(quán)重定義為λ=[λ1,λ2,…,λG]。通信用戶向低軌衛(wèi)星網(wǎng)絡(luò)系統(tǒng)發(fā)出呼叫請(qǐng)求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫請(qǐng)求個(gè)數(shù),其中WSi=[WBi,WCi]。WBi代表業(yè)務(wù)類型WBi∈{1,2,…,G},WCi表示呼叫類型WCi∈{0,1}(0代表新呼叫,1代表切換呼叫)。

相應(yīng)的狀態(tài)信息包含呼叫請(qǐng)求信息WSi,si可以表示為

si=WSi

(1)

2) 動(dòng)作策略。在Dueling-DDQN算法中,輸入一個(gè)狀態(tài)State,會(huì)對(duì)當(dāng)前的呼叫請(qǐng)求進(jìn)行帶寬分配,接著便會(huì)執(zhí)行這個(gè)動(dòng)作ai。本文中對(duì)呼叫請(qǐng)求處理有3種帶寬分配方式,定義為

(2)

式(2)中:Bmax表示以最大帶寬接入,Bmin表示以最小帶寬接入,Failed表示接入失敗。因?yàn)锽min和Failed會(huì)影響信道預(yù)留,可以通過(guò)動(dòng)作Bmin和Failed來(lái)處理呼叫請(qǐng)求,以預(yù)留帶寬。

3) 獎(jiǎng)勵(lì)。以動(dòng)作ai處理呼叫信息后,需要根據(jù)實(shí)際環(huán)境來(lái)檢驗(yàn)信道帶寬分配方式ai的有效程度。環(huán)境會(huì)向Agent提供獎(jiǎng)勵(lì)反饋,反映Action所執(zhí)行的正確性。如果所執(zhí)行的Action是一個(gè)拒絕操作,那么環(huán)境狀態(tài)便會(huì)提供一個(gè)負(fù)反饋。本文中關(guān)于3種動(dòng)作,對(duì)應(yīng)的初始獎(jiǎng)勵(lì)r′i定義如下:

(3)

以最大帶寬處理呼叫請(qǐng)求,獲得的獎(jiǎng)勵(lì)最大,以最小帶寬處理呼叫請(qǐng)求獲得第二獎(jiǎng)勵(lì),拒絕獲得負(fù)獎(jiǎng)勵(lì),所以r0>r1>0>r2。此外,WSi的呼叫類型對(duì)策略的績(jī)效有不同的影響,如式(4)所示。σ0反映切換連接的優(yōu)先級(jí),σ1表示新連接的優(yōu)先級(jí)。

(4)

2 衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留策略

2.1 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

圖2 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

2.2 Dueling-DDQN策略

1) 決策目標(biāo)。星上資源預(yù)留過(guò)程,是根據(jù)衛(wèi)星帶寬資源利用情況和呼叫信息,以分配信道帶寬,并根據(jù)獲得的累積獎(jiǎng)勵(lì)確定最優(yōu)的資源預(yù)留策略。由于衛(wèi)星帶寬有限,不能以最高獎(jiǎng)勵(lì)處理每一個(gè)業(yè)務(wù)請(qǐng)求,本文中方法的最終目標(biāo)是確定一個(gè)長(zhǎng)期性能增益最大、最優(yōu)的動(dòng)態(tài)星上資源策略π*,π*定義如下:

(5)

式(5)中:γ表示獎(jiǎng)勵(lì)重要性的折扣因子,Eπ[·]表示帶寬預(yù)留策略π*的期望。

(6)

但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通過(guò)根據(jù)行動(dòng)的最佳概率來(lái)選擇行動(dòng),從而提高探索效率。但是,ε-greedy實(shí)際上對(duì)于很多問(wèn)題[13]都是無(wú)效的,在某些情況下,由于探索空間有限[14],可能永遠(yuǎn)無(wú)法通過(guò)ε-greedy學(xué)習(xí)到最優(yōu)策略。因此將Noisy[15]方法應(yīng)用于Dueling-DDQN框架中,解決ε-greedy存在探索效率低效的問(wèn)題。Noisy與傳統(tǒng)的探索啟發(fā)式方法ε-greedy策略不同,引入?yún)?shù)噪聲Noisy提高探索效率。

所以本文中關(guān)于價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)的計(jì)算,加入Noisy方法,最終動(dòng)作值函數(shù)可以表示為式(7):

(7)

(8)

(9)

(10)

由于無(wú)法通過(guò)學(xué)習(xí)Q函數(shù)來(lái)唯一確定價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù),通過(guò)優(yōu)勢(shì)函數(shù)的平均值來(lái)解決可識(shí)別性問(wèn)題,如式(11)所示:

(11)

Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基礎(chǔ)上,通過(guò)解耦目標(biāo)Q值動(dòng)作的選擇和目標(biāo)Q值的計(jì)算,消除由于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的最大Q值導(dǎo)致的誤差,每次更新也將神經(jīng)網(wǎng)絡(luò)向誤差最大的目標(biāo)Q值進(jìn)行改進(jìn),導(dǎo)致存在過(guò)度估計(jì)問(wèn)題。在動(dòng)作選擇時(shí),不是在目標(biāo)Q網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中最大Q值,而是先在當(dāng)前Q網(wǎng)絡(luò)中找出最大Q值對(duì)應(yīng)的動(dòng)作,具體表達(dá)為式(12):

(12)

利用式(12)選擇出的amax去計(jì)算目標(biāo)Q值,如式(13):

(13)

DDQN的最終目標(biāo)Q值,可由式(12)和式(13)可得:

(14)

3) 損失(Loss)函數(shù)構(gòu)建。Dueling-DDQN算法基于Q-Learning來(lái)確定Loss函數(shù),函數(shù)表達(dá)式為

(15)

2.3 Dueling-DDQN算法流程

Q網(wǎng)絡(luò)通過(guò)最小化Loss函數(shù)持續(xù)更新神經(jīng)網(wǎng)絡(luò)參數(shù),基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法流程如下:

算法：基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法

1.初始化記憶池容量D,遍歷次數(shù)M

2.初始化衛(wèi)星系統(tǒng)相關(guān)參數(shù)

4.統(tǒng)計(jì)用戶業(yè)務(wù)的請(qǐng)求情況和衛(wèi)星當(dāng)前帶寬資源利用情況;

5. for episode=1,Mdo

6. 初始化衛(wèi)星資源狀態(tài)信息si

7. fori=1,ndo

8. 以Noisy方法使得Q值隨機(jī)化

9. 執(zhí)行帶寬分配動(dòng)作ai,更新?tīng)顟B(tài)信息si,并獲取衛(wèi)星下一資源狀態(tài)信息si+1

10.獲得當(dāng)前獎(jiǎng)賞ri

11.將轉(zhuǎn)換transition存儲(chǔ)到記憶池中

12. ifD>5 000 then

13. 隨機(jī)從記憶池中選擇一批數(shù)據(jù)進(jìn)行訓(xùn)練

14. 代入式(15)更新Q網(wǎng)絡(luò);

15. end if

16. end for

17.end for

18.返回最優(yōu)策略

2.4 性能評(píng)估指標(biāo)

為了衡量信道帶寬預(yù)留策略的性能,通過(guò)3個(gè)部分來(lái)定義性能評(píng)估指標(biāo)。Pe1作為用戶通信過(guò)程中的系統(tǒng)整體性能評(píng)估的參考指標(biāo)。具體式(16)所示:

(16)

Pe2為通信速度的效益評(píng)估指標(biāo),具體表示為式(17):

(17)

Pe3為帶寬利用率評(píng)估指標(biāo),具體表示為式(18):

(18)

3 仿真

考慮衛(wèi)星在環(huán)繞地球的圓形軌道上周期性和固定的軌道運(yùn)動(dòng)所帶來(lái)的軌道可預(yù)測(cè)性,可以將單顆衛(wèi)星覆蓋模型簡(jiǎn)化為小區(qū)模型[18-20],并且衛(wèi)星覆蓋范圍內(nèi)的用戶滿足均勻分布[21]。模擬了G種典型的多媒體服務(wù)[10],這些多媒體應(yīng)用的業(yè)務(wù)參數(shù)定義在表1中。在仿真模型中,衛(wèi)星方面的模擬參數(shù)[22],定義如表2所示。根據(jù)各類優(yōu)先級(jí)情況和中斷正在進(jìn)行的連接更加影響用戶QoS,優(yōu)先級(jí)權(quán)重和權(quán)值參數(shù)[4,8]定義如表3所示。文中方法所涉及的深度強(qiáng)化學(xué)習(xí)參數(shù)也定義在表3中。經(jīng)過(guò)多次實(shí)驗(yàn)不同的學(xué)習(xí)率獲得不同的性能,收斂速度也會(huì)不同,所以表3中學(xué)習(xí)率設(shè)置為0.01[23],學(xué)習(xí)速率為0.01時(shí)收斂的速率最快,穩(wěn)定性高。

表1 數(shù)據(jù)相關(guān)參數(shù)

表2 衛(wèi)星相關(guān)參數(shù)

表3 方法相關(guān)參數(shù)

在仿真模型中,針對(duì)不同的連接到達(dá)速率,我們比較了不同接入策略下的系統(tǒng)性能,包括基于無(wú)優(yōu)先接入策略(NPS)、基于概率的動(dòng)態(tài)信道預(yù)留策略(PDR)、基于DQN的衛(wèi)星信道帶寬資源預(yù)留策略(DBR)和基于Dueling-DDQN的星上帶寬資源預(yù)留策略(DDBRR),最終仿真圖如圖3、圖4和圖5所示。

圖3分析了系統(tǒng)整體服務(wù)質(zhì)量,按照式(16)所示,可以看出Pe1越大,用戶服務(wù)質(zhì)量越低,Pe1越小,用戶服務(wù)質(zhì)量越好。顯然,本文中所提出的基于DDBRR策略性能最好,因?yàn)镈DBRR策略避免了人工干擾,通過(guò)建立Dueling-DDQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)做決策。DBR策略因?yàn)檫^(guò)估計(jì)等問(wèn)題性能低于DDBR策略,而NPS策略性能最差,因?yàn)镹PS策略沒(méi)有為高優(yōu)先級(jí)的業(yè)務(wù)呼叫保留信道。

圖3 Pe1用戶整體服務(wù)質(zhì)量

圖4顯示了性能評(píng)估指標(biāo)Pe2的仿真結(jié)果,從圖4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是從用戶通信速度滿意度方面,DDBRR策略性能優(yōu)于NPS、PDR和DBR策略。

圖4 Pe2用戶通信速度服務(wù)質(zhì)量

帶寬利用率是衡量系統(tǒng)的一個(gè)重要參數(shù),通過(guò)資源利用率來(lái)衡量系統(tǒng)性能。圖5表示了4種策略的帶寬利用率與連接到達(dá)速率的關(guān)系,性能評(píng)估指標(biāo)Pe3。與其他3種策略相比DDBRR策略帶寬利用率最高,說(shuō)明本文中所提出的策略可以更加有效的利用系統(tǒng)帶寬資源。

圖5 Pe3帶寬利用率

4 結(jié)論

針對(duì)波束頻繁切換缺乏可用帶寬導(dǎo)致用戶連接中斷問(wèn)題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可以根據(jù)當(dāng)前的衛(wèi)星資源狀態(tài)來(lái)做出最佳的帶寬分配策略?；贒ueling-DDQN算法,利用Dueling Network提高學(xué)習(xí)性能,通過(guò)DDQN保證無(wú)偏估計(jì),其中加入Noisy來(lái)增加探索空間,通過(guò)不斷的學(xué)習(xí)探索來(lái)為請(qǐng)求動(dòng)態(tài)分配帶寬。

通過(guò)仿真證明所提出的星上帶寬資源預(yù)留算法,可以保障用戶整體服務(wù)質(zhì)量、用戶通話質(zhì)量滿意度和最大化提高帶寬資源利用率。下一步的研究工作中將針對(duì)Dueling-DDQN算法模型中經(jīng)驗(yàn)池采樣方法進(jìn)行優(yōu)化,降低經(jīng)驗(yàn)相關(guān)性。