亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Dueling-DDQN的星上帶寬資源預(yù)留算法研究

        2024-01-04 04:31:34劉治國(guó)張姣姣潘成勝
        兵器裝備工程學(xué)報(bào) 2023年12期
        關(guān)鍵詞:服務(wù)質(zhì)量信道分配

        劉治國(guó),張姣姣,潘成勝

        (1.大連大學(xué) 信息工程學(xué)院, 遼寧 大連 116600; 2.大連大學(xué) 通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室, 遼寧 大連 116600;3.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 211800)

        0 引言

        衛(wèi)星通信網(wǎng)絡(luò)由于其覆蓋廣、部署快、不受地面情況影響的優(yōu)點(diǎn),已經(jīng)被用于多個(gè)商用系統(tǒng),同時(shí)在國(guó)家基礎(chǔ)服務(wù)、搶險(xiǎn)救災(zāi)、軍事應(yīng)用等方面也是最可靠的通信手段[1-2]。然而由于衛(wèi)星高速運(yùn)動(dòng),低地球軌道(low earth orbit,LEO)衛(wèi)星經(jīng)常發(fā)生點(diǎn)波束切換。新的點(diǎn)波束沒(méi)有足夠的可用帶寬,可能會(huì)導(dǎo)致切換失敗概率增加,降低用戶服務(wù)(quality of service,QoS)滿意度。因此本文中的重點(diǎn)在于如何利用合適的帶寬預(yù)留策略來(lái)滿足用戶的高QoS需求。

        Maral等[3]提出了允許保證切換(guaranteed handover,GH)策略,該策略實(shí)現(xiàn)了一個(gè)合適的信道預(yù)留過(guò)程,保證正在進(jìn)行的呼叫所有切換的成功,仿真證明GH方案比排隊(duì)方案獲得了更好的服務(wù)質(zhì)量。但是,造成信道資源嚴(yán)重浪費(fèi),鎖定的信道無(wú)法為其他新的業(yè)務(wù)或者是切換業(yè)務(wù)使用。

        Huang等[4]提出基于概率的動(dòng)態(tài)信道預(yù)留(probability dynamic reservation,PDR)的通信接納方案,根據(jù)實(shí)時(shí)業(yè)務(wù)的切換概率來(lái)動(dòng)態(tài)預(yù)留帶寬。仿真證明該方案不僅降低了新通信阻塞概率,而且在一定程度上減少了越區(qū)切換連接丟失概率,同時(shí)保持了較高的資源利用率。

        Chen等[5]提出一種基于自適應(yīng)概率的預(yù)留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,為前一個(gè)小區(qū)預(yù)留的帶寬可以分配給新呼叫請(qǐng)求。仿真證明,通過(guò)這種方式,增加系統(tǒng)可以服務(wù)的用戶數(shù)量并有效地使用帶寬。

        Li等[6]提出了一種多波束聯(lián)合資源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不擁擠的波束帶寬資源,在保證QoS的同時(shí)提高系統(tǒng)性能。

        雖然上述文獻(xiàn)在一定程度上解決了頻繁點(diǎn)波束切換缺乏可用帶寬導(dǎo)致用戶連接中斷的問(wèn)題,并降低了切換失敗率和新呼叫阻塞概率,提高了用戶服務(wù)質(zhì)量,但是策略中關(guān)于相關(guān)參數(shù)的計(jì)算過(guò)度依賴人工先驗(yàn)條件,其策略缺少靈活性。

        針對(duì)上述問(wèn)題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可根據(jù)用戶的業(yè)務(wù)特性進(jìn)行帶寬資源預(yù)留。該方法首先構(gòu)建SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型來(lái)獲取衛(wèi)星資源情況,然后構(gòu)建Dueling-DDQN(dueling-double deep Q-network)網(wǎng)絡(luò)結(jié)構(gòu),并作為決策評(píng)估器,可以避免人為條件的干擾,其中在網(wǎng)絡(luò)結(jié)構(gòu)中引入Noisy方法,增加探索效率。最后通過(guò)Dueling-DDQN算法對(duì)帶寬資源進(jìn)行智能分配,有效提高用戶的服務(wù)質(zhì)量和帶寬利用率。

        1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型

        SDN[7]衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型由3個(gè)部分組成,包括GEO控制層、LEO轉(zhuǎn)發(fā)層和用戶請(qǐng)求接入層。

        在圖1中,利用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法來(lái)解決星上帶寬資源的動(dòng)態(tài)預(yù)留問(wèn)題[8-9],其中 SDN 控制器被部署為 GEO(geosynchronous earth orbit) 衛(wèi)星中的智能體(Agent),對(duì)整個(gè)衛(wèi)星網(wǎng)絡(luò)的全局資源控制,為各類呼叫請(qǐng)求制定動(dòng)態(tài)細(xì)粒度的預(yù)留方法。通信用戶向LEO衛(wèi)星發(fā)出呼叫請(qǐng)求,LEO衛(wèi)星會(huì)將用戶呼叫請(qǐng)求信息作為狀態(tài)信息(State,s),傳遞給Agent以分配帶寬,Agent處理呼叫請(qǐng)求總共有3種動(dòng)作策略(Action,a)以最大帶寬分配、以最小帶寬分配和不分配,通過(guò)最小帶寬分配和不分配來(lái)預(yù)留帶寬。Agent將動(dòng)作策略返回給LEO衛(wèi)星,LEO衛(wèi)星會(huì)返回給Agent一個(gè)獎(jiǎng)勵(lì)(Reward,r),為了評(píng)估當(dāng)前動(dòng)作的質(zhì)量,通過(guò)環(huán)境狀態(tài)和智能體之間的持續(xù)交互,最終獲得獎(jiǎng)勵(lì)積累最大的策略,并將最終的帶寬資源預(yù)留策略返回給用戶。

        圖1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型圖

        關(guān)于模型的元素設(shè)置如下:

        1) 狀態(tài)信息。假設(shè)一顆LEO衛(wèi)星的每個(gè)點(diǎn)波束對(duì)應(yīng)的總帶寬為Bm,可以為G種業(yè)務(wù)類型提供服務(wù),類別屬于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。業(yè)務(wù)優(yōu)先級(jí)的權(quán)重定義為λ=[λ1,λ2,…,λG]。通信用戶向低軌衛(wèi)星網(wǎng)絡(luò)系統(tǒng)發(fā)出呼叫請(qǐng)求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫請(qǐng)求個(gè)數(shù),其中WSi=[WBi,WCi]。WBi代表業(yè)務(wù)類型WBi∈{1,2,…,G},WCi表示呼叫類型WCi∈{0,1}(0代表新呼叫,1代表切換呼叫)。

        相應(yīng)的狀態(tài)信息包含呼叫請(qǐng)求信息WSi,si可以表示為

        si=WSi

        (1)

        2) 動(dòng)作策略。在Dueling-DDQN算法中,輸入一個(gè)狀態(tài)State,會(huì)對(duì)當(dāng)前的呼叫請(qǐng)求進(jìn)行帶寬分配,接著便會(huì)執(zhí)行這個(gè)動(dòng)作ai。本文中對(duì)呼叫請(qǐng)求處理有3種帶寬分配方式,定義為

        (2)

        式(2)中:Bmax表示以最大帶寬接入,Bmin表示以最小帶寬接入,Failed表示接入失敗。因?yàn)锽min和Failed會(huì)影響信道預(yù)留,可以通過(guò)動(dòng)作Bmin和Failed來(lái)處理呼叫請(qǐng)求,以預(yù)留帶寬。

        3) 獎(jiǎng)勵(lì)。以動(dòng)作ai處理呼叫信息后,需要根據(jù)實(shí)際環(huán)境來(lái)檢驗(yàn)信道帶寬分配方式ai的有效程度。環(huán)境會(huì)向Agent提供獎(jiǎng)勵(lì)反饋,反映Action所執(zhí)行的正確性。如果所執(zhí)行的Action是一個(gè)拒絕操作,那么環(huán)境狀態(tài)便會(huì)提供一個(gè)負(fù)反饋。本文中關(guān)于3種動(dòng)作,對(duì)應(yīng)的初始獎(jiǎng)勵(lì)r′i定義如下:

        (3)

        以最大帶寬處理呼叫請(qǐng)求,獲得的獎(jiǎng)勵(lì)最大,以最小帶寬處理呼叫請(qǐng)求獲得第二獎(jiǎng)勵(lì),拒絕獲得負(fù)獎(jiǎng)勵(lì),所以r0>r1>0>r2。此外,WSi的呼叫類型對(duì)策略的績(jī)效有不同的影響,如式(4)所示。σ0反映切換連接的優(yōu)先級(jí),σ1表示新連接的優(yōu)先級(jí)。

        (4)

        2 衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留策略

        2.1 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

        圖2 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 Dueling-DDQN策略

        1) 決策目標(biāo)。星上資源預(yù)留過(guò)程,是根據(jù)衛(wèi)星帶寬資源利用情況和呼叫信息,以分配信道帶寬,并根據(jù)獲得的累積獎(jiǎng)勵(lì)確定最優(yōu)的資源預(yù)留策略。由于衛(wèi)星帶寬有限,不能以最高獎(jiǎng)勵(lì)處理每一個(gè)業(yè)務(wù)請(qǐng)求,本文中方法的最終目標(biāo)是確定一個(gè)長(zhǎng)期性能增益最大、最優(yōu)的動(dòng)態(tài)星上資源策略π*,π*定義如下:

        (5)

        式(5)中:γ表示獎(jiǎng)勵(lì)重要性的折扣因子,Eπ[·]表示帶寬預(yù)留策略π*的期望。

        (6)

        但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通過(guò)根據(jù)行動(dòng)的最佳概率來(lái)選擇行動(dòng),從而提高探索效率。但是,ε-greedy實(shí)際上對(duì)于很多問(wèn)題[13]都是無(wú)效的,在某些情況下,由于探索空間有限[14],可能永遠(yuǎn)無(wú)法通過(guò)ε-greedy學(xué)習(xí)到最優(yōu)策略。因此將Noisy[15]方法應(yīng)用于Dueling-DDQN框架中,解決ε-greedy存在探索效率低效的問(wèn)題。Noisy與傳統(tǒng)的探索啟發(fā)式方法ε-greedy策略不同,引入?yún)?shù)噪聲Noisy提高探索效率。

        所以本文中關(guān)于價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)的計(jì)算,加入Noisy方法,最終動(dòng)作值函數(shù)可以表示為式(7):

        (7)

        (8)

        (9)

        (10)

        由于無(wú)法通過(guò)學(xué)習(xí)Q函數(shù)來(lái)唯一確定價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù),通過(guò)優(yōu)勢(shì)函數(shù)的平均值來(lái)解決可識(shí)別性問(wèn)題,如式(11)所示:

        (11)

        Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基礎(chǔ)上,通過(guò)解耦目標(biāo)Q值動(dòng)作的選擇和目標(biāo)Q值的計(jì)算,消除由于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的最大Q值導(dǎo)致的誤差,每次更新也將神經(jīng)網(wǎng)絡(luò)向誤差最大的目標(biāo)Q值進(jìn)行改進(jìn),導(dǎo)致存在過(guò)度估計(jì)問(wèn)題。在動(dòng)作選擇時(shí),不是在目標(biāo)Q網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中最大Q值,而是先在當(dāng)前Q網(wǎng)絡(luò)中找出最大Q值對(duì)應(yīng)的動(dòng)作,具體表達(dá)為式(12):

        (12)

        利用式(12)選擇出的amax去計(jì)算目標(biāo)Q值,如式(13):

        (13)

        DDQN的最終目標(biāo)Q值,可由式(12)和式(13)可得:

        (14)

        3) 損失(Loss)函數(shù)構(gòu)建。Dueling-DDQN算法基于Q-Learning來(lái)確定Loss函數(shù),函數(shù)表達(dá)式為

        (15)

        2.3 Dueling-DDQN算法流程

        Q網(wǎng)絡(luò)通過(guò)最小化Loss函數(shù)持續(xù)更新神經(jīng)網(wǎng)絡(luò)參數(shù),基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法流程如下:

        算法:基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法

        1.初始化記憶池容量D,遍歷次數(shù)M

        2.初始化衛(wèi)星系統(tǒng)相關(guān)參數(shù)

        4.統(tǒng)計(jì)用戶業(yè)務(wù)的請(qǐng)求情況和衛(wèi)星當(dāng)前帶寬資源利用情況;

        5. for episode=1,Mdo

        6. 初始化衛(wèi)星資源狀態(tài)信息si

        7. fori=1,ndo

        8. 以Noisy方法使得Q值隨機(jī)化

        9. 執(zhí)行帶寬分配動(dòng)作ai,更新?tīng)顟B(tài)信息si,并獲取衛(wèi)星下一資源狀態(tài)信息si+1

        10.獲得當(dāng)前獎(jiǎng)賞ri

        11.將轉(zhuǎn)換transition存儲(chǔ)到記憶池中

        12. ifD>5 000 then

        13. 隨機(jī)從記憶池中選擇一批數(shù)據(jù)進(jìn)行訓(xùn)練

        14. 代入式(15)更新Q網(wǎng)絡(luò);

        15. end if

        16. end for

        17.end for

        18.返回最優(yōu)策略

        2.4 性能評(píng)估指標(biāo)

        為了衡量信道帶寬預(yù)留策略的性能,通過(guò)3個(gè)部分來(lái)定義性能評(píng)估指標(biāo)。Pe1作為用戶通信過(guò)程中的系統(tǒng)整體性能評(píng)估的參考指標(biāo)。具體式(16)所示:

        (16)

        Pe2為通信速度的效益評(píng)估指標(biāo),具體表示為式(17):

        (17)

        Pe3為帶寬利用率評(píng)估指標(biāo),具體表示為式(18):

        (18)

        3 仿真

        考慮衛(wèi)星在環(huán)繞地球的圓形軌道上周期性和固定的軌道運(yùn)動(dòng)所帶來(lái)的軌道可預(yù)測(cè)性,可以將單顆衛(wèi)星覆蓋模型簡(jiǎn)化為小區(qū)模型[18-20],并且衛(wèi)星覆蓋范圍內(nèi)的用戶滿足均勻分布[21]。模擬了G種典型的多媒體服務(wù)[10],這些多媒體應(yīng)用的業(yè)務(wù)參數(shù)定義在表1中。在仿真模型中,衛(wèi)星方面的模擬參數(shù)[22],定義如表2所示。根據(jù)各類優(yōu)先級(jí)情況和中斷正在進(jìn)行的連接更加影響用戶QoS,優(yōu)先級(jí)權(quán)重和權(quán)值參數(shù)[4,8]定義如表3所示。文中方法所涉及的深度強(qiáng)化學(xué)習(xí)參數(shù)也定義在表3中。經(jīng)過(guò)多次實(shí)驗(yàn)不同的學(xué)習(xí)率獲得不同的性能,收斂速度也會(huì)不同,所以表3中學(xué)習(xí)率設(shè)置為0.01[23],學(xué)習(xí)速率為0.01時(shí)收斂的速率最快,穩(wěn)定性高。

        表1 數(shù)據(jù)相關(guān)參數(shù)

        表2 衛(wèi)星相關(guān)參數(shù)

        表3 方法相關(guān)參數(shù)

        在仿真模型中,針對(duì)不同的連接到達(dá)速率,我們比較了不同接入策略下的系統(tǒng)性能,包括基于無(wú)優(yōu)先接入策略(NPS)、基于概率的動(dòng)態(tài)信道預(yù)留策略(PDR)、基于DQN的衛(wèi)星信道帶寬資源預(yù)留策略(DBR)和基于Dueling-DDQN的星上帶寬資源預(yù)留策略(DDBRR),最終仿真圖如圖3、圖4和圖5所示。

        圖3分析了系統(tǒng)整體服務(wù)質(zhì)量,按照式(16)所示,可以看出Pe1越大,用戶服務(wù)質(zhì)量越低,Pe1越小,用戶服務(wù)質(zhì)量越好。顯然,本文中所提出的基于DDBRR策略性能最好,因?yàn)镈DBRR策略避免了人工干擾,通過(guò)建立Dueling-DDQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)做決策。DBR策略因?yàn)檫^(guò)估計(jì)等問(wèn)題性能低于DDBR策略,而NPS策略性能最差,因?yàn)镹PS策略沒(méi)有為高優(yōu)先級(jí)的業(yè)務(wù)呼叫保留信道。

        圖3 Pe1用戶整體服務(wù)質(zhì)量

        圖4顯示了性能評(píng)估指標(biāo)Pe2的仿真結(jié)果,從圖4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是從用戶通信速度滿意度方面,DDBRR策略性能優(yōu)于NPS、PDR和DBR策略。

        圖4 Pe2用戶通信速度服務(wù)質(zhì)量

        帶寬利用率是衡量系統(tǒng)的一個(gè)重要參數(shù),通過(guò)資源利用率來(lái)衡量系統(tǒng)性能。圖5表示了4種策略的帶寬利用率與連接到達(dá)速率的關(guān)系,性能評(píng)估指標(biāo)Pe3。與其他3種策略相比DDBRR策略帶寬利用率最高,說(shuō)明本文中所提出的策略可以更加有效的利用系統(tǒng)帶寬資源。

        圖5 Pe3帶寬利用率

        4 結(jié)論

        針對(duì)波束頻繁切換缺乏可用帶寬導(dǎo)致用戶連接中斷問(wèn)題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可以根據(jù)當(dāng)前的衛(wèi)星資源狀態(tài)來(lái)做出最佳的帶寬分配策略?;贒ueling-DDQN算法,利用Dueling Network提高學(xué)習(xí)性能,通過(guò)DDQN保證無(wú)偏估計(jì),其中加入Noisy來(lái)增加探索空間,通過(guò)不斷的學(xué)習(xí)探索來(lái)為請(qǐng)求動(dòng)態(tài)分配帶寬。

        通過(guò)仿真證明所提出的星上帶寬資源預(yù)留算法,可以保障用戶整體服務(wù)質(zhì)量、用戶通話質(zhì)量滿意度和最大化提高帶寬資源利用率。下一步的研究工作中將針對(duì)Dueling-DDQN算法模型中經(jīng)驗(yàn)池采樣方法進(jìn)行優(yōu)化,降低經(jīng)驗(yàn)相關(guān)性。

        猜你喜歡
        服務(wù)質(zhì)量信道分配
        應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
        論如何提升博物館人性化公共服務(wù)質(zhì)量
        收藏界(2019年2期)2019-10-12 08:26:42
        遺產(chǎn)的分配
        一種分配十分不均的財(cái)富
        績(jī)效考核分配的實(shí)踐與思考
        基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
        一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
        傾聽(tīng)患者心聲 提高服務(wù)質(zhì)量
        堅(jiān)持履職盡責(zé) 提升服務(wù)質(zhì)量
        基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
        亚洲国产成人久久综合电影 | 久久精品国产亚洲av麻豆床戏| 色与欲影视天天看综合网| 男男受被攻做哭娇喘声视频| 久久久亚洲欧洲日产国产成人无码| 西西少妇一区二区三区精品| 青青河边草免费在线看的视频| 国产精品泄火熟女| 一本色道久久99一综合| 精品黑人一区二区三区| 日韩一区二区三区久久精品| 欧美video性欧美熟妇| 亚洲欧美偷拍视频| 日本高清不卡一区二区三区 | 日本一区二区精品色超碰| 亚洲综合日韩精品一区二区| 国产乱国产乱老熟300部视频| 一本大道香蕉最新在线视频| 亚洲国产一区二区三区视频在线 | 亚洲视频精品一区二区三区| 国产不卡精品一区二区三区| 亚洲国产成人片在线观看无码| 成人免费va视频| 国产精品美女自在线观看| 尹人香蕉久久99天天拍| 男同gay毛片免费可播放| 日本成人字幕在线不卡| 蜜臀av一区二区三区| 国产七十六+老熟妇| 欧美末成年videos在线观看| 日本在线一区二区三区观看 | 久久www免费人成精品| 六月丁香久久| 成人综合激情自拍视频在线观看| 亚洲av无码一区二区三区天堂| 天天摸日日摸狠狠添| 精品免费久久久久国产一区| 成人av综合资源在线| 50岁退休熟女露脸高潮| 日批视频免费在线观看| 日本av一区二区在线|