亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向ET-DQN的衛(wèi)星網(wǎng)絡(luò)任務(wù)部署算法研究

        2024-02-27 09:02:12劉治國董效奇夏清雨潘成勝
        關(guān)鍵詞:經(jīng)驗(yàn)

        劉治國,董效奇,汪 林,夏清雨,潘成勝,3

        1(大連大學(xué) 通信與網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116622)

        2(大連大學(xué) 環(huán)境與化學(xué)工程學(xué)院,遼寧 大連 116622)

        3(南京信息工程大學(xué) 電子與信息工程學(xué)院,南京 211800)

        0 引 言

        隨著大量物聯(lián)網(wǎng)(Internet of Things,IoT)設(shè)備、虛擬現(xiàn)實(shí)(Virtual Reality,VR)、高清視頻傳輸以及自動無人駕駛新興應(yīng)用的出現(xiàn)[1],第五代移動通信標(biāo)準(zhǔn)(5G)地面網(wǎng)絡(luò)可能無法對森林、農(nóng)村、山地和海洋等地區(qū)實(shí)現(xiàn)覆蓋,然而在這些地區(qū),物聯(lián)網(wǎng)設(shè)備卻廣泛部署用于攝像信息處理以及信息收集,并產(chǎn)生大量的處理延遲.除此之外,地面網(wǎng)絡(luò)的抗干擾和抗災(zāi)害能力較弱,不能夠應(yīng)對突發(fā)事件[2].由此第六代移動通信標(biāo)準(zhǔn)(6G)將地面網(wǎng)絡(luò)與衛(wèi)星通信集成,真正的做到了網(wǎng)絡(luò)的全覆蓋,同時又不受外部環(huán)境的影響[3].星地協(xié)同網(wǎng)絡(luò)可以應(yīng)用于許多有前途的領(lǐng)域,如智能交通系統(tǒng)、遠(yuǎn)程區(qū)域監(jiān)控、災(zāi)難救援和大規(guī)模高速移動互聯(lián)網(wǎng)接入,還能實(shí)現(xiàn)真正意義上的全球廣域覆蓋,真正的解決了地面網(wǎng)絡(luò)的諸多問題[4].

        而隨著新興應(yīng)用的出現(xiàn),部分應(yīng)用需要大量的計(jì)算資源.例如,虛擬現(xiàn)實(shí)和高清視頻流需要大量計(jì)算資源用于渲染和視頻的編碼和解碼,自動駕駛車輛依賴大量計(jì)算進(jìn)行自動控制[5].這些計(jì)算密集型應(yīng)用對資源受限的終端設(shè)備的電池和計(jì)算能力帶來了巨大挑戰(zhàn),由此云計(jì)算被提出.在云計(jì)算中,計(jì)算密集型應(yīng)用被部署到具有集中和豐富計(jì)算資源的云服務(wù)器上.雖然云計(jì)算能降低用戶的計(jì)算延遲和能耗,但它無法滿足延遲敏感應(yīng)用的需求,例如增強(qiáng)現(xiàn)實(shí),因?yàn)榻K端用戶和云服務(wù)器之間的傳輸距離很長,從而導(dǎo)致較大的傳輸延遲[6].為了解決這個問題,世界各學(xué)者對移動邊緣計(jì)算(Mobile Edge Computing,MEC)進(jìn)行了廣泛的研究,利用網(wǎng)絡(luò)邊緣的計(jì)算資源來提供高效靈活的計(jì)算服務(wù).將邊緣計(jì)算技術(shù)引入星地協(xié)同網(wǎng)絡(luò),即將云計(jì)算平臺擴(kuò)展到網(wǎng)絡(luò)邊緣,為用戶提供異構(gòu)計(jì)算資源,同時使得用戶可以在世界任何地方獲取計(jì)算服務(wù),從而改善用戶服務(wù)體驗(yàn),減少冗余網(wǎng)絡(luò)流量[7].

        然而,由于衛(wèi)星MEC服務(wù)器計(jì)算能力和能耗都是十分有限的,只能同時部署一部分的服務(wù)請求,分配給每個服務(wù)的計(jì)算資源也十分有限.終端用戶希望將盡可能多的任務(wù)轉(zhuǎn)移到衛(wèi)星邊緣計(jì)算節(jié)點(diǎn),從而減少任務(wù)處理延遲,改善用戶體驗(yàn).如果衛(wèi)星邊緣計(jì)算節(jié)點(diǎn)資源不足,用戶設(shè)備的計(jì)算任務(wù)將發(fā)送至遠(yuǎn)程云進(jìn)行處理,這無疑會增加服務(wù)請求的處理成本.

        因此在地面網(wǎng)絡(luò)稀疏環(huán)境下,面對衛(wèi)星網(wǎng)絡(luò)的資源和能量的有限性,制定高效的任務(wù)部署算法,降低處理時延和衛(wèi)星系統(tǒng)能耗是當(dāng)今衛(wèi)星網(wǎng)絡(luò)邊緣計(jì)算研究的一大挑戰(zhàn).本文提出了SDN的衛(wèi)星-地面聯(lián)合部署網(wǎng)絡(luò)架構(gòu)SSGIN,并對融合邊緣計(jì)算的SDN控制器進(jìn)行設(shè)計(jì),為遠(yuǎn)程終端提供強(qiáng)大的邊緣-云計(jì)算服務(wù).在該框架下,將任務(wù)部署問題表述為馬爾可夫決策過程(Markov Decision Process,MDP),提出了改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法:經(jīng)驗(yàn)競選的DQN算法(Experience Tournament-DQN,ET-DQN),動態(tài)學(xué)習(xí)最優(yōu)部署策略,以最小化任務(wù)處理時延和能耗.因此本文的貢獻(xiàn)歸納為3點(diǎn):

        1)提出了SSGIN網(wǎng)絡(luò)架構(gòu),并對融合邊緣計(jì)算的SDN控制器進(jìn)行設(shè)計(jì).

        2)提出了改進(jìn)DQN算法:經(jīng)驗(yàn)競選的ET-DQN,在SSGIN網(wǎng)絡(luò)架構(gòu)下,對批量任務(wù)的處理時延和能耗作為優(yōu)化目標(biāo),顯著降低了優(yōu)化問題的復(fù)雜性,并與基準(zhǔn)算法相比,在時延和能耗方面獲得了更好的性能.

        3)在仿真結(jié)果中,將ET-DQN與傳統(tǒng)的DQN算法、Prioritized-DQN的收斂性以及平均獎勵以及方差進(jìn)行了對比,在收斂性表現(xiàn)優(yōu)秀,與Prioritized-DQN平均獎勵提高近百分之16%.

        1 相關(guān)研究

        1.1 SDN衛(wèi)星網(wǎng)絡(luò)相關(guān)研究

        SDN作為一種新興的網(wǎng)絡(luò)管理模式,能夠有效提高衛(wèi)星網(wǎng)絡(luò)的資源管理水平,提高衛(wèi)星網(wǎng)絡(luò)的整體性能.Li等[8]人將SDN思想引入衛(wèi)星網(wǎng)絡(luò)以提高網(wǎng)絡(luò)的管理和配置效率,設(shè)計(jì)了一種基于SDN的空地一體的多層網(wǎng)絡(luò)結(jié)構(gòu),包括多層網(wǎng)絡(luò)結(jié)構(gòu)和虛擬化服務(wù)的部署.Toufik Ahmed等[9]結(jié)合SDN和NVF技術(shù),針對于網(wǎng)絡(luò)切片不同的階段設(shè)計(jì)了相應(yīng)的資源管理策略,實(shí)現(xiàn)了切片綜合效益最大化.Qiu C等[10]人以資源角度出發(fā),提出了基于SDN的天地一體化網(wǎng)絡(luò)架構(gòu),并將整個網(wǎng)絡(luò)的網(wǎng)絡(luò)資源、緩存資源、計(jì)算資源一起,用于動態(tài)管理和聯(lián)合編排.然而融合邊緣計(jì)算的SDN空地一體的網(wǎng)絡(luò)結(jié)構(gòu)的研究卻很少.

        1.2 融合邊緣計(jì)算的衛(wèi)星網(wǎng)絡(luò)相關(guān)研究

        近些年來,國內(nèi)外對邊緣計(jì)算都進(jìn)行了廣泛的研究,在國際上,行業(yè)標(biāo)準(zhǔn)化權(quán)威組織 IEC 發(fā)布了垂直邊緣智能(Vertical Edge Intelligence,VEI)白皮書,介紹了邊緣計(jì)算對制造業(yè)和其他垂直行業(yè)的重要價值[11].信息和通信技術(shù)(Information and Communications Technology,ICT)領(lǐng)域的權(quán)威標(biāo)準(zhǔn)組織 ISO/IEC JTC1成立了邊緣計(jì)算研究小組,推動邊緣計(jì)算標(biāo)準(zhǔn)化工作[12].除了邊緣計(jì)算各種標(biāo)準(zhǔn)相關(guān)標(biāo)準(zhǔn)、布局的研究外,任務(wù)卸載是邊緣計(jì)算中解決邊緣設(shè)備計(jì)算、存儲和性能資源限制的主要方法.大量文獻(xiàn)致力于針對不同場景和不同優(yōu)化目標(biāo)下的最優(yōu)部署策略,文獻(xiàn)[13-17]通過聚類和凸優(yōu)化方法解決衛(wèi)星網(wǎng)絡(luò)中的資源分配和計(jì)算卸載,其中zhu等[15]人通過基于模擬退火的粒子群優(yōu)化算法(SAPSO)獲得滿足延遲約束的最優(yōu)分配方案.該類方法都是通過多項(xiàng)式時間復(fù)雜度來解決該類問題的,然而面對實(shí)時變化的衛(wèi)星網(wǎng)絡(luò),上述方法一般需要重新進(jìn)行搜索求解.文獻(xiàn)[18-20]通過強(qiáng)化學(xué)習(xí)的相關(guān)算法解決任務(wù)部署問題,Zhang等[18]以時延和能耗為優(yōu)化目標(biāo),通過地軌衛(wèi)星實(shí)現(xiàn)對資源的整合和分配,提出一種協(xié)同計(jì)算卸載的方案.Cheng等[19]建立了一種空天地邊緣-云網(wǎng)絡(luò),并在此基礎(chǔ)上,提出了聯(lián)合資源分配和任務(wù)調(diào)度方案,以有效地進(jìn)行資源分配并調(diào)度卸載的任務(wù).然而強(qiáng)化學(xué)習(xí)算法仍然存在經(jīng)驗(yàn)池利用率低和網(wǎng)絡(luò)訓(xùn)練的效率低下的問題.Xiong等[20]在DQN的基礎(chǔ)上,對神經(jīng)網(wǎng)絡(luò)訓(xùn)練進(jìn)行改進(jìn),由于DQN算法存在難以收斂以及過學(xué)習(xí)的問題,該文獻(xiàn)對DQN網(wǎng)絡(luò)進(jìn)行了改進(jìn),采用多個重放存儲器分別存儲相互影響較小的經(jīng)驗(yàn),進(jìn)一步改進(jìn)了Q 網(wǎng)絡(luò)的訓(xùn)練過程,然而設(shè)計(jì)多個重放存儲器,經(jīng)驗(yàn)選擇策略仍然采用隨機(jī)選擇,沒有根本上解決樣本利用率低下的問題.除此以外,相關(guān)任務(wù)部署的研究對于針對任務(wù)部署的SDN控制器的具體設(shè)計(jì),以及在衛(wèi)星星座任務(wù)部署具體流程卻很少提及.

        綜上所述,本文提出了SDN的衛(wèi)星-地面聯(lián)合部署網(wǎng)絡(luò)架構(gòu),并對融合邊緣計(jì)算的SDN控制器、以及衛(wèi)星星座卸載流程進(jìn)行設(shè)計(jì).與此同時,為了解決DQN經(jīng)驗(yàn)利用率和網(wǎng)絡(luò)訓(xùn)練的效率低下的問題,提出改進(jìn)的ET-DQN算法以解決任務(wù)部署問題.

        2 系統(tǒng)模型和問題表述

        基于SDN的衛(wèi)星-地面聯(lián)合部署網(wǎng)絡(luò)架構(gòu)(SDN-Space-Ground Integrated Network,SSGIN)如圖1所示,其主要有地面網(wǎng)絡(luò)和衛(wèi)星網(wǎng)絡(luò)兩個部分組成,兩者互為彼此的補(bǔ)充,實(shí)現(xiàn)全球無縫覆蓋.

        圖1 基于SDN的衛(wèi)星-地面聯(lián)合部署網(wǎng)絡(luò)架構(gòu)示意圖Fig.1 Schematic diagram of SDN based satellite ground joint deployment network architecture

        衛(wèi)星網(wǎng)絡(luò)由LEO低軌衛(wèi)星網(wǎng)絡(luò)、GEO同步衛(wèi)星網(wǎng)絡(luò)以及相應(yīng)的地面基礎(chǔ)設(shè)施組成(信關(guān)站和衛(wèi)星地面控制中心).LEO低軌衛(wèi)星構(gòu)成空間接入網(wǎng)絡(luò),每個LEO衛(wèi)星可部署邊緣計(jì)算節(jié)點(diǎn)為地面稀疏終端設(shè)備直接提供服務(wù).GEO同步衛(wèi)星得益于其覆蓋范圍廣的特性,可作為SDN衛(wèi)星網(wǎng)絡(luò)的控制層,用以維護(hù)網(wǎng)絡(luò)拓?fù)浜蜖顟B(tài)信息,并以O(shè)penFlow協(xié)議進(jìn)行路由控制.

        地面網(wǎng)絡(luò)主要由地面通信系統(tǒng)組成,包括移動網(wǎng)絡(luò)、轉(zhuǎn)發(fā)網(wǎng)絡(luò)、自組織移動網(wǎng)絡(luò)、無線局域網(wǎng)和地面云計(jì)算中心.地面網(wǎng)絡(luò)在人口密集區(qū)域可以為用戶提供超高速的服務(wù),而在農(nóng)村和偏遠(yuǎn)地區(qū)、人口稀疏的區(qū)域,網(wǎng)絡(luò)覆蓋范圍有限.

        GEO衛(wèi)星作為SSGIN網(wǎng)絡(luò)架構(gòu)的控制層,為了實(shí)現(xiàn)邊緣計(jì)算任務(wù)部署的相關(guān)功能,需針對任務(wù)部署的SDN控制器進(jìn)行設(shè)計(jì).SDN控制器中有4個主要模塊:網(wǎng)絡(luò)拓?fù)涔芾砟K、路由管理模塊、邊緣計(jì)算管理模塊和任務(wù)部署模塊.網(wǎng)絡(luò)拓?fù)涔芾砟K和路由管理模塊與傳統(tǒng)的SDN控制器相同,主要負(fù)責(zé)拓?fù)湎嚓P(guān)和路由相關(guān)的服務(wù).為了實(shí)現(xiàn)邊緣計(jì)算任務(wù)部署的相關(guān)功能,在SDN控制器中增加了邊緣計(jì)算管理模塊,主負(fù)責(zé)邊緣計(jì)算節(jié)點(diǎn)的監(jiān)控和管理.任務(wù)部署模塊的作用是任務(wù)到達(dá)時,任務(wù)部署模塊需從網(wǎng)絡(luò)拓?fù)涔芾砟K獲取全局拓?fù)?從邊緣計(jì)算節(jié)點(diǎn)管理模塊獲取節(jié)點(diǎn)信息,最后,將本文提出的算法用于求解任務(wù)的部署位置.

        衛(wèi)星網(wǎng)絡(luò)的部署任務(wù)過程如下:

        步驟1.地面多個用戶向?qū)?yīng)覆蓋的衛(wèi)星發(fā)起任務(wù)部署請求.

        步驟2.對應(yīng)的接收衛(wèi)星統(tǒng)一向GEO衛(wèi)星發(fā)送任務(wù)信息,GEO上有全局的SDN控制器,SDN控制器只的各個模塊相互配合協(xié)調(diào),最終由任務(wù)部署模塊求解最佳部署位置.

        步驟3.GEO控制器將對應(yīng)的控制信息下發(fā)至LEO衛(wèi)星上.

        步驟4.低軌衛(wèi)星通過流表控制將任務(wù)轉(zhuǎn)發(fā)至指定部署位置.

        步驟5.邊緣計(jì)算節(jié)點(diǎn)經(jīng)過任務(wù)處理將結(jié)果返給至任務(wù)發(fā)起衛(wèi)星.

        步驟6.將任務(wù)結(jié)果返回至地面用戶.

        3 成本模型

        3.1 任務(wù)部署時延

        3.1.1 任務(wù)處理時延

        (1)

        3.1.2 任務(wù)等待時延

        由于本文衛(wèi)星邊緣計(jì)算服務(wù)器是以多核多線程并行的情況下提供服務(wù)的,需對節(jié)點(diǎn)sk上資源調(diào)度建立模型.在衛(wèi)星sk上的wait_queuek,run_queuek分別表示等待任務(wù)集合和執(zhí)行任務(wù)集合.本文采用非搶占式的先來先服務(wù)的思想來分配衛(wèi)星邊緣計(jì)算服務(wù)器的計(jì)算資源,該方式優(yōu)點(diǎn)簡單易實(shí)現(xiàn).即對到來的任務(wù)如果不滿足其需要獲取的計(jì)算資源,那么需要進(jìn)入wait_queuek等待資源分配滿足后,再使其進(jìn)入run_queuek隊(duì)列執(zhí)行,任務(wù)等待時延可分為以下兩種情況:

        (2)

        3.1.3 任務(wù)傳輸時延

        (3)

        (4)

        3.2 任務(wù)能耗

        (5)

        3.3 總成本模型

        為了解決部署位置和計(jì)算資源分配不合理而導(dǎo)致任務(wù)處理時延過長、衛(wèi)星能耗過大的問題,本文以任務(wù)部署時延和衛(wèi)星能耗為優(yōu)化目標(biāo),求解該批服務(wù)請求各自的最佳部署位置,以及分配的計(jì)算資源,使得其該批請求的任務(wù)處理時延和衛(wèi)星能耗最小.

        根據(jù)公式(4)、公式(5),最終得優(yōu)化方程為:

        (6a)

        (6b)

        elemi,k∈{0,1}i∈N,k∈M

        (6c)

        (6d)

        (6e)

        4 算法設(shè)計(jì)

        4.1 ET-DQN算法

        4.1.1 狀態(tài)空間

        狀態(tài)空間state第1部分為當(dāng)前邊緣計(jì)算節(jié)點(diǎn)的狀態(tài)矩陣,即將計(jì)算節(jié)點(diǎn)集合S={s1,s2,…,sp,scloud}組成矩陣s_sat:

        (7)

        第2部分為當(dāng)前服務(wù)請求矩陣s_app:

        (8)

        4.1.2 動作空間

        定義動作空間action:

        (9)

        4.1.3 獎勵函數(shù)

        (10)

        (11)

        其中θ和θ-分別代表估計(jì)網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的參數(shù)值.

        立即回報(bào)reward值高的經(jīng)驗(yàn)對Agent的學(xué)習(xí)同樣有很大的影響.因此本文以TD-error和立即回報(bào)reward作為各樣本優(yōu)先級的衡量標(biāo)準(zhǔn).TD-error和reward立即回報(bào)越大,其優(yōu)先級越高.樣本的TD-error的優(yōu)先級y1和reward的優(yōu)先級分別y2為:

        y1=reward+ρ

        (12)

        y2=|δ|+ρ

        (13)

        其中ρ為一正常數(shù),以確保樣本y1與y2不為0.那么最終優(yōu)先級Y可表示為:

        (14)

        目前已知的經(jīng)驗(yàn)回放方法都是以高優(yōu)先級樣本為主,而過度的使用優(yōu)先級高的樣本,低優(yōu)先級的樣本很有可能長時間不能被回放,從而造成Q網(wǎng)絡(luò)過擬合的發(fā)生.由此本文提出經(jīng)驗(yàn)競選的DQN算法(Experience Tournament-DQN,ET-DQN).采用經(jīng)驗(yàn)抽樣策略,該抽樣選擇和遺傳算法的選擇策略十分類似,Schaul等[23]提出了Prioritized replay的采樣策略,其采樣方式采用輪盤賭策略,而競選策略比輪盤賭無論是在通用性還是性能上都表現(xiàn)更佳.本文采用競選策略來抽取批量的經(jīng)驗(yàn)行經(jīng)驗(yàn)回放.競選策略流程圖如圖2所示.

        圖2 競選策略流程圖Fig.2 Campaign strategy flow chart

        在競選策略流程中,初始化神經(jīng)網(wǎng)絡(luò)的batchsize,并從經(jīng)驗(yàn)池中隨機(jī)獲取n個經(jīng)驗(yàn),并計(jì)算每條經(jīng)驗(yàn)的Y值,選出Y值經(jīng)驗(yàn)最大的放入到批量訓(xùn)練集中,直到取滿batchsize為止,并放入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.

        ET-DQN算法如算法1所示.

        算法1.ET-DQN算法

        1.初始化估計(jì)網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的參數(shù)值θ,θ-,經(jīng)驗(yàn)池容量為Z,批量經(jīng)驗(yàn)數(shù)batchsize,遍歷次數(shù)X,目標(biāo)網(wǎng)絡(luò)的更新步幅D,折扣因子γ,ε-greedy,策略π,學(xué)習(xí)率ρ,隨機(jī)經(jīng)驗(yàn)數(shù)n;

        2.Start

        3.Forepisode=1,Xdo

        4.初始化環(huán)境,通過SDN控制器獲取當(dāng)前網(wǎng)絡(luò)狀態(tài)state={s_sat,s_app};

        5.Fort=1,Hdo

        6. 以ε的概率隨機(jī)選擇一個動作action,或者根據(jù)模型選擇當(dāng)前最優(yōu)的action=maxactionQ*(state,action;θ);

        7. 執(zhí)行動作action,進(jìn)入新狀態(tài)state′和回報(bào)reward;

        8. 通過κ=(state,action,state′,reward)經(jīng)驗(yàn)樣本計(jì)算該經(jīng)驗(yàn)的優(yōu)先級Y,并放入經(jīng)驗(yàn)池;

        9. 根據(jù)圖2流程選取經(jīng)驗(yàn)放入批量訓(xùn)練集中,并計(jì)算該批經(jīng)驗(yàn)的y值:

        10. 根據(jù)公式在(y-Q(state,action;θ))2上執(zhí)行梯度下降,更新估計(jì)網(wǎng)絡(luò)θ參數(shù);

        11. 如果t可被更新步幅D除盡,則將估計(jì)網(wǎng)絡(luò)參數(shù)θ賦給目標(biāo)網(wǎng)絡(luò)θ-;

        12.EndFor

        13.EndFor

        5 仿真實(shí)驗(yàn)

        為了驗(yàn)證ET-DQN的算法性能,本次仿真實(shí)驗(yàn)使用STK仿真軟件模擬信息傳輸網(wǎng)絡(luò),并使用python和pytorch搭建神經(jīng)網(wǎng)絡(luò),進(jìn)行訓(xùn)練.在仿真實(shí)驗(yàn)中,本文采用LEO衛(wèi)星星座采用66顆衛(wèi)星的Walker星座,即將軌道傾角90度的walker星座劃分為6個軌道面,11顆低軌衛(wèi)星分布在每個軌道平面上.通過3顆GEO衛(wèi)星覆蓋整個walker星座和地面,將SDN控制器部署至GEO衛(wèi)星上,對walker星座的各個衛(wèi)星進(jìn)行監(jiān)控,以做到全局的優(yōu)化.

        系統(tǒng)模擬仿真參數(shù)如表1所示.

        表1 系統(tǒng)模擬參數(shù)Table 1 System simulation parameters

        為驗(yàn)證ET-DQN的收斂性,仿真實(shí)驗(yàn)中,分別對傳統(tǒng)DQN,Prioritized-DQN以及ET-DQN的loss函數(shù)進(jìn)行測試,得出的結(jié)論如圖3所示.

        圖3 loss對比圖Fig.3 Loss comparison chart

        由loss可知,傳統(tǒng)的DQN算法在經(jīng)過80000次迭代后依然難以收斂,仍然有較大的振幅,而Prioritized-DQN收斂速度很快,但是隨著迭代次數(shù)增加,loss不降反升,說明此時的Prioritized-DQN經(jīng)驗(yàn)池因?yàn)橛洃浘彺嬷械挠洃泦卧辉侏?dú)立.經(jīng)過多次迭代,高優(yōu)先級的存儲經(jīng)驗(yàn)被多次存入經(jīng)驗(yàn)池,低優(yōu)先級的經(jīng)驗(yàn)逐漸消失,經(jīng)驗(yàn)池有效的訓(xùn)練集變小,導(dǎo)致訓(xùn)練模型下降陷入局部最優(yōu).而ET-DQN算法,初期的收斂速度不及Prioritized-DQN,由于其由于抽樣的隨機(jī)性,并不會造成經(jīng)驗(yàn)池利用不充分的問題,loss處于平穩(wěn)下降狀態(tài),并在50000次后基本趨于穩(wěn)定,在收斂性方面,ET-DQN算法是優(yōu)于其他兩種算法的.

        在強(qiáng)化學(xué)習(xí)中,獎勵reward是深度強(qiáng)化學(xué)習(xí)的最重要的指標(biāo)參數(shù),獎勵reward對比圖如圖4所示.

        圖4 reward變化圖Fig.4 Reward variation diagram

        由圖4可知,隨著迭代次數(shù)的增加,3種算法在每個回合獲得到的reward值都逐漸提高.表2中列舉了在訓(xùn)練過程中,3種算法的均值與方差.由表2可得,ET-DQN算法在仿真實(shí)驗(yàn)中平均每個回合獲得的回報(bào)最大,比Prioritized-DQN提高了近16%.二者的方差相近的情況下,在迭代40000次后,雖然每輪的獎勵值略有波動,但獲得的總體獎勵值保持穩(wěn)定.Prioritized-DQN收斂快,但在訓(xùn)練后期,仍然出現(xiàn)性能下降的情況,而DQN的reward均值最低,方差大,出現(xiàn)了較大的震蕩.綜上所述,ET-DQN算法在是優(yōu)于其他兩個算法的.

        表2 實(shí)驗(yàn)效果對比Table 2 Comparison of experimental results

        在經(jīng)過算法的性能對比后,對ET-DQN訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)進(jìn)行性能測試,除了DQN和Prioritized-DQN以外,需要加入基準(zhǔn)算法進(jìn)行對比:隨機(jī)任務(wù)部署法:將應(yīng)用隨機(jī)部署至各個邊緣計(jì)算節(jié)點(diǎn)處;衛(wèi)星節(jié)點(diǎn)部署法:將所有任務(wù)部署至合適的衛(wèi)星節(jié)點(diǎn).

        圖5和圖6中分別為時延與能耗性能對比.由圖可知,ET-DQN、DQN和Prioritized-DQN對任務(wù)處理時延都有一定程度的優(yōu)化,在任務(wù)規(guī)模小于15時,ET-DQN、DQN和Prioritized-DQN的對時延的優(yōu)化效果很接近,甚至在圖6中,任務(wù)規(guī)模為15時,Prioritized-DQN的性能優(yōu)于ET-DQN,因?yàn)镻rioritized-DQN訓(xùn)練時總是盡可能選擇優(yōu)先級高的經(jīng)驗(yàn)進(jìn)行訓(xùn)練,收斂快,任務(wù)量小時能展現(xiàn)出較好的性能.隨著任務(wù)數(shù)量的增大,Prioritized-DQN則出現(xiàn)過擬合現(xiàn)象,導(dǎo)致其性能變差.而ET-DQN在任務(wù)量小時也展現(xiàn)了很好的性能,隨著任務(wù)的增大,泛化能力更強(qiáng),優(yōu)化最為明顯且穩(wěn)定,由此可得ET-DQN訓(xùn)練出的模型在性能優(yōu)化方面更為出色.

        圖5 不同任務(wù)放置策略時延性能對比Fig.5 Comparison of delay performance of different task placement strategies

        圖6 不同任務(wù)放置策略能耗對比Fig.6 Comparison of energy consumption of different task placement strategies

        6 總結(jié)和展望

        為了解決在衛(wèi)星邊緣計(jì)算中,部署位置和計(jì)算資源分配不合理而導(dǎo)致任務(wù)處理時延過長、衛(wèi)星能耗過大的問題,本文提出了基于SDN的衛(wèi)星-地面聯(lián)合部署網(wǎng)絡(luò)架構(gòu)SSGIN,同時對衛(wèi)星網(wǎng)絡(luò)的成本模型進(jìn)行分析,并改進(jìn)了經(jīng)典DQN算法的經(jīng)驗(yàn)池利用率低、過估計(jì)和難收斂的問題:提出ET-DQN以優(yōu)化任務(wù)部署的時延與能耗.在仿真實(shí)驗(yàn)中,對ET-DQN算法的收斂性、泛化性以及優(yōu)化性能進(jìn)行測試.仿真結(jié)果表明,所提出的任務(wù)部署算法能夠有效地減少了任務(wù)計(jì)算的處理延遲和系統(tǒng)能耗,并且算法能夠穩(wěn)定地進(jìn)行訓(xùn)練和收斂.與典型的強(qiáng)化學(xué)習(xí)算法相比,學(xué)習(xí)效率明顯提高,能夠有效解決經(jīng)典DQN算法經(jīng)驗(yàn)池利用率低,過估計(jì)以及難收斂的問題.ET-DQN雖能提提高傳統(tǒng)DQN的收斂速度,然而相較于Prioritized-DQN仍然收斂速度稍慢,而如何提高深度強(qiáng)化學(xué)習(xí)算法的收斂速度仍然需要后續(xù)的研究.

        猜你喜歡
        經(jīng)驗(yàn)
        2023年第5期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2023年5期)2023-03-18 01:17:10
        2023年第4期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2023年4期)2023-03-17 02:50:48
        2021年第20期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2021年20期)2021-11-04 09:39:46
        樂淘淘“先進(jìn)”經(jīng)驗(yàn)
        經(jīng)驗(yàn)
        2018年第20期“最值得推廣的經(jīng)驗(yàn)”評選
        黨課參考(2018年20期)2018-11-09 08:52:36
        小經(jīng)驗(yàn)試試看
        國內(nèi)外環(huán)境保護(hù)的經(jīng)驗(yàn)、做法以及給我國的啟示
        中國市場(2016年12期)2016-05-17 05:10:39
        當(dāng)你遇見了“零經(jīng)驗(yàn)”的他
        都市麗人(2015年4期)2015-03-20 13:33:22
        辨證治療久瀉經(jīng)驗(yàn)
        丁香花在线影院观看在线播放| 好看的日韩精品视频在线 | 大屁股流白浆一区二区| 大香蕉国产av一区二区三区| 中文无码伦av中文字幕| 性饥渴艳妇性色生活片在线播放| 92精品国产自产在线观看48页| 日本视频一区二区三区| 婷婷五月深深久久精品| 亚洲国产av导航第一福利网| 日本精品免费一区二区三区| 丰满人妻被持续侵犯中出在线| 国产中文三级全黄| 国产av综合网站不卡| 日韩精品内射视频免费观看| 中文字幕av在线一二三区| 国产亚洲精品综合99久久| 亚洲色图在线免费视频| 日韩人妻无码精品久久| 日韩在线不卡免费视频| av在线男人的免费天堂| 亚洲国产精品无码一线岛国| 亚洲av无码精品色午夜在线观看| 精品少妇爆乳无码aⅴ区| 亚洲综合小综合中文字幕| 把女人弄爽特黄a大片| 人人妻人人澡av天堂香蕉| 亚洲一区二区三区在线观看蜜桃| 日本一区二区三区视频免费观看| 久久无码专区国产精品s| 日韩一区二区超清视频| 成人影院羞羞的视频免费观看 | 少妇伦子伦情品无吗| 国产人澡人澡澡澡人碰视频| 久久久诱惑一区二区三区| 丰满少妇人妻久久精品| 美女又色又爽视频免费| 97色综合| 日本一本一道久久香蕉男人的天堂| 国产又色又爽又刺激在线播放| 欧美一级人与嘼视频免费播放|