亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向邊緣計(jì)算的一種基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載策略

        2024-12-31 00:00:00程耀東田潤(rùn)鑫
        無線互聯(lián)科技 2024年13期
        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

        作者簡(jiǎn)介:程耀東(2000— ),男,碩士研究生;研究方向:邊緣計(jì)算資源優(yōu)化。

        摘要:隨著移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)的興起,為解決資源受限的移動(dòng)設(shè)備,文章提出了一種有前景的解決方案,主要研究了一種利用深度強(qiáng)化學(xué)習(xí)(DRL)技術(shù)的動(dòng)態(tài)任務(wù)卸載策略,該策略針對(duì)離散事件進(jìn)行了特別設(shè)計(jì),同時(shí)提出一種優(yōu)化后的DDPG算法的連續(xù)動(dòng)作空間DRL方法,利用此方法,獨(dú)立地為每位移動(dòng)用戶定制了高效的計(jì)算卸載策略,實(shí)現(xiàn)了在用戶端的本地計(jì)算與邊緣計(jì)算之間的智能決策。通過仿真實(shí)驗(yàn)結(jié)果可以看出每個(gè)用戶可以根據(jù)對(duì)MEC系統(tǒng)的局部觀測(cè),自適應(yīng)地分配本地執(zhí)行和任務(wù)卸載的功率。

        關(guān)鍵詞:移動(dòng)邊緣計(jì)算;深度強(qiáng)化學(xué)習(xí);離散動(dòng)態(tài)任務(wù)卸載

        中圖分類號(hào):TN915.65" 文獻(xiàn)標(biāo)志碼:A

        0" 引言

        隨著移動(dòng)互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)的產(chǎn)生及處理正逐漸向網(wǎng)絡(luò)邊緣轉(zhuǎn)移,進(jìn)一步推動(dòng)了移動(dòng)邊緣計(jì)算的興起,移動(dòng)邊緣計(jì)算作為一種新型的計(jì)算范式,通過將計(jì)算任務(wù)下沉到網(wǎng)絡(luò)邊緣,顯著減少了數(shù)據(jù)的傳輸延遲,也大幅提高了處理效率,基于此,為眾多應(yīng)用(如實(shí)時(shí)音視頻處理、智能交通及智能制造等)提供了強(qiáng)力的支持。然而,隨著應(yīng)用需求的不斷增長(zhǎng),移動(dòng)邊緣計(jì)算也面臨著算力資源緊張的問題,因此如何在有限的資源條件下,高效、合理地分配、利用算力資源,就成為移動(dòng)邊緣計(jì)算領(lǐng)域亟待解決的關(guān)鍵問題。

        Huang等[1]考慮了一種在線卸載算法,旨在最大化無線供能的MEC系統(tǒng)中的加權(quán)和計(jì)算速率;Min等[2]利用深度強(qiáng)化學(xué)習(xí)技術(shù),為物聯(lián)網(wǎng)設(shè)備開發(fā)了一種計(jì)算卸載策略,旨在幫助設(shè)備學(xué)習(xí)如何選擇一個(gè)合適的MEC服務(wù)器進(jìn)行任務(wù)卸載,并確定最佳的卸載速率。為了將DRL算法擴(kuò)展到連續(xù)動(dòng)作空間,F(xiàn)an等[3]提出了DDPG算法。

        本文研究由一個(gè)基站、一個(gè)附加MEC服務(wù)器和多個(gè)移動(dòng)用戶組成的通用MEC系統(tǒng),該系統(tǒng)的任務(wù)是隨機(jī)到達(dá)的,每個(gè)用戶的信道條件是時(shí)變的。在不了解MEC系統(tǒng)的網(wǎng)絡(luò)統(tǒng)計(jì)信息的前提下,根據(jù)MEC系統(tǒng)的局部觀測(cè),在每個(gè)移動(dòng)用戶處獨(dú)立學(xué)習(xí)動(dòng)態(tài)計(jì)算卸載策略。此外,本文與現(xiàn)有研究中其他基于DRL的策略在離散動(dòng)作空間中進(jìn)行決策不同,旨在提升各個(gè)移動(dòng)用戶節(jié)點(diǎn)在執(zhí)行本地計(jì)算與進(jìn)行任務(wù)卸載時(shí)的功率分配策略,從而實(shí)現(xiàn)對(duì)能耗和延遲的優(yōu)化管理。

        1" 移動(dòng)邊緣計(jì)算的動(dòng)態(tài)計(jì)算卸載

        1.1" 網(wǎng)絡(luò)模型

        在MEC系統(tǒng)中使用了小基站BS,該系統(tǒng)裝備了N個(gè)天線,采用了迫零線性檢測(cè)技術(shù)。該技術(shù)以其較低的計(jì)算復(fù)雜性和高效的數(shù)據(jù)處理能力而受到青睞,尤其適用于裝備有大規(guī)模天線陣列的多用戶多輸入多輸出系統(tǒng)。對(duì)于每個(gè)時(shí)隙t∈T,若每個(gè)移動(dòng)用戶m∈M的信道向量表示為hm(t)∈CN×1,則BS基站的接收信號(hào)可表示為:

        y(t)=∑Mm=1hm(t)po,m(t)sm(t)+n(t)(1)

        式中,po,m(t)∈[0,Po,m]為用戶m卸載任務(wù)時(shí)使用的傳輸功率;sm(t)表示時(shí)間t處的單位方差數(shù)據(jù)符號(hào);n(t)~CN(0,σ2RIN)表示符合復(fù)數(shù)正態(tài)分布的加性高斯噪聲向量。通過式(1)可以完成MEC系統(tǒng)網(wǎng)絡(luò)場(chǎng)景信道模型構(gòu)建。

        1.2" MEC系統(tǒng)的資源計(jì)算模型

        為了確保廣泛適用性,本文采用一個(gè)通用的參數(shù)am(t)來描述在t內(nèi)到達(dá)用戶m的任務(wù)數(shù)量。這些新任務(wù)將從緊接著的時(shí)槽t+1起被處理,且假定各時(shí)槽的任務(wù)到達(dá)遵循獨(dú)立同分布(i.i.d)模式,其平均到達(dá)率用λm=E[am(t)]表示。同時(shí),假設(shè)應(yīng)用程序具有細(xì)粒度特性[4],意味著計(jì)算任務(wù)可以分解為更小的單元進(jìn)行獨(dú)立處理。在這種設(shè)置下,一部分任務(wù)位由dl,m(t)表示,將在移動(dòng)設(shè)備本地執(zhí)行,而另一部分(由do,m(t)表示)則被發(fā)送至MEC服務(wù)器進(jìn)行處理。

        考慮到用戶m在時(shí)隙t開始時(shí)的任務(wù)緩沖區(qū)長(zhǎng)度為Bm(t),該長(zhǎng)度將根據(jù)新到達(dá)的任務(wù)和已處理的任務(wù)數(shù)量進(jìn)行更新。具體來說,緩沖區(qū)長(zhǎng)度的變化由以下關(guān)系定義:

        Bm(t+1)=[Bm(t)-(dl,m(t)+do,m(t))]++am(t),t∈τ(2)

        其中,Bm(0)=0,[x]+=max(x,0)該方程確保了緩沖區(qū)長(zhǎng)度始終為非負(fù)值,反映了任務(wù)到達(dá)和處理的動(dòng)態(tài)變化。

        為了捕捉移動(dòng)用戶m在不同時(shí)隙間的信道時(shí)間相關(guān)性,應(yīng)用以下自回歸模型[5]:

        hm(t)=ρmhm(t-1)+1-ρ2me(t)(3)

        此時(shí),用戶m在時(shí)隙t通過本地執(zhí)行處理的數(shù)據(jù)比特?cái)?shù)為:

        dl,m(t)=τ0fm(t)L-1m(4)

        給定上行傳輸功率po,m(t),推導(dǎo)出用戶m在t時(shí)隙卸載的數(shù)據(jù)比特?cái)?shù)為:

        do,m(t)=τ0Wlog2(1+γm(t))(5)

        2" 基于DRL的離散動(dòng)態(tài)任務(wù)卸載策略

        每個(gè)用戶代理通過與環(huán)境的交互來收集經(jīng)驗(yàn),并通過這些經(jīng)驗(yàn)來更新其策略。這個(gè)過程不依賴于對(duì)MEC系統(tǒng)全局狀態(tài)的了解,而是依賴于每個(gè)用戶自身的觀察和反饋。DDPG算法利用深度學(xué)習(xí)來逼近策略函數(shù),使得用戶能夠根據(jù)實(shí)時(shí)的環(huán)境反饋?zhàn)龀鲎顑?yōu)的計(jì)算卸載決策。

        狀態(tài)空間中每個(gè)用戶m在時(shí)隙t的狀態(tài)定義為式(6),其中,Bm(t)表示用戶m的任務(wù)緩沖區(qū)隊(duì)列長(zhǎng)度,m(t-1)是用戶m在基站接收到的SINR的投影功率比,hm(t)是用戶m的信道向量。

        sm,t=[Bm(t),m(t-1),hm(t)](6)

        在動(dòng)作空間中用戶m的動(dòng)作定義為式(7)。通過改進(jìn)的DDPG算法,可以在一個(gè)連續(xù)的動(dòng)作空間pl,m(t)∈[0,Pl,m]和po,m(t)∈[0,Po,m]中對(duì)任意一種功率分配進(jìn)行精心優(yōu)化以最小化平均計(jì)算成本。

        am,t=[pl,m(t),po,m(t)](7)

        定義獎(jiǎng)勵(lì)函數(shù)為式(8),其中,wm,1與wm,2為非負(fù)權(quán)重因子。

        rm,t=-wm,1·(pl,m(t)+po,m(t))-wm,2·Bm(t)(8)

        將改進(jìn)的深度確定性策略梯度DDPG算法命名為Adaptive-Explore DDPG(AE-DDPG)。AE-DDPG算法通過動(dòng)態(tài)調(diào)整學(xué)習(xí)率、優(yōu)化探索策略以及自適應(yīng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),能夠更加靈活地應(yīng)對(duì)MEC環(huán)境中的動(dòng)態(tài)和隨機(jī)性。AE-DDPG算法的設(shè)計(jì)旨在通過自適應(yīng)和探索的策略,結(jié)合回報(bào)率引導(dǎo)的動(dòng)態(tài)調(diào)整,以更好地平衡新策略的探索和已知策略的利用,顯著提升在MEC環(huán)境中的計(jì)算卸載效率。

        3" 實(shí)驗(yàn)分析

        為了評(píng)估AE-DDPG算法在動(dòng)態(tài)計(jì)算卸載策略中的性能,本文將其與其他幾種策略進(jìn)行了性能比較,包括優(yōu)先執(zhí)行本地計(jì)算的貪婪策略(GD-Local)、優(yōu)先進(jìn)行計(jì)算卸載的貪婪策略(GD-Offload)以及采用深度Q網(wǎng)絡(luò)(DQN)的動(dòng)態(tài)卸載策略。

        在該MEC系統(tǒng)中,共部署了3個(gè)獨(dú)立的移動(dòng)用戶,這些用戶被隨機(jī)安置在距離基站100 m的區(qū)域,對(duì)于每個(gè)用戶m其任務(wù)到達(dá)的速率設(shè)定為λm=M×1.0 Mbps,其中,M∈{1,2,3}。

        如表1所示,在wm=0.5的情況下,采用AE-DDPG策略的用戶2和用戶3的平均回報(bào)優(yōu)于其他策略。然而,對(duì)于用戶1,基于AE-DDPG的策略差于GD-Local策略,這表明在較小的分配功率下,AE-DDPG的探索還需要進(jìn)一步改進(jìn)。通過設(shè)置權(quán)衡因子wm=0.8,AE-DDPG策略在每個(gè)用戶代理上獲得最佳的平均獎(jiǎng)勵(lì)。由此,就所有用戶的平均獎(jiǎng)勵(lì)而言,基于DDPG的策略再次優(yōu)于基于DQN的策略。

        4" 結(jié)語

        本文聚焦于多用戶移動(dòng)邊緣計(jì)算環(huán)境,在此環(huán)境中,計(jì)算任務(wù)以隨機(jī)方式出現(xiàn),且用戶所面臨的無線信道狀況隨時(shí)間發(fā)生動(dòng)態(tài)變化。為了實(shí)現(xiàn)在能耗和緩沖延遲兩方面對(duì)長(zhǎng)期平均計(jì)算成本的最小化,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL)的分布式動(dòng)態(tài)計(jì)算卸載策略。該策略旨在為每個(gè)用戶獨(dú)立地優(yōu)化其本地計(jì)算與邊緣卸載的決策過程。通過數(shù)值仿真驗(yàn)證了所提出的AE-DDPG的分散控制策略優(yōu)于傳

        統(tǒng)的基于DQN的離散功率控制策略和其他一些貪心策略,并且降低了計(jì)算成本。

        參考文獻(xiàn)

        [1]HUANG L,BI S,ZHANG Y J A.Deep reinforcement learning for online computation offloading in wireless powered mobile-edge computing networks[J].IEEE Transactions on Mobile Computing,2019(11):2581-2593.

        [2]MIN M,XIAO L,CHEN Y,et al.Learning-based computation offloading for IoT devices with energy harvesting[J].IEEE Transactions on Vehicular Technology,2019(2):1930-1941.

        [3]FAN J J,BA H,GUO X,et al.Critic PI2:Master continuous planning via policy improvement with path integrals and deep actor-critic reinforcement learning[EB/OL].(2020-11-13)[2024-04-25].https://doi.org/10.48550/arXiv.2011.06752.

        [4]KWAK J,KIM Y,LEE J,et al.DREAM:Dynamic resource and task allocation for energy minimization in mobile cloud systems[J].IEEE Journal on Selected Areas in Communications,2015(12):2510-2523.

        [5]SURAWEERA H A,TSIFTSIS T A,KARAGIANNIDIS G K,et al.Effect of feedback delay on amplify-and-forward relay networks with beamforming[J].IEEE Transactions on Vehicular Technology,2011(3):1265-1271.

        (編輯" 沈" 強(qiáng))

        A computing unloading strategy based on deep reinforcement learning for edge computing

        CHENG" Yaodong, TIAN" Runxin

        (Xijing University, Xi’an 710123, China)

        Abstract:" The advent of Mobile Edge Computing (MEC) has introduced a prospective solution for the challenges faced by resource-limited mobile devices. In this study, we have explored a dynamic task offloading strategy that employs Deep Reinforcement Learning (DRL) techniques, with a particular focus on discrete events. Furthermore, an enhanced variant of the Deep Deterministic Policy Gradient (DDPG) algorithm, which operates within a continuous action space of DRL, has been introduced. This approach has been used to independently develop efficient computation offloading strategies for individual mobile users, facilitating smart decision-making between on-device computation and offloading to the edge. The simulation outcomes indicate that users can autonomously distribute the power for local processing and task offloading in response to their localized insights into the MEC system.

        Key words: mobile edge computing; deep reinforcement learning; discrete dynamic task offloading

        猜你喜歡
        深度強(qiáng)化學(xué)習(xí)
        基于DDPG算法的路徑規(guī)劃研究
        基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評(píng)價(jià)模型研究
        基于深度強(qiáng)化學(xué)習(xí)與圖像智能識(shí)別的輸電線路在線監(jiān)測(cè)系統(tǒng)
        基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
        人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
        基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
        深夜福利小视频在线观看| 亚洲一区二区国产一区| 国产成人精品优优av| 国产精选污视频在线观看| av无码天一区二区一三区| 91在线观看国产自拍| 91成人自拍在线观看| 国产网红主播无码精品| 香蕉视频在线观看国产| 人妻少妇喷水意淫诱惑| 亚洲国产色婷婷久久精品| 国产精品一区二区三区黄片视频 | 91成人自拍在线观看| 亚洲色欲色欲www在线观看| 久草视频国产| 自拍视频在线观看成人| 亚洲精品中文字幕一区二区| 少妇无码av无码专区| 人妻无码中文专区久久综合| 国产精品久久熟女吞精| 免费a级毛片18禁网站免费| av香港经典三级级 在线| 在线看片国产免费不卡| 精品视频手机在线免费观看| 欧美日韩在线视频一区| 美女扒开内裤让男生桶| 日韩精品中文字幕综合| 亚洲另类丰满熟妇乱xxxx| 成年无码av片在线| 精选麻豆国产AV| 丝袜美腿在线播放一区二区| 国产98色在线 | 国产| 日本大片免费观看完整视频| 国产三级精品三级在线观看粤语| 美丽的小蜜桃在线观看| 国产真人性做爰久久网站| 婷婷色国产精品视频一区| 五月婷婷开心五月播五月| 婷婷色香五月综合激激情| 美女在线国产| av男人的天堂第三区|