亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)深度強(qiáng)化學(xué)習(xí)算法的計(jì)算卸載策略

        2021-05-10 11:19:30葛海波弓海文
        關(guān)鍵詞:計(jì)算資源總成本計(jì)算能力

        葛海波,弓海文,宋 興,李 順,孫 奧

        (西安郵電大學(xué) 電子工程學(xué)院,陜西 西安 710121)

        隨著智能手機(jī)、平板電腦等移動(dòng)設(shè)備的數(shù)量急劇增加,諸如圖像識(shí)別、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)等任務(wù)密集型、時(shí)延敏感型的應(yīng)用程序大量增長(zhǎng)[1]。這些移動(dòng)應(yīng)用常常需要大量的計(jì)算資源,而受限于計(jì)算能力與電池容量的移動(dòng)設(shè)備越來越無法支持這些應(yīng)用[2]。為了克服這一問題,移動(dòng)云計(jì)算(Mobile Cloud Computing,MCC)作為一種新的分布式計(jì)算模型被提出[3],MCC允許終端從云計(jì)算中心借用計(jì)算和存儲(chǔ)資源,滿足資源需求型應(yīng)用程序的需要[4]。盡管MCC可以節(jié)約本地的計(jì)算資源,但是,從移動(dòng)設(shè)備到基站或云服務(wù)器的長(zhǎng)距離傳輸可能會(huì)導(dǎo)致嚴(yán)重的時(shí)間延遲和額外的傳輸能耗[5-6]。

        針對(duì)MCC存在的問題,歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute,ETSI)提出了移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)技術(shù)[7]。由于MEC卸載策略具有非確定性多項(xiàng)式難題(Nondeterministic Polynominal-Hard,NP-Hard),大多數(shù)卸載策略都采用啟發(fā)式算法[8]。例如,文獻(xiàn)[9]提出了一種單用戶的MEC系統(tǒng)優(yōu)化框架,該框架采用一種基于線性規(guī)劃松弛和半確定松弛方法的卸載決策算法,降低了執(zhí)行延遲和能耗。文獻(xiàn)[10]設(shè)計(jì)了一種基于遺傳算法的任務(wù)卸載策略,減小了系統(tǒng)的總開銷。文獻(xiàn)[11]將MEC模型中的任務(wù)卸載問題描述為非線性問題,并提出了一種卸載算法來減少任務(wù)延遲并提高用戶設(shè)備(User Equipment,UE)的電池壽命。文獻(xiàn)[12]提出了一種基于能量消耗和等待時(shí)間的任務(wù)分擔(dān)算法,其能耗和等待時(shí)間加權(quán)總和較低。文獻(xiàn)[13]提出了一種基于改進(jìn)遺傳算法的邊緣卸載策略,將每個(gè)卸載策略作為一條染色體,每條染色體上的基因?qū)?yīng)一個(gè)計(jì)算任務(wù),以降低系統(tǒng)總開銷。但是,隨著MEC應(yīng)用程序和網(wǎng)絡(luò)架構(gòu)的日益復(fù)雜,導(dǎo)致啟發(fā)式算法生成決策的時(shí)間過長(zhǎng),特別是在多用戶的MEC環(huán)境下如何減少計(jì)算卸載的系統(tǒng)總時(shí)延和系統(tǒng)總成本,還需進(jìn)一步研究。

        為了減少生成決策的時(shí)間、降低系統(tǒng)總成本,研究人員開始通過深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的方法來解決MEC卸載決策問題。DRL結(jié)合了強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)理論,更適用于處理復(fù)雜系統(tǒng)中的決策問題[14]。例如,文獻(xiàn)[15]提出了一種基于深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-Learning Network,DQN)的自主算法,以最小化分布式邊緣網(wǎng)絡(luò)中的網(wǎng)絡(luò)延遲和功耗。文獻(xiàn)[16]使用DQN方法處理新穎的網(wǎng)絡(luò)知識(shí),產(chǎn)生了近似的最優(yōu)調(diào)度容忍機(jī)制,減輕了對(duì)反饋的嚴(yán)格要求。文獻(xiàn)[17]提出了一種基于DQN的設(shè)備級(jí)和邊緣級(jí)任務(wù)卸載聯(lián)合優(yōu)化方法,獲得了接近最優(yōu)的任務(wù)延遲性能。文獻(xiàn)[18]提出了一種基于強(qiáng)化學(xué)習(xí)計(jì)算的車聯(lián)網(wǎng)邊緣計(jì)算架構(gòu)的任務(wù)卸載策略,并采用雙深度Q學(xué)習(xí)網(wǎng)絡(luò)(Double Deep Q-Learning Network,DDQN)方法處理任務(wù)卸載問題,以克服用戶移動(dòng)引起的網(wǎng)絡(luò)狀態(tài)實(shí)時(shí)變化,提高了該策略的收斂性。文獻(xiàn)[19]提出了一種利用DDQN方法在給定當(dāng)前環(huán)境狀態(tài)的情況下輸出卸載決策。文獻(xiàn)[20]分別利用DQN算法和深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法研究了任務(wù)的最佳卸載比例、局部計(jì)算功率和傳輸功率,以最小化執(zhí)行延遲和UE能耗。但是,目前利用DRL對(duì)MEC中卸載問題的研究仍存在兩個(gè)方面的不足:一方面,MEC服務(wù)器的計(jì)算資源有限,同時(shí)卸載太多任務(wù)會(huì)導(dǎo)致排隊(duì)延遲;另一方面,經(jīng)典DRL方法在訓(xùn)練過程中存在訓(xùn)練速度慢、收斂不穩(wěn)定等問題,影響了卸載計(jì)算的效率。

        為了更好地利用MEC系統(tǒng)資源,降低系統(tǒng)成本,提高系統(tǒng)的效率,擬設(shè)計(jì)一種適用于MEC環(huán)境的二進(jìn)制計(jì)算卸載策略。在有效減小UE和各計(jì)算節(jié)點(diǎn)的能耗與時(shí)延的基礎(chǔ)上,決定任務(wù)是否應(yīng)該卸載至邊緣服務(wù)器執(zhí)行,以提高M(jìn)EC系統(tǒng)的效率。在任務(wù)卸載執(zhí)行的時(shí)延中引入排隊(duì)時(shí)延的計(jì)算,以最小化能耗與時(shí)延加權(quán)和作為計(jì)算卸載的目標(biāo),利用優(yōu)先經(jīng)驗(yàn)重放對(duì)DRL算法進(jìn)行改進(jìn),對(duì)比改進(jìn)前后不同用戶設(shè)備數(shù)量和任務(wù)數(shù)據(jù)大小的系統(tǒng)成本以及改進(jìn)前后系統(tǒng)的平均時(shí)延,以提高其在解決實(shí)際問題時(shí)的效率及穩(wěn)定性。

        1 系統(tǒng)模型

        考慮到移動(dòng)邊緣計(jì)算中具有多服務(wù)節(jié)點(diǎn)和多用戶的系統(tǒng)模型,建立一個(gè)多邊緣服務(wù)器和多用戶的MEC系統(tǒng)通信模型。該模型由一個(gè)包含多個(gè)邊緣服務(wù)器的基站(Base Station,BS)和m個(gè)UE組成[20],UE與BS間通過無線網(wǎng)絡(luò)通信,MEC系統(tǒng)示意圖如圖1所示。

        圖1 MEC系統(tǒng)示意圖

        MEC系統(tǒng)中包含UE1,UE2,…,UEm等m個(gè)用戶。設(shè)時(shí)間為一組相等間隔的時(shí)隙t(t=1,2,…,z),任務(wù)產(chǎn)生的時(shí)間間隔服從泊松分布[21]。UE生成的任務(wù)i(i=1,2,…,I)可以建模為一個(gè)具有4個(gè)元素的元組{Di,bi,Ci,Ti,max},其中,Di表示任務(wù)i數(shù)據(jù)的大小,bi表示計(jì)算任務(wù)i每一位數(shù)據(jù)的CPU周期,Ci=Di·bi為任務(wù)i的總CPU周期,Ti,max表示用戶可接受的最大容忍時(shí)延。

        定義任務(wù)i的二進(jìn)制計(jì)算卸載決策變量為ψi∈{0,1}。當(dāng)ψi=0時(shí),表示任務(wù)i在本地執(zhí)行;ψi=1時(shí),表示任務(wù)i卸載至邊緣服務(wù)器執(zhí)行。

        1.1 本地計(jì)算

        移動(dòng)UE具有一定的計(jì)算能力。假設(shè)移動(dòng)UE一次只能執(zhí)行一個(gè)任務(wù)。假設(shè)第k個(gè)(k=1,2,…,m)用戶設(shè)備UEk的容量為Uk,C,任務(wù)開始前每個(gè)時(shí)隙設(shè)備k的剩余能量為Ek,re,執(zhí)行任務(wù)i的能量消耗為Ei,k。若滿足Di≤Uk,C和Ei,k≤Ek,re,則任務(wù)在本地執(zhí)行。

        本地計(jì)算模型的執(zhí)行時(shí)間僅包括計(jì)算時(shí)間,不包含傳輸時(shí)間。在本地執(zhí)行任務(wù)i的時(shí)間成本[19]為

        (1)

        式中,fk表示UEk的CPU頻率,即UEk的每秒CPU周期,反映了其計(jì)算能力。

        在UEk上執(zhí)行任務(wù)i的能量消耗[19]為

        Ei,k=κ·fk·Ci

        (2)

        式中,κ表示芯片中的有效開關(guān)電容,其大小取決于器件的芯片架構(gòu)。

        1.2 卸載計(jì)算模型

        用戶移動(dòng)設(shè)備的計(jì)算資源有限,執(zhí)行某些資源密集型應(yīng)用時(shí)會(huì)產(chǎn)生較高的時(shí)延與能耗。當(dāng)本地資源不足時(shí),將任務(wù)卸載到MEC服務(wù)器上處理。

        由于任務(wù)計(jì)算完成后傳回UE的數(shù)據(jù)量通常遠(yuǎn)小于其原始數(shù)據(jù),因此傳回的時(shí)間可忽略不計(jì)。傳輸時(shí)間僅為從UE向MEC服務(wù)器上傳任務(wù)數(shù)據(jù)的時(shí)間成本,根據(jù)香農(nóng)公式,UEk與BS的通信速率[22]為

        (3)

        式中:W表示UEk和BS之間的通信帶寬;pk是UEk的發(fā)射功率;N0是BS的噪聲功率譜密度;gk,B表示UEk和BS之間的信道增益[22],其計(jì)算表達(dá)式為

        (4)

        式中:dk,B表示UEk與BS之間的距離;σ為路徑損耗指數(shù)。

        發(fā)送任務(wù)i的數(shù)據(jù)產(chǎn)生的延遲[22]為

        (5)

        在MEC服務(wù)器上執(zhí)行任務(wù)i的延遲[22]為

        (6)

        式中,fs,k表示服務(wù)器s分配給UEk的計(jì)算資源。

        任務(wù)i卸載至MEC服務(wù)器進(jìn)行處理的能耗為上傳能耗和計(jì)算能耗的總和。其中任務(wù)i上傳能耗Ei,tr與MEC服務(wù)器執(zhí)行任務(wù)i的能耗[22]Ei,mec分別定義為

        Ei,tr=pk·Ti,tr

        (7)

        Ei,mec=Di·es

        (8)

        式中,es表示服務(wù)器s在BS上計(jì)算的每個(gè)數(shù)據(jù)位的能耗。

        2 PERDDQN的卸載策略

        DRL對(duì)于復(fù)雜系統(tǒng)的感知決策問題有較強(qiáng)的解決能力[23],但是,在MEC場(chǎng)景內(nèi)實(shí)際應(yīng)用時(shí)往往由于很難學(xué)習(xí)到有用的經(jīng)驗(yàn),導(dǎo)致無法得到合理卸載策略。為此引入了一種基于優(yōu)先經(jīng)驗(yàn)重放(Prioritized Experience Replay,PER)改進(jìn)的DDQN算法(Prioritized Experience Replay Double Deep Q-Learning Network,PERDDQN)來求解最優(yōu)的卸載模式。

        2.1 問題的建模

        任務(wù)卸載執(zhí)行時(shí),移動(dòng)設(shè)備用戶會(huì)對(duì)有限計(jì)算資源的競(jìng)爭(zhēng)而產(chǎn)生排隊(duì)延遲。設(shè)MEC服務(wù)器中可用的計(jì)算資源Vmec,則任務(wù)i等待執(zhí)行產(chǎn)生的排隊(duì)時(shí)延為

        (9)

        聯(lián)合式(5)、式(6)和式(9),UEk將任務(wù)i卸載到BS上的服務(wù)器s處理所產(chǎn)生的時(shí)間成本為

        Ti,off=Ti,tr+Ti,que+Ti,mec

        (10)

        根據(jù)式(7)和式(8)可得,任務(wù)i卸載執(zhí)行的能耗為

        Ei,off=Ei,tr+Ei,mec

        (11)

        MEC系統(tǒng)中存在多個(gè)用戶,每個(gè)用戶都遵循二進(jìn)制卸載決策完成計(jì)算任務(wù)。根據(jù)式(1)與式(10),MEC系統(tǒng)執(zhí)行全部任務(wù)的總時(shí)延為

        (12)

        當(dāng)ψi=0時(shí),Ti=Ti,k;當(dāng)ψi=1時(shí),Ti=Ti,off。

        同理,執(zhí)行所有任務(wù)的總能耗為

        (13)

        當(dāng)ψi=0時(shí),Ei=Ei,k;當(dāng)ψi=1時(shí),Ei=Ei,off。

        為了同時(shí)考慮能量消耗和延遲,總計(jì)算成本根據(jù)能量消耗和任務(wù)延遲線性加權(quán)進(jìn)行量化。聯(lián)合式(12)和式(13),系統(tǒng)總成本可以表示為

        (14)

        式中,ω∈(0,1)表示為UE的執(zhí)行延遲加權(quán)參數(shù),可以根據(jù)用戶的需求進(jìn)行調(diào)整,例如,執(zhí)行時(shí)延敏感型應(yīng)用程序時(shí)可適當(dāng)增大ω的值。考慮到時(shí)延敏感型應(yīng)用程序,ω取0.8[24-25]。

        多計(jì)算節(jié)點(diǎn)多用戶卸載問題的目標(biāo)是在滿足用戶最大容忍時(shí)延的條件下,最小化系統(tǒng)總成本,該問題是具有耦合約束的多目標(biāo)優(yōu)化編程。目標(biāo)函數(shù)建模為

        (15)

        式中:fk,max表示UEk的最大計(jì)算功率;pk,max表示UEk的最大發(fā)射功率;Fs,max表示服務(wù)器s的最大計(jì)算頻率;C1表示選擇任務(wù)在本地執(zhí)行或卸載至邊緣服務(wù)器執(zhí)行;C2表示執(zhí)行任務(wù)的能耗不能超過UE當(dāng)前剩余能量,若能量不足則任務(wù)需卸載執(zhí)行;C3表示設(shè)備計(jì)算頻率最大限制;C4表示傳輸功率最大限制;C5表示服務(wù)器分配的計(jì)算資源不能超過其最大計(jì)算資源;C6表示任務(wù)需要在可容忍時(shí)延內(nèi)完成。

        2.2 MDP模型的構(gòu)建

        強(qiáng)化學(xué)習(xí)的過程中,將計(jì)算卸載問題重新表述為馬爾科夫決策過程(Markov Decision Process,MDP)模型。典型的MDP模型由具有5個(gè)元素的元組{S,A,P,R,γ}組成。其中,S代表狀態(tài)空間,A為有限動(dòng)作空間,P為狀態(tài)轉(zhuǎn)移概率,R代表獎(jiǎng)勵(lì)函數(shù),γ∈[0,1]是未來獎(jiǎng)勵(lì)的折扣因子。MDP模型元組中每個(gè)元素對(duì)應(yīng)的含義如下。

        1)狀態(tài)空間。狀態(tài)空間中的每個(gè)狀態(tài)都包含一些從環(huán)境中觀察到的信息。將模型中時(shí)隙t的狀態(tài)s(t)表示為s(t)={fk,Ek,re,Uk,C,W,Di}。

        2)動(dòng)作空間。為了確定任務(wù)是否應(yīng)卸載到計(jì)算節(jié)點(diǎn)上執(zhí)行,動(dòng)作空間與卸載決策應(yīng)呈對(duì)應(yīng)關(guān)系。動(dòng)作空間的定義為

        A={a(1),a(2),…,a(z)}

        (16)

        在時(shí)隙t(t=1,2,…,z),a(t)=0表示任務(wù)在本地執(zhí)行,a(t)=1表示任務(wù)卸載至邊緣服務(wù)器執(zhí)行。

        3)獎(jiǎng)勵(lì)函數(shù)。在執(zhí)行動(dòng)作a(t)后,將獲得獎(jiǎng)勵(lì)r(s(t),a(t)),UE選擇要執(zhí)行的動(dòng)作a(t+1)。獎(jiǎng)勵(lì)函數(shù)通常與目標(biāo)函數(shù)相關(guān),為了高效判斷任務(wù)是否需要卸載執(zhí)行,將目標(biāo)函數(shù)定義為實(shí)現(xiàn)最小化任務(wù)執(zhí)行時(shí)間與能耗的加權(quán)和。強(qiáng)化的目標(biāo)是獲得最大獎(jiǎng)勵(lì),為此定義獎(jiǎng)勵(lì)值R與系統(tǒng)總成本C的大小負(fù)相關(guān),即

        R=-C(t)

        (17)

        4)轉(zhuǎn)移概率。給定用戶采取的操作a(t),轉(zhuǎn)移概率P{s(t+1)|s(t),a(t)}表示環(huán)境狀態(tài)在下一個(gè)時(shí)隙中從s(t)轉(zhuǎn)換為s(t+1)的概率。

        5)折扣因子。折扣因子γ為未來獎(jiǎng)勵(lì)權(quán)重。當(dāng)γ趨于0時(shí),表示主要考慮當(dāng)前獲得的獎(jiǎng)勵(lì);γ趨于1則表示將更關(guān)注后續(xù)步驟中的累積獎(jiǎng)勵(lì)。γ的值決定了更傾向于短期回報(bào)或長(zhǎng)期回報(bào)。

        2.3 優(yōu)先級(jí)的計(jì)算

        PERDDQN算法利用PER在訓(xùn)練過程中對(duì)樣本進(jìn)行優(yōu)先級(jí)采樣,用于加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。PER打破均勻采樣,賦予學(xué)習(xí)效率高的狀態(tài)更大的采樣權(quán)重[26]。PER采用時(shí)間差分(Temporal-Difference,TD)誤差來表示每個(gè)轉(zhuǎn)移過渡的重要性。

        TD誤差為目標(biāo)Q網(wǎng)絡(luò)計(jì)算的目標(biāo)Q值和當(dāng)前Q網(wǎng)絡(luò)計(jì)算的Q值之差。TD誤差越大代表預(yù)測(cè)精度還有很大的上升空間,那么該樣本就越需要被學(xué)習(xí),優(yōu)先級(jí)就越高,樣本j優(yōu)先級(jí)可以表示為

        δj=yj,PER-Q(SJ(T),AJ,θ)

        (18)

        其中:yj,PER為目標(biāo)的Q值;Q(sj(t),aj,θ)為當(dāng)前網(wǎng)絡(luò)的Q值。

        為了避免初始的高TD誤差轉(zhuǎn)移被經(jīng)常重放,帶有低TD誤差的轉(zhuǎn)移在第一次訪問時(shí)不會(huì)被重放,引入了隨機(jī)采樣方法。該方法結(jié)合純貪婪優(yōu)先化和均勻隨機(jī)采樣,既保證被采樣的概率是單一的,也能使低優(yōu)先級(jí)樣本采樣概率非零。定義樣本j的采樣概率為

        (19)

        式中:n表示樣本數(shù)量;α確定使用多少優(yōu)先級(jí),當(dāng)α=0時(shí)為均勻采樣。

        2.4 樣本的存儲(chǔ)

        由于優(yōu)先級(jí)大小會(huì)影響被采樣的概率,導(dǎo)致PERDDQN算法的經(jīng)驗(yàn)重放池與其他采用Q學(xué)習(xí)的DRL算法不同。使用SumTree結(jié)構(gòu)[26]作為帶有優(yōu)先級(jí)的經(jīng)驗(yàn)重放池,用于樣本的儲(chǔ)存。SumTree結(jié)構(gòu)示意圖如圖2所示。圖中,圈外數(shù)字為節(jié)點(diǎn)序號(hào),圈內(nèi)數(shù)字為節(jié)點(diǎn)值,例如0號(hào)節(jié)點(diǎn)的節(jié)點(diǎn)值為29。圖中陰影部分為葉子節(jié)點(diǎn),所有的經(jīng)驗(yàn)重放樣本只保存在葉子節(jié)點(diǎn)上,一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)樣本。0號(hào)到2號(hào)節(jié)點(diǎn)不保存樣本數(shù)據(jù),只保存自己子節(jié)點(diǎn)的優(yōu)先級(jí)值之和。葉子結(jié)點(diǎn)下面是樣本對(duì)應(yīng)的數(shù)值區(qū)間,葉子結(jié)點(diǎn)數(shù)值越大(優(yōu)先級(jí)越高)其區(qū)間長(zhǎng)度就越大。例如,從區(qū)間0~29中均勻抽樣一個(gè)數(shù)據(jù),5號(hào)節(jié)點(diǎn)的區(qū)間為14~26,優(yōu)先級(jí)為12,比其他節(jié)點(diǎn)更容易被采樣。

        圖2 SumTree結(jié)構(gòu)示意圖

        2.5 網(wǎng)絡(luò)參數(shù)的更新

        從SumTree中采得樣本后,使用均方差損失函數(shù)通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Q網(wǎng)絡(luò)的參數(shù),并計(jì)算當(dāng)前目標(biāo)Q值。PERDDQN算法的損失函數(shù)L(θ)與當(dāng)前目標(biāo)Q值yj,PER的計(jì)算表達(dá)式分別為

        PER以一種不受控的形式改變了分布,因此引入了誤差,改變了預(yù)測(cè)會(huì)收斂到的解決方案??梢允褂弥匾圆蓸訖?quán)重來修正該誤差[26]。

        網(wǎng)絡(luò)參數(shù)更新完畢后根據(jù)狀態(tài)s′判斷整個(gè)算法是否結(jié)束,若結(jié)束則輸出最優(yōu)的卸載決策。根據(jù)以上改進(jìn)的DRL算法,結(jié)合MDP模型的MEC計(jì)算卸載策略的偽代碼如下所示。

        3 仿真與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境選擇及參數(shù)設(shè)置

        為驗(yàn)證提出的DRL算法在MEC環(huán)境中的有效性,使用TensorFlow-GPU 1.13.1在Python3.7.4中實(shí)現(xiàn)了PERDDQN算法。驗(yàn)證算法的收斂性,并與本地執(zhí)行(All Local Executing,ALE)、完全卸載(All Offload Executing,AOE)、隨機(jī)卸載(Random Offloading Executing,ROE)、DDQN[19]和DDPG[20]等算法進(jìn)行比較,驗(yàn)證在多用戶MEC系統(tǒng)中的算法的總成本,反映算法的優(yōu)劣。

        仿真實(shí)驗(yàn)?zāi)M的集群包括2個(gè)邊緣服務(wù)器,5~30個(gè)移動(dòng)用戶設(shè)備。其中,移動(dòng)用戶設(shè)備隨機(jī)分布在距基站150 m范圍內(nèi),每個(gè)邊緣服務(wù)器的計(jì)算能力設(shè)置為1 GHz~5 GHz。任務(wù)數(shù)據(jù)的隨機(jī)大小為100 kb~500 kb。任務(wù)的最大可容忍時(shí)延在5 ms~30 ms隨機(jī)選擇。

        對(duì)于深度強(qiáng)化學(xué)習(xí)算法,深度神經(jīng)網(wǎng)絡(luò)的輸入包括狀態(tài)值s(t)和動(dòng)作值a(t)。在實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)的構(gòu)建中,將s(t)作為輸入,輸出層是每個(gè)a(t)對(duì)應(yīng)的Q值。經(jīng)驗(yàn)重放池容量為1 000,訓(xùn)練時(shí)采用貪婪法選擇動(dòng)作,貪婪策略概率為0.1,批學(xué)習(xí)大小為32,學(xué)習(xí)率為0.01,折扣因子γ=0.9。

        3.2 算法的收斂性

        PERDDQN算法、DDPG算法以及DDQN算法的收斂性能如圖3所示??梢钥闯觯?種算法的總獎(jiǎng)勵(lì)都隨著迭代次數(shù)的增加而增加,直至達(dá)到一個(gè)相對(duì)穩(wěn)定的值。當(dāng)?shù)螖?shù)為分別為50、75和100時(shí),PERDDQN算法、DDPG算法和DDQN算法的獎(jiǎng)勵(lì)值不再增加并趨于穩(wěn)定值,分別在-20、-25、-30左右??梢?,PERDDQN算法是收斂的,且收斂速度比DDPG和DDQN快、獎(jiǎng)勵(lì)值也大于其他兩種比較算法,這使得該算法能夠更好地應(yīng)對(duì)動(dòng)態(tài)的MEC環(huán)境。

        圖3 3種算法的收斂性

        3.3 系統(tǒng)成本

        不同數(shù)量UE以及不同任務(wù)數(shù)據(jù)量大小的成本不同。6種算法的總成本如圖4所示??梢钥闯?,6種算法的總成本隨著UE數(shù)量和任務(wù)數(shù)據(jù)大小的增加。這是因?yàn)?,UE數(shù)量和任務(wù)數(shù)據(jù)越大,執(zhí)行時(shí)間和傳輸時(shí)間就越長(zhǎng),處理具有較大數(shù)據(jù)量的任務(wù)所消耗的能量也更多。當(dāng)UE數(shù)量為20時(shí),應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.49,其余算法的系統(tǒng)總成本均超過3.00;當(dāng)任務(wù)數(shù)據(jù)大小為500 kb時(shí),應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.42,其余算法的系統(tǒng)總成本均超過2.80。由此可見,在UE數(shù)量和任務(wù)大小相同的情況下,PERDDQN算法的系統(tǒng)總成本始終是最小的,分別比未改進(jìn)的DDQN算法減少了17.6%和23.0%。這是因?yàn)椋cDDQN和DDPG算法相比,PERDDQN算法收斂速度更快,可以更快地獲得最優(yōu)策略,從而系統(tǒng)總成本較低,而ALE和AOE算法不能充分利用整個(gè)系統(tǒng)的計(jì)算資源,因此,具有較高的成本。

        圖4 6種算法的總成本

        3.4 服務(wù)器計(jì)算能力對(duì)系統(tǒng)時(shí)延的影響

        圖5顯示了使用不同的優(yōu)化算法時(shí),平均時(shí)延隨MEC服務(wù)器計(jì)算能力的增加而變化的情況。由于ALE算法不涉及MEC服務(wù)器,因此不做討論。除了ALE之外,其他方法的平均時(shí)延均隨著MEC服務(wù)器計(jì)算能力的提升而逐漸降低,這是由于MEC服務(wù)器的計(jì)算能力逐漸滿足所有UE卸載任務(wù)的計(jì)算需求。當(dāng)MEC服務(wù)器計(jì)算能力為1 GHz時(shí),PERDDQN算法、DDPG算法、DDQN算法的平均時(shí)延分別為14.01 ms、15.10 ms、16.90 ms;當(dāng)MEC服務(wù)器計(jì)算能力增加為5 GHz時(shí),PERDDQN算法、DDPG算法、DDQN算法的平均時(shí)延分別為8.21 ms、9.28 ms、9.71 ms。由此可見,與其他兩種DRL算法相比,PERDDQN算法的任務(wù)卸載解決方案的平均時(shí)延較低。因?yàn)樵撍惴l繁重放具有價(jià)值的樣本數(shù)據(jù),對(duì)于復(fù)雜的環(huán)境具有更好的適應(yīng)性,在解決復(fù)雜的組合優(yōu)化問題時(shí)的效果較好。

        圖5 不同MEC計(jì)算能力的平均時(shí)延

        4 結(jié)語(yǔ)

        針對(duì)多移動(dòng)用戶設(shè)備和多服務(wù)器的MEC環(huán)境,在滿足用戶最大容忍時(shí)延的前提下考慮了時(shí)延與能耗,提出了一種以最小化系統(tǒng)總成本為目標(biāo)的任務(wù)卸載優(yōu)化策略。將目標(biāo)函數(shù)建模為MDP模型,提出基于PER改進(jìn)的PERDDQN卸載決策算法。該算法利用PER對(duì)DRL算法進(jìn)行改進(jìn),并對(duì)歷史經(jīng)驗(yàn)賦予優(yōu)先級(jí),優(yōu)先采樣高優(yōu)先級(jí)的經(jīng)驗(yàn),以提高學(xué)習(xí)效率,快速、準(zhǔn)確地做出合理的卸載決策。仿真結(jié)果表明,PERDDQN卸載決策算法的系統(tǒng)總成本較低、系統(tǒng)的平均時(shí)延較小。

        研究基于單基站多用戶的MEC模型,僅將任務(wù)作為一個(gè)整體卸載,實(shí)際中的MEC系統(tǒng)通常包含多個(gè)基站,高復(fù)雜度的計(jì)算任務(wù)也可進(jìn)一步劃分為更小的子任務(wù)進(jìn)行卸載。因此,下一步工作將基于DRL對(duì)包含多個(gè)基站、多個(gè)移動(dòng)設(shè)備MEC系統(tǒng)的細(xì)粒度任務(wù)卸載問題進(jìn)行研究。

        猜你喜歡
        計(jì)算資源總成本計(jì)算能力
        淺談如何提高小學(xué)生的計(jì)算能力
        2020年中國(guó)棉花種植成本調(diào)查
        小學(xué)生計(jì)算能力的提高策略
        甘肅教育(2021年10期)2021-11-02 06:14:02
        基于模糊規(guī)劃理論的云計(jì)算資源調(diào)度研究
        小學(xué)生計(jì)算能力的培養(yǎng)
        甘肅教育(2020年21期)2020-04-13 08:08:42
        改進(jìn)快速稀疏算法的云計(jì)算資源負(fù)載均衡
        數(shù)據(jù)驅(qū)動(dòng)下的庫(kù)存優(yōu)化模型研究
        淺談小學(xué)生計(jì)算能力的培養(yǎng)
        基于Wi-Fi與Web的云計(jì)算資源調(diào)度算法研究
        耦合分布式系統(tǒng)多任務(wù)動(dòng)態(tài)調(diào)度算法
        日本口爆吞精在线视频| 国产不卡一区二区三区免费视 | 日韩av一区二区网址| 精品人妻一区二区三区不卡毛片| 国产精品伦理久久一区| 激情五月我也去也色婷婷| 国产亚洲aⅴ在线电影| 中文字字幕人妻中文| 亚洲avav天堂av在线网毛片| 无码av免费精品一区二区三区 | 中文字幕影片免费在线观看| 亚洲熟妇一区无码| 欧美在线成人免费国产| 中文字幕人妻少妇久久| 亚洲女同性恋第二区av| 色婷婷精品久久二区二区蜜臀av| 亚洲欧洲成人a∨在线观看 | 男女男精品视频网站免费看| 久久无码人妻一区二区三区午夜| 亚洲午夜精品a片久久www慈禧| 精品人妻潮喷久久久又裸又黄| 久久久伊人影院| 亚洲AV秘 无码一区二区久久| 91精品啪在线观看国产色| 自拍成人免费在线视频| 极品少妇xxxx精品少妇偷拍| 伊人久久大香线蕉综合影院首页| 欧美粗大无套gay| 未满十八勿入av网免费| 日本啪啪一区二区三区| 蜜桃传媒免费观看视频| 日本av一区二区三区在线| 无码吃奶揉捏奶头高潮视频 | 热久久国产欧美一区二区精品| 国产老熟女狂叫对白| 99精品一区二区三区免费视频| 一区二区中文字幕蜜桃| 宅男亚洲伊人久久大香线蕉| 日本久久高清一区二区三区毛片| 学生妹亚洲一区二区| 国产三级在线观看性色av |