亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)邊緣計(jì)算任務(wù)卸載研究

        2020-07-18 03:30:40盧海峰顧春華丁煒超
        關(guān)鍵詞:能耗服務(wù)器深度

        盧海峰 顧春華 羅 飛 丁煒超 楊 婷 鄭 帥

        (華東理工大學(xué)信息科學(xué)與工程學(xué)院 上海 200237)

        隨著近幾年各類智能設(shè)備的快速發(fā)展和廣泛普及,傳統(tǒng)以云數(shù)據(jù)中心為核心的運(yùn)行模式在單位時(shí)間內(nèi)需要承載的數(shù)據(jù)量越來(lái)越大,其造成的數(shù)據(jù)阻塞和網(wǎng)絡(luò)延遲極大影響了用戶服務(wù)質(zhì)量.一方面是由于所用的業(yè)務(wù)數(shù)據(jù)交互都需要通過(guò)核心網(wǎng)進(jìn)行傳輸,因此在網(wǎng)絡(luò)高峰期會(huì)對(duì)核心網(wǎng)產(chǎn)生很大負(fù)載壓力;另一方面是根據(jù)智能設(shè)備與云數(shù)據(jù)中心兩者之間的相對(duì)距離產(chǎn)生較大網(wǎng)絡(luò)延遲,這嚴(yán)重影響了延遲敏感性應(yīng)用的服務(wù)體驗(yàn)[1].針對(duì)以上云計(jì)算服務(wù)模式產(chǎn)生的問(wèn)題,移動(dòng)邊緣計(jì)算(mobile edge computing, MEC)通過(guò)在靠近物理實(shí)體或數(shù)據(jù)源頭的一側(cè)采用網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)和應(yīng)用核心能力為一體的開(kāi)放平臺(tái)就近提供服務(wù),使其應(yīng)用程序在邊緣側(cè)執(zhí)行,產(chǎn)生更快的網(wǎng)絡(luò)服務(wù)響應(yīng),滿足行業(yè)在實(shí)時(shí)處理、智能應(yīng)用、安全和隱私保護(hù)等方面的基本需求[2].換言之,MEC的核心思想是將計(jì)算資源和緩存資源邊緣化和本地化,從而降低網(wǎng)絡(luò)延遲和緩解帶寬壓力,這樣既滿足了智能設(shè)備擴(kuò)展計(jì)算能力的需求,同時(shí)也彌補(bǔ)了云計(jì)算平臺(tái)傳輸時(shí)延較長(zhǎng)的缺點(diǎn)[3].

        雖然MEC增強(qiáng)了智能設(shè)備的計(jì)算能力并且緩解了核心網(wǎng)的網(wǎng)絡(luò)壓力,但是其邊緣服務(wù)器在單位時(shí)間內(nèi)能夠處理的數(shù)據(jù)是有限的,因此需要設(shè)計(jì)一種卸載方案決定移動(dòng)任務(wù)是在本地智能設(shè)備上執(zhí)行,還是卸載到遠(yuǎn)程服務(wù)器上執(zhí)行.目前常見(jiàn)的任務(wù)卸載方式主要包括2種:粗粒度任務(wù)卸載和細(xì)粒度任務(wù)卸載.粗粒度任務(wù)卸載是指將整個(gè)移動(dòng)終端應(yīng)用作為卸載對(duì)象,并未根據(jù)功能再將其劃分為多個(gè)子任務(wù),這種卸載方法往往未充分考慮MEC邊緣服務(wù)器的低時(shí)延和性能相對(duì)有限的特性,同時(shí)對(duì)MEC邊緣服務(wù)器的資源利用率較低;細(xì)粒度任務(wù)卸載是指先將一個(gè)移動(dòng)應(yīng)用劃分為多個(gè)具有數(shù)據(jù)依賴關(guān)系的子任務(wù),因?yàn)閯澐趾蟮淖尤蝿?wù)所需的計(jì)算復(fù)雜度和數(shù)據(jù)傳輸量更少,因此可以將部分或者所有任務(wù)卸載到多個(gè)遠(yuǎn)程服務(wù)器上進(jìn)行處理,以此節(jié)省計(jì)算時(shí)間和傳輸時(shí)間,并且對(duì)邊緣服務(wù)器集群的資源利用率更高[4].因此本文將設(shè)計(jì)一種基于細(xì)粒度任務(wù)卸載的算法策略,結(jié)合深度強(qiáng)化學(xué)習(xí)構(gòu)建Markov決策過(guò)程(Markov decision processes, MDP)模型,以此解決卸載什么、卸載多少以及卸載到哪里的問(wèn)題,最終有效減少智能設(shè)備和各服務(wù)節(jié)點(diǎn)的能耗、時(shí)延和網(wǎng)絡(luò)使用量,提高整個(gè)MEC平臺(tái)的資源利用率.

        本文通過(guò)改進(jìn)深度強(qiáng)化學(xué)習(xí)算法來(lái)解決MEC中具有大規(guī)模服務(wù)節(jié)點(diǎn)的任務(wù)卸載問(wèn)題,其主要貢獻(xiàn)包含3個(gè)方面:

        1) 構(gòu)建了大規(guī)模異構(gòu)MEC中具有多服務(wù)節(jié)點(diǎn)和移動(dòng)任務(wù)內(nèi)部具有多依賴關(guān)系的卸載模型.

        2) 結(jié)合MEC實(shí)際應(yīng)用場(chǎng)景,利用長(zhǎng)短期記憶(long short-term memory, LSTM)和事后經(jīng)驗(yàn)回放(hindsight experience replay, HER)改進(jìn)深度強(qiáng)化學(xué)習(xí)算法,以此優(yōu)化任務(wù)卸載策略.

        3) 綜合比較任務(wù)卸載策略的能耗、費(fèi)用、負(fù)載均衡、延遲、網(wǎng)絡(luò)使用量和平均執(zhí)行時(shí)間等指標(biāo),以此分析各卸載策略的優(yōu)缺點(diǎn).

        1 相關(guān)工作

        隨著5G技術(shù)的日益成熟,MEC的任務(wù)卸載問(wèn)題在近幾年得到了廣泛關(guān)注和研究.其中,文獻(xiàn)[5]研究了基于任務(wù)卸載決策和通信資源分配的聯(lián)合優(yōu)化方案,用于最大程度上降低能耗、通信成本和延遲;文獻(xiàn)[6]研究了一種針對(duì)計(jì)算資源和無(wú)線網(wǎng)絡(luò)資源的多目標(biāo)卸載決策,以便滿足延遲敏感性應(yīng)用的網(wǎng)絡(luò)需求,同時(shí)在此基礎(chǔ)上降低能耗;文獻(xiàn)[7]研究了基于計(jì)算資源和網(wǎng)絡(luò)資源的聯(lián)合優(yōu)化策略,通過(guò)部分計(jì)算卸載解決MEC中多用戶的延遲最小化問(wèn)題;文獻(xiàn)[8]提出了基于時(shí)分多址和正交頻分多址的資源調(diào)度策略,解決了以最小化能耗為目標(biāo)的部分計(jì)算卸載問(wèn)題;文獻(xiàn)[9]提出移動(dòng)任務(wù)可以根據(jù)需求選擇MEC中的多個(gè)基站進(jìn)行計(jì)算卸載,并在此基礎(chǔ)上研究了基于深度強(qiáng)化學(xué)習(xí)算法的任務(wù)卸載策略以最大程度優(yōu)化長(zhǎng)期性能.文獻(xiàn)[10]對(duì)MEC架構(gòu)進(jìn)行了數(shù)學(xué)建模,通過(guò)在網(wǎng)絡(luò)邊緣測(cè)量用戶設(shè)備與MEC服務(wù)器的數(shù)據(jù)包往返時(shí)間,對(duì)MEC的計(jì)算卸載策略進(jìn)行了優(yōu)化,決定了何時(shí)將用戶的計(jì)算任務(wù)卸載至MEC服務(wù)器上進(jìn)行處理,并通過(guò)人臉識(shí)別應(yīng)用驗(yàn)證了該策略的有效性,與移動(dòng)設(shè)備的本地執(zhí)行相比大幅降低了服務(wù)時(shí)延、節(jié)省了設(shè)備的能源消耗.文獻(xiàn)[11]研究了MEC卸載場(chǎng)景下的多用戶業(yè)務(wù)時(shí)延問(wèn)題,提出了一種新型的部分計(jì)算卸載模型,通過(guò)最優(yōu)數(shù)據(jù)分割等策略對(duì)通信及計(jì)算資源的分配進(jìn)行了優(yōu)化,并在通信資源遠(yuǎn)大于計(jì)算資源的特定場(chǎng)景下進(jìn)行了實(shí)驗(yàn)驗(yàn)證,與設(shè)備的本地執(zhí)行及邊緣云執(zhí)行相比,所提出的部分卸載策略可以使所有用戶設(shè)備的加權(quán)時(shí)延最小,從而提高用戶的服務(wù)體驗(yàn)質(zhì)量.目前大多數(shù)MEC卸載策略算法研究主要是假設(shè)資源需求的先驗(yàn)分布或者基于歷史數(shù)據(jù)來(lái)預(yù)測(cè)資源需求;由于MEC的可用資源都是隨著信道質(zhì)量、任務(wù)到達(dá)率和能源狀態(tài)而動(dòng)態(tài)變化的,因此先驗(yàn)概率很難在實(shí)際環(huán)境中做出準(zhǔn)確假設(shè)[12];文獻(xiàn)[13]在MDP框架中構(gòu)建了用于降低延遲的任務(wù)卸載模型,并提出了一種一維搜索算法來(lái)尋找最優(yōu)解,但該方法的前提是需要預(yù)先獲得集群環(huán)境中信道質(zhì)量變化以及任務(wù)到達(dá)的準(zhǔn)確統(tǒng)計(jì)信息,所以該方法在真實(shí)場(chǎng)景中很難具有應(yīng)用價(jià)值;另外目前文獻(xiàn)提出利用啟發(fā)式算法來(lái)解決基于歷史數(shù)據(jù)的資源需求問(wèn)題,文獻(xiàn)[14]利用Lyapunov優(yōu)化方法解決了具有無(wú)線能源傳輸功能的移動(dòng)設(shè)備在動(dòng)態(tài)任務(wù)卸載策略方面的研究;文獻(xiàn)[15-16]也同樣利用了Lyapunov方法對(duì)任務(wù)卸載的能耗和延遲進(jìn)行了研究;文獻(xiàn)[17]使用線性整數(shù)規(guī)劃以及首次適應(yīng)和在線優(yōu)先等啟發(fā)式算法來(lái)優(yōu)化任務(wù)卸載中的延遲和能耗問(wèn)題.以上研究在利用啟發(fā)式算法處理大規(guī)模任務(wù)卸載問(wèn)題時(shí)都會(huì)由于問(wèn)題維度過(guò)高導(dǎo)致算法生成決策的時(shí)間很長(zhǎng),同時(shí)該類算法也只能求出近似最優(yōu)解,因此其在實(shí)際使用中并不能符合預(yù)期要求.

        基于上述研究,相比于假設(shè)先驗(yàn)分布或者啟發(fā)式算法,深度強(qiáng)化學(xué)習(xí)通過(guò)結(jié)合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),具有自學(xué)習(xí)和自適應(yīng)等特征,需要提供的參數(shù)較少,有較好的全局搜索能力,能夠解決較復(fù)雜、高維度且更加接近實(shí)際情況的任務(wù)場(chǎng)景.另外為保證算法策略在MEC的任務(wù)卸載問(wèn)題中能夠具有更好的泛化性能及更快的收斂速度,本文利用LSTM和HER對(duì)深度強(qiáng)化學(xué)習(xí)算法DQN進(jìn)行改進(jìn):

        1) 在MEC真實(shí)環(huán)境中由于問(wèn)題復(fù)雜性和感知局限性容易導(dǎo)致環(huán)境信息產(chǎn)生誤差及缺失,造成算法生成的策略缺乏有效性和穩(wěn)定性,因此結(jié)合LSTM是為了解決依賴于時(shí)序的任務(wù)卸載問(wèn)題,利用部分觀測(cè)Markov過(guò)程(partially observed Markov decision processes, POMDP)對(duì)只有不完全狀態(tài)信息的系統(tǒng)建模,依據(jù)當(dāng)前的缺失信息做出決策,提高算法的泛化性能;

        2) 深度強(qiáng)化學(xué)習(xí)算法在解決MEC實(shí)際問(wèn)題時(shí)由于大部分情況下無(wú)法得到有效反饋,其模型很難學(xué)習(xí)到可用策略,造成求解復(fù)雜問(wèn)題的決策無(wú)法收斂,因此結(jié)合HER是為了解決因?yàn)橄∈瑾?jiǎng)勵(lì)導(dǎo)致的收斂速度變慢問(wèn)題.

        相比于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法,基于LSTM和HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法在實(shí)用性和收斂性上都有了很大提高,對(duì)解決MEC中任務(wù)卸載問(wèn)題提供了更高效魯棒的算法策略.結(jié)合以上分析,本文重點(diǎn)研究了大規(guī)模異構(gòu)MEC中具有多服務(wù)節(jié)點(diǎn)和移動(dòng)終端任務(wù)內(nèi)部具有多依賴關(guān)系的卸載問(wèn)題,通過(guò)比較能耗、費(fèi)用、負(fù)載、延遲、網(wǎng)絡(luò)使用量以及平均執(zhí)行時(shí)間等多方面因素來(lái)驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)算法策略的優(yōu)劣.

        2 問(wèn)題建模

        2.1 任務(wù)依賴模型

        MEC的組成結(jié)構(gòu)通常包含云數(shù)據(jù)中心層、邊緣服務(wù)器層以及用戶設(shè)備層3部分.如圖1所示,終端設(shè)備層包含各類傳感器、電腦和手機(jī)等具有一定處理性能的設(shè)備;邊緣服務(wù)器層是按照相對(duì)距離對(duì)所有邊緣服務(wù)器進(jìn)行區(qū)域劃分,每個(gè)區(qū)域包含性能適中且異構(gòu)的邊緣服務(wù)器;云數(shù)據(jù)中心層包含大量性能優(yōu)異的物理服務(wù)器,這些服務(wù)器組成集群為用戶提供服務(wù).當(dāng)來(lái)自移動(dòng)終端的任務(wù)需要卸載時(shí),首先會(huì)通過(guò)某種切分算法將一個(gè)整體的移動(dòng)應(yīng)用劃分為多個(gè)子任務(wù),這些子任務(wù)有的是必須在本地執(zhí)行,比如用戶交互任務(wù)、設(shè)備IO任務(wù)和外圍設(shè)備接口任務(wù)等,還有一些是可在本地執(zhí)行,也可進(jìn)行卸載的任務(wù),它們通常都是數(shù)據(jù)處理型任務(wù),計(jì)算量較大.劃分后的子任務(wù)彼此之間有數(shù)據(jù)交互,但是又能夠獨(dú)立執(zhí)行,這是進(jìn)行細(xì)粒度卸載決策的前提條件[18].

        Fig. 1 Composition structure diagram of MEC圖1 MEC組成結(jié)構(gòu)圖

        假如移動(dòng)應(yīng)用拆分后的子任務(wù)之間具有依賴關(guān)系,該關(guān)系可以用一個(gè)有向圖Loop=(V,E)表示,其中圖的每個(gè)節(jié)點(diǎn)vi∈V表示拆分后的子任務(wù),圖的每條邊表示任務(wù)間的數(shù)據(jù)依賴,例如eij∈E表示任務(wù)vi執(zhí)行完成后會(huì)將數(shù)據(jù)傳輸給vj,而vj必須接收該數(shù)據(jù)后才能繼續(xù)往后執(zhí)行[14].如圖2所示,一個(gè)移動(dòng)應(yīng)用拆分后的子任務(wù)集合為V={v1,v2,v3,v4,v5},其中v1和v5必須在本地設(shè)備執(zhí)行,其余子任務(wù)可以根據(jù)需要進(jìn)行卸載.同時(shí)各子任務(wù)之間用有向線條表示其數(shù)據(jù)依賴,例如v5必須在接受到v2和v4的處理結(jié)果后才能繼續(xù)執(zhí)行.

        Fig. 2 Multi-tasking data dependency diagram圖2 多任務(wù)數(shù)據(jù)依賴圖

        2.2 問(wèn)題建模

        1) 能耗模型

        針對(duì)包含智能手機(jī)和遠(yuǎn)程服務(wù)器等所有計(jì)算設(shè)備在一定時(shí)間內(nèi)產(chǎn)生的總能耗,本文首先定義第i臺(tái)計(jì)算設(shè)備的功率模型為

        (1)

        (2)

        總數(shù)量為1+m+n的所有計(jì)算設(shè)備在單位時(shí)間t內(nèi)產(chǎn)生的總能耗為

        (3)

        2) 費(fèi)用模型

        用戶獲取遠(yuǎn)程服務(wù)器提供的計(jì)算資源需要支付相應(yīng)的費(fèi)用,本文使用基于資源剩余量的動(dòng)態(tài)價(jià)格模型,當(dāng)資源剩余量越少時(shí)資源價(jià)格越高,此時(shí)用戶較傾向于選取單價(jià)較低的服務(wù)節(jié)點(diǎn)作為卸載目標(biāo),從而在降低用戶花銷的同時(shí)提高資源利用率.基于計(jì)算資源剩余量的動(dòng)態(tài)價(jià)格模型:

        Cost=Costexist+Timeunit×Priceunit×
        Ratioused×Rtotal,

        (4)

        其中,Costexist表示當(dāng)前設(shè)備已經(jīng)產(chǎn)生的費(fèi)用,Timeunit表示費(fèi)用計(jì)算的單位間隔時(shí)間,Priceunit表示單位計(jì)算資源所設(shè)定的價(jià)格,Ratioused表示當(dāng)前設(shè)備使用的計(jì)算資源比率,Rtotal表示當(dāng)前設(shè)備的總計(jì)算資源.同時(shí)由于本地設(shè)備的計(jì)算資源屬于用戶個(gè)人所有,不需要作為運(yùn)營(yíng)商提供的服務(wù)進(jìn)行費(fèi)用計(jì)算,因此所有收費(fèi)設(shè)備(數(shù)量為1+m)的總開(kāi)銷:

        (5)

        3) 負(fù)載均衡

        負(fù)載均衡是實(shí)現(xiàn)集群中各類資源有效利用和共享的一個(gè)重要手段,其主要是為了實(shí)現(xiàn)最佳化資源使用、最大化吞吐率、最小化響應(yīng)時(shí)間以及避免過(guò)載的目的.集群中所有設(shè)備的負(fù)載均衡:

        (6)

        4) 服務(wù)時(shí)延

        根據(jù)子任務(wù)之間的依賴關(guān)系,一個(gè)移動(dòng)應(yīng)用的服務(wù)時(shí)延是指第1個(gè)子任務(wù)接收用戶請(qǐng)求的時(shí)間Timefirst到最后1個(gè)子任務(wù)獲取結(jié)果并執(zhí)行相應(yīng)操作的時(shí)間Timeend之間的差值,其服務(wù)時(shí)延:

        SL=Timeend-Timefirst.

        (7)

        5) 平均執(zhí)行時(shí)間

        執(zhí)行時(shí)間是指一個(gè)子任務(wù)進(jìn)行數(shù)據(jù)處理所需要花費(fèi)的時(shí)間,當(dāng)子任務(wù)卸載的計(jì)算設(shè)備性能越好,則其處理時(shí)間越短,在規(guī)定時(shí)間內(nèi)能處理的請(qǐng)求就越多.因此卸載決策需要盡可能降低移動(dòng)應(yīng)用的平均執(zhí)行時(shí)間,其中平均執(zhí)行時(shí)間:

        (8)

        其中,subnum表示一個(gè)移動(dòng)應(yīng)用拆分后的子任務(wù)數(shù)量,F(xiàn)TTaski表示第i個(gè)子任務(wù)結(jié)束處理的時(shí)間,STTaski表示第i個(gè)子任務(wù)開(kāi)始處理的時(shí)間,Loop(Taskfirst,Taskend)表示子任務(wù)集合形成的有向圖.

        6) 網(wǎng)絡(luò)使用量

        網(wǎng)絡(luò)使用量是指所有移動(dòng)應(yīng)用在規(guī)定時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)傳輸量,該值過(guò)高可能導(dǎo)致整個(gè)網(wǎng)絡(luò)產(chǎn)生擁塞,進(jìn)一步降低應(yīng)用程序的處理性能.網(wǎng)絡(luò)使用量:

        (9)

        其中,appnum表示單位時(shí)間內(nèi)所有請(qǐng)求的移動(dòng)應(yīng)用數(shù)量,TLi表示第i個(gè)移動(dòng)應(yīng)用處理請(qǐng)求所產(chǎn)生的延遲,TSi表示第i個(gè)移動(dòng)應(yīng)用處理請(qǐng)求所產(chǎn)生的總數(shù)據(jù)傳輸量,Timeunit表示設(shè)定的單位時(shí)間.

        3 深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)

        強(qiáng)化學(xué)習(xí)是一種能在特定場(chǎng)景下通過(guò)自學(xué)做出最優(yōu)決策的算法模型,其通過(guò)把所有現(xiàn)實(shí)問(wèn)題都抽象為智能體與環(huán)境的互動(dòng)過(guò)程來(lái)進(jìn)行建模.在互動(dòng)過(guò)程中的每個(gè)時(shí)間步,智能體都收到環(huán)境的狀態(tài)并選擇相應(yīng)的響應(yīng)動(dòng)作,然后在下一個(gè)時(shí)間步,智能體根據(jù)環(huán)境的反饋獲得一個(gè)獎(jiǎng)勵(lì)值和新的狀態(tài).強(qiáng)化學(xué)習(xí)根據(jù)獲得的獎(jiǎng)勵(lì)不斷學(xué)習(xí)知識(shí)以適應(yīng)環(huán)境,其所有智能體的目標(biāo)都是最大化預(yù)期累積獎(jiǎng)勵(lì)或在所有時(shí)間步獲得的預(yù)期獎(jiǎng)勵(lì)之和.雖然強(qiáng)化學(xué)習(xí)具有很多優(yōu)勢(shì),但同時(shí)該方法缺乏可擴(kuò)展性,并且本質(zhì)上局限于相當(dāng)?shù)途S的問(wèn)題.這些限制的存在是因?yàn)閺?qiáng)化學(xué)習(xí)算法與其他算法具有相同的內(nèi)存復(fù)雜度、計(jì)算復(fù)雜度以及機(jī)器學(xué)習(xí)算法中的樣本復(fù)雜度.

        為解決強(qiáng)化學(xué)習(xí)難以處理的決策問(wèn)題,深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,依靠強(qiáng)大的函數(shù)逼近和深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)性質(zhì)來(lái)解決具有高維度狀態(tài)空間和動(dòng)作空間的環(huán)境問(wèn)題[21].下面通過(guò)結(jié)合實(shí)際移動(dòng)計(jì)算環(huán)境構(gòu)建MDP模型,并針對(duì)深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-Learing network, DQN)算法進(jìn)行改進(jìn),以此解決MEC中的任務(wù)卸載問(wèn)題.

        3.1 MDP模型

        1) 狀態(tài)空間

        為了綜合考慮MEC中子任務(wù)與服務(wù)器資源之間的特性,本文定義在時(shí)間步t的狀態(tài)空間為St=(Cin,Nup,M,Cout,Ndo,U1,U2,…,U2+m).其中,Cin表示當(dāng)前子任務(wù)所需的輸入數(shù)據(jù)量;Nup表示該子任務(wù)用于接收數(shù)據(jù)所能使用的上傳帶寬;M表示該子任務(wù)部署所需的CPU資源;Cout表示當(dāng)前子任務(wù)計(jì)算產(chǎn)生的結(jié)果數(shù)據(jù)量;Ndo表示同一子任務(wù)用于提供結(jié)果下載所能使用的下行帶寬;Ui表示在時(shí)間步t第i個(gè)計(jì)算設(shè)備的CPU利用率,同時(shí)為了保證子任務(wù)只能選擇在本地移動(dòng)終端設(shè)備或者遠(yuǎn)程服務(wù)器上執(zhí)行,因此對(duì)于該子任務(wù)只需考慮2+m個(gè)計(jì)算設(shè)備,其中包含1個(gè)云數(shù)據(jù)中心、1個(gè)本地設(shè)備和m個(gè)邊緣服務(wù)器.

        2) 動(dòng)作空間

        3) 獎(jiǎng)勵(lì)函數(shù)

        本文將綜合考慮MEC中所有設(shè)備的能耗、費(fèi)用以及負(fù)載均衡3方面因素來(lái)評(píng)估卸載決策的優(yōu)劣,同時(shí)為了解決異構(gòu)計(jì)算設(shè)備因性能差異在每一個(gè)時(shí)間步所造成的獎(jiǎng)勵(lì)值偏差,本文利用z-score標(biāo)準(zhǔn)化方法分別對(duì)能耗、費(fèi)用以及負(fù)載均衡進(jìn)行正規(guī)化,當(dāng)數(shù)據(jù)序列為{x1,x2,…,xnum}時(shí),其計(jì)算為

        (10)

        分別將式(2)(4)(6)與式(10)進(jìn)行結(jié)合可以求出各個(gè)計(jì)算設(shè)備的能耗、費(fèi)用以及負(fù)載均衡正規(guī)化值,則獎(jiǎng)勵(lì)函數(shù)為

        (11)

        根據(jù)以上構(gòu)建的MDP模型,結(jié)合深度強(qiáng)化學(xué)習(xí)的MEC任務(wù)卸載策略的偽代碼如算法1所示:

        算法1.結(jié)合深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載算法.

        輸入:包含一個(gè)移動(dòng)設(shè)備、多個(gè)邊緣服務(wù)器和一個(gè)云數(shù)據(jù)中心的集合hostList、所有需要卸載的任務(wù)集合taskList;

        輸出:對(duì)任務(wù)集合taskList的卸載決策.

        ① 基于taskList初始化卸載集合offloadList;

        ② 基于hostList初始化動(dòng)作空間A;

        ③ For任務(wù)T∈taskList

        ④ 獲取任務(wù)T的輸入數(shù)據(jù)量Cin、上傳帶寬Nup、所需CPU資源M、輸出數(shù)據(jù)量Cout、下行帶寬Ndo;

        ⑤ 獲取hostList在時(shí)間步t的CPU利用率集合CPUList;

        ⑥ 構(gòu)建時(shí)間步t的狀態(tài)空間St;

        ⑦ 根據(jù)狀態(tài)St選擇動(dòng)作at∈A,其中at表示選擇設(shè)備h∈hostList;

        ⑧ If任務(wù)T能夠放置在設(shè)備h上

        ⑩ 在offloadList中添加鍵值對(duì)T,h;

        3.2 算法優(yōu)化

        1) LSTM網(wǎng)絡(luò)

        (12)

        其中,st+1表示狀態(tài)st在時(shí)間步t采取動(dòng)作at后的下一狀態(tài),rt+1是采取動(dòng)作at后的即時(shí)獎(jiǎng)勵(lì),而a′為狀態(tài)st+1能夠采取的所有動(dòng)作;γ為價(jià)值累積過(guò)程中的折扣系數(shù),決定了未來(lái)回報(bào)相對(duì)于當(dāng)前回報(bào)的重要程度;α為學(xué)習(xí)速率,該值越大,則保留之前訓(xùn)練的效果就越少.

        DQN不僅利用函數(shù)擬合改進(jìn)了Q-Learning算法的搜索速度,同時(shí)還通過(guò)增加經(jīng)驗(yàn)池和目標(biāo)網(wǎng)絡(luò)提升了其多樣性和穩(wěn)定性.其中經(jīng)驗(yàn)池是將每個(gè)時(shí)間步智能體與環(huán)境交互得到的轉(zhuǎn)移樣本(st,at,rt,st+1)儲(chǔ)存到回放記憶單元,當(dāng)進(jìn)行訓(xùn)練時(shí)隨機(jī)抽取一定數(shù)量的樣本來(lái)解決數(shù)據(jù)之間的相關(guān)性及非靜態(tài)分布問(wèn)題;目標(biāo)網(wǎng)絡(luò)是指使用另一個(gè)網(wǎng)絡(luò)TargetNet生成訓(xùn)練過(guò)程的目標(biāo)Q值,該網(wǎng)絡(luò)的結(jié)構(gòu)與DQN的神經(jīng)網(wǎng)絡(luò)MainNet保持一致,每經(jīng)過(guò)C輪迭代,將MainNet的參數(shù)復(fù)制給TargetNet.因此通過(guò)在一段時(shí)間內(nèi)保持2個(gè)網(wǎng)絡(luò)參數(shù)的差異性,以此利用當(dāng)前Q值和目標(biāo)Q值的差值來(lái)計(jì)算損失函數(shù),隨后使用隨機(jī)梯度下降等方法反向更新MainNet網(wǎng)絡(luò)的參數(shù).DQN算法的損失函數(shù)計(jì)算為

        (13)

        在MEC的真實(shí)環(huán)境中,由于問(wèn)題的復(fù)雜性和感知的局限性,系統(tǒng)很難直接獲取到當(dāng)前時(shí)間步所處的精確狀態(tài).假設(shè)系統(tǒng)的狀態(tài)信息不能直接觀測(cè)得到,是部分可知的,因而通常需要使用POMDP對(duì)只有不完全狀態(tài)信息的系統(tǒng)建模,依據(jù)當(dāng)前的不完全狀態(tài)信息做出決策[22].POMDP可以用一個(gè)六元組(S,A,T,R,Z,O)描述.其中,S表示系統(tǒng)所處環(huán)境的狀態(tài)集合,其都是部分可觀測(cè)的;A表示動(dòng)作的有限集合;Z表示觀測(cè)值的有限集合;T:S×A→π(S)是狀態(tài)轉(zhuǎn)移函數(shù);R:S×A→R是獎(jiǎng)勵(lì)函數(shù);O:S×A→π(Z)是狀態(tài)和系統(tǒng)所做動(dòng)作給出的觀測(cè)函數(shù).通常情況下,DQN只能在觀測(cè)值z(mì)∈Z能夠很好地反映真實(shí)環(huán)境狀態(tài)s∈S的情況下才能取得較好結(jié)果,因此其很難直接用于解決實(shí)際的MEC問(wèn)題.

        ht+1=LSTM(ht,zt,at).

        (14)

        Fig. 3 DRQN algorithm training flow chart of MainNet圖3 DRQN算法MainNet訓(xùn)練流程圖

        2) 事后經(jīng)驗(yàn)回放

        為提高深度強(qiáng)化學(xué)習(xí)算法的泛化性能,DQN算法通過(guò)經(jīng)驗(yàn)回放對(duì)樣本數(shù)據(jù)進(jìn)行存儲(chǔ),隨后利用隨機(jī)采樣更新深度神經(jīng)網(wǎng)絡(luò)參數(shù),以此實(shí)現(xiàn)數(shù)據(jù)之間的獨(dú)立同分布以及降低其關(guān)聯(lián)性,解決了經(jīng)驗(yàn)數(shù)據(jù)的相關(guān)性和非平穩(wěn)分布問(wèn)題,提高了數(shù)據(jù)利用率并且降低了更新網(wǎng)絡(luò)參數(shù)產(chǎn)生的方差.深度強(qiáng)化學(xué)習(xí)在解決實(shí)際問(wèn)題時(shí)由于大部分情況下無(wú)法得到有效反饋,其模型很難學(xué)習(xí)到可用策略,造成求解復(fù)雜問(wèn)題的決策無(wú)法收斂.因此本文希望在經(jīng)驗(yàn)回放的基礎(chǔ)上結(jié)合后見(jiàn)之明的思想,提出利用事后經(jīng)驗(yàn)回放解決MEC中無(wú)法獲取有效反饋的問(wèn)題.

        HER是用來(lái)解決反饋獎(jiǎng)勵(lì)稀疏的一種樣本數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),其通過(guò)漸進(jìn)式學(xué)習(xí)方法調(diào)整任務(wù)目標(biāo)以此提高模型的策略探索能力[23].現(xiàn)假設(shè)智能體將經(jīng)歷從初始狀態(tài)s0到達(dá)目標(biāo)狀態(tài)g的學(xué)習(xí)過(guò)程,但最終在學(xué)習(xí)結(jié)束時(shí)其終止?fàn)顟B(tài)為g′,則生成的真實(shí)學(xué)習(xí)軌跡可以表示為

        {(s0,g,a0,r0,s1),(s1,g,a1,r1,s2),…,
        (sn,g,an,rn,g′)},

        其中,an表示智能體在時(shí)間步n時(shí)采取的動(dòng)作,rn表示智能體在時(shí)間步n時(shí)獲取的獎(jiǎng)勵(lì).基于以上假設(shè),HER將目標(biāo)狀態(tài)g替換成終止?fàn)顟B(tài)g′,以此表示智能體在該學(xué)習(xí)過(guò)程中達(dá)成目標(biāo)并獲取到有效反饋,其生成的想象學(xué)習(xí)軌跡可以表示為

        {(s0,g′,a0,r0,s1),(s1,g′,a1,r1,s2),…,
        (sn,g′,an,rn,g′)}.

        因?yàn)槊看蔚^(guò)程中模型的學(xué)習(xí)目標(biāo)都是不同的,因此所選取的動(dòng)作也將發(fā)生變化,則在時(shí)間步t時(shí)根據(jù)當(dāng)前狀態(tài)st和目標(biāo)狀態(tài)g得到的動(dòng)作計(jì)算為

        at=π(st,g).

        (15)

        相應(yīng)的即時(shí)獎(jiǎng)勵(lì)計(jì)算為

        rt=Reward(st,at,g).

        (16)

        最后將根據(jù)目標(biāo)狀態(tài)g計(jì)算得到的經(jīng)驗(yàn)存入經(jīng)驗(yàn)池中,其中基于HER的每一條經(jīng)驗(yàn)將由5部分元素組成:當(dāng)前狀態(tài)s、動(dòng)作a、及時(shí)獎(jiǎng)勵(lì)r、下一狀態(tài)s′、當(dāng)前目標(biāo)g.同時(shí)在訓(xùn)練過(guò)程中,基于HER的經(jīng)驗(yàn)回放可以通過(guò)目標(biāo)采樣策略生成想象目標(biāo)g′,并結(jié)合狀態(tài)st和動(dòng)作at來(lái)計(jì)算新的獎(jiǎng)勵(lì)并將其存入到經(jīng)驗(yàn)池中,以此生成一些額外的訓(xùn)練經(jīng)驗(yàn),其計(jì)算為

        r′=Reward(st,at,g′),

        (17)

        其中本文采用的目標(biāo)采樣策略為future,即對(duì)時(shí)間步t以后的狀態(tài)進(jìn)行隨機(jī)采樣,選取k個(gè)狀態(tài)作為新的想象目標(biāo)集合.HER充分利用了人類從失敗經(jīng)歷中獲取有用經(jīng)驗(yàn)的思想,通過(guò)想象軌跡在學(xué)習(xí)過(guò)程中達(dá)成想象目標(biāo)而獲取有效獎(jiǎng)勵(lì),以此保證生成的任何策略都能利用反饋獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí).其中智能體首先在靠近初始狀態(tài)的較小區(qū)域到達(dá)想象目標(biāo)狀態(tài),隨后逐漸向周圍區(qū)域進(jìn)行探索,利用漸進(jìn)式學(xué)習(xí)滿足難度逐漸增加的任務(wù)目標(biāo),最終使模型學(xué)習(xí)到實(shí)際目標(biāo)狀態(tài).基于HER的訓(xùn)練過(guò)程代碼如算法2所示:

        算法2.基于HER的深度強(qiáng)化學(xué)習(xí).

        輸入:用于目標(biāo)重采樣的策略RSample、獎(jiǎng)勵(lì)函數(shù)Reward().

        ① 初始化回放空間D;

        ② For迭代次數(shù)episode=1,2,…,M

        ③ 對(duì)目標(biāo)g和初始狀態(tài)s0進(jìn)行抽樣;

        ④ For迭代次數(shù)t=0,1,…,T-1

        ⑤ 利用式(15)選擇動(dòng)作at;

        ⑥ 執(zhí)行動(dòng)作at然后獲得新?tīng)顟B(tài)st+1;

        ⑦ End For

        ⑧ For迭代次數(shù)t=0,1,…,T-1

        ⑨ 利用式(16)計(jì)算即時(shí)獎(jiǎng)勵(lì)rt;

        ⑩ 將轉(zhuǎn)移樣本(st,at,rt,st+1,g)存入D;

        3.3 算法流程

        Fig. 4 HERDRQN algorithm flow chart圖4 HERDRQN算法流程圖

        圖4是基于LSTM和HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法HERDRQN流程圖.該算法首先將每個(gè)時(shí)間步智能體與環(huán)境交互得到的轉(zhuǎn)移樣本(zt,at,rt,zt+1)儲(chǔ)存到HER記憶單元,隨后在訓(xùn)練過(guò)程中利用future策略對(duì)樣本進(jìn)行隨機(jī)采樣,將其進(jìn)行拆分后分別用于訓(xùn)練當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)的權(quán)重,其中這2個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)一致,都是由一個(gè)單隱層的LSTM網(wǎng)絡(luò)和2個(gè)全連接層組成,其中最后一個(gè)全連接層的節(jié)點(diǎn)數(shù)為動(dòng)作空間大小.為保證在MEC真實(shí)環(huán)境中獲取到更精確的狀態(tài),當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)通過(guò)LSTM網(wǎng)絡(luò)的長(zhǎng)時(shí)間序列觀測(cè)值對(duì)當(dāng)前時(shí)間步的狀態(tài)st和下一時(shí)間步的狀態(tài)st+1進(jìn)行推導(dǎo),然后利用全連接層分別求出2個(gè)網(wǎng)絡(luò)對(duì)應(yīng)狀態(tài)的Q值,根據(jù)式(13)求出誤差并計(jì)算梯度反向更新當(dāng)前值網(wǎng)絡(luò)的權(quán)重.另外基于LSTM改進(jìn)的DRQN算法流程與HERDRQN算法流程在網(wǎng)絡(luò)結(jié)構(gòu)上是一致的,區(qū)別在于兩者采用的記憶單元方法存在不同,其中DRQN算法使用的是回放記憶單元,而HERDRQN算法使用的是事后經(jīng)驗(yàn)回放單元.

        圖5是基于HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法HERDQN流程圖.與HERDRQN算法的流程相比,HERDQN算法的差異在于當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)使用的是3個(gè)全連接層,其將LSTM層替換為一個(gè)具有256個(gè)節(jié)點(diǎn)的全連接層,同時(shí)當(dāng)前環(huán)境的觀測(cè)值被直接作為狀態(tài)進(jìn)行訓(xùn)練,因此該算法在狀態(tài)信息只能部分可知的情況下表現(xiàn)相對(duì)較差.另外與DRQN算法和HERDRQN算法的差異類似,DQN算法與HERDQN算法的網(wǎng)絡(luò)結(jié)構(gòu)都是3個(gè)全連接層,但DQN算法使用的是回放記憶單元,HERDQN算法使用的是事后經(jīng)驗(yàn)回放單元.

        Fig. 5 HERDQN algorithm flow chart圖5 HERDQN算法流程圖

        4 MEC任務(wù)卸載仿真實(shí)驗(yàn)

        4.1 仿真環(huán)境

        本文采用iFogSim對(duì)基于MEC的任務(wù)卸載問(wèn)題進(jìn)行仿真實(shí)驗(yàn)[24],通過(guò)比較各算法在大規(guī)模異構(gòu)集群中的能耗、費(fèi)用、負(fù)載均衡、服務(wù)時(shí)延、平均執(zhí)行時(shí)間以及網(wǎng)絡(luò)使用量等來(lái)反映卸載決策的優(yōu)劣,其中實(shí)現(xiàn)的算法包括基于本地設(shè)備優(yōu)先放置的策略Mobile、基于邊緣服務(wù)器優(yōu)先放置的策略Edge、基于深度強(qiáng)化學(xué)習(xí)的策略DQN、基于LSTM改進(jìn)的深度強(qiáng)化學(xué)習(xí)策略DRQN、基于HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)策略HERDQN以及基于LSTM和HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)策略HERDRQN.仿真實(shí)驗(yàn)?zāi)M的設(shè)備集群主要包含1個(gè)云數(shù)據(jù)中心、60個(gè)邊緣服務(wù)器和數(shù)量不等的移動(dòng)終端設(shè)備,其中所有邊緣服務(wù)器將平均劃分到10個(gè)不同的區(qū)域,并且每個(gè)移動(dòng)終端設(shè)備在同一時(shí)間內(nèi)只能發(fā)送一個(gè)應(yīng)用卸載請(qǐng)求.本文參考SPEC(standard performance evaluation corporation)設(shè)置了相應(yīng)的仿真設(shè)備配置及平均性能功耗比,該值越大表明設(shè)備在相同性能下能耗越少,其詳細(xì)信息如表1所示.

        為了模擬移動(dòng)應(yīng)用拆分成不同子任務(wù)后的卸載流程,本文根據(jù)參考文獻(xiàn)[25]構(gòu)建了一個(gè)網(wǎng)絡(luò)購(gòu)物的子任務(wù)依賴關(guān)系,如圖6所示,該應(yīng)用主要是由edge,front end,login,accounts,orders,shipping,catalogue,cart和payment等子任務(wù)組成,其中edge必須在移動(dòng)設(shè)備上執(zhí)行,而其余子任務(wù)則可以根據(jù)決策選擇是否卸載.網(wǎng)絡(luò)購(gòu)物應(yīng)用通常對(duì)卸載決策的要求非常高,其一方面需要將高計(jì)算量的數(shù)據(jù)處理模塊卸載到遠(yuǎn)程服務(wù)器上執(zhí)行,盡可能降低移動(dòng)設(shè)備能耗;另一方面計(jì)算模塊需要盡可能靠近數(shù)據(jù)源,以此降低模塊之間數(shù)據(jù)傳輸所造成的延遲.如表2所示,本文通過(guò)CPULength和NWLength這2個(gè)變量來(lái)表示任務(wù)依賴對(duì)計(jì)算復(fù)雜度和數(shù)據(jù)傳輸量的要求,當(dāng)CPULength越大并且NWLength越小時(shí),則表示該任務(wù)更偏向于高計(jì)算量需求,反之則偏向于數(shù)據(jù)傳輸需求.同時(shí)本文對(duì)于所有深度強(qiáng)化學(xué)習(xí)算法模型的參數(shù)進(jìn)行統(tǒng)一設(shè)置以確保訓(xùn)練結(jié)果的公平性,其中定義深度強(qiáng)化學(xué)習(xí)的記憶空間大小M=100 000,優(yōu)化算法SGD的學(xué)習(xí)速率α=0.005,批學(xué)習(xí)大小BatchSize=32,目標(biāo)網(wǎng)絡(luò)參數(shù)的更新周期C=50,折扣系數(shù)γ=0.9;對(duì)于基于LSTM改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法,設(shè)置其LSTM網(wǎng)絡(luò)層的時(shí)間窗口為10;對(duì)于基于HER改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法,其將型號(hào)為DL360 Gen10的邊緣服務(wù)器目標(biāo)利用率設(shè)置為100%,因?yàn)樵撛O(shè)備在所有邊緣服務(wù)器中的平均性能功耗比最大,而其余設(shè)備的目標(biāo)利用率設(shè)置為0%,以此組成的所有設(shè)備利用率數(shù)組作為初始狀態(tài).

        Table 1 Detailed Configuration Table of Computing Devices表1 計(jì)算設(shè)備詳細(xì)配置表

        Fig. 6 Subtask dependence graph for online shopping圖6 網(wǎng)絡(luò)購(gòu)物子任務(wù)依賴圖

        Tuple TypeCPU LengthN∕W LengthREQUEST30001000BROWSE10001000LOG_B300100IDENTIFY500500LOG_U300100SELECT1000500BUY50001000SEE500500ADD500200PAY500500SEND5001000LOG_O300100

        4.2 實(shí)驗(yàn)結(jié)果分析

        為了反映移動(dòng)應(yīng)用在不同時(shí)間段的資源利用率變化情況,本文使用Google Cluster Trace數(shù)據(jù)集來(lái)模擬各模塊利用率隨時(shí)間所發(fā)生的變化[26].另外為了保證各深度強(qiáng)化學(xué)習(xí)算法生成的策略高效可用,本文首先從Google數(shù)據(jù)集中選擇1 000個(gè)應(yīng)用來(lái)對(duì)各神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,隨后選取其他數(shù)據(jù)對(duì)訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行檢驗(yàn),以此比較各策略的泛用性和高效性.

        Fig. 7 Resource loss graph generated by each algorithm in task offloading圖7 各算法在任務(wù)卸載中所產(chǎn)生的資源損耗圖

        圖7是各算法在任務(wù)卸載中所產(chǎn)生的資源損耗圖.由圖可知隨著應(yīng)用數(shù)量的增長(zhǎng),各算法所生成的卸載策略在能耗、費(fèi)用、負(fù)載均衡、延遲、網(wǎng)絡(luò)使用量以及執(zhí)行時(shí)間等方面大致呈遞增關(guān)系,其中基于Mobile算法的卸載策略在費(fèi)用和延遲上都能取得很好的效果,而在其余方面則表現(xiàn)較差,這主要是因?yàn)镸obile算法是將子任務(wù)優(yōu)先卸載到本地設(shè)備上執(zhí)行,當(dāng)資源不足后再逐步向上層設(shè)備卸載,因此該算法在網(wǎng)絡(luò)層面具有更低的延遲;另外由于本地設(shè)備屬于用戶個(gè)人所有,處理任務(wù)時(shí)不需要支付相應(yīng)的計(jì)算費(fèi)用,因此該算法產(chǎn)生的費(fèi)用很低.同時(shí)根據(jù)表1中的數(shù)據(jù)可知移動(dòng)設(shè)備的處理能力和平均性能功耗都要遠(yuǎn)小于遠(yuǎn)程服務(wù)器,所以移動(dòng)設(shè)備處理子任務(wù)會(huì)產(chǎn)生更高的執(zhí)行時(shí)間和能耗;另外基于Edge算法的卸載策略在負(fù)載均衡方面表現(xiàn)較好,在其余方面則表現(xiàn)一般,主要原因是Edge算法將子任務(wù)優(yōu)先卸載到邊緣服務(wù)器集群中,這造成所有邊緣服務(wù)器的資源利用率都能維持在一個(gè)很高的水平,使其負(fù)載均衡的計(jì)算結(jié)果最低.

        DQN算法、DRQN算法、HERDQN算法和HERDRQN算法都是利用深度強(qiáng)化學(xué)習(xí)自動(dòng)從數(shù)據(jù)中生成相應(yīng)的卸載策略,由圖7中的結(jié)果可知隨著應(yīng)用數(shù)量的增長(zhǎng),DQN算法和DRQN算法生成的卸載策略在網(wǎng)絡(luò)使用量方面表現(xiàn)較優(yōu),在其余方面則表現(xiàn)一般,但是DRQN算法在綜合性能上要優(yōu)于DQN算法.當(dāng)應(yīng)用數(shù)量較多時(shí),HERDQN算法和HERDRQN算法生成的策略在能耗、費(fèi)用、負(fù)載和延遲上都要優(yōu)于DQN算法和DRQN算法,其中HERDRQN算法的結(jié)果是所有深度強(qiáng)化學(xué)習(xí)算法中表現(xiàn)最好的.

        為驗(yàn)證異構(gòu)設(shè)備中CPU利用率與不同資源損耗之間的關(guān)系,本文利用各算法生成的決策對(duì)120個(gè)應(yīng)用進(jìn)行卸載處理,根據(jù)表1中各設(shè)備類型的平均性能功耗比分析異構(gòu)設(shè)備在不同CPU利用率下的數(shù)量分布對(duì)資源損耗的影響.表3是各算法根據(jù)CPU利用率對(duì)異構(gòu)設(shè)備進(jìn)行分類的詳細(xì)數(shù)據(jù),由表3可知當(dāng)CPU利用率在[80%,100%]的范圍時(shí),HERDRQN算法所生成的策略傾向于將子任務(wù)卸載到型號(hào)為DL360 Gen10的邊緣服務(wù)器設(shè)備,同時(shí)對(duì)于型號(hào)為RX350 S7和DL325 Gen10的邊緣服務(wù)器設(shè)備則是所有深度強(qiáng)化學(xué)習(xí)算法中使用最少的.

        Table 3 Number Distribution Table of Heterogeneous Devices with Different CPU Utilization Rates表3 各算法在不同CPU利用率下的異構(gòu)設(shè)備數(shù)量分布表

        由表1可知在相同功耗下,DL360 Gen10和RX350 S7分別是性能最好和最差的邊緣服務(wù)器型號(hào),同時(shí)該算法也將部分子任務(wù)卸載到平均性能功耗比很低但資費(fèi)為0的本地設(shè)備,因此HERDRQN算法在能耗、費(fèi)用、負(fù)載和延遲等方面都具有很好的性能.除此之外,結(jié)合表3和表4可知:由于Mobile算法對(duì)移動(dòng)設(shè)備的CPU利用率很高,因此其卸載決策產(chǎn)生的費(fèi)用最低但能耗最高;Edge算法將所有子任務(wù)均勻卸載到所有邊緣服務(wù)器上,因此其卸載決策對(duì)邊緣服務(wù)器的CPU利用率都保持在20%~80%之間,保證了負(fù)載均衡的性能;相比于DQN算法,DRQN算法和HERDQN算法在CPU利用率為[80%,100%]時(shí)對(duì)平均性能功耗比最低的邊緣服務(wù)器使用較少,因此這2種算法在能耗方面都要優(yōu)于DQN算法.

        Table 4 Total Number Table of Heterogeneous Devices

        4.3 實(shí)機(jī)驗(yàn)證實(shí)驗(yàn)

        該部分實(shí)驗(yàn)主要用于驗(yàn)證各算法在實(shí)際MEC卸載任務(wù)中的性能表現(xiàn).整個(gè)測(cè)試平臺(tái)共使用3臺(tái)服務(wù)器和2臺(tái)筆記本電腦用于實(shí)驗(yàn)?zāi)M,其中2臺(tái)服務(wù)器用于模擬不同地理位置的邊緣服務(wù)節(jié)點(diǎn),1臺(tái)服務(wù)器用于模擬云數(shù)據(jù)中心,而2臺(tái)筆記本電腦則用于模擬用戶的移動(dòng)設(shè)備.所有服務(wù)器均采用Ubuntu 16.04.6 LTS操作系統(tǒng)、型號(hào)為Intel Xeon E5-2660的16核處理器、2張千兆網(wǎng)卡和32 GB內(nèi)存、并且都安裝了Docker 18.09.2,CRIU(CheckpointRestore In Userspace) 3.10,sysstat 12.1.1.

        Fig. 8 Energy consumption comparison chart of each algorithm in test environment圖8 各算法在測(cè)試環(huán)境中的能耗比較圖

        Fig. 9 Cost comparison chart of each algorithm in test environment圖9 各算法在測(cè)試環(huán)境中的費(fèi)用比較圖

        Fig. 10 Delay comparison chart of each algorithm in test environment圖10 各算法在測(cè)試環(huán)境中的延遲比較圖

        5 結(jié) 論

        本文首先提出利用深度強(qiáng)化學(xué)習(xí)解決大規(guī)模異構(gòu)MEC中具有多服務(wù)節(jié)點(diǎn)和移動(dòng)終端任務(wù)內(nèi)部具有多依賴關(guān)系的卸載問(wèn)題,然后將各算法生成的卸載策略在邊緣計(jì)算仿真平臺(tái)iFogSim上進(jìn)行實(shí)驗(yàn),最后通過(guò)比較能耗、費(fèi)用、負(fù)載、延遲、網(wǎng)絡(luò)使用量以及平均執(zhí)行時(shí)間等多方面因素來(lái)驗(yàn)證各算法策略的優(yōu)劣.根據(jù)比較各算法的多方面結(jié)果可知,基于LSTM網(wǎng)絡(luò)和HER改進(jìn)的HERDRQN算法在能耗、費(fèi)用、負(fù)載均衡和延遲等方面都具有很好的結(jié)果.另外本文利用各算法策略對(duì)一定數(shù)量的應(yīng)用進(jìn)行卸載,通過(guò)比較不同CPU利用率下的異構(gòu)設(shè)備數(shù)量分布來(lái)驗(yàn)證其與各資源損耗之間的關(guān)系,以此證明HERDRQN算法生成的策略在解決MEC任務(wù)卸載問(wèn)題中的科學(xué)性和有效性.

        猜你喜歡
        能耗服務(wù)器深度
        120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實(shí)踐
        昆鋼科技(2022年2期)2022-07-08 06:36:14
        能耗雙控下,漲價(jià)潮再度來(lái)襲!
        探討如何設(shè)計(jì)零能耗住宅
        深度理解一元一次方程
        通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
        深度觀察
        深度觀察
        日本先進(jìn)的“零能耗住宅”
        深度觀察
        得形忘意的服務(wù)器標(biāo)準(zhǔn)
        亚洲AV无码专区一级婬片毛片| 18禁止看的免费污网站| 国产xxxxx在线观看| 波多野结衣中文字幕在线视频| 黑人一区二区三区在线| 可以直接在线看国产在线片网址 | 米奇亚洲国产精品思久久| 久久久精品国产免费看| 中文字幕乱码熟妇五十中出| 亚洲男同志gay 片可播放| 免费国人成人自拍视频| 亚洲国产色婷婷久久精品| 人妻少妇偷人精品无码| 国产人成精品综合欧美成人| 国产三级自拍视频在线| 亚洲视频免费一区二区| 久久综合给合综合久久| av无码天一区二区一三区| 中文字幕人妻在线少妇完整版| 国产在线无码一区二区三区视频| 东京热加勒比无码少妇| 国产精品久久中文字幕第一页| 99久久精品人妻一区二区三区| 久久精品国产亚洲av麻豆长发| 人成午夜免费大片| 亚洲国产一区二区三区在观看 | 免费 无码 国产精品| 亚洲精品一区二区成人精品网站| 国内揄拍国内精品少妇| 99re6热在线精品视频播放6| 在线亚洲精品国产成人二区| 美女很黄很色国产av| 撕开奶罩揉吮奶头视频| 98国产精品永久在线观看| 五月婷婷开心五月播五月| 午夜免费啪视频| 久久6国产| 久久精品国产福利亚洲av| 日韩精品人妻中文字幕有码| 夜爽8888视频在线观看| 久久午夜伦鲁鲁片免费|