亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動邊緣計算中的在線任務卸載方法*

        2022-03-19 01:37:16劉婷羅喜良
        中國科學院大學學報 2022年2期
        關鍵詞:動作節(jié)點函數

        劉婷,羅喜良

        (1 上??萍即髮W 信息科學與技術學院,上海 201210;2 中國科學院上海微系統(tǒng)與信息技術研究所,上海 200050;3 中國科學院大學,北京 100049)(2020年1月15日收稿;2020年5月5日收修改稿)

        隨著物聯網時代信息的快速增長,用戶對數據處理速率、服務質量(quality of service, QoS)與體驗質量(quality of experience, QoE)的要求在不斷提高。然而大批提升用戶體驗的智能應用服務,如增強現實(augmented reality, AR)、虛擬現實(virtual reality, VR)、交互游戲等往往伴隨著高計算復雜度和低時延的要求。因此即使移動設備的處理能力在不斷提高,但智能手機作為便攜性設備,由于其固有的缺點,如有限的計算資源、存儲資源,仍然無法滿足此類任務的要求。移動邊緣計算能夠有效平衡設備能力和用戶體驗的困境,同時,移動邊緣計算的安全性能夠得到保障,如文獻[1]中作者從服務器安全、用戶隱私等多方面來保證系統(tǒng)的穩(wěn)定。因此移動邊緣計算技術被廣泛研究。在移動邊緣計算(mobile edge computing,MEC)網絡中[2-4],將高計算復雜度的任務卸載至網絡邊緣端,利用分布式的計算資源和存儲資源,能夠有效減少任務的處理時延。因此,如何實現更高效的任務卸載吸引了大量學者的關注。

        在許多文獻中,任務卸載被建模為確定性優(yōu)化問題。You等[5]在任務計算時延的約束下,通過任務卸載實現最小化能量消耗,并將該任務卸載問題定義為確定性優(yōu)化問題。然而一個實用的任務卸載策略應該能夠根據系統(tǒng)的實時狀態(tài)進行自主調整,例如用戶設備的隊列信息、幫助節(jié)點的計算能力等?;谠摽紤],Mao等[6]將任務卸載建模為隨機規(guī)劃問題,利用李雅普諾夫優(yōu)化方法,將復雜的隨機規(guī)劃問題轉換為一系列簡單的順序決策問題。上述文獻提出的任務卸載策略都是基于系統(tǒng)參數信息已知的假設,但在實際場景中用戶難以獲得系統(tǒng)信息,或者需要大量開銷來獲取信息,因此需要一個能夠自主在線學習的策略實現任務卸載。此外,在文獻[5-6]中,作者只根據系統(tǒng)的短期利益更新任務卸載策略,而忽略了系統(tǒng)的長遠利益。本文將針對這2個因素來建立任務卸載模型。

        強化學習作為一種在線學習方法,能夠從系統(tǒng)歷史反饋中學習系統(tǒng)信息,從而處理系統(tǒng)的未知性。近期許多文獻利用強化學習技術在任務卸載方面取得進展。Chen等[7]利用強化學習得到更優(yōu)的任務卸載策略,從而實現系統(tǒng)長期效用的最大化。Min等[8]將能量收集技術應用到MEC網絡,通過強化學習來選擇卸載節(jié)點和速率以提高用戶體驗。Huang等[9]將無線供電MEC網絡的任務卸載建模為組合優(yōu)化問題,利用強化學習得到近似最優(yōu)解。然而,上述文獻都是基于靜止的用戶設備,忽視了移動用戶的需求,無法應用于移動場景,如現在的車聯網(vehicle-to-everything, V2X)應用、AR的場景導覽、移動機器人[10]等,因此針對于移動用戶的任務卸載的研究具有重要意義。

        相較于移動的用戶,靜止用戶所處的MEC網絡環(huán)境中的信道環(huán)境、周圍節(jié)點的拓撲結構等比較穩(wěn)定,這也是之前大部分研究任務卸載的文獻中考慮的場景[4-8]。而相比于傳統(tǒng)有線網絡,如今很多使用無線網絡、蜂窩網絡的用戶通常處于移動狀態(tài),因此不僅用戶周圍的幫助節(jié)點會隨著變化,信道狀態(tài)也會發(fā)生改變?;诖丝紤],本文參照文獻[11]中MEC網絡的拓撲結構和用戶移動模式,假設用戶按照馬爾科夫性質在網絡中移動,利用強化學習技術對任務卸載進行研究。文獻[11]中,在一個蜂窩網絡完全覆蓋、Wi-Fi局部覆蓋的場景中,作者探究在昂貴的蜂窩網絡和便宜的Wi-Fi下,移動用戶通過Wi-Fi卸載來減少開銷從而完成長時間的文件傳輸。他們將卸載模型定義為馬爾科夫決策過程(Markov decision process, MDP),并在用戶移動模式已知時提供系統(tǒng)最優(yōu)解。MDP被廣泛應用于隨機規(guī)劃問題中,它能夠有效地刻畫系統(tǒng)的動態(tài)變化,并將系統(tǒng)的長期表現作為目標。

        本文將移動用戶的任務卸載問題建模為MDP,并在系統(tǒng)信息為先驗知識時,提供系統(tǒng)的最優(yōu)解。同時,在系統(tǒng)信息未知,即用戶移動模式未知時,通過基于Q-learning和DQN的在線學習方法,得到收斂速度快,且效果逼近最優(yōu)解的算法。

        符號說明:指示函數1{A}表示事件A發(fā)生(不發(fā)生)時取值為1(0)。[·]為期望。[x]+=max{0,x}。{0}代表集合中除{0}以外的所有元素的集合。

        1 系統(tǒng)模型

        1.1 網絡模型

        在移動邊緣計算網絡中(參見圖1),存在移動用戶(本地節(jié)點)和一些固定節(jié)點。固定節(jié)點可以是宏基站、微基站和家庭基站等,它們能夠為用戶設備提供計算資源和存儲資源等,后文將其稱為幫助節(jié)點。

        圖1 移動邊緣計算的網絡拓撲結構圖

        圖2 任務卸載模型時間線

        1.2 問題建模

        本文的目標是最小化移動用戶的長期任務時延。為刻畫用戶移動性帶來的系統(tǒng)隨機性,將問題定義為一個馬爾科夫決策過程,利用系統(tǒng)轉移概率來刻畫用戶的移動模式。該問題可以由4個元素完全表征,下面將分別介紹。

        其中:m,n為正整數,f0為本地節(jié)點計算能力,即每時隙處理的任務大小。當任務在本地計算時,隊列會增加大小為μ的任務,同時本地節(jié)點以f0的速度處理任務。當任務卸載到其他幫助節(jié)點時,本地節(jié)點不增加任務,同時以f0的速度處理任務。

        (1)

        其中bt+1的轉移概率服從

        (2)

        4)開銷c(s,a):系統(tǒng)的開銷定義為完成任務需要的時延,c(st,at)為完成任務t所需要的時延

        (3)

        為最小化移動用戶的長期任務的時延,將問題定義為

        (4)

        2 任務卸載策略

        2.1 系統(tǒng)已知時的最優(yōu)任務卸載策略

        Vπ(s)=,

        (5)

        其中:si代表初始狀態(tài),[·]為對策略π和轉移概率(s′|s,a)的期望。

        最優(yōu)策略π*的狀態(tài)值函數Vπ*(s)稱為最優(yōu)狀態(tài)值函數,下文簡寫為V*(s)。最優(yōu)狀態(tài)值函數滿足貝爾曼最優(yōu)性條件[14],以系統(tǒng)狀態(tài)st為例:

        (6)

        其中Q*(st,a)為狀態(tài)-動作對(st,a)的動作值函數,滿足

        Q*(st,a)=[c(st,a)+γV*(s′)|st,a]

        (7)

        其中s′為系統(tǒng)在狀態(tài)st執(zhí)行動作a后,系統(tǒng)可能轉移的下一狀態(tài)。式(7)中第2個等式的第1項為任務t的即時開銷c(st,a),第2項為對未來所有任務的折扣開銷的期望的估計,γ是1.2節(jié)中的折扣因子,滿足γ<1。在貝爾曼最優(yōu)性方程中,即時開銷的比重為1,高于對未來開銷的估計的比重γ。

        動作值函數Q*(s,a)的定義與狀態(tài)值函數V*(s)相似,為系統(tǒng)在狀態(tài)s執(zhí)行動作a后,按照策略π*實現的長期折扣開銷的期望。從式(6)可以看出,若已知最優(yōu)動作值函數Q*(s,a),采用貪婪算法執(zhí)行任務卸載,即最低動作值函數對應的動作為最優(yōu)卸載決策

        (8)

        基于以上研究,當系統(tǒng)信息已知時,通過數值迭代能夠求解所有狀態(tài)-動作對的最優(yōu)動作值函數,再基于貪婪算法獲得最優(yōu)策略。具體流程見算法1。

        算法1最優(yōu)任務卸載算法

        步驟5)根據式(7)更新Q*(s,a),根據式(8)更新π*(s),按照式(6)設置V*(s)。

        步驟6)若V*(s)收斂,算法結束;否則跳轉至步驟2。

        算法1通過離線地對貝爾曼最優(yōu)性條件,式(6)和式(7),進行數值迭代,從而得到最優(yōu)卸載策略π*。當系統(tǒng)需要進行在線任務卸載時,觀測到狀態(tài)s后,可以直接通過π*(s)獲得最優(yōu)卸載決策。

        2.2 在線任務卸載算法

        然而系統(tǒng)信息一般難以獲得,雖然能夠根據用戶的歷史移動軌跡,對用戶移動模式進行預測[12-13],但會引入大量額外開銷。為解決用戶移動性帶來的系統(tǒng)未知性,基于在線學習,提出能夠應對用戶移動性的任務卸載算法。

        2.2.1 基于Q-learning的任務卸載

        由于用戶移動模式為后驗知識,無法通過2.1節(jié)中的算法得到最優(yōu)任務卸載策略,因此需要在線學習的算法來處理未知信息。Q-learning作為一種無模型方法,可以根據系統(tǒng)的歷史反饋,對動作值函數Q(s,a)進行預測。

        在系統(tǒng)狀態(tài)st時執(zhí)行動作at后,觀測系統(tǒng)開銷c(st,at),同時系統(tǒng)轉移到下一狀態(tài)st+1,可以將這些信息稱為一組經驗值et=(st,at,c(st,at),st+1)。之后動作值函數Q(st,at)利用這一組經驗值,按照下式更新:

        Qt(st,at)=(1-αt)Qt-1(st,at)+

        (9)

        式中:Qt為動作值函數的第t次迭代,αt為第t次迭代的學習率,也代表此次經驗值et的重要性。在每個時隙,系統(tǒng)利用經驗值更新動作值函數,獲得新的動作值函數后,在下一時隙根據新的動作值函數按照式(8)執(zhí)行卸載決策。

        1)即時開銷有界,|c(s,a)|≤C;

        2)學習率αt滿足隨機逼近條件

        (10)

        我們的任務卸載模型符合條件1)。同時通過對學習率的設定,如設置αt=1/t,條件2)也可以得到滿足。因此本文的任務卸載模型能夠通過Q-learning方法收斂到最優(yōu)解?;赒-learning的在線任務卸載策略的流程見算法2。

        算法2基于Q-learning的任務卸載

        步驟3)觀測系統(tǒng)開銷c(st,at)以及新狀態(tài)st+1;

        步驟4)存儲經驗值et=(st,at,c(st,at),st+1);

        步驟5)按照式(9)更新Qt(st,at);

        步驟6)設置t=t+1;

        步驟7)若t>T,算法結束;否則跳轉步驟2)。

        Q-learning是一個基于表格的策略,表格橫軸為狀態(tài)空間,縱軸為動作空間,表格內為所有狀態(tài)-動作對的Q值。為達到收斂,表格中每一個數據都需要得到多次更新。但在算法2中,每個時隙只能更新表格中的一個數據,如果狀態(tài)空間和動作空間非常大,將面臨維度災難并難以收斂。為應對這種情況,加快收斂速度,將采用基于擬合的方式,實現在單個時隙中批量更新Q值。

        2.2.2 基于DQN的任務卸載

        (11)

        其中:Q(s,a;θ)為深度神經網絡的輸出,θ為神經網絡的參數,將深度神經網絡與Q-learning的結合稱為DQN[16]。

        (12)

        (13)

        算法3基于DQN的任務卸載

        步驟1)初始化神經網絡參數θ0,設置t=1;

        步驟5)按照式(13)更新yt,在θ方向對損失函數執(zhí)行梯度下降,更新θt;

        步驟6)設置t=t+1;

        步驟7)若t>T,算法結束;否則跳轉步驟2)。

        3 仿真實驗

        3.1 參數設置

        移動邊緣計算網絡的參數設定主要參照文獻[17]。除位于場景中心的宏基站外,網絡中還有N=20個幫助節(jié)點。本地節(jié)點的傳輸功率為20 dBm,到宏基站和其他幫助節(jié)點的路徑損耗分別為(35.7+lgd+33.4)dB和(35.7+lgd+18.4)dB,d為本地節(jié)點到幫助節(jié)點的距離,單位為m。系統(tǒng)帶寬為20 MHz,功率頻譜密度為-174 dBm/Hz。本地節(jié)點和宏基站的處理速度分別為10和35 Mbps,其他幫助節(jié)點的處理速度均勻分布于(10,40)Mbps。

        在對DQN任務卸載策略進行仿真時,采用TensorFlow框架來搭建深度神經網絡[18]。在神經網絡中包含2層隱藏層,分別含有128和64個神經元,采用ReLU作為激活函數[19]。其他參數列在表1中。

        表1 DQN參數設置

        3.2 仿真結論

        這一節(jié)驗證基于Q-learning和DQN的任務卸載策略的表現,并與最優(yōu)卸載方案進行比較。由于在實際中系統(tǒng)信息難以獲得,最優(yōu)卸載方案無法應用,因此本文將最優(yōu)任務卸載算法作為基準來驗證其他2個算法的效果。

        1)收斂性:圖3通過展示動作值函數的累計平均值來驗證基于Q-learning和DQN的任務卸載策略的收斂性。不失一般性地,選擇系統(tǒng)狀態(tài)s=(7, 30)和動作a=1的動作值函數作為示例,即Q((7, 30), 1)。

        圖3 算法收斂性比較

        2)近優(yōu)性:在2.2.1節(jié)中提到,本文中的任務卸載模型采用的Q-learning算法能夠以概率1收斂到最優(yōu)解。為驗證該結論,將通過長期任務的時延來驗證算法的近優(yōu)性。圖4和圖5的縱坐標為系統(tǒng)回報Rt,定義為Rt=C-c(st,at),C為開銷的上界。

        圖4 算法性能比較

        圖5 預訓練后算法性能比較

        同樣的,圖中的最優(yōu)解是基于系統(tǒng)信息已知的假設,因此只作為其他算法的表現基準,而基于Q-learning和DQN的任務卸載策略中,系統(tǒng)信息為后驗知識,系統(tǒng)利用歷史反饋以實現自主在線學習。同時,我們還將算法同“不卸載”進行比較,它忽略了用戶的移動性,對所有任務都不執(zhí)行任務卸載,只在本地節(jié)點進行處理。我們將觀察不考慮用戶移動性時的系統(tǒng)表現。

        在圖4中,基于Q-learning和DQN的算法對系統(tǒng)信息沒有先驗知識,從時隙t=0開始在線學習。因此在仿真的前期時隙中,Q-learning由于學習數據的不足,導致算法對系統(tǒng)信息掌握較少,表現較差。此時基于Q-learning的任務卸載策略實現的系統(tǒng)回報,甚至低于不執(zhí)行任務卸載的策略。但值得注意的是,基于Q-learning策略的回報始終保持著上升的趨勢,并且從第800個時隙開始,表現超過不執(zhí)行任務卸載的策略,且一直維持著上升的趨勢。而基于DQN的任務卸載有著明顯的優(yōu)勢,不論是仿真前期還是后期,獲得的利益始終高于Q-learning和不執(zhí)行卸載的策略,同時也維持著最為明顯的系統(tǒng)回報上升的趨勢。在短時間內,不考慮用戶移動性的策略表現似乎與提出的算法相差不多,但從長時間尺度來看,考慮移動性的任務卸載策略,在后期表現更為優(yōu)異。下面將進一步展示算法對長期任務的表現。

        圖5將經過預訓練的Q-learning和DQN的算法與最優(yōu)解進行比較,從而驗證2個算法的近優(yōu)性。其中基于Q-learning和DQN的任務卸載分別經過200 000和2 000個時隙的預訓練,已經接近收斂。從時隙t=0開始進行在線的任務卸載??梢钥闯?,與圖4的未經預訓練相比,2個算法經過預先學習后已經對系統(tǒng)掌握大量信息,Q-learning的表現已經非常接近最優(yōu)解,證明它的確能夠在系統(tǒng)信息未知的情況下,通過在線學習達到接近最優(yōu)解,并高效地完成任務卸載。而DQN的表現雖然略遜于Q-learning,但相差不大。然而值得注意的是,相比于Q-learning,基于DQN的任務卸載只需要1%的預訓練時間就能夠達到接近Q-learning的效果,這也再一次驗證了基于DQN的任務卸載策略快速的收斂速度??梢钥闯觯陂L期任務中,提出的算法在表現上一直明顯優(yōu)于不考慮用戶移動性的不卸載策略,這也驗證了上一段的討論,考慮用戶的移動性在長時間尺度上可以實現更高的系統(tǒng)利益。

        4 結束語

        本文研究MEC網絡中高效的在線任務卸載策略。為最小化移動用戶在系統(tǒng)中的長期任務時延,利用馬爾科夫決策過程建立任務卸載模型。在假設系統(tǒng)信息已知的前提下,提供了系統(tǒng)的最優(yōu)解。在系統(tǒng)信息未知時,提出2個在線學習的算法,基于Q-learning和DQN的任務卸載。其中基于Q-learning的任務卸載在本文的模型中能夠收斂到最優(yōu)解,而基于DQN的算法能夠快速收斂,并且達到接近最優(yōu)解的表現。

        猜你喜歡
        動作節(jié)點函數
        CM節(jié)點控制在船舶上的應用
        二次函數
        Analysis of the characteristics of electronic equipment usage distance for common users
        第3講 “函數”復習精講
        二次函數
        基于AutoCAD的門窗節(jié)點圖快速構建
        函數備考精講
        動作描寫要具體
        畫動作
        動作描寫不可少
        亚洲高清在线视频网站| 欧美亅性猛交内射| 日韩少妇人妻中文视频| 国产精品刮毛| 天堂中文在线资源| 国产精品九九热| 亚洲一区二区三区美女av| 亚洲中文字幕综合网站| 精品国产黄一区二区三区| 国产亚洲自拍日本亚洲| 国产真实乱对白精彩久久老熟妇女 | 精品久久香蕉国产线看观看亚洲| 国产天堂在线观看| 久久国产品野战| 40分钟永久免费又黄又粗| 日韩女优视频网站一区二区三区| 国产精品第一二三区久久| 亚洲av日韩av无码污污网站| 一本大道东京热无码中字| 色婷婷亚洲一区二区在线| 国产亚洲成性色av人片在线观| 亚洲欧美日韩另类精品一区| 日韩制服国产精品一区| 极品熟妇大蝴蝶20p| 男女在线免费视频网站| 国产中文字幕亚洲国产| 日本熟妇美熟bbw| 久久精品国产亚洲av高清色欲| 中文字幕永久免费观看| 亚洲精品日本久久久中文字幕| 日韩在线精品视频一区| 久久久精品国产sm调教网站| 一本久道久久综合五月丁香| 中文字幕亚洲区第一页| 亚洲少妇一区二区三区老| 亚洲一区二区在线观看免费视频| 亚洲精品美女久久久久久久| 中文字幕在线久热精品| 亚洲av日韩精品一区二区 | 亚洲爆乳精品无码一区二区三区| 激情航班h版在线观看|