亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動邊緣計算中基于內(nèi)容流行度的深度強(qiáng)化學(xué)習(xí)緩存機(jī)制

        2022-02-11 09:44:02王朝煒石玉君于小飛王衛(wèi)東
        無線電通信技術(shù) 2022年1期
        關(guān)鍵詞:效用函數(shù)傳輸速率時延

        王朝煒,石玉君,于小飛,王衛(wèi)東

        (1.北京郵電大學(xué) 電子工程學(xué)院,北京100876;2.通信網(wǎng)信息傳輸與分發(fā)技術(shù)重點(diǎn)實驗室,河北 石家莊 050081)

        0 引言

        隨著技術(shù)的發(fā)展和5G的商用,越來越多的新應(yīng)用對網(wǎng)絡(luò)時延、帶寬和安全性提出了更高的要求。 行業(yè)普遍認(rèn)為,移動邊緣計算 (Mobile Edge Computing,MEC)是應(yīng)對“海量數(shù)據(jù)、超低時延、數(shù)據(jù)安全”發(fā)展要求的關(guān)鍵[1]。MEC是指將云端的計算能力和網(wǎng)絡(luò)服務(wù)下放到通信網(wǎng)絡(luò)邊緣,即無線接入網(wǎng)中,使用戶可以在更鄰近的無線接入點(diǎn)(Access Point,AP)獲取計算服務(wù)[2]。

        隨著智能手機(jī)和可穿戴設(shè)備的廣泛使用,混合現(xiàn)實(Mixed Reality,MR)給經(jīng)濟(jì)、科技、文化、生活等領(lǐng)域帶來深刻影響。典型的MR系統(tǒng)由5個關(guān)鍵組件組成:視頻源、跟蹤器、映射器、對象識別器和渲染器[3],本文只關(guān)注渲染模塊。MR應(yīng)用程序的性能會受到有限的MR設(shè)備的計算和緩存資源影響。如果將用戶預(yù)取的渲染環(huán)境幀緩存在邊緣服務(wù)器上,能提高混合現(xiàn)實應(yīng)用服務(wù)質(zhì)量。

        文獻(xiàn)[4]提出了一種基于博弈論的算法,首先預(yù)估內(nèi)容的流行度,然后基于松弛方法制定緩存方案以減少延遲。文獻(xiàn)[5]討論了空間網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)備之間通信,并提出了一種緩存方法來降低終端設(shè)備的能耗。文獻(xiàn)[6]采用啟發(fā)式 Q-learning預(yù)測車輛運(yùn)動,實現(xiàn)有效的主動緩存策略并提高服務(wù)性能。文獻(xiàn)[7]結(jié)合邊緣計算提高面向網(wǎng)絡(luò)的MR應(yīng)用的服務(wù)質(zhì)量。文獻(xiàn)[8]將計算任務(wù)卸載到最近的MEC服務(wù)器來延長幫助盲人的MR設(shè)備的電池壽命。

        本文提出了一種可行的MEC系統(tǒng)模型,針對MEC服務(wù)器上有限資源,提出了一種基于內(nèi)容緩存方案的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)方法來做緩存決策,并提出一個新的效用函數(shù)來衡量緩存方案的性能。

        1 系統(tǒng)模型和優(yōu)化目標(biāo)函數(shù)

        圖1 MEC場景架構(gòu)圖Fig.1 Network architecture of the MEC scenario

        1.1 請求和緩存模型

        (1)

        (2)

        式中,CF_M是 MEC 中緩存內(nèi)容大小的總和。

        用戶的請求到達(dá)SBS后,先檢索MEC服務(wù)器緩存的內(nèi)容。若在MEC服務(wù)器中檢索到所請求內(nèi)容,將直接傳輸給用戶;否則,用戶請求將被發(fā)送到云端,并從MR環(huán)境幀提供商檢索并發(fā)送所需的內(nèi)容;最后,中心云通過SBS 將內(nèi)容交付給用戶。

        1.2 時延和能耗模型

        本文系統(tǒng)總時延和能耗由兩部分組成:數(shù)據(jù)檢索和數(shù)據(jù)傳輸,只考慮MEC服務(wù)器所產(chǎn)生的能耗。

        (1) 數(shù)據(jù)檢索時延和能耗

        用fC和fM分別表示中心云和MEC服務(wù)器的處理能力(即CPU每秒鐘執(zhí)行的周期數(shù))。如果用戶請求第i個內(nèi)容,則獲取該內(nèi)容的檢索時延可以表示為:

        (3)

        MEC的內(nèi)容檢索能力表示為Pr_M,由于只考慮 MEC服務(wù)器的能耗,則檢索能耗表示為:

        (4)

        (2) 傳輸時延和能耗

        由于請求信息的數(shù)據(jù)量明顯小于請求內(nèi)容大小,因此本文忽略了上行傳輸?shù)某杀?。中心云和SBS采用光纖連接,且光纖數(shù)據(jù)傳輸速率表示為Dtrans_C。SB數(shù)據(jù)傳輸能力表示為Dtrans_M。假設(shè)每個用戶獲得相同的信道資源,則每個用戶的下行數(shù)據(jù)傳輸速率為Dtrans_M/K。用Ptrans_M表示SBS的傳輸功率。如果用戶請求第i個內(nèi)容,則傳輸時延可以分為兩部分:從中心云到SBS和從SBS到用戶,記為

        Ttrans_i=(1-Ci)·ttrans_i_C+ttrans_i_M,

        (5)

        Etrans_i=Ptrans_M·ttrans_i_M。

        (6)

        (3) 時隙t的系統(tǒng)總時延和能耗

        (7)

        (8)

        總的傳輸延遲和能耗可以表示為:

        (9)

        (10)

        因此,在時隙t的系統(tǒng)總時延和能耗可以表示為:

        (11)

        (12)

        1.3 緩存命中率和效用函數(shù)

        本文還考慮緩存命中率這一指標(biāo)。使用hk∈{0,1}表示用戶請求的內(nèi)容是否在MEC服務(wù)器緩存空間緩存命中。 如果用戶k的請求命中,hk=1,否則hk=0。時隙t的緩存命中率可以表示為:

        (13)

        然后,基于用于多目標(biāo)權(quán)衡加權(quán)求和法[9],定義了時隙t的歸一化系統(tǒng)成本,包括時延、能耗和緩存空間資源,表示為:

        (14)

        ω+φ+μ=1,

        (15)

        式中,ω、φ、μ是超參數(shù),表示時延、能耗和緩存空間資源的所占比例。Tmax(t)和Emax(t)表示系統(tǒng)在時隙t的最大時延和能耗。

        此外,本文定義了一個新的效用函數(shù),即緩存命中率與歸一化系統(tǒng)成本之比,效用函數(shù)表示為:

        (16)

        1.4 優(yōu)化目標(biāo)函數(shù)

        令τ表示一個時期的時隙數(shù)。由于很多應(yīng)用更關(guān)注一段時間內(nèi)的體驗而不是瞬時體驗,因此平均效用函數(shù)為:

        (17)

        優(yōu)化目標(biāo)函數(shù)為:

        (18)

        (18a)

        (18b)

        (18c)

        hk∈{0,1},?k∈K,

        (18d)

        ω+φ+μ=1。

        (18e)

        2 基于深度強(qiáng)化學(xué)習(xí)的緩存策略

        2.1 深度強(qiáng)化學(xué)習(xí)

        V(s)=

        (19)

        (20)

        式中,s′表示下一狀態(tài)。R(s,a) 為在時間τ的期望獎勵值,P(s′|s,a) 為在狀態(tài)s執(zhí)行動作a到s′的轉(zhuǎn)移概率。最優(yōu)策略應(yīng)滿足貝爾曼方程:

        (21)

        采用Q-learning方法解決上述問題,Q函數(shù)為:

        (22)

        在狀態(tài)s執(zhí)行動作a后,可以獲得折扣累積獎勵。 智能體學(xué)習(xí)如何在每次迭代中選擇Q值最大的動作,并在多次迭代后根據(jù)最佳解決方案智能地執(zhí)行動作。公式化(21) 可以表示為:

        (23)

        設(shè)學(xué)習(xí)率為α,則Q函數(shù)表示為:

        (24)

        然后,收斂到最優(yōu)動作值函數(shù)Qπ*(s,a)。

        但是,在更復(fù)雜的環(huán)境中,狀態(tài)空間面臨維度災(zāi)難,RL方法將不再適用。文獻(xiàn)[11]引入了DRL方法來解決尺寸爆炸問題。 深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)是DRL的典型例子,它通過深度神經(jīng)網(wǎng)絡(luò)逼近Q函數(shù):Q(s,a)≈Q(s,a;θ),其中θ表示深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)的權(quán)重參數(shù)。目標(biāo)Q網(wǎng)絡(luò)的權(quán)重參數(shù)需要每周期更新一次(例如Nu步)。通過在每次迭代中最小化損失函數(shù)來訓(xùn)練它達(dá)到目標(biāo)值:

        Lloss=[(Qtarget-Q(s,a;θ))2]。

        (25)

        整個訓(xùn)練過程是Q值向目標(biāo)Q值逼近的過程,目標(biāo)Q值表示為:

        (26)

        2.2 馬爾可夫決策過程

        ① 狀態(tài):在t時刻的系統(tǒng)狀態(tài)為當(dāng)前MEC服務(wù)器緩存情況s(t)=[CF1,CF2,…,CFF]。

        ② 行動:在每個時期,SBS應(yīng)該決定緩存哪些內(nèi)容以最大化效用函數(shù)。 因此,動作可以表示為Action(t)=[AF1,AF2,…,AFF],其中AFi={0,1}。

        ③ 獎勵:系統(tǒng)會在每個狀態(tài)返回一個獎勵,設(shè)為優(yōu)化目標(biāo)。由于優(yōu)化目標(biāo)是最大化效用函數(shù),將強(qiáng)化學(xué)習(xí)的獎勵定義為U(χ)。

        2.3 所提策略的實現(xiàn)

        本文提出的基于DRL緩存方案的核心算法為Q-network。輸入s(τ)和輸出Q(s(τ),a(τ);θ) 之間的映射由神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)決定。使用DNN 逼近非線性函數(shù)來實現(xiàn)Q-network。DNN的結(jié)構(gòu)與文獻(xiàn)[12]相同,包括3個全連接隱藏層,每層有256、256、512 個神經(jīng)元。在DNN中,前兩個隱藏層的激活函數(shù)設(shè)置為線性整流函數(shù)(Rectify Linear Units,ReLUs),第3個隱藏層函數(shù)設(shè)置為tanh函數(shù)。

        此外,利用經(jīng)驗重放訓(xùn)練Q-network以提高方案的穩(wěn)定性,經(jīng)驗數(shù)據(jù)(s(τ),a(τ),r(τ),s(τ+1))存儲在容量為NB的回放池B中。當(dāng)存儲的經(jīng)驗元組數(shù)量大于ND時,從回放池B隨機(jī)選擇NM個經(jīng)驗數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。采用ε-貪婪策略選擇動作a(τ)來平衡開發(fā)和探索。探索率從初始值εs線性下降到最終值εe?;贒RL的緩存方案的詳細(xì)過程如算法1所示。

        算法1 基于DRL的緩存方案初始化系統(tǒng)和網(wǎng)絡(luò)參數(shù)Forepisode=1,2,…,Mdo 初始化初始狀態(tài)s(0)為隨機(jī)緩存狀態(tài) Forτ=1,2,…,Tdo 基于ε-貪婪策略選擇動作a(τ): 獲取獎勵值r(τ)和下一狀態(tài)s(τ+1) 儲存元組(s(τ),a(τ),r(τ),s(τ+1)) If τ≥ND 從B中隨機(jī)選取少量樣本進(jìn)行訓(xùn)練 最小化loss函數(shù)使梯度下降 更新Q-network參數(shù) 每Nu步重置Q-network End ForEnd For

        3 仿真實現(xiàn)

        本文使用Python進(jìn)行數(shù)值分析來評估所提方案的性能。所有的仿真都是使用在 Pycharm3.7 和 Tensorflow 2.4.0實現(xiàn)的,計算機(jī)的配置為:Intel (R) Core (TM) i7-8700 CPU、8 GB RAM。

        3.1 模擬設(shè)置

        在仿真實驗中,考慮一個由MR環(huán)境幀提供商、中心云、小型基站和MEC服務(wù)器組成的小型網(wǎng)絡(luò)。SBS覆蓋區(qū)域半徑為 200 m,用戶服從泊松分布。中心云和 MEC服務(wù)器的 CPU 周期頻率分別為fC=64 GHz和fM=16 GHz[13]。光纖數(shù)據(jù)傳輸速率為Dtrans_C=2 Gbit/s。數(shù)據(jù)傳輸速率為Dtrans_M=9.6 Gbit/s。MEC服務(wù)器的數(shù)據(jù)檢索功率為Pr_M=2 500 mW。SBS的發(fā)射功率為Ptrans_M=20 mW[14]。內(nèi)容的數(shù)據(jù)大小在[100,500] Mbit內(nèi)隨機(jī)分布。DRL中的相關(guān)參數(shù)設(shè)置如下:學(xué)習(xí)率α=0.000 1,折扣因子=0.9,初始探索率εs=0.9,結(jié)束探索率εs=0.001。假設(shè)所請求內(nèi)容的流行度被建模為Zipf分布[15]。因此,用戶請求的第i個內(nèi)容的流行程度為:表示 Zipf 分布的形狀參數(shù),設(shè)置為常數(shù)值0.56。

        本文將所提方案與以下方案進(jìn)行比較:

        ① 遺傳緩存:通過N代種群遺傳、變異、交叉、復(fù)制得出問題的最優(yōu)解。隨機(jī)生成50對緩存方案作為父染色體,迭代500次,交叉概率和變異概率分別設(shè)置為0.7和0.02。

        ② 貪婪緩存:由于 MEC服務(wù)器的緩存內(nèi)存空間大小限制,緩存盡可能多的流行內(nèi)容。

        ③ 隨機(jī)緩存:隨機(jī)選擇滿足MEC服務(wù)器緩存內(nèi)存空間大小限制的緩存方案。

        3.2 仿真結(jié)果分析

        基于DRL的緩存方案算法的收斂性能如圖2所示,其中,ω=0.7,φ=0.2,μ=0.1,K=7,CM=1 400 Mbit,F=10。隨著迭代次數(shù)的增加,損失值逐漸收斂。損失函數(shù)在前10 000次迭代中急劇下降,然后在15 000次迭代內(nèi)基本穩(wěn)定,因為開始執(zhí)行的動作對獎勵值的影響更顯著。

        圖2 Loss函數(shù)Fig.2 Training loss

        圖3顯示了算法的時間復(fù)雜度和用戶個數(shù)的關(guān)系,用單步平均運(yùn)行時間表示時間復(fù)雜度。隨著用戶數(shù)目的增加,DRL緩存算法輸出層神經(jīng)元數(shù)變多,時間復(fù)雜度變大,但仍比其他算法時間復(fù)雜度低。

        圖3 時間復(fù)雜度對比Fig.3 Time complexity comparison

        圖4展示了4種方案在不同MEC服務(wù)器緩存內(nèi)存空間大小的效用函數(shù)值。其中,ω=0.7,φ=0.2,μ=0.1,K=7,F=10。DRL緩存算法的效用函數(shù)值高于其他3種算法,說明本文提出的緩存方案的性能優(yōu)于其他3種算法。此外,隨著MEC服務(wù)器緩存大小的增加,DRL緩存、遺傳緩存和貪婪緩存的效用函數(shù)值增加,因為MEC服務(wù)器有更多的緩存資源,可以緩存更多的內(nèi)容,提高緩存命中率,時延會減少,但能耗和消耗緩存空間會增加。延遲在歸一化系統(tǒng)成本中所占比例最大,故效用函數(shù)隨著MEC服務(wù)器緩存內(nèi)存空間的增加而增加。

        圖4 效用函數(shù)U(χ)vs MEC服務(wù)器緩存空間大小CMFig.4 Utility function U(χ) vs MECs caching size CM

        圖5顯示了相同環(huán)境條件下不同用戶數(shù)量對效用函數(shù)的影響。其中,ω=0.7,φ=0.2,μ=0.1,CM=1 400 Mbit,F=10。效用函數(shù)隨著用戶數(shù)的增加而逐漸減小。 因為隨著用戶的增加,分配給每個用戶的帶寬減少,傳輸速率降低,時延增加,導(dǎo)致效用函數(shù)值降低。此外,隨著用戶數(shù)量的增加,效用函數(shù)的降低程度逐漸減小,是因為隨著用戶數(shù)量的增加,傳輸速率的降低率變得更小。

        圖5 效用函數(shù)U(χ)vs 用戶數(shù)KFig.5 Utility function U(χ) vs.User number K

        圖6顯示相同環(huán)境條件下不同內(nèi)容數(shù)量對效用函數(shù)的影響。

        圖6 效用函數(shù)U(χ) vs 內(nèi)容數(shù)目FFig.6 Utility function U(χ) vs.Content number F

        圖6中,ω=0.7,φ=0.2,μ=0.1,CM=1 400 Mbit,K=7。隨著內(nèi)容數(shù)量的增加,整體效用函數(shù)值呈現(xiàn)下降趨勢。因為隨著內(nèi)容數(shù)量的增加,用戶請求的目標(biāo)越來越多,緩存命中率降低,時延增加。效用函數(shù)值有起伏,在每種內(nèi)容數(shù)情況下,會隨機(jī)生成大小不同的內(nèi)容,當(dāng)內(nèi)容總數(shù)較小時,相同的MEC服務(wù)器緩存內(nèi)存空間可以緩存更多的內(nèi)容,以提高命中率,減少時延,增加效用函數(shù)值。

        4 結(jié)束語

        本文針對5G混合現(xiàn)實應(yīng)用中MEC服務(wù)器上緩存資源有限的問題,提出一種深度強(qiáng)化學(xué)習(xí)方法進(jìn)行緩存決策,并構(gòu)造一種新的效用函數(shù)衡量緩存性能,提高混合現(xiàn)實應(yīng)用服務(wù)質(zhì)量。詳細(xì)研究了用戶數(shù)、內(nèi)容數(shù)、緩存空間大小對效用函數(shù)的影響,仿真結(jié)果表明,提出的算法與傳統(tǒng)遺傳和貪婪算法相比,可以用較小的時間復(fù)雜度做出更好的緩存決策,并可以改變用戶數(shù)、內(nèi)容數(shù)、緩存空間大小的權(quán)重,滿足不同場景的要求,從而提高服務(wù)質(zhì)量。

        猜你喜歡
        效用函數(shù)傳輸速率時延
        效用函數(shù)模型在動態(tài)三角模糊多屬性決策中的應(yīng)用
        基于GCC-nearest時延估計的室內(nèi)聲源定位
        電子制作(2019年23期)2019-02-23 13:21:12
        基于改進(jìn)二次相關(guān)算法的TDOA時延估計
        基于冪效用函數(shù)的最優(yōu)投資消費(fèi)問題研究
        跨山通信中頻段選擇與傳輸速率的分析
        黑龍江電力(2017年1期)2017-05-17 04:25:16
        供給側(cè)改革的微觀基礎(chǔ)
        數(shù)據(jù)傳輸速率
        CHIP新電腦(2016年9期)2016-09-21 10:31:09
        FRFT在水聲信道時延頻移聯(lián)合估計中的應(yīng)用
        基于分段CEEMD降噪的時延估計研究
        新一代全球衛(wèi)星通信網(wǎng)絡(luò)將百倍提升傳輸速率
        日韩一区二区三区天堂| 男人天堂AV在线麻豆| 4399理论片午午伦夜理片| 青青草视频在线观看入口| 国产成人综合日韩精品无| 美丽的熟妇中文字幕| 人人妻人人澡人人爽欧美一区 | 伊人久久大香线蕉av色婷婷色| 久久久久久人妻一区精品| 国产性猛交╳xxx乱大交| 男人和女人做爽爽视频| 一区二区三区av在线| 日韩av一区二区三区精品| 国自产偷精品不卡在线| 屁屁影院ccyy备用地址| 国产精品福利高清在线| 国产一区二区三区亚洲精品| 999国产精品视频| 真人作爱免费视频| 国产乱子伦精品无码专区 | 日韩中文字幕一区二十| 亚洲 日韩 在线精品| 无码精品a∨在线观看十八禁| 99精品国产丝袜在线拍国语| 丝袜美腿福利一区二区| 日本免费一区二区精品| 久99久精品免费视频热77| 怡春院欧美一区二区三区免费 | 免费看泡妞视频app| 欧美大片aaaaa免费观看| 亚洲三级视频一区二区三区| 国产一区二区三区18p| 亚洲阿v天堂2018在线观看| 中文字幕av无码一区二区三区| 玩弄人妻少妇精品视频 | 香蕉亚洲欧洲在线一区| 久久中文字幕av一区二区不卡| 久久99热久久99精品| 国产精品久久久久精品一区二区| 久久精品亚洲熟女av蜜謦| 亚洲综合久久精品少妇av|