亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學(xué)習(xí)的分層協(xié)作邊緣緩存架構(gòu)

        2023-09-04 14:36:16賈宗璞任建吉原永亮
        計算機仿真 2023年7期
        關(guān)鍵詞:內(nèi)容用戶策略

        賈宗璞,鄭 帥,任建吉,原永亮

        (1. 河南理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,河南 焦作 454003;2. 河南理工大學(xué)機械與動力工程學(xué)院,河南 焦作 454003)

        1 引言

        隨著5G技術(shù)的發(fā)展和普及,移動設(shè)備和應(yīng)用程序的數(shù)量迅速增加,產(chǎn)生的海量數(shù)據(jù)給網(wǎng)絡(luò)帶來了巨大的流量壓力[1]。傳統(tǒng)的內(nèi)容獲取方式是通過回程鏈路從骨干網(wǎng)下載,這種重復(fù)的訪問方式會帶來大量冗余數(shù)據(jù)流量[2]。邊緣緩存的思想是將內(nèi)容下沉至邊緣節(jié)點,實現(xiàn)就近內(nèi)容服務(wù),來顯著提高網(wǎng)絡(luò)傳輸效率。它被認(rèn)為是緩解回程鏈路和蜂窩網(wǎng)絡(luò)流量壓力的一種有效的方式[3]。通過在網(wǎng)絡(luò)邊緣緩存適當(dāng)?shù)膬?nèi)容,可以在本地滿足用戶對相同內(nèi)容的需求,而不是通過回程網(wǎng)絡(luò)重復(fù)傳輸[4,5]。

        在實際的應(yīng)用場景中,由于緩存系統(tǒng)所處環(huán)境是不斷變化的,所以緩存內(nèi)容不能按照固定的策略來進行?;趶娀瘜W(xué)習(xí)的緩存方法可以更好地適應(yīng)不斷變化的環(huán)境,并及時進行緩存策略的更新。Chen等人在文獻[6]中使用Wolpertinger架構(gòu)的強化學(xué)習(xí)框架研究無線網(wǎng)絡(luò)邊緣的內(nèi)容緩存,研究內(nèi)容沒有關(guān)注內(nèi)容流行度分布。Sadeghi等人在文獻[7]中提出基于Q-Learning的強化學(xué)習(xí)方案,沒有考慮到服務(wù)區(qū)域擴大的問題。Hu等人在文獻[8]中使用遷移學(xué)習(xí)來解決新增節(jié)點的冷啟動問題,沒有考慮到新增節(jié)點最近鄰的選取問題。

        本文考慮到新增節(jié)點最近鄰的選取、分層緩存等問題,提出了一種基于A3C強化學(xué)習(xí)算法的的分層協(xié)作邊緣緩存架構(gòu)。使用KNN算法尋找新增節(jié)點的最近鄰節(jié)點,進而通過遷移學(xué)習(xí),解決新增節(jié)點的冷啟動問題。此外設(shè)計雙層網(wǎng)絡(luò)模型架構(gòu),以減少回程鏈路負(fù)載,進一步降低訪問延遲。仿真結(jié)果表明,本文提出的HECA架構(gòu)在提高緩存命中率和解決冷啟動問題的有效性。

        2 系統(tǒng)模型與問題表述

        如圖1所示,該架構(gòu)包括四層:數(shù)據(jù)中心層、一級緩存層、二級緩存層和用戶層。

        圖1 邊緣緩存系統(tǒng)架構(gòu)圖

        數(shù)據(jù)中心層(DC):包含該系統(tǒng)的所有數(shù)據(jù),下層緩存層無法滿足的內(nèi)容請求將最終發(fā)送到這一層,再將用戶請求的內(nèi)容逐級下發(fā)直到最終發(fā)回給用戶。

        一級緩存層(BBS):一級緩存層(BBS)和二級緩存層(SBS)功能類似,都是起到緩存數(shù)據(jù)的作用,這種分層的緩存模式可以將下層用戶的需求控制在一定區(qū)域內(nèi)解決,從而減小數(shù)據(jù)中心層以及主干網(wǎng)的壓力。

        二級緩存層(SBS):節(jié)點部署在靠近用戶的邊緣側(cè)。在邊緣端部署的每個節(jié)點,響應(yīng)其覆蓋區(qū)域內(nèi)所有用戶。當(dāng)用戶區(qū)域擴大時,則需要新增節(jié)點來提供服務(wù)。考慮到相鄰區(qū)域內(nèi)的用戶有著相似的本地內(nèi)容流行特征。當(dāng)出現(xiàn)新增節(jié)點時,通過KNN算法找到新增節(jié)點的最近節(jié)點,然后通過遷移學(xué)習(xí)將找到的最近鄰節(jié)點的神經(jīng)網(wǎng)絡(luò)參數(shù)傳遞給新增節(jié)點,從而降低新增節(jié)點的訓(xùn)練時間,使其快速收斂到最優(yōu)策略。

        用戶層:內(nèi)容的請求方,用戶向SBS層提交他們的內(nèi)容請求。每個對應(yīng)的SBS在其存儲單元中搜索內(nèi)容。如果內(nèi)容存在,則SBS直接將內(nèi)容提供給用戶。否則SBS將用戶的請求發(fā)送到一級緩存層BBS。每個對應(yīng)的BBS在其緩存中搜索請求的內(nèi)容。如果存在,則BBS將其提供給下級SBS。否則,BBS將請求發(fā)送到數(shù)據(jù)中心層。在數(shù)據(jù)中心層,存儲了用戶請求所需的全部內(nèi)容。數(shù)據(jù)中心在收到請求后將通過回程鏈路將內(nèi)容發(fā)送到BBS,進而發(fā)送到SBS,直至傳送給請求相應(yīng)內(nèi)容的用戶。

        緩存系統(tǒng)中的每個SBS、BBS都是基站,容量大小不同。每個單獨的基站都有一個緩存控制單元(CCU),目的在控制緩存過程并獲取最佳緩存策略[9]。本文定義每個SBS存儲E個內(nèi)容,每個BBS存儲M個內(nèi)容,數(shù)據(jù)中心共F個內(nèi)容??紤]到一級緩存和二級緩存的功能類似。在接下來的描述中,本文主要對二級緩存進行詳細(xì)描述。對于每個SBS以及數(shù)據(jù)中心的F個內(nèi)容,定義F×1的動作矩陣。動作矩陣可以表示為a(t)∈A,其中A是所有可行動作的集合,定義為

        A={a|a∈{0,1}F,aF1=E}

        (1)

        在每個時刻的t開始,SBS中的CCU會根據(jù)當(dāng)前環(huán)境狀態(tài)和緩存策略執(zhí)行相應(yīng)緩存操作。本地和全局內(nèi)容流行度分別定義為pl(t)、pg(t)。因為設(shè)計的緩存架構(gòu)總計有四層,所以定義緩存收益由一個成本和三個部分的獎勵組成。產(chǎn)生的成本是內(nèi)容替換產(chǎn)生的,定義為

        r1,t(a(t),a(t-1))=λ1aT(t)(1-a(t-1))

        (2)

        第一種獎勵是緩存操作和二級緩存層流行度配置文件之間的匹配,即當(dāng)用戶請求時內(nèi)容存儲在SBS中的獎勵,表示為

        r2,t(s(t))=λ2aT(t)pl(t)

        (3)

        第二種獎勵是緩存操作和一級緩存層流行度配置文件之間的匹配,表示為

        r3,t(s(t))=λ3aT(t)pm(t)

        (4)

        第三種獎勵是緩存操作和全局流行度配置文件之間的匹配,表示為

        r4,t(s(t))=λ4aT(t)pg(t)

        (5)

        因為r1表示為緩存操作產(chǎn)生的成本,即負(fù)向收益,r2、r3和r4表示為緩存操作的正向收益。所以t時刻緩存操作a(t)的整體收益可進一步推導(dǎo)為

        B(t)=-r1,t(a(t),a(t-1))+r2,t(s(t))+r3,t(s(t))+r4,t(s(t))

        =-λ1aT(t)(1-a(t-1))+λ2aT(t)pl(t)+λ3aT(t)pm(t)

        +λ4aT(t)pg(t)

        (6)

        面對當(dāng)前狀態(tài)s(t),本文通過緩存策略獲得將要執(zhí)行的緩存操作,緩存操作來指導(dǎo)具體緩存哪些內(nèi)容。緩存策略的性能由狀態(tài)值函數(shù)判斷,狀態(tài)值函數(shù)定義為

        (7)

        由于緩存策略和s(t)、a(t)和s(t+1)相關(guān)聯(lián),并且當(dāng)前的緩存操作對未來是有一定影響的。所以這個狀態(tài)值函數(shù)顯示了從當(dāng)前時間τ到無限時間的總回報,呈現(xiàn)累加的形式,又考慮到當(dāng)前操作對后續(xù)的影響逐漸減小,所以引入因折扣因子γ∈(0,1)來進行計算?;谏鲜鐾普?最優(yōu)緩存策略π*可以定義為

        (8)

        通過動作a從當(dāng)前狀態(tài)s到下一個狀態(tài)s′的轉(zhuǎn)移概率被定義為[Pa]ss′。通過貝爾曼方程,狀態(tài)值函數(shù)可以進一步推導(dǎo)為

        (9)

        最佳狀態(tài)值函數(shù)可以表示為

        (10)

        3 邊緣緩存算法設(shè)計

        通過強化學(xué)習(xí)算法可以得到最佳緩存策略以及最佳狀態(tài)值函數(shù)。如圖2所示,A3C算法是一種異步多線程強化學(xué)習(xí)算法,它包含一個全局網(wǎng)絡(luò)和多個actor-critic網(wǎng)絡(luò),actor網(wǎng)絡(luò)產(chǎn)生緩存策略,critic網(wǎng)絡(luò)提供一種評估機制來評估獲得的緩存策略[10]。每個worker定期將新更新的參數(shù)上傳到全局網(wǎng)絡(luò),全局網(wǎng)絡(luò)經(jīng)過經(jīng)驗整合及時將更新后的參數(shù)分發(fā)給所有worker。

        圖2 A3C架構(gòu)圖

        在全局網(wǎng)絡(luò)中,actor參數(shù)表示為θ,critic參數(shù)表示為θv。在每個worker中,actor參數(shù)表示為θ′,critic參數(shù)表示為θ′v。緩存策略表示為π(a|s;θ′)。如算法中所示,提出的基于A3C的邊緣緩存算法是N步返回算法,即單個worker步數(shù)達到MAX_STEP時又從初始狀態(tài)開始。所以本文定義動作狀態(tài)值函數(shù)R為

        R=Bi+γBi+1+γ2Bi+2+…+γt-iR

        (11)

        其中i∈{t-1,t-2,…,t-N},N個連續(xù)狀態(tài)中的動作狀態(tài)值是相關(guān)的。

        基于A3C的邊緣緩存算法:

        輸入:初始化值Tmax、tmax,折扣因子γ

        輸出:緩存策略

        初始化參數(shù)時刻t=1,總迭代次數(shù)T=0

        repeat

        重置梯度dθ=0,dθv=0

        更新worker異步線程參數(shù)θ′=θ,θ′v=θv

        軌跡中的時間序列tstart=t

        獲取當(dāng)前時刻狀態(tài)St

        repeat

        根據(jù)緩存策略和當(dāng)前狀態(tài)選擇動作

        at=π(at|st;θ′)

        根據(jù)動作at跳轉(zhuǎn)到狀態(tài)st+1并獲得

        即時獎勵rt

        t=t+1,T=T+1

        until st==terminal或者t-tstart==tmax

        fori∈{t-1,…,tstart}do

        R=ri+γR

        累計計算梯度θ′

        dθ=dθ+?θ′logπ(ai|si;θ′)(R-V(si;θ′v))

        累計計算梯度θ′v

        dθv=dθv+?(R-V(si;θ′v))2/?θ′v

        end for

        將當(dāng)前worker計算獲得的累計梯度異

        步更新到全局網(wǎng)絡(luò)

        until T>Tmax

        4 實驗研究

        4.1 實驗設(shè)置

        為了驗證所提架構(gòu)的性能,進行了模擬仿真。測試的實驗平臺操作系統(tǒng)為Windows10,CPU為2.9GHz,運行內(nèi)存為16GB。本文對緩存系統(tǒng)中的各部分設(shè)置了初始化參數(shù),其中內(nèi)容總數(shù)F=1500、一級緩存容量M=700、二級緩存容量E=300。緩存操作成本及獎勵部分公式的參數(shù)設(shè)置為:λ1=10,λ2=60,λ3=600,λ4=1000。各層Zipf模型的參數(shù)分別為ηl=1.2、ηm=1.5、ηg=1.7。

        4.2 仿真結(jié)果分析

        圖3顯示了緩存命中率和邊緣節(jié)點緩存容量的關(guān)系,在內(nèi)容總數(shù)不變的情況下,邊緣節(jié)點緩存容量較低時,緩存命中率也比較低。當(dāng)邊緣節(jié)點的緩存容量增加時,對于不同的緩存策略,緩存命中率都有不同程度的提高。相比于其它緩存策略,提出的HCEA緩存架構(gòu)表現(xiàn)出了相對較好的緩存命中率,比較適應(yīng)于現(xiàn)實中的緩存場景。

        圖3 緩存命中率與邊緣緩存容量

        如圖4所示,在邊緣節(jié)點緩存容量和流行度分布等參數(shù)不變的情況下。隨著迭代次數(shù)的增加,緩存命中率剛開始是逐漸增大的,后期隨著緩存系統(tǒng)逐漸適應(yīng)環(huán)境,緩存命中率逐漸趨于穩(wěn)定。提出的HCEA緩存架構(gòu)幾乎滿足了用戶65%的內(nèi)容請求,其命中率比Q-Learning、LRU、LFU和FIFO分別高出約4%、10%、13%和17%。

        圖4 緩存命中率與迭代次數(shù)

        對于遷移學(xué)習(xí)解決新增節(jié)點的冷啟動問題,本文同樣做了實驗驗證,并對比了不使用傳遞來的神經(jīng)網(wǎng)絡(luò)參數(shù)和使用傳遞來的神經(jīng)網(wǎng)絡(luò)參數(shù)這兩種訓(xùn)練。從圖5中的訓(xùn)練結(jié)果可以看出,在使用遷移學(xué)習(xí)的情況下,新增節(jié)點將更快地達到收斂狀態(tài),從而更快找到最佳緩存策略。

        圖5 遷移學(xué)習(xí)的A3C性能比較

        5 結(jié)論

        在本文中,為了解決用戶在進行內(nèi)容訪問時的延遲問題,提出了一種基于強化學(xué)習(xí)的分層協(xié)作邊緣緩存架構(gòu)HCEA。為了評價架構(gòu)的性能進行了仿真,將其與Q-Learning、LRU、LFU和FIFO算法進行了比較。仿真結(jié)果表明,所提出的架構(gòu)在緩存命中率及解決冷啟動問題方面是有效的。本次工作仍有一些不足之處需要在以后的工作中完善。本研究只考慮了內(nèi)容的流行性,沒有內(nèi)容的特征。內(nèi)容之間是有相似性的,接下來的研究中將在緩存架構(gòu)中考慮到這一點。

        猜你喜歡
        內(nèi)容用戶策略
        內(nèi)容回顧溫故知新
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        Passage Four
        av网站不卡的av在线| 伊人久久大香线蕉免费视频| 久久夜色精品国产亚洲噜噜| 国内激情一区二区视频| 岛国熟女精品一区二区三区| 最新中文字幕av无码不卡| 少妇厨房愉情理伦片bd在线观看| 爆乳日韩尤物无码一区| 精品不卡视频在线网址| 亚洲狠狠婷婷综合久久久久| 亚洲熟女乱色综合亚洲图片| 欧美成人在线A免费观看| 久久国产亚洲av高清色| 女同精品一区二区久久| 色噜噜狠狠狠综合曰曰曰| 国产激情电影综合在线看| 中文字幕亚洲乱亚洲乱妇| 日本在线观看不卡一区二区| 色综合av综合无码综合网站| 97免费人妻在线视频| 国产成人久久精品流白浆| 久久精品熟女亚洲av香蕉 | 人妻仑乱a级毛片免费看| 国产亚洲精品久久久久秋霞| 嗯啊 不要 啊啊在线日韩a| 蜜桃av中文字幕在线观看| 国产av无码专区亚洲avjulia| 国产精品爽爽va在线观看无码| 国产精品女同学| 日韩人妻系列在线观看| 久久精品无码一区二区三区免费| 中文字幕国产欧美| 91国语对白在线观看| 亚洲丁香婷婷久久一区二区| 国产性生交xxxxx免费| 亚洲欧美成人中文在线网站| 国产一品二品三区在线观看| 狠狠精品久久久无码中文字幕 | 国产h视频在线观看| 91视频免费国产成人| 精品国产夫妻自拍av|