亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的虛擬網(wǎng)絡(luò)功能部署優(yōu)化算法

        2021-06-24 09:39:38賀蘭欽連沁怡
        電子與信息學(xué)報(bào) 2021年6期
        關(guān)鍵詞:深度動(dòng)作成本

        唐 倫 賀蘭欽* 連沁怡 譚 頎

        1 引言

        近年來,網(wǎng)絡(luò)功能虛擬化技術(shù)作為網(wǎng)絡(luò)服務(wù)提供的一個(gè)重要范式轉(zhuǎn)變,受到了業(yè)界和學(xué)術(shù)界廣泛的關(guān)注,在網(wǎng)絡(luò)功能虛擬化 (Network Function Virtualization, NFV)架構(gòu)下,一系列虛擬網(wǎng)絡(luò)功能 (Virtual Network Function, VNF)按照特定的順序構(gòu)成的服務(wù)功能鏈(Service Function Chain,SFC)為用戶提供服務(wù)[1],相同類型的VNF可以部署或者重新實(shí)例化在不同通用服務(wù)器上,不需要重新購買硬件。

        在網(wǎng)絡(luò)功能虛擬化/軟件定義網(wǎng)絡(luò) (Network Function Virtualization/Software Defined Network, NFV/SDN)架構(gòu)下,VNF部署需要解決問題的關(guān)鍵是如何在有限的物理資源中選擇滿足服務(wù)需求的物理通用服務(wù)器和物理鏈路進(jìn)行部署,在保證網(wǎng)絡(luò)性能的同時(shí),最大化資源利用率[2]。

        目前,已有大量工作對(duì)VNF部署機(jī)制展開了研究,其中,文獻(xiàn)[3]在保證用戶服務(wù)質(zhì)量(Quality of Service, QoS)的同時(shí),減少運(yùn)營商的成本,但是它采用的是靜態(tài)VNF部署策略,由于網(wǎng)絡(luò)環(huán)境是動(dòng)態(tài)變化的,需要考慮長時(shí)間的優(yōu)化,文獻(xiàn)[4]在SFC部署的時(shí)候,以最小化SFC端到端時(shí)延為目標(biāo),通過減少SFC傳輸時(shí)延和處理時(shí)延達(dá)到減少SFC端到端時(shí)延的目的,但是沒有關(guān)注到物理網(wǎng)絡(luò)資源利用率的情況,在文獻(xiàn)[5]中,在考慮服務(wù)器資源容量和流速率的同時(shí),平衡VNF的操作成本、維護(hù)VNF實(shí)例成本以及VNF部署成本,但是沒有考慮SFC時(shí)延,進(jìn)而忽略了用戶的QoS。

        綜上所述,在目前研究VNF部署的相關(guān)文獻(xiàn)中,大多數(shù)文獻(xiàn)研究都是基于環(huán)境狀態(tài)已知的情況下,沒有考慮到環(huán)境隨時(shí)間的動(dòng)態(tài)變化,而且沒有考慮到大量的網(wǎng)絡(luò)業(yè)務(wù)請(qǐng)求達(dá)到,引起業(yè)務(wù)請(qǐng)求積壓,進(jìn)而影響網(wǎng)絡(luò)穩(wěn)定性問題,而且在考慮SFC部署成本的同時(shí),沒有保證用戶的QoS。本文針對(duì)網(wǎng)絡(luò)服務(wù)請(qǐng)求動(dòng)態(tài)到達(dá)引起的SFC部署優(yōu)化問題,提出了一種基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的虛擬網(wǎng)絡(luò)功能部署算法,本文主要貢獻(xiàn)有:(1) 將隨機(jī)優(yōu)化問題建立為馬爾科夫決策過程(Markov Decision Process,MDP)模型,該模型聯(lián)合優(yōu)化SFC端到端時(shí)延和SFC部署成本,同時(shí)受限于每條SFC的端到端時(shí)延以及通用服務(wù)器CPU資源、物理鏈路帶寬資源約束;(2) 在VNF部署和資源分配的過程中,存在狀態(tài)空間過大、動(dòng)作空間維度高、狀態(tài)轉(zhuǎn)移概率未知等問題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的VNF智能部署算法,本算法通過神經(jīng)網(wǎng)絡(luò)近似最優(yōu)動(dòng)作值函數(shù),從而得到近似最優(yōu)的VNF部署策略和資源分配策略;(3) 針對(duì)深度強(qiáng)化學(xué)習(xí)代理通過ε貪婪算法進(jìn)行動(dòng)作探索和利用,造成神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率低、收斂速度慢等問題,提出了一種基于值函數(shù)差異的動(dòng)作探索和利用方法,并進(jìn)一步采用雙重經(jīng)驗(yàn)回放池,解決經(jīng)驗(yàn)樣本利用率低的問題,加速訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

        2 系統(tǒng)模型

        2.1 網(wǎng)絡(luò)場景

        本文采用NFV編排和控制架構(gòu)[6],如圖1所示,主要分為3層。

        2.2 網(wǎng)絡(luò)模型

        2.2.1 物理網(wǎng)絡(luò)

        圖1 系統(tǒng)模型

        2.2.4 SFC部署成本模型

        2.2.3 SFC時(shí)延模型

        2.3 優(yōu)化目標(biāo)

        本文主要考慮的問題是:在保證用戶時(shí)延的同時(shí)最小化SFC的部署成本,并將物理通用服務(wù)器的CPU資源、物理鏈路帶寬資源以及SFC端到端時(shí)延作為約束條件,設(shè)計(jì)了一個(gè)效用函數(shù)U(t),將其定義為

        該優(yōu)化目標(biāo)受到C1~C6限制條件約束,保證優(yōu)化目標(biāo)的有效性。C1用于保證虛擬網(wǎng)絡(luò)中每個(gè)VNF只能選擇一個(gè)服務(wù)器進(jìn)行映射。C2確保每臺(tái)通用服務(wù)器分配給映射在其上的VNF CPU資源之和不能超過該通用服務(wù)器的CPU容量。C3用于保證通用服務(wù)器的資源利用率,即每臺(tái)通用服務(wù)器的剩余CPU資源低于閾值,否則將不會(huì)使用,進(jìn)一步達(dá)到節(jié)能的效果。C4表示映射到某條物理鏈路上的所有虛擬鏈路數(shù)據(jù)量之和不能超過該物理鏈路的總帶寬資源。C5用于保證每條SFC的隊(duì)列長度不溢出。C6用于保證每條SFC在任何時(shí)隙都要滿足時(shí)延要求。C7表示VNF映射的二進(jìn)制變量。

        本文將該隨機(jī)優(yōu)化問題轉(zhuǎn)化成一個(gè)MDP模型,主要包含狀態(tài)空間、動(dòng)作空間和回報(bào)函數(shù)。

        設(shè)狀態(tài)空間為 X,且定義x(t)表示網(wǎng)絡(luò)在時(shí)隙t時(shí)的狀態(tài),由每條SFC的隊(duì)列狀態(tài),物理鏈路帶寬剩余資源和通用服務(wù)器剩余CPU資源構(gòu)成,其表達(dá)式為

        值得注意的是,動(dòng)作空間需要滿足式(7)中的約束C1~C6。

        在網(wǎng)絡(luò)狀態(tài)x(t)采取動(dòng)作a(t)后,網(wǎng)絡(luò)環(huán)境會(huì)得到即時(shí)獎(jiǎng)勵(lì)r(x(t),a(t)),本文的獎(jiǎng)勵(lì)為效用函數(shù),則r(x(t),a(t))定義為

        設(shè)網(wǎng)絡(luò)初始狀態(tài)x(0)的動(dòng)作策略為π ,即π :x →a,具體表示為

        通常最優(yōu)策略 π*是通過動(dòng)作值函數(shù)Qπ(x,a)得到的,即

        動(dòng)作值函數(shù)Qπ(x(t),a(t))是用來評(píng)判當(dāng)前狀態(tài)為x(t)時(shí)選擇行為a(t)的好壞,可以通過貝爾曼方程迭代獲得,即

        其中,γ ∈(0,1)表示折扣因子。

        則最優(yōu)動(dòng)作值函數(shù)Q*(x(t),a(t))可以表示為

        最優(yōu)動(dòng)作值函數(shù)Q*(x(t),a(t))對(duì)應(yīng)著當(dāng)前狀態(tài)x(t)下采取的最優(yōu)動(dòng)作a*(t),將其表示為

        3 基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的VNF部署算法

        由式(15)知,當(dāng)獲取到每時(shí)隙狀態(tài)的最優(yōu)值函數(shù),便可得到狀態(tài)對(duì)應(yīng)的最優(yōu)動(dòng)作,且每時(shí)隙的最優(yōu)動(dòng)作就構(gòu)成了最優(yōu)策略π *,由于本文中數(shù)據(jù)包的到達(dá)是隨機(jī)的,狀態(tài)轉(zhuǎn)移概率很難獲知,因此無法使用值迭代的方式進(jìn)行求解,同時(shí),傳統(tǒng)的基于模型的優(yōu)化方法通常要作一些假設(shè),存在一定的局限性。根據(jù)式(7),本文的關(guān)鍵問題是確定待VNF部署的目標(biāo)服務(wù)器和資源分配策略,文獻(xiàn)[10]中的Q學(xué)習(xí)算法可以用來直接解決上述問題,但是本文的狀態(tài)空間和動(dòng)作空間都是連續(xù)值集合,Q學(xué)習(xí)算法面臨維度災(zāi)、收斂速度慢等問題。本文接下來提出一種基于改進(jìn)深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)的虛擬網(wǎng)絡(luò)功能在線部署算法,該算法通過神經(jīng)網(wǎng)絡(luò)近似動(dòng)作值函數(shù),解決維度災(zāi)的問題,并且通過基于探索的值函數(shù)差異(Value-Difference Based Exploration, VDBE)方法[11]擴(kuò)展ε貪婪策略,平衡代理在動(dòng)作選取時(shí)的探索和利用問題,進(jìn)一步針對(duì)傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法從經(jīng)驗(yàn)回放池中抽取訓(xùn)練樣本利用效率低的問題,設(shè)置了雙重經(jīng)驗(yàn)回放池,加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法框架如圖2所示。

        圖2 改進(jìn)深度強(qiáng)化學(xué)習(xí)算法框架

        在該算法框架中,式(14)中Q*(x(t),a(t))的值是通過critic網(wǎng)絡(luò)中估計(jì)Q網(wǎng)絡(luò)近似得到,即

        其中, θQ表示估計(jì)Q網(wǎng)絡(luò)的權(quán)重,a(t)是通過actor網(wǎng)絡(luò)輸出得到的。

        critic網(wǎng)絡(luò)中的TD-error定義為

        進(jìn)一步,估計(jì)Q網(wǎng)絡(luò)的損失函數(shù)就可以表示為

        當(dāng)從經(jīng)驗(yàn)回放池中抽取 N個(gè)樣本時(shí),損失函數(shù)就變?yōu)?/p>

        然后采用隨機(jī)梯度下降算法對(duì)估計(jì)Q網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。

        actor網(wǎng)絡(luò)的作用是得到一個(gè)確定性策略π(x,θμ),其中θμ表示估計(jì)actor網(wǎng)絡(luò)的權(quán)重,等到神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練完成之后,就可以得到近似最優(yōu)策略,即

        其中,Q(x(t),a(t),θQ)是通過估計(jì)Q網(wǎng)絡(luò)得到的。

        在經(jīng)驗(yàn)回放池抽取 N個(gè)樣本后,策略梯度可以轉(zhuǎn)化為

        最后,為了探索最優(yōu)動(dòng)作,篩選出更好的策略問題,引入隨機(jī)噪聲,從而獲得動(dòng)作,即

        其中, N表示隨機(jī)過程。

        其中, σ表示一個(gè)正數(shù),稱為反向靈敏度,σ 的值越小,探索概率就越大,δ ∈[0,1)表示所選動(dòng)作對(duì)探索概率的影響參數(shù),通常δ的值為當(dāng)前狀態(tài)下可以采取動(dòng)作總數(shù)的倒數(shù)[11],即δ =1/|A(x)|。

        在深度強(qiáng)化學(xué)習(xí)代理開始訓(xùn)練的時(shí)候,通常將h(x(0))設(shè)置為1。另外,由于本文的狀態(tài)空間過大,因此本文采用深度神經(jīng)網(wǎng)絡(luò)去近似h(x(t))的值,然后將該深度神經(jīng)網(wǎng)絡(luò)定義為? 網(wǎng)絡(luò)。

        該神經(jīng)網(wǎng)絡(luò)的輸入為狀態(tài)(x(t)),輸出為?h(x(t)),即

        該神經(jīng)網(wǎng)絡(luò)的參數(shù)通過最小化損失函數(shù)L(w)進(jìn)行訓(xùn)練,表示為

        其中, w表示網(wǎng)絡(luò)的權(quán)重,y(t)表示目標(biāo)值,將其表示為

        從經(jīng)驗(yàn)回放池抽取 N個(gè)樣本后,h 網(wǎng)絡(luò)的損失函數(shù)通過式(27)計(jì)算得到

        最后采用隨機(jī)梯度下降算法對(duì) h網(wǎng)絡(luò)參數(shù)w 進(jìn)行更新。

        另外,由于傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法對(duì)經(jīng)驗(yàn)回放池的樣本是隨機(jī)采樣,有些無用的樣本被重復(fù)使用,導(dǎo)致樣本的利用率低下,于是本文提出雙重經(jīng)驗(yàn)回放池架構(gòu),利用TD-error的值來區(qū)分樣本的好壞,當(dāng)TD-error的絕對(duì)值很大的,δ(t)>Λ,其中, Λ表示一個(gè)正數(shù),說明當(dāng)前樣本對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)重改變大,給神經(jīng)網(wǎng)絡(luò)帶來的信息量多,在后面的訓(xùn)練過程中,優(yōu)先選擇該樣本[12]。于是將這種樣本存儲(chǔ)到有效經(jīng)驗(yàn)回放池中,另外,考慮到一般性,防止過擬合的現(xiàn)象發(fā)生,同時(shí)也需要從所有的樣本值進(jìn)行隨機(jī)采樣,于是在每個(gè)時(shí)隙,假設(shè)深度強(qiáng)化學(xué)習(xí)代理需要抽取的樣本集大小為 N,則從有效經(jīng)驗(yàn)回放池中抽取(1-γ)·N個(gè)樣本,從一般經(jīng)驗(yàn)回放池中抽取γ·N個(gè)樣本進(jìn)行訓(xùn)練,其中γ表示權(quán)重值。

        4 性能仿真與分析

        為了評(píng)估算法的有效性以及收斂性,本文將SFC端到端時(shí)延、SFC部署成本、資源利用率等作為算法評(píng)價(jià)標(biāo)準(zhǔn),對(duì)所提算法進(jìn)行仿真驗(yàn)證。為了更好地評(píng)估基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的VNF在線部署算法的有效性,與文獻(xiàn)[13]基于遺傳算法(Genetic Algorithm,GA)的VNF部署算法,文獻(xiàn)[14]中的DDPG算法以及文獻(xiàn)[15]中的深度信念網(wǎng)絡(luò)-服務(wù)功能鏈 (Deep Q Network-Service Function Chain, DQN-SFC)算法進(jìn)行了對(duì)比,所有仿真實(shí)驗(yàn)均在i7 CPU和內(nèi)存為8 GB的主機(jī)上運(yùn)行,仿真平臺(tái)主要基于Python 3.6,通過TensorFlow模塊對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行搭建。

        4.1 參數(shù)設(shè)置

        本文假設(shè)物理網(wǎng)絡(luò)為全連接網(wǎng)絡(luò),其中包括6臺(tái)物理通用服務(wù)器,假設(shè)每條SFC由2~5個(gè)VNF構(gòu)成,另外參考文獻(xiàn)[9]對(duì)相關(guān)參數(shù)進(jìn)行設(shè)置,具體網(wǎng)絡(luò)參數(shù)如表1所示。

        4.2 仿真分析

        由于本文數(shù)據(jù)包的到達(dá)是隨機(jī)的、狀態(tài)空間大以及VNF部署和資源分配的動(dòng)作空間維度高,因此采用改進(jìn)深度強(qiáng)化學(xué)習(xí)算法去近似狀態(tài)Q值,得到近似最優(yōu)的VNF部署和資源分配策略,圖3證明了本文所提改進(jìn)深度強(qiáng)化學(xué)習(xí)算法收斂性,并且在相同的學(xué)習(xí)率α=0.0001下,對(duì)比DDPG算法,在訓(xùn)練50次的時(shí)候,改進(jìn)深度強(qiáng)化學(xué)習(xí)算法已經(jīng)收斂,而DDPG算法大約在訓(xùn)練100次的時(shí)候收斂,因此改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法能夠快速收斂,原因是本文所提算法在DDPG算法基礎(chǔ)上,改進(jìn)動(dòng)作探索和利用,解決經(jīng)驗(yàn)池樣本利用率低的問題。

        表1 網(wǎng)絡(luò)場景的仿真參數(shù)

        圖4、圖5分別表示在相同的SFC數(shù)量下,本文所提基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的VNF在線部署算法與其他3種算法在系統(tǒng)總時(shí)延和部署成本方面的對(duì)比。在此仿真過程中,設(shè)置權(quán)重值e1,e2都為0.5。

        圖3 損失函數(shù)對(duì)比

        圖4 系統(tǒng)總時(shí)延對(duì)比

        從圖4、圖5可以看出,隨著SFC數(shù)量的增加,4種算法下的部署成本和系統(tǒng)總時(shí)延都將增大,由于GA算法只對(duì)時(shí)延進(jìn)行優(yōu)化,所以它的系統(tǒng)總時(shí)延是最低的,但是其沒有考慮VNF的部署成本,沒有進(jìn)行合理的資源分配,導(dǎo)致其產(chǎn)生的部署成本是最大的,DQN-SFC算法由于同時(shí)優(yōu)化時(shí)延和部署失敗產(chǎn)生的運(yùn)維開銷,故它的總時(shí)延比GA算法要高,其次,DQN算法適用于解決離散的動(dòng)作空間,由于本文的動(dòng)作空間是連續(xù)值,故DQNSFC算法在優(yōu)化時(shí)延和VNF部署成本方面明顯劣于DDPG算法和改進(jìn)深度強(qiáng)化學(xué)習(xí)算法,而且改進(jìn)深度強(qiáng)化學(xué)習(xí)算法比DDPG算法在部署成本和系統(tǒng)總時(shí)延方面更低,這是因?yàn)楦倪M(jìn)深度強(qiáng)化學(xué)習(xí)算法在DDPG算法基礎(chǔ)上通過狀態(tài)值函數(shù)差異去刻畫每時(shí)隙動(dòng)作的探索率,使其能夠找到更優(yōu)的動(dòng)作,進(jìn)而獲得更好的獎(jiǎng)勵(lì)值,因此改進(jìn)深度強(qiáng)化學(xué)習(xí)算法的效用是最大的,如圖6所示,由于隨SFC數(shù)量增加時(shí)系統(tǒng)總時(shí)延和總部署成本增大,導(dǎo)致效用也會(huì)隨SFC數(shù)量增加而減少,其中,DQN-SFC算法的效用下降最快,而改進(jìn)深度強(qiáng)化學(xué)習(xí)中的效用下降最慢。

        圖5 部署成本對(duì)比

        圖6 效用對(duì)比

        5 結(jié)論

        針對(duì)NFV/SDN架構(gòu)下網(wǎng)絡(luò)服務(wù)請(qǐng)求動(dòng)態(tài)到達(dá)引起的VNF部署優(yōu)化問題,本文首先將隨機(jī)優(yōu)化問題建立為一個(gè)MDP模型,該模型以最小化SFC部署成本和時(shí)延成本為目標(biāo),同時(shí)受限于每條SFC時(shí)延、通用服務(wù)器CPU資源以及物理鏈路帶寬資源約束,其次提出一種基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的VNF在線部署算法,通過深度神經(jīng)網(wǎng)絡(luò)去近似最優(yōu)的動(dòng)作狀態(tài)值函數(shù),從而獲得近似最優(yōu)的VNF部署策略和資源分配策略,最后提出一種基于探索的值函數(shù)差異方法去動(dòng)態(tài)地刻畫動(dòng)作探索率,并采用雙重經(jīng)驗(yàn)回放池,解決經(jīng)驗(yàn)樣本利用率低的問題。仿真結(jié)果顯示,本文所提算法能夠加速收斂,并能夠優(yōu)化SFC端到端時(shí)延和部署成本。

        猜你喜歡
        深度動(dòng)作成本
        2021年最新酒駕成本清單
        河南電力(2021年5期)2021-05-29 02:10:00
        深度理解一元一次方程
        深度觀察
        深度觀察
        溫子仁,你還是適合拍小成本
        電影(2018年12期)2018-12-23 02:18:48
        深度觀察
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        非同一般的吃飯動(dòng)作
        青青草原亚洲在线视频| 亚洲国产一区二区a毛片| 欧美国产日韩a在线视频| 中出高潮了中文字幕| 日韩美女人妻一区二区三区| 日韩人妖视频一区二区| 免费网站看av片| 无码人妻丰满熟妇精品区| 丰满少妇棚拍无码视频| 日本不卡不二三区在线看| 久久久久久久亚洲av无码| 中日韩精品视频在线观看| 亚洲乱码一区二区三区成人小说 | 日韩av无码成人无码免费| 久久精品中文字幕第一页| 亚洲综合一区二区三区在线观看| 久久亚洲精品情侣| 看国产黄大片在线观看| 久久婷婷国产精品香蕉| 日韩精品一区二区亚洲专区| 免费国产在线精品一区| 性欧美大战久久久久久久久| 久久99亚洲综合精品首页| 特级黄色大片性久久久| 亚洲av无码专区在线观看成人| 成在人线av无码免费| 欧洲一级无码AV毛片免费| 日本午夜剧场日本东京热| 亚欧中文字幕久久精品无码| 久久香蕉国产线看观看网| 视频精品亚洲一区二区| 看女人毛茸茸下面视频 | 国产乱人伦偷精品视频| 亚洲AV成人无码天堂| 放荡成熟人妻中文字幕| 久久视频在线| 男女一级毛片免费视频看| 日韩激情av不卡在线| 日本真人边吃奶边做爽电影| 永久免费无码av在线网站 | 日韩精品一区二区三区在线视频|