亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略研究

        2024-09-19 00:00:00辛銳吳軍英薛冰張鵬飛李艷軍柴守亮王佳楠
        無(wú)線(xiàn)電工程 2024年6期

        摘 要:軟件定義電力物聯(lián)網(wǎng)支持構(gòu)建承載不同業(yè)務(wù)的網(wǎng)絡(luò)切片(Network Slice,NS),通過(guò)部署NS 為具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)。業(yè)務(wù)NS 的部署涉及2 個(gè)互相耦合的問(wèn)題,即虛擬網(wǎng)絡(luò)功能(Virtual Network Function,VNF) 部署和業(yè)務(wù)傳輸路由確定。在海量業(yè)務(wù)需求與動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景中,NS 部署方案需要根據(jù)網(wǎng)絡(luò)狀態(tài),實(shí)現(xiàn)智能的動(dòng)態(tài)靈活部署。針對(duì)上述問(wèn)題,研究動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景下的切片策略,基于深度強(qiáng)化學(xué)習(xí)算法求解VNF 部署和業(yè)務(wù)傳輸路由確定這一復(fù)雜聯(lián)合優(yōu)化問(wèn)題,實(shí)驗(yàn)證明所提策略能根據(jù)目前的網(wǎng)絡(luò)狀態(tài)靈活地改變部署方案,控制業(yè)務(wù)路由平均能量損耗、平均可靠性和平均剩余帶寬占有率,提高了網(wǎng)絡(luò)整體傳輸性能。

        關(guān)鍵詞:軟件定義電力物聯(lián)網(wǎng);切片;虛擬網(wǎng)絡(luò)功能;路由;深度強(qiáng)化學(xué)習(xí)

        中圖分類(lèi)號(hào):TM73 文獻(xiàn)標(biāo)志碼:A 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        文章編號(hào):1003-3106(2024)06-1380-08

        0 引言

        電力物聯(lián)網(wǎng)[1]是物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中應(yīng)用的產(chǎn)物。近年來(lái),電力物聯(lián)網(wǎng)規(guī)模不斷增大,承載的業(yè)務(wù)種類(lèi)也日益繁多,導(dǎo)致業(yè)務(wù)數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。在這種情況下,為給眾多物聯(lián)網(wǎng)設(shè)備提供服務(wù),供應(yīng)商需要頻繁更換硬件設(shè)備、分配帶寬資源等。然而事實(shí)上,更換硬件設(shè)備的成本高,而且軟硬件耦合[2]、網(wǎng)絡(luò)封閉化,使得服務(wù)成本高昂、服務(wù)效率低下,給電力物聯(lián)網(wǎng)的發(fā)展帶來(lái)了巨大挑戰(zhàn)。隨著軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)和網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization,NFV)[3]的出現(xiàn),網(wǎng)絡(luò)切片(Network Slice,NS)[4]應(yīng)運(yùn)而生,研究者們提出了軟件定義電力物聯(lián)網(wǎng)[5],為解決上述問(wèn)題提供了新的思路。

        新思路的關(guān)鍵是:依據(jù)不同電力業(yè)務(wù)需求的特點(diǎn),將軟件定義電力物聯(lián)網(wǎng)抽象為多個(gè)獨(dú)立的虛擬化邏輯網(wǎng)絡(luò),即業(yè)務(wù)NS,NS 承載具有對(duì)應(yīng)業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備;利用NFV 實(shí)現(xiàn)軟硬件解耦,通過(guò)Docker 容器在物聯(lián)網(wǎng)網(wǎng)關(guān)部署多個(gè)虛擬網(wǎng)絡(luò)功能(Virtual Network Function,VNF)[6],物聯(lián)網(wǎng)設(shè)備按需激活網(wǎng)關(guān)上的VNF,并傳輸業(yè)務(wù)數(shù)據(jù)。借此,軟件定義電力物聯(lián)網(wǎng)可以通過(guò)軟件編程部署業(yè)務(wù)NS,實(shí)現(xiàn)為物聯(lián)網(wǎng)設(shè)備靈活提供端到端服務(wù)的目標(biāo)。然而,在NS 部署過(guò)程中,面臨以下問(wèn)題:一是網(wǎng)絡(luò)中存在多個(gè)網(wǎng)關(guān),業(yè)務(wù)NS 承載的物聯(lián)網(wǎng)設(shè)備難以選擇合適的網(wǎng)關(guān)進(jìn)行部署并激活所需的VNF;二是物聯(lián)網(wǎng)設(shè)備在向網(wǎng)關(guān)傳輸業(yè)務(wù)數(shù)據(jù)時(shí),使用的路由是基于最短路徑的固定路由,無(wú)法根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)改變。當(dāng)業(yè)務(wù)數(shù)據(jù)量增大時(shí),可能會(huì)導(dǎo)致鏈路擁塞,降低路由質(zhì)量,從而影響服務(wù)的可靠性。

        針對(duì)上述問(wèn)題,學(xué)術(shù)界已經(jīng)開(kāi)展了面向NS 部署的相關(guān)研究。Guan 等[7]采用復(fù)雜網(wǎng)絡(luò)理論獲取網(wǎng)絡(luò)拓?fù)湫畔?,并通過(guò)定義節(jié)點(diǎn)重要性對(duì)設(shè)備節(jié)點(diǎn)進(jìn)行排序。然后選擇重要性高的設(shè)備來(lái)部署VNF,并使用KSP 算法計(jì)算多個(gè)VNF 之間的傳輸路由,以完成NS 部署。然而,這項(xiàng)研究不屬于電力物聯(lián)網(wǎng)領(lǐng)域,并且使用基于最短路徑的傳輸路由,無(wú)法根據(jù)網(wǎng)絡(luò)狀態(tài)進(jìn)行動(dòng)態(tài)調(diào)整。另一方面,王雅倩等[8]研究了電力物聯(lián)網(wǎng)NS 的VNF 部署問(wèn)題,并提出了基于升價(jià)匹配的多階段多對(duì)一部署算法。該算法能夠獲得更小的業(yè)務(wù)服務(wù)總時(shí)延,并滿(mǎn)足時(shí)延敏感業(yè)務(wù)的需求。然而,這項(xiàng)工作并未考慮如何確定業(yè)務(wù)的傳輸路由,因此在實(shí)際應(yīng)用中,NS 無(wú)法提供端到端的服務(wù)。此外,楊爽等[9]針對(duì)電力物聯(lián)網(wǎng)提出了一種基于模擬退火-粒子群算法的NS 部署方案。通過(guò)優(yōu)化節(jié)點(diǎn)映射和鏈路映射,該方案能夠得到較好的傳輸路由。然而,在節(jié)點(diǎn)映射過(guò)程中,忽略了節(jié)點(diǎn)種類(lèi)不同和VNF 部署位置等因素,與實(shí)際網(wǎng)絡(luò)特點(diǎn)不符。綜上所述,盡管已有關(guān)于電力物聯(lián)網(wǎng)NS部署的研究,但大多數(shù)工作只關(guān)注單個(gè)問(wèn)題,如VNF 部署或傳輸路由確定,而忽略了這兩方面是相互耦合的,且現(xiàn)有的傳輸路由也缺乏智能性。

        人工智能是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn)問(wèn)題之一,其中最具代表性的是深度學(xué)習(xí)[10]、強(qiáng)化學(xué)習(xí)[11]及深度強(qiáng)化學(xué)習(xí)[12]。在物聯(lián)網(wǎng)領(lǐng)域,Zhou 等[13]提出了一種基于Qlearning 的路由算法,通過(guò)計(jì)算設(shè)備節(jié)點(diǎn)的剩余能量和深度信息來(lái)選擇Q 值較大的路由,以減少數(shù)據(jù)傳輸時(shí)延。然而,由于實(shí)際網(wǎng)絡(luò)的復(fù)雜性,該算法的計(jì)算量較大,難以實(shí)現(xiàn)。在電力通信網(wǎng)絡(luò)領(lǐng)域,向敏等[14]提出了基于深度學(xué)習(xí)的路由策略,通過(guò)建立鏈路帶寬占用率預(yù)測(cè)模型,計(jì)算不同路由的選擇度,實(shí)驗(yàn)證明選擇的路由能有效減少傳輸時(shí)延。葉萬(wàn)余等[15]建立了面向電力物聯(lián)網(wǎng)業(yè)務(wù)的管理模型,使用深度強(qiáng)化學(xué)習(xí)算法,將電力業(yè)務(wù)傳輸路由的時(shí)延和可靠性作為優(yōu)化目標(biāo),為業(yè)務(wù)NS 按需分配鏈路帶寬資源。然而,以上研究都集中在智能方法如何確定路由或分配資源上,而忽略了NS部署涉及的VNF 部署問(wèn)題。因此,在軟件定義電力物聯(lián)網(wǎng)領(lǐng)域,還缺乏一種能夠系統(tǒng)地、智能地完成VNF 部署、傳輸路由確定和資源分配的工作。

        本文研究了基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略,實(shí)現(xiàn)在動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下靈活部署NS,為物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)。首先,簡(jiǎn)要描述了軟件定義電力物聯(lián)網(wǎng)的架構(gòu)和切片部署過(guò)程,通過(guò)SDN 控制器管理網(wǎng)絡(luò),提高業(yè)務(wù)服務(wù)的靈活性和高效性;然后,建立了動(dòng)態(tài)切片策略的數(shù)學(xué)模型,并以平均能量損耗、平均可靠性和平均剩余帶寬占有率為優(yōu)化目標(biāo),提出深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)切片算法(DRL-DSA)求解切片策略,該策略能夠根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)調(diào)整NS 部署方案,以滿(mǎn)足不同業(yè)務(wù)數(shù)據(jù)量的需求;最后,通過(guò)仿真實(shí)驗(yàn),驗(yàn)證了所提策略在解決VNF 部署和業(yè)務(wù)傳輸路由確定這一聯(lián)合優(yōu)化問(wèn)題的同時(shí),保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率等性能,實(shí)現(xiàn)了NS 的動(dòng)態(tài)優(yōu)化部署。

        1 系統(tǒng)架構(gòu)及數(shù)學(xué)模型

        1. 1 系統(tǒng)架構(gòu)

        軟件定義電力物聯(lián)網(wǎng)的架構(gòu)如圖1 所示,包括3 層:物聯(lián)網(wǎng)設(shè)備層、網(wǎng)關(guān)層和控制器層。在物聯(lián)網(wǎng)設(shè)備層,多個(gè)物聯(lián)網(wǎng)設(shè)備互相連接構(gòu)成Mesh 網(wǎng)絡(luò),這些設(shè)備是支持SDN 功能,并能夠采集壓力、溫度和聲音等信息的無(wú)線(xiàn)傳感器。網(wǎng)關(guān)層包含一些支持SDN 功能的物聯(lián)網(wǎng)網(wǎng)關(guān),支持使用輕量級(jí)虛擬化技術(shù)如Docker 來(lái)部署VNF。物聯(lián)網(wǎng)設(shè)備采集的數(shù)據(jù)需要傳輸?shù)骄W(wǎng)關(guān)進(jìn)行邊緣計(jì)算??刂破鲗佑桑樱模慰刂破鹘M成,例如Ryu、NOX、OpenDayLight 等,控制器負(fù)責(zé)觀測(cè)網(wǎng)絡(luò)的實(shí)際狀態(tài),確定網(wǎng)關(guān)和傳輸路由,并為相關(guān)物聯(lián)網(wǎng)設(shè)備和網(wǎng)關(guān)安裝流表,通過(guò)管理網(wǎng)絡(luò)并控制業(yè)務(wù)數(shù)據(jù)的轉(zhuǎn)發(fā),提高業(yè)務(wù)服務(wù)的靈活性和高效性。此外,從圖中可以看出,軟件定義電力物聯(lián)網(wǎng)中可以存在多個(gè)業(yè)務(wù)NS。每個(gè)業(yè)務(wù)NS 承載著具有各自業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備,包含若干個(gè)業(yè)務(wù)流,通過(guò)部署業(yè)務(wù)NS,能夠有效地提供業(yè)務(wù)服務(wù),提高電力物聯(lián)網(wǎng)的并發(fā)性。當(dāng)部署業(yè)務(wù)NS 時(shí),需要從網(wǎng)關(guān)層中為物聯(lián)網(wǎng)設(shè)備選擇合適的網(wǎng)關(guān)來(lái)激活所需的VNF,并確定傳輸路由以傳輸業(yè)務(wù)數(shù)據(jù)。通過(guò)這種方式,軟件定義電力物聯(lián)網(wǎng)實(shí)現(xiàn)了為具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備提供端到端服務(wù)的目標(biāo)。

        所提動(dòng)態(tài)切片策略能根據(jù)網(wǎng)絡(luò)狀態(tài)調(diào)整NS 部署方案,支持同時(shí)確定VNF 部署和傳輸路由;在數(shù)學(xué)模型中,給出了計(jì)算NS 所需鏈路帶寬資源的方法。通過(guò)優(yōu)化動(dòng)態(tài)NS 部署方案,能提高網(wǎng)絡(luò)性能,為物聯(lián)網(wǎng)設(shè)備提高服務(wù)質(zhì)量。

        1. 2 數(shù)學(xué)模型

        軟件定義電力物聯(lián)網(wǎng)的節(jié)點(diǎn)集合N 由物聯(lián)網(wǎng)設(shè)備集合D、網(wǎng)關(guān)集合I、控制器集合B 組成,即N =D∪I∪B;鏈路集合E 由物聯(lián)網(wǎng)設(shè)備之間的鏈路集合ED 、物聯(lián)網(wǎng)設(shè)備與網(wǎng)關(guān)之間的鏈路集合EI、網(wǎng)關(guān)與控制器之間的鏈路集合EB 組成,即E = ED ∪EI∪EB 。

        假設(shè)業(yè)務(wù)NS 內(nèi),具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備集合為U,顯然U-D,物聯(lián)網(wǎng)設(shè)備節(jié)點(diǎn)nd ∈U;可被選擇部署VNF 的候選網(wǎng)關(guān)集合為G,顯然G-I,網(wǎng)關(guān)節(jié)點(diǎn)ni∈G;物聯(lián)網(wǎng)設(shè)備nd 到網(wǎng)關(guān)ni 的候選路由集合為Pdi,第k 條路徑pdik ∈Pdi。在不失一般性的情況下,不指定節(jié)點(diǎn)類(lèi)型而使用節(jié)點(diǎn)時(shí),用符號(hào)nu或nv 表示,符號(hào)euv 表示nu 與nv 之間的鏈路,符號(hào)Cuv 表示鏈路euv 的剩余帶寬大小。

        本文數(shù)學(xué)模型將選擇合適網(wǎng)關(guān)部署VNF 和確定物聯(lián)網(wǎng)設(shè)備到網(wǎng)關(guān)的傳輸路由這2 個(gè)問(wèn)題互相耦合。

        在部署NS 時(shí),若網(wǎng)關(guān)ni 被某具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備nd 選擇以部署VNF,則變量xi = 1,否則xi = 0。當(dāng)xi = 1 時(shí),若路由pdik ∈Pdi 被選擇,則變量ydik = 1,否則ydik = 0;當(dāng)xi = 0 時(shí),變量ydik = 0。滿(mǎn)足:

        NS 所服務(wù)的業(yè)務(wù)的帶寬需求為z,任意鏈路euv所需帶寬資源為buv:

        buv = αuv z, (8)

        buv ≤ Cuv 。(9)

        傳輸路由的能量損耗、可靠性和剩余帶寬占有率是大多數(shù)網(wǎng)絡(luò)研究中的主要問(wèn)題。在軟件定義電力物聯(lián)網(wǎng)業(yè)務(wù)NS 部署中,保障這3 個(gè)方面的性能,對(duì)提升端到端服務(wù)質(zhì)量具有重大意義。故本文聯(lián)合上述3 個(gè)性能構(gòu)建優(yōu)化目標(biāo)。

        能量損耗的計(jì)算采用經(jīng)典的二維功耗模型[16]。規(guī)定任意鏈路euv 的實(shí)際距離為luv m,任意設(shè)備接收t bit 數(shù)據(jù)將消耗式(10)所示能量,發(fā)送和傳輸t bit數(shù)據(jù)將消耗式(11)所示能量:

        聯(lián)合優(yōu)化目標(biāo)方程如式(17)所示,令該優(yōu)化目標(biāo)的值越大性能越好。

        maxy e-Eave + rel + wr 。 (17)

        2 動(dòng)態(tài)切片策略

        2. 1 馬爾科夫決策過(guò)程

        馬爾科夫決策過(guò)程是對(duì)完全可觀測(cè)環(huán)境進(jìn)行的描述。在使用深度強(qiáng)化學(xué)習(xí)求解前,要把待求解問(wèn)題建模為馬爾科夫決策過(guò)程。馬爾科夫決策過(guò)程包含獎(jiǎng)勵(lì)、決策,可用四元組(S,a,r,S′)表示,具體如下:

        ① S表示所有狀態(tài)的集合。

        ② a 表示選擇的動(dòng)作,從動(dòng)作空間選擇表示。

        ③ r(S,a,S′)表示在狀態(tài)S 下執(zhí)行動(dòng)作a,狀態(tài)轉(zhuǎn)移至新?tīng)顟B(tài)S′時(shí)獲得的獎(jiǎng)勵(lì)。

        ④ S′表示執(zhí)行動(dòng)作之后,新?tīng)顟B(tài)的集合。

        智能體通過(guò)觀察當(dāng)前環(huán)境狀態(tài)來(lái)選擇動(dòng)作,并將所選動(dòng)作應(yīng)用于環(huán)境中,接著環(huán)境會(huì)給予智能體反饋,包括執(zhí)行動(dòng)作所獲得的獎(jiǎng)勵(lì)和新的狀態(tài)。根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)和新?tīng)顟B(tài),智能體做出新的動(dòng)作決策。通過(guò)不斷重復(fù)上述過(guò)程,智能體進(jìn)行訓(xùn)練直到收斂,以達(dá)到理想的結(jié)果。在這個(gè)過(guò)程中,獎(jiǎng)勵(lì)的反饋過(guò)程體現(xiàn)了馬爾科夫決策過(guò)程的特點(diǎn)。

        2. 2 雙深度Q 網(wǎng)絡(luò)算法

        常見(jiàn)的深度強(qiáng)化學(xué)習(xí)方法有兩大類(lèi)[17]:基于值函數(shù)的學(xué)習(xí)方法和基于策略的學(xué)習(xí)方法。其中,深度Q 網(wǎng)絡(luò)(Deep Q-network,DQN)[18]算法和雙深度Q 網(wǎng)絡(luò)(Double Deep Q-network,DDQN)[19]算法是經(jīng)典的基于值函數(shù)的學(xué)習(xí)方法,適用于具有離散動(dòng)作空間的任務(wù),符合本場(chǎng)景需求。

        傳統(tǒng)DQN 算法會(huì)高估某些動(dòng)作的Q 值,導(dǎo)致智能體選擇的動(dòng)作不穩(wěn)定,于是,研究者提出DDQN算法對(duì)其優(yōu)化。DDQN 算法與DQN 算法的網(wǎng)絡(luò)構(gòu)造一致,均由一個(gè)訓(xùn)練網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò)組成。DDQN 算法在選擇下一個(gè)動(dòng)作時(shí)使用訓(xùn)練網(wǎng)絡(luò)來(lái)估計(jì)Q 值,但在評(píng)估下一個(gè)狀態(tài)的最佳動(dòng)作時(shí)使用目標(biāo)網(wǎng)絡(luò)來(lái)估計(jì)Q 值。計(jì)算如下:

        Qt(S,a) = r + γQt(S′,argmax a′(Q(S′,a′)))。(18)

        目標(biāo)網(wǎng)絡(luò)是一個(gè)與訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡(luò),用于計(jì)算目標(biāo)Q 值。訓(xùn)練網(wǎng)絡(luò)的參數(shù)實(shí)時(shí)更新,目標(biāo)網(wǎng)絡(luò)的參數(shù)每經(jīng)過(guò)固定步數(shù)后更新。參數(shù)更新的依據(jù)是,目標(biāo)網(wǎng)絡(luò)和訓(xùn)練網(wǎng)絡(luò)之間的Q值平方差反向傳播,計(jì)算如下:

        Loss = (Qt(S,a)- Q(S,a)) 2 。(19)

        逐步優(yōu)化2 個(gè)網(wǎng)絡(luò)的參數(shù),直至訓(xùn)練出穩(wěn)定的動(dòng)作價(jià)值函數(shù),能輸出最優(yōu)計(jì)算方案。

        另一方面,DDQN 算法需要大量的數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)。故要先構(gòu)造經(jīng)驗(yàn)回放池,將智能體隨機(jī)探索的數(shù)據(jù)以四元組的形式存放其中,當(dāng)存放數(shù)量達(dá)一定值后,智能體才能從池中隨機(jī)抽取樣本輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。從經(jīng)驗(yàn)回放池中隨機(jī)抽取樣本的操作,可以減小所抽樣本之間的相關(guān)性。

        2. 3 深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)切片算法

        為求解動(dòng)態(tài)切片策略中的VNF 部署和傳輸路由確定這一聯(lián)合優(yōu)化問(wèn)題,在DDQN 算法的基礎(chǔ)上,結(jié)合軟件定義電力物聯(lián)網(wǎng)場(chǎng)景,提出DRL-DSA。算法的整體框架如圖2 所示。

        狀態(tài)空間S 表示軟件定義電力物聯(lián)網(wǎng)的當(dāng)前狀態(tài)。狀態(tài)通過(guò)網(wǎng)絡(luò)鏈路描述,包括鏈路的節(jié)點(diǎn)信息、剩余帶寬資源等,計(jì)算如下:

        式中:nj1 和nj2 分別表示第j 條鏈路兩端點(diǎn),cj 表示第j 條鏈路的剩余帶寬資源,| E| 表示軟件定義電力物聯(lián)網(wǎng)中所有鏈路總數(shù)。

        動(dòng)作空間a 表示切片部署方案,包含網(wǎng)關(guān)選擇部署VNF 結(jié)果和傳輸路由結(jié)果。本文欲縮減動(dòng)作空間來(lái)降低計(jì)算復(fù)雜度,遂使用k-shortest paths 算法,為物聯(lián)網(wǎng)設(shè)備逐一選擇M 條到某個(gè)網(wǎng)關(guān)的傳輸路由,并構(gòu)造候選路由集合,計(jì)算如下:

        式中: |U| 表示NS 內(nèi)具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備總數(shù), |G |表示可能被選擇部署VNF 的網(wǎng)關(guān)總數(shù),d 和i 分別表示設(shè)備序號(hào)和網(wǎng)關(guān)序號(hào),pdik 表示候選路由集合中第k 條路徑。

        獎(jiǎng)勵(lì)函數(shù)r 由聯(lián)合優(yōu)化目標(biāo)確定,如式(22)所示。隨著業(yè)務(wù)數(shù)據(jù)量增大,若當(dāng)前所選的傳輸路由帶寬充足,將會(huì)獲得該獎(jiǎng)勵(lì),并繼續(xù)訓(xùn)練;否則停止訓(xùn)練。

        r = e-Eave + rel + w。(22)

        智能體為了處理盡可能多的多業(yè)務(wù)數(shù)據(jù),使每輪迭代的累計(jì)獎(jiǎng)勵(lì)值最大化,將靈活地選擇其他剩余帶寬充足的傳輸路由,這樣同時(shí)保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率。DRL-DSA 實(shí)現(xiàn)流程如算法1 所示。

        3 仿真分析

        3. 1 仿真環(huán)境及參數(shù)設(shè)計(jì)

        仿真環(huán)境使用Gym 框架編寫(xiě),仿真計(jì)算平臺(tái)為英特爾酷睿i7-10700 CPU,內(nèi)存為16 GB,GPU 為NVIDIA GeForce GTX 1660 SUPER,操作系統(tǒng)為Windows 10。

        實(shí)驗(yàn)?zāi)M構(gòu)建一個(gè)包含30 個(gè)物聯(lián)網(wǎng)設(shè)備,5 個(gè)物聯(lián)網(wǎng)網(wǎng)關(guān)的軟件定義電力物聯(lián)網(wǎng)拓?fù)?。其中業(yè)務(wù)NS 承載5 個(gè)具有業(yè)務(wù)需求的物聯(lián)網(wǎng)設(shè)備,候選3 個(gè)可被部署VNF 的物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)絡(luò)拓?fù)浞植荚冢常埃?m×300 m 范圍內(nèi),鏈路帶寬為1 000 ~ 2 500 B / s,各鏈路的故障率大小為0. 02 ~ 0. 09。

        本實(shí)驗(yàn)對(duì)比基于最短傳輸路由的SP 切片算法和基于DQN 的Baseline 切片算法,通過(guò)設(shè)置不同業(yè)務(wù)數(shù)據(jù)量進(jìn)行實(shí)驗(yàn),分析各個(gè)策略在平均能量損耗、平均可靠性、平均剩余帶寬占有率三方面的性能表現(xiàn),證明了本文求解出的動(dòng)態(tài)切片策略具有有效性和優(yōu)越性。其中,業(yè)務(wù)數(shù)據(jù)量大小在512 ~ 1 024 B / s。

        設(shè)定模型訓(xùn)練所需的其他參數(shù)值如表1 所示。

        3. 2 仿真結(jié)果分析

        所提DRL-DSA 切片算法和基于DQN 的Baseline 切片算法同屬于深度強(qiáng)化學(xué)習(xí)算法,故模型需要若干次重復(fù)訓(xùn)練,直至收斂,才能得到最優(yōu)的動(dòng)態(tài)切片策略,模型累積的獎(jiǎng)勵(lì)值將在一個(gè)小范圍內(nèi)波動(dòng),基本保持穩(wěn)定。圖3 展示了二者的獎(jiǎng)勵(lì)值變化,當(dāng)均達(dá)到收斂狀態(tài)時(shí),DRL-DSA 獲得的累積獎(jiǎng)勵(lì)值優(yōu)于Baseline 算法的累積獎(jiǎng)勵(lì)值。根據(jù)式(22),證明DRL-DSA 算法在上述三方面的性能表現(xiàn)更好。

        展開(kāi)分析各算法在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的表現(xiàn)。

        在平均能量損耗方面,各算法求得的切片策略性能如圖4 所示。由式(13)可知,平均能量損耗僅和物聯(lián)網(wǎng)設(shè)備到所選網(wǎng)關(guān)之間的實(shí)際距離相關(guān)。隨著業(yè)務(wù)數(shù)據(jù)量增大,平均能量損耗必然增加。其中,由于SP 算法的切片策略是基于最短傳輸路由的策略,故其平均能量損耗必然是最小的。Baseline 算法和DRL-DSA 所求的是隨著網(wǎng)絡(luò)狀態(tài)變換的動(dòng)態(tài)切片策略,為保障網(wǎng)絡(luò)整體的性能,某些狀態(tài)下所選的傳輸路由不是最短的,故其平均能量損耗略高,是正常表現(xiàn)。相比較Baseline 算法而言,DRL-DSA 接近SP 算法,平均能量損耗更小,性能更好。

        在平均可靠性方面,各算法求得的切片策略性能如圖5 所示。根據(jù)式(15),平均可靠性與物聯(lián)網(wǎng)設(shè)備選取的傳輸路由中各鏈路可靠性的乘積相關(guān)。顯然,SP 算法的切片策略不能根據(jù)網(wǎng)絡(luò)狀態(tài)改變,其平均可靠性保持不變,且僅依據(jù)傳輸路由的最短距離做決策,未考慮保障可靠性,因此表現(xiàn)最差。在某些業(yè)務(wù)數(shù)據(jù)量下,Baseline 算法和DRL-DSA 的策略一致,但后者在平均可靠性方面表現(xiàn)的上限更高,性能更好。

        在平均剩余帶寬占有率方面,各算法求得的切片策略性能如圖6 所示??梢钥闯觯?yàn)椋樱?算法的切片策略一直選擇的是同一條傳輸路由,故隨著業(yè)務(wù)數(shù)據(jù)量增大,其平均剩余帶寬占有率呈線(xiàn)性下降。相反,DRL-DSA 和Baseline 算法改變了切片策略,選擇其他剩余帶寬容量大的傳輸路由,顯著限制了平均剩余帶寬占有率下降的速度,且隨著業(yè)務(wù)數(shù)據(jù)量增大,二者算法的優(yōu)勢(shì)愈發(fā)明顯。但由于DRL-DSA 的動(dòng)作更加穩(wěn)定,所以探索的切片策略的平均剩余帶寬占有率要高于Baseline 算法探索的切片策略。

        4 結(jié)束語(yǔ)

        軟件定義電力物聯(lián)網(wǎng)通過(guò)部署業(yè)務(wù)NS 滿(mǎn)足海量物聯(lián)網(wǎng)設(shè)備的電力業(yè)務(wù)需求,但傳統(tǒng)的切片策略是基于最短傳輸路由的策略。當(dāng)業(yè)務(wù)數(shù)據(jù)量激增時(shí),傳統(tǒng)的切片策略由于不能根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)靈活改變,將出現(xiàn)可靠性低下、鏈路擁塞等問(wèn)題。針對(duì)上述問(wèn)題,本文提出了基于深度強(qiáng)化學(xué)習(xí)的電力物聯(lián)網(wǎng)動(dòng)態(tài)切片策略,并引入了DRLDSA 來(lái)求解該策略。所提策略能夠同時(shí)確定VNF 的部署和傳輸路由,并保證傳輸路由在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的性能,實(shí)驗(yàn)證明了該策略的有效性。本策略通過(guò)加入智能體實(shí)現(xiàn)切片的動(dòng)態(tài)部署,為軟件定義電力物聯(lián)網(wǎng)的后續(xù)研究奠定了基礎(chǔ)。

        參考文獻(xiàn)

        [1] 何奉祿,陳佳琦,李欽豪,等. 智能電網(wǎng)中的物聯(lián)網(wǎng)技術(shù)應(yīng)用與發(fā)展[J]. 電力系統(tǒng)保護(hù)與控制,2020,48(3):58-69.

        [2] 賀金紅,張港紅,高建. 5G 切片技術(shù)在電力物聯(lián)網(wǎng)應(yīng)用的智能化管理[J]. 電力信息與通信技術(shù),2020,18(5):19-25.

        [3] 趙慧玲,史凡. SDN / NFV 的發(fā)展與挑戰(zhàn)[J]. 電信科學(xué),2014,30(8):13-18.

        [4] 臧玉華,鄭煥坤,尹世豪. 面向新型電力系統(tǒng)的5G 網(wǎng)絡(luò)切片資源分配策略[J]. 河北電力技術(shù),2023,42(1):26-31.

        [5] RAFIQUE W,QI L Y,YAQOOB I,et al. ComplementingIoT Services Through Software Defined Networking andEdge Computing:A Comprehensive Survey[J]. IEEE Communications Surveys & Tutorials,2020,22(3):1761-1804.

        [6] 李航,溫向明,孔紫璇,等. 面向多樣化需求的網(wǎng)絡(luò)切片業(yè)務(wù)鏈部署[J]. 北京郵電大學(xué)學(xué)報(bào),2022,45(2):9-15.

        [7] GUAN W Q,WEN X M,WANG L H,et al. A Serviceoriented Deployment Policy of EndtoEnd Network SlicingBased on Complex Network Theory [J]. IEEE Access,2018,6:19691-19701.

        [8] 王雅倩,陳心怡,曲睿,等. 基于SDN / NFV 的電力物聯(lián)網(wǎng)時(shí)延敏感業(yè)務(wù)編排方法[J]. 華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,50(1):84-91.

        [9] 楊爽,龔亮亮,胡陽(yáng),等. 一種網(wǎng)絡(luò)切片編排算法在電力物聯(lián)網(wǎng)中的應(yīng)用[J]. 電力信息與通信技術(shù),2020,18(12):29-35.

        [10] 張菊,郭永峰. 深度學(xué)習(xí)研究綜述[J]. 教學(xué)研究,2021,44(3):6-11.

        [11] 劉全,翟建偉,章宗長(zhǎng),等. 深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào),2018,41(1):1-27.

        [12] ZHANG Z D,ZHANG D X,QIU R C. Deep ReinforcementLearning for Power System Applications:An Overview[J].CSEE Journal of Power and Energy Systems,2020,6(1):213-225.

        [13] ZHOU Y,CAO T,XIANG W. Anypath Routing ProtocolDesign via QLearning for Underwater Sensor Networks[J].IEEE Internet of Thing Journal,2021,8(10):8173-8190.

        [14] 向敏,饒華陽(yáng),張進(jìn)進(jìn),等. 基于圖卷積神經(jīng)網(wǎng)絡(luò)的軟件定義電力通信網(wǎng)絡(luò)路由控制策略[J]. 電子與信息學(xué)報(bào),2021,43(2):388-395.

        [15] 葉萬(wàn)余. 面向電力物聯(lián)網(wǎng)URLLC 業(yè)務(wù)的智能網(wǎng)絡(luò)切片管理方法[J]. 工業(yè)工程,2022,25(1):129-135.

        [16] 李鑫,劉楊,劉立業(yè). WSNs 中一種基于強(qiáng)化學(xué)習(xí)的跟蹤調(diào)度算法[J]. 無(wú)線(xiàn)電工程,2023,53(5):1221-1227.

        [17] LUONG N C,HOANG D T,GONG S M,et al. Applicationsof Deep Reinforcement Learning in Communications andNetworking:A Survey[J]. IEEE Communications Surveys& Tutorials,2019,21(4):3133-3174.

        [18] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518(7540):529-533.

        [19] VAN HASSELT H,GUEZ A,SILVER D. Deep Reinforcement Learning with Double QLearning[C]∥Proceedingsof the AAAI Conference on Artificial Intelligence.Phoenix:AAAI Press,2016:2094-2100.

        作者簡(jiǎn)介

        辛 銳 男,(1983—),碩士,高級(jí)工程師。主要研究方向:大數(shù)據(jù)、人工智能及網(wǎng)絡(luò)安全。

        (*通信作者)吳軍英 男,(1982—),碩士,高級(jí)工程師。主要研究方向:人工智能、物聯(lián)網(wǎng)、邊緣計(jì)算。

        薛 冰 女,(1999—),碩士研究生。主要研究方向:物聯(lián)網(wǎng)、人工智能。

        張鵬飛 男,(1985—),碩士,高級(jí)工程師。主要研究方向:物聯(lián)網(wǎng)、自然語(yǔ)言處理。

        李艷軍 男,(1977—),碩士,正高級(jí)會(huì)計(jì)師。主要研究方向:財(cái)務(wù)、技經(jīng)及大數(shù)據(jù)。

        柴守亮 男,(1981—),碩士,正高級(jí)工程師。主要研究方向:信息通信和網(wǎng)絡(luò)安全。

        王佳楠 男,(1974—),碩士,工程師。主要研究方向:物聯(lián)網(wǎng)、大數(shù)據(jù)及人工智能。

        基金項(xiàng)目:河北省省級(jí)科技計(jì)劃資助(22310302D)

        久久精品亚洲成在人线av| 一群黑人大战亚裔女在线播放 | 看全色黄大色黄大片 视频| 99热久久精里都是精品6| 中文不卡视频| 青青草成人原视频在线播放视频| 国产精选自拍视频网站| 国产精品ⅴ无码大片在线看| 无码精品国产va在线观看| 国产99页| 少妇特殊按摩高潮对白| 亚洲av第一区国产精品| 亚洲av精品一区二区三区| 国产熟妇搡bbbb搡bbbb搡| 国产视频嗯啊啊啊| 青青自拍视频成人免费观看| 蜜桃视频一区视频二区| 久久99精品国产麻豆| 亚洲精品久久区二区三区蜜桃臀| 国产又粗又猛又黄又爽无遮挡 | 久久亚洲av成人无码国产| 人妻少妇精品无码系列| 日韩女优视频网站一区二区三区 | 亚洲国产精品久久久av| 好紧好爽免费午夜视频| 老熟女重囗味hdxx70星空| 国产主播在线 | 中文| 91久久国产露脸国语对白| 蜜桃视频一区二区在线观看| 国产69精品久久久久久久| 欧洲色综合| 中文字幕无线精品亚洲乱码一区| 亚洲中文字幕在线第六区| 午夜dy888国产精品影院| 天码人妻一区二区三区| 国产内射XXXXX在线| 亚洲av推荐网站在线观看| 亚洲中文字幕在线一区| 97人人模人人爽人人喊电影| 国产肉体XXXX裸体784大胆| 日本最新在线一区二区|