陳俊,黃飛宇,黎作明
(廣東電網(wǎng)有限責任公司 清遠供電局, 廣東 清遠 511510)
目前電力物聯(lián)網(wǎng)建設(shè)已初具規(guī)模[1],文獻[2]從智能電網(wǎng)的各個環(huán)節(jié)概述了物聯(lián)網(wǎng)技術(shù)在電力領(lǐng)域的已有研究和應(yīng)用基礎(chǔ);文獻[3]分析了泛在電力物聯(lián)網(wǎng)與堅強智能電網(wǎng)、能源互聯(lián)網(wǎng)之間的協(xié)同發(fā)展關(guān)系,并提出了適應(yīng)多維業(yè)務(wù)場景需求的泛在電力物聯(lián)網(wǎng)實施方案建議;文獻[4]分析了5G時代下5G通信在泛在電力物聯(lián)網(wǎng)中的應(yīng)用場景。各式各樣的電力物聯(lián)網(wǎng)新業(yè)務(wù)應(yīng)運而生,同時對通信和計算能力提出了新的挑戰(zhàn)。一方面,部分電力物聯(lián)網(wǎng)業(yè)務(wù)需要高服務(wù)質(zhì)量保障,例如超低時延和超高可靠性條件,另一方面,不同的新型電力物聯(lián)網(wǎng)業(yè)務(wù)需要差異化的通信和計算服務(wù),例如:高帶寬高算力的無人機巡檢業(yè)務(wù)和高帶寬低算力的精準負荷控制業(yè)務(wù)[5];此外,低算力的電力物聯(lián)網(wǎng)設(shè)備無法支撐高計算量的新型電力物聯(lián)網(wǎng)業(yè)務(wù),例如分析海量用戶的用電行為等。
作為解決上述挑戰(zhàn)的有效途徑之一,融合5G通信技術(shù)的移動邊緣計算獲得了飛速的發(fā)展。5G是新一代蜂窩移動通信技術(shù),通過集成多種無線接入技術(shù)為用戶提供極限體驗[6-8]。例如, 5G切片技術(shù)能夠為成千上萬的物聯(lián)網(wǎng)終端設(shè)備提供高達10Gbit/s的傳輸速率[9-10]。因此, 5G切片技術(shù)為電力物聯(lián)網(wǎng)提供了強有力的通信支撐。移動邊緣計算是指在網(wǎng)絡(luò)邊緣執(zhí)行計算的一種新型計算模型[11-13]。該計算模式能夠為計算力不足的電力物聯(lián)網(wǎng)設(shè)備提供充足的計算力來支持其應(yīng)用。也就是說,電力物聯(lián)網(wǎng)設(shè)備可以將其高計算量的任務(wù)卸載到附近的MEC(Mobile Edge Computing)服務(wù)器,從而滿足服務(wù)需求[14]。因此,電力物聯(lián)網(wǎng)場景下,研究5G邊緣網(wǎng)絡(luò)切片的資源管理方法在實際應(yīng)用中是十分必要的。
目前, 5G邊緣網(wǎng)絡(luò)切片的資源管理方法已經(jīng)有部分研究工作。文獻[15]提出基于網(wǎng)絡(luò)切片的網(wǎng)絡(luò)效用最大化通信資源分配方法,以最大化運營商的收益。文獻[16]針對不同的5G網(wǎng)絡(luò)切片應(yīng)用場景,建立不同的可靠性效用優(yōu)化模型,并采用啟發(fā)式算法求解。上述文獻主要聚焦于通信資源的管理優(yōu)化,卻忽略了同等重要的計算資源的優(yōu)化。對此,文獻[17]研究了5G邊緣網(wǎng)絡(luò)下通信資源和計算資源的聯(lián)合優(yōu)化問題,提出了一種基于分布式深度強化學(xué)習(xí)的聯(lián)合資源管理方法。然而,關(guān)于電力物聯(lián)網(wǎng)場景下5G邊緣網(wǎng)絡(luò)切片資源管理方法的研究仍然很少。
文章針對5G電力物聯(lián)網(wǎng)業(yè)務(wù),提出了一種可靠性衡量指標?;谠撝笜耍O(shè)計了一種基于深度強化學(xué)習(xí)的5G邊緣網(wǎng)絡(luò)切片的資源管理方法。該方法不僅能實現(xiàn)5G邊緣網(wǎng)絡(luò)下通信資源和計算資源的彈性管理,而且能夠滿足不同用戶的差異化需求。文章通過實驗仿真,驗證了該方法的有效性。
在電力物聯(lián)網(wǎng)場景下,存在多種PIoT業(yè)務(wù),而由于電力系統(tǒng)需要實時協(xié)調(diào)廣域的資源,即具有典型的“網(wǎng)”的特征,因此電力系統(tǒng)對通信的“質(zhì)”和“量”都有相當?shù)男枨?。其中的業(yè)務(wù)如配網(wǎng)自動化,即指利用現(xiàn)代通信技術(shù)和計算機技術(shù),將配電網(wǎng)饋線、設(shè)備和用戶的實時與離線信息進行整合與集成,實現(xiàn)配電系統(tǒng)正常運行及事故情況下的監(jiān)測、保護、控制和配電管理。其中的監(jiān)測需要傳輸大數(shù)據(jù)量的視頻數(shù)據(jù)等,需要高帶寬的通信支持,而控制則需要高可靠性通信的支持;又如計量自動化業(yè)務(wù),即指用電領(lǐng)域用戶或工業(yè)電能表計的自動計量及其與自動化主站的數(shù)據(jù)通信,即“遠程抄表”。需要接入海量的數(shù)據(jù)采集設(shè)備,需要海量接入通信的支持。所以我們的系統(tǒng)模型考慮的業(yè)務(wù)包括需要高帶寬通信支持的監(jiān)測業(yè)務(wù),如無人機巡檢,需要海量接入通信支持的數(shù)據(jù)采集業(yè)務(wù),如智能電能表檢測,需要高可靠性通信保障的控制類業(yè)務(wù);如圖1所示。
圖1 系統(tǒng)架構(gòu)圖Fig.1 System architecture diagram
根據(jù)PIoT業(yè)務(wù)的差異化需求,大致可將電力物聯(lián)網(wǎng)業(yè)務(wù)分為以下3類[18-19],其業(yè)務(wù)需求如表1所示。
表1 電力物聯(lián)網(wǎng)業(yè)務(wù)需求Tab.1 Business requirements of PIoT
由于PIoT終端設(shè)備計算能力有限,可將PIoT計算任務(wù)部分卸載到屬于PIoT服務(wù)商的MEC服務(wù)器上[20]。在保證時延和可靠性要求的前提下,PIoT服務(wù)商為其彈性地分配計算和通信資源,同時決策卸載任務(wù)的比例,進而最小化能量消耗。接下來,我們將分別闡述能耗模型、時延模型和可靠性模型。
我們考慮I個電力用戶,I個電力用戶分為J類電力物聯(lián)網(wǎng)業(yè)務(wù)。將屬于第j類電力物聯(lián)網(wǎng)業(yè)務(wù)的第i個電力用戶記為Uij。在整個服務(wù)過程中,任務(wù)的能耗主要由計算能耗和傳輸能耗組成。其中,計算能耗又分為本地設(shè)備計算能耗以及MEC服務(wù)器計算能耗。任務(wù)在本地的計算能耗可以描述為:
(1)
(2)
(3)
式中pij為電力用戶Uij的數(shù)據(jù)傳輸功率。這里,Rij為電力用戶Uij的數(shù)據(jù)傳輸速率,可以描述為:
(4)
式中Bij為分配給電力用戶Uij的帶寬;N0為背景噪聲;dij為電力用戶Uij的本地設(shè)備到MEC服務(wù)器的距離;hij為電力用戶Uij的信道增益。所以電力用戶Uij的任務(wù)總能耗為:
(5)
PIoT業(yè)務(wù)不僅需要考慮能量消耗,而且需要考慮時延要求。
PIoT業(yè)務(wù)時延可分為3部分:本地計算時延、邊緣計算時延和任務(wù)傳輸時延[21]。本地計算時延可描述為:
(6)
邊緣計算時延可描述為:
(7)
任務(wù)傳輸時延可描述為:
(8)
所以,電力用戶Uij的任務(wù)總時延為:
(9)
本地設(shè)備和MEC服務(wù)器在服務(wù)過程中可能因硬件或軟件因素而發(fā)生故障。同時AI模型推斷具有一定的錯誤率。因此,PIoT計算任務(wù)的可靠性可分為兩部分,本地設(shè)備計算的可靠性和MEC服務(wù)器計算的可靠性。設(shè)備可靠性可由自然常數(shù)的負指數(shù)冪函數(shù)描述,圖2為y=e-0.01x的函數(shù)圖像,由圖2可知,隨著x(表示時延)的增加,y(可靠性)逐漸減小,即隨著通信和計算時延的增加,任務(wù)的可靠性會逐漸降低。
圖2 自然常數(shù)負指數(shù)冪函數(shù)圖Fig.2 Negative exponential power function of natural constant
上述兩部分同時考慮了模型推斷的錯誤率。對于電力用戶,本地設(shè)備計算的可靠性可描述為[22]:
(10)
(11)
(12)
式中Aij為人工智能模型的決策準確率。
PIoT服務(wù)商在滿足電力物聯(lián)網(wǎng)業(yè)務(wù)時延和可靠性要求的前提下,決策卸載任務(wù)比例、分配計算資源和通信資源來最小化能量消耗。因此,優(yōu)化的目標函數(shù)定義為:
(13)
由于優(yōu)化問題中的目標函數(shù)為非凸函數(shù),隨著用戶數(shù)量的增加,在巨大的決策空間中選擇最優(yōu)決策的傳統(tǒng)算法(如梯度下降法)會造成過高的時間復(fù)雜度。因此傳統(tǒng)算法無法適應(yīng)于上述優(yōu)化問題。而強化學(xué)習(xí)的優(yōu)勢在于可以從大量訓(xùn)練樣本中自動搜尋有效樣本特征來訓(xùn)練智能體并提升其性能,大大縮短決策時間。當前,深度強化學(xué)習(xí)已經(jīng)在優(yōu)化領(lǐng)域中被廣泛應(yīng)用[23-24]。因此,文章提出了一種基于DQN(Deep Q-learning)的切片管理方法,如圖3所示。其基本原理是,DQN智能體與網(wǎng)絡(luò)環(huán)境不斷交互,同時獲取環(huán)境的當前狀態(tài),根據(jù)環(huán)境的當前狀態(tài)選擇一個動作執(zhí)行,執(zhí)行該動作后,環(huán)境會從當前狀態(tài)以某個概率轉(zhuǎn)移到另一個狀態(tài),同時智能體會接收到環(huán)境反饋的一個獎勵或懲罰。通過不斷重復(fù)上述過程,智能體會調(diào)整選擇策略以盡可能多地獲得來自環(huán)境的獎勵。
在文章的場景下,DQN智能體完成一次切片資源分配,進而得到該計算任務(wù)能耗,從而反饋給智能體一個獎勵或懲罰,網(wǎng)絡(luò)環(huán)境更新至下一個狀態(tài)。智能體將當前環(huán)境狀態(tài)、資源分配策略、反饋獎勵和當前環(huán)境的下一個狀態(tài)組成一個四元組,作為一個樣本存儲到記憶池。通過記憶回放機制,智能體會根據(jù)訓(xùn)練周期配置從記憶池隨機選取b個樣本數(shù)據(jù)進行強化訓(xùn)練,從而不斷更新神經(jīng)網(wǎng)絡(luò)的模型參數(shù)來降低損失。
圖3 基于DQN的切片資源管理方法框架圖Fig.3 Framework of slice resource management method based on DQN
DQN為異構(gòu)服務(wù)的切片資源管理提供了一種通用的算法框架,包含狀態(tài)空間(State)、動作空間(Action)和獎勵回報函數(shù)(Reward)這3個基本要素。針對電力物聯(lián)網(wǎng)場景,定義如下:
(2)Action,表示所執(zhí)行的動作集合。DQN智能體每獲取一個狀態(tài),便會根據(jù)Q值選取并執(zhí)行一個動作。針對異構(gòu)服務(wù)的切片資源管理問題,動作就是動態(tài)調(diào)整切片資源的分配策略;
(3)Reward,表示智能體與環(huán)境交互所反饋的獎勵回報。在每次迭代中,智能體都會根據(jù)當前的環(huán)境狀態(tài)選取并執(zhí)行一個動作,然后環(huán)境轉(zhuǎn)移至下一個狀態(tài)并反饋給智能體一個獎勵或懲罰,來反映選取的動作是否正確。針對文章的能耗優(yōu)化場景,回報獎勵應(yīng)與任務(wù)能耗相關(guān)。假設(shè)任務(wù)總能耗為E,則單個計算任務(wù)的獎勵回報函數(shù)為:
(14)
式中α為計算任務(wù)沒有進行任務(wù)卸載的計算能耗。整個系統(tǒng)的獎勵回報函數(shù)定義為所有計算任務(wù)的獎勵回報函數(shù)之和。DQN算法流程如圖4所示。
圖4 DQN算法流程圖Fig.4 Flow chart of DQN algorithm
文章仿真環(huán)境中,假設(shè)PIoT計算任務(wù)切分為兩個互相獨立的任務(wù),電力用戶數(shù)目為I= 6,分為J=3類業(yè)務(wù),白噪聲N0=-114 dbm,電力用戶到基站的距離范圍為dij= 0 ~ 300 m,其他參數(shù)設(shè)置如表2所示。
圖5描述了基于DQN的切片資源管理算法的收斂性,橫坐標為模型訓(xùn)練次數(shù),縱坐標為模型損失函數(shù)值,可以看出,隨著訓(xùn)練次數(shù)增加,損失函數(shù)值逐漸趨近于局部最優(yōu)值,當訓(xùn)練次數(shù)接近3 000時,模型基本收斂,算法收斂。圖6為用戶數(shù)量為2時隨著迭代次數(shù)與系統(tǒng)能耗關(guān)系圖,橫坐標為模型訓(xùn)練次數(shù),縱坐標為系統(tǒng)總能耗,可以看出隨著訓(xùn)練次數(shù)的增加,系統(tǒng)能耗逐漸趨近于局部最優(yōu)值。
表2 參數(shù)設(shè)置表Tab.2 Parameter setting table
圖5 訓(xùn)練次數(shù)與損失函數(shù)值的關(guān)系圖Fig.5 Relationship between training times and loss function value
圖6 訓(xùn)練次數(shù)與系統(tǒng)能耗的關(guān)系圖Fig.6 Relationship between training times and system energy consumption
除了文中提出的網(wǎng)絡(luò)切片管理方法,我們設(shè)置了兩個對比方法:(1)平均分配網(wǎng)絡(luò)切片資源方法:該方案為每個電力用戶平均分配網(wǎng)絡(luò)切片資源;(2)按需分配網(wǎng)絡(luò)切片資源方法:該方案根據(jù)不同電力用戶的需求,按權(quán)重為電力用戶分配網(wǎng)絡(luò)切片資源。
圖7、圖8為電力物聯(lián)網(wǎng)業(yè)務(wù)滿足表1的時延和可靠性約束下的仿真結(jié)果。
圖7 單一服務(wù)下電力用戶數(shù)目與系統(tǒng)能耗的關(guān)系Fig.7 Relationship between the number of power users and system energy consumption under single service
圖8 異構(gòu)服務(wù)下電力用戶數(shù)目與系統(tǒng)能耗的關(guān)系Fig.8 Relationship between the number of power users and system energy consumption under heterogeneous services
圖7描述了單一服務(wù)下文章提出的方案和平均分配方案的系統(tǒng)能耗隨著電力用戶數(shù)量增加的對比圖,橫坐標為用戶數(shù)量,縱坐標為系統(tǒng)能耗,可以看出,隨著用戶數(shù)量的增加,系統(tǒng)能耗出現(xiàn)波動,但文章提出的方案系統(tǒng)能耗優(yōu)于平均分配方案。
圖8描述了異構(gòu)服務(wù)下文章提出的方案和平均分配方案以及按需求分配資源方案的系統(tǒng)能耗隨著電力用戶數(shù)目增加的對比圖。橫軸為電力用戶的數(shù)目,縱軸為系統(tǒng)的能耗。橫坐標為用戶數(shù)量,縱坐標為系統(tǒng)能耗,可以看出,隨著用戶數(shù)量的增加,系統(tǒng)能耗出現(xiàn)波動,但文章提出的方案系統(tǒng)能耗優(yōu)于平均分配方案以及按需求分配資源方案。
在5G時代的電力物聯(lián)網(wǎng)系統(tǒng)中,部分電力物聯(lián)網(wǎng)業(yè)務(wù)需要高服務(wù)質(zhì)量保障,例如超低時延和超高可靠性條件,并且不同的新型電力物聯(lián)網(wǎng)業(yè)務(wù)需要差異化的通信和計算服務(wù),同時低算力的電力物聯(lián)網(wǎng)設(shè)備無法支撐高計算量的新型電力物聯(lián)網(wǎng)業(yè)務(wù),面對這樣的挑戰(zhàn),設(shè)計一種切片資源管理方法至關(guān)重要。針對5G電力物聯(lián)網(wǎng)業(yè)務(wù),文章提出了一種可靠性衡量指標,基于該指標,設(shè)計了一種基于深度強化學(xué)習(xí)的5G邊緣網(wǎng)絡(luò)切片的資源管理方法。在實現(xiàn)5G邊緣網(wǎng)絡(luò)下通信資源和計算資源的彈性管理的同時,能夠滿足不同用戶的差異化需求。仿真結(jié)果表明,相較于按需求分配資源方法、平均分配資源方法,文章提出的方法能耗更低。