亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合深度強(qiáng)化學(xué)習(xí)的云制造云邊協(xié)同聯(lián)合卸載策略

        2025-08-03 00:00:00張亞茹郭銀章
        關(guān)鍵詞:時(shí)延邊緣能耗

        Joint offloading strategy for cloud manufacturing based on hybrid deep reinforcement learning in cloud-edge collaboration

        Zhang Yaru,Guo Yinzhang? (Colegeof ComputerScienceamp;Technology,Taiyuan UniversityofScienceamp;Technology,TaiyuanO3o024,China)

        Abstract:Toaddress theissueofreal-time perceptiondata frommanufacturingresources being dificult toprocess promptlyin acloud-edgecollaborative cloud manufacturingenvironment,considering uncertainfactors suchas the limited computingresources attheedge,dynamicallychanging network conditions,andtaskloads,thispaper proposedacloud-edgecolaborative jointoffloading strategybasedonmixed-baseddeepreinforcementlearning(M-DRL).Firstly,thisstrategyestablishedajoint ffloadigmodelbycombiningdiscretemodeloffloadinginthecloudwithcontinuoustaskoffloadingattheedge.Secondly, this strategydefinedtheoptimizationproblemasaMDPtominimizethetotalcostofdelayandenergyconsumptionoveraperiod. Finally,thispaper used the M -DRL algorithm,which utilized an integrated exploration strategy of DDPG and DQNand introducedalongshort-termmemory network(LSTM)intothenetworkarchitecture,tosolvethisoptimizationproblem.Simulation results showthatcompared with some existing ofloadingalgorithms,the M-DRL method has goodconvergence and Stability, andsignificantlyreduces thetotalsystemcost.Itprovidesanefectivesolutionforthetimelyprocessingofmanufacturingresource perception data.

        Keywords:cloudmanufacturing;cloud-edgecolaboration;jointofloading;LSTMreinforcementlearning;Markovdecision process(MDP)

        0 引言

        云制造作為一種新興的生產(chǎn)模式,以前所未有的速度改變著全球制造業(yè)的格局。它通過整合云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù),實(shí)現(xiàn)了制造資源的虛擬化、網(wǎng)絡(luò)化和智能化管理[1]。然而,隨著云制造環(huán)境下的制造資源實(shí)時(shí)感知數(shù)據(jù)呈指數(shù)級(jí)增長,傳統(tǒng)計(jì)算模式面臨著前所未有的挑戰(zhàn)。

        在生產(chǎn)制造過程中積累的大量數(shù)據(jù)對(duì)于實(shí)時(shí)監(jiān)控設(shè)備狀態(tài)、提升生產(chǎn)效率至關(guān)重要。在群智感知與協(xié)同的智能制造環(huán)境下,由于網(wǎng)絡(luò)傳輸延遲等原因,生產(chǎn)過程中的大量實(shí)時(shí)數(shù)據(jù)無法及時(shí)傳輸?shù)皆贫诉M(jìn)行處理。于是引入云邊端泛在協(xié)同算法來解決。邊緣計(jì)算部署在產(chǎn)生數(shù)據(jù)的設(shè)備端,能夠提供快速響應(yīng)、實(shí)時(shí)服務(wù)、數(shù)據(jù)處理及安全保障等能力,它能有效地減輕云端的負(fù)載并降低延遲[2]。然而,邊緣計(jì)算的計(jì)算和存儲(chǔ)資源有限,在處理復(fù)雜任務(wù)時(shí)可能會(huì)遇到瓶頸。云計(jì)算提供了強(qiáng)大的計(jì)算和存儲(chǔ)資源,適合進(jìn)行大規(guī)模數(shù)據(jù)處理和復(fù)雜算法的運(yùn)行。然而,隨著越來越多的傳感器和智能設(shè)備被部署在工業(yè)環(huán)境中,數(shù)據(jù)的生成速率和規(guī)模急劇增加,尤其是數(shù)據(jù)從生成到?jīng)Q策直至執(zhí)行的整個(gè)過程中的延遲問題,迫切需要在設(shè)備端處理實(shí)時(shí)性很高的數(shù)據(jù),以滿足生產(chǎn)過程的需求。因此,面向智能化設(shè)備的云邊協(xié)作架構(gòu)被提出[3]

        在云制造云邊協(xié)作架構(gòu)中,信息由下而上,再由上而下形成閉環(huán)[4]。但由于邊緣設(shè)備端和云的計(jì)算與通信資源有限,如果對(duì)這些資源的協(xié)調(diào)運(yùn)用沒有形成閉環(huán)優(yōu)化,就無法充分發(fā)揮云邊協(xié)作的優(yōu)勢。近年來,關(guān)于計(jì)算卸載[5和模型協(xié)同推理[]的研究不少,且它們的優(yōu)化目標(biāo)通常是總延遲最小化[7]能耗最小化或者同時(shí)考慮延遲與能耗的最小化8,但未考慮在分開卸載的情況下,邊緣端和云端的決策缺乏全局視圖,可能導(dǎo)致各自優(yōu)化的目標(biāo)不一致,進(jìn)而使得整個(gè)系統(tǒng)的性能下降。在云邊協(xié)同的復(fù)雜環(huán)境中,由于任務(wù)卸載決策涉及多個(gè)變量和動(dòng)態(tài)環(huán)境特性,如網(wǎng)絡(luò)條件的變化、計(jì)算資源的可用性等,傳統(tǒng)基于規(guī)則或靜態(tài)優(yōu)化的方法難以適應(yīng)這種高度不確定性的場景。為此,研究人員采用強(qiáng)化學(xué)習(xí)處理非線性、非凸優(yōu)化問題[9,使其自適應(yīng)地應(yīng)對(duì)環(huán)境變化。但僅用上述方法缺乏對(duì)歷史信息的有效利用,忽略時(shí)間依賴性和周期模式,可能導(dǎo)致決策不夠精準(zhǔn)和前瞻性不足。

        為解決云邊協(xié)作架構(gòu)下存在的閉環(huán)優(yōu)化與復(fù)雜環(huán)境下任務(wù)高效處理問題,本文開發(fā)了一種基于混合深度強(qiáng)化學(xué)習(xí)(M-DRL)的云制造云邊協(xié)同聯(lián)合卸載策略,分析云制造環(huán)境下制造資源閉環(huán)優(yōu)化的關(guān)鍵因素,建立聯(lián)合優(yōu)化系統(tǒng)模型。為了處理復(fù)雜任務(wù)問題,集成DQN和DDPG的探索策略,充分利用兩者的長處滿足系統(tǒng)需求,提高決策效率和靈活性。同時(shí),在網(wǎng)絡(luò)架構(gòu)中引入LSTM結(jié)構(gòu),有效地整合歷史信息與當(dāng)前信息,面對(duì)復(fù)雜的狀態(tài)空間數(shù)據(jù),使用記憶推理提取邊緣設(shè)備任務(wù)和環(huán)境信息,并通過觀察狀態(tài)空間和全面分析數(shù)據(jù)特征來進(jìn)行有效的網(wǎng)絡(luò)學(xué)習(xí),增強(qiáng)決策的準(zhǔn)確性與適應(yīng)性。

        本文主要貢獻(xiàn)總結(jié)如下:

        a)針對(duì)資源密集型任務(wù)與時(shí)間敏感型任務(wù),建立云邊協(xié)同環(huán)境下由邊至云的計(jì)算卸載與由云至邊的模型(DNN)卸載聯(lián)合優(yōu)化的系統(tǒng)模型,確保所有決策都在全局最優(yōu)框架內(nèi)進(jìn)行。

        b)以一段連續(xù)時(shí)隙內(nèi)綜合時(shí)延、能耗的總成本為本文解決的優(yōu)化目標(biāo)建立問題模型,并建立相應(yīng)的馬爾可夫決策過程,考慮長期效果的同時(shí),動(dòng)態(tài)調(diào)整決策。

        c)集成改進(jìn)的DDPG與DQN的混合強(qiáng)化學(xué)習(xí)方法,同時(shí)在網(wǎng)絡(luò)架構(gòu)中引入LSTM,有效地處理復(fù)雜決策空間并捕捉數(shù)據(jù)中的時(shí)間依賴關(guān)系,輸出復(fù)合動(dòng)作空間,最后驗(yàn)證所提策略的有效性。

        1相關(guān)工作

        1.1計(jì)算卸載

        隨著人工智能的發(fā)展,基于強(qiáng)化學(xué)習(xí)(RL)的無模型方法已被開發(fā)用于邊緣計(jì)算系統(tǒng)中的計(jì)算卸載[9],與傳統(tǒng)基于啟發(fā)式的卸載算法(如粒子群優(yōu)化(PSO)[10]和遺傳算法[1])相比,經(jīng)驗(yàn)驅(qū)動(dòng)的DRL不依賴于環(huán)境模型,特別是通過積累新的經(jīng)驗(yàn),DRL可以不斷改進(jìn)策略,快速適應(yīng)環(huán)境變化[12]。Yan等人[13]提出了一種基于深度Q學(xué)習(xí)的設(shè)備級(jí)和邊緣級(jí)任務(wù)卸載聯(lián)合優(yōu)化方法,實(shí)現(xiàn)了在任務(wù)延遲和能量消耗之間的良好平衡。Tong等人[14]在計(jì)算能力、資源和可靠性約束下的云邊緣協(xié)作環(huán)境中,提出了一種基于DQN的任務(wù)卸載和資源分配算法SLRTA。雖然基于DQN算法的任務(wù)卸載可以解決動(dòng)態(tài)卸載問題,但任務(wù)卸載方法一般局限于局部計(jì)算和完全卸載,忽略了各種卸載類型。因此,Li等人[15]為解決多用戶環(huán)境下任務(wù)卸載的資源競爭問題,提出一種基于深度確定性策略梯度(DDPG)的雙層混合計(jì)算卸載方法,仿真結(jié)果顯示該方法實(shí)現(xiàn)了更高的任務(wù)平均獎(jiǎng)勵(lì)和更低的平均延遲。Zhang等人[16]提出一種面向邊云協(xié)作的多智能體深度強(qiáng)化學(xué)習(xí)算法(MADRL),采用集中訓(xùn)練、分散執(zhí)行的方式,考慮智能體之間的關(guān)聯(lián)性并利用環(huán)境的整體狀態(tài)來訓(xùn)練各個(gè)agent,通過學(xué)習(xí)形成一致的策略,從而在復(fù)雜的邊云協(xié)作環(huán)境中實(shí)現(xiàn)高效的協(xié)同工作。

        然而,目前基于強(qiáng)化學(xué)習(xí)的方法主要考慮離散動(dòng)作空間或連續(xù)動(dòng)作空間。為處理離散-連續(xù)混合動(dòng)作空間,Shang等人[17]采用了一種基于近端策略優(yōu)化(PPO)的方法,并設(shè)計(jì)出動(dòng)態(tài)掩碼機(jī)制,根據(jù)環(huán)境狀態(tài)和緩存決策生成的掩碼向量調(diào)整有效卸載動(dòng)作的概率分布,從而聯(lián)合優(yōu)化服務(wù)緩存和計(jì)算卸載決策。 Binh 等人[18]提出了一種基于演員-評(píng)論家架構(gòu)的任務(wù)卸載方案( ACTO-n )。該方案設(shè)計(jì)了偽情節(jié)以模擬演員-評(píng)論家算法的工作機(jī)制,從而直接學(xué)習(xí)最優(yōu)的任務(wù)卸載策略,能夠通過協(xié)作利用邊緣和云資源,最小化各任務(wù)在其質(zhì)量基線(即容忍時(shí)間)內(nèi)的總執(zhí)行時(shí)間,并確保所有任務(wù)滿足其服務(wù)的軟期限。此外,文獻(xiàn)[19]提出一種分階決策的深度強(qiáng)化學(xué)習(xí)方法,該算法在時(shí)延、能耗等方面都表現(xiàn)出很好的優(yōu)勢。

        與此同時(shí),隨著環(huán)境的日益復(fù)雜,將各種新興的神經(jīng)網(wǎng)絡(luò)應(yīng)用到強(qiáng)化學(xué)習(xí)領(lǐng)域已成為一個(gè)熱點(diǎn)。Chen等人[20]提出將一維卷積和長短期記憶網(wǎng)絡(luò)應(yīng)用于DDPG來解決資源分配問題。Du等人[21]提出將長短期記憶網(wǎng)絡(luò)應(yīng)用于DDPG,利用歷史狀態(tài)信息來近似當(dāng)前的環(huán)境狀態(tài)信息,使得預(yù)測的動(dòng)作更加準(zhǔn)確,在道路規(guī)劃問題上取得了良好的效果。Gao等人[22]為了增強(qiáng)多個(gè)智能體之間的信息通信,在DDPG中引入長短期記憶網(wǎng)絡(luò)(LSTM)作為內(nèi)部狀態(tài)預(yù)測器來提供更完整的環(huán)境狀態(tài),并使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)來學(xué)習(xí)和增強(qiáng)從智能體通信中獲得的特征,以解決任務(wù)卸載問題。

        1.2 DNN卸載

        在邊緣設(shè)備端上部署的深度學(xué)習(xí)DNN模型通常需要輕量級(jí)設(shè)計(jì)[23],因?yàn)樵谫Y源受限的邊緣設(shè)備上難以完成復(fù)雜的DNN模型推理,研究人員嘗試將復(fù)雜的DNN模型劃分后卸載到不同的設(shè)備進(jìn)行協(xié)同推理。Su等人[24]設(shè)計(jì)了一種基于深度確定性策略梯度的DNN分區(qū)和資源分配(DDPRA)算法,聯(lián)合優(yōu)化DNN分區(qū)和計(jì)算資源分配,以最小化多種類型的深度學(xué)習(xí)任務(wù)的長期平均端到端延遲,同時(shí)保證能耗在其能源預(yù)算范圍內(nèi)。Tian等人[25]通過聯(lián)合優(yōu)化動(dòng)態(tài)環(huán)境下的任務(wù)卸載、模型劃分和資源分配來減少DNN任務(wù)的長期平均端到端延遲,提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同推理優(yōu)化(RLCIO)算法,以減少代理的決策變量。Xue等人[26]設(shè)計(jì)了一種改進(jìn)的雙決斗優(yōu)先深度Q網(wǎng)絡(luò)(DDPQN)算法,旨在資源受限的本地-邊緣-云環(huán)境中優(yōu)化大規(guī)模DNN模型的劃分與卸載,以實(shí)現(xiàn)低延遲、低能耗和低成本的目標(biāo)。但大多數(shù)研究方法在高度動(dòng)態(tài)變化的環(huán)境中對(duì)于不同類型的任務(wù)(如不同規(guī)模、結(jié)構(gòu)和計(jì)算需求的DNN模型)可能缺乏一定的靈活性和支持。

        考慮到上述問題,本文提出一種基于離散-連續(xù)混合動(dòng)作空間的強(qiáng)化學(xué)習(xí)方法,能夠在動(dòng)態(tài)變化的環(huán)境中最小化系統(tǒng)時(shí)延與能耗。

        2云邊協(xié)同的聯(lián)合卸載模型

        實(shí)現(xiàn)閉環(huán)優(yōu)化以提升系統(tǒng)整體性能和資源利用率,云邊協(xié)同計(jì)算的核心在于實(shí)現(xiàn)數(shù)據(jù)的有效卸載和模型的合理分配應(yīng)用。如圖1所示,涉及兩大部分:a)數(shù)據(jù)卸載,即將數(shù)據(jù)從邊緣端轉(zhuǎn)移到云端進(jìn)行處理;b)模型卸載,即在邊緣端和云端之間分配機(jī)器學(xué)習(xí)模型的不同部分進(jìn)行協(xié)同推理。這兩者的有效結(jié)合構(gòu)成了云邊協(xié)同的聯(lián)合卸載機(jī)制。

        數(shù)據(jù)卸載主要關(guān)注如何在保證數(shù)據(jù)安全和隱私的前提下,最大化地利用邊緣端和云端各自的優(yōu)點(diǎn)。對(duì)于那些時(shí)效性強(qiáng)且敏感度高的數(shù)據(jù),可以在邊緣端直接處理,以滿足低延時(shí)和保護(hù)隱私的需求。而對(duì)于那些需要大量計(jì)算資源或者歷史積累的數(shù)據(jù),則更適合上傳至云端進(jìn)行集中處理。

        模型卸載則側(cè)重于如何將復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型分解成不同的子任務(wù),由邊緣端和云端共同完成。這種方法利用邊緣端的實(shí)時(shí)處理能力和云端的強(qiáng)大計(jì)算資源,實(shí)現(xiàn)高效的模型推理。通過調(diào)整DNN的層數(shù)和參數(shù)配置,確定哪些層適合在邊緣端運(yùn)行,哪些層更適合在云端運(yùn)行,以此平衡計(jì)算負(fù)載和通信成本。

        圖1云邊協(xié)同聯(lián)合卸載模型Fig.1Cloud-edge collaborative joint offloading mode.

        本章以最小化系統(tǒng)開銷為目的,對(duì)系統(tǒng)中存在的數(shù)據(jù)卸載以及模型卸載問題進(jìn)行說明,并建立與其相關(guān)的系統(tǒng)模型。

        2.1任務(wù)模型

        在云邊協(xié)同計(jì)算環(huán)境中,任務(wù)卸載決策對(duì)于優(yōu)化計(jì)算任務(wù)的處理至關(guān)重要。合理的任務(wù)卸載不僅可以提高系統(tǒng)的整體性能和效率,還可以減少網(wǎng)絡(luò)帶寬的占用,降低能耗,并確保實(shí)時(shí)響應(yīng)。本文假設(shè)計(jì)算密集型任務(wù)的數(shù)據(jù)是細(xì)粒度的,即數(shù)據(jù)可以被劃分為任意大小的子集。處理任務(wù)的方式包括邊緣端處理、全卸載、部分卸載[27]。該任務(wù)卸載決策模型基于任務(wù)卸載比例 x 來描述任務(wù)卸載決策的結(jié)果。

        其中:邊緣端計(jì)算即任務(wù)僅靠邊緣計(jì)算能力完成;完全卸載意味著類似于傳統(tǒng)的制造資源智能化管理,將終端收集的數(shù)據(jù)卸載到中心服務(wù)器進(jìn)行處理;部分卸載即在邊緣端計(jì)算部分任務(wù),其余部分卸載到云中心進(jìn)行處理。

        模型協(xié)同推理的卸載取決于DNN的層組成,即深度神經(jīng)網(wǎng)絡(luò)內(nèi)每層的數(shù)據(jù)和計(jì)算變化的細(xì)粒度。Kang等人[28]通過改變不同神經(jīng)網(wǎng)絡(luò)層的可配置參數(shù),測量每種配置的延遲與能耗,構(gòu)建每種類型層的延遲與能耗預(yù)測模型,從而在不執(zhí)行DNN的情況下估計(jì)DNN組成層的延遲與能耗,包括靜態(tài)配置和服務(wù)執(zhí)行兩個(gè)階段。在靜態(tài)配置階段,從云數(shù)據(jù)庫中獲取DNN層頻譜的延遲與能耗預(yù)測模型,并將其存儲(chǔ)在相應(yīng)的邊緣端。在服務(wù)執(zhí)行階段,系統(tǒng)對(duì)DNN層進(jìn)行類型分析,提取其配置,并使用存儲(chǔ)的預(yù)測模型來評(píng)估每個(gè)層在邊緣端和云中心的執(zhí)行延遲與能耗。在此基礎(chǔ)上,考慮在動(dòng)態(tài)變化的環(huán)境下每個(gè)候選分段點(diǎn)對(duì)應(yīng)的服務(wù)延遲與能耗,選擇最優(yōu)策略作為分段點(diǎn)的輸出,在邊緣端和云中心之間分配任務(wù)來執(zhí)行DNN,盡可能多地在邊緣端處理實(shí)時(shí)應(yīng)用。

        2.2 通信模型

        為了進(jìn)一步在云中心處理與學(xué)習(xí)邊緣端卸載的計(jì)算任務(wù),需要將來自邊緣端任務(wù)的輸入比特傳輸?shù)皆浦行?。假設(shè)邊緣服務(wù)器和云中心之間的無線信道在一個(gè)時(shí)隙內(nèi)保持不變,但在不同時(shí)間槽間遵循獨(dú)立同分布。根據(jù)香農(nóng)公式,邊緣設(shè)備 i∈N 與時(shí)隙 χt 云中心之間的傳輸速率可以表示為

        其中: B 和 N0 分別表示通信帶寬和信道噪聲功率的頻譜密度;fied 是邊緣設(shè)備 i 的預(yù)定傳輸功率; hi,ct 表示從邊緣設(shè)備到云中心的信道功率增益[29],受路徑損耗、陰影和小規(guī)模衰落等不可控因素的影響。此外,根據(jù)文獻(xiàn)[30], ωi(t) 表示每個(gè)邊緣設(shè)備 i 的帶寬分配比。

        2.3數(shù)據(jù)卸載的時(shí)延與能耗模型

        在云邊協(xié)同的計(jì)算環(huán)境中,本文以邊緣端處理的計(jì)算任務(wù)為整體,可以在邊緣側(cè)進(jìn)行數(shù)據(jù)實(shí)時(shí)處理,并將一部分?jǐn)?shù)據(jù)卸載到云中心進(jìn)行進(jìn)一步處理。

        在邊緣端的計(jì)算延遲為

        其中: ??Di(?t) 為第 χt 個(gè)時(shí)間段中終端設(shè)備傳輸?shù)降?i 個(gè)邊緣端的任務(wù)數(shù)據(jù)大?。?z 是計(jì)算每個(gè)位所需的CPU周期; Ced 是邊緣端的計(jì)算能力。

        能耗可以用式(4)表示。

        其中 ?f1 為邊緣端計(jì)算所消耗的功率單位。

        如果邊緣側(cè)的任務(wù)過載,數(shù)據(jù)比例為 x 的計(jì)算任務(wù)將卸載至云中心,則大小為 x×Di(t) 的計(jì)算任務(wù)的傳輸延遲為傳輸數(shù)據(jù)大小與傳輸速率的比值[31]

        邊緣端到云中心的傳輸能耗為傳輸持續(xù)時(shí)間與傳輸功率的乘積:

        云計(jì)算中心計(jì)算時(shí)延為

        其中: Cc 是云中心的計(jì)算能力。

        云中心通常配備有高性能的處理器,這些處理器在運(yùn)行時(shí)會(huì)產(chǎn)生動(dòng)態(tài)功耗,云計(jì)算中心處理邊緣端傳輸任務(wù)的能耗為

        Eccal=σ(Cc3x×Di(t)×z

        其中: σ 為云服務(wù)器的有效開關(guān)電容[14],取決于處理器架構(gòu),以立方項(xiàng)更好地近似實(shí)際功耗特性。

        因此,計(jì)算卸載到云中心的服務(wù)延遲包含計(jì)算任務(wù)從邊緣端傳輸?shù)皆浦行牡膫鬏斞舆t與在云中心的處理延遲,即

        同理,云中心的服務(wù)能耗為

        2.4模型卸載的時(shí)延與能耗模型

        對(duì)于模型協(xié)同推理任務(wù)的卸載問題,該模型共有 M 層,表示為 m={1,2,…,M} ,在延遲與能耗預(yù)測模型基礎(chǔ)上,每層的執(zhí)行時(shí)延可表示為 tedi?tci[32] ,能耗可表示為 eedi?eci 。

        邊緣端設(shè)備執(zhí)行時(shí)延為

        其中: m 為模型劃分點(diǎn)。

        同理,模型在邊緣端設(shè)備執(zhí)行的能耗為

        傳輸時(shí)延為當(dāng)前劃分層的數(shù)據(jù)傳輸時(shí)延,表示為

        傳輸能耗表示為

        云服務(wù)器的計(jì)算時(shí)延為

        云服務(wù)器的計(jì)算能耗為

        因此,模型推理在云中心的服務(wù)延遲包含從邊緣端卸載到云中心的傳輸延遲與在云中心的處理延遲,即

        同理,云中心的服務(wù)能耗為

        2.5 目標(biāo)函數(shù)

        在云邊協(xié)同計(jì)算卸載中,同時(shí)關(guān)注任務(wù)卸載和模型卸載問題,以時(shí)延和能耗為系統(tǒng)總開銷,類似于文獻(xiàn)[31]建立以下目標(biāo)函數(shù)。

        其中: G 為系統(tǒng)開銷; λ1(i) 為時(shí)延權(quán)重; λ2(i) 為能量消耗權(quán)重;式(22)表示延遲和能量消耗的權(quán)值的線性和為 1:Tmax 是當(dāng)前任務(wù)的最大可容忍延遲;式(23)要求總計(jì)算延遲不能超過任務(wù)的最大容忍延遲; O(i) 是任務(wù)是否被卸載的標(biāo)志;式(24)表示任務(wù)所需的總計(jì)算資源不能超過邊緣端的最大計(jì)算容量。本文目標(biāo)通過優(yōu)化計(jì)算卸載和模型卸載使 最小。

        3基于混合深度強(qiáng)化學(xué)習(xí)的卸載策略

        3.1馬爾可夫卸載決策模型

        考慮到云邊協(xié)同計(jì)算環(huán)境中的復(fù)雜性和動(dòng)態(tài)變化特性,采用強(qiáng)化學(xué)習(xí)的自適應(yīng)決策機(jī)制來優(yōu)化任務(wù)卸載策略。而強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過程(MDP)框架,在應(yīng)用強(qiáng)化學(xué)習(xí)算法之前,首先需將云邊協(xié)同卸載問題形式化為MDP模型。這包括定義狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),從而確保問題能夠在MDP框架內(nèi)得到有效解決。云邊協(xié)同環(huán)境下各要素的詳細(xì)定義如下:

        a)狀態(tài)空間。系統(tǒng)狀態(tài)由一系列特征組成,這些特征共同決定了系統(tǒng)的當(dāng)前運(yùn)行狀況,并為決策提供了必要的信息。對(duì)于 χt 時(shí)刻, N 個(gè)邊緣端設(shè)備、邊緣端設(shè)備狀態(tài)、云服務(wù)器狀態(tài)、DNN模型狀態(tài)、傳輸網(wǎng)絡(luò)狀態(tài)共同構(gòu)成復(fù)合狀態(tài)空間向量 ,表示為

        其中: ??Dt={D1,t,D2,t,…,DN,t} 是邊緣設(shè)備產(chǎn)生的數(shù)據(jù)大小,直接影響任務(wù)的處理需求,即不同大小的數(shù)據(jù)需要不同的計(jì)算資源和時(shí)間來處理; Ft 是邊緣端的剩余計(jì)算資源,判斷該設(shè)備端是否有足夠的能力去處理新的任務(wù),這是決定任務(wù)是否卸載的重要依據(jù); Ct={Cted,Ctc} 是邊緣端與云計(jì)算中心的計(jì)算能力,反映系統(tǒng)整體的處理能力分布; Mt={Mtnum,Mtdata} 為模型的層數(shù)和模型層配置,影響任務(wù)的計(jì)算復(fù)雜度,進(jìn)而影響模型卸載決策;任務(wù)在邊緣端和云中心之間卸載傳輸?shù)臅r(shí)間與成本取決于在該時(shí)隙 Φt 時(shí)的網(wǎng)絡(luò)傳輸速率 Bt 。

        在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,如果輸入數(shù)據(jù)的數(shù)值范圍很大,這可能會(huì)減慢訓(xùn)練進(jìn)程。而且,不同任務(wù)類型的數(shù)據(jù)值范圍的顯著差異和不確定性可能會(huì)導(dǎo)致整個(gè)系統(tǒng)的不穩(wěn)定性,影響其收斂性能。此處對(duì)狀態(tài)進(jìn)行歸一化,式(25)可以進(jìn)一步表示為

        其中: Dsum 為當(dāng)前參與卸載的數(shù)據(jù)之和; Fed 為邊緣端的最大計(jì)算資源; Msum 為參與卸載的模型總層數(shù)與模型輸出總數(shù)據(jù)。

        b)動(dòng)作空間。根據(jù)當(dāng)前狀態(tài),系統(tǒng)執(zhí)行的動(dòng)作旨在調(diào)整任務(wù)卸載策略,動(dòng)作空間 A 包含了所有可能的操作選項(xiàng)。首先在多邊緣端設(shè)備的情況下選擇任務(wù)處理的邊緣設(shè)備,再?zèng)Q定任務(wù)是否卸載以及卸載比例。如完全在邊緣端處理、部分卸載至邊緣或云中心以及任務(wù)全部在云中心處理,每個(gè)動(dòng)作 a∈A 對(duì)應(yīng)特定的狀態(tài)轉(zhuǎn)移路徑,并影響后續(xù)的狀態(tài)演變。以分步的形式表示為

        ktat=(xt,pt

        其中: ?kt 表示當(dāng)前時(shí)隙 Φt 狀態(tài)下所服務(wù)的邊緣端設(shè)備; xt 為第 χt 個(gè)時(shí)間槽中任務(wù)的卸載率; pt 為模型最優(yōu)劃分后選擇的卸載點(diǎn)。

        c)獎(jiǎng)勵(lì)。當(dāng)智能體執(zhí)行完當(dāng)前動(dòng)作后,環(huán)境會(huì)根據(jù)該動(dòng)作的效果返回相應(yīng)的獎(jiǎng)勵(lì)值。本文以最小化系統(tǒng)綜合成本為目標(biāo),綜合成本越低代表動(dòng)作越好,進(jìn)而系統(tǒng)處理任務(wù)的整體性能越好,因此,根據(jù)優(yōu)化目標(biāo)式(21)設(shè)置綜合成本的負(fù)值作為獎(jiǎng)勵(lì),表示如下:

        rt=-G

        由于本文的目標(biāo)是在每個(gè)時(shí)間段內(nèi)最大化回報(bào),即獎(jiǎng)勵(lì)隨著時(shí)間推移的積累,其可表示為

        其中: γ 為折扣因子。

        3.2混合卸載策略方法

        對(duì)于現(xiàn)有的深度強(qiáng)化學(xué)習(xí)(DRL)算法來說,動(dòng)作空間可以是離散的或是連續(xù)的。為了處理混合動(dòng)作空間的需求,集成DQN和DDPG的混合深度強(qiáng)化學(xué)習(xí)算法,結(jié)合DQN的 ε greedy探索機(jī)制和DDPG的噪聲添加策略,使M-DRL能夠在探索與利用之間找到更好的平衡點(diǎn)。云制造環(huán)境中的任務(wù)往往具有明顯的時(shí)間序列特征,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法無法有效捕捉這些時(shí)間依賴關(guān)系。本文通過引入LSTM,不僅基于當(dāng)前的狀態(tài)作出決策,還能夠考慮到過去的經(jīng)驗(yàn)教訓(xùn),增強(qiáng)決策的全面性和準(zhǔn)確性。特別是在面對(duì)復(fù)雜的狀態(tài)空間時(shí),LSTM可以幫助提取邊緣設(shè)備的任務(wù)和環(huán)境信息,提供更豐富的上下文支持。

        基于DDPG提出了M-DRL方法以獲得系統(tǒng)最大化回報(bào),DDPG常用于連續(xù)控制任務(wù),且傳統(tǒng)的DDPG假設(shè)狀態(tài)之間的轉(zhuǎn)換是馬爾可夫性質(zhì)的,即未來的狀態(tài)僅取決于當(dāng)前狀態(tài)和采取的動(dòng)作,而不依賴于過去的狀態(tài)。具體體現(xiàn)在策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)輸出一個(gè)確定性的動(dòng)作、價(jià)值網(wǎng)絡(luò)評(píng)估給定狀態(tài)下采取特定動(dòng)作的價(jià)值以及從緩沖區(qū)采樣一批數(shù)據(jù)時(shí),每一對(duì)狀態(tài)-動(dòng)作對(duì)都被視為獨(dú)立的事件,樣本之間沒有時(shí)間上的順序關(guān)系等。而M-DRL方法輸出離散-連續(xù)復(fù)合動(dòng)作,對(duì)云邊環(huán)境存在的不同類型數(shù)據(jù)進(jìn)行歸一化處理,確保訓(xùn)練過程的穩(wěn)定性和收斂性。在策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)中都引入LSTM結(jié)構(gòu),打破原始的嚴(yán)格馬爾可夫性質(zhì),結(jié)合歷史信息和當(dāng)前信息為系統(tǒng)作出更全面的決策。同時(shí),合理設(shè)計(jì)LSTM的層數(shù)和參數(shù),確保模型既能捕捉長期依賴關(guān)系,又不會(huì)因過于復(fù)雜而難以訓(xùn)練或過擬合,如圖2所示。

        圖2M-DRL的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2Network structure of M-DRL

        在動(dòng)作空間中設(shè) ax∈Ax 和 ap∈Ap 分別表示連續(xù)作用和離散作用,其中 Ax 和 Ap 分別表示連續(xù)動(dòng)作空間和離散動(dòng)作空間。連續(xù)-離散的混合作用用一個(gè) A=Ax∪Ap 表示。

        類似于DDPG,critic網(wǎng)絡(luò)參數(shù) θ 的更新是通過最小化TD誤差(temporaldifferenceerror)的平方來完成的。TD誤差定義為預(yù)測的 Q 值與目標(biāo) Q 值之間的差異。更新規(guī)則可以表示為

        critic網(wǎng)絡(luò)更新規(guī)則:

        θ←θ-β?θE(s,a,r,s)~D[(Q(s,a;θ)-(r+γQ(s,μ(s;ψ);θ)))2]

        其中 :β 是學(xué)習(xí)率; 是經(jīng)驗(yàn)回放緩沖區(qū); γ 是折扣因子; Q(s

        μ(s;ψ);θ) 是目標(biāo)網(wǎng)絡(luò)的輸出; θ 表示目標(biāo)網(wǎng)絡(luò)的參數(shù)。

        actor網(wǎng)絡(luò)參數(shù)的是通過最大化actor產(chǎn)生的動(dòng)作在critic網(wǎng)絡(luò)下的期望回報(bào)來進(jìn)行的,更新規(guī)則為

        其中: α 是學(xué)習(xí)率 μ(s;ψ) 是actor網(wǎng)絡(luò)輸出的動(dòng)作 ;ρψ 表示在給定策略下的狀態(tài)分布; ablaψ 表示對(duì)參數(shù) ψ 的梯度。在每個(gè)訓(xùn)練步驟中,隨機(jī)選擇 N 個(gè)過渡樣本 (s,a,r,s) 形成一個(gè)小批量,然后輸入到critic網(wǎng)絡(luò)中更新 θ ;同時(shí),也通過critic網(wǎng)絡(luò)反饋的信息來更新actor網(wǎng)絡(luò)的參數(shù) ψ 。

        在深度強(qiáng)化學(xué)習(xí)(DRL)中,探索與利用之間的平衡對(duì)于訓(xùn)練出高效的決策代理至關(guān)重要。為了有效地訓(xùn)練能夠處理混合離散連續(xù)動(dòng)作空間的深度網(wǎng)絡(luò),本文采用了一種特殊的探索策略,這一策略結(jié)合了DQN中的 ε -貪婪策略與OrnsteinUhlenbeck噪聲,用于增強(qiáng)DDPG算法中行為網(wǎng)絡(luò)輸出的動(dòng)作,即在DDPG算法中,對(duì)于離散動(dòng)作部分采用了 ε -貪婪策略來進(jìn)行探索,而對(duì)于連續(xù)動(dòng)作部分則添加了Ornstein-Uhlenbeck噪聲以增加探索的多樣性,以達(dá)到在探索新策略與利用已知最優(yōu)策略之間取得良好平衡的目的。具體如式(33)所示。

        其中 ?{μx(s) 表示連續(xù)動(dòng)作actor網(wǎng)絡(luò)對(duì)狀態(tài) s 的輸出; η 是添加到連續(xù)動(dòng)作上的OU噪聲; Q(s,ap,μx(s);ψ;θ) 表示critic 網(wǎng)絡(luò)對(duì)于狀態(tài) s 、離散動(dòng)作和連續(xù)動(dòng)作的 Q 值估計(jì); maxap∈Ap(S)Q(s ap,μx(s):ψ:θ) 表示從離散動(dòng)作空間中選取使 Q 值最大的動(dòng)作;ε 控制著 ε -貪婪策略的探索與利用平衡;rand的取值在[0,1]。

        最后,對(duì)評(píng)論者目標(biāo)網(wǎng)絡(luò)和參與者目標(biāo)網(wǎng)絡(luò)進(jìn)行軟更新,表示為

        其中: τlt;lt;1 。

        具體的 M -DRL算法流程如算法1所示。

        算法1 M -DRL

        輸入:云邊協(xié)同計(jì)算環(huán)境參數(shù)、模型參數(shù)、時(shí)間插槽數(shù) T 訓(xùn)練回合

        數(shù)episode。輸出:最優(yōu)卸載決策(最小系統(tǒng)開銷、最優(yōu)卸載比和模型卸載策

        略)。a)使用隨機(jī)在線策略網(wǎng)絡(luò)權(quán)值 ψ 和在線Q網(wǎng)絡(luò)權(quán)值 θ 初始化參

        與者和評(píng)論者網(wǎng)絡(luò)。b)復(fù)制 θθ 和 ψψ 來初始化目標(biāo)網(wǎng)絡(luò)。c)初始化緩沖區(qū) d) for episode =1 to E (max_episode)doe) 初始化一個(gè)進(jìn)行行動(dòng)探索的隨機(jī)過程。f) 重置云邊計(jì)算環(huán)境的參數(shù)。g) 獲取初始觀測狀態(tài) h) for each時(shí)間槽 =1 to T doi) 將狀態(tài)歸一化為 s j) 引用DNN預(yù)測模型,根據(jù)當(dāng)前狀態(tài)和探索噪聲執(zhí)行動(dòng)作。k) 根據(jù)式(28)計(jì)算獎(jiǎng)勵(lì) rt ,得到一個(gè)新的狀態(tài)\$,并執(zhí)行步驟i)。1) 存儲(chǔ) 到經(jīng)驗(yàn)重放緩沖區(qū)D。證 "{ D }"未滿then將其存儲(chǔ)到" else隨機(jī)替換里面的經(jīng)驗(yàn)。endifn) 從回放緩沖區(qū)D中隨機(jī)采樣 N 個(gè)樣本作為一個(gè)小批訓(xùn)練數(shù)據(jù)。0) 通過LSTM 網(wǎng)絡(luò)處理。p) 計(jì)算目標(biāo)Q值。q) 利用式(31)通過最小化TD誤差來更新評(píng)論者網(wǎng)絡(luò)權(quán)重。r) 根據(jù)式(32)更新參與者網(wǎng)絡(luò)權(quán)重。s) 通過式(34)軟更新目標(biāo)網(wǎng)絡(luò)。t) end foru)end for

        3.3算法復(fù)雜度分析

        本文M-DRL的時(shí)間復(fù)雜度包含多個(gè)方面,如環(huán)境交互、狀態(tài)歸一化、算法中的各個(gè)組件(actor和critic網(wǎng)絡(luò)的構(gòu)建與學(xué)習(xí)過程)以及LSTM結(jié)構(gòu)引入后的計(jì)算開銷。與文獻(xiàn)[33]類似,影響算法時(shí)間復(fù)雜度的主要因素是M-DRL在每個(gè)時(shí)間步通過復(fù)雜的網(wǎng)絡(luò)計(jì)算來更新智能體的動(dòng)作策略和值函數(shù)。

        具體而言,主要計(jì)算量來自在actor和critic網(wǎng)絡(luò)中引入的兩層LSTM,則actor網(wǎng)絡(luò)復(fù)雜度與批處理大小 b 、序列長度(狀態(tài)空間維度) s 以及LSTM網(wǎng)絡(luò)兩層的神經(jīng)元數(shù)量 h1,h2 有關(guān),為 Oactor=O(bs(h1+h2h1) ),其中 h21 ,LSTM第二層僅返回最終狀態(tài)的輸出,不保留序列信息。critic網(wǎng)絡(luò)的初始加入一個(gè)全連接層,將狀態(tài)和動(dòng)作信息映射到一個(gè)共同的特征空間中,其復(fù)雜度為 Ocritic=O((s+a)l1+bs(h1+h2h1)) ),其中, a 為動(dòng)作空間維度, l1 為全連接層的神經(jīng)元數(shù)。targetactor和targetcritic網(wǎng)絡(luò)與主網(wǎng)絡(luò)結(jié)構(gòu)相同,則 M -DRL算法復(fù)雜度為各網(wǎng)絡(luò)的復(fù)雜度之和,即 Ototal=O(bsh1(1+h2)+(s+a)l1) 。

        4實(shí)驗(yàn)驗(yàn)證與分析

        4.1 仿真實(shí)驗(yàn)設(shè)置

        本文基于TensorFlow1.15.5環(huán)境模擬了云邊協(xié)同系統(tǒng),算法訓(xùn)練在RTX4090DGPU上運(yùn)行。在云邊協(xié)同聯(lián)合卸載模型中,有 N 個(gè)邊緣端設(shè)備和一個(gè)云服務(wù)中心。在仿真中,邊緣端無法處理計(jì)算密集型任務(wù)時(shí)向云中心發(fā)送請(qǐng)求,此時(shí)調(diào)用智能卸載算法,卸載一部分?jǐn)?shù)據(jù)到云中心進(jìn)行分析或進(jìn)行模型訓(xùn)練。訓(xùn)練好的模型會(huì)根據(jù)靜態(tài)部署在云端與邊緣端的模型時(shí)延與能耗預(yù)測算法,判斷該模型是否可以在邊緣端處理,以支持更多的實(shí)時(shí)應(yīng)用需求,若邊緣端無法滿足推理需求,則云端將已訓(xùn)練好的模型優(yōu)化(模型劃分),將一部分邊緣端可承載的模型卸載到邊緣,以充分利用邊緣端設(shè)備,減少系統(tǒng)的總開銷。

        本文根據(jù)文獻(xiàn)[31,34,35]對(duì)通信、計(jì)算能力、時(shí)延能耗權(quán)重等進(jìn)行了相關(guān)參數(shù)設(shè)置,以確保實(shí)驗(yàn)設(shè)置的合理性和科學(xué)性。不同于文獻(xiàn)[31],考慮到目標(biāo)應(yīng)用場景中涉及復(fù)雜的數(shù)學(xué)計(jì)算和數(shù)據(jù)處理任務(wù),本文選擇以GFLOP(十億次浮點(diǎn)運(yùn)算每秒)為單位來衡量計(jì)算能力,所使用的主要仿真參數(shù)如表1所示。

        4.2 實(shí)驗(yàn)分析

        4.2.1算法收斂性評(píng)估

        對(duì)于M-DRL中重要的相關(guān)參數(shù),通過多次實(shí)驗(yàn)從多個(gè)候選參數(shù)中選擇出性能最好的參數(shù),如表2所示。

        表1仿真參數(shù)Tab.1Simulation parameters表2M-DRL相關(guān)參數(shù)Tab.2M-DRL related parameters

        算法的收斂性如圖3所示,不帶LSTM的算法在初期較為平緩,在369周期后快速上升并顯示出較大的波動(dòng)性。帶有LSTM的算法在整個(gè)過程中表現(xiàn)得更為平穩(wěn),這得益于LSTM在處理復(fù)雜的時(shí)間序列問題時(shí),有效捕捉數(shù)據(jù)間的長期依賴關(guān)系,可以更準(zhǔn)確地預(yù)測未來的值。

        4.2.2算法性能分析與比較

        為了驗(yàn)證M-DRL的性能,在相同實(shí)驗(yàn)環(huán)境下,將所提算法與基于DQN的任務(wù)卸載算法SLRTA[14]、雙層混合DDPG算法[15]以及基于策略的ACTO- ?n 算法[18]進(jìn)行對(duì)比。圖4展示了四種算法在訓(xùn)練過程中的整體回報(bào)變化情況。從圖中可以看出,隨著訓(xùn)練周期(episode)的增加,算法的整體回報(bào)都有所波動(dòng),但各自的表現(xiàn)特點(diǎn)有所不同。SLRTA在初期階段表現(xiàn)良好,整體回報(bào)較好。然而,隨著訓(xùn)練的進(jìn)行,尤其是在大約320期以后,SLRTA的整體回報(bào)出現(xiàn)劣勢。DDPG在訓(xùn)練過程中呈現(xiàn)了一定程度的波動(dòng),說明其在求解最優(yōu)解的過程中存在不確定性。ACTO- ?n 初期累積回報(bào)較低,后期累積回報(bào)呈現(xiàn)較好的趨勢,但存在較大波動(dòng)。

        圖3是否帶有LSTM的算法收斂性對(duì)比
        Fig.3Convergencecomparisonbetween algorithmswithand withoutLSTM圖4不同算法系統(tǒng)整體回報(bào)性能對(duì)比Fig.4Comparison of overall return performance acrossdifferent algorithmicsystems

        相比之下,M-DRL在整個(gè)訓(xùn)練過程中表現(xiàn)出了較好的穩(wěn)定性。尤其在570期之后,M-DRL的系統(tǒng)開銷達(dá)到了較優(yōu)狀態(tài)并且保持相對(duì)穩(wěn)定,這表明M-DRL算法在應(yīng)對(duì)復(fù)雜環(huán)境時(shí)具有更強(qiáng)的適應(yīng)能力和優(yōu)化效果。

        4.2.3不同執(zhí)行條件下的系統(tǒng)開銷評(píng)估

        為了進(jìn)一步檢驗(yàn)M-DRL的性能,本節(jié)將其與邊緣端計(jì)算、云計(jì)算和隨機(jī)計(jì)算進(jìn)行對(duì)比。隨機(jī)計(jì)算是指在[0,1]隨機(jī)選擇卸載率或執(zhí)行任意模型的卸載方法。

        如圖5所示,隨著執(zhí)行次數(shù)的增加,邊緣計(jì)算、云計(jì)算和M-DRL的系統(tǒng)開銷保持穩(wěn)定,但M-DRL的系統(tǒng)開銷始終低于單獨(dú)采用邊緣計(jì)算和云計(jì)算的方式,這是因?yàn)橄到y(tǒng)開銷的值與執(zhí)行次數(shù)是無關(guān)的。M-DRL能夠在每次執(zhí)行中找到最優(yōu)的動(dòng)作,即最佳的卸載比例和最有效的模型卸載策略,從而實(shí)現(xiàn)了整個(gè)系統(tǒng)的開銷最小化。相比之下,隨機(jī)計(jì)算的系統(tǒng)開銷波動(dòng)較大,原因是每次執(zhí)行中采用的卸載動(dòng)作都是隨機(jī)的,缺乏確定性,因此不適合作為長期的卸載方案。

        在進(jìn)行上述分析后,后續(xù)實(shí)驗(yàn)將不再關(guān)注隨機(jī)計(jì)算,對(duì)比算法包括邊緣端計(jì)算、云計(jì)算、獨(dú)立優(yōu)化制造過程中的數(shù)據(jù)卸載與模型推理卸載(單個(gè)優(yōu)化過程的局部視角),以及SLRTA、雙層混合DDPG與ACTO ?n 算法。

        如圖6\~8所示分別從任務(wù)復(fù)雜度、不同時(shí)延能耗比與不同網(wǎng)絡(luò)速率下(默認(rèn)在計(jì)算相對(duì)密集環(huán)境下)對(duì)所提算法進(jìn)行性能分析。為了簡單明了地描述處理任務(wù)的類型,以1/1、2/2、3/3 代表數(shù)據(jù)量大小與模型復(fù)雜度的程度,如圖6所示,分析不同任務(wù)復(fù)雜度下系統(tǒng)的開銷。

        圖5不同執(zhí)行次數(shù)下系統(tǒng)開銷對(duì)比
        圖6不同任務(wù)復(fù)雜度系統(tǒng)開銷對(duì)比 Fig.6System overhead comparison for different task complexities

        從圖6可以看到,隨著數(shù)據(jù)量與模型復(fù)雜度的增大,邊緣設(shè)備面臨處理瓶頸。數(shù)據(jù)處理與模型推理若都在云中心處理,相較于邊緣設(shè)備端有一定的改善情況,但數(shù)據(jù)傳輸?shù)某杀敬蠓黾樱荒軡M足低延遲需求。單獨(dú)優(yōu)化借助于云邊協(xié)同的優(yōu)勢,雖有一定的效果,但無法在有其他因素的情況下保證任務(wù)總是被分配到最合適的節(jié)點(diǎn)上執(zhí)行。而聯(lián)合優(yōu)化利用全局信息進(jìn)行決策,避免局部最優(yōu)導(dǎo)致的整體次優(yōu),動(dòng)態(tài)調(diào)整任務(wù)分配策略,以適應(yīng)不斷變化的環(huán)境和需求。SLRTA、雙層DDPG與ACTO- ?n 系統(tǒng)開銷保持相對(duì)穩(wěn)定,但無法降至較優(yōu)。

        此外,從圖7可以看出,隨著權(quán)重比的改變,各種計(jì)算模式的系統(tǒng)開銷有所變化。M-DRL計(jì)算在所有時(shí)延能耗比條件下都表現(xiàn)出最低的系統(tǒng)開銷,這表明M-DRL在不同能源消耗場景下都能有效降低系統(tǒng)成本。相比之下,其他算法時(shí)延能耗比影響較大,其系統(tǒng)開銷偏高。

        圖7不同時(shí)延能耗比下系統(tǒng)整體回報(bào)對(duì)比 Fig.7Comparison ofoverall system reward underdifferent latencyand energy consumption ratios

        網(wǎng)絡(luò)速率在卸載中至關(guān)重要,因?yàn)樗苯佑绊憯?shù)據(jù)傳輸效率、能耗和任務(wù)響應(yīng)時(shí)間,進(jìn)而決定系統(tǒng)的整體性能。如圖8所示,將網(wǎng)絡(luò)速率設(shè)置為 1MB/s.2MB/s.3MB/s.4MB/s 和5MB/s ,在計(jì)算密集型任務(wù)下,隨著網(wǎng)絡(luò)速率的提高,云處理和云邊協(xié)同處理的效率會(huì)逐漸提高,而邊緣端處理的相對(duì)優(yōu)勢會(huì)減弱,這是因?yàn)楫?dāng)網(wǎng)絡(luò)傳輸速率足夠高時(shí),傳輸時(shí)延將不再是主要的時(shí)延來源。此時(shí),計(jì)算時(shí)延在資源受限的邊緣端成為瓶頸。通過綜合數(shù)據(jù)分析,所提算法的系統(tǒng)總體平均開銷相比邊緣端處理、云中心處理分別降低 41.37% 一 ,30.87% ,相比于兩者分開優(yōu)化降低 19.81% ,與SLRTA、雙層DDPG及ACTO- ?n 相比分別降低 34.58%.27.54%.17.0% 。綜上,M-DRL能輸出更好的決策動(dòng)作,使系統(tǒng)性能保持最優(yōu)。

        圖8不同網(wǎng)絡(luò)速率下系統(tǒng)開銷對(duì)比Fig.8Comparison of system overhead under different network speeds

        5結(jié)束語

        本文以云制造環(huán)境下實(shí)時(shí)感知數(shù)據(jù)的處理為背景,考慮云邊協(xié)同架構(gòu)下數(shù)據(jù)處理過程中存在的數(shù)據(jù)任務(wù)卸載與模型卸載問題,提出基于混合深度強(qiáng)化學(xué)習(xí)的云邊協(xié)同聯(lián)合卸載策略。該策略綜合考慮系統(tǒng)的時(shí)延與能耗,能夠根據(jù)處理任務(wù)特征和網(wǎng)絡(luò)狀態(tài)作出最優(yōu)決策。仿真實(shí)驗(yàn)結(jié)果表明,本文M-DRL的決策結(jié)果可以有效地降低系統(tǒng)開銷。未來的研究工作中,將繼續(xù)優(yōu)化算法,使其理論模型能夠應(yīng)用于實(shí)際的云制造環(huán)境中。

        參考文獻(xiàn):

        [1].LiKai,Zhou Tao,LiuBohai.Internet-basedintelligentandsustainablemanufacturing:developmentsand challenges[J].The International Journal of AdvancedManufacturing Technology,2020, 108(5):1767-1791.

        [2]Deng Shuiguang,Zhao Hailiang,F(xiàn)ang Weijia,et al. Edge inteligence:the confluence of edge computing and artificial intelligence [J].IEEE Internetof ThingsJournal,2020,7(8):7457-7469.

        [3]Yang Chen,Lan Shulin,Wang Lihui,et al.Big data driven edgecloud collaboration architecture for cloud manufacturing:a software definedperspective[J].IEEEAccess,2020,8:45938-45950.

        [4]Lou Ping,Liu Shiyu,Hu Jianmin,etal.Intelligent machine tool based on edge-cloud collaboration[J].IEEE Access,2020,8: 139953-139965.

        [5]董裕民,張靜,謝昌佐,等.云邊端架構(gòu)下邊緣智能計(jì)算關(guān)鍵問 題綜述:計(jì)算優(yōu)化與計(jì)算卸載[J].電子與信息學(xué)報(bào),2024,46 (3):765-776.(Dong Yumin,Zhang Jing,Xie Changzuo,et al.A survey ofkey issues in edge intelligent computingunder cloud-edgeterminal architecture:computing optimization and computing offloading[J].Journal of Electronicsamp; Information Technology, 2024,46(3):765-776.)

        [6]謝人超,楊煜天,唐琴琴,等.低軌衛(wèi)星網(wǎng)絡(luò)星載邊緣DNN推理 策略[J].北京郵電大學(xué)學(xué)報(bào),2023,46(2):57-63,103.(Xie Renchao,YangYutian,TangQinqin,etal.On-boardedgeDNN inference strategies for LEO satellite networks[J].Journal of Beijing University of Postsand Telecommunications,2023,46(2): 57- 63,103.)

        [7]Xiao Surong,Liu Chubo,Li Kenli,et al.System delay optimization for mobile edge computing[J]. Future Generation Computer Systems,2020,109:17-28.

        [8]Huynh LN T,Pham QV,Pham X Q,et al.Efficient computation offloading in multi-tier multi-access edge computing systems:a particle swarm optimization approach[J].Applied Sciences,2020,10 (1): 203.

        [9].Zabihi Z,Eftekhari Moghadam A M,Rezvani MH. Reinforcement learning methods for computation offloading:a systematic review[J]. ACM Computing Surveys,2023,56(1):article No.17.

        [10]Zhou Tianqing,Qin Dong,Nie Xuefang,et al.Energy-efficient computation offloading and resource management in ultradense heterogeneous networks[J].IEEE Trans on Vehicular Technology,2021, 70(12):13101-13114.

        [11] Zhu Anqing,Wen Youyun. Computing offloading strategy using improved genetic algorithm in mobile edge computing system[J]. Journal of Grid Computing,2021,19(3):article No.38.

        [12]Liu Jinshi,AhmedM,Mirza MA,et al.RL/DRL meets vehicular task offloading using edge and vehicular cloudlet:a survey [J]. IEEE Internet of Things Journal,2022,9(11):8315-8338.

        [13]Yan Peizhi,Choudhury S.Deep Q-learning enabled joint optimization of mobile edge computing multi-level task offloading[J].Computer Communications,2021,180: 271-283.

        [14]Tong Zhao,Deng Xiaomei,Mei Jing,et al.Response time and energy consumption co-offloading with SLRTA algorithm incloud-edge collaborative computing[J]. Future Generation Computer Systems,2022,129: 64-76.

        [15]Li Haofei,Chen Chen,Shan Hangguan,et al. Deep deterministic policy gradient-based algorithm for computation ofloading in IoV[J]. IEEETrans on Intelligent Transportation Systems,2024,25 (3):2522-2533.

        [16] Zhang Tianrong,Wu Fan,Chen Zeyu,et al. Optimization of edgecloud collaborative computing resource management for Internet of vehicles based on multiagent deep reinforcement learning[J].IEEE InternetofThingsJournal,2024,11(22):36114-36126.

        [17] Shang Ce,Huang Youliang,Sun Yan,et al. Joint computation offloading and service caching in mobile edge-cloud computing via deep reinforcement learning[J].IEEE Internet of Things Journal, 2024,11(24):40331-40344.

        [18]Binh TH,Son DB,Vo H,et al.Reinforcement learning for optimizing delay-sensitive task offloading in vehicular edge-cloud computing [J].IEEE Internet of Things Journal,2024,11(2):2058-2069.

        [19]郭曉東,郝思達(dá),王麗芳.基于深度強(qiáng)化學(xué)習(xí)的車輛邊緣計(jì)算任 務(wù)卸載方法[J].計(jì)算機(jī)應(yīng)用研究,2023,40(9):2803-2807, 2814.(Guo Xiaodong, Hao Sida,Wang Lifang.Task offloading method based on deep reinforcement learning for vehicular edge computing[J]. Application Research of Computers,2023,40(9): 2803-2807,2814.)

        [20] Chen Juan,Wu Zongling.Dynamic computation ofloading with energy harvesting devices : a graph-based dep reinforcementlearning approach [J].IEEE Communications Letters,2021,25(9):2968-2972.

        [21]Du Yiquan,Zhang Xiuguo,Cao Zhiying,et al.An optimized path planning method for coastal ships based on improved DDPG and DP 7765130.

        [22]Gao Honghao,Wang Xuejie,Wei Wei,et al.Com-DDPG:taskoffloading based on multiagent reinforcement learning for informationcommunication-enhanced mobile edge computing in the Internet of Vehicles[J].IEEE Trans on Vehicular Technology,2024,73 (1):348-361.

        [23]Liao Jingxiao,Wei Shenglai,Xie Chenlong,et al.BearingPGA-Net: alightweight and deployable bearing fault diagnosis network via decoupled knowledge distillation and FPGA acceleration[J].IEEE Transon Instrumentation and Measurement,2023,73: 3506414.

        [24]Su Yi,F(xiàn)an Wenhao,Gao Li,et al. Joint DNN partition and resource allocation optimization for energy-constrained hierarchical edge-cloud systems[J].IEEE Trans on Vehicular Technology,2023,72 (3): 3930-3944.

        [25]Tian Jiangyu,Li Xin,Qin Xiaolin. Reinforcement learning based collaborative inference and task offloading optimization for cloud-edgeendsystems[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ: IEEE Press,2024:1-8.

        [26]Xue Min,Wu Huaming,Peng Guang,et al.DDPQN:an efficient DNN offloading strategy in local-edge-cloud collaborative environments[J]. IEEETrans on Services Computing,2022,15(2):640-655.

        [27]張依琳,梁玉珠,尹沐君,等.移動(dòng)邊緣計(jì)算中計(jì)算卸載方案研 究綜述[J].計(jì)算機(jī)學(xué)報(bào),2021,44(12):2406-2430.(Zhang Yilin,Liang Yuzhu,Yin Mujun,et al. Survey on the methods of computation offloading in mobile edge computing[J]. Chinese Journal of Computers,2021,44(12):2406-2430.)

        [28]Kang Yiping,Hauswald J,Gao Cao,et al. Neurosurgeon[J].ACM SIGARCH Computer Architecture News,2017,45(1) : 615-629.

        [29]Kai Caihong,LiHui,XuLei,etal.Energy-effcient device-todevice communications for green smart cities [J].IEEE Trans on Industrial Informatics,2018,14(4):1542-1551.

        [30]Lin Rongping,Zhou Zhijie,Luo Shan,et al.Distributed optimization for computation offloading in edge computing[J]. IEEE Trans on Wireless Communications,2020,19(12):8179-8194.

        [31]Ren Jinke,Yu Guanding,He Yinghui,et al.Collaborative cloud and edge computing for latency minimization[J]. IEEE Trans on Vehicular Technology,2019,68(5):5031-5044.

        [32]Wang Chuting,Guo Ruifeng,Yu Haoyu,et al.Task offloading in cloud-edge collaboration-based cyber physical machine tool[J].Robotics and Computer-Integrated Manufacturing,2023,79: 102439.

        [33]黃毅,王文軒,崔允賀,等.基于Boosting優(yōu)先經(jīng)驗(yàn)重放的協(xié)同 計(jì)算卸載方法[J].計(jì)算機(jī)應(yīng)用研究,2025,42(3):777-787. (Huang Yi,WangWenxuan,Cui Yunhe,et al.Co-computation offloading method based on Boosting prioritized empirical replay[J]. Application Research of Computers,2025,42(3):777-787.)

        [34]Hu Qiyu,Cai Yunlong,Yu Guanding,et al.Joint ofloading and trajectory design for UAV-enabled mobile edge computing systems [J].IEEE Internet of Things Journal,2019,6(2):1879-1892.

        [35]Zhang Jing,Du Jun,Shen Yuan,et al.Dynamic computation offloading with energy harvesting devices:a hybrid-decision-based deep reinforcement learning approach [J]. IEEE Internet of Things lnurnal 2020 7710).0303.0317

        猜你喜歡
        時(shí)延邊緣能耗
        選煤廠粉塵治理中余熱回收裝置的節(jié)能研究
        能源新觀察(2025年7期)2025-08-19 00:00:00
        一種基于CPU+FPGA架構(gòu)的大容量數(shù)據(jù)高效索引方法
        衛(wèi)星通信網(wǎng)絡(luò)擁塞控制算法的研究
        貝氏體型非調(diào)質(zhì)鋼連鑄圓壞組織和力學(xué)性能研究
        剪刀小管家
        基于SOLO分類理論的初中數(shù)學(xué)項(xiàng)目式教學(xué)策略
        海棠花開
        基于5G網(wǎng)絡(luò)的車聯(lián)網(wǎng)系統(tǒng)架構(gòu)與性能優(yōu)化研究
        汽車電器(2025年7期)2025-08-10 00:00:00
        基于多因素影響的城市水污染處理節(jié)能技術(shù)研究
        圖像自動(dòng)增強(qiáng)與注意力機(jī)制深度學(xué)習(xí)的MIG焊縫跟蹤系統(tǒng)
        国产精品精品国产色婷婷| 国产成人综合久久久久久| 大伊香蕉精品视频一区| 国产一区二区三区在线观看黄| 欧美又大粗又爽又黄大片视频| 天天色影网| 99福利网| 亚洲中文字幕第一第二页| 青青草亚洲视频社区在线播放观看 | 国产一区二区三区色哟哟| 香港三日本三级少妇三级视频| 国产精品午睡沙发系列| AV无码系列一区二区三区| 99久久精品一区二区国产 | 婚外情长久的相处之道| 国产超碰人人爽人人做人人添| 精品乱码一区二区三区四区| 天堂女人av一区二区| 国产毛片av一区二区| 国产裸体xxxx视频在线播放| 亚洲成AⅤ人在线观看无码| 天天综合色中文字幕在线视频| 久久综合久久美利坚合众国| 欧美日韩视频无码一区二区三| 亚洲中文欧美日韩在线| 蜜臀av一区二区三区| 夜夜春亚洲嫩草影院| 人人妻人人澡人人爽精品欧美| 日本一区二区三区看片| 少妇下面好爽好紧好湿一区二区| 国产绳艺sm调教室论坛| 亚洲欧美日韩高清中文在线| 亚洲一区在线二区三区| 天堂а在线中文在线新版| 久久福利青草精品免费| 国产在线拍91揄自揄视精品91| 久久综合伊人77777麻豆| 在教室伦流澡到高潮hgl视频| 99在线无码精品秘 入口九色| 熟女一区二区中文字幕| 亚洲av最新在线网址|