基于混合深度強(qiáng)化學(xué)習(xí)的云制造云邊協(xié)同聯(lián)合卸載策略

2025-08-03 00:00:00張亞茹郭銀章

計(jì)算機(jī)應(yīng)用研究 2025年6期

Joint offloading strategy for cloud manufacturing based on hybrid deep reinforcement learning in cloud-edge collaboration

Zhang Yaru，Guo Yinzhang? （Colegeof ComputerScienceamp;Technology，Taiyuan UniversityofScienceamp;Technology，TaiyuanO3o024，China）

Abstract：Toaddress theissueofreal-time perceptiondata frommanufacturingresources being dificult toprocess promptlyin acloud-edgecollaborative cloud manufacturingenvironment，considering uncertainfactors suchas the limited computingresources attheedge，dynamicallychanging network conditions，andtaskloads，thispaper proposedacloud-edgecolaborative jointoffloading strategybasedonmixed-baseddeepreinforcementlearning（M-DRL）.Firstly，thisstrategyestablishedajoint ffloadigmodelbycombiningdiscretemodeloffloadinginthecloudwithcontinuoustaskoffloadingattheedge.Secondly， this strategydefinedtheoptimizationproblemasaMDPtominimizethetotalcostofdelayandenergyconsumptionoveraperiod. Finally，thispaper used the M -DRL algorithm，which utilized an integrated exploration strategy of DDPG and DQNand introducedalongshort-termmemory network（LSTM）intothenetworkarchitecture，tosolvethisoptimizationproblem.Simulation results showthatcompared with some existing ofloadingalgorithms，the M-DRL method has goodconvergence and Stability， andsignificantlyreduces thetotalsystemcost.Itprovidesanefectivesolutionforthetimelyprocessingofmanufacturingresource perception data.

Keywords：cloudmanufacturing；cloud-edgecolaboration;jointofloading；LSTMreinforcementlearning；Markovdecision process（MDP）

0 引言

云制造作為一種新興的生產(chǎn)模式，以前所未有的速度改變著全球制造業(yè)的格局。它通過整合云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)技術(shù)，實(shí)現(xiàn)了制造資源的虛擬化、網(wǎng)絡(luò)化和智能化管理[1]。然而，隨著云制造環(huán)境下的制造資源實(shí)時(shí)感知數(shù)據(jù)呈指數(shù)級(jí)增長，傳統(tǒng)計(jì)算模式面臨著前所未有的挑戰(zhàn)。

在生產(chǎn)制造過程中積累的大量數(shù)據(jù)對(duì)于實(shí)時(shí)監(jiān)控設(shè)備狀態(tài)、提升生產(chǎn)效率至關(guān)重要。在群智感知與協(xié)同的智能制造環(huán)境下，由于網(wǎng)絡(luò)傳輸延遲等原因，生產(chǎn)過程中的大量實(shí)時(shí)數(shù)據(jù)無法及時(shí)傳輸?shù)皆贫诉M(jìn)行處理。于是引入云邊端泛在協(xié)同算法來解決。邊緣計(jì)算部署在產(chǎn)生數(shù)據(jù)的設(shè)備端，能夠提供快速響應(yīng)、實(shí)時(shí)服務(wù)、數(shù)據(jù)處理及安全保障等能力，它能有效地減輕云端的負(fù)載并降低延遲[2]。然而，邊緣計(jì)算的計(jì)算和存儲(chǔ)資源有限，在處理復(fù)雜任務(wù)時(shí)可能會(huì)遇到瓶頸。云計(jì)算提供了強(qiáng)大的計(jì)算和存儲(chǔ)資源，適合進(jìn)行大規(guī)模數(shù)據(jù)處理和復(fù)雜算法的運(yùn)行。然而，隨著越來越多的傳感器和智能設(shè)備被部署在工業(yè)環(huán)境中，數(shù)據(jù)的生成速率和規(guī)模急劇增加，尤其是數(shù)據(jù)從生成到?jīng)Q策直至執(zhí)行的整個(gè)過程中的延遲問題，迫切需要在設(shè)備端處理實(shí)時(shí)性很高的數(shù)據(jù)，以滿足生產(chǎn)過程的需求。因此，面向智能化設(shè)備的云邊協(xié)作架構(gòu)被提出[3]

在云制造云邊協(xié)作架構(gòu)中，信息由下而上，再由上而下形成閉環(huán)[4]。但由于邊緣設(shè)備端和云的計(jì)算與通信資源有限，如果對(duì)這些資源的協(xié)調(diào)運(yùn)用沒有形成閉環(huán)優(yōu)化，就無法充分發(fā)揮云邊協(xié)作的優(yōu)勢。近年來，關(guān)于計(jì)算卸載[5和模型協(xié)同推理[]的研究不少，且它們的優(yōu)化目標(biāo)通常是總延遲最小化[7]能耗最小化或者同時(shí)考慮延遲與能耗的最小化8，但未考慮在分開卸載的情況下，邊緣端和云端的決策缺乏全局視圖，可能導(dǎo)致各自優(yōu)化的目標(biāo)不一致，進(jìn)而使得整個(gè)系統(tǒng)的性能下降。在云邊協(xié)同的復(fù)雜環(huán)境中，由于任務(wù)卸載決策涉及多個(gè)變量和動(dòng)態(tài)環(huán)境特性，如網(wǎng)絡(luò)條件的變化、計(jì)算資源的可用性等，傳統(tǒng)基于規(guī)則或靜態(tài)優(yōu)化的方法難以適應(yīng)這種高度不確定性的場景。為此，研究人員采用強(qiáng)化學(xué)習(xí)處理非線性、非凸優(yōu)化問題[9，使其自適應(yīng)地應(yīng)對(duì)環(huán)境變化。但僅用上述方法缺乏對(duì)歷史信息的有效利用，忽略時(shí)間依賴性和周期模式，可能導(dǎo)致決策不夠精準(zhǔn)和前瞻性不足。

為解決云邊協(xié)作架構(gòu)下存在的閉環(huán)優(yōu)化與復(fù)雜環(huán)境下任務(wù)高效處理問題，本文開發(fā)了一種基于混合深度強(qiáng)化學(xué)習(xí)（M-DRL）的云制造云邊協(xié)同聯(lián)合卸載策略，分析云制造環(huán)境下制造資源閉環(huán)優(yōu)化的關(guān)鍵因素，建立聯(lián)合優(yōu)化系統(tǒng)模型。為了處理復(fù)雜任務(wù)問題，集成DQN和DDPG的探索策略，充分利用兩者的長處滿足系統(tǒng)需求，提高決策效率和靈活性。同時(shí)，在網(wǎng)絡(luò)架構(gòu)中引入LSTM結(jié)構(gòu)，有效地整合歷史信息與當(dāng)前信息，面對(duì)復(fù)雜的狀態(tài)空間數(shù)據(jù)，使用記憶推理提取邊緣設(shè)備任務(wù)和環(huán)境信息，并通過觀察狀態(tài)空間和全面分析數(shù)據(jù)特征來進(jìn)行有效的網(wǎng)絡(luò)學(xué)習(xí)，增強(qiáng)決策的準(zhǔn)確性與適應(yīng)性。

本文主要貢獻(xiàn)總結(jié)如下：

a）針對(duì)資源密集型任務(wù)與時(shí)間敏感型任務(wù)，建立云邊協(xié)同環(huán)境下由邊至云的計(jì)算卸載與由云至邊的模型（DNN）卸載聯(lián)合優(yōu)化的系統(tǒng)模型，確保所有決策都在全局最優(yōu)框架內(nèi)進(jìn)行。

b）以一段連續(xù)時(shí)隙內(nèi)綜合時(shí)延、能耗的總成本為本文解決的優(yōu)化目標(biāo)建立問題模型，并建立相應(yīng)的馬爾可夫決策過程，考慮長期效果的同時(shí)，動(dòng)態(tài)調(diào)整決策。

c）集成改進(jìn)的DDPG與DQN的混合強(qiáng)化學(xué)習(xí)方法，同時(shí)在網(wǎng)絡(luò)架構(gòu)中引入LSTM，有效地處理復(fù)雜決策空間并捕捉數(shù)據(jù)中的時(shí)間依賴關(guān)系，輸出復(fù)合動(dòng)作空間，最后驗(yàn)證所提策略的有效性。

1相關(guān)工作

1.1計(jì)算卸載

隨著人工智能的發(fā)展，基于強(qiáng)化學(xué)習(xí)（RL）的無模型方法已被開發(fā)用于邊緣計(jì)算系統(tǒng)中的計(jì)算卸載[9]，與傳統(tǒng)基于啟發(fā)式的卸載算法（如粒子群優(yōu)化（PSO）[10]和遺傳算法[1]）相比，經(jīng)驗(yàn)驅(qū)動(dòng)的DRL不依賴于環(huán)境模型，特別是通過積累新的經(jīng)驗(yàn)，DRL可以不斷改進(jìn)策略，快速適應(yīng)環(huán)境變化[12]。Yan等人[13]提出了一種基于深度Q學(xué)習(xí)的設(shè)備級(jí)和邊緣級(jí)任務(wù)卸載聯(lián)合優(yōu)化方法，實(shí)現(xiàn)了在任務(wù)延遲和能量消耗之間的良好平衡。Tong等人[14]在計(jì)算能力、資源和可靠性約束下的云邊緣協(xié)作環(huán)境中，提出了一種基于DQN的任務(wù)卸載和資源分配算法SLRTA。雖然基于DQN算法的任務(wù)卸載可以解決動(dòng)態(tài)卸載問題，但任務(wù)卸載方法一般局限于局部計(jì)算和完全卸載，忽略了各種卸載類型。因此，Li等人[15]為解決多用戶環(huán)境下任務(wù)卸載的資源競爭問題，提出一種基于深度確定性策略梯度（DDPG）的雙層混合計(jì)算卸載方法，仿真結(jié)果顯示該方法實(shí)現(xiàn)了更高的任務(wù)平均獎(jiǎng)勵(lì)和更低的平均延遲。Zhang等人[16]提出一種面向邊云協(xié)作的多智能體深度強(qiáng)化學(xué)習(xí)算法（MADRL），采用集中訓(xùn)練、分散執(zhí)行的方式，考慮智能體之間的關(guān)聯(lián)性并利用環(huán)境的整體狀態(tài)來訓(xùn)練各個(gè)agent，通過學(xué)習(xí)形成一致的策略，從而在復(fù)雜的邊云協(xié)作環(huán)境中實(shí)現(xiàn)高效的協(xié)同工作。

然而，目前基于強(qiáng)化學(xué)習(xí)的方法主要考慮離散動(dòng)作空間或連續(xù)動(dòng)作空間。為處理離散-連續(xù)混合動(dòng)作空間，Shang等人[17]采用了一種基于近端策略優(yōu)化（PPO）的方法，并設(shè)計(jì)出動(dòng)態(tài)掩碼機(jī)制，根據(jù)環(huán)境狀態(tài)和緩存決策生成的掩碼向量調(diào)整有效卸載動(dòng)作的概率分布，從而聯(lián)合優(yōu)化服務(wù)緩存和計(jì)算卸載決策。 Binh 等人[18]提出了一種基于演員-評(píng)論家架構(gòu)的任務(wù)卸載方案（ ACTO-n ）。該方案設(shè)計(jì)了偽情節(jié)以模擬演員-評(píng)論家算法的工作機(jī)制，從而直接學(xué)習(xí)最優(yōu)的任務(wù)卸載策略，能夠通過協(xié)作利用邊緣和云資源，最小化各任務(wù)在其質(zhì)量基線（即容忍時(shí)間）內(nèi)的總執(zhí)行時(shí)間，并確保所有任務(wù)滿足其服務(wù)的軟期限。此外，文獻(xiàn)[19]提出一種分階決策的深度強(qiáng)化學(xué)習(xí)方法，該算法在時(shí)延、能耗等方面都表現(xiàn)出很好的優(yōu)勢。

與此同時(shí)，隨著環(huán)境的日益復(fù)雜，將各種新興的神經(jīng)網(wǎng)絡(luò)應(yīng)用到強(qiáng)化學(xué)習(xí)領(lǐng)域已成為一個(gè)熱點(diǎn)。Chen等人[20]提出將一維卷積和長短期記憶網(wǎng)絡(luò)應(yīng)用于DDPG來解決資源分配問題。Du等人[21]提出將長短期記憶網(wǎng)絡(luò)應(yīng)用于DDPG，利用歷史狀態(tài)信息來近似當(dāng)前的環(huán)境狀態(tài)信息，使得預(yù)測的動(dòng)作更加準(zhǔn)確，在道路規(guī)劃問題上取得了良好的效果。Gao等人[22]為了增強(qiáng)多個(gè)智能體之間的信息通信，在DDPG中引入長短期記憶網(wǎng)絡(luò)（LSTM）作為內(nèi)部狀態(tài)預(yù)測器來提供更完整的環(huán)境狀態(tài)，并使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（BRNN）來學(xué)習(xí)和增強(qiáng)從智能體通信中獲得的特征，以解決任務(wù)卸載問題。

1.2 DNN卸載

在邊緣設(shè)備端上部署的深度學(xué)習(xí)DNN模型通常需要輕量級(jí)設(shè)計(jì)[23]，因?yàn)樵谫Y源受限的邊緣設(shè)備上難以完成復(fù)雜的DNN模型推理，研究人員嘗試將復(fù)雜的DNN模型劃分后卸載到不同的設(shè)備進(jìn)行協(xié)同推理。Su等人[24]設(shè)計(jì)了一種基于深度確定性策略梯度的DNN分區(qū)和資源分配（DDPRA）算法，聯(lián)合優(yōu)化DNN分區(qū)和計(jì)算資源分配，以最小化多種類型的深度學(xué)習(xí)任務(wù)的長期平均端到端延遲，同時(shí)保證能耗在其能源預(yù)算范圍內(nèi)。Tian等人[25]通過聯(lián)合優(yōu)化動(dòng)態(tài)環(huán)境下的任務(wù)卸載、模型劃分和資源分配來減少DNN任務(wù)的長期平均端到端延遲，提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同推理優(yōu)化（RLCIO）算法，以減少代理的決策變量。Xue等人[26]設(shè)計(jì)了一種改進(jìn)的雙決斗優(yōu)先深度Q網(wǎng)絡(luò)（DDPQN）算法，旨在資源受限的本地-邊緣-云環(huán)境中優(yōu)化大規(guī)模DNN模型的劃分與卸載，以實(shí)現(xiàn)低延遲、低能耗和低成本的目標(biāo)。但大多數(shù)研究方法在高度動(dòng)態(tài)變化的環(huán)境中對(duì)于不同類型的任務(wù)（如不同規(guī)模、結(jié)構(gòu)和計(jì)算需求的DNN模型）可能缺乏一定的靈活性和支持。

考慮到上述問題，本文提出一種基于離散-連續(xù)混合動(dòng)作空間的強(qiáng)化學(xué)習(xí)方法，能夠在動(dòng)態(tài)變化的環(huán)境中最小化系統(tǒng)時(shí)延與能耗。

2云邊協(xié)同的聯(lián)合卸載模型

實(shí)現(xiàn)閉環(huán)優(yōu)化以提升系統(tǒng)整體性能和資源利用率，云邊協(xié)同計(jì)算的核心在于實(shí)現(xiàn)數(shù)據(jù)的有效卸載和模型的合理分配應(yīng)用。如圖1所示，涉及兩大部分：a）數(shù)據(jù)卸載，即將數(shù)據(jù)從邊緣端轉(zhuǎn)移到云端進(jìn)行處理；b）模型卸載，即在邊緣端和云端之間分配機(jī)器學(xué)習(xí)模型的不同部分進(jìn)行協(xié)同推理。這兩者的有效結(jié)合構(gòu)成了云邊協(xié)同的聯(lián)合卸載機(jī)制。

數(shù)據(jù)卸載主要關(guān)注如何在保證數(shù)據(jù)安全和隱私的前提下，最大化地利用邊緣端和云端各自的優(yōu)點(diǎn)。對(duì)于那些時(shí)效性強(qiáng)且敏感度高的數(shù)據(jù)，可以在邊緣端直接處理，以滿足低延時(shí)和保護(hù)隱私的需求。而對(duì)于那些需要大量計(jì)算資源或者歷史積累的數(shù)據(jù)，則更適合上傳至云端進(jìn)行集中處理。

模型卸載則側(cè)重于如何將復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)（DNN）模型分解成不同的子任務(wù)，由邊緣端和云端共同完成。這種方法利用邊緣端的實(shí)時(shí)處理能力和云端的強(qiáng)大計(jì)算資源，實(shí)現(xiàn)高效的模型推理。通過調(diào)整DNN的層數(shù)和參數(shù)配置，確定哪些層適合在邊緣端運(yùn)行，哪些層更適合在云端運(yùn)行，以此平衡計(jì)算負(fù)載和通信成本。

圖1云邊協(xié)同聯(lián)合卸載模型Fig.1Cloud-edge collaborative joint offloading mode.

本章以最小化系統(tǒng)開銷為目的，對(duì)系統(tǒng)中存在的數(shù)據(jù)卸載以及模型卸載問題進(jìn)行說明，并建立與其相關(guān)的系統(tǒng)模型。

2.1任務(wù)模型

在云邊協(xié)同計(jì)算環(huán)境中，任務(wù)卸載決策對(duì)于優(yōu)化計(jì)算任務(wù)的處理至關(guān)重要。合理的任務(wù)卸載不僅可以提高系統(tǒng)的整體性能和效率，還可以減少網(wǎng)絡(luò)帶寬的占用，降低能耗，并確保實(shí)時(shí)響應(yīng)。本文假設(shè)計(jì)算密集型任務(wù)的數(shù)據(jù)是細(xì)粒度的，即數(shù)據(jù)可以被劃分為任意大小的子集。處理任務(wù)的方式包括邊緣端處理、全卸載、部分卸載[27]。該任務(wù)卸載決策模型基于任務(wù)卸載比例 x 來描述任務(wù)卸載決策的結(jié)果。

其中：邊緣端計(jì)算即任務(wù)僅靠邊緣計(jì)算能力完成；完全卸載意味著類似于傳統(tǒng)的制造資源智能化管理，將終端收集的數(shù)據(jù)卸載到中心服務(wù)器進(jìn)行處理；部分卸載即在邊緣端計(jì)算部分任務(wù)，其余部分卸載到云中心進(jìn)行處理。

模型協(xié)同推理的卸載取決于DNN的層組成，即深度神經(jīng)網(wǎng)絡(luò)內(nèi)每層的數(shù)據(jù)和計(jì)算變化的細(xì)粒度。Kang等人[28]通過改變不同神經(jīng)網(wǎng)絡(luò)層的可配置參數(shù)，測量每種配置的延遲與能耗，構(gòu)建每種類型層的延遲與能耗預(yù)測模型，從而在不執(zhí)行DNN的情況下估計(jì)DNN組成層的延遲與能耗，包括靜態(tài)配置和服務(wù)執(zhí)行兩個(gè)階段。在靜態(tài)配置階段，從云數(shù)據(jù)庫中獲取DNN層頻譜的延遲與能耗預(yù)測模型，并將其存儲(chǔ)在相應(yīng)的邊緣端。在服務(wù)執(zhí)行階段，系統(tǒng)對(duì)DNN層進(jìn)行類型分析，提取其配置，并使用存儲(chǔ)的預(yù)測模型來評(píng)估每個(gè)層在邊緣端和云中心的執(zhí)行延遲與能耗。在此基礎(chǔ)上，考慮在動(dòng)態(tài)變化的環(huán)境下每個(gè)候選分段點(diǎn)對(duì)應(yīng)的服務(wù)延遲與能耗，選擇最優(yōu)策略作為分段點(diǎn)的輸出，在邊緣端和云中心之間分配任務(wù)來執(zhí)行DNN，盡可能多地在邊緣端處理實(shí)時(shí)應(yīng)用。

2.2 通信模型

為了進(jìn)一步在云中心處理與學(xué)習(xí)邊緣端卸載的計(jì)算任務(wù)，需要將來自邊緣端任務(wù)的輸入比特傳輸?shù)皆浦行?。假設(shè)邊緣服務(wù)器和云中心之間的無線信道在一個(gè)時(shí)隙內(nèi)保持不變，但在不同時(shí)間槽間遵循獨(dú)立同分布。根據(jù)香農(nóng)公式，邊緣設(shè)備 i∈N 與時(shí)隙 χ_t 云中心之間的傳輸速率可以表示為

其中： B 和 N₀ 分別表示通信帶寬和信道噪聲功率的頻譜密度；f_i^ed 是邊緣設(shè)備 i 的預(yù)定傳輸功率； h_i，c^t 表示從邊緣設(shè)備到云中心的信道功率增益[29]，受路徑損耗、陰影和小規(guī)模衰落等不可控因素的影響。此外，根據(jù)文獻(xiàn)[30]， ω_i（t）表示每個(gè)邊緣設(shè)備 i 的帶寬分配比。

2.3數(shù)據(jù)卸載的時(shí)延與能耗模型

在云邊協(xié)同的計(jì)算環(huán)境中，本文以邊緣端處理的計(jì)算任務(wù)為整體，可以在邊緣側(cè)進(jìn)行數(shù)據(jù)實(shí)時(shí)處理，并將一部分?jǐn)?shù)據(jù)卸載到云中心進(jìn)行進(jìn)一步處理。

在邊緣端的計(jì)算延遲為

其中： ??D_i（?_t）為第 χ_t 個(gè)時(shí)間段中終端設(shè)備傳輸?shù)降?i 個(gè)邊緣端的任務(wù)數(shù)據(jù)大?。?z 是計(jì)算每個(gè)位所需的CPU周期； C^ed 是邊緣端的計(jì)算能力。

能耗可以用式（4）表示。

其中 ?f₁ 為邊緣端計(jì)算所消耗的功率單位。

如果邊緣側(cè)的任務(wù)過載，數(shù)據(jù)比例為 x 的計(jì)算任務(wù)將卸載至云中心，則大小為 x×D_i（t）的計(jì)算任務(wù)的傳輸延遲為傳輸數(shù)據(jù)大小與傳輸速率的比值[31]

邊緣端到云中心的傳輸能耗為傳輸持續(xù)時(shí)間與傳輸功率的乘積：

云計(jì)算中心計(jì)算時(shí)延為

其中： C^c 是云中心的計(jì)算能力。

云中心通常配備有高性能的處理器，這些處理器在運(yùn)行時(shí)會(huì)產(chǎn)生動(dòng)態(tài)功耗，云計(jì)算中心處理邊緣端傳輸任務(wù)的能耗為

E_c^cal=σ（C^c）³x×D_i（t）×z

其中： σ 為云服務(wù)器的有效開關(guān)電容[14]，取決于處理器架構(gòu)，以立方項(xiàng)更好地近似實(shí)際功耗特性。

因此，計(jì)算卸載到云中心的服務(wù)延遲包含計(jì)算任務(wù)從邊緣端傳輸?shù)皆浦行牡膫鬏斞舆t與在云中心的處理延遲，即

同理，云中心的服務(wù)能耗為

2.4模型卸載的時(shí)延與能耗模型

對(duì)于模型協(xié)同推理任務(wù)的卸載問題，該模型共有 M 層，表示為 m={1，2，…，M} ，在延遲與能耗預(yù)測模型基礎(chǔ)上，每層的執(zhí)行時(shí)延可表示為 t_edⁱ?t_c^i[32] ，能耗可表示為 e_edⁱ?e_cⁱ 。

邊緣端設(shè)備執(zhí)行時(shí)延為

其中： m^′ 為模型劃分點(diǎn)。

同理，模型在邊緣端設(shè)備執(zhí)行的能耗為

傳輸時(shí)延為當(dāng)前劃分層的數(shù)據(jù)傳輸時(shí)延，表示為

傳輸能耗表示為

云服務(wù)器的計(jì)算時(shí)延為

云服務(wù)器的計(jì)算能耗為

因此，模型推理在云中心的服務(wù)延遲包含從邊緣端卸載到云中心的傳輸延遲與在云中心的處理延遲，即

同理，云中心的服務(wù)能耗為

2.5 目標(biāo)函數(shù)

在云邊協(xié)同計(jì)算卸載中，同時(shí)關(guān)注任務(wù)卸載和模型卸載問題，以時(shí)延和能耗為系統(tǒng)總開銷，類似于文獻(xiàn)[31]建立以下目標(biāo)函數(shù)。

其中： G 為系統(tǒng)開銷； λ₁（i）為時(shí)延權(quán)重； λ₂（i）為能量消耗權(quán)重;式（22）表示延遲和能量消耗的權(quán)值的線性和為 1：T_max 是當(dāng)前任務(wù)的最大可容忍延遲；式（23）要求總計(jì)算延遲不能超過任務(wù)的最大容忍延遲； O（i）是任務(wù)是否被卸載的標(biāo)志；式（24）表示任務(wù)所需的總計(jì)算資源不能超過邊緣端的最大計(jì)算容量。本文目標(biāo)通過優(yōu)化計(jì)算卸載和模型卸載使最小。

3基于混合深度強(qiáng)化學(xué)習(xí)的卸載策略

3.1馬爾可夫卸載決策模型

考慮到云邊協(xié)同計(jì)算環(huán)境中的復(fù)雜性和動(dòng)態(tài)變化特性，采用強(qiáng)化學(xué)習(xí)的自適應(yīng)決策機(jī)制來優(yōu)化任務(wù)卸載策略。而強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過程（MDP）框架，在應(yīng)用強(qiáng)化學(xué)習(xí)算法之前，首先需將云邊協(xié)同卸載問題形式化為MDP模型。這包括定義狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)，從而確保問題能夠在MDP框架內(nèi)得到有效解決。云邊協(xié)同環(huán)境下各要素的詳細(xì)定義如下：

a）狀態(tài)空間。系統(tǒng)狀態(tài)由一系列特征組成，這些特征共同決定了系統(tǒng)的當(dāng)前運(yùn)行狀況，并為決策提供了必要的信息。對(duì)于 χ_t 時(shí)刻， N 個(gè)邊緣端設(shè)備、邊緣端設(shè)備狀態(tài)、云服務(wù)器狀態(tài)、DNN模型狀態(tài)、傳輸網(wǎng)絡(luò)狀態(tài)共同構(gòu)成復(fù)合狀態(tài)空間向量，表示為

其中： ?_?D_t={D_1，t，D_2，t，…，D_N，t} 是邊緣設(shè)備產(chǎn)生的數(shù)據(jù)大小，直接影響任務(wù)的處理需求，即不同大小的數(shù)據(jù)需要不同的計(jì)算資源和時(shí)間來處理； F_t 是邊緣端的剩余計(jì)算資源，判斷該設(shè)備端是否有足夠的能力去處理新的任務(wù)，這是決定任務(wù)是否卸載的重要依據(jù)； C_t={C_t^ed，C_t^c} 是邊緣端與云計(jì)算中心的計(jì)算能力，反映系統(tǒng)整體的處理能力分布； M_t={M_t^num，M_t^data} 為模型的層數(shù)和模型層配置，影響任務(wù)的計(jì)算復(fù)雜度，進(jìn)而影響模型卸載決策；任務(wù)在邊緣端和云中心之間卸載傳輸?shù)臅r(shí)間與成本取決于在該時(shí)隙 Φ_t 時(shí)的網(wǎng)絡(luò)傳輸速率 B_t 。

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中，如果輸入數(shù)據(jù)的數(shù)值范圍很大，這可能會(huì)減慢訓(xùn)練進(jìn)程。而且，不同任務(wù)類型的數(shù)據(jù)值范圍的顯著差異和不確定性可能會(huì)導(dǎo)致整個(gè)系統(tǒng)的不穩(wěn)定性，影響其收斂性能。此處對(duì)狀態(tài)進(jìn)行歸一化，式（25）可以進(jìn)一步表示為

其中： D_sum 為當(dāng)前參與卸載的數(shù)據(jù)之和； F_ed 為邊緣端的最大計(jì)算資源; M_sum 為參與卸載的模型總層數(shù)與模型輸出總數(shù)據(jù)。

b）動(dòng)作空間。根據(jù)當(dāng)前狀態(tài)，系統(tǒng)執(zhí)行的動(dòng)作旨在調(diào)整任務(wù)卸載策略，動(dòng)作空間 A 包含了所有可能的操作選項(xiàng)。首先在多邊緣端設(shè)備的情況下選擇任務(wù)處理的邊緣設(shè)備，再?zèng)Q定任務(wù)是否卸載以及卸載比例。如完全在邊緣端處理、部分卸載至邊緣或云中心以及任務(wù)全部在云中心處理，每個(gè)動(dòng)作 a∈A 對(duì)應(yīng)特定的狀態(tài)轉(zhuǎn)移路徑，并影響后續(xù)的狀態(tài)演變。以分步的形式表示為

k_ta_t=（x_t，p_t）

其中： ?k_t 表示當(dāng)前時(shí)隙 Φ_t 狀態(tài)下所服務(wù)的邊緣端設(shè)備； x_t 為第 χ_t 個(gè)時(shí)間槽中任務(wù)的卸載率； p_t 為模型最優(yōu)劃分后選擇的卸載點(diǎn)。

c）獎(jiǎng)勵(lì)。當(dāng)智能體執(zhí)行完當(dāng)前動(dòng)作后，環(huán)境會(huì)根據(jù)該動(dòng)作的效果返回相應(yīng)的獎(jiǎng)勵(lì)值。本文以最小化系統(tǒng)綜合成本為目標(biāo)，綜合成本越低代表動(dòng)作越好，進(jìn)而系統(tǒng)處理任務(wù)的整體性能越好，因此，根據(jù)優(yōu)化目標(biāo)式（21）設(shè)置綜合成本的負(fù)值作為獎(jiǎng)勵(lì)，表示如下：

r_t=-G

由于本文的目標(biāo)是在每個(gè)時(shí)間段內(nèi)最大化回報(bào)，即獎(jiǎng)勵(lì)隨著時(shí)間推移的積累，其可表示為

其中： γ 為折扣因子。

3.2混合卸載策略方法

對(duì)于現(xiàn)有的深度強(qiáng)化學(xué)習(xí)（DRL）算法來說，動(dòng)作空間可以是離散的或是連續(xù)的。為了處理混合動(dòng)作空間的需求，集成DQN和DDPG的混合深度強(qiáng)化學(xué)習(xí)算法，結(jié)合DQN的 ε greedy探索機(jī)制和DDPG的噪聲添加策略，使M-DRL能夠在探索與利用之間找到更好的平衡點(diǎn)。云制造環(huán)境中的任務(wù)往往具有明顯的時(shí)間序列特征，傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法無法有效捕捉這些時(shí)間依賴關(guān)系。本文通過引入LSTM，不僅基于當(dāng)前的狀態(tài)作出決策，還能夠考慮到過去的經(jīng)驗(yàn)教訓(xùn)，增強(qiáng)決策的全面性和準(zhǔn)確性。特別是在面對(duì)復(fù)雜的狀態(tài)空間時(shí)，LSTM可以幫助提取邊緣設(shè)備的任務(wù)和環(huán)境信息，提供更豐富的上下文支持。

基于DDPG提出了M-DRL方法以獲得系統(tǒng)最大化回報(bào)，DDPG常用于連續(xù)控制任務(wù)，且傳統(tǒng)的DDPG假設(shè)狀態(tài)之間的轉(zhuǎn)換是馬爾可夫性質(zhì)的，即未來的狀態(tài)僅取決于當(dāng)前狀態(tài)和采取的動(dòng)作，而不依賴于過去的狀態(tài)。具體體現(xiàn)在策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)輸出一個(gè)確定性的動(dòng)作、價(jià)值網(wǎng)絡(luò)評(píng)估給定狀態(tài)下采取特定動(dòng)作的價(jià)值以及從緩沖區(qū)采樣一批數(shù)據(jù)時(shí)，每一對(duì)狀態(tài)-動(dòng)作對(duì)都被視為獨(dú)立的事件，樣本之間沒有時(shí)間上的順序關(guān)系等。而M-DRL方法輸出離散-連續(xù)復(fù)合動(dòng)作，對(duì)云邊環(huán)境存在的不同類型數(shù)據(jù)進(jìn)行歸一化處理，確保訓(xùn)練過程的穩(wěn)定性和收斂性。在策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)中都引入LSTM結(jié)構(gòu)，打破原始的嚴(yán)格馬爾可夫性質(zhì)，結(jié)合歷史信息和當(dāng)前信息為系統(tǒng)作出更全面的決策。同時(shí)，合理設(shè)計(jì)LSTM的層數(shù)和參數(shù)，確保模型既能捕捉長期依賴關(guān)系，又不會(huì)因過于復(fù)雜而難以訓(xùn)練或過擬合，如圖2所示。

圖2M-DRL的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2Network structure of M-DRL

在動(dòng)作空間中設(shè) a_x∈A_x 和 a_p∈A_p 分別表示連續(xù)作用和離散作用，其中 A_x 和 A_p 分別表示連續(xù)動(dòng)作空間和離散動(dòng)作空間。連續(xù)-離散的混合作用用一個(gè) A=A_x∪A_p 表示。

類似于DDPG，critic網(wǎng)絡(luò)參數(shù) θ 的更新是通過最小化TD誤差（temporaldifferenceerror）的平方來完成的。TD誤差定義為預(yù)測的 Q 值與目標(biāo) Q 值之間的差異。更新規(guī)則可以表示為

critic網(wǎng)絡(luò)更新規(guī)則：

θ←θ-β?_θE_{（s，a，r，s^′）～D}[（Q（s，a;θ）-（r+γQ（s^′，μ（s^′;ψ）;θ^′）））²]

其中 _：β 是學(xué)習(xí)率；是經(jīng)驗(yàn)回放緩沖區(qū)； γ 是折扣因子; Q（s^′

μ（s^′;ψ）;θ^′）是目標(biāo)網(wǎng)絡(luò)的輸出； θ^′ 表示目標(biāo)網(wǎng)絡(luò)的參數(shù)。

actor網(wǎng)絡(luò)參數(shù)的是通過最大化actor產(chǎn)生的動(dòng)作在critic網(wǎng)絡(luò)下的期望回報(bào)來進(jìn)行的，更新規(guī)則為

其中： α 是學(xué)習(xí)率 μ（s;ψ）是actor網(wǎng)絡(luò)輸出的動(dòng)作 ;ρ_ψ 表示在給定策略下的狀態(tài)分布； abla_ψ 表示對(duì)參數(shù) ψ 的梯度。在每個(gè)訓(xùn)練步驟中，隨機(jī)選擇 N 個(gè)過渡樣本（s，a，r，s^′）形成一個(gè)小批量，然后輸入到critic網(wǎng)絡(luò)中更新 θ ；同時(shí)，也通過critic網(wǎng)絡(luò)反饋的信息來更新actor網(wǎng)絡(luò)的參數(shù) ψ 。

在深度強(qiáng)化學(xué)習(xí)（DRL）中，探索與利用之間的平衡對(duì)于訓(xùn)練出高效的決策代理至關(guān)重要。為了有效地訓(xùn)練能夠處理混合離散連續(xù)動(dòng)作空間的深度網(wǎng)絡(luò)，本文采用了一種特殊的探索策略，這一策略結(jié)合了DQN中的 ε -貪婪策略與OrnsteinUhlenbeck噪聲，用于增強(qiáng)DDPG算法中行為網(wǎng)絡(luò)輸出的動(dòng)作，即在DDPG算法中，對(duì)于離散動(dòng)作部分采用了 ε -貪婪策略來進(jìn)行探索，而對(duì)于連續(xù)動(dòng)作部分則添加了Ornstein-Uhlenbeck噪聲以增加探索的多樣性，以達(dá)到在探索新策略與利用已知最優(yōu)策略之間取得良好平衡的目的。具體如式（33）所示。

其中 ?{μ_x（s）表示連續(xù)動(dòng)作actor網(wǎng)絡(luò)對(duì)狀態(tài) s 的輸出； η 是添加到連續(xù)動(dòng)作上的OU噪聲； Q（s，a_p，μ_x（s）;ψ;θ）表示critic 網(wǎng)絡(luò)對(duì)于狀態(tài) s 、離散動(dòng)作和連續(xù)動(dòng)作的 Q 值估計(jì); max_{ap∈Ap（S）}Q（s a_p，μ_x（s）：ψ：θ）表示從離散動(dòng)作空間中選取使 Q 值最大的動(dòng)作;ε 控制著 ε -貪婪策略的探索與利用平衡;rand的取值在[0，1]。

最后，對(duì)評(píng)論者目標(biāo)網(wǎng)絡(luò)和參與者目標(biāo)網(wǎng)絡(luò)進(jìn)行軟更新，表示為

其中： τlt;lt;1 。

具體的 M -DRL算法流程如算法1所示。

算法1 M -DRL

輸入：云邊協(xié)同計(jì)算環(huán)境參數(shù)、模型參數(shù)、時(shí)間插槽數(shù) T 訓(xùn)練回合

數(shù)episode。輸出：最優(yōu)卸載決策（最小系統(tǒng)開銷、最優(yōu)卸載比和模型卸載策

略）。a）使用隨機(jī)在線策略網(wǎng)絡(luò)權(quán)值 ψ 和在線Q網(wǎng)絡(luò)權(quán)值 θ 初始化參

與者和評(píng)論者網(wǎng)絡(luò)。b）復(fù)制 θ^′θ 和 ψ^′ψ 來初始化目標(biāo)網(wǎng)絡(luò)。c）初始化緩沖區(qū) d） for episode =1 to E （max_episode）doe）初始化一個(gè)進(jìn)行行動(dòng)探索的隨機(jī)過程。f）重置云邊計(jì)算環(huán)境的參數(shù)。g）獲取初始觀測狀態(tài) h） for each時(shí)間槽 =1 to T doi）將狀態(tài)歸一化為 s j）引用DNN預(yù)測模型，根據(jù)當(dāng)前狀態(tài)和探索噪聲執(zhí)行動(dòng)作。k）根據(jù)式（28）計(jì)算獎(jiǎng)勵(lì) r_t ，得到一個(gè)新的狀態(tài)＼$，并執(zhí)行步驟i）。1）存儲(chǔ) 到經(jīng)驗(yàn)重放緩沖區(qū)D。證 "{ D }"未滿then將其存儲(chǔ)到" else隨機(jī)替換里面的經(jīng)驗(yàn)。endifn）從回放緩沖區(qū)D中隨機(jī)采樣 N 個(gè)樣本作為一個(gè)小批訓(xùn)練數(shù)據(jù)。0）通過LSTM 網(wǎng)絡(luò)處理。p）計(jì)算目標(biāo)Q值。q）利用式（31）通過最小化TD誤差來更新評(píng)論者網(wǎng)絡(luò)權(quán)重。r）根據(jù)式（32）更新參與者網(wǎng)絡(luò)權(quán)重。s）通過式（34）軟更新目標(biāo)網(wǎng)絡(luò)。t） end foru）end for

3.3算法復(fù)雜度分析

本文M-DRL的時(shí)間復(fù)雜度包含多個(gè)方面，如環(huán)境交互、狀態(tài)歸一化、算法中的各個(gè)組件（actor和critic網(wǎng)絡(luò)的構(gòu)建與學(xué)習(xí)過程）以及LSTM結(jié)構(gòu)引入后的計(jì)算開銷。與文獻(xiàn)[33]類似，影響算法時(shí)間復(fù)雜度的主要因素是M-DRL在每個(gè)時(shí)間步通過復(fù)雜的網(wǎng)絡(luò)計(jì)算來更新智能體的動(dòng)作策略和值函數(shù)。

具體而言，主要計(jì)算量來自在actor和critic網(wǎng)絡(luò)中引入的兩層LSTM，則actor網(wǎng)絡(luò)復(fù)雜度與批處理大小 b 、序列長度（狀態(tài)空間維度） s 以及LSTM網(wǎng)絡(luò)兩層的神經(jīng)元數(shù)量 h₁，h₂ 有關(guān)，為 O_actor=O（bs（h₁+h₂h₁）），其中 h₂1 ，LSTM第二層僅返回最終狀態(tài)的輸出，不保留序列信息。critic網(wǎng)絡(luò)的初始加入一個(gè)全連接層，將狀態(tài)和動(dòng)作信息映射到一個(gè)共同的特征空間中，其復(fù)雜度為 O_critic=O（（s+a）l₁+bs（h₁+h₂h₁））），其中， a 為動(dòng)作空間維度， l₁ 為全連接層的神經(jīng)元數(shù)。targetactor和targetcritic網(wǎng)絡(luò)與主網(wǎng)絡(luò)結(jié)構(gòu)相同，則 M -DRL算法復(fù)雜度為各網(wǎng)絡(luò)的復(fù)雜度之和，即 O_total=O（bsh₁（1+h₂）+（s+a）l₁）。

4實(shí)驗(yàn)驗(yàn)證與分析

4.1 仿真實(shí)驗(yàn)設(shè)置

本文基于TensorFlow1.15.5環(huán)境模擬了云邊協(xié)同系統(tǒng)，算法訓(xùn)練在RTX4090DGPU上運(yùn)行。在云邊協(xié)同聯(lián)合卸載模型中，有 N 個(gè)邊緣端設(shè)備和一個(gè)云服務(wù)中心。在仿真中，邊緣端無法處理計(jì)算密集型任務(wù)時(shí)向云中心發(fā)送請(qǐng)求，此時(shí)調(diào)用智能卸載算法，卸載一部分?jǐn)?shù)據(jù)到云中心進(jìn)行分析或進(jìn)行模型訓(xùn)練。訓(xùn)練好的模型會(huì)根據(jù)靜態(tài)部署在云端與邊緣端的模型時(shí)延與能耗預(yù)測算法，判斷該模型是否可以在邊緣端處理，以支持更多的實(shí)時(shí)應(yīng)用需求，若邊緣端無法滿足推理需求，則云端將已訓(xùn)練好的模型優(yōu)化（模型劃分），將一部分邊緣端可承載的模型卸載到邊緣，以充分利用邊緣端設(shè)備，減少系統(tǒng)的總開銷。

本文根據(jù)文獻(xiàn)[31，34，35]對(duì)通信、計(jì)算能力、時(shí)延能耗權(quán)重等進(jìn)行了相關(guān)參數(shù)設(shè)置，以確保實(shí)驗(yàn)設(shè)置的合理性和科學(xué)性。不同于文獻(xiàn)[31]，考慮到目標(biāo)應(yīng)用場景中涉及復(fù)雜的數(shù)學(xué)計(jì)算和數(shù)據(jù)處理任務(wù)，本文選擇以GFLOP（十億次浮點(diǎn)運(yùn)算每秒）為單位來衡量計(jì)算能力，所使用的主要仿真參數(shù)如表1所示。

4.2 實(shí)驗(yàn)分析

4.2.1算法收斂性評(píng)估

對(duì)于M-DRL中重要的相關(guān)參數(shù)，通過多次實(shí)驗(yàn)從多個(gè)候選參數(shù)中選擇出性能最好的參數(shù)，如表2所示。

表1仿真參數(shù)Tab.1Simulation parameters表2M-DRL相關(guān)參數(shù)Tab.2M-DRL related parameters

算法的收斂性如圖3所示，不帶LSTM的算法在初期較為平緩，在369周期后快速上升并顯示出較大的波動(dòng)性。帶有LSTM的算法在整個(gè)過程中表現(xiàn)得更為平穩(wěn)，這得益于LSTM在處理復(fù)雜的時(shí)間序列問題時(shí)，有效捕捉數(shù)據(jù)間的長期依賴關(guān)系，可以更準(zhǔn)確地預(yù)測未來的值。

4.2.2算法性能分析與比較

為了驗(yàn)證M-DRL的性能，在相同實(shí)驗(yàn)環(huán)境下，將所提算法與基于DQN的任務(wù)卸載算法SLRTA[14]、雙層混合DDPG算法[15]以及基于策略的ACTO- ?n 算法[18]進(jìn)行對(duì)比。圖4展示了四種算法在訓(xùn)練過程中的整體回報(bào)變化情況。從圖中可以看出，隨著訓(xùn)練周期（episode）的增加，算法的整體回報(bào)都有所波動(dòng)，但各自的表現(xiàn)特點(diǎn)有所不同。SLRTA在初期階段表現(xiàn)良好，整體回報(bào)較好。然而，隨著訓(xùn)練的進(jìn)行，尤其是在大約320期以后，SLRTA的整體回報(bào)出現(xiàn)劣勢。DDPG在訓(xùn)練過程中呈現(xiàn)了一定程度的波動(dòng)，說明其在求解最優(yōu)解的過程中存在不確定性。ACTO- ?n 初期累積回報(bào)較低，后期累積回報(bào)呈現(xiàn)較好的趨勢，但存在較大波動(dòng)。

Fig.3Convergencecomparisonbetween algorithmswithand withoutLSTM圖4不同算法系統(tǒng)整體回報(bào)性能對(duì)比Fig.4Comparison of overall return performance acrossdifferent algorithmicsystems

相比之下，M-DRL在整個(gè)訓(xùn)練過程中表現(xiàn)出了較好的穩(wěn)定性。尤其在570期之后，M-DRL的系統(tǒng)開銷達(dá)到了較優(yōu)狀態(tài)并且保持相對(duì)穩(wěn)定，這表明M-DRL算法在應(yīng)對(duì)復(fù)雜環(huán)境時(shí)具有更強(qiáng)的適應(yīng)能力和優(yōu)化效果。

4.2.3不同執(zhí)行條件下的系統(tǒng)開銷評(píng)估

為了進(jìn)一步檢驗(yàn)M-DRL的性能，本節(jié)將其與邊緣端計(jì)算、云計(jì)算和隨機(jī)計(jì)算進(jìn)行對(duì)比。隨機(jī)計(jì)算是指在[0，1]隨機(jī)選擇卸載率或執(zhí)行任意模型的卸載方法。

如圖5所示，隨著執(zhí)行次數(shù)的增加，邊緣計(jì)算、云計(jì)算和M-DRL的系統(tǒng)開銷保持穩(wěn)定，但M-DRL的系統(tǒng)開銷始終低于單獨(dú)采用邊緣計(jì)算和云計(jì)算的方式，這是因?yàn)橄到y(tǒng)開銷的值與執(zhí)行次數(shù)是無關(guān)的。M-DRL能夠在每次執(zhí)行中找到最優(yōu)的動(dòng)作，即最佳的卸載比例和最有效的模型卸載策略，從而實(shí)現(xiàn)了整個(gè)系統(tǒng)的開銷最小化。相比之下，隨機(jī)計(jì)算的系統(tǒng)開銷波動(dòng)較大，原因是每次執(zhí)行中采用的卸載動(dòng)作都是隨機(jī)的，缺乏確定性，因此不適合作為長期的卸載方案。

在進(jìn)行上述分析后，后續(xù)實(shí)驗(yàn)將不再關(guān)注隨機(jī)計(jì)算，對(duì)比算法包括邊緣端計(jì)算、云計(jì)算、獨(dú)立優(yōu)化制造過程中的數(shù)據(jù)卸載與模型推理卸載（單個(gè)優(yōu)化過程的局部視角），以及SLRTA、雙層混合DDPG與ACTO ?n 算法。

如圖6＼～8所示分別從任務(wù)復(fù)雜度、不同時(shí)延能耗比與不同網(wǎng)絡(luò)速率下（默認(rèn)在計(jì)算相對(duì)密集環(huán)境下）對(duì)所提算法進(jìn)行性能分析。為了簡單明了地描述處理任務(wù)的類型，以1/1、2/2、3/3 代表數(shù)據(jù)量大小與模型復(fù)雜度的程度，如圖6所示，分析不同任務(wù)復(fù)雜度下系統(tǒng)的開銷。

圖6不同任務(wù)復(fù)雜度系統(tǒng)開銷對(duì)比 Fig.6System overhead comparison for different task complexities

從圖6可以看到，隨著數(shù)據(jù)量與模型復(fù)雜度的增大，邊緣設(shè)備面臨處理瓶頸。數(shù)據(jù)處理與模型推理若都在云中心處理，相較于邊緣設(shè)備端有一定的改善情況，但數(shù)據(jù)傳輸?shù)某杀敬蠓黾樱荒軡M足低延遲需求。單獨(dú)優(yōu)化借助于云邊協(xié)同的優(yōu)勢，雖有一定的效果，但無法在有其他因素的情況下保證任務(wù)總是被分配到最合適的節(jié)點(diǎn)上執(zhí)行。而聯(lián)合優(yōu)化利用全局信息進(jìn)行決策，避免局部最優(yōu)導(dǎo)致的整體次優(yōu)，動(dòng)態(tài)調(diào)整任務(wù)分配策略，以適應(yīng)不斷變化的環(huán)境和需求。SLRTA、雙層DDPG與ACTO- ?n 系統(tǒng)開銷保持相對(duì)穩(wěn)定，但無法降至較優(yōu)。

此外，從圖7可以看出，隨著權(quán)重比的改變，各種計(jì)算模式的系統(tǒng)開銷有所變化。M-DRL計(jì)算在所有時(shí)延能耗比條件下都表現(xiàn)出最低的系統(tǒng)開銷，這表明M-DRL在不同能源消耗場景下都能有效降低系統(tǒng)成本。相比之下，其他算法時(shí)延能耗比影響較大，其系統(tǒng)開銷偏高。

圖7不同時(shí)延能耗比下系統(tǒng)整體回報(bào)對(duì)比 Fig.7Comparison ofoverall system reward underdifferent latencyand energy consumption ratios

網(wǎng)絡(luò)速率在卸載中至關(guān)重要，因?yàn)樗苯佑绊憯?shù)據(jù)傳輸效率、能耗和任務(wù)響應(yīng)時(shí)間，進(jìn)而決定系統(tǒng)的整體性能。如圖8所示，將網(wǎng)絡(luò)速率設(shè)置為 1MB/s.2MB/s.3MB/s.4MB/s 和5MB/s ，在計(jì)算密集型任務(wù)下，隨著網(wǎng)絡(luò)速率的提高，云處理和云邊協(xié)同處理的效率會(huì)逐漸提高，而邊緣端處理的相對(duì)優(yōu)勢會(huì)減弱，這是因?yàn)楫?dāng)網(wǎng)絡(luò)傳輸速率足夠高時(shí)，傳輸時(shí)延將不再是主要的時(shí)延來源。此時(shí)，計(jì)算時(shí)延在資源受限的邊緣端成為瓶頸。通過綜合數(shù)據(jù)分析，所提算法的系統(tǒng)總體平均開銷相比邊緣端處理、云中心處理分別降低 41.37% 一，30.87% ，相比于兩者分開優(yōu)化降低 19.81% ，與SLRTA、雙層DDPG及ACTO- ?n 相比分別降低 34.58%.27.54%.17.0% 。綜上，M-DRL能輸出更好的決策動(dòng)作，使系統(tǒng)性能保持最優(yōu)。

圖8不同網(wǎng)絡(luò)速率下系統(tǒng)開銷對(duì)比Fig.8Comparison of system overhead under different network speeds

5結(jié)束語

本文以云制造環(huán)境下實(shí)時(shí)感知數(shù)據(jù)的處理為背景，考慮云邊協(xié)同架構(gòu)下數(shù)據(jù)處理過程中存在的數(shù)據(jù)任務(wù)卸載與模型卸載問題，提出基于混合深度強(qiáng)化學(xué)習(xí)的云邊協(xié)同聯(lián)合卸載策略。該策略綜合考慮系統(tǒng)的時(shí)延與能耗，能夠根據(jù)處理任務(wù)特征和網(wǎng)絡(luò)狀態(tài)作出最優(yōu)決策。仿真實(shí)驗(yàn)結(jié)果表明，本文M-DRL的決策結(jié)果可以有效地降低系統(tǒng)開銷。未來的研究工作中，將繼續(xù)優(yōu)化算法，使其理論模型能夠應(yīng)用于實(shí)際的云制造環(huán)境中。

參考文獻(xiàn)：

[1].LiKai，Zhou Tao，LiuBohai.Internet-basedintelligentandsustainablemanufacturing：developmentsand challenges[J].The International Journal of AdvancedManufacturing Technology，2020， 108（5）：1767-1791.

[2]Deng Shuiguang，Zhao Hailiang，F(xiàn)ang Weijia，et al. Edge inteligence：the confluence of edge computing and artificial intelligence [J].IEEE Internetof ThingsJournal，2020，7（8）：7457-7469.

[3]Yang Chen，Lan Shulin，Wang Lihui，et al.Big data driven edgecloud collaboration architecture for cloud manufacturing：a software definedperspective[J].IEEEAccess，2020，8：45938-45950.

[4]Lou Ping，Liu Shiyu，Hu Jianmin，etal.Intelligent machine tool based on edge-cloud collaboration[J].IEEE Access，2020，8： 139953-139965.

[5]董裕民，張靜，謝昌佐，等．云邊端架構(gòu)下邊緣智能計(jì)算關(guān)鍵問題綜述：計(jì)算優(yōu)化與計(jì)算卸載［J]．電子與信息學(xué)報(bào)，2024，46 （3）：765-776.（Dong Yumin，Zhang Jing，Xie Changzuo，et al.A survey ofkey issues in edge intelligent computingunder cloud-edgeterminal architecture：computing optimization and computing offloading[J].Journal of Electronicsamp; Information Technology， 2024，46（3）：765-776.）

[6]謝人超，楊煜天，唐琴琴，等．低軌衛(wèi)星網(wǎng)絡(luò)星載邊緣DNN推理策略[J].北京郵電大學(xué)學(xué)報(bào)，2023，46（2）：57-63，103.（Xie Renchao，YangYutian，TangQinqin，etal.On-boardedgeDNN inference strategies for LEO satellite networks[J].Journal of Beijing University of Postsand Telecommunications，2023，46（2）： 57- 63，103.）

[7]Xiao Surong，Liu Chubo，Li Kenli，et al.System delay optimization for mobile edge computing[J]. Future Generation Computer Systems，2020，109：17-28.

[8]Huynh LN T，Pham QV，Pham X Q，et al.Efficient computation offloading in multi-tier multi-access edge computing systems：a particle swarm optimization approach[J].Applied Sciences，2020，10 （1）： 203.

[9].Zabihi Z，Eftekhari Moghadam A M，Rezvani MH. Reinforcement learning methods for computation offloading：a systematic review[J]. ACM Computing Surveys，2023，56（1）：article No.17.

[10]Zhou Tianqing，Qin Dong，Nie Xuefang，et al.Energy-efficient computation offloading and resource management in ultradense heterogeneous networks[J].IEEE Trans on Vehicular Technology，2021， 70（12）：13101-13114.

[11] Zhu Anqing，Wen Youyun. Computing offloading strategy using improved genetic algorithm in mobile edge computing system[J]. Journal of Grid Computing，2021，19（3）：article No.38.

[12]Liu Jinshi，AhmedM，Mirza MA，et al.RL/DRL meets vehicular task offloading using edge and vehicular cloudlet：a survey [J]. IEEE Internet of Things Journal，2022，9（11）：8315-8338.

[13]Yan Peizhi，Choudhury S.Deep Q-learning enabled joint optimization of mobile edge computing multi-level task offloading[J].Computer Communications，2021，180： 271-283.

[14]Tong Zhao，Deng Xiaomei，Mei Jing，et al.Response time and energy consumption co-offloading with SLRTA algorithm incloud-edge collaborative computing[J]. Future Generation Computer Systems，2022，129： 64-76.

[15]Li Haofei，Chen Chen，Shan Hangguan，et al. Deep deterministic policy gradient-based algorithm for computation ofloading in IoV[J]. IEEETrans on Intelligent Transportation Systems，2024，25 （3）：2522-2533.

[16] Zhang Tianrong，Wu Fan，Chen Zeyu，et al. Optimization of edgecloud collaborative computing resource management for Internet of vehicles based on multiagent deep reinforcement learning[J].IEEE InternetofThingsJournal，2024，11（22）：36114-36126.

[17] Shang Ce，Huang Youliang，Sun Yan，et al. Joint computation offloading and service caching in mobile edge-cloud computing via deep reinforcement learning[J].IEEE Internet of Things Journal， 2024，11（24）：40331-40344.

[18]Binh TH，Son DB，Vo H，et al.Reinforcement learning for optimizing delay-sensitive task offloading in vehicular edge-cloud computing [J].IEEE Internet of Things Journal，2024，11（2）：2058-2069.

[19］郭曉東，郝思達(dá)，王麗芳．基于深度強(qiáng)化學(xué)習(xí)的車輛邊緣計(jì)算任務(wù)卸載方法[J]．計(jì)算機(jī)應(yīng)用研究，2023，40（9）：2803-2807， 2814.（Guo Xiaodong， Hao Sida，Wang Lifang.Task offloading method based on deep reinforcement learning for vehicular edge computing[J]. Application Research of Computers，2023，40（9）： 2803-2807，2814.）

[20] Chen Juan，Wu Zongling.Dynamic computation ofloading with energy harvesting devices ： a graph-based dep reinforcementlearning approach [J].IEEE Communications Letters，2021，25（9）：2968-2972.

[21]Du Yiquan，Zhang Xiuguo，Cao Zhiying，et al.An optimized path planning method for coastal ships based on improved DDPG and DP 7765130.

[22]Gao Honghao，Wang Xuejie，Wei Wei，et al.Com-DDPG：taskoffloading based on multiagent reinforcement learning for informationcommunication-enhanced mobile edge computing in the Internet of Vehicles[J].IEEE Trans on Vehicular Technology，2024，73 （1）：348-361.

[23]Liao Jingxiao，Wei Shenglai，Xie Chenlong，et al.BearingPGA-Net： alightweight and deployable bearing fault diagnosis network via decoupled knowledge distillation and FPGA acceleration[J].IEEE Transon Instrumentation and Measurement，2023，73： 3506414.

[24]Su Yi，F(xiàn)an Wenhao，Gao Li，et al. Joint DNN partition and resource allocation optimization for energy-constrained hierarchical edge-cloud systems[J].IEEE Trans on Vehicular Technology，2023，72 （3）： 3930-3944.

[25]Tian Jiangyu，Li Xin，Qin Xiaolin. Reinforcement learning based collaborative inference and task offloading optimization for cloud-edgeendsystems[C]//Proc of International Joint Conference on Neural Networks.Piscataway，NJ： IEEE Press，2024：1-8.

[26]Xue Min，Wu Huaming，Peng Guang，et al.DDPQN：an efficient DNN offloading strategy in local-edge-cloud collaborative environments[J]. IEEETrans on Services Computing，2022，15（2）：640-655.

[27］張依琳，梁玉珠，尹沐君，等．移動(dòng)邊緣計(jì)算中計(jì)算卸載方案研究綜述［J]．計(jì)算機(jī)學(xué)報(bào)，2021，44（12）：2406-2430.（Zhang Yilin，Liang Yuzhu，Yin Mujun，et al. Survey on the methods of computation offloading in mobile edge computing[J]. Chinese Journal of Computers，2021，44（12）：2406-2430.）

[28]Kang Yiping，Hauswald J，Gao Cao，et al. Neurosurgeon[J].ACM SIGARCH Computer Architecture News，2017，45（1）： 615-629.

[29]Kai Caihong，LiHui，XuLei，etal.Energy-effcient device-todevice communications for green smart cities [J].IEEE Trans on Industrial Informatics，2018，14（4）：1542-1551.

[30]Lin Rongping，Zhou Zhijie，Luo Shan，et al.Distributed optimization for computation offloading in edge computing[J]. IEEE Trans on Wireless Communications，2020，19（12）：8179-8194.

[31]Ren Jinke，Yu Guanding，He Yinghui，et al.Collaborative cloud and edge computing for latency minimization[J]. IEEE Trans on Vehicular Technology，2019，68（5）：5031-5044.

[32]Wang Chuting，Guo Ruifeng，Yu Haoyu，et al.Task offloading in cloud-edge collaboration-based cyber physical machine tool[J].Robotics and Computer-Integrated Manufacturing，2023，79： 102439.

[33］黃毅，王文軒，崔允賀，等．基于Boosting優(yōu)先經(jīng)驗(yàn)重放的協(xié)同計(jì)算卸載方法[J]．計(jì)算機(jī)應(yīng)用研究，2025，42（3）：777-787. （Huang Yi，WangWenxuan，Cui Yunhe，et al.Co-computation offloading method based on Boosting prioritized empirical replay[J]. Application Research of Computers，2025，42（3）：777-787.）

[34]Hu Qiyu，Cai Yunlong，Yu Guanding，et al.Joint ofloading and trajectory design for UAV-enabled mobile edge computing systems [J].IEEE Internet of Things Journal，2019，6（2）：1879-1892.

[35]Zhang Jing，Du Jun，Shen Yuan，et al．Dynamic computation offloading with energy harvesting devices：a hybrid-decision-based deep reinforcement learning approach [J]. IEEE Internet of Things lnurnal 2020 7710）.0303.0317

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合深度強(qiáng)化學(xué)習(xí)的云制造云邊協(xié)同聯(lián)合卸載策略