摘 要: 移動邊緣計算的計算密集型任務多為工作流任務,傳統方法在解決工作流任務卸載問題時很難充分考慮子任務之間的依賴關系,并且計算卸載算法性能不佳。為了解決以上問題,將工作流任務卸載問題建模為馬爾可夫決策過程下的最優(yōu)策略問題,構建問題的狀態(tài)空間、動作空間和獎勵函數。以最小化工作流任務的任務完成時間和系統能耗為目標,提出一種融合注意力機制的基于深度強化學習(DRL)的工作流任務卸載算法(DWTOAA)。該方法使用分段式獎勵函數來提高模型訓練速度,并結合注意力機制提高算法對工作流任務終止執(zhí)行狀態(tài)的識別能力。實驗結果表明,DWTOAA方法相較于DRL算法具有更快的訓練速度,同時在求解不同子任務數的工作流任務時,DWTOAA得到的卸載決策均具有更少的任務完成時間和系統能耗。
關鍵詞: 移動邊緣計算; 注意力機制; 工作流任務; 任務卸載; 深度強化學習; 馬爾可夫決策過程; 系統能耗
中圖分類號: TN929.5?34" " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2025)06?0045?07
DRL workflow task offloading algorithm with attention mechanism in MEC
LEI Xuemei1, ZHANG Hetong2
(1. Office of Information Technology, University of Science and Technology Beijing, Beijing 100083, China;
2. School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China)
Abstract: Most of the computing intensive tasks of mobile edge computing (MEC) are workflow tasks. It is difficult for traditional methods to fully consider the dependency between sub tasks when solving the workflow task offloading, and the performance of computing offloading algorithm is poor. In order to solve above problems, the problem of workflow task offloading is modeled as the problem of the optimal strategy under the Markov decision process, and the state space, action space, and reward function of problems are constructed. In order to minimize the task completion time and system energy consumption of the workflow tasks, a deep reinforcement learning (DRL) based workflow task offloading algorithm integrating attention mechanism (DWTOAA) is proposed. In this method, the segmented reward function is used to increase the training speed of the model, and the attention mechanism is combined to improve the algorithm's ability to recognize the termination status of workflow tasks. The experimental results show that the DWTOAA has a faster training speed compared with the DRL algorithm, and the offloading decisions obtained by DWTOAA have smaller task completion time and system energy consumption when solving workflow tasks with different numbers of subtasks.
Keywords: mobile edge computing; attention mechanism; workflow task; task offloading; deep reinforcement learning; Markov decision process; system energy consumption
0" 引" 言
隨著智能移動終端飛速發(fā)展,大數據時代的來臨,移動設備承載了越來越多的計算密集型實時應用[1?2],而這些應用對移動設備的計算能力和實時性也提出了更高的要求。為解決這一問題,移動邊緣計算(Mobile Edge Computing, MEC)技術得到了學界的廣泛關注[3]。
MEC技術中計算卸載問題是關鍵,一直以來都有學者采用啟發(fā)式方法研究這一問題。文獻[4]改進了遺傳算法中選擇、交叉和變異操作,提高了算法求解最優(yōu)卸載策略的效率。文獻[5]針對通過能量收集技術獲取能源的MEC環(huán)境,使用改進的灰狼算法獲取最小任務執(zhí)行代價。但是啟發(fā)式方法很依賴專家經驗,且在模型變化后很難將原有方法遷移。因此,越來越多的機器學習方法被應用于這一領域。其中,深度強化學習(Deep Reinforcement Learning, DRL)方法被廣泛應用,不論是車聯網環(huán)境[6?7]還是多移動設備多服務器的復雜環(huán)境[8],又或者是無人機輔助的新興環(huán)境[9],DRL方法都可以達到良好的卸載效果。但是上述研究考慮的均為獨立任務模型的計算卸載問題,沒有考慮到更復雜的工作流任務模型。
工作流任務模型更符合計算任務的實際情況,可用有向無環(huán)圖(Directed Acyclic Graph, DAG)表示任務之間的依賴關系。針對工作流任務的計算卸載問題,文獻[10]考慮了用戶數據共享模型中局部模型質量差導致整體參數通用性差的問題,提出了一種基于注意力機制的聯邦強化學習方法聚合參數權重,使新模型更具通用性。文獻[11]考慮了信道動態(tài)變化對卸載策略的影響,提出一種基于優(yōu)先經驗回放的雙深度Q網絡依賴任務卸載算法求解卸載策略。文獻[12]提出一種基于混合參與者?評論家的工作流調度框架,該框架通過近端策略優(yōu)化技術增強,可有效處理邊緣云環(huán)境中的復雜工作流調度問題。文獻[13]使用長短期記憶網絡層來增強深度Q網絡算法,優(yōu)化大規(guī)模異構MEC環(huán)境中的延遲、網絡負載和能源消耗。文獻[14]研究了具有不同拓撲DAG的物聯網應用程序的執(zhí)行策略,提出了一種基于參與者?評論家的分布式應用程序布局技術,顯著降低了智能體的勘探成本。此外,還使用一種自適應的偏離策略校正方法,以更快地收斂到最優(yōu)解。
文獻[10?14]都使用DRL方法解決工作流任務的卸載問題,在處理工作流任務時也都選擇先對子任務進行排序,再當作已知順序的獨立任務序列,用DRL方法卸載,不能充分利用工作流任務中的依賴關系。
針對MEC環(huán)境中工作流任務卸載問題,本文提出了一種融合注意力機制的DRL工作流任務計算卸載算法(DRL Workflow Task Offloading Algorithm Integrating Attention Mechanism, DWTOAA),該算法根據當前系統狀態(tài)編碼給出任務卸載策略,以最小化MEC網絡中所有移動設備、邊緣服務器和云端的最大完工時間和總能耗。
1 系統模型
本文選擇一個具有多移動設備、多邊緣服務器和云端構成的MEC網絡,如圖1所示。其中移動設備集合為[?={1,2,…,M}],邊緣服務器集合為[?={1,2,…,N}],移動設備m([m∈?])單次只產生一個工作流任務[Jm],子任務數為K。移動設備通過無線網絡與邊緣服務器進行數據傳輸,云端則通過光纖與邊緣服務器交換數據,幫助移動設備計算子任務。目標是根據任務最大執(zhí)行時間、系統能耗等評價指標優(yōu)化工作流任務的卸載決策。
本文用DAG表示工作流任務[Jm]的K個子任務,如圖2所示。任務之間的依賴關系使用[G=(V,E)]表示,[V={v1,v2,…,vK}]是工作流任務全部子任務的集合,E為任務之間的依賴關系集合,[ea,b∈E],表示子任務[vb]必須在子任務[va]執(zhí)行完成后才能執(zhí)行。
1.1" 本地計算模型
子任務k是工作流任務第k[(1≤k≤K)]步執(zhí)行的子任務,本地計算延遲[Tcomputek0]為:
式中:[Dk]為計算子任務k所需的CPU周期數;[Clocalm]為移動設備m的CPU計算頻率。
本地計算能耗[Elocalk0]為:
式中[Pcomputem]為移動設備m的計算功率。
1.2 卸載模型
當子任務k卸載到邊緣服務器n([n∈?])計算時,用戶通過無線鏈路傳輸子任務,移動設備m到邊緣服務器n的數據傳輸速率[15][Rmn]為:
式中:[Wmn]是移動設備m和邊緣服務器n間的無線鏈路帶寬;[Pm]為移動設備m的發(fā)射功率;[hmn]為移動設備m和邊緣服務器n之間無線信道的信道參數;[σ2]為加性高斯白噪聲的方差。
卸載到邊緣服務器n的通信延遲[Ttransmissionkn]為:
式中[Dupk]為上傳子任務k所需數據量。接收到子任務k后,邊緣服務器n開始計算任務,計算延遲[Tcomputekn]為:
式中[Cedgen]為邊緣服務器n的CPU計算頻率。
本文將計算所得結果近似為極小數據量,忽略結果傳回移動設備的延遲,因此在邊緣服務器執(zhí)行任務的卸載總延遲[Tedgekn]包括邊緣服務器處的通信延遲和計算延遲,表示為:
進而得到子任務k卸載到邊緣服務器n計算的卸載總能耗[Eedgekn]為:
式中:[Ptransmissionn]和[Pcomputen]分別表示數據傳輸時的系統總功率(包括移動設備的發(fā)送功率和邊緣服務器的接收功率)和邊緣服務器的計算功率。
當子任務k卸載到云端進行計算時,因為邊緣服務器與云端通過光纖傳輸數據,所以忽略這一過程的傳輸時間,只考慮從移動設備到邊緣服務器的最短傳輸時間。因此,子任務k卸載到云端的通信延遲[Ttransmissionkc]為:
在云端執(zhí)行子任務k的卸載總能耗[Ecloudkc]為:
式中:[Ptransmissionc]和[Pcomputec]分別為數據傳輸時的系統總功率和云端的計算功率。
1.3 問題模型
分別用[?k0]、[?kn]和[?kc]表示子任務k對移動設備本地、邊緣服務器和云端的卸載決策變量。由于子任務是不可分割的,因此這些調度決策變量為0和1的整數變量,同時在每個子任務k的決策中有且只有一個決策變量為1,代表所選擇的卸載位置,其余為0。如果[?k0=1],表示子任務k在移動設備本地執(zhí)行;如果[?kc=1],表示子任務k在云端執(zhí)行;如果[?kn=1],[n∈?],表示在第n個邊緣服務器上執(zhí)行子任務k。
用Pk表示子任務k直接前置任務的集合,將MEC環(huán)境中移動設備m、邊緣服務器、云端統稱為計算節(jié)點。執(zhí)行子任務k要滿足兩個條件:第一是子任務k的前置任務p([p∈Pk])全部被完成;第二是執(zhí)行子任務k的計算節(jié)點上沒有未完成的其他子任務。因此子任務在計算節(jié)點上的完成時間分為兩部分,包括子任務k在計算節(jié)點上執(zhí)行任務需要的時間和子任務等待執(zhí)行的等待時間。等待時間取子任務k前置任務p全部完成的時間和計算節(jié)點上已被分配子任務的最大完成時間的最大值。因此,子任務k在移動設備本地、邊緣服務器、云端的完成延遲分別為:
式中:[Tfink0]、[Tfinkn]、[Tfinkc]分別表示子任務k在移動設備本地、邊緣服務器、云端上的完成延遲。子任務k前繼子任務p的完成延遲[Tfinp]為:
式中[k={1,2,…,K}]。子任務數較少時,可通過遍歷找到計算卸載問題的最佳解決方案。但隨著子任務數增加,解決方案的規(guī)模會迅速增加并變得過大,在這種情況下式(20)不再是凸優(yōu)化問題,而是NP困難問題。
1.4 融合注意力機制的DRL計算卸載方法
針對MEC的計算卸載問題,提出一種融合注意力機制的DRL計算卸載方法DWTOAA。該方法基于馬爾可夫決策過程(Markov Decision Process, MDP)進行建模,包括狀態(tài)空間S、動作空間A和獎勵函數R,使用DRL中的深度Q網絡解決模型中的復雜問題。
狀態(tài)空間S中狀態(tài)[sk]為工作流任務分配到第k步時的系統狀態(tài),其中當[k=K+1]時,[sk]為工作流任務不可繼續(xù)執(zhí)行的狀態(tài)。
式中:第k步時子任務集表示為[taskk={subtask1,exe1,k,subtask2,exe2,k,…,subtaskK,exeK,k}],其中[subtaski]和[exei,k]分別表示子任務i([1≤i≤K])的前繼子任務集和子任務在第k步的可執(zhí)行狀態(tài);[netk={Clocalm,Tlocalk,Cedge1,T1k,Cedge2,T2k,…,CedgeN,TNk,Ccloud,Tcloudk}]分別表示各個計算節(jié)點的CPU計算頻率和第k步時被分配的完成延遲;[overk]表示工作流任務[Jm]的當前狀態(tài)[sk]能否繼續(xù)執(zhí)行到下一步,該值為1時[sk]可以進行到下一步,當狀態(tài)[sk]執(zhí)行了未滿足前繼子任務條件的子任務或子任務全部被執(zhí)行,該值為0。
動作空間[A={a1,a2,…,ak,…,aK}],決定下一步的狀態(tài)。卸載工作流任務時,需要決定各子任務應該以什么順序、在哪個設備被執(zhí)行。第k步時,狀態(tài)[sk]有對應Q值表 [Qk={Qk,0,Qk,1,Qk,2,…,Qk,(N+2)×(k-1)}],[Qk,(N+2)×(k-1)+n]為子任務k被分配到各個計算節(jié)點執(zhí)行對應的Q值,其中[n=0]表示在本地執(zhí)行,[n=N+1]表示在云端執(zhí)行,[1≤n≤N]表示在邊緣服務器n執(zhí)行。選取最小Q值對應的決策作為當前動作對應的操作[ak],進而得到下一狀態(tài)[sk+1]。
獎勵函數用來評價調度決策變量[?k0]、[?kn]和[?kc],相當于動作[ak]的評價指標。本文中優(yōu)化目標是降低工作流任務[Jm]的計算代價[CostJ]。研究發(fā)現,DRL方法分配工作流任務失敗的主要原因是狀態(tài)空間中存在大量不可執(zhí)行狀態(tài)。如在圖2所示的工作流任務中,未執(zhí)行子任務1之前先執(zhí)行子任務2的狀態(tài)以及在這一狀態(tài)基礎上全部的后續(xù)狀態(tài)都被稱為不可執(zhí)行狀態(tài),這樣的狀態(tài)大量出現在模型訓練的過程中,會導致訓練速度非常緩慢。因此,本文設計了分段式獎勵函數[rk],當[sk]為可執(zhí)行狀態(tài)時,獎勵為第k步的計算代價[CostkJ];當[sk]為不可執(zhí)行狀態(tài)時,獎勵為一個遠大于[CostkJ]的正數[α],表示為:
這種方法可以快速區(qū)分可執(zhí)行狀態(tài)和不可執(zhí)行狀態(tài),減少訓練過程中不可執(zhí)行狀態(tài)出現的頻率,進而提高模型的訓練速度。
基于上述定義,本文算法結構如圖3所示。在DRL中采用兩個神經網絡:當前網絡和目標網絡,它們具有相同的結構,但參數不同,當前網絡使用損失函數實時更新參數[θ],目標網絡則每一步復制當前網絡的參數,得到參數[θ-]。
在本文算法中,除了使用卷積層進行數據降維,還引入注意力機制,將狀態(tài)[sk]中的參數[overk]與定制的矩陣相乘,再與網絡輸出相乘,得到Q值表[Qk],進而得到動作[ak]。該方法統一了不可執(zhí)行狀態(tài)對應的Q值表,降低了訓練過程中Loss的波動,提高了訓練速度。
當智能體執(zhí)行動作[ak]后,環(huán)境狀態(tài)從[sk]變?yōu)閇sk+1],并向智能體返回獎勵[rk],最后將四元組[(sk,ak,rk,sk+1)]存儲到經驗池中。環(huán)境與智能體循環(huán)交互,當經驗池中元組數量達到一定數目時,將隨機抽取批量元組用于訓練當前網絡的參數,同時每訓練1步就同步目標網絡和當前網絡的參數。
訓練當前網絡要使用四元組[(sk,ak,rk,sk+1)],將狀態(tài)[sk]輸入當前網絡得到[Qvalue=Q(sk,ak;θ)],再將狀態(tài)[sk+1]輸入目標網絡中得到真實值:
式中[γ]是折扣因子,用于函數收斂。
損失函數定義為當前網絡和目標網絡的值函數之間的均方誤差,公式為:
本文基于DRL的計算卸載算法在算法1中給出。
算法1:DWTOAA算法
輸入:task:工作流任務結構、各子任務需要上傳的數據量、完成各子任務需要的CPU周期數
輸出:卸載策略[Φ={?k0,?kn,?kc}]
1.初始化MEC環(huán)境資源和網絡參數
2.初始化經驗池和網絡參數
3.for g in G do" " " " " " " " " " " " " " " " " "http://訓練的每次迭代
4.read batch size tasks data
5.將任務數據編碼為state
6.for state in N do" " " " " " " " " " " " //迭代N步可執(zhí)行狀態(tài)
7.用融合注意力機制的DRL選擇當前狀態(tài)要卸載的子任務和子任務執(zhí)行計算的節(jié)點
8.根據使用的計算節(jié)點計算子任務的完成時間和系統能耗
9.根據式(18)計算工作流任務當前步的計算代價
10.根據式(23)計算獎勵值
11.存儲四元組[(sk,ak,rk,sk+1)]到經驗池
12. if經驗數量大于一定數目
13.更新網絡參數
14.end if
15.end for
16.end for
2 實驗結果分析
2.1 實驗參數
為評估基于DRL的卸載決策算法的性能,在Windows 10系統的Python環(huán)境中使用PyTorch框架進行實驗。
設置移動設備m的發(fā)射功率[Pm=0.1" W],計算功率[Pcomputem=5" W],計算頻率[Clocalm=1" MHz]。移動設備m和邊緣服務器n之間無線鏈路帶寬[Wmn=2] MHz;移動設備m和邊緣服務器n之間的無線信道參數[hmn=Ad[(3×108)(4πfcdmn)]de],其中[dmn]是移動設備m和邊緣服務器n之間的距離,天線增益系數[Ad=4.11],載波頻率[fc=915 MHz],路徑損耗指數[de=3];噪聲功率[σ2=10-10" W]。邊緣服務器的計算頻率在5~20 MHz之間隨機生成,云端的計算頻率設置為100 MHz。假定邊緣服務器和云端的計算功率與計算頻率呈正相關,且二者比值隨計算頻率線性增大,取值范圍為[1,2]。
為保證工作流任務數據的多樣性,本文采用文獻[16]的DAG生成器生成數據。在給定子任務數等參數的情況下,該方法可以生成具有隨機依賴關系的工作流任務數據。其中,每個子任務上傳所需數據量在30~50 KB之間隨機生成,計算所需CPU周期數在[10,20]MB之間隨機生成。本文使用此方法生成了5個子任務、10個子任務、15個子任務、20個子任務的工作流數據各5 000條。
權重因子[βT]和[βE]會顯著影響卸載策略,當[βT=0.1]、[βE=0.9]時,系統能耗的權重因子較大,卸載策略會優(yōu)先降低系統能耗;而當[βT=0.9]、[βE=0.1]時,任務完成時間的權重因子較大,卸載策略會優(yōu)先降低任務完成時間,計算代價也會發(fā)生變化。因此定義均勻分布的權重因子[βT∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}],將上述4組子任務各5 000條數據分別與[βT]的不同值拼接,得到4組子任務各55 000條的新數據用于訓練和測試,訓練集和測試集的比例為4∶1。用這樣的數據訓練,使算法能夠在處理同一工作流任務時根據不同權重因子得到合適的卸載決策。測試時將同一工作流任務但不同權重因子的11條數據作為一組進行測試,選擇其中計算代價最大的作為該工作流任務的卸載策略。
DWTOAA中包含兩個結構完全相同的神經網絡,都由3層卷積層、3層全連接層和注意力層構成。網絡的輸入為系統狀態(tài),輸出為卸載決策。第1層卷積層的卷積核大小等于任務數,步長為1;第2層卷積層的卷積核為2,步長為2;第3層卷積層的卷積核為5,步長為1。全連接層神經元數分別為2 048、1 024、計算節(jié)點總數。學習率(learning rate)為0.01,訓練批次大小(batchsize)為512,經驗池容量(memory)為40 000,使用PReLU激活函數,參數更新使用絕對值損失函數L1Loss和梯度下降法。
考慮5個子任務數的工作流任務情況,使用DWTOAA方法比較MEC環(huán)境中不同節(jié)點數對平均計算代價的影響,如圖4所示。結果表明:在節(jié)點數大于等于子任務數時,平均計算代價受節(jié)點數變化影響較?。划敼?jié)點數小于子任務數時,平均計算代價與節(jié)點數呈負相關。因此下述實驗均在節(jié)點數等于子任務數的MEC環(huán)境中進行。
2.2 結果分析
2.2.1 不同損失函數的平均損失比較
圖5比較了DWTOAA分別使用分段式獎勵函數和普通獎勵函數求解5個子任務數的工作流任務時神經網絡的平均損失變化。普通獎勵函數為[rt=CosttJ]。
由圖5可以看出,使用分段式獎勵函數訓練的收斂速度與最小損失均明顯小于普通獎勵函數。這是因為分段式獎勵函數能夠突顯工作流任務終止的狀態(tài),提高網絡識別特殊狀態(tài)的能力以及模型的訓練速度。
2.2.2 不同子任務數工作流任務比較
圖6a)~圖6c)分別表示DRL算法與DWTOAA在求解不同子任務數的工作流任務時的計算代價、任務完成時間和系統能耗。
在子任務數為5、10、15、20四種不同情況中,DWTOAA得到的平均計算代價相較DRL算法小2%~5%,平均任務完成時間相較DRL算法小1%~5%,平均系統能耗相較DRL算法小3%~7%。注意力機制提高了算法對任務終止狀態(tài)的識別能力,減小了經驗池中作用重復的數據的比例,進而提高了算法找到更小任務完成時間和系統能耗的能力。同時可以看出,隨著子任務數的增加,平均任務完成時間和平均系統能耗也逐漸增長,其中平均系統能耗隨子任務數量增長而增長是顯而易見的,而工作流任務的平均層數隨子任務數增加而增長,最后一層任務等待的平均時間變長,導致平均任務完成時間也隨之增長。因此相對而言,系統能耗的增長速度快于任務完成時間的增長速度。
3 結" 論
在MEC環(huán)境中,本文將具有依賴關系的工作流任務建模為DAG,將其卸載任務構建為MDP下的最優(yōu)策略決定問題,提出一種融合注意力機制的DRL工作流任務卸載算法(DWTOAA),學習工作流任務的卸載策略,并使用分段式獎勵函數提高模型訓練速度。
實驗結果表明:分段式獎勵函數相較于普通獎勵函數具有識別工作量任務終止狀態(tài)的能力,能夠提高模型的訓練速度;同時DWTOAA相較于普通DRL算法,在求解不同子任務數量的工作流任務的卸載決策時,都能夠得到具有更小任務完成時間和系統能耗的卸載策略。
注:本文通訊作者為張賀同。
參考文獻
[1] LIU X, YANG Q, LUO J, et al. An energy?aware offloading framework for edge?augmented mobile RFID systems [J]. IEEE Internet of Things journal, 2018, 6(3): 3994?4004.
[2] PERSONE V D N, GRASSI V. Architectural issues for self?adaptive service migration management in mobile edge computing scenarios [C]// 2019 IEEE International Conference on Edge Computing (EDGE). Milan, Italy: IEEE, 2019: 27?29.
[3] 呂潔娜,張家波,張祖凡,等.移動邊緣計算卸載策略綜述[J].小型微型計算機系統,2020,41(9):1866?1877.
[4] 蔣金陵,徐勝超.基于多目標優(yōu)化的移動邊緣計算任務卸載方法[J].現代電子技術,2024,47(3):73?79.
[5] 蔣欣秀,楊俊東,楊志軍,等.移動邊緣計算中支持能量收集的計算卸載策略[J].現代電子技術,2022,45(1):17?23.
[6] XIAO S, WANG S Z, ZHUANG J, et al. Research on a task offloading strategy for the internet of vehicles based on reinforcement learning [J]. Sensors, 2021, 21(18): 6058.
[7] WANG G, XU F M. Regional intelligent resource allocation in mobile edge computing based vehicular network [J]. IEEE access, 2020, 8: 7173?7182.
[8] FANG J, ZHANG M Y, YE Z Y, et al. Smart collaborative optimizations strategy for mobile edge computing based on deep reinforcement learning [J]. Computers and electrical engineering, 2021, 96: 107539.
[9] 李校林,江雨桑.無人機輔助移動邊緣計算中的任務卸載算法[J].計算機應用,2023,43(6):1893?1899.
[10] DAI Y, XUE Q, GAO Z, et al. Offloading in mobile edge computing based on federated reinforcement learning [J]. Wireless communications and mobile computing, 2022, 2022(2022): 1?10.
[11] 李強,杜婷婷,童釗,等.移動邊緣計算中基于深度強化學習的依賴任務卸載研究[J].小型微型計算機系統,2023,44(7):1463?1468.
[12] AMANDA J, SAMAN H, RAJKUMAR B. Deep reinforcement learning for energy and time optimized scheduling of precedence?constrained tasks in edge?cloud computing environments [J]. Future generation computer systems, 2022, 137: 14?30.
[13] LU H F, GU C H, LUO F, et al. Optimization of lightweight task offloading strategy for mobile edge computing based on deep reinforcement learning [J]. Future generation computer systems, 2020, 102: 847?861.
[14] MOHAMMAD G, MARIMUTHU P, RAJKUMAR B. A distributed deep reinforcement learning technique for application placement in edge and fog computing environments [J]. IEEE transactions on mobile computing, 2023, 22(5): 2491?2505.
[15] YAN J, BI S Z, HUANG L, et al. Offloading and resource allocation with general task graph in mobile edge computing: a deep reinforcement learning approach [J]. IEEE transactions on wireless communications, 2020, 19(8): 5404?5419.
[16] HAMID A, JORGEG B. List scheduling algorithm for heterogeneous systems by an optimistic cost table [J]. IEEE transactions on parallel and distributed systems, 2013, 25(3): 682?694.
作者簡介:雷雪梅(1972—),女,天津人,博士研究生,高級工程師,研究方向為數據分析、 深度學習。
張賀同(1998—),男,內蒙古呼和浩特人,碩士研究生,研究方向為強化學習、移動邊緣計算。
收稿日期:2024?03?03" " " " " "修回日期:2024?04?11