陳喬鑫,盧 宇,林 兵,3+,王素云,邵 浚
(1.福建師范大學(xué) 物理與能源學(xué)院,福建 福州 350117;2.福建師范大學(xué) 協(xié)和學(xué)院,福建 福州 350117;3.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)
車聯(lián)網(wǎng)作為5G場(chǎng)景下的關(guān)鍵應(yīng)用場(chǎng)景,已經(jīng)成為研究的熱點(diǎn)領(lǐng)域,未來(lái)發(fā)展前景較好,其衍生的自動(dòng)駕駛技術(shù)不但可以提高駕駛過程中的安全性,而且有利于解決城市中愈發(fā)嚴(yán)重的交通效率低下、車道擁塞等難題。然而,自動(dòng)駕駛是計(jì)算密集型、時(shí)延敏感型的應(yīng)用,其計(jì)算復(fù)雜度高且完成時(shí)延要求嚴(yán)格,僅由計(jì)算能力有限的車載終端執(zhí)行通常無(wú)法滿足要求[1]。之前自動(dòng)駕駛的多數(shù)研究集中于將車輛駕駛過程中的交通狀況識(shí)別等具體功能設(shè)計(jì)為推理任務(wù)[2-3],較少關(guān)心如何調(diào)度推理任務(wù),不可避免地出現(xiàn)了高延遲。而在車聯(lián)網(wǎng)環(huán)境下引入移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)能夠?qū)④囕d終端中的實(shí)時(shí)任務(wù)卸載到路邊單元(Road Side Unit, RSU),從而有效緩解車輛終端算力低下、存儲(chǔ)資源匱乏等困境,在邊緣環(huán)境中合理調(diào)度推理任務(wù)則可有效降低任務(wù)的執(zhí)行時(shí)間,滿足低延遲約束[4-6]。由于不同場(chǎng)景下的任務(wù)結(jié)構(gòu)不全相同,邊緣節(jié)點(diǎn)也存在性能差異,設(shè)計(jì)合理的調(diào)度策略成為研究難題。
為此,國(guó)內(nèi)外進(jìn)行了大量研究。啟發(fā)式算法廣泛應(yīng)用于任務(wù)調(diào)度問題與協(xié)同任務(wù)方面,基本原型如粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法、蟻群算法(Ant Colony Algorithm, ACA)、遺傳算法(Genetic Algorithm, GA)等[7-9],這類方法可在約束條件下找到符合條件的可行解,但由于無(wú)法預(yù)計(jì)可行解與最優(yōu)解之間的偏差,收斂速度較慢,在有限的決策時(shí)間中往往只能求得局部最優(yōu)解,這類解較難滿足低時(shí)延任務(wù)的要求。因此近年來(lái),部分研究者利用強(qiáng)化學(xué)習(xí)思想解決邊緣卸載問題,通過不斷矯正可行解與更優(yōu)解的偏差,在加快收斂速度的同時(shí)增強(qiáng)探索力。LIN等[10]分別采用PSO算法和Q學(xué)習(xí)算法對(duì)車聯(lián)網(wǎng)的實(shí)時(shí)任務(wù)進(jìn)行策略調(diào)度,具有指導(dǎo)意義,然而任務(wù)模型較理想化,未考慮任務(wù)優(yōu)先級(jí),忽略了應(yīng)用中任務(wù)執(zhí)行順序不同對(duì)完成時(shí)間的影響;趙海濤等[11]針對(duì)車聯(lián)網(wǎng)環(huán)境下不同車輛的任務(wù)提出優(yōu)先級(jí)概念,令任務(wù)分配更加合理,然而所提優(yōu)先級(jí)劃分方法傾向于專家評(píng)定,過于主觀;XIONG等[12]和WANG等[13]對(duì)物聯(lián)網(wǎng)背景下產(chǎn)生的大量數(shù)據(jù)采用深度Q學(xué)習(xí)(Deep Q-learning, DQN)算法進(jìn)行邊緣卸載,有效減少了目標(biāo)平均完成時(shí)間和所請(qǐng)求資源的平均數(shù)量的長(zhǎng)期加權(quán)和,然而由于目標(biāo)對(duì)象為多車任務(wù),無(wú)法精確優(yōu)化單實(shí)時(shí)任務(wù)的運(yùn)行時(shí)間。
單實(shí)時(shí)任務(wù)是多任務(wù)協(xié)同調(diào)度的基本單元。上述學(xué)者針對(duì)多車任務(wù)協(xié)同調(diào)度取得了較多研究成果,但對(duì)具有數(shù)據(jù)依賴的單車推理任務(wù)調(diào)度研究不足。因此,本文考慮車輛行駛過程中不同實(shí)時(shí)推理任務(wù)與邊緣環(huán)境的差異,設(shè)計(jì)邊緣環(huán)境下的任務(wù)優(yōu)化調(diào)度策略,從單任務(wù)角度出發(fā)優(yōu)化運(yùn)行時(shí)間。本文的主要貢獻(xiàn)如下:
(1)提出針對(duì)推理任務(wù)的優(yōu)先級(jí)判斷方法,從而高效利用邊緣節(jié)點(diǎn),縮短任務(wù)執(zhí)行時(shí)間。
(2)設(shè)計(jì)基于DQN算法的調(diào)度算法,在復(fù)雜邊緣環(huán)境下探索更優(yōu)的調(diào)度策略。
在車輛行駛場(chǎng)景下,自動(dòng)駕駛等車載應(yīng)用對(duì)實(shí)時(shí)性的要求愈發(fā)嚴(yán)格,充分利用邊緣節(jié)點(diǎn)是有效減少其執(zhí)行時(shí)間的關(guān)鍵,本文將復(fù)雜應(yīng)用的推理過程構(gòu)建為由若干存在依賴性的子任務(wù)組成的推理任務(wù)。在不同時(shí)間片中,隨著車輛所處邊緣環(huán)境的變化,可用的邊緣節(jié)點(diǎn)數(shù)隨之改變,等待調(diào)度的推理任務(wù)不盡相同。圖1所示為推理任務(wù)和邊緣節(jié)點(diǎn)數(shù)在不同時(shí)間片的狀態(tài)。
推理任務(wù)中,不同子任務(wù)的自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與對(duì)應(yīng)的可容忍時(shí)延不盡相同,本文在實(shí)驗(yàn)中將其定義為
(1)
(2)
(3)
(4)
為了較好地利用不同邊緣環(huán)境中邊緣節(jié)點(diǎn)的算力,問題模型中規(guī)定邊緣節(jié)點(diǎn)應(yīng)滿足以下規(guī)則:
(1)子任務(wù)能且僅能由單一邊緣節(jié)點(diǎn)調(diào)度,定義為
(5)
(2)邊緣節(jié)點(diǎn)需等待所有子任務(wù)傳輸完畢后方可開始計(jì)算。
(3)不同節(jié)點(diǎn)上的任務(wù)可并行處理。
(4)分配至相同節(jié)點(diǎn)上的子任務(wù)應(yīng)按數(shù)據(jù)依賴關(guān)系順序執(zhí)行,若任務(wù)之間無(wú)數(shù)據(jù)依賴,則按照任務(wù)優(yōu)先級(jí)正序執(zhí)行。
(5)邊緣節(jié)點(diǎn)上子任務(wù)的容忍時(shí)延不小于邊緣節(jié)點(diǎn)的平均執(zhí)行時(shí)間。
邊緣節(jié)點(diǎn)正常工作時(shí),實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間
(6)
當(dāng)邊緣環(huán)境僅有一個(gè)邊緣節(jié)點(diǎn),即mi=1時(shí),子任務(wù)將完全串行運(yùn)行,為最差調(diào)度結(jié)果,完成時(shí)間
=1+MAX1≤x≤mi,1≤y≤zi(cx,y)。
(7)
綜上所述,本文討論的實(shí)時(shí)任務(wù)調(diào)度模型可以簡(jiǎn)單概括為:車載的實(shí)時(shí)任務(wù)在不同時(shí)間段內(nèi)分配為若干個(gè)子任務(wù);將子任務(wù)合理地分配給邊緣節(jié)點(diǎn)處理,并計(jì)算實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間。本文所提調(diào)度算法使實(shí)時(shí)任務(wù)在約束下的執(zhí)行時(shí)間最短,即
(8)
圖3所示為推理任務(wù)在特定邊緣環(huán)境中子任務(wù)的分配情況,該場(chǎng)景下共有3個(gè)邊緣節(jié)點(diǎn){f1,f2,f3},劃分為5個(gè)子任務(wù){(diào)n1,n2,n3,n4,n5},存在5條有向邊{e1,2,e1,3,e2,4,e3,4,e3,5}表示子任務(wù)的依賴性。圖4所示為上述場(chǎng)景中一種可行分配策略(如表1)的實(shí)際執(zhí)行過程,分配后的任務(wù)執(zhí)行時(shí)間(如表2)為15 ms,包括4 ms傳輸時(shí)間(如表3);該場(chǎng)景最差的情況是串行任務(wù)的完成時(shí)間為1 ms,18 ms,19 ms;子任務(wù)的可容忍時(shí)延(如表4)滿足大于節(jié)點(diǎn)中任務(wù)執(zhí)行時(shí)間的條件,且子任務(wù)的執(zhí)行順序受子任務(wù)相對(duì)權(quán)重(如表5)的約束。
表1 邊緣節(jié)點(diǎn)—子任務(wù)調(diào)度策略
表2 邊緣節(jié)點(diǎn)平均任務(wù)執(zhí)行時(shí)間 ms
表3 邊緣節(jié)點(diǎn)的平均任務(wù)傳輸時(shí)間 ms
表4 子任務(wù)可容忍時(shí)延 ms
表5 子任務(wù)相對(duì)權(quán)重
在同一計(jì)算節(jié)點(diǎn)中,可能存在相互之間無(wú)依賴關(guān)系的多個(gè)任務(wù),這些任務(wù)的執(zhí)行順序會(huì)影響后續(xù)任務(wù)的執(zhí)行情況。為解決該問題,本文采用模糊層次分析法衡量任務(wù)權(quán)重,然而該方法的原型為根據(jù)專家分值評(píng)估各個(gè)指標(biāo)權(quán)重,存在較強(qiáng)的主觀性。本文通過引入客觀條件(子任務(wù)的實(shí)時(shí)信息)計(jì)算信息熵作為指標(biāo)權(quán)重的補(bǔ)充修正條件,可有效解決該缺點(diǎn),具體實(shí)現(xiàn)過程如下:
(1)按照三標(biāo)度法原則
(9)
對(duì)子任務(wù)的α種因素進(jìn)行重要性排序,構(gòu)建優(yōu)先關(guān)系矩陣P=(pi,j)α·α。其中si,sj分別表示指標(biāo)pi,pj的相對(duì)重要程度,本文參與評(píng)價(jià)的指標(biāo)有子任務(wù)自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量和對(duì)應(yīng)的可容忍時(shí)延。
(2)根據(jù)優(yōu)先關(guān)系矩陣P構(gòu)建模糊一致矩陣R,其中模糊一致矩陣R的定義為
R=(ri,j)α·α,
ri,j=ri,k-rj,k+0.5。
(10)
1)對(duì)優(yōu)先關(guān)系矩陣P按行求和得ri,
(11)
2)由定義出發(fā),ri可通過式(12)進(jìn)行列變換,得到模糊一致矩陣R。
(12)
(3)對(duì)模糊一致矩陣R進(jìn)行行求和與歸一化,得到指標(biāo)α對(duì)于各個(gè)子任務(wù)的指標(biāo)權(quán)重wi,
i=1,2,…,α。
(13)
(4)利用隸屬度函數(shù)式(14)對(duì)子任務(wù)自身因素Azi·3進(jìn)行歸一化:
(14)
(5)以歸一化數(shù)據(jù)為基礎(chǔ),計(jì)算對(duì)應(yīng)子任務(wù)zi的信息熵δi,
(15)
(16)
馬爾可夫決策過程(Markov decision process)是本文強(qiáng)化學(xué)習(xí)方法的基本模型,根據(jù)其性質(zhì),即下一個(gè)狀態(tài)的產(chǎn)生只和當(dāng)前狀態(tài)有關(guān),可簡(jiǎn)化調(diào)度策略模型,以下為本文研究問題模型的特點(diǎn):
(1)狀態(tài)空間 狀態(tài)空間中的可行解狀態(tài)數(shù)量不是恒定的,其隨推理任務(wù)分解后子任務(wù)數(shù)量的改變以及不同時(shí)隙中邊緣節(jié)點(diǎn)分布情況的不同而動(dòng)態(tài)變化;狀態(tài)空間中的一個(gè)可行解狀態(tài)表示推理任務(wù)的一種可行調(diào)度策略,可行策略的定義是滿足所有子任務(wù)的完成時(shí)延都低于各自的容忍時(shí)延,而且每個(gè)子任務(wù)能且僅能卸載到唯一邊緣節(jié)點(diǎn)。
(2)動(dòng)作空間 動(dòng)作空間內(nèi)可選的動(dòng)作數(shù)等于子任務(wù)數(shù)zi,動(dòng)作選擇表示將當(dāng)前狀態(tài)中對(duì)應(yīng)的子任務(wù)移動(dòng)到到其他邊緣節(jié)點(diǎn)。
本文的調(diào)度策略基于DQN算法,是基于數(shù)值迭代的算法,其將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,可在狀態(tài)與動(dòng)作空間離散且維數(shù)較高的情況下將傳統(tǒng)強(qiáng)化學(xué)習(xí)方法Q學(xué)習(xí)中建立Q列表的行為抽象為神經(jīng)網(wǎng)絡(luò)中不斷訓(xùn)練參數(shù)的函數(shù)擬合問題。算法實(shí)現(xiàn)如算法1所示。神經(jīng)網(wǎng)絡(luò)的參數(shù)更新公式為:
Qk+1(st,at,θt)=Qk(st,at,θt)+αk·Rek;
(17)
式中:αk,γ分別為學(xué)習(xí)速率和折扣因子;Rek為迭代過程中累積的獎(jiǎng)勵(lì)值;s′為第k次迭代中執(zhí)行at動(dòng)作后的狀態(tài);a′為狀態(tài)s′下獎(jiǎng)勵(lì)值最大的動(dòng)作。
算法1任務(wù)—邊緣節(jié)點(diǎn)調(diào)度算法。
輸入:初始狀態(tài)、最大回合數(shù)、單回合最大迭代次數(shù)。
輸出:推理任務(wù)實(shí)時(shí)調(diào)度策略。
1:初始化恒定存儲(chǔ)空間容量的經(jīng)驗(yàn)池、隨機(jī)權(quán)重為θ的動(dòng)作—價(jià)值函數(shù)Qθ(st,at)和對(duì)應(yīng)的target-Qθ(st,at)
2:for i←0 to最大回合數(shù)do
3: st←初始狀態(tài)
4: for i←0 to單回合最大迭代次數(shù)do
5:以ε的概率選擇歷史獎(jiǎng)勵(lì)值最大的動(dòng)作at=argmaxQ(st,a,θ),否則選擇隨機(jī)動(dòng)作at
6: 執(zhí)行動(dòng)作at,得到下一個(gè)狀態(tài)st+1,并利用算法2計(jì)算獎(jiǎng)勵(lì)值ret
7:將(st,st+1,ret,at)存入經(jīng)驗(yàn)池
8:st←st+1
9: 經(jīng)驗(yàn)池中隨機(jī)抽樣(sj,sj+1,rej,aj),
10: 根據(jù)式(17)構(gòu)建誤差函數(shù),反向傳播更新參數(shù)θ
11: 每若干步更新target-Qθ(st,at)=Qθ(st,at)
12:若st+1滿足終止?fàn)顟B(tài),則結(jié)束本輪迭代
13:end for
14:end for
在不同時(shí)間段,實(shí)時(shí)任務(wù)和邊緣環(huán)境是動(dòng)態(tài)變化的,概括為如下3種情況:
(1)實(shí)時(shí)產(chǎn)生推理任務(wù)拓?fù)浣Y(jié)構(gòu)與所處邊緣環(huán)境可通信的邊緣節(jié)點(diǎn)數(shù)。
(2)不同環(huán)境下子任務(wù)的計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與可容忍時(shí)延的變化。
(3)由邊緣節(jié)點(diǎn)變化導(dǎo)致的子任務(wù)傳輸時(shí)間與運(yùn)行時(shí)間的改變。
本文提出的執(zhí)行算法可計(jì)算邊緣環(huán)境中的推理任務(wù)完成時(shí)間,其實(shí)現(xiàn)如算法2所示。
算法2任務(wù)執(zhí)行算法。
輸入:mi,zi,Gi,Azi×3,Bmi×zi,Cmi×zi,Hmi×zi。
1:初始化:設(shè)置數(shù)組I、子任務(wù)隊(duì)列Q以及子任務(wù)的前驅(qū)節(jié)點(diǎn)集合R為?
2:利用約束關(guān)系Gi設(shè)置數(shù)組I(i)
3:將數(shù)組I(i)=0的第i個(gè)子任務(wù)加入隊(duì)列Q,設(shè)置遍歷的子任務(wù)數(shù)u=0,設(shè)置當(dāng)前層k中子任務(wù)數(shù)量等于當(dāng)前隊(duì)列大小
4:while Q!=? do
5: if u=k then
6: u=0,k=size(Q)
7:endif
8: 子任務(wù)出列,任務(wù)表示為v,u+=1
9: for i←0 to zido
10: if ?v到i的有向邊then
11:將第v個(gè)子任務(wù)及其前驅(qū)節(jié)點(diǎn)集合R(v)添加到R(i),I(i)-=1
12: if I(i)=0 then
13:將第i個(gè)子任務(wù)添加到Q隊(duì)列中
14:end if
15: end if
16: end for
17:end while
18:根據(jù)Bmi×zi將子任務(wù)分配給邊緣節(jié)點(diǎn),同邊緣節(jié)點(diǎn)的子任務(wù)按照前驅(qū)任務(wù)是否完成的約束條件執(zhí)行,若同邊緣節(jié)點(diǎn)中子任務(wù)的前驅(qū)任務(wù)均已完成,則目標(biāo)子任務(wù)按照子任務(wù)優(yōu)先級(jí)大小從高到低順序執(zhí)行。
19:初始化:設(shè)置子任務(wù)完成列表O為?,用Cmi×zi設(shè)置子任務(wù)Y的剩余執(zhí)行時(shí)間,設(shè)置當(dāng)前運(yùn)行時(shí)間h=0
20:while O 21: 確定分配到每個(gè)邊緣節(jié)點(diǎn)的子任務(wù),滿足對(duì)應(yīng)子任務(wù)的直接前驅(qū)集合是完成列表O的子集 22:從當(dāng)前并行執(zhí)行的子任務(wù)中找到最小執(zhí)行時(shí)間w 23: 設(shè)置邊緣節(jié)點(diǎn)的子任務(wù)Y(i)-=w,當(dāng)Y(i)=0時(shí),將第i個(gè)子任務(wù)添加到O,設(shè)置h+=w 24:end while 25:return h 本文模擬實(shí)驗(yàn)在Python 3.7環(huán)境下實(shí)現(xiàn),實(shí)驗(yàn)設(shè)備為Inter(R) Core(TM) i7-7700HQCPU,16 GBRAM的64位Win10系統(tǒng),為檢驗(yàn)所提基于DQN算法的調(diào)度策略性能,對(duì)比算法選用傳統(tǒng)強(qiáng)化學(xué)習(xí)Q學(xué)習(xí)算法[10]與基于遺傳算法改良的粒子群優(yōu)化算法(Particle Swarm Optimization with Genetic Algorithm,GA-PSO)[14]。實(shí)驗(yàn)中所有算法的目的均為尋找完成時(shí)間最短的可行分配策略。 實(shí)驗(yàn)仿真參數(shù)按照IEEE 802.11p車輛網(wǎng)絡(luò)場(chǎng)景標(biāo)準(zhǔn)設(shè)定[15],具體設(shè)置如表6所示;仿真實(shí)驗(yàn)對(duì)象為邊緣環(huán)境下的同類型實(shí)時(shí)任務(wù),拓?fù)浣Y(jié)構(gòu)如圖5所示,具體設(shè)置如表7~表9所示。 表6 仿真實(shí)驗(yàn)約束參數(shù) 表7 邊緣節(jié)點(diǎn)傳輸速率和算力 表8 仿真任務(wù)與場(chǎng)景參數(shù) 表9 自身因素的權(quán)重 為測(cè)試任務(wù)調(diào)度策略的可行性,將拓?fù)浣Y(jié)構(gòu)不同的推理任務(wù)分別卸載到邊緣節(jié)點(diǎn)數(shù)不同的邊緣場(chǎng)景,計(jì)算其最優(yōu)分配時(shí)的任務(wù)完成時(shí)間。如圖6所示,由于調(diào)度策略中的邊緣節(jié)點(diǎn)數(shù)決定任務(wù)同時(shí)間片下的最大可并行任務(wù)數(shù),開始時(shí)任務(wù)的完成時(shí)間隨節(jié)點(diǎn)數(shù)的增多明顯下降;當(dāng)滿足邊緣節(jié)點(diǎn)數(shù)大于等于最大可并行任務(wù)數(shù)時(shí),任務(wù)的完成時(shí)間相同。相比按照任務(wù)深度順序執(zhí)行的策略,本文所提結(jié)合優(yōu)先級(jí)評(píng)價(jià)的任務(wù)執(zhí)行算法對(duì)任務(wù)完成時(shí)間的優(yōu)化較明顯。 為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的收斂性,在邊緣環(huán)境下對(duì)同一任務(wù)分別用GA-PSO、Q學(xué)習(xí)、DQN算法進(jìn)行卸載。實(shí)驗(yàn)對(duì)不同邊緣環(huán)境分別進(jìn)行100回合測(cè)試,將每10回合的策略取均值,結(jié)果如圖7所示。對(duì)任務(wù)類型1而言,GA-PSO在多種邊緣環(huán)境下都能找到時(shí)延表現(xiàn)較好的解,然而該算法搜尋最優(yōu)解的過程依賴于粒子種群的隨機(jī)搜索,因此較難收斂;Q學(xué)習(xí)和DQN算法在經(jīng)過前期若干回合學(xué)習(xí)后,可找到完成時(shí)間更短的解,且收斂性良好。對(duì)于任務(wù)類型2,GA-PSO的表現(xiàn)與求解任務(wù)類型1相似,每回合雖然可以找到較可觀的次優(yōu)解,但是存在陷入局部最優(yōu)的情況;Q學(xué)習(xí)在邊緣節(jié)點(diǎn)數(shù)為2的場(chǎng)景下表現(xiàn)良好,在節(jié)點(diǎn)數(shù)增加至3,4時(shí)難收斂;DQN在所有邊緣場(chǎng)景下均表現(xiàn)優(yōu)秀。 圖7出現(xiàn)異??赡苁亲尤蝿?wù)數(shù)量增加使策略解空間倍增的原圖。如表10所示,對(duì)于龐大的離散解空間,GA-PSO在限制時(shí)間開銷的場(chǎng)景下易陷入局部最優(yōu);Q學(xué)習(xí)的核心操作為創(chuàng)建Q列表,然而龐大的可行解空間導(dǎo)致其狀態(tài)數(shù)出現(xiàn)維度爆炸,Q列表難以存放如此多的可行解,從而使算法難以收斂;與其相比,DQN利用神經(jīng)網(wǎng)絡(luò)將Q列表近似擬合成Q值函數(shù),解決了上述Q學(xué)習(xí)方法的難題,因此更易收斂。 表10 策略空間數(shù)量 為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的有效性,分別采用GA-PSO、Q學(xué)習(xí)、DQN算法在不同邊緣環(huán)境下卸載同一實(shí)時(shí)任務(wù),在每個(gè)邊緣環(huán)境進(jìn)行100回合測(cè)試,并將每10回合的實(shí)時(shí)響應(yīng)時(shí)間取均值,結(jié)果如圖8所示??梢?,GA-PSO在各個(gè)場(chǎng)景下對(duì)不同任務(wù)的響應(yīng)時(shí)間均較穩(wěn)定,原因是其搜索策略的速度僅由所用的探索粒子數(shù)決定;Q學(xué)習(xí)和DQN算法在回合數(shù)較前時(shí),由于需要大量可行策略進(jìn)行學(xué)習(xí),響應(yīng)時(shí)間較長(zhǎng),隨著回合數(shù)的增多,在收斂的情況下響應(yīng)時(shí)間逐漸下降,而且DQN算法穩(wěn)定收斂時(shí)的響應(yīng)時(shí)間較Q學(xué)習(xí)更短。 本文提出一種基于DQN算法的車載推理任務(wù)的實(shí)時(shí)調(diào)度策略,通過分析不同邊緣場(chǎng)景下實(shí)時(shí)任務(wù)的完成時(shí)間,證明所提策略可充分利用邊緣節(jié)點(diǎn)的計(jì)算能力,其能夠隨節(jié)點(diǎn)數(shù)的增加顯著降低實(shí)時(shí)任務(wù)的完成時(shí)間。通過對(duì)比相同類型任務(wù)在不同算法下的性能發(fā)現(xiàn),在復(fù)雜度較低的任務(wù)下,GA-PSO、Q學(xué)習(xí)、DQN算法都能在較短時(shí)間內(nèi)提供有效的任務(wù)調(diào)度策略,但GA-PSO的收斂性略差;針對(duì)復(fù)雜度高、邊緣環(huán)境復(fù)雜的任務(wù),Q學(xué)習(xí)的收斂性極差,GA-PSO較差,DQN方法表現(xiàn)優(yōu)越。通過實(shí)驗(yàn)對(duì)比實(shí)時(shí)響應(yīng)時(shí)間表明,相比響應(yīng)時(shí)間穩(wěn)定的GA-PSO算法,隨樣本數(shù)量增加不斷改善的強(qiáng)化學(xué)習(xí)方法在實(shí)時(shí)性要求苛刻的車載背景下表現(xiàn)更好。 未來(lái)研究考慮將本文工作拓展至具有復(fù)雜推理任務(wù)的多車輛協(xié)同調(diào)度場(chǎng)景,以緩解同一邊緣環(huán)境下多車任務(wù)資源分配不均的情況;另外,將持續(xù)改進(jìn)調(diào)度算法,優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練效率,并在系統(tǒng)模型中加入信道波動(dòng)、無(wú)線電干擾等復(fù)雜環(huán)境因素。3 仿真實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)參數(shù)設(shè)置
3.2 實(shí)驗(yàn)結(jié)果分析
4 結(jié)束語(yǔ)