亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

車載邊緣計(jì)算中推理任務(wù)的實(shí)時(shí)調(diào)度策略

2022-11-07 04:27:36陳喬鑫王素云

計(jì)算機(jī)集成制造系統(tǒng) 2022年10期

陳喬鑫，盧宇，林兵,3+，王素云，邵浚

(1.福建師范大學(xué) 物理與能源學(xué)院，福建福州 350117；2.福建師范大學(xué) 協(xié)和學(xué)院，福建福州 350117；3.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院，北京 100871)

0 引言

車聯(lián)網(wǎng)作為5G場(chǎng)景下的關(guān)鍵應(yīng)用場(chǎng)景，已經(jīng)成為研究的熱點(diǎn)領(lǐng)域，未來(lái)發(fā)展前景較好，其衍生的自動(dòng)駕駛技術(shù)不但可以提高駕駛過程中的安全性，而且有利于解決城市中愈發(fā)嚴(yán)重的交通效率低下、車道擁塞等難題。然而，自動(dòng)駕駛是計(jì)算密集型、時(shí)延敏感型的應(yīng)用，其計(jì)算復(fù)雜度高且完成時(shí)延要求嚴(yán)格，僅由計(jì)算能力有限的車載終端執(zhí)行通常無(wú)法滿足要求[1]。之前自動(dòng)駕駛的多數(shù)研究集中于將車輛駕駛過程中的交通狀況識(shí)別等具體功能設(shè)計(jì)為推理任務(wù)[2-3]，較少關(guān)心如何調(diào)度推理任務(wù)，不可避免地出現(xiàn)了高延遲。而在車聯(lián)網(wǎng)環(huán)境下引入移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)能夠?qū)④囕d終端中的實(shí)時(shí)任務(wù)卸載到路邊單元(Road Side Unit, RSU)，從而有效緩解車輛終端算力低下、存儲(chǔ)資源匱乏等困境，在邊緣環(huán)境中合理調(diào)度推理任務(wù)則可有效降低任務(wù)的執(zhí)行時(shí)間，滿足低延遲約束[4-6]。由于不同場(chǎng)景下的任務(wù)結(jié)構(gòu)不全相同，邊緣節(jié)點(diǎn)也存在性能差異，設(shè)計(jì)合理的調(diào)度策略成為研究難題。

為此，國(guó)內(nèi)外進(jìn)行了大量研究。啟發(fā)式算法廣泛應(yīng)用于任務(wù)調(diào)度問題與協(xié)同任務(wù)方面，基本原型如粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法、蟻群算法(Ant Colony Algorithm, ACA)、遺傳算法(Genetic Algorithm, GA)等[7-9]，這類方法可在約束條件下找到符合條件的可行解，但由于無(wú)法預(yù)計(jì)可行解與最優(yōu)解之間的偏差，收斂速度較慢，在有限的決策時(shí)間中往往只能求得局部最優(yōu)解，這類解較難滿足低時(shí)延任務(wù)的要求。因此近年來(lái)，部分研究者利用強(qiáng)化學(xué)習(xí)思想解決邊緣卸載問題，通過不斷矯正可行解與更優(yōu)解的偏差，在加快收斂速度的同時(shí)增強(qiáng)探索力。LIN等[10]分別采用PSO算法和Q學(xué)習(xí)算法對(duì)車聯(lián)網(wǎng)的實(shí)時(shí)任務(wù)進(jìn)行策略調(diào)度，具有指導(dǎo)意義，然而任務(wù)模型較理想化，未考慮任務(wù)優(yōu)先級(jí)，忽略了應(yīng)用中任務(wù)執(zhí)行順序不同對(duì)完成時(shí)間的影響；趙海濤等[11]針對(duì)車聯(lián)網(wǎng)環(huán)境下不同車輛的任務(wù)提出優(yōu)先級(jí)概念，令任務(wù)分配更加合理，然而所提優(yōu)先級(jí)劃分方法傾向于專家評(píng)定，過于主觀；XIONG等[12]和WANG等[13]對(duì)物聯(lián)網(wǎng)背景下產(chǎn)生的大量數(shù)據(jù)采用深度Q學(xué)習(xí)(Deep Q-learning, DQN)算法進(jìn)行邊緣卸載，有效減少了目標(biāo)平均完成時(shí)間和所請(qǐng)求資源的平均數(shù)量的長(zhǎng)期加權(quán)和，然而由于目標(biāo)對(duì)象為多車任務(wù)，無(wú)法精確優(yōu)化單實(shí)時(shí)任務(wù)的運(yùn)行時(shí)間。

單實(shí)時(shí)任務(wù)是多任務(wù)協(xié)同調(diào)度的基本單元。上述學(xué)者針對(duì)多車任務(wù)協(xié)同調(diào)度取得了較多研究成果，但對(duì)具有數(shù)據(jù)依賴的單車推理任務(wù)調(diào)度研究不足。因此，本文考慮車輛行駛過程中不同實(shí)時(shí)推理任務(wù)與邊緣環(huán)境的差異，設(shè)計(jì)邊緣環(huán)境下的任務(wù)優(yōu)化調(diào)度策略，從單任務(wù)角度出發(fā)優(yōu)化運(yùn)行時(shí)間。本文的主要貢獻(xiàn)如下：

(1)提出針對(duì)推理任務(wù)的優(yōu)先級(jí)判斷方法，從而高效利用邊緣節(jié)點(diǎn)，縮短任務(wù)執(zhí)行時(shí)間。

(2)設(shè)計(jì)基于DQN算法的調(diào)度算法，在復(fù)雜邊緣環(huán)境下探索更優(yōu)的調(diào)度策略。

1 模型定義與分析

1.1 模型定義

在車輛行駛場(chǎng)景下，自動(dòng)駕駛等車載應(yīng)用對(duì)實(shí)時(shí)性的要求愈發(fā)嚴(yán)格，充分利用邊緣節(jié)點(diǎn)是有效減少其執(zhí)行時(shí)間的關(guān)鍵，本文將復(fù)雜應(yīng)用的推理過程構(gòu)建為由若干存在依賴性的子任務(wù)組成的推理任務(wù)。在不同時(shí)間片中，隨著車輛所處邊緣環(huán)境的變化，可用的邊緣節(jié)點(diǎn)數(shù)隨之改變，等待調(diào)度的推理任務(wù)不盡相同。圖1所示為推理任務(wù)和邊緣節(jié)點(diǎn)數(shù)在不同時(shí)間片的狀態(tài)。

推理任務(wù)中，不同子任務(wù)的自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與對(duì)應(yīng)的可容忍時(shí)延不盡相同，本文在實(shí)驗(yàn)中將其定義為

(1)

(2)

(3)

(4)

為了較好地利用不同邊緣環(huán)境中邊緣節(jié)點(diǎn)的算力，問題模型中規(guī)定邊緣節(jié)點(diǎn)應(yīng)滿足以下規(guī)則：

(1)子任務(wù)能且僅能由單一邊緣節(jié)點(diǎn)調(diào)度，定義為

(5)

(2)邊緣節(jié)點(diǎn)需等待所有子任務(wù)傳輸完畢后方可開始計(jì)算。

(3)不同節(jié)點(diǎn)上的任務(wù)可并行處理。

(4)分配至相同節(jié)點(diǎn)上的子任務(wù)應(yīng)按數(shù)據(jù)依賴關(guān)系順序執(zhí)行，若任務(wù)之間無(wú)數(shù)據(jù)依賴，則按照任務(wù)優(yōu)先級(jí)正序執(zhí)行。

(5)邊緣節(jié)點(diǎn)上子任務(wù)的容忍時(shí)延不小于邊緣節(jié)點(diǎn)的平均執(zhí)行時(shí)間。

邊緣節(jié)點(diǎn)正常工作時(shí)，實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間

(6)

當(dāng)邊緣環(huán)境僅有一個(gè)邊緣節(jié)點(diǎn),即mi=1時(shí)，子任務(wù)將完全串行運(yùn)行，為最差調(diào)度結(jié)果，完成時(shí)間

=1+MAX1≤x≤mi,1≤y≤zi(cx,y)。

(7)

綜上所述，本文討論的實(shí)時(shí)任務(wù)調(diào)度模型可以簡(jiǎn)單概括為：車載的實(shí)時(shí)任務(wù)在不同時(shí)間段內(nèi)分配為若干個(gè)子任務(wù)；將子任務(wù)合理地分配給邊緣節(jié)點(diǎn)處理，并計(jì)算實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間。本文所提調(diào)度算法使實(shí)時(shí)任務(wù)在約束下的執(zhí)行時(shí)間最短，即

(8)

1.2 模型分析

圖3所示為推理任務(wù)在特定邊緣環(huán)境中子任務(wù)的分配情況，該場(chǎng)景下共有3個(gè)邊緣節(jié)點(diǎn){f1,f2,f3}，劃分為5個(gè)子任務(wù){(diào)n1,n2,n3,n4,n5},存在5條有向邊{e1,2,e1,3,e2,4,e3,4,e3,5}表示子任務(wù)的依賴性。圖4所示為上述場(chǎng)景中一種可行分配策略(如表1)的實(shí)際執(zhí)行過程，分配后的任務(wù)執(zhí)行時(shí)間(如表2)為15 ms，包括4 ms傳輸時(shí)間(如表3)；該場(chǎng)景最差的情況是串行任務(wù)的完成時(shí)間為1 ms，18 ms，19 ms；子任務(wù)的可容忍時(shí)延(如表4)滿足大于節(jié)點(diǎn)中任務(wù)執(zhí)行時(shí)間的條件，且子任務(wù)的執(zhí)行順序受子任務(wù)相對(duì)權(quán)重(如表5)的約束。

表1 邊緣節(jié)點(diǎn)—子任務(wù)調(diào)度策略

表2 邊緣節(jié)點(diǎn)平均任務(wù)執(zhí)行時(shí)間 ms

表3 邊緣節(jié)點(diǎn)的平均任務(wù)傳輸時(shí)間 ms

表4 子任務(wù)可容忍時(shí)延 ms

表5 子任務(wù)相對(duì)權(quán)重

2 算法設(shè)計(jì)

2.1 優(yōu)先級(jí)評(píng)價(jià)

在同一計(jì)算節(jié)點(diǎn)中，可能存在相互之間無(wú)依賴關(guān)系的多個(gè)任務(wù)，這些任務(wù)的執(zhí)行順序會(huì)影響后續(xù)任務(wù)的執(zhí)行情況。為解決該問題，本文采用模糊層次分析法衡量任務(wù)權(quán)重，然而該方法的原型為根據(jù)專家分值評(píng)估各個(gè)指標(biāo)權(quán)重，存在較強(qiáng)的主觀性。本文通過引入客觀條件(子任務(wù)的實(shí)時(shí)信息)計(jì)算信息熵作為指標(biāo)權(quán)重的補(bǔ)充修正條件，可有效解決該缺點(diǎn)，具體實(shí)現(xiàn)過程如下：

(1)按照三標(biāo)度法原則

(9)

對(duì)子任務(wù)的α種因素進(jìn)行重要性排序，構(gòu)建優(yōu)先關(guān)系矩陣P=(pi,j)α·α。其中si,sj分別表示指標(biāo)pi，pj的相對(duì)重要程度，本文參與評(píng)價(jià)的指標(biāo)有子任務(wù)自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量和對(duì)應(yīng)的可容忍時(shí)延。

(2)根據(jù)優(yōu)先關(guān)系矩陣P構(gòu)建模糊一致矩陣R，其中模糊一致矩陣R的定義為

R=(ri,j)α·α,

ri,j=ri,k-rj,k+0.5。

(10)

1)對(duì)優(yōu)先關(guān)系矩陣P按行求和得ri，

(11)

2)由定義出發(fā)，ri可通過式(12)進(jìn)行列變換，得到模糊一致矩陣R。

(12)

(3)對(duì)模糊一致矩陣R進(jìn)行行求和與歸一化，得到指標(biāo)α對(duì)于各個(gè)子任務(wù)的指標(biāo)權(quán)重wi，

i=1,2,…,α。

(13)

(4)利用隸屬度函數(shù)式(14)對(duì)子任務(wù)自身因素Azi·3進(jìn)行歸一化：

(14)

(5)以歸一化數(shù)據(jù)為基礎(chǔ)，計(jì)算對(duì)應(yīng)子任務(wù)zi的信息熵δi，

(15)

(16)

2.2 調(diào)度算法

馬爾可夫決策過程(Markov decision process)是本文強(qiáng)化學(xué)習(xí)方法的基本模型，根據(jù)其性質(zhì)，即下一個(gè)狀態(tài)的產(chǎn)生只和當(dāng)前狀態(tài)有關(guān)，可簡(jiǎn)化調(diào)度策略模型，以下為本文研究問題模型的特點(diǎn)：

(1)狀態(tài)空間狀態(tài)空間中的可行解狀態(tài)數(shù)量不是恒定的，其隨推理任務(wù)分解后子任務(wù)數(shù)量的改變以及不同時(shí)隙中邊緣節(jié)點(diǎn)分布情況的不同而動(dòng)態(tài)變化；狀態(tài)空間中的一個(gè)可行解狀態(tài)表示推理任務(wù)的一種可行調(diào)度策略，可行策略的定義是滿足所有子任務(wù)的完成時(shí)延都低于各自的容忍時(shí)延，而且每個(gè)子任務(wù)能且僅能卸載到唯一邊緣節(jié)點(diǎn)。

(2)動(dòng)作空間動(dòng)作空間內(nèi)可選的動(dòng)作數(shù)等于子任務(wù)數(shù)zi，動(dòng)作選擇表示將當(dāng)前狀態(tài)中對(duì)應(yīng)的子任務(wù)移動(dòng)到到其他邊緣節(jié)點(diǎn)。

本文的調(diào)度策略基于DQN算法，是基于數(shù)值迭代的算法，其將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合，可在狀態(tài)與動(dòng)作空間離散且維數(shù)較高的情況下將傳統(tǒng)強(qiáng)化學(xué)習(xí)方法Q學(xué)習(xí)中建立Q列表的行為抽象為神經(jīng)網(wǎng)絡(luò)中不斷訓(xùn)練參數(shù)的函數(shù)擬合問題。算法實(shí)現(xiàn)如算法1所示。神經(jīng)網(wǎng)絡(luò)的參數(shù)更新公式為：

Qk+1(st,at,θt)=Qk(st,at,θt)+αk·Rek;

(17)

式中：αk，γ分別為學(xué)習(xí)速率和折扣因子；Rek為迭代過程中累積的獎(jiǎng)勵(lì)值;s′為第k次迭代中執(zhí)行at動(dòng)作后的狀態(tài)；a′為狀態(tài)s′下獎(jiǎng)勵(lì)值最大的動(dòng)作。

算法1任務(wù)—邊緣節(jié)點(diǎn)調(diào)度算法。

輸入:初始狀態(tài)、最大回合數(shù)、單回合最大迭代次數(shù)。

輸出:推理任務(wù)實(shí)時(shí)調(diào)度策略。

1：初始化恒定存儲(chǔ)空間容量的經(jīng)驗(yàn)池、隨機(jī)權(quán)重為θ的動(dòng)作—價(jià)值函數(shù)Qθ(st，at)和對(duì)應(yīng)的target-Qθ(st，at)

2：for i←0 to最大回合數(shù)do

3： st←初始狀態(tài)

4： for i←0 to單回合最大迭代次數(shù)do

5：以ε的概率選擇歷史獎(jiǎng)勵(lì)值最大的動(dòng)作at=argmaxQ(st,a,θ)，否則選擇隨機(jī)動(dòng)作at

6：執(zhí)行動(dòng)作at，得到下一個(gè)狀態(tài)st+1，并利用算法2計(jì)算獎(jiǎng)勵(lì)值ret

7：將(st,st+1,ret,at)存入經(jīng)驗(yàn)池

8：st←st+1

9：經(jīng)驗(yàn)池中隨機(jī)抽樣(sj,sj+1,rej,aj)，

10：根據(jù)式(17)構(gòu)建誤差函數(shù)，反向傳播更新參數(shù)θ

11：每若干步更新target-Qθ(st，at)=Qθ(st，at)

12：若st+1滿足終止?fàn)顟B(tài)，則結(jié)束本輪迭代

13：end for

14：end for

2.3 執(zhí)行算法

在不同時(shí)間段，實(shí)時(shí)任務(wù)和邊緣環(huán)境是動(dòng)態(tài)變化的，概括為如下3種情況：

(1)實(shí)時(shí)產(chǎn)生推理任務(wù)拓?fù)浣Y(jié)構(gòu)與所處邊緣環(huán)境可通信的邊緣節(jié)點(diǎn)數(shù)。

(2)不同環(huán)境下子任務(wù)的計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與可容忍時(shí)延的變化。

(3)由邊緣節(jié)點(diǎn)變化導(dǎo)致的子任務(wù)傳輸時(shí)間與運(yùn)行時(shí)間的改變。

本文提出的執(zhí)行算法可計(jì)算邊緣環(huán)境中的推理任務(wù)完成時(shí)間，其實(shí)現(xiàn)如算法2所示。

算法2任務(wù)執(zhí)行算法。

輸入:mi,zi,Gi,Azi×3,Bmi×zi,Cmi×zi,Hmi×zi。

1：初始化:設(shè)置數(shù)組I、子任務(wù)隊(duì)列Q以及子任務(wù)的前驅(qū)節(jié)點(diǎn)集合R為?

2：利用約束關(guān)系Gi設(shè)置數(shù)組I(i)

3：將數(shù)組I(i)=0的第i個(gè)子任務(wù)加入隊(duì)列Q，設(shè)置遍歷的子任務(wù)數(shù)u=0,設(shè)置當(dāng)前層k中子任務(wù)數(shù)量等于當(dāng)前隊(duì)列大小

4：while Q!=? do

5： if u=k then

6： u=0,k=size(Q)

7：endif

8：子任務(wù)出列，任務(wù)表示為v，u+=1

9： for i←0 to zido

10： if ?v到i的有向邊then

11：將第v個(gè)子任務(wù)及其前驅(qū)節(jié)點(diǎn)集合R(v)添加到R(i),I(i)-=1

12： if I(i)=0 then

13：將第i個(gè)子任務(wù)添加到Q隊(duì)列中

14：end if

15： end if

16: end for

17:end while

18：根據(jù)Bmi×zi將子任務(wù)分配給邊緣節(jié)點(diǎn)，同邊緣節(jié)點(diǎn)的子任務(wù)按照前驅(qū)任務(wù)是否完成的約束條件執(zhí)行，若同邊緣節(jié)點(diǎn)中子任務(wù)的前驅(qū)任務(wù)均已完成，則目標(biāo)子任務(wù)按照子任務(wù)優(yōu)先級(jí)大小從高到低順序執(zhí)行。

19：初始化:設(shè)置子任務(wù)完成列表O為?，用Cmi×zi設(shè)置子任務(wù)Y的剩余執(zhí)行時(shí)間，設(shè)置當(dāng)前運(yùn)行時(shí)間h=0

20：while O

21：確定分配到每個(gè)邊緣節(jié)點(diǎn)的子任務(wù)，滿足對(duì)應(yīng)子任務(wù)的直接前驅(qū)集合是完成列表O的子集

22：從當(dāng)前并行執(zhí)行的子任務(wù)中找到最小執(zhí)行時(shí)間w

23：設(shè)置邊緣節(jié)點(diǎn)的子任務(wù)Y(i)-=w，當(dāng)Y(i)=0時(shí)，將第i個(gè)子任務(wù)添加到O，設(shè)置h+=w

24：end while

25：return h

3 仿真實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)參數(shù)設(shè)置

本文模擬實(shí)驗(yàn)在Python 3.7環(huán)境下實(shí)現(xiàn)，實(shí)驗(yàn)設(shè)備為Inter(R) Core(TM) i7-7700HQCPU，16 GBRAM的64位Win10系統(tǒng)，為檢驗(yàn)所提基于DQN算法的調(diào)度策略性能，對(duì)比算法選用傳統(tǒng)強(qiáng)化學(xué)習(xí)Q學(xué)習(xí)算法[10]與基于遺傳算法改良的粒子群優(yōu)化算法(Particle Swarm Optimization with Genetic Algorithm，GA-PSO)[14]。實(shí)驗(yàn)中所有算法的目的均為尋找完成時(shí)間最短的可行分配策略。

實(shí)驗(yàn)仿真參數(shù)按照IEEE 802.11p車輛網(wǎng)絡(luò)場(chǎng)景標(biāo)準(zhǔn)設(shè)定[15],具體設(shè)置如表6所示；仿真實(shí)驗(yàn)對(duì)象為邊緣環(huán)境下的同類型實(shí)時(shí)任務(wù)，拓?fù)浣Y(jié)構(gòu)如圖5所示，具體設(shè)置如表7～表9所示。

表6 仿真實(shí)驗(yàn)約束參數(shù)

表7 邊緣節(jié)點(diǎn)傳輸速率和算力

表8 仿真任務(wù)與場(chǎng)景參數(shù)

表9 自身因素的權(quán)重

3.2 實(shí)驗(yàn)結(jié)果分析

為測(cè)試任務(wù)調(diào)度策略的可行性，將拓?fù)浣Y(jié)構(gòu)不同的推理任務(wù)分別卸載到邊緣節(jié)點(diǎn)數(shù)不同的邊緣場(chǎng)景，計(jì)算其最優(yōu)分配時(shí)的任務(wù)完成時(shí)間。如圖6所示，由于調(diào)度策略中的邊緣節(jié)點(diǎn)數(shù)決定任務(wù)同時(shí)間片下的最大可并行任務(wù)數(shù)，開始時(shí)任務(wù)的完成時(shí)間隨節(jié)點(diǎn)數(shù)的增多明顯下降；當(dāng)滿足邊緣節(jié)點(diǎn)數(shù)大于等于最大可并行任務(wù)數(shù)時(shí)，任務(wù)的完成時(shí)間相同。相比按照任務(wù)深度順序執(zhí)行的策略，本文所提結(jié)合優(yōu)先級(jí)評(píng)價(jià)的任務(wù)執(zhí)行算法對(duì)任務(wù)完成時(shí)間的優(yōu)化較明顯。

為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的收斂性，在邊緣環(huán)境下對(duì)同一任務(wù)分別用GA-PSO、Q學(xué)習(xí)、DQN算法進(jìn)行卸載。實(shí)驗(yàn)對(duì)不同邊緣環(huán)境分別進(jìn)行100回合測(cè)試，將每10回合的策略取均值，結(jié)果如圖7所示。對(duì)任務(wù)類型1而言，GA-PSO在多種邊緣環(huán)境下都能找到時(shí)延表現(xiàn)較好的解，然而該算法搜尋最優(yōu)解的過程依賴于粒子種群的隨機(jī)搜索，因此較難收斂；Q學(xué)習(xí)和DQN算法在經(jīng)過前期若干回合學(xué)習(xí)后，可找到完成時(shí)間更短的解，且收斂性良好。對(duì)于任務(wù)類型2，GA-PSO的表現(xiàn)與求解任務(wù)類型1相似，每回合雖然可以找到較可觀的次優(yōu)解，但是存在陷入局部最優(yōu)的情況；Q學(xué)習(xí)在邊緣節(jié)點(diǎn)數(shù)為2的場(chǎng)景下表現(xiàn)良好，在節(jié)點(diǎn)數(shù)增加至3，4時(shí)難收斂；DQN在所有邊緣場(chǎng)景下均表現(xiàn)優(yōu)秀。

圖7出現(xiàn)異?？赡苁亲尤蝿?wù)數(shù)量增加使策略解空間倍增的原圖。如表10所示，對(duì)于龐大的離散解空間，GA-PSO在限制時(shí)間開銷的場(chǎng)景下易陷入局部最優(yōu)；Q學(xué)習(xí)的核心操作為創(chuàng)建Q列表，然而龐大的可行解空間導(dǎo)致其狀態(tài)數(shù)出現(xiàn)維度爆炸，Q列表難以存放如此多的可行解，從而使算法難以收斂；與其相比，DQN利用神經(jīng)網(wǎng)絡(luò)將Q列表近似擬合成Q值函數(shù)，解決了上述Q學(xué)習(xí)方法的難題，因此更易收斂。

表10 策略空間數(shù)量

為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的有效性，分別采用GA-PSO、Q學(xué)習(xí)、DQN算法在不同邊緣環(huán)境下卸載同一實(shí)時(shí)任務(wù)，在每個(gè)邊緣環(huán)境進(jìn)行100回合測(cè)試，并將每10回合的實(shí)時(shí)響應(yīng)時(shí)間取均值，結(jié)果如圖8所示?？梢?，GA-PSO在各個(gè)場(chǎng)景下對(duì)不同任務(wù)的響應(yīng)時(shí)間均較穩(wěn)定，原因是其搜索策略的速度僅由所用的探索粒子數(shù)決定；Q學(xué)習(xí)和DQN算法在回合數(shù)較前時(shí)，由于需要大量可行策略進(jìn)行學(xué)習(xí)，響應(yīng)時(shí)間較長(zhǎng)，隨著回合數(shù)的增多，在收斂的情況下響應(yīng)時(shí)間逐漸下降，而且DQN算法穩(wěn)定收斂時(shí)的響應(yīng)時(shí)間較Q學(xué)習(xí)更短。

4 結(jié)束語(yǔ)

本文提出一種基于DQN算法的車載推理任務(wù)的實(shí)時(shí)調(diào)度策略，通過分析不同邊緣場(chǎng)景下實(shí)時(shí)任務(wù)的完成時(shí)間，證明所提策略可充分利用邊緣節(jié)點(diǎn)的計(jì)算能力，其能夠隨節(jié)點(diǎn)數(shù)的增加顯著降低實(shí)時(shí)任務(wù)的完成時(shí)間。通過對(duì)比相同類型任務(wù)在不同算法下的性能發(fā)現(xiàn)，在復(fù)雜度較低的任務(wù)下，GA-PSO、Q學(xué)習(xí)、DQN算法都能在較短時(shí)間內(nèi)提供有效的任務(wù)調(diào)度策略，但GA-PSO的收斂性略差；針對(duì)復(fù)雜度高、邊緣環(huán)境復(fù)雜的任務(wù)，Q學(xué)習(xí)的收斂性極差，GA-PSO較差，DQN方法表現(xiàn)優(yōu)越。通過實(shí)驗(yàn)對(duì)比實(shí)時(shí)響應(yīng)時(shí)間表明，相比響應(yīng)時(shí)間穩(wěn)定的GA-PSO算法，隨樣本數(shù)量增加不斷改善的強(qiáng)化學(xué)習(xí)方法在實(shí)時(shí)性要求苛刻的車載背景下表現(xiàn)更好。

未來(lái)研究考慮將本文工作拓展至具有復(fù)雜推理任務(wù)的多車輛協(xié)同調(diào)度場(chǎng)景，以緩解同一邊緣環(huán)境下多車任務(wù)資源分配不均的情況；另外，將持續(xù)改進(jìn)調(diào)度算法，優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練效率，并在系統(tǒng)模型中加入信道波動(dòng)、無(wú)線電干擾等復(fù)雜環(huán)境因素。