亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        車載邊緣計(jì)算中推理任務(wù)的實(shí)時(shí)調(diào)度策略

        2022-11-07 04:27:36陳喬鑫王素云
        關(guān)鍵詞:環(huán)境策略

        陳喬鑫,盧 宇,林 兵,3+,王素云,邵 浚

        (1.福建師范大學(xué) 物理與能源學(xué)院,福建 福州 350117;2.福建師范大學(xué) 協(xié)和學(xué)院,福建 福州 350117;3.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

        0 引言

        車聯(lián)網(wǎng)作為5G場(chǎng)景下的關(guān)鍵應(yīng)用場(chǎng)景,已經(jīng)成為研究的熱點(diǎn)領(lǐng)域,未來(lái)發(fā)展前景較好,其衍生的自動(dòng)駕駛技術(shù)不但可以提高駕駛過程中的安全性,而且有利于解決城市中愈發(fā)嚴(yán)重的交通效率低下、車道擁塞等難題。然而,自動(dòng)駕駛是計(jì)算密集型、時(shí)延敏感型的應(yīng)用,其計(jì)算復(fù)雜度高且完成時(shí)延要求嚴(yán)格,僅由計(jì)算能力有限的車載終端執(zhí)行通常無(wú)法滿足要求[1]。之前自動(dòng)駕駛的多數(shù)研究集中于將車輛駕駛過程中的交通狀況識(shí)別等具體功能設(shè)計(jì)為推理任務(wù)[2-3],較少關(guān)心如何調(diào)度推理任務(wù),不可避免地出現(xiàn)了高延遲。而在車聯(lián)網(wǎng)環(huán)境下引入移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)能夠?qū)④囕d終端中的實(shí)時(shí)任務(wù)卸載到路邊單元(Road Side Unit, RSU),從而有效緩解車輛終端算力低下、存儲(chǔ)資源匱乏等困境,在邊緣環(huán)境中合理調(diào)度推理任務(wù)則可有效降低任務(wù)的執(zhí)行時(shí)間,滿足低延遲約束[4-6]。由于不同場(chǎng)景下的任務(wù)結(jié)構(gòu)不全相同,邊緣節(jié)點(diǎn)也存在性能差異,設(shè)計(jì)合理的調(diào)度策略成為研究難題。

        為此,國(guó)內(nèi)外進(jìn)行了大量研究。啟發(fā)式算法廣泛應(yīng)用于任務(wù)調(diào)度問題與協(xié)同任務(wù)方面,基本原型如粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法、蟻群算法(Ant Colony Algorithm, ACA)、遺傳算法(Genetic Algorithm, GA)等[7-9],這類方法可在約束條件下找到符合條件的可行解,但由于無(wú)法預(yù)計(jì)可行解與最優(yōu)解之間的偏差,收斂速度較慢,在有限的決策時(shí)間中往往只能求得局部最優(yōu)解,這類解較難滿足低時(shí)延任務(wù)的要求。因此近年來(lái),部分研究者利用強(qiáng)化學(xué)習(xí)思想解決邊緣卸載問題,通過不斷矯正可行解與更優(yōu)解的偏差,在加快收斂速度的同時(shí)增強(qiáng)探索力。LIN等[10]分別采用PSO算法和Q學(xué)習(xí)算法對(duì)車聯(lián)網(wǎng)的實(shí)時(shí)任務(wù)進(jìn)行策略調(diào)度,具有指導(dǎo)意義,然而任務(wù)模型較理想化,未考慮任務(wù)優(yōu)先級(jí),忽略了應(yīng)用中任務(wù)執(zhí)行順序不同對(duì)完成時(shí)間的影響;趙海濤等[11]針對(duì)車聯(lián)網(wǎng)環(huán)境下不同車輛的任務(wù)提出優(yōu)先級(jí)概念,令任務(wù)分配更加合理,然而所提優(yōu)先級(jí)劃分方法傾向于專家評(píng)定,過于主觀;XIONG等[12]和WANG等[13]對(duì)物聯(lián)網(wǎng)背景下產(chǎn)生的大量數(shù)據(jù)采用深度Q學(xué)習(xí)(Deep Q-learning, DQN)算法進(jìn)行邊緣卸載,有效減少了目標(biāo)平均完成時(shí)間和所請(qǐng)求資源的平均數(shù)量的長(zhǎng)期加權(quán)和,然而由于目標(biāo)對(duì)象為多車任務(wù),無(wú)法精確優(yōu)化單實(shí)時(shí)任務(wù)的運(yùn)行時(shí)間。

        單實(shí)時(shí)任務(wù)是多任務(wù)協(xié)同調(diào)度的基本單元。上述學(xué)者針對(duì)多車任務(wù)協(xié)同調(diào)度取得了較多研究成果,但對(duì)具有數(shù)據(jù)依賴的單車推理任務(wù)調(diào)度研究不足。因此,本文考慮車輛行駛過程中不同實(shí)時(shí)推理任務(wù)與邊緣環(huán)境的差異,設(shè)計(jì)邊緣環(huán)境下的任務(wù)優(yōu)化調(diào)度策略,從單任務(wù)角度出發(fā)優(yōu)化運(yùn)行時(shí)間。本文的主要貢獻(xiàn)如下:

        (1)提出針對(duì)推理任務(wù)的優(yōu)先級(jí)判斷方法,從而高效利用邊緣節(jié)點(diǎn),縮短任務(wù)執(zhí)行時(shí)間。

        (2)設(shè)計(jì)基于DQN算法的調(diào)度算法,在復(fù)雜邊緣環(huán)境下探索更優(yōu)的調(diào)度策略。

        1 模型定義與分析

        1.1 模型定義

        在車輛行駛場(chǎng)景下,自動(dòng)駕駛等車載應(yīng)用對(duì)實(shí)時(shí)性的要求愈發(fā)嚴(yán)格,充分利用邊緣節(jié)點(diǎn)是有效減少其執(zhí)行時(shí)間的關(guān)鍵,本文將復(fù)雜應(yīng)用的推理過程構(gòu)建為由若干存在依賴性的子任務(wù)組成的推理任務(wù)。在不同時(shí)間片中,隨著車輛所處邊緣環(huán)境的變化,可用的邊緣節(jié)點(diǎn)數(shù)隨之改變,等待調(diào)度的推理任務(wù)不盡相同。圖1所示為推理任務(wù)和邊緣節(jié)點(diǎn)數(shù)在不同時(shí)間片的狀態(tài)。

        推理任務(wù)中,不同子任務(wù)的自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與對(duì)應(yīng)的可容忍時(shí)延不盡相同,本文在實(shí)驗(yàn)中將其定義為

        (1)

        (2)

        (3)

        (4)

        為了較好地利用不同邊緣環(huán)境中邊緣節(jié)點(diǎn)的算力,問題模型中規(guī)定邊緣節(jié)點(diǎn)應(yīng)滿足以下規(guī)則:

        (1)子任務(wù)能且僅能由單一邊緣節(jié)點(diǎn)調(diào)度,定義為

        (5)

        (2)邊緣節(jié)點(diǎn)需等待所有子任務(wù)傳輸完畢后方可開始計(jì)算。

        (3)不同節(jié)點(diǎn)上的任務(wù)可并行處理。

        (4)分配至相同節(jié)點(diǎn)上的子任務(wù)應(yīng)按數(shù)據(jù)依賴關(guān)系順序執(zhí)行,若任務(wù)之間無(wú)數(shù)據(jù)依賴,則按照任務(wù)優(yōu)先級(jí)正序執(zhí)行。

        (5)邊緣節(jié)點(diǎn)上子任務(wù)的容忍時(shí)延不小于邊緣節(jié)點(diǎn)的平均執(zhí)行時(shí)間。

        邊緣節(jié)點(diǎn)正常工作時(shí),實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間

        (6)

        當(dāng)邊緣環(huán)境僅有一個(gè)邊緣節(jié)點(diǎn),即mi=1時(shí),子任務(wù)將完全串行運(yùn)行,為最差調(diào)度結(jié)果,完成時(shí)間

        =1+MAX1≤x≤mi,1≤y≤zi(cx,y)。

        (7)

        綜上所述,本文討論的實(shí)時(shí)任務(wù)調(diào)度模型可以簡(jiǎn)單概括為:車載的實(shí)時(shí)任務(wù)在不同時(shí)間段內(nèi)分配為若干個(gè)子任務(wù);將子任務(wù)合理地分配給邊緣節(jié)點(diǎn)處理,并計(jì)算實(shí)時(shí)任務(wù)的執(zhí)行時(shí)間。本文所提調(diào)度算法使實(shí)時(shí)任務(wù)在約束下的執(zhí)行時(shí)間最短,即

        (8)

        1.2 模型分析

        圖3所示為推理任務(wù)在特定邊緣環(huán)境中子任務(wù)的分配情況,該場(chǎng)景下共有3個(gè)邊緣節(jié)點(diǎn){f1,f2,f3},劃分為5個(gè)子任務(wù){(diào)n1,n2,n3,n4,n5},存在5條有向邊{e1,2,e1,3,e2,4,e3,4,e3,5}表示子任務(wù)的依賴性。圖4所示為上述場(chǎng)景中一種可行分配策略(如表1)的實(shí)際執(zhí)行過程,分配后的任務(wù)執(zhí)行時(shí)間(如表2)為15 ms,包括4 ms傳輸時(shí)間(如表3);該場(chǎng)景最差的情況是串行任務(wù)的完成時(shí)間為1 ms,18 ms,19 ms;子任務(wù)的可容忍時(shí)延(如表4)滿足大于節(jié)點(diǎn)中任務(wù)執(zhí)行時(shí)間的條件,且子任務(wù)的執(zhí)行順序受子任務(wù)相對(duì)權(quán)重(如表5)的約束。

        表1 邊緣節(jié)點(diǎn)—子任務(wù)調(diào)度策略

        表2 邊緣節(jié)點(diǎn)平均任務(wù)執(zhí)行時(shí)間 ms

        表3 邊緣節(jié)點(diǎn)的平均任務(wù)傳輸時(shí)間 ms

        表4 子任務(wù)可容忍時(shí)延 ms

        表5 子任務(wù)相對(duì)權(quán)重

        2 算法設(shè)計(jì)

        2.1 優(yōu)先級(jí)評(píng)價(jià)

        在同一計(jì)算節(jié)點(diǎn)中,可能存在相互之間無(wú)依賴關(guān)系的多個(gè)任務(wù),這些任務(wù)的執(zhí)行順序會(huì)影響后續(xù)任務(wù)的執(zhí)行情況。為解決該問題,本文采用模糊層次分析法衡量任務(wù)權(quán)重,然而該方法的原型為根據(jù)專家分值評(píng)估各個(gè)指標(biāo)權(quán)重,存在較強(qiáng)的主觀性。本文通過引入客觀條件(子任務(wù)的實(shí)時(shí)信息)計(jì)算信息熵作為指標(biāo)權(quán)重的補(bǔ)充修正條件,可有效解決該缺點(diǎn),具體實(shí)現(xiàn)過程如下:

        (1)按照三標(biāo)度法原則

        (9)

        對(duì)子任務(wù)的α種因素進(jìn)行重要性排序,構(gòu)建優(yōu)先關(guān)系矩陣P=(pi,j)α·α。其中si,sj分別表示指標(biāo)pi,pj的相對(duì)重要程度,本文參與評(píng)價(jià)的指標(biāo)有子任務(wù)自身計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量和對(duì)應(yīng)的可容忍時(shí)延。

        (2)根據(jù)優(yōu)先關(guān)系矩陣P構(gòu)建模糊一致矩陣R,其中模糊一致矩陣R的定義為

        R=(ri,j)α·α,

        ri,j=ri,k-rj,k+0.5。

        (10)

        1)對(duì)優(yōu)先關(guān)系矩陣P按行求和得ri,

        (11)

        2)由定義出發(fā),ri可通過式(12)進(jìn)行列變換,得到模糊一致矩陣R。

        (12)

        (3)對(duì)模糊一致矩陣R進(jìn)行行求和與歸一化,得到指標(biāo)α對(duì)于各個(gè)子任務(wù)的指標(biāo)權(quán)重wi,

        i=1,2,…,α。

        (13)

        (4)利用隸屬度函數(shù)式(14)對(duì)子任務(wù)自身因素Azi·3進(jìn)行歸一化:

        (14)

        (5)以歸一化數(shù)據(jù)為基礎(chǔ),計(jì)算對(duì)應(yīng)子任務(wù)zi的信息熵δi,

        (15)

        (16)

        2.2 調(diào)度算法

        馬爾可夫決策過程(Markov decision process)是本文強(qiáng)化學(xué)習(xí)方法的基本模型,根據(jù)其性質(zhì),即下一個(gè)狀態(tài)的產(chǎn)生只和當(dāng)前狀態(tài)有關(guān),可簡(jiǎn)化調(diào)度策略模型,以下為本文研究問題模型的特點(diǎn):

        (1)狀態(tài)空間 狀態(tài)空間中的可行解狀態(tài)數(shù)量不是恒定的,其隨推理任務(wù)分解后子任務(wù)數(shù)量的改變以及不同時(shí)隙中邊緣節(jié)點(diǎn)分布情況的不同而動(dòng)態(tài)變化;狀態(tài)空間中的一個(gè)可行解狀態(tài)表示推理任務(wù)的一種可行調(diào)度策略,可行策略的定義是滿足所有子任務(wù)的完成時(shí)延都低于各自的容忍時(shí)延,而且每個(gè)子任務(wù)能且僅能卸載到唯一邊緣節(jié)點(diǎn)。

        (2)動(dòng)作空間 動(dòng)作空間內(nèi)可選的動(dòng)作數(shù)等于子任務(wù)數(shù)zi,動(dòng)作選擇表示將當(dāng)前狀態(tài)中對(duì)應(yīng)的子任務(wù)移動(dòng)到到其他邊緣節(jié)點(diǎn)。

        本文的調(diào)度策略基于DQN算法,是基于數(shù)值迭代的算法,其將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,可在狀態(tài)與動(dòng)作空間離散且維數(shù)較高的情況下將傳統(tǒng)強(qiáng)化學(xué)習(xí)方法Q學(xué)習(xí)中建立Q列表的行為抽象為神經(jīng)網(wǎng)絡(luò)中不斷訓(xùn)練參數(shù)的函數(shù)擬合問題。算法實(shí)現(xiàn)如算法1所示。神經(jīng)網(wǎng)絡(luò)的參數(shù)更新公式為:

        Qk+1(st,at,θt)=Qk(st,at,θt)+αk·Rek;

        (17)

        式中:αk,γ分別為學(xué)習(xí)速率和折扣因子;Rek為迭代過程中累積的獎(jiǎng)勵(lì)值;s′為第k次迭代中執(zhí)行at動(dòng)作后的狀態(tài);a′為狀態(tài)s′下獎(jiǎng)勵(lì)值最大的動(dòng)作。

        算法1任務(wù)—邊緣節(jié)點(diǎn)調(diào)度算法。

        輸入:初始狀態(tài)、最大回合數(shù)、單回合最大迭代次數(shù)。

        輸出:推理任務(wù)實(shí)時(shí)調(diào)度策略。

        1:初始化恒定存儲(chǔ)空間容量的經(jīng)驗(yàn)池、隨機(jī)權(quán)重為θ的動(dòng)作—價(jià)值函數(shù)Qθ(st,at)和對(duì)應(yīng)的target-Qθ(st,at)

        2:for i←0 to最大回合數(shù)do

        3: st←初始狀態(tài)

        4: for i←0 to單回合最大迭代次數(shù)do

        5:以ε的概率選擇歷史獎(jiǎng)勵(lì)值最大的動(dòng)作at=argmaxQ(st,a,θ),否則選擇隨機(jī)動(dòng)作at

        6: 執(zhí)行動(dòng)作at,得到下一個(gè)狀態(tài)st+1,并利用算法2計(jì)算獎(jiǎng)勵(lì)值ret

        7:將(st,st+1,ret,at)存入經(jīng)驗(yàn)池

        8:st←st+1

        9: 經(jīng)驗(yàn)池中隨機(jī)抽樣(sj,sj+1,rej,aj),

        10: 根據(jù)式(17)構(gòu)建誤差函數(shù),反向傳播更新參數(shù)θ

        11: 每若干步更新target-Qθ(st,at)=Qθ(st,at)

        12:若st+1滿足終止?fàn)顟B(tài),則結(jié)束本輪迭代

        13:end for

        14:end for

        2.3 執(zhí)行算法

        在不同時(shí)間段,實(shí)時(shí)任務(wù)和邊緣環(huán)境是動(dòng)態(tài)變化的,概括為如下3種情況:

        (1)實(shí)時(shí)產(chǎn)生推理任務(wù)拓?fù)浣Y(jié)構(gòu)與所處邊緣環(huán)境可通信的邊緣節(jié)點(diǎn)數(shù)。

        (2)不同環(huán)境下子任務(wù)的計(jì)算復(fù)雜度、任務(wù)數(shù)據(jù)量與可容忍時(shí)延的變化。

        (3)由邊緣節(jié)點(diǎn)變化導(dǎo)致的子任務(wù)傳輸時(shí)間與運(yùn)行時(shí)間的改變。

        本文提出的執(zhí)行算法可計(jì)算邊緣環(huán)境中的推理任務(wù)完成時(shí)間,其實(shí)現(xiàn)如算法2所示。

        算法2任務(wù)執(zhí)行算法。

        輸入:mi,zi,Gi,Azi×3,Bmi×zi,Cmi×zi,Hmi×zi。

        1:初始化:設(shè)置數(shù)組I、子任務(wù)隊(duì)列Q以及子任務(wù)的前驅(qū)節(jié)點(diǎn)集合R為?

        2:利用約束關(guān)系Gi設(shè)置數(shù)組I(i)

        3:將數(shù)組I(i)=0的第i個(gè)子任務(wù)加入隊(duì)列Q,設(shè)置遍歷的子任務(wù)數(shù)u=0,設(shè)置當(dāng)前層k中子任務(wù)數(shù)量等于當(dāng)前隊(duì)列大小

        4:while Q!=? do

        5: if u=k then

        6: u=0,k=size(Q)

        7:endif

        8: 子任務(wù)出列,任務(wù)表示為v,u+=1

        9: for i←0 to zido

        10: if ?v到i的有向邊then

        11:將第v個(gè)子任務(wù)及其前驅(qū)節(jié)點(diǎn)集合R(v)添加到R(i),I(i)-=1

        12: if I(i)=0 then

        13:將第i個(gè)子任務(wù)添加到Q隊(duì)列中

        14:end if

        15: end if

        16: end for

        17:end while

        18:根據(jù)Bmi×zi將子任務(wù)分配給邊緣節(jié)點(diǎn),同邊緣節(jié)點(diǎn)的子任務(wù)按照前驅(qū)任務(wù)是否完成的約束條件執(zhí)行,若同邊緣節(jié)點(diǎn)中子任務(wù)的前驅(qū)任務(wù)均已完成,則目標(biāo)子任務(wù)按照子任務(wù)優(yōu)先級(jí)大小從高到低順序執(zhí)行。

        19:初始化:設(shè)置子任務(wù)完成列表O為?,用Cmi×zi設(shè)置子任務(wù)Y的剩余執(zhí)行時(shí)間,設(shè)置當(dāng)前運(yùn)行時(shí)間h=0

        20:while O

        21: 確定分配到每個(gè)邊緣節(jié)點(diǎn)的子任務(wù),滿足對(duì)應(yīng)子任務(wù)的直接前驅(qū)集合是完成列表O的子集

        22:從當(dāng)前并行執(zhí)行的子任務(wù)中找到最小執(zhí)行時(shí)間w

        23: 設(shè)置邊緣節(jié)點(diǎn)的子任務(wù)Y(i)-=w,當(dāng)Y(i)=0時(shí),將第i個(gè)子任務(wù)添加到O,設(shè)置h+=w

        24:end while

        25:return h

        3 仿真實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)參數(shù)設(shè)置

        本文模擬實(shí)驗(yàn)在Python 3.7環(huán)境下實(shí)現(xiàn),實(shí)驗(yàn)設(shè)備為Inter(R) Core(TM) i7-7700HQCPU,16 GBRAM的64位Win10系統(tǒng),為檢驗(yàn)所提基于DQN算法的調(diào)度策略性能,對(duì)比算法選用傳統(tǒng)強(qiáng)化學(xué)習(xí)Q學(xué)習(xí)算法[10]與基于遺傳算法改良的粒子群優(yōu)化算法(Particle Swarm Optimization with Genetic Algorithm,GA-PSO)[14]。實(shí)驗(yàn)中所有算法的目的均為尋找完成時(shí)間最短的可行分配策略。

        實(shí)驗(yàn)仿真參數(shù)按照IEEE 802.11p車輛網(wǎng)絡(luò)場(chǎng)景標(biāo)準(zhǔn)設(shè)定[15],具體設(shè)置如表6所示;仿真實(shí)驗(yàn)對(duì)象為邊緣環(huán)境下的同類型實(shí)時(shí)任務(wù),拓?fù)浣Y(jié)構(gòu)如圖5所示,具體設(shè)置如表7~表9所示。

        表6 仿真實(shí)驗(yàn)約束參數(shù)

        表7 邊緣節(jié)點(diǎn)傳輸速率和算力

        表8 仿真任務(wù)與場(chǎng)景參數(shù)

        表9 自身因素的權(quán)重

        3.2 實(shí)驗(yàn)結(jié)果分析

        為測(cè)試任務(wù)調(diào)度策略的可行性,將拓?fù)浣Y(jié)構(gòu)不同的推理任務(wù)分別卸載到邊緣節(jié)點(diǎn)數(shù)不同的邊緣場(chǎng)景,計(jì)算其最優(yōu)分配時(shí)的任務(wù)完成時(shí)間。如圖6所示,由于調(diào)度策略中的邊緣節(jié)點(diǎn)數(shù)決定任務(wù)同時(shí)間片下的最大可并行任務(wù)數(shù),開始時(shí)任務(wù)的完成時(shí)間隨節(jié)點(diǎn)數(shù)的增多明顯下降;當(dāng)滿足邊緣節(jié)點(diǎn)數(shù)大于等于最大可并行任務(wù)數(shù)時(shí),任務(wù)的完成時(shí)間相同。相比按照任務(wù)深度順序執(zhí)行的策略,本文所提結(jié)合優(yōu)先級(jí)評(píng)價(jià)的任務(wù)執(zhí)行算法對(duì)任務(wù)完成時(shí)間的優(yōu)化較明顯。

        為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的收斂性,在邊緣環(huán)境下對(duì)同一任務(wù)分別用GA-PSO、Q學(xué)習(xí)、DQN算法進(jìn)行卸載。實(shí)驗(yàn)對(duì)不同邊緣環(huán)境分別進(jìn)行100回合測(cè)試,將每10回合的策略取均值,結(jié)果如圖7所示。對(duì)任務(wù)類型1而言,GA-PSO在多種邊緣環(huán)境下都能找到時(shí)延表現(xiàn)較好的解,然而該算法搜尋最優(yōu)解的過程依賴于粒子種群的隨機(jī)搜索,因此較難收斂;Q學(xué)習(xí)和DQN算法在經(jīng)過前期若干回合學(xué)習(xí)后,可找到完成時(shí)間更短的解,且收斂性良好。對(duì)于任務(wù)類型2,GA-PSO的表現(xiàn)與求解任務(wù)類型1相似,每回合雖然可以找到較可觀的次優(yōu)解,但是存在陷入局部最優(yōu)的情況;Q學(xué)習(xí)在邊緣節(jié)點(diǎn)數(shù)為2的場(chǎng)景下表現(xiàn)良好,在節(jié)點(diǎn)數(shù)增加至3,4時(shí)難收斂;DQN在所有邊緣場(chǎng)景下均表現(xiàn)優(yōu)秀。

        圖7出現(xiàn)異??赡苁亲尤蝿?wù)數(shù)量增加使策略解空間倍增的原圖。如表10所示,對(duì)于龐大的離散解空間,GA-PSO在限制時(shí)間開銷的場(chǎng)景下易陷入局部最優(yōu);Q學(xué)習(xí)的核心操作為創(chuàng)建Q列表,然而龐大的可行解空間導(dǎo)致其狀態(tài)數(shù)出現(xiàn)維度爆炸,Q列表難以存放如此多的可行解,從而使算法難以收斂;與其相比,DQN利用神經(jīng)網(wǎng)絡(luò)將Q列表近似擬合成Q值函數(shù),解決了上述Q學(xué)習(xí)方法的難題,因此更易收斂。

        表10 策略空間數(shù)量

        為測(cè)試調(diào)度算法在實(shí)時(shí)環(huán)境下的有效性,分別采用GA-PSO、Q學(xué)習(xí)、DQN算法在不同邊緣環(huán)境下卸載同一實(shí)時(shí)任務(wù),在每個(gè)邊緣環(huán)境進(jìn)行100回合測(cè)試,并將每10回合的實(shí)時(shí)響應(yīng)時(shí)間取均值,結(jié)果如圖8所示??梢?,GA-PSO在各個(gè)場(chǎng)景下對(duì)不同任務(wù)的響應(yīng)時(shí)間均較穩(wěn)定,原因是其搜索策略的速度僅由所用的探索粒子數(shù)決定;Q學(xué)習(xí)和DQN算法在回合數(shù)較前時(shí),由于需要大量可行策略進(jìn)行學(xué)習(xí),響應(yīng)時(shí)間較長(zhǎng),隨著回合數(shù)的增多,在收斂的情況下響應(yīng)時(shí)間逐漸下降,而且DQN算法穩(wěn)定收斂時(shí)的響應(yīng)時(shí)間較Q學(xué)習(xí)更短。

        4 結(jié)束語(yǔ)

        本文提出一種基于DQN算法的車載推理任務(wù)的實(shí)時(shí)調(diào)度策略,通過分析不同邊緣場(chǎng)景下實(shí)時(shí)任務(wù)的完成時(shí)間,證明所提策略可充分利用邊緣節(jié)點(diǎn)的計(jì)算能力,其能夠隨節(jié)點(diǎn)數(shù)的增加顯著降低實(shí)時(shí)任務(wù)的完成時(shí)間。通過對(duì)比相同類型任務(wù)在不同算法下的性能發(fā)現(xiàn),在復(fù)雜度較低的任務(wù)下,GA-PSO、Q學(xué)習(xí)、DQN算法都能在較短時(shí)間內(nèi)提供有效的任務(wù)調(diào)度策略,但GA-PSO的收斂性略差;針對(duì)復(fù)雜度高、邊緣環(huán)境復(fù)雜的任務(wù),Q學(xué)習(xí)的收斂性極差,GA-PSO較差,DQN方法表現(xiàn)優(yōu)越。通過實(shí)驗(yàn)對(duì)比實(shí)時(shí)響應(yīng)時(shí)間表明,相比響應(yīng)時(shí)間穩(wěn)定的GA-PSO算法,隨樣本數(shù)量增加不斷改善的強(qiáng)化學(xué)習(xí)方法在實(shí)時(shí)性要求苛刻的車載背景下表現(xiàn)更好。

        未來(lái)研究考慮將本文工作拓展至具有復(fù)雜推理任務(wù)的多車輛協(xié)同調(diào)度場(chǎng)景,以緩解同一邊緣環(huán)境下多車任務(wù)資源分配不均的情況;另外,將持續(xù)改進(jìn)調(diào)度算法,優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練效率,并在系統(tǒng)模型中加入信道波動(dòng)、無(wú)線電干擾等復(fù)雜環(huán)境因素。

        猜你喜歡
        環(huán)境策略
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        孕期遠(yuǎn)離容易致畸的環(huán)境
        不能改變環(huán)境,那就改變心境
        我說(shuō)你做講策略
        環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        亚洲粉嫩视频在线观看| 激情97综合亚洲色婷婷五| 日韩欧美国产自由二区| 亚洲综合天堂av网站在线观看| 久久精品亚州中文字幕| 亚洲av永久无码精品网站在线观看| 少妇高潮太爽了在线看| 色www视频永久免费| 久草视频国产| 亚洲综合免费在线视频| 亚洲最新国产av网站| 成人午夜性a级毛片免费| 高清国产日韩欧美| 少妇激情一区二区三区久久大香香 | 1234.com麻豆性爰爱影| 国产成人精品一区二区不卡| 亚洲午夜久久久久久久久电影网| 人成午夜免费大片| 深夜福利国产| 亚洲第一区二区精品三区在线| 久久亚洲精品中文字幕| 久久人与动人物a级毛片| 亚洲人妻无缓冲av不卡| 亚洲免费福利视频网站| 中文亚洲av片不卡在线观看| 曰本极品少妇videossexhd| 无码一区二区三区久久精品| 久久久国产精品黄毛片| 中文字幕乱码亚洲精品一区| 欧美在线专区| 少妇人妻在线伊人春色| 亚洲精品成人无限看| 少妇人妻偷人精品一区二区| 中文字幕精品亚洲无线码二区| 亚洲中文字幕乱码第一页| 亚洲精品国产av天美传媒| 亚洲午夜福利精品久久| 女同在线网站免费观看| 丰满少妇人妻无码专区| 亚洲制服中文字幕第一区| 久久国产精品免费久久久|