中圖分類號:TP393 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-029-2141-06
doi: 10.19734/j. issn.1001-3695.2024.12.0491
Abstract:Existing researchonmulti-QoSscheduling problems,due toitsreliancesolelyonimmediatereward feedback mechanisms,faces isues ofpoor scalabilityand resource wastagewhen handlingdelay-sensitivedataand mediadata withcontinuous transmision requirements inresource-constrained scenarios.To addressthis problem,this paper proposed aRB-DQN algorithm.Thisalgorithmadjustedthecurrntstate’spolicyevaluationbybacktrackingfutureinteractions,effectivelyidentifyingandresolving packetlosscausedbysuboptimalschedulingstrategies.Additionaly,itdesignedaLTTmetric,whichcomprehensivelyconsideredtheservicerequirements ofbothdelay-sensitivedataandmedia-typedata,alowing forweightadjustmentstoemphasizediferentpriorities.Extensivesimulationresultsdemonstratethattheproposedalgorithmsignificantlyreducesthe delayand jiterofdelay-sensitivedata while ensuringthe smothnessandstabilityof media-type data,outperforming other scheduling strategies.
Keywords:time slot scheduling;deep reinforcement learning;multi-QoS;reward backtracking
0 引言
隨著工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,制造業(yè)正經(jīng)歷深刻的變革。這一變革不僅推動了設(shè)備、系統(tǒng)與網(wǎng)絡(luò)之間的高效連接,也為智能設(shè)備的廣泛應(yīng)用奠定了堅實的基礎(chǔ)[1,2]。在這一背景下,時隙調(diào)度作為一種有效的資源管理策略,越來越受到關(guān)注。它能夠根據(jù)不同的QoS需求,靈活地進行調(diào)度,以滿足多樣化的業(yè)務(wù)需求,尤其是時延敏感數(shù)據(jù)和媒體類型數(shù)據(jù)的傳輸[3]。其中時延敏感數(shù)據(jù)對時延和抖動的控制要求極為嚴(yán)格,未能在截止時間內(nèi)發(fā)送這些數(shù)據(jù)可能導(dǎo)致系統(tǒng)故障并危及安全。例如,在機械臂的運動控制、AGV(automatedguidedvehicle)的導(dǎo)航調(diào)度和電機驅(qū)動控制等關(guān)鍵功能中,數(shù)據(jù)傳輸?shù)膶崟r性直接影響到生產(chǎn)效率和設(shè)備安全[4,5]。因此,如何有效管理和調(diào)度這些時延敏感數(shù)據(jù)成為了當(dāng)前研究的重點。與此同時,媒體類型數(shù)據(jù)(如語音和視頻)的傳輸也日益受到關(guān)注。這類數(shù)據(jù)通常具有軟時延要求,且數(shù)據(jù)包較大,廣泛應(yīng)用于視頻監(jiān)控、圖像采集等場景[6。媒體類型數(shù)據(jù)在時延方面容忍性較高,其主要目標(biāo)是確保傳輸?shù)牧鲿承院头€(wěn)定性,以提供良好的用戶體驗。因此,不同業(yè)務(wù)類型所帶來的需求差異使得全面考慮各種需求變得復(fù)雜和困難。在多QoS場景下,如何實現(xiàn)合理有效的時隙調(diào)度是當(dāng)前亟待解決的關(guān)鍵問題。
針對多QoS場景下的資源分配研究已有很多。例如,文獻[7]在固定時延敏感調(diào)度的基礎(chǔ)上,利用深度優(yōu)先搜索方法對媒體類型數(shù)據(jù)的路由進行優(yōu)化,有效降低其時延。文獻[8]提出了一種基于服務(wù)區(qū)分的實時數(shù)據(jù)傳輸調(diào)度模型,解決工業(yè)物聯(lián)網(wǎng)中數(shù)據(jù)傳輸?shù)膶崟r性問題。該模型將報警、狀態(tài)、圖像和視頻數(shù)據(jù)劃分為四種優(yōu)先級,采用多優(yōu)先級時隙傳輸方法,合理分配時隙資源以提升傳輸效率。通過動態(tài)調(diào)整隊列和緩沖空間,該模型確保高優(yōu)先級數(shù)據(jù)的及時傳輸。文獻[9]提出了一種基于預(yù)留時隙間隔的綜合調(diào)度方法,其利用OMT求解器以最大化預(yù)留時隙間隔為目標(biāo)來調(diào)度時延敏感數(shù)據(jù),并采用(earliestdeadlinefirst,EDF)調(diào)度策略,根據(jù)AVB流的截止時間進行優(yōu)先傳輸,從而有效解決了時延敏感數(shù)據(jù)和媒體數(shù)據(jù)在調(diào)度時的延遲和實時性問題。文獻[10]提出了一種基于EDF的調(diào)度方法,其利用多個優(yōu)先級級別支持時延敏感和媒體類型數(shù)據(jù)包的調(diào)度。然而,上述現(xiàn)有的研究大多側(cè)重于傳輸周期性的數(shù)據(jù),而當(dāng)系統(tǒng)中出現(xiàn)非周期性傳輸?shù)臄?shù)據(jù)時,則需要進行重新建模和求解,這不僅增加了模型計算的復(fù)雜度,也降低了其適應(yīng)能力。
目前,強化學(xué)習(xí)方法通過自適應(yīng)學(xué)習(xí)環(huán)境變化,優(yōu)化資源分配策略,從而實現(xiàn)更靈活、高效的調(diào)度,并已廣泛應(yīng)用于無線網(wǎng)絡(luò)的資源分配問題[11\~13]。文獻[14]提出了一種基于多智能體深度強化學(xué)習(xí)的資源分配框架,以滿足異構(gòu)車輛網(wǎng)絡(luò)中的QoS需求。該框架考慮了兩類QoS:a)延遲敏感應(yīng)用(如安全通信),要求高可靠性和低延遲;b)延遲不敏感應(yīng)用(如娛樂服務(wù)),關(guān)注高數(shù)據(jù)傳輸速率。通過聯(lián)合優(yōu)化信道分配和功率控制,該方法有效提升了系統(tǒng)性能,證明了其在多QoS場景下的有效性。文獻[15]提出了一種基于DQN的計算卸載策略,旨在優(yōu)化衛(wèi)星物聯(lián)網(wǎng)中的多類型任務(wù)處理。其采用排隊模型處理有限的計算資源,能夠同時處理時延敏感型和計算密集型任務(wù),最大限度地減少計算任務(wù)的處理延遲,提高資源利用率。文獻[16]提出了一種基于深度強化學(xué)習(xí)的調(diào)度框架,旨在優(yōu)化可重構(gòu)無線網(wǎng)絡(luò)中的資源分配,以滿足各種QoS需求。該方法通過使用演員-評論家學(xué)習(xí)算法,動態(tài)調(diào)整資源分配策略,從而高效管理包括延遲敏感和延遲不敏感在內(nèi)的多種業(yè)務(wù)需求。文獻[17]提出了一種基于深度強化學(xué)習(xí)的流調(diào)度方法,旨在解決軟件定義網(wǎng)絡(luò)架構(gòu)下的多目標(biāo)類型QoS流調(diào)度問題。其構(gòu)建了一個綜合考慮吞吐效能與服務(wù)效能的獎勵信號,從而顯著提升了網(wǎng)絡(luò)調(diào)度的決策水平和服務(wù)質(zhì)量。然而,上述研究在模型反饋時僅獨立考慮各自的QoS,并且只關(guān)注了當(dāng)前時隙的即時反饋,而忽視了未來時隙反饋的延遲效應(yīng)。這種做法無法有效應(yīng)對具有連續(xù)傳輸需求的媒體數(shù)據(jù)所加劇的時隙競爭問題。具體來說,媒體數(shù)據(jù)的連續(xù)傳輸特性需要長時間占用多個時隙資源,這會顯著增加時隙的競爭壓力,導(dǎo)致時延敏感數(shù)據(jù)無法及時獲得所需的時隙資源,從而引發(fā)大量的超時丟包現(xiàn)象。
因此,為解決多類型QoS共存的時隙調(diào)度問題,本文提出了一種基于獎勵回溯機制的DQN算法。其主要貢獻如下:
a)本文研究了具有混合異構(gòu)QoS數(shù)據(jù)流的工業(yè)無線網(wǎng)絡(luò)中的時隙調(diào)度問題,綜合考慮截止時間、包生成時間和媒體包連續(xù)傳輸對資源分配的影響。同時,設(shè)計了一種時延-吞吐均衡度量指標(biāo),該指標(biāo)考慮了時延敏感數(shù)據(jù)的延遲與抖動,并確保視頻數(shù)據(jù)傳輸?shù)膫鬏斄鲿承耘c幀穩(wěn)定性。
b)RB-DQN算法基于延遲反饋的思想,引入連續(xù)時隙資源分配決策的累積影響,回溯當(dāng)前狀態(tài)進行決策評估,實現(xiàn)資源的高效利用。
c)本文方法與現(xiàn)有典型方法在仿真實驗中進行大量對比,實驗結(jié)果表明RB-DQN明顯優(yōu)于其他調(diào)度算法,有效驗證了其優(yōu)越性和可行性。
1問題建模
1.1系統(tǒng)建模
本文考慮的工業(yè)互聯(lián)網(wǎng)的系統(tǒng)模型如圖1所示。該系統(tǒng)由一個接入設(shè)備(accessdevice,AD)和 N 個單天線的現(xiàn)場設(shè)備(fielddevice,F(xiàn)D)組成。AD負(fù)責(zé)匯總來自各個FD設(shè)備的數(shù)據(jù)包,而FD設(shè)備則負(fù)責(zé)采集不同類型的業(yè)務(wù)數(shù)據(jù),其中 Na 個設(shè)備采集時延敏感業(yè)務(wù)和 Nb 個設(shè)備采集媒體業(yè)務(wù)。定義FD設(shè)備的集合為 D={Di|1?i?N} ,設(shè)備 Di 在周期性時間窗口 pi 內(nèi),以概率 g 驅(qū)動為條件產(chǎn)生數(shù)據(jù)包。令時隙 t 為數(shù)據(jù)包傳輸?shù)淖钚卧?,其?pi=kt,k∈Z 。令 μi(t)={0,1} 表示數(shù)據(jù)包產(chǎn)生的狀態(tài)指示變量。如果設(shè)備 Di 在 χt 時隙產(chǎn)生了數(shù)據(jù),則 μi(t)=0 ;否則為1。所產(chǎn)生的數(shù)據(jù)包類型包括時延敏感數(shù)據(jù)和媒體類型數(shù)據(jù)。定義 x 為數(shù)據(jù)類型,當(dāng) xi=0 時,表示 Di 產(chǎn)生時延敏感的數(shù)據(jù);而當(dāng) xi=1 時,則表示 Di 產(chǎn)生媒體類型的數(shù)據(jù)。在每個時隙中,僅允許調(diào)度一個設(shè)備向AD發(fā)送數(shù)據(jù)包。然而,環(huán)境干擾和傳輸沖突會導(dǎo)致數(shù)據(jù)包調(diào)度失敗。為此,定義 ρ 為數(shù)據(jù)包調(diào)度過程中發(fā)生丟失的概率。數(shù)據(jù)包丟包將觸發(fā)重傳機制以提高調(diào)度的可靠性。數(shù)據(jù)包達到最大重傳次數(shù)或超出規(guī)定截止時間后仍未成功調(diào)度,則判定該數(shù)據(jù)包發(fā)生丟失。因而,定義 yi(t) 為調(diào)度狀態(tài)指示變量,其中 yi(t)= {0,1} 。當(dāng) Di 在時隙 χt 有待傳數(shù)據(jù)包且傳輸未丟包記為 yi(t)= 1,否則為0。
1.2 時延敏感數(shù)據(jù)
1.2.1時延敏感數(shù)據(jù)描述
時延敏感數(shù)據(jù)通常指對傳輸時延要求極高的數(shù)據(jù)類型。這類數(shù)據(jù)的規(guī)模一般較小,通常能夠在一個時隙內(nèi)完成傳輸,且產(chǎn)生頻率較高,必須在極短時間內(nèi)發(fā)送和處理,以確保系統(tǒng)的實時響應(yīng)。定義 Pa(i) 表示由設(shè)備 Di 采樣獲得的敏感數(shù)據(jù),其具體表示為
Pa(i)=?ati,dti?
其中: ati 表示數(shù)據(jù)包的到達時隙; dti 表示數(shù)據(jù)包的截止時隙,滿足 dti?pi 。
1.2.2時延敏感數(shù)據(jù)評價指標(biāo)
時延是網(wǎng)絡(luò)性能的關(guān)鍵指標(biāo)之一,在本文,時延表示從數(shù)據(jù)采樣到數(shù)據(jù)成功交付所經(jīng)歷的時隙數(shù)。對于任意時延敏感數(shù)據(jù),其時延由 di(t) 表示:
其中:otherwise意味著三種情況:當(dāng) μi(t)=0 ,即設(shè)備產(chǎn)生新數(shù)據(jù)包時,則其時延為0;當(dāng)未有新數(shù)據(jù)包產(chǎn)生,且設(shè)備 Di 中有待傳數(shù)據(jù)包,其被調(diào)度且發(fā)生調(diào)度失敗,則意味著時延增加1;當(dāng)同樣無新數(shù)據(jù)包產(chǎn)生場景,待傳輸?shù)臄?shù)據(jù)包超過截止時間仍未成功發(fā)送,則時延記為最大周期 pi 。
抖動是網(wǎng)絡(luò)性能中的另一個關(guān)鍵指標(biāo),用于描述數(shù)據(jù)包傳輸過程中到達時間的不一致性。抖動通常定義為連續(xù)接收的數(shù)據(jù)包之間到達時間的變化。在理想情況下,數(shù)據(jù)包以恒定的間隔到達接收端。然而,由于網(wǎng)絡(luò)擁塞、路由延遲和硬件差異,數(shù)據(jù)包之間的到達時間可能會有所不同。定義 ji(Ωt) 表示 Di 在 Ψt 時隙之前的抖動,用以下公式計算:
1.3媒體類型數(shù)據(jù)
1.3.1媒體類型數(shù)據(jù)描述
媒體數(shù)據(jù)的特點是規(guī)模較大,通常覆蓋多個時隙,產(chǎn)生頻率較慢。因此通常容忍相對寬松的時延,但需要高吞吐量來確保連續(xù)流暢的數(shù)據(jù)傳輸。定義 Pb(i) 表示由設(shè)備 Di 獲得的媒體數(shù)據(jù),其具體表示為
Pb(i)=?ati,eti,ni,m?
其中: ati 表示數(shù)據(jù)包的到達時隙; eti 表示數(shù)據(jù)包的穩(wěn)定流暢時隙;滿足 eti?pi ·ni 表示連續(xù)傳輸所需的時隙數(shù); m 表示當(dāng)前Di 緩存區(qū)剩余數(shù)據(jù)包數(shù)量。
現(xiàn)有研究使用幀率來刻畫視頻的流暢性,因為幀率直接關(guān)系到視頻的視覺體驗,尤其在動態(tài)場景中,較高的幀率能夠有效減少運動模糊,從而提升畫面的流暢性和清晰度。由于本文考慮的是細(xì)粒度的時隙調(diào)度問題,所以將媒體傳輸建模為:設(shè)備 Di 產(chǎn)生的媒體數(shù)據(jù)在 eti 內(nèi),至少需要傳輸 ni 個包。
根據(jù)業(yè)界標(biāo)準(zhǔn)[18],目前視頻錄制的幀數(shù)通常設(shè)定為至少30fps ,以確保良好的觀看體驗。以超高清(ultrahighdefini-tion,UHD)視頻為例,其碼率為 15Mbits ,根據(jù)式(4),可計算得每幀所需字節(jié)數(shù) B≈75000 。
根據(jù) 802.11協(xié)議[19],數(shù)據(jù)包的最大長度1514Byte,故傳輸30fps所需時隙數(shù) 30×75000/1514≈1487 此外,基于TDMA的WIA-FA協(xié)議[1],時隙長度為 256μs ,這意味著每秒可分配的時隙數(shù)量為 根據(jù)上述分析,為了保證用戶端的視頻體驗,在這3906個時隙中,至少需要傳輸1487個時隙的數(shù)據(jù)包,從而滿足30fps視頻質(zhì)量的要求。綜上所述,本文在媒體包傳輸?shù)慕I?,與利用幀率來刻畫視頻流暢性的方法是一致的。進一步,為了減少因連續(xù)傳輸帶來幀頭部的重復(fù)開銷,本文采用聚合的方式,使獲得的媒體數(shù)據(jù)包能夠在連續(xù)的時隙中傳輸,從而提高資源的利用率。
1.3.2媒體類型數(shù)據(jù)評價指標(biāo)
針對媒體類型數(shù)據(jù)包,定義 αi(t) 為 Di 成功交付的媒體數(shù)據(jù)包的數(shù)量,具體公式如下:
定義 βi(t) 為 Di 成功得到媒體數(shù)據(jù)包的總次數(shù),公式為
為了衡量媒體類型數(shù)據(jù)包的傳輸流暢性和穩(wěn)定性,定義包交付率(deliveryratio,DR)作為關(guān)鍵指標(biāo),具體公式如下:
1.4 問題建模
本文考慮了不同業(yè)務(wù)類型的綜合調(diào)度。在處理敏感數(shù)據(jù)時,目標(biāo)是在盡可能滿足時延要求的前提下,降低數(shù)據(jù)包的抖動。對于媒體類型數(shù)據(jù),重點是最大化包的交付率,以確保媒體流的流暢性和穩(wěn)定性。因此,在每個設(shè)備 Di 的時隙 χt 中,為了聯(lián)合度量時延、抖動和包交付率,定義時延-吞吐均衡度量指標(biāo):
其中: 是權(quán)重系數(shù),其反映了時延敏感數(shù)據(jù)的重要性。可以通過調(diào)整
的值靈活地增強對各指標(biāo)的關(guān)注。因此,本文針對綜合業(yè)務(wù)的時隙調(diào)度優(yōu)化問題的目標(biāo)函數(shù)為
其中:C1是時隙調(diào)度約束,表示每個時隙只能調(diào)度一個設(shè)備;C2是媒體類型數(shù)據(jù)的連續(xù)傳輸約束,表示在 χt 到 t+Pb(i),ni 時隙內(nèi)連續(xù)傳輸。
本文將上述多業(yè)務(wù)時隙調(diào)度問題定義為馬爾可夫決策過程,并設(shè)計了一種基于獎勵回溯的DQN綜合調(diào)度方法來解決該問題。該方法利用無模型的深度強化學(xué)習(xí),通過與環(huán)境的不斷交互,潛在地學(xué)習(xí)系統(tǒng)狀態(tài),從而獲得調(diào)度策略。
2獎勵回溯機制驅(qū)動DQN時隙調(diào)度方法
2.1 馬爾可夫決策過程
在考慮多業(yè)務(wù)調(diào)度任務(wù)時,為了實現(xiàn)系統(tǒng)動態(tài)地進行時隙調(diào)度,本研究將上述問題描述為一個馬爾可夫決策過程(Markovdecisionprocess,MDP)。該系統(tǒng)與環(huán)境進行交互,執(zhí)行不同的動作以改變自身狀態(tài),并獲得相應(yīng)的回報。通過最大化長期累加回報,能夠獲得一個有效的調(diào)度策略。該MDP過程被建模為五元組 ?S,A,R,P(s′|s,a) gt;,其中 s 是狀態(tài)空間,A是動作空間 ,R 是獎勵, P(s′|s,a) 是系統(tǒng)狀態(tài)轉(zhuǎn)移概率(策略)。更具體地說,在每個時隙 χt ,將整個系統(tǒng)視為一個代理,觀察環(huán)境的當(dāng)前狀態(tài) st ,然后根據(jù)策略 P(s′|s,a) 采取行動 at 。作為反饋,代理將獲得獎勵 rt 并轉(zhuǎn)移到新的狀態(tài) st+1 。本文詳細(xì)定義了MDP模型的三個關(guān)鍵要素:狀態(tài)、動作和獎勵。
a)狀態(tài)(state,S):在時隙 χt ,定義系統(tǒng)的狀態(tài)表示為 s(t) ,所有可能的狀態(tài)構(gòu)成狀態(tài)空間 s ,其中 狀態(tài) s(t) 包含了系統(tǒng)設(shè)備類型 xi 、設(shè)備緩沖區(qū)數(shù)據(jù)包狀態(tài)、數(shù)據(jù)包的到達時間 at 、數(shù)據(jù)包截止時間 dt 或體驗保證時隙 et 、緩沖區(qū)空閑狀況 η ,當(dāng)前時隙 χt 組成了一個 4N+1 的一維集合。
s(t)=(x,at,dt/et,η,t)
具體來說 ,x={x1,x2,…,xN},at={at1,at2,…,atN},dt/et= {dt1/et1,dt2/et2,…,dtN/etN} 。此外, η={η1,η2,…,ηN} ,若是設(shè)備 Di 緩沖區(qū)為空,則 ηi=0 ;否則為1。
b)動作 (action,A) :在優(yōu)化問題中,動作是選擇一個被調(diào)度的無線設(shè)備FD,以將其數(shù)據(jù)傳輸給 AD 。在時隙 χt ,系統(tǒng)的動作可表示為 a(t)={a1(t),a1(t),…,aN(t)} ,所有可能的狀態(tài)構(gòu)成狀態(tài)空間 A,a(t)∈A 。具體來說,設(shè)備 Di 的可調(diào)度行為被定義為 ai(t)∈{0,1} 。在時隙 χt ,如果設(shè)備 Di 被調(diào)度,那么 ai(t)=1 ;否則為 0 。
為了保證媒體類型數(shù)據(jù)的連續(xù)傳輸約束,引入了動作約束,以縮小動作空間。如果在時隙 χt ,媒體類型數(shù)據(jù)被調(diào)度傳輸,那么在 χt 到 t+Pb(i).ni 時隙內(nèi),必須重復(fù)調(diào)度該媒體類型的數(shù)據(jù)。
由上述分析可知,動作空間的維度為 2N 。隨著FD數(shù)量的增加,動作空間呈指數(shù)級增長,這導(dǎo)致傳統(tǒng)優(yōu)化方法在求解此類問題時面臨顯著挑戰(zhàn)。這些方法往往依賴于窮舉或啟發(fā)式搜索策略,難以在合理的時間內(nèi)找到有效的解。
c)獎勵(reward,R):系統(tǒng)的學(xué)習(xí)過程受到模型獎勵 R 的引導(dǎo),旨在通過與環(huán)境交互最大化自身的長期累積獎勵。針對時延敏感型數(shù)據(jù),其主要目標(biāo)是最小化時延和抖動。相對而言,對于媒體類型數(shù)據(jù),系統(tǒng)的目標(biāo)則是最大化數(shù)據(jù)包的交付率。這兩種類型的數(shù)據(jù)在傳輸策略上要求不同,因此需要采取相應(yīng)的優(yōu)化策略,以確保在動態(tài)環(huán)境中滿足各自的性能指標(biāo)。
在時隙 χt ,系統(tǒng)的獎勵記為 r(t) ,其通過狀態(tài) s(t) 執(zhí)行動作 αa(Πt) 獲得。本文的獎勵函數(shù)由系統(tǒng)獎勵 rs(t) 與設(shè)備獎勵rd(t) 組成。系統(tǒng)獎勵的設(shè)計基于原問題的目標(biāo),其具體形式為
不同于系統(tǒng)獎勵關(guān)注整體性能,設(shè)備獎勵主要針對單個設(shè)備的動作合理性提供反饋。設(shè)備獎勵的設(shè)計主要基于設(shè)備緩存區(qū)的空閑狀態(tài)以及數(shù)據(jù)的截止時間和體驗保證時間,具體形式為
其中: ωa 和 ωb 表示獎勵的權(quán)重,默認(rèn)值為1。這些權(quán)重可根據(jù)模型的訓(xùn)練進行調(diào)整。
2.2基于獎勵回溯機制的DQN
本文提出了一種基于獎勵回溯機制的DQN算法用于多業(yè)務(wù)時隙調(diào)度,其主要包括DQN和獎勵回,具體框架如圖2所示。
1)DQNDQN是基于Q-learning的擴展,它通過神經(jīng)網(wǎng)絡(luò)來逼近 Q 值函數(shù),從而避免了傳統(tǒng)Q-learning在高維空間中需要大量存儲空間的問題。Q-learning的目標(biāo)是學(xué)習(xí)一個 Q 值函數(shù) Q(s,a) ,表示在狀態(tài) s 采取動作 a 所獲得的期望回報。DQN用帶有參數(shù) θ 的深度神經(jīng)網(wǎng)絡(luò) Q(s,a;θ) 來逼近這個函數(shù)[20]。DQN中包括了主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。其中主網(wǎng)絡(luò)是DQN的核心,用于策略學(xué)習(xí)和決策。其參數(shù) θ 會在每次迭代時根據(jù)損失函數(shù)更新,輸出每個可能動作的 Q 值來指導(dǎo)行動選擇。相對地,目標(biāo)網(wǎng)絡(luò)的參數(shù) θ′ 在一定的時間間隔內(nèi)保持不變,其作用是為主網(wǎng)絡(luò)提供一個穩(wěn)定的學(xué)習(xí)目標(biāo)。具體來說,目標(biāo)網(wǎng)絡(luò)參與指導(dǎo)主網(wǎng)絡(luò)的學(xué)習(xí)過程。計算目標(biāo) Q 值時,固定使用目標(biāo)網(wǎng)絡(luò)的參數(shù)
y=r+γmaxa′Q(st+1,a′;θ′)
其中: γ 是折扣因子,用來平衡當(dāng)前和未來獎勵的相對重要性。當(dāng)折扣因子取值較大,意味著未來獎勵被賦予更高的權(quán)重,反之則更關(guān)注于當(dāng)前即時獎勵。
2)獎勵回溯在系統(tǒng)定義的動作中,媒體數(shù)據(jù)的連續(xù)傳輸特性要求長時間占用時隙資源,這可能導(dǎo)致時延敏感數(shù)據(jù)無法及時獲得所需的時隙,進而引發(fā)大量超時丟包現(xiàn)象,導(dǎo)致服務(wù)質(zhì)量下降。為解決這一問題,本文提出了一種基于獎勵回溯機制的優(yōu)化策略。該策略利用延遲反饋的思想,引人連續(xù)時隙資源分配決策的累積影響,回溯當(dāng)前狀態(tài)進行決策評估,從而實現(xiàn)資源的高效利用。不合理的調(diào)度策略引發(fā)的丟包現(xiàn)象如圖3所示,在時隙t,系統(tǒng)依據(jù)策略選擇調(diào)度媒體類型數(shù)據(jù)包,但因連續(xù)傳輸?shù)南拗?,?t+1 時隙之前未能及時調(diào)度時延敏感型數(shù)據(jù)包,最終導(dǎo)致敏感數(shù)據(jù)包的丟失。根據(jù)獎勵的定義,敏感數(shù)據(jù)丟包會降低系統(tǒng)的獎勵值 rs(t+1) ,其只將丟包的影響歸因于 t+1 時隙的交互結(jié)果,而真正問題的根源在于 χt 時隙的不合理調(diào)度策略。
本文的獎勵回溯機制是基于優(yōu)先級經(jīng)驗池實現(xiàn)的,具體過程如算法1所示。該機制通過利用未來系統(tǒng)與環(huán)境的交互結(jié)果,將獎勵反饋作用前傳至相關(guān)的歷史時隙,從而使模型能夠更加精準(zhǔn)地學(xué)習(xí),避免在狀態(tài) s(t) 時作出不合理的調(diào)度行為。為了實現(xiàn)這一機制,定義歷史經(jīng)驗數(shù)據(jù)結(jié)構(gòu)為 h(t)=(s(t)) ,a(t),r(t),s(t+1) at(t) ,priority,t)。其中priority表示歷史經(jīng)驗數(shù)據(jù)的優(yōu)先級,用于指導(dǎo)經(jīng)驗回放中的采樣過程,初始值設(shè)為0,并在后續(xù)調(diào)度過程中動態(tài)更新; at(t) 表示在 χt 時隙被調(diào)度的數(shù)據(jù)包的到達時隙。在連續(xù)傳輸媒體類型數(shù)據(jù)包的場景中,若因不合理的調(diào)度策略導(dǎo)致敏感類型數(shù)據(jù)包的丟失,系統(tǒng)需要對相關(guān)經(jīng)驗進行調(diào)整。例如,當(dāng)在時隙 χt 調(diào)度媒體類型數(shù)據(jù)包時,由于連續(xù)傳輸?shù)南拗?,模型未能及時調(diào)度時延敏感型數(shù)據(jù)包,結(jié)果在時隙 [t,t+Pb(i),ni] 內(nèi)出現(xiàn)敏感數(shù)據(jù)包的丟包事件,丟包數(shù)量為 nd 。此時,可根據(jù)媒體數(shù)據(jù)包的到達時隙,定位對應(yīng)的歷史經(jīng)驗 h(t) 并更新:
h(t)=(s(t),a(t),r(t)-ωdnd,s(t+1),at(t),priority+1,t)
在更新后的經(jīng)驗中,獎勵 r(t) 減去因丟包帶來的懲罰ωdnd,ωd 是權(quán)重系數(shù),默認(rèn)值為0.5;同時,將優(yōu)先級priority加1,確保該經(jīng)驗在回放緩沖區(qū)中被優(yōu)先采樣,使模型通過獎勵回溯機制有效學(xué)習(xí),避免在狀態(tài) s(t) 下再次產(chǎn)生類似的非優(yōu)策略。之后,刪除歷史經(jīng)驗集合 {h(t+1),…,h(t+Pb(i).ni)} 。最后, ?h(t) 被采樣訓(xùn)練后,將重置 h(t) 的優(yōu)先級為默認(rèn)值。
算法1基于優(yōu)先級經(jīng)驗池的獎勵回溯機制輸入:優(yōu)先級經(jīng)驗;系統(tǒng)信息(現(xiàn)有緩沖區(qū)數(shù)據(jù),當(dāng)前被調(diào)度的數(shù)據(jù));批量處理大小batchsize大小為 B
輸出: B 大小的訓(xùn)練樣本。
if yi(t)==1 and xi==0 then向優(yōu)先級經(jīng)驗池存儲歷史數(shù)據(jù) h(t) :
h(t)=(s(t),a(t),r(t),s(t+1) at(ξt) ,priority,t) else
if時延敏感類型出現(xiàn)丟包,數(shù)量為 nd then向優(yōu)先級經(jīng)驗池存儲歷史數(shù)據(jù) h(t) :
根據(jù)被調(diào)度數(shù)據(jù)包的 at(t) ,從經(jīng)驗池中刪除對應(yīng)的歷史經(jīng)驗else
向優(yōu)先級經(jīng)驗池存儲歷史數(shù)據(jù) h(t) :
endif
從經(jīng)驗池獲得 B 大小的訓(xùn)練樣本,優(yōu)先采樣優(yōu)先級高的經(jīng)驗數(shù)據(jù)將采樣中訓(xùn)練樣本的優(yōu)先級恢復(fù)至默認(rèn)值
end if
3)模型訓(xùn)練在訓(xùn)練過程中,DQN通過最小化損失函數(shù)L(θ) 來更新參數(shù) θL(θ) 是期望平均誤差,用于衡量當(dāng)前網(wǎng)絡(luò)預(yù)測值與期望目標(biāo)值之間的差距:
L(θθ)=E(s,a,r,s′)[θ(θy-Q(s,a;θ)θ)2]
本文設(shè)計的DQN算法如算法2所示。首先,初始化經(jīng)驗池、主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的模型參數(shù)。在每次迭代中,隨機確定工業(yè)互聯(lián)網(wǎng)設(shè)備的參數(shù)。接下來,生成一個隨機數(shù),依據(jù) ε 貪婪( ε -greedy)策略選擇動作。具體而言,模型可能選擇一個隨機動作,或者根據(jù)以下公式選擇最佳動作 a* :
再根據(jù)獎勵回溯機制更新優(yōu)先級經(jīng)驗池,并從中獲取訓(xùn)練樣本。計算損失值并通過梯度下降法[21]更新主網(wǎng)絡(luò)參數(shù) θ 周期性地,目標(biāo)網(wǎng)絡(luò)的權(quán)重將被更新為較新的主網(wǎng)絡(luò)參數(shù)。
算法2 基于獎勵回溯機制的DQN算法輸入:優(yōu)先級經(jīng)驗池大小為 D ;工業(yè)網(wǎng)絡(luò)系統(tǒng)參數(shù)(設(shè)備數(shù)量 N? 設(shè)備采樣周期、類型、時隙的數(shù)量 T 等);迭代次數(shù)episode為 E ;探索因子 ε ;批量處理大小batchsize大小為 B ;參數(shù)更新步長 C
輸出:最優(yōu)策略。
初始化:主網(wǎng)絡(luò)權(quán)重參數(shù) θ ;目標(biāo)網(wǎng)絡(luò)權(quán)重參數(shù) θ′ forepisode =1 to E do初始化系統(tǒng)狀態(tài)、獎勵、設(shè)備緩存區(qū)等系統(tǒng)參數(shù)
if yi(t-1)==1 and xi==0 and Pb(i) m≠0 thena(t)=a(t-1) else隨機生成一個隨機數(shù) z 屬于[0,1]if then隨機選擇動作 a(t) else依據(jù)argmax Q(s(t),a;θ) 獲得動作 a 執(zhí)行 a 與環(huán)境交互獲得 r(t) 和下一時刻狀態(tài) s(t+1) end ifendif算法1存儲歷史經(jīng)驗并采樣 B 大小的訓(xùn)練樣本根據(jù)式(18)計算損失函數(shù)根據(jù)梯度下降方法更新參數(shù) θ if t% C==0 then更新目標(biāo)網(wǎng)絡(luò)的參數(shù) θ′=θ (20號end ifend forend for
3 仿真結(jié)果與分析
本文設(shè)定了一個多業(yè)務(wù)需求的工業(yè)互聯(lián)網(wǎng)場景進行仿真分析。首先對所提方法的收斂性進行分析,以評估不同權(quán)重下模型性能的影響;其次,將RB-DQN與其他方法的性能進行比較。
3.1實驗設(shè)置
3.1.1 實驗數(shù)據(jù)
本文的實驗數(shù)據(jù)包含時延敏感類型和媒體類型的混合數(shù)據(jù)包,每個包依據(jù)表1中的參數(shù)隨機生成。
本文方法通過Python3.8.16以及PyTorch1.12.1開源機器學(xué)習(xí)庫實現(xiàn),模型訓(xùn)練使用NVIDIAGeForceRTX4060顯卡。模型訓(xùn)練參數(shù)如表2所示。
3.1.2 對比方案
本文將其與三種時隙調(diào)度方法進行了比較:
a)D3QN方法[22]:基于文獻[22],D3QN模型的獎勵考慮時延與可靠性,且其采用了隨機采樣的經(jīng)驗池,而未考慮獎勵回溯的機制。
b)DQN方法[15]:其與本文方法的模型參數(shù)設(shè)置一致,獎勵考慮時延與吞吐,區(qū)別在于其采用了隨機采樣的經(jīng)驗池,而未考慮獎勵回溯的機制。
c)基于EDF調(diào)度方法°:EDF常用于處理大規(guī)模數(shù)據(jù)的實時調(diào)度。其根據(jù)數(shù)據(jù)包的截止時間進行優(yōu)先級排序,優(yōu)先處理截止時間較早的任務(wù)。在本文,媒體類型的體驗保證時隙作為該數(shù)據(jù)的截止時間。
d)隨機調(diào)度方法(Random):隨機方法是一種隨機采取行動選擇的算法,通過在每個決策階段隨機地選擇動作來解決問題。
3.2 RB-DQN仿真結(jié)果與分析
1)收斂性能本文算法的收斂性能如圖4所示??梢杂^察到,在學(xué)習(xí)過程的初始階段,損失函數(shù)的值相對較高。隨著訓(xùn)練的進行,損失值逐漸降低。這種現(xiàn)象表明模型在逐步調(diào)整其參數(shù),以更好地適應(yīng)數(shù)據(jù)。當(dāng)學(xué)習(xí)達到大約2000個時隙時,損失值顯著下降至一個非常小的水平,這反映出所提方法在優(yōu)化過程中表現(xiàn)出了良好的效果。
2)不同權(quán)重系數(shù) 對算法性能的影響圖5展示了所提算法在不同權(quán)重系數(shù)下對時延、抖動和包接收率的影響。從圖中可以看出,隨著權(quán)重系數(shù)
的增大,時延和抖動都逐漸降低。這是因為算法在優(yōu)化目標(biāo)中更加關(guān)注時延和抖動,改善了這兩者的表現(xiàn)。然而,過大的權(quán)重系數(shù)
會導(dǎo)致包接收率下降,從而影響媒體的流暢性和穩(wěn)定性。因此,該圖揭示了權(quán)重系數(shù)如何影響時延、抖動和包接收率之間的關(guān)系。通過調(diào)整權(quán)重系數(shù),可以在一定程度上平衡這三者,但過大或過小的系數(shù)都可能導(dǎo)致系統(tǒng)性能下降。
3.3RB-DQN與其他算法性能對比與分析
1)不同算法LTT指標(biāo)比較圖6展示了在不同F(xiàn)D數(shù)量,所提方法與對比方法評估LTT指標(biāo)上的性能。
值得注意的是,LTT值越小,代表算法的性能越好。圖中顯示,隨著設(shè)備數(shù)量的增加,五種算法的性能均有所下降。這是因為設(shè)備數(shù)量增加導(dǎo)致調(diào)度機會相對推遲,從而影響性能表現(xiàn)。此外,本文方法在所有情況下均表現(xiàn)最優(yōu)。這表明,本文方法在調(diào)度效率上具有明顯優(yōu)勢。此外,本文方法在所有情況下均表現(xiàn)最佳,顯示出顯著的調(diào)度效率優(yōu)勢。具體而言,D3QN和DQN方法未能有效利用獎勵回溯機制,難以學(xué)習(xí)調(diào)度問題的根本原因,從而影響其性能。基于EDF的調(diào)度方法僅關(guān)注截止時間,未能綜合考慮時延敏感包和媒體類型數(shù)據(jù)的特性,因此難以保證系統(tǒng)整體性能。隨機選擇的調(diào)度方法由于其隨機性,缺乏有效的調(diào)度策略,最終導(dǎo)致性能不佳。
2)時延、抖動和包接收率為了深入分析本文算法在時延、抖動和包接收率上的性能表現(xiàn),圖7展示了不同算法在FD數(shù)量為5時的性能對比。
結(jié)果顯示,所提算法在時延和抖動方面相較于D3QN、DQN、EDF和隨機選擇方法均有顯著的提升。具體而言,所提算法在時延指標(biāo)上有效降低至1.93,明顯優(yōu)于其他算法,尤其是隨機選擇方法,其時延值高達4.87。這表明,本文算法在資源調(diào)度與決策方面具有更高的效率,能夠更有效地減少數(shù)據(jù)傳輸?shù)难舆t。此外,在抖動方面,該算法的表現(xiàn)也較為突出,其值為1.18,低于D3QN、DQN和EDF方法中的抖動值,顯示出其在穩(wěn)定性方面的優(yōu)勢。在媒體包接收率方面,本文方法的接收率高達 98% ,幾乎接近 100% 。綜上所述,本文方法能夠顯著降低時延敏感數(shù)據(jù)的時延和抖動,同時確保媒體類型數(shù)據(jù)包的傳輸流暢性和穩(wěn)定性。
4結(jié)束語
本文深入研究了在多業(yè)務(wù)需求背景下的工業(yè)網(wǎng)絡(luò)中的時隙調(diào)度問題,并提出了一種基于獎勵回溯機制的深度Q網(wǎng)絡(luò)(DQN)算法。該算法利用優(yōu)先級經(jīng)驗池實現(xiàn)獎勵回溯機制,分析了多業(yè)務(wù)之間相互影響的根源。此外,設(shè)計了一種時延-吞吐均衡度量指標(biāo),以降低時延敏感數(shù)據(jù)的延遲和抖動,并確保媒體類型數(shù)據(jù)的流暢性和穩(wěn)定性。實驗結(jié)果顯示,本文算法在性能上明顯優(yōu)于其他調(diào)度算法,有效驗證了其優(yōu)越性與有效性。展望未來,隨著工業(yè)設(shè)備數(shù)量的增加及通信資源的不足,研究將重點考慮引入資源復(fù)用機制以解決多業(yè)務(wù)調(diào)度問題。然而,資源復(fù)用的引入可能會導(dǎo)致設(shè)備間的相互干擾,因此,如何有效解決干擾問題并實現(xiàn)多需求的時隙調(diào)度將成為下一階段工作的關(guān)鍵。
參考文獻:
[1]LiangWei,ZhengMeng,ZhangJialin,etal.WIA-FAand itsapplicationstodigital factory:awirelessnetworksolution forfactoryautomation[J].ProceedingsoftheIEEE,2019,107(6):1053-1073.
[2]ChiHaoran,Wu CK,HuangNenfu,et al.A survey of networkautomationforindustrial Internet-of-thingstoward industry5.O[J]. IEEETrans on Industrial Informatics,2023,19(2):2065-2077.
[3] HussainMI,AhmedN,AhmedMZI,etal.QoSprovisioningin wireless mesh networks:asurvey[J].Wireless Personal Communications,2022,122(1):157-195.
[4]賀雪梅,匡胤,楊志鵬,等.基于深度強化學(xué)習(xí)的AGV智能導(dǎo)航 系統(tǒng)設(shè)計[J].計算機應(yīng)用研究,2022,39(5):1501-1504, 第42卷 1509.(He Xuemei,Kuang Yin,Yang Zhipeng,et al.Design of AGV inteligent navigation system based on deep reinforcement learning[J].Application Research of Computers,2022,39(5): 1501-1504,1509.)
[5]Khan WZ,Rehman MH, Zangoti HM,et al. Industrial Internet of Things:recent advances,enabling technologies and open challenges [J].Computers amp; Electrical Engineering,2020,81:106522.
[6]Nauman A, Ahmad Qadri Y,Amjad M,et al._Multimedia Internet of Things:acomprehensive survey[J]. IEEE Access,2020,8: 8202-8250.
[7]Wang Xiaodong,RenJie,Gong Kai,et al.Adelay-optimizedrouting algorithm for AVB streams in time-sensitive networking[C]// Proc of the 7th International Conference on Computerand Communication Systems.Piscataway,NJ: IEEE Press,,2022: 503-507.
[8]柴安穎,馬躍,尹震宇,等.一種基于服務(wù)區(qū)分的實時數(shù)據(jù)傳輸 調(diào)度模型研究與實現(xiàn)[J].小型微型計算機系統(tǒng),2020,41 (12):2607-2612.(Chai Anying,Ma Yue,Yin Zhenyu,et al. Research and implementationof real-timedata transmisionscheduling model based onservice diferentiation[J].Journal of Chinese Computer Systems,2020,41(12): 2607-2612.)
[9]Deng Libing,Zeng Gang,Kurachi R,et al.Enhanced real-time scheduling of AVB flowsin time-sensitivenetworking[J].ACM Trans on Design Automation of Electronic Systems, 2024,29 (2): 1-26.
[10]Pati G,Bell L L,Leonardi L.Deadline-aware online scheduling of TSN flows for automotive applications_[J]. IEEE Trans on Industrial Informatics,2023,19(4):5774-5784.
[11] Zhang Chaoyun,Patras P,Haddadi H._Deep learning in mobile and wireless networking: a survey [J]. IEEE Communications Surveysamp; Tutorials,2019,21(3): 2224-2287.
[12] Luong N C, Hoang D T, Gong Shimin,et al. Applications of deep reinforcement learning in communications and networking:asurvey [J]. IEEE Communications Surveys amp; Tutorials,2019,21(4): 3133-3174.
[13]柴浩軒,金曦,許馳,等.面向工業(yè)物聯(lián)網(wǎng)的5G機器學(xué)習(xí)研究 綜述[J].信息與控制,2023,52(3):257-276.(Chai Haoxuan, JinXi,Xu Chi,etal.Reviewofmachinelearning-based5G forindustrial Internet of Things[J].Information and Control,2023,52 (3) : 257-276.)
[14]Tian Jie,Liu Qianqian, Zhang Haixia,et al.Multiagent deepreinforcement-learning-based resource allcation for heterogeneous QoS guarantees for vehicular networks [J]. IEEE Internet of Things Joumal,2022,9(3):1683-1695.
[15]楊桂松,李相霏,何杏宇.衛(wèi)星物聯(lián)網(wǎng)中面向多類型任務(wù)的計算 卸載策略[J].計算機應(yīng)用研究,2024,41(11):3441-3446. (Yang Guisong,Li Xiangfei, He Xingyu. Computing offloading strategy for multi-type tasks in satelite Internet of Things[J]. Application Research of Computers,2024,41(11):3441-3446.)
[16]Mollahasani S,Erol-Kantarci M,Hirab M,etal.Actor-critic learning based QoS-aware scheduler for reconfigurable wireless networks [J].IEEE Trans on Network Science and Engineering,2022, 9(1) : 45-54.
[17]劉星彤,鄭紅,黃建華,一種改進近端優(yōu)化的多目標(biāo)流QoS調(diào)度 策略[J].應(yīng)用科學(xué)學(xué)報,2024,42(3):499-512.(Liu Xingtong,Zheng Hong,Huang Jianhua. A multi-objective flow QoS scheduling strategywith improved proximal optimization[J].Journal of Applied Sciences,2024,42(3): 499-512.)
[18] Shahjalal M, Hasan M K, Chowdhury M Z, et al. Smartphone camera based optical wirelesscommunication system:requirements and implementationchallenges[J].Electronics,2019,8(8):913.
[19] IEEE 802.11—2012,IEEE standard for local and metropolitan area networks-part 11:wirelessLAN medium access control(MAC)and physical layer (PHY)[S]. 2012.
[20]Li Hongjia,Wei Tianshu,Ren Ao,et al.Deep reinforcement learning:framework,applications,and embedded implementations:invited paper[C]//Proc of IEEE/ACM International Conference on Computer-Aided Design. Piscataway,NJ: IEEE Press,2017: 847-854.
[21] Kingma D P, Ba J,Hammad M M.Adam: a method for stochastic optimization [EB/OL]. (2014-12- 22).https://arxiv.org/abs/ 1412. 6980.
[22]Xie Xin,Gao Shizhao,Wang Heng.Scheduling approaches for joint optimization of age and delay in industrial wireless networks[J]. IEEE Trans on Industrial Informatics,2024,20(5): 7183-7193.