邵瑞宇 ,黎智雄,任瑾璇
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣州 510006)
工業(yè)物聯(lián)網(wǎng)(Industrial Internet of Things,IIoT),又稱為工業(yè)4.0或工業(yè)互聯(lián)網(wǎng),可以應(yīng)用于互聯(lián)網(wǎng)一些工業(yè)領(lǐng)域,比如能源、交通和制造業(yè)。隨著工業(yè)數(shù)據(jù)的快速增長(zhǎng),工業(yè)數(shù)據(jù)倉庫正在進(jìn)入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)傳輸需要更大的帶寬[1]。然而有限的連接始終限制了信息網(wǎng)絡(luò)的發(fā)展,并且由于設(shè)備的傳感器數(shù)量過多,導(dǎo)致彼此之間的通信過于頻繁,一種兼顧霧計(jì)算和網(wǎng)絡(luò)功能虛擬化的物聯(lián)網(wǎng)邏輯架構(gòu)應(yīng)運(yùn)而生[2-3]。為了突破這些限制,霧計(jì)算被集成到IIoT中,這將有可能解決資源受限的工業(yè)設(shè)備和計(jì)算密集型應(yīng)用之間的矛盾[4-5]。
現(xiàn)有的頻譜分配問題研究中,很多智能體無法獲得系統(tǒng)整個(gè)完整信息,都是基于部分可觀察馬爾科夫決策過程理論,導(dǎo)致智能體在計(jì)算最優(yōu)策略時(shí)變得非常棘手[6]。在文獻(xiàn)[7-8]及其參考文獻(xiàn)中,都是在一個(gè)多武裝強(qiáng)盜(Multi-armed Bandit Problem)條件環(huán)境上利用其算法尋求一個(gè)短期策略,這種策略只是取決于收集過去的一小段時(shí)間所獲得的獎(jiǎng)勵(lì),而缺陷是當(dāng)預(yù)測(cè)點(diǎn)與依賴的相關(guān)信息距離比較遠(yuǎn)的時(shí)候,就難以學(xué)到相關(guān)信息。
近年來,深度強(qiáng)化學(xué)習(xí)中的Deep Q-Learning (DQN)的收斂性能得到了大家的認(rèn)可。這種算法是在文獻(xiàn)[9]中被提出的,它結(jié)合了強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),利用多層的神經(jīng)元構(gòu)建更加抽象的數(shù)據(jù)表達(dá),使得人工神經(jīng)網(wǎng)絡(luò)可以直接從輸入數(shù)據(jù)中獲得物體信息。在Atari2600平臺(tái)上進(jìn)行的測(cè)試表明,在沒有借助其他方法獲得先驗(yàn)知識(shí)的情況下,49個(gè)游戲中43個(gè)游戲都可以達(dá)到人類分?jǐn)?shù)的75%。
面臨著5G時(shí)代的到來,工業(yè)物聯(lián)網(wǎng)將會(huì)成為未來的趨勢(shì),而其中頻譜資源的管理和分配成為關(guān)鍵問題。動(dòng)態(tài)頻譜的接入(Dynamic Spectrum Access,DSA)分為底層訪問和覆蓋訪問。底層訪問模式[10]利用算法來讓次用戶通過調(diào)整傳輸功率,在不影響主用戶服務(wù)質(zhì)量(Quality of Service,QoS)的情況下接入信道,把次用戶對(duì)主用戶的干擾降到最低,從而提高頻譜的利用率。而覆蓋訪問[11]相比底層訪問而言需要算法考慮何時(shí)進(jìn)行主、次用戶的接入,怎樣才能實(shí)現(xiàn)兩者信道分配的平衡,以至于所獲得的收益最大,策略最優(yōu)。
本文主要研究信道的爭(zhēng)用問題,提出了一種多跳的聚類模式、“合作計(jì)算”的模式以及動(dòng)態(tài)頻譜接入相結(jié)合的策略。首先,設(shè)計(jì)了一種多跳的聚類模式,在保證信息傳達(dá)效率的同時(shí)減少了頻譜通信的數(shù)量。其次,設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)頻譜的訪問算法,通過過去的策略、獎(jiǎng)勵(lì)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而讓用戶學(xué)會(huì)如何更好地獲得獎(jiǎng)勵(lì),即減少信道的爭(zhēng)搶。最后,針對(duì)某些用戶沒有足夠的計(jì)算能力來實(shí)現(xiàn)分配算法,根據(jù)多跳聚類分組模式,可以借助同組的次用戶的計(jì)算能力進(jìn)行一個(gè)“合作計(jì)算”。
假設(shè)在一個(gè)大型的工業(yè)物聯(lián)網(wǎng)中,某些設(shè)備(以下簡(jiǎn)稱為用戶)需要和其他用戶進(jìn)行通信??梢园汛诉^程分為三個(gè)子問題:一是從源節(jié)點(diǎn)(需要發(fā)送信息的用戶)如何能夠經(jīng)過更少的中繼節(jié)點(diǎn)(中間轉(zhuǎn)發(fā)的用戶)轉(zhuǎn)發(fā)信息到目標(biāo)節(jié)點(diǎn)(接受信息的用戶),從而選出一條最優(yōu)路徑;二是有限的頻譜資源可能會(huì)導(dǎo)致信道缺少,用戶之間彼此爭(zhēng)搶信道,因此設(shè)計(jì)了一種最優(yōu)的深度強(qiáng)化學(xué)習(xí)策略來減少用戶對(duì)于信道的碰撞以及提高通信概率;三是由于某些用戶沒有足夠的計(jì)算能力去達(dá)到算法的計(jì)算要求,則這些用戶可以借助同一個(gè)分組的次用戶的能力,從而達(dá)到一種合作計(jì)算的效果。
針對(duì)以上問題,我們提出了一種新的基于深度強(qiáng)化學(xué)習(xí)的頻譜分配算法——合作式動(dòng)態(tài)分組的頻譜分配算法(Dynamic Grouping Based on Cooperation for Spectrum Access,DGC)。該算法首先使用深度強(qiáng)化學(xué)習(xí)的方法為物聯(lián)網(wǎng)中所有需要發(fā)送信息的用戶進(jìn)行一個(gè)相似性分組,確保分組模式是中斷概率最低的模式;然后選擇發(fā)送信息的最優(yōu)策略,使得信道的利用率提升;最后,針對(duì)某些用戶本身計(jì)算能力的不足,可以讓同組空閑用戶幫忙計(jì)算策略,之后把計(jì)算后的策略發(fā)送回來,從而達(dá)到合作計(jì)算的目的。算法流程如圖1所示。
圖1 DGC算法流程圖
現(xiàn)有的關(guān)于中繼和頻譜資源的分配算法大多數(shù)都是針對(duì)單個(gè)用戶或者單跳而言的,而本文多跳算法是基于多個(gè)用戶之間快速穩(wěn)定的多次跳躍,在中斷概率最小的分組模式下完成通信。整體的分組協(xié)議可以分成兩部分:首先根據(jù)相似性公式把整體用戶按照1個(gè)主用戶、3個(gè)次用戶一組的模式進(jìn)行分組,然后,若源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)處于同組內(nèi),則能直接通信,通信直接完成;若不在同組內(nèi),需要通信時(shí),則源節(jié)點(diǎn)先把信息轉(zhuǎn)發(fā)給同組的中心節(jié)點(diǎn),由中心節(jié)點(diǎn)跨組連接,最終完成通信。
協(xié)議的假設(shè)和原則如下:
(1)物聯(lián)網(wǎng)設(shè)備能夠通過本身的感應(yīng)設(shè)備感應(yīng)到周圍所存在的設(shè)備信息,并且確定源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的方向;
(2)當(dāng)源節(jié)點(diǎn)需要向其他組節(jié)點(diǎn)發(fā)送信息時(shí),可以通過同一組的中心節(jié)點(diǎn)作為中繼節(jié)點(diǎn),通過中繼節(jié)點(diǎn)轉(zhuǎn)發(fā)信息;
(3)兩個(gè)分組之間避免廣播風(fēng)暴,只能通過中心節(jié)點(diǎn)進(jìn)行連接通信。
假設(shè)三維空間當(dāng)中擁有10個(gè)節(jié)點(diǎn),如果相互彼此之間都能進(jìn)行通信,那么將會(huì)導(dǎo)致信道嚴(yán)重不足??梢詫?0個(gè)節(jié)點(diǎn)彼此之間制定一個(gè)新的連接協(xié)議,而不在協(xié)議內(nèi)的節(jié)點(diǎn)無法通信。與此同時(shí),需要保證有些節(jié)點(diǎn)彼此之間雖不能直接進(jìn)行通信,但是通過多跳的方式能夠從源節(jié)點(diǎn)經(jīng)過中繼節(jié)點(diǎn),最終能到達(dá)目標(biāo)節(jié)點(diǎn)。所以如何能夠更快并且更穩(wěn)定地選擇中心節(jié)點(diǎn)是面臨的挑戰(zhàn)。
圖2表示的是一個(gè)500 m×900 m×900 m的三維空間,總共有10個(gè)節(jié)點(diǎn),其中標(biāo)有紅色字體的2、3、4、5、9等5個(gè)點(diǎn)是5個(gè)組之間的中心節(jié)點(diǎn),5個(gè)組分別為{5:[4,9,6],4:[2,5,0],2:[3,7,8],3:[1,7,0],9:[4,0,1]},其中5代表的是中心節(jié)點(diǎn),5、4、9、6屬于同一分組,當(dāng)5、4、9、6等4個(gè)節(jié)點(diǎn)需要相互通信時(shí),可以直接通信。但是,當(dāng)4、9、6節(jié)點(diǎn)需要和其他組節(jié)點(diǎn)通信連接時(shí),都必須通過中心節(jié)點(diǎn)5進(jìn)行信息轉(zhuǎn)發(fā)。
圖2 三維立體系統(tǒng)模型
根據(jù)工業(yè)物聯(lián)網(wǎng)的空間分布模型,除了將三維空間的位置點(diǎn)坐標(biāo)考慮進(jìn)去,還要考慮機(jī)器的上空包含無人機(jī)這種可移動(dòng)的分配用戶,所以加入了用戶可能移動(dòng)的方向(前、后、左、右),結(jié)合歐幾里德(Euclidean)度量公式有
(1)
式中:(x,y,z)分別代表節(jié)點(diǎn)k和節(jié)點(diǎn)i的三維坐標(biāo),Vk、Vi分別表示k節(jié)點(diǎn)和i節(jié)點(diǎn)的速度,tk、ti分別表示k節(jié)點(diǎn)和i節(jié)點(diǎn)的運(yùn)動(dòng)方向,K1、K2、K3分別表示系統(tǒng)針對(duì)節(jié)點(diǎn)的速度、運(yùn)動(dòng)方向以及三維距離的影響因子。
為了找出最優(yōu)策略,除了考慮位置、速度和運(yùn)動(dòng)方向的因素,還應(yīng)該考慮不同分組模式下網(wǎng)絡(luò)中斷概率也不相同,因此需要選取中斷概率最小的中繼連接模式才能達(dá)到最優(yōu)。
由香農(nóng)公式可知,網(wǎng)絡(luò)吞吐量可以表示為
C=ωlb(1+SNR) ,
(2)
(3)
即
(4)
式中:ω為頻譜帶寬,SNR為網(wǎng)絡(luò)信噪比,P為傳輸功率,h為信道增益,N為噪聲功率譜密度,W為帶寬,τ表示與物理層編碼調(diào)制關(guān)聯(lián)的冗余量。
而網(wǎng)絡(luò)中斷一般出現(xiàn)在現(xiàn)有的信息傳輸速率達(dá)不到節(jié)點(diǎn)連接之間的最低速率,也就是網(wǎng)絡(luò)的信噪比低于最低信噪比的閾值,從而導(dǎo)致網(wǎng)絡(luò)連接中斷。假設(shè)網(wǎng)絡(luò)要求的信息傳輸速率最低為α,網(wǎng)絡(luò)的瞬時(shí)信噪比為β,則網(wǎng)絡(luò)的瞬時(shí)信息速率可表示為
C(β)=ωlb(1+β) ,
(5)
則網(wǎng)絡(luò)的中斷概率為
Poff=P{C(β)