亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的工業(yè)物聯(lián)網(wǎng)多用戶頻譜分配 *

        2021-07-02 02:40:12邵瑞宇黎智雄任瑾璇
        電訊技術(shù) 2021年6期
        關(guān)鍵詞:同組中斷計(jì)算能力

        邵瑞宇 ,黎智雄,任瑾璇

        (廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣州 510006)

        0 引 言

        工業(yè)物聯(lián)網(wǎng)(Industrial Internet of Things,IIoT),又稱為工業(yè)4.0或工業(yè)互聯(lián)網(wǎng),可以應(yīng)用于互聯(lián)網(wǎng)一些工業(yè)領(lǐng)域,比如能源、交通和制造業(yè)。隨著工業(yè)數(shù)據(jù)的快速增長(zhǎng),工業(yè)數(shù)據(jù)倉庫正在進(jìn)入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)傳輸需要更大的帶寬[1]。然而有限的連接始終限制了信息網(wǎng)絡(luò)的發(fā)展,并且由于設(shè)備的傳感器數(shù)量過多,導(dǎo)致彼此之間的通信過于頻繁,一種兼顧霧計(jì)算和網(wǎng)絡(luò)功能虛擬化的物聯(lián)網(wǎng)邏輯架構(gòu)應(yīng)運(yùn)而生[2-3]。為了突破這些限制,霧計(jì)算被集成到IIoT中,這將有可能解決資源受限的工業(yè)設(shè)備和計(jì)算密集型應(yīng)用之間的矛盾[4-5]。

        現(xiàn)有的頻譜分配問題研究中,很多智能體無法獲得系統(tǒng)整個(gè)完整信息,都是基于部分可觀察馬爾科夫決策過程理論,導(dǎo)致智能體在計(jì)算最優(yōu)策略時(shí)變得非常棘手[6]。在文獻(xiàn)[7-8]及其參考文獻(xiàn)中,都是在一個(gè)多武裝強(qiáng)盜(Multi-armed Bandit Problem)條件環(huán)境上利用其算法尋求一個(gè)短期策略,這種策略只是取決于收集過去的一小段時(shí)間所獲得的獎(jiǎng)勵(lì),而缺陷是當(dāng)預(yù)測(cè)點(diǎn)與依賴的相關(guān)信息距離比較遠(yuǎn)的時(shí)候,就難以學(xué)到相關(guān)信息。

        近年來,深度強(qiáng)化學(xué)習(xí)中的Deep Q-Learning (DQN)的收斂性能得到了大家的認(rèn)可。這種算法是在文獻(xiàn)[9]中被提出的,它結(jié)合了強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),利用多層的神經(jīng)元構(gòu)建更加抽象的數(shù)據(jù)表達(dá),使得人工神經(jīng)網(wǎng)絡(luò)可以直接從輸入數(shù)據(jù)中獲得物體信息。在Atari2600平臺(tái)上進(jìn)行的測(cè)試表明,在沒有借助其他方法獲得先驗(yàn)知識(shí)的情況下,49個(gè)游戲中43個(gè)游戲都可以達(dá)到人類分?jǐn)?shù)的75%。

        面臨著5G時(shí)代的到來,工業(yè)物聯(lián)網(wǎng)將會(huì)成為未來的趨勢(shì),而其中頻譜資源的管理和分配成為關(guān)鍵問題。動(dòng)態(tài)頻譜的接入(Dynamic Spectrum Access,DSA)分為底層訪問和覆蓋訪問。底層訪問模式[10]利用算法來讓次用戶通過調(diào)整傳輸功率,在不影響主用戶服務(wù)質(zhì)量(Quality of Service,QoS)的情況下接入信道,把次用戶對(duì)主用戶的干擾降到最低,從而提高頻譜的利用率。而覆蓋訪問[11]相比底層訪問而言需要算法考慮何時(shí)進(jìn)行主、次用戶的接入,怎樣才能實(shí)現(xiàn)兩者信道分配的平衡,以至于所獲得的收益最大,策略最優(yōu)。

        本文主要研究信道的爭(zhēng)用問題,提出了一種多跳的聚類模式、“合作計(jì)算”的模式以及動(dòng)態(tài)頻譜接入相結(jié)合的策略。首先,設(shè)計(jì)了一種多跳的聚類模式,在保證信息傳達(dá)效率的同時(shí)減少了頻譜通信的數(shù)量。其次,設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)動(dòng)態(tài)頻譜的訪問算法,通過過去的策略、獎(jiǎng)勵(lì)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而讓用戶學(xué)會(huì)如何更好地獲得獎(jiǎng)勵(lì),即減少信道的爭(zhēng)搶。最后,針對(duì)某些用戶沒有足夠的計(jì)算能力來實(shí)現(xiàn)分配算法,根據(jù)多跳聚類分組模式,可以借助同組的次用戶的計(jì)算能力進(jìn)行一個(gè)“合作計(jì)算”。

        1 合作式動(dòng)態(tài)分組的算法系統(tǒng)模型

        假設(shè)在一個(gè)大型的工業(yè)物聯(lián)網(wǎng)中,某些設(shè)備(以下簡(jiǎn)稱為用戶)需要和其他用戶進(jìn)行通信??梢园汛诉^程分為三個(gè)子問題:一是從源節(jié)點(diǎn)(需要發(fā)送信息的用戶)如何能夠經(jīng)過更少的中繼節(jié)點(diǎn)(中間轉(zhuǎn)發(fā)的用戶)轉(zhuǎn)發(fā)信息到目標(biāo)節(jié)點(diǎn)(接受信息的用戶),從而選出一條最優(yōu)路徑;二是有限的頻譜資源可能會(huì)導(dǎo)致信道缺少,用戶之間彼此爭(zhēng)搶信道,因此設(shè)計(jì)了一種最優(yōu)的深度強(qiáng)化學(xué)習(xí)策略來減少用戶對(duì)于信道的碰撞以及提高通信概率;三是由于某些用戶沒有足夠的計(jì)算能力去達(dá)到算法的計(jì)算要求,則這些用戶可以借助同一個(gè)分組的次用戶的能力,從而達(dá)到一種合作計(jì)算的效果。

        針對(duì)以上問題,我們提出了一種新的基于深度強(qiáng)化學(xué)習(xí)的頻譜分配算法——合作式動(dòng)態(tài)分組的頻譜分配算法(Dynamic Grouping Based on Cooperation for Spectrum Access,DGC)。該算法首先使用深度強(qiáng)化學(xué)習(xí)的方法為物聯(lián)網(wǎng)中所有需要發(fā)送信息的用戶進(jìn)行一個(gè)相似性分組,確保分組模式是中斷概率最低的模式;然后選擇發(fā)送信息的最優(yōu)策略,使得信道的利用率提升;最后,針對(duì)某些用戶本身計(jì)算能力的不足,可以讓同組空閑用戶幫忙計(jì)算策略,之后把計(jì)算后的策略發(fā)送回來,從而達(dá)到合作計(jì)算的目的。算法流程如圖1所示。

        圖1 DGC算法流程圖

        1.1 聚類分組多跳系統(tǒng)模型

        現(xiàn)有的關(guān)于中繼和頻譜資源的分配算法大多數(shù)都是針對(duì)單個(gè)用戶或者單跳而言的,而本文多跳算法是基于多個(gè)用戶之間快速穩(wěn)定的多次跳躍,在中斷概率最小的分組模式下完成通信。整體的分組協(xié)議可以分成兩部分:首先根據(jù)相似性公式把整體用戶按照1個(gè)主用戶、3個(gè)次用戶一組的模式進(jìn)行分組,然后,若源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)處于同組內(nèi),則能直接通信,通信直接完成;若不在同組內(nèi),需要通信時(shí),則源節(jié)點(diǎn)先把信息轉(zhuǎn)發(fā)給同組的中心節(jié)點(diǎn),由中心節(jié)點(diǎn)跨組連接,最終完成通信。

        協(xié)議的假設(shè)和原則如下:

        (1)物聯(lián)網(wǎng)設(shè)備能夠通過本身的感應(yīng)設(shè)備感應(yīng)到周圍所存在的設(shè)備信息,并且確定源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的方向;

        (2)當(dāng)源節(jié)點(diǎn)需要向其他組節(jié)點(diǎn)發(fā)送信息時(shí),可以通過同一組的中心節(jié)點(diǎn)作為中繼節(jié)點(diǎn),通過中繼節(jié)點(diǎn)轉(zhuǎn)發(fā)信息;

        (3)兩個(gè)分組之間避免廣播風(fēng)暴,只能通過中心節(jié)點(diǎn)進(jìn)行連接通信。

        假設(shè)三維空間當(dāng)中擁有10個(gè)節(jié)點(diǎn),如果相互彼此之間都能進(jìn)行通信,那么將會(huì)導(dǎo)致信道嚴(yán)重不足??梢詫?0個(gè)節(jié)點(diǎn)彼此之間制定一個(gè)新的連接協(xié)議,而不在協(xié)議內(nèi)的節(jié)點(diǎn)無法通信。與此同時(shí),需要保證有些節(jié)點(diǎn)彼此之間雖不能直接進(jìn)行通信,但是通過多跳的方式能夠從源節(jié)點(diǎn)經(jīng)過中繼節(jié)點(diǎn),最終能到達(dá)目標(biāo)節(jié)點(diǎn)。所以如何能夠更快并且更穩(wěn)定地選擇中心節(jié)點(diǎn)是面臨的挑戰(zhàn)。

        圖2表示的是一個(gè)500 m×900 m×900 m的三維空間,總共有10個(gè)節(jié)點(diǎn),其中標(biāo)有紅色字體的2、3、4、5、9等5個(gè)點(diǎn)是5個(gè)組之間的中心節(jié)點(diǎn),5個(gè)組分別為{5:[4,9,6],4:[2,5,0],2:[3,7,8],3:[1,7,0],9:[4,0,1]},其中5代表的是中心節(jié)點(diǎn),5、4、9、6屬于同一分組,當(dāng)5、4、9、6等4個(gè)節(jié)點(diǎn)需要相互通信時(shí),可以直接通信。但是,當(dāng)4、9、6節(jié)點(diǎn)需要和其他組節(jié)點(diǎn)通信連接時(shí),都必須通過中心節(jié)點(diǎn)5進(jìn)行信息轉(zhuǎn)發(fā)。

        圖2 三維立體系統(tǒng)模型

        根據(jù)工業(yè)物聯(lián)網(wǎng)的空間分布模型,除了將三維空間的位置點(diǎn)坐標(biāo)考慮進(jìn)去,還要考慮機(jī)器的上空包含無人機(jī)這種可移動(dòng)的分配用戶,所以加入了用戶可能移動(dòng)的方向(前、后、左、右),結(jié)合歐幾里德(Euclidean)度量公式有

        (1)

        式中:(x,y,z)分別代表節(jié)點(diǎn)k和節(jié)點(diǎn)i的三維坐標(biāo),Vk、Vi分別表示k節(jié)點(diǎn)和i節(jié)點(diǎn)的速度,tk、ti分別表示k節(jié)點(diǎn)和i節(jié)點(diǎn)的運(yùn)動(dòng)方向,K1、K2、K3分別表示系統(tǒng)針對(duì)節(jié)點(diǎn)的速度、運(yùn)動(dòng)方向以及三維距離的影響因子。

        為了找出最優(yōu)策略,除了考慮位置、速度和運(yùn)動(dòng)方向的因素,還應(yīng)該考慮不同分組模式下網(wǎng)絡(luò)中斷概率也不相同,因此需要選取中斷概率最小的中繼連接模式才能達(dá)到最優(yōu)。

        由香農(nóng)公式可知,網(wǎng)絡(luò)吞吐量可以表示為

        C=ωlb(1+SNR) ,

        (2)

        (3)

        (4)

        式中:ω為頻譜帶寬,SNR為網(wǎng)絡(luò)信噪比,P為傳輸功率,h為信道增益,N為噪聲功率譜密度,W為帶寬,τ表示與物理層編碼調(diào)制關(guān)聯(lián)的冗余量。

        而網(wǎng)絡(luò)中斷一般出現(xiàn)在現(xiàn)有的信息傳輸速率達(dá)不到節(jié)點(diǎn)連接之間的最低速率,也就是網(wǎng)絡(luò)的信噪比低于最低信噪比的閾值,從而導(dǎo)致網(wǎng)絡(luò)連接中斷。假設(shè)網(wǎng)絡(luò)要求的信息傳輸速率最低為α,網(wǎng)絡(luò)的瞬時(shí)信噪比為β,則網(wǎng)絡(luò)的瞬時(shí)信息速率可表示為

        C(β)=ωlb(1+β) ,

        (5)

        則網(wǎng)絡(luò)的中斷概率為

        Poff=P{C(β)

        {ωlb(1+β)

        (6)

        式中:P(β)是關(guān)于β的概率密度函數(shù)。如果信道滿足Rayleigh衰落分布,假設(shè)信道衰弱后的信噪比為σ,則傳輸信道的瞬時(shí)信噪比β滿足如下指數(shù)分布:

        (7)

        所以中斷概率為

        (8)

        用戶數(shù)量為M,信道為N,考慮中繼的譯碼的前傳通信方式,則節(jié)點(diǎn)Mt選擇中繼Mi進(jìn)行通信時(shí)的信噪比為

        (9)

        將其代入中斷概率公式,有

        (10)

        根據(jù)上式可得

        (11)

        φ=F(hmt,hmi)×SNR。

        (12)

        式中:F(hmt,hmi)可以等效成系統(tǒng)整體的信道增益,而系統(tǒng)信噪比SNR=P/(τNW),其中P等效為系統(tǒng)整體的發(fā)送功率。由此可得中斷概率與φ成反比,如果需要數(shù)據(jù)傳輸時(shí)候的中斷概率達(dá)到最小,此時(shí)兩者乘積應(yīng)實(shí)現(xiàn)最大。所以該算法的目的是以最快的速度選擇出中斷概率最小的分組模式。

        1.2 動(dòng)態(tài)頻譜接入系統(tǒng)模型

        在工業(yè)物聯(lián)網(wǎng)環(huán)境當(dāng)中,即使使用了分組的方式去減少整體環(huán)境的頻譜連接量,但是同組之間的通信順序以及不同組之間的連接仍然存在信道選擇的沖突,因此提出了基于聚類分組模式的深度強(qiáng)化學(xué)習(xí)的分配方法,我們將該算法稱為合作式動(dòng)態(tài)頻譜分配方法。

        算法的最終目的是為了讓不同用戶之間彼此能互相感知周圍用戶選擇的信道,盡量避免信道沖突。該分配方法不僅能解決多用戶之間信道占用的關(guān)系,并且還能對(duì)用戶進(jìn)行分組,當(dāng)次用戶的計(jì)算能力不足時(shí)可以借助同組的次用戶進(jìn)行一個(gè)合作式計(jì)算。

        假設(shè)存在一組需要發(fā)送信息的用戶U={ 1,2,…,U}和一組正交的信道C={1,2,…,C},用戶可以隨意選擇一個(gè)信道進(jìn)行接入并且完成通信,在每一次迭代過程中用戶可以自由選擇信道切換或者繼續(xù)占用該信道。每個(gè)信道只能任由一個(gè)用戶進(jìn)行占用,如果兩個(gè)用戶同時(shí)占用,則會(huì)發(fā)生信道的碰撞,發(fā)生碰撞的用戶都將對(duì)該信道的占用失敗。當(dāng)C≥U時(shí),頻譜信道足夠多,用戶之間不會(huì)發(fā)生爭(zhēng)搶,每個(gè)用戶的通信一定成功;反之會(huì)發(fā)生通信碰撞,相互碰撞的用戶占用信道都將失敗,所以主要針對(duì)用戶數(shù)量大于信道數(shù)量進(jìn)行實(shí)驗(yàn)。

        假設(shè)整個(gè)系統(tǒng)擁有U個(gè)用戶,其中主用戶用P={p1,p2,…,pm}表示,次用戶用I={i1,i2,…,in}表示,m+n等于U。每個(gè)分組都包含了1個(gè)主用戶和最多3個(gè)次用戶,同一個(gè)分組采用{pm:ia,ib,ic}集合的方式表示,ia、ib、ic表示和pm主用戶位于同一個(gè)分組的次用戶。

        當(dāng)某個(gè)次用戶的計(jì)算無法滿足任務(wù)需求時(shí),主用戶可以感知自己同組內(nèi)的次用戶是否處于空閑狀態(tài),具體表達(dá)式為

        Hm=[ha,hb,hc] 。

        (13)

        式中:Hm表示第m個(gè)主用戶能感知的次用戶是否處于空閑狀態(tài)。當(dāng)ha=0時(shí),代表了次用戶a處于空閑狀態(tài),可以將計(jì)算能力借助給同組內(nèi)需要的用戶;當(dāng)ha=1時(shí),代表了次用戶a處于忙碌狀態(tài),不能將計(jì)算能力借助給同組內(nèi)需要的用戶。當(dāng)次用戶a計(jì)算量不能滿足任務(wù)需求時(shí),成功借助次用戶b的計(jì)算能力,此時(shí)b會(huì)返回一個(gè)ξ1信號(hào)告知a是否借用成功,其具體表達(dá)式為

        (14)

        當(dāng)用戶能自己完成計(jì)算量,成功接入信道后,成功發(fā)送信息到目標(biāo)用戶時(shí),目標(biāo)用戶同時(shí)會(huì)返回一個(gè)ξ2的信號(hào),具體表達(dá)式為

        (15)

        第一種情況,當(dāng)源節(jié)點(diǎn)用戶需要通信目標(biāo)用戶時(shí),如果源節(jié)點(diǎn)目標(biāo)用戶恰好在同組內(nèi),那么源節(jié)點(diǎn)用戶將直接通過中心節(jié)點(diǎn)對(duì)目標(biāo)用戶進(jìn)行通信,目標(biāo)用戶接收到信息后,將發(fā)送ξ2信號(hào)給源節(jié)點(diǎn)用戶,源節(jié)點(diǎn)用戶將獲得獎(jiǎng)勵(lì)。第二種情況,當(dāng)源節(jié)點(diǎn)用戶和目標(biāo)用戶不在同一組時(shí),將會(huì)由算法找出中斷概率最小的發(fā)送路徑發(fā)送至目標(biāo)用戶,此時(shí)目標(biāo)用戶也將得到獎(jiǎng)勵(lì)。第三種情況,當(dāng)源節(jié)點(diǎn)用戶本身沒有足夠的計(jì)算能力去計(jì)算分配方案,則它可以感知同組內(nèi)的節(jié)點(diǎn)狀態(tài),找出暫時(shí)沒有任務(wù)的節(jié)點(diǎn),通過中央節(jié)點(diǎn)發(fā)送信息至同組內(nèi)其他的次用戶,讓其他次用戶進(jìn)行合作計(jì)算,此時(shí)計(jì)算的次用戶將發(fā)送ξ1信號(hào)給源節(jié)點(diǎn)用戶,源節(jié)點(diǎn)用戶也將得到獎(jiǎng)勵(lì)。為了方便模擬合作計(jì)算的場(chǎng)景,在初始化8個(gè)用戶的時(shí)候,對(duì)節(jié)點(diǎn)的計(jì)算能力進(jìn)行一個(gè)1~5數(shù)值的隨機(jī)獲取,以此來代表計(jì)算能力,當(dāng)節(jié)點(diǎn)計(jì)算數(shù)值小于2的時(shí)候,說明需要借助同組次用戶的計(jì)算能力。

        每個(gè)用戶每一幀能夠自主選擇接入信道的動(dòng)作,其中動(dòng)作空間為a∈{0,1,2,…,C},當(dāng)au(t)=0時(shí),代表用戶u在t時(shí)刻沒有選擇信道;當(dāng)au(t)=C時(shí),代表用戶u在t時(shí)刻選擇信道C。而針對(duì)每個(gè)信道的占用狀態(tài),其表達(dá)式為

        φt={φ1,φ2,…,φc} 。

        (16)

        當(dāng)信道C被占用時(shí),φc=1;反之,則φc=0。用戶可以根據(jù)自己現(xiàn)在所處狀態(tài)來確定下一時(shí)刻的發(fā)送動(dòng)作,每個(gè)用戶u在t時(shí)刻所處狀態(tài)可以用Su(t)表示,其表達(dá)式為

        Su(t)={au(t),φt,Hm,ξ1,ξ2} 。

        (17)

        當(dāng)用戶數(shù)量大于信道數(shù)量時(shí),此時(shí)用戶彼此之間對(duì)信道有爭(zhēng)搶。用戶m在t時(shí)刻切換信道過程中,允許用戶在此時(shí)刻不發(fā)送信息,此時(shí)am(t)=0。定義一個(gè)位于時(shí)間序列下的累積獎(jiǎng)勵(lì),其表達(dá)式為

        (18)

        式中:ξ2=1,指的是用戶信息成功發(fā)送給目標(biāo)用戶,而第二個(gè)條件是指用戶信息沒有選擇信道發(fā)送,然而其他信道的占用率為百分百,雖然該用戶沒有成功發(fā)送信息,但是針對(duì)整個(gè)系統(tǒng)而言,其不發(fā)送導(dǎo)致了整體信道的碰撞降低,從而使得其他用戶能輕易地接入信道,所以針對(duì)這種情況需要給予一定的獎(jiǎng)勵(lì)。Θ遠(yuǎn)小于κ,這是為了防止后期系統(tǒng)中越來越多的用戶即使不占用信道也可能獲得較高獎(jiǎng)勵(lì)情況的發(fā)生。

        如圖3所示,S1到Sn代表了每個(gè)用戶在同一時(shí)刻的不同狀態(tài)值Su(t)={au(t),φt,Hm,ξ1,ξ2},整個(gè)輸入是一個(gè)2K+6的向量。假設(shè)信道總數(shù)是K,其中au(t)是一個(gè)大小為K+1的向量,代表用戶在此時(shí)選擇的信道,au(t)=0時(shí)代表不選擇接入信道;φt是一個(gè)大小為K的向量,代表在同一時(shí)刻信道的占用狀態(tài);Hm向量的大小為3,代表同組次用戶的空閑狀態(tài);ξ1、ξ2分別代表兩種ACK信號(hào)返回值。

        圖3 LSTM + dueling DQN神經(jīng)網(wǎng)絡(luò)流程圖

        由于普通的神經(jīng)網(wǎng)絡(luò)隨著時(shí)間的推移,用戶的基數(shù)逐漸龐大,而歷史性的記錄也將無法利用過去的經(jīng)驗(yàn)性信息來對(duì)現(xiàn)在的決策進(jìn)行改善,在輸入端加入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)[12],這是一種改進(jìn)之后的循環(huán)神經(jīng)網(wǎng)絡(luò),可以解決RNN無法處理長(zhǎng)短期的依賴的問題。這層網(wǎng)絡(luò)主要負(fù)責(zé)學(xué)習(xí)怎樣隨著時(shí)間積累歷史的經(jīng)驗(yàn),可以讓使用歷史的狀態(tài)以及動(dòng)作來估計(jì)現(xiàn)在的真實(shí)狀態(tài)。算法偽代碼如下:

        初始化主用戶p1,p2,p3…pm

        初始化次用戶i1,i2,i3…in

        初始化用戶計(jì)算能力閾值X

        初始化ACK1、ACK2

        初始化Hm

        if用戶Xi1>X,do

        if用戶i1需要和其他組i4進(jìn)行通信

        次用戶i1先連接同組內(nèi)的主用戶p1

        ifp1能直接連接p2

        同組的主用戶p1連接i4的主用戶p2

        p2連接次用戶i4

        i4返回一個(gè)ACK2信號(hào)

        Else :

        p1連接其他組的主用戶pm

        pn最后連接p2

        p2連接次用戶i4

        i4返回一個(gè)ACK1信號(hào)

        End

        End

        Else:

        i1連接同組內(nèi)的主用戶p1

        p1判斷根據(jù)Hm判斷主用戶連接p1的此用戶組中誰是空閑狀態(tài)

        p1將把多余的計(jì)算任務(wù)發(fā)送給空閑節(jié)點(diǎn)進(jìn)行

        空閑節(jié)點(diǎn)收到后發(fā)送ACK2信號(hào)原路返回i1

        End

        在本節(jié)的算法中,每一組用戶都可以被看成一組智能體群,都由1個(gè)主用戶和最多3個(gè)次用戶組成。Su(t)表示用戶u在t時(shí)刻能感知到的其他用戶狀態(tài)和信道狀態(tài),au(t)表示用戶u在t時(shí)刻所執(zhí)行的動(dòng)作;經(jīng)過動(dòng)作之后,根據(jù)返回的信息,能獲得獎(jiǎng)勵(lì)ru(t),之后用戶將感知下一個(gè)狀態(tài)Su(t+1)。采用一個(gè)獎(jiǎng)勵(lì)函數(shù)表示在t時(shí)刻根據(jù)所感知的環(huán)境狀態(tài)下執(zhí)行該動(dòng)作所造成的效果,并且指導(dǎo)智能體進(jìn)行下一步的選擇。采用深度強(qiáng)化學(xué)習(xí)中的dueling DQN代替?zhèn)鹘y(tǒng)強(qiáng)化學(xué)習(xí)中的Q值表,采用值迭代的方式更新Q(s,a)值:

        Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α) 。

        (19)

        式中:V(s;θ,β)是價(jià)值函數(shù)部分,僅與狀態(tài)S有關(guān),與具體要采用的動(dòng)作A無關(guān);A(s,a;θ,α)是優(yōu)勢(shì)函數(shù)部分,同時(shí)與狀態(tài)S和動(dòng)作A有關(guān);θ是公共部分的網(wǎng)絡(luò)參數(shù),β是價(jià)值函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù),α是優(yōu)勢(shì)函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù)。也就是說,Dueling-DQN網(wǎng)絡(luò)的輸出由價(jià)值函數(shù)網(wǎng)絡(luò)的輸出和優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)的輸出線性組合得到。但由于式(19)中給定一個(gè)Q值無法對(duì)V和A函數(shù)進(jìn)行一個(gè)恢復(fù),根據(jù)文獻(xiàn)[13],將式(19)改為

        Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)-

        (20)

        用一個(gè)平均值對(duì)上式最大值進(jìn)行替換,得

        Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)-

        (21)

        2 仿真與分析

        2.1 分組仿真結(jié)果分析

        首先通過實(shí)驗(yàn)數(shù)據(jù)及仿真驗(yàn)證基于三維用戶的分組多跳協(xié)議的有效性。實(shí)驗(yàn)選定一個(gè)500 m×900 m×900 m的三維空間,假設(shè)整個(gè)范圍內(nèi)的用戶數(shù)為10(圖2),每組最大用戶數(shù)為4,其中包含了1個(gè)主用戶和最多3個(gè)次用戶(同組內(nèi)最多只能擁有3個(gè)次用戶,這是為了當(dāng)用戶1沒有足夠的計(jì)算能力而用戶2處于忙碌狀態(tài)時(shí),用戶1可以借助用戶3的計(jì)算能力,以此達(dá)到合作計(jì)算的目的,所以3個(gè)用戶是最基本情況)。當(dāng)用戶需要與其他用戶進(jìn)行通信時(shí),兩者之間不一定能在同一個(gè)通信范圍,所以需要借助多跳算法來進(jìn)行通信。如圖2所示,用戶被分為以2、4、9、5、3為中心的5個(gè)分組,每?jī)蓚€(gè)節(jié)點(diǎn)之間的連線表示兩個(gè)用戶可以進(jìn)行信息的傳送。

        對(duì)多跳分組協(xié)議測(cè)試的結(jié)果如圖4所示,設(shè)置用戶數(shù)量從0~100逐漸增加,而信道數(shù)量保持在40。在無分組模式中,當(dāng)源節(jié)點(diǎn)用戶和目標(biāo)用戶所在距離過長(zhǎng)時(shí),源節(jié)點(diǎn)也會(huì)采用多跳的方式將信息發(fā)送給目標(biāo)用戶。一旦面臨著源節(jié)點(diǎn)所在范圍內(nèi)沒有可利用的中繼節(jié)點(diǎn)用戶或者由于中繼節(jié)點(diǎn)過多,造成信息無法發(fā)送以及頻譜信道之間的大量碰撞而發(fā)送失敗,兩者情況都將導(dǎo)致最后的通信失敗。在圖4中,紅色折線代表的是沒有分組的普通模式,在用戶數(shù)量0~40時(shí)還處于良好狀態(tài),但是當(dāng)用戶超過40(信道數(shù)量)時(shí),通信失敗,概率突然增加。根據(jù)文獻(xiàn)[14],當(dāng)把整體空間按照六角形的模式分組,由圖4綠色折線可知,雖然能針對(duì)不分組模式有所改善,但是隨著用戶數(shù)量增加,仍不能滿足現(xiàn)在的需求。如果使用本文的協(xié)議分組模式,在分組過程中由于不同的用戶分組所造成的中斷概率不同,可以根據(jù)實(shí)際情況設(shè)置自己的閾值,從而選出最優(yōu)分組模式,將會(huì)使通信失敗率達(dá)到最低。

        圖4 無分組、六角形分組、多跳協(xié)議分組性能對(duì)比

        2.2 DGC算法分析

        下面分別從用戶間信道的碰撞率、信道的空閑率以及用戶所得到的總獎(jiǎng)勵(lì)三個(gè)方面來展示DGC算法的優(yōu)越性。在模擬仿真的時(shí)候,采用M個(gè)節(jié)點(diǎn)隨機(jī)接入到C個(gè)信道,通過DGC算法對(duì)用戶實(shí)現(xiàn)快速選擇最優(yōu)策略。在工業(yè)互聯(lián)網(wǎng)中,用戶基數(shù)龐大,可以根據(jù)現(xiàn)實(shí)情況進(jìn)行用戶分組。為了方便仿真,采用8個(gè)用戶分成兩組,每組1個(gè)主用戶3個(gè)次用戶,以此來接入5條信道。迭代次數(shù)為10萬次,每5 000次為一批數(shù)據(jù),經(jīng)驗(yàn)池大小設(shè)置為1 000,訓(xùn)練5批更新一次網(wǎng)絡(luò),學(xué)習(xí)率設(shè)置為0.000 1。探索率起初設(shè)置為0.02,每次更新網(wǎng)絡(luò)探索率將會(huì)降低,直到0.01是最終探索率。神經(jīng)網(wǎng)絡(luò)部分設(shè)置了4層神經(jīng)網(wǎng)絡(luò),前3層的激活函數(shù)都是ReLU函數(shù),最后一層激活函數(shù)為tanh函數(shù)。

        規(guī)定1個(gè)信道中只能存在1個(gè)用戶占用,如果超過1個(gè)用戶選擇,則該信道會(huì)發(fā)生碰撞,并且信道被閑置。所以DGC算法就是為了讓用戶彼此之間感知到周圍用戶的策略,并且選出自己的最優(yōu)策略,從而相互避免信道的碰撞,降低信道空閑概率。在實(shí)驗(yàn)過程中,為了模擬信道中斷情況,設(shè)置了1~5個(gè)數(shù)值的中斷概率隨機(jī)獲取,當(dāng)用戶此次獲得的中斷概率數(shù)值為1時(shí),則該分組失敗,重新分組。

        圖5是在10萬次迭代過程中,每5 000次對(duì)性能結(jié)果進(jìn)行一個(gè)統(tǒng)計(jì)的展示。由圖可知,僅僅只是采用Q-learning和DQN算法的碰撞率基本穩(wěn)定在0.6~0.9之間,這是由于整個(gè)環(huán)境屬于部分可觀測(cè)的馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP),這將導(dǎo)致Q(o,a|θ)≠Q(mào)(s,a|θ),因此從觀察中估計(jì)Q值是不準(zhǔn)確的。在DQN的神經(jīng)網(wǎng)絡(luò)部分加入了LSTM網(wǎng)路結(jié)構(gòu)后,整體信道的碰撞率下降了很多,但是仍然保持著0.2的概率碰撞,從而丟失信息。與DGC算法相比,本文算法隨著迭代次數(shù)的增多,碰撞率后期可以保證在0.03左右,并且最終趨向于收斂。

        圖5 碰撞率折線圖

        圖6顯示了動(dòng)態(tài)頻譜接入后的信道閑置率。網(wǎng)絡(luò)僅僅只有Q-learning或者DQN算法時(shí),信道的閑置率振蕩較大,并且始終維持在0.6以上,這進(jìn)一步說明了采用DQN時(shí)無法針對(duì)過去長(zhǎng)時(shí)間的經(jīng)驗(yàn)性積累,并且以此來更新自己的策略,導(dǎo)致信道的碰撞率一直處于很高的水平。當(dāng)加入了LSTM部分以后,可以看到整個(gè)信道的閑置率進(jìn)一步降低,雖然最終收斂了,但是仍然維持在0.2以上。在DGC算法中,信道雖然在中期閑置率并沒有達(dá)到預(yù)期較低水平,但是隨著時(shí)間的推移,迭代次數(shù)不斷增加,空閑率將穩(wěn)定在較低的水準(zhǔn)。

        圖6 信道空閑率折線圖

        圖7展示的是用戶發(fā)送信號(hào)后所得到的獎(jiǎng)勵(lì)曲線。從圖中可知,在只有Q-learning或者DQN算法時(shí),整個(gè)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)值始終處于中間水平。當(dāng)加入了LSTM的結(jié)構(gòu)后,雖然在某幾次迭代達(dá)到了很高的獎(jiǎng)勵(lì),但是整體曲線振蕩幅度較大,系統(tǒng)無法收斂。在DGC算法中,曲線在前期就獲得了較高的獎(jiǎng)勵(lì),即使中期有一定的下降,但是隨著迭代次數(shù)的增加,最終曲線可以在較高的水準(zhǔn)下收斂。

        圖7 用戶所獲得獎(jiǎng)勵(lì)

        3 結(jié)束語

        本文主要研究了在工業(yè)物聯(lián)網(wǎng)中頻譜資源的分配問題。首先,由于工業(yè)物聯(lián)網(wǎng)中用戶的空間位置和移動(dòng)方向的不同,用戶之間的相似性不同,考慮實(shí)際的中斷概率,由算法選出中斷概率最小的最優(yōu)分組模式,以此來避免出現(xiàn)廣播風(fēng)暴的現(xiàn)象。其次,用戶要與其他用戶通信時(shí),可以利用DGC算法通過合作式方法,感知到同組內(nèi)其他用戶的選擇策略,盡量避免信道的爭(zhēng)搶,從而能夠找出最優(yōu)的路徑,確保信息能夠準(zhǔn)確傳送成功。最后,對(duì)于物聯(lián)網(wǎng)中某些不具備算法的計(jì)算能力或者能力不足的用戶,可以感知同組內(nèi)其他用戶的狀態(tài),若有空閑狀態(tài)的次用戶,則可以讓該用戶幫忙計(jì)算策略,之后再將策略發(fā)送給本身,從而達(dá)到了合作計(jì)算的目的。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的算法相比,本文提出的DGC算法都有較好的性能。

        在接下來的工作中,將研究在保證次用戶對(duì)主用戶的干擾小于所設(shè)定的閾值時(shí),信道可以同時(shí)容納主用戶和次用戶的接入,以更好地提升信道利用率。

        猜你喜歡
        同組中斷計(jì)算能力
        淺談如何提高小學(xué)生的計(jì)算能力
        小學(xué)生計(jì)算能力的提高策略
        甘肅教育(2021年10期)2021-11-02 06:14:02
        小學(xué)生計(jì)算能力的培養(yǎng)
        甘肅教育(2020年21期)2020-04-13 08:08:42
        新知
        淺談小學(xué)生計(jì)算能力的培養(yǎng)
        跟蹤導(dǎo)練(二)(5)
        千里移防,衛(wèi)勤保障不中斷
        解放軍健康(2017年5期)2017-08-01 06:27:44
        迎面踢毽接力
        AT89C51與中斷有關(guān)的寄存器功能表解
        FPGA內(nèi)嵌PowerPC的中斷響應(yīng)分析
        日韩a毛片免费观看| 午夜视频在线观看国产19| 久久伊人最新网址视频| 精品人妻午夜一区二区三区四区| 波多野结衣aⅴ在线| 国产女同一区二区在线| 中文字幕人妻av一区二区| 亚洲av综合色区无码专区桃色| 男人靠女人免费视频网站| 毛片网站视频| 亚洲免费不卡av网站| 国产大片在线观看91| 99e99精选视频在线观看| 少妇粉嫩小泬喷水视频www| 人妻精品无码一区二区三区| 69国产成人综合久久精| 日本成人精品一区二区三区| 国产18禁黄网站免费观看| 国产精品免费看久久久8| 国产精品无码无片在线观看3D| av资源吧首页在线观看| 少妇人妻中文久久综合| 免费人成视频x8x8入口| 亚洲av一宅男色影视| 久久福利资源国产精品999| 狼人狠狠干首页综合网| 日本一级特黄aa大片| 中文字幕乱码亚洲精品一区| 黄色成人网站免费无码av| 娇柔白嫩呻吟人妻尤物| 黄色潮片三级三级三级免费| 欧美人与善在线com| 日本丰满人妻xxxxxhd| 亚洲电影中文字幕| 丝袜美腿久久亚洲一区| 成人免费av色资源日日| 亚洲av鲁丝一区二区三区黄| 国产成人亚洲不卡在线观看 | 国产99视频一区二区三区| 一边摸一边做爽的视频17国产| 国产精品一区二区久久乐下载|