摘"要:針對(duì)現(xiàn)有水聲傳感器網(wǎng)絡(luò)MAC協(xié)議難以滿足水聲傳感器網(wǎng)絡(luò)節(jié)點(diǎn)之間低延遲高吞吐量的傳播需求,本文提出了一種水聲傳感器網(wǎng)絡(luò)節(jié)點(diǎn)自適應(yīng)調(diào)度MAC協(xié)議,該協(xié)議基于強(qiáng)化學(xué)習(xí),以減少接收端的沖突和最大化網(wǎng)絡(luò)整體吞吐量為目標(biāo),利用強(qiáng)化學(xué)習(xí)中的深度神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)的傳輸環(huán)境和傳輸策略進(jìn)行學(xué)習(xí),利用水聲信號(hào)傳輸?shù)目諘r(shí)不確定性,對(duì)各發(fā)送節(jié)點(diǎn)的傳輸時(shí)隙進(jìn)行調(diào)度,使多個(gè)節(jié)點(diǎn)在適合的時(shí)隙完成數(shù)據(jù)傳輸,而不會(huì)影響其他節(jié)點(diǎn)通信。仿真結(jié)果表明,該協(xié)議相比于傳統(tǒng)算法,可以提高吞吐量和數(shù)據(jù)包成功傳輸率,有效地降低了信道中的數(shù)據(jù)碰撞概率,提高了水聲通信的信道利用效率。
關(guān)鍵詞:水下聲學(xué)傳感器網(wǎng)絡(luò);調(diào)度;強(qiáng)化學(xué)習(xí);MAC協(xié)議
中圖分類號(hào):TN929.3""文獻(xiàn)標(biāo)識(shí)碼:A
1"概述
水聲傳感器網(wǎng)絡(luò)(Underwater"Acoustic"Sensor"Networks,UASNs)在海洋數(shù)據(jù)采集、環(huán)境監(jiān)測(cè)、勘探、航海和軍事活動(dòng)等領(lǐng)域廣泛應(yīng)用。但由于水下環(huán)境特性的限制,聲波是最可行的水通信手段,但傳輸延遲長(zhǎng)、數(shù)據(jù)率低、帶寬有限、能耗大等問(wèn)題使得設(shè)計(jì)水下網(wǎng)絡(luò)面臨前所未有的挑戰(zhàn)[1]。MAC(Media"Access"Control)協(xié)議在協(xié)調(diào)通信節(jié)點(diǎn)、分配和共享信道資源方面發(fā)揮著重要作用,直接影響水聲網(wǎng)絡(luò)性能。因此,需要研究基于水聲傳感器網(wǎng)絡(luò)特點(diǎn)的自適應(yīng)MAC協(xié)議來(lái)提高信道利用率和性能表現(xiàn)。
基于調(diào)度的協(xié)議在水聲網(wǎng)絡(luò)中得到廣泛應(yīng)用,以時(shí)隙為基礎(chǔ)的調(diào)度策略的差異性主要在于時(shí)隙分配和時(shí)隙長(zhǎng)度的設(shè)計(jì)。文獻(xiàn)[2]中基于位置的MAC協(xié)議,設(shè)計(jì)了一種最小等待時(shí)間規(guī)則,在小規(guī)模UASNs中表現(xiàn)良好。Hsu"C"C等人[3]提出一種時(shí)空MAC調(diào)度協(xié)議,研究了水聲通信網(wǎng)絡(luò)中時(shí)空不確定性給時(shí)分復(fù)用(Time"Division"Multiple"Access,TDMA)方案帶來(lái)的影響,通過(guò)建立時(shí)空沖突圖將協(xié)議建模成一個(gè)頂點(diǎn)著色問(wèn)題,并通過(guò)混合整數(shù)線性規(guī)劃求解問(wèn)題的最優(yōu)解,從而得到一種自適應(yīng)的TDMA調(diào)度方式,但是該協(xié)議的算法復(fù)雜度很高。文獻(xiàn)[4]提出的SlottedFAMA(Floor"Acquisition"Multiple"Access)協(xié)議是在文獻(xiàn)[5]的基礎(chǔ)上將載波偵聽(tīng)和RTS/CTS(Request"To"Send/Clear"To"Send)握手信息結(jié)合通過(guò)合理地選擇時(shí)隙的長(zhǎng)度來(lái)避免數(shù)據(jù)傳輸時(shí)的沖突,從而降低碰撞概率。然而,這些方法缺少考慮如何綜合通信距離、通信可靠性和組網(wǎng)的可實(shí)現(xiàn)性來(lái)解決實(shí)際應(yīng)用中的數(shù)據(jù)傳輸問(wèn)題。
為了適應(yīng)水下環(huán)境的動(dòng)態(tài)性,解決水聲信號(hào)接收數(shù)據(jù)沖突問(wèn)題,近年來(lái)將強(qiáng)化學(xué)習(xí)(Reinforcement"learning,RL)應(yīng)用于UASNs通信協(xié)議的研究和設(shè)計(jì)日益受到重視[67]。雖然基于RL的MAC協(xié)議已經(jīng)廣泛用于地面無(wú)線網(wǎng)絡(luò),但對(duì)基于水下MAC層的協(xié)議研究卻很少。文獻(xiàn)[8]提出了一種深度強(qiáng)化學(xué)習(xí)多址訪問(wèn)(Deepreinforcement"Learning"Multiple"Access,DLMA)協(xié)議。該協(xié)議適用于地面無(wú)線網(wǎng)絡(luò),節(jié)點(diǎn)通過(guò)觀察周圍環(huán)境學(xué)習(xí)最優(yōu)發(fā)送策略,從而最大化網(wǎng)絡(luò)吞吐量。文獻(xiàn)[9]針對(duì)由于DLMA協(xié)議中各節(jié)點(diǎn)吞吐量不公平問(wèn)題,進(jìn)一步提出了一種分布式DLMA協(xié)議,實(shí)現(xiàn)了各節(jié)點(diǎn)在數(shù)據(jù)傳輸完成后吞吐量公平的目標(biāo)。
本文針對(duì)水聲通信傳感網(wǎng)絡(luò),提出了一種基于強(qiáng)化學(xué)習(xí)的水聲傳感器網(wǎng)絡(luò)節(jié)點(diǎn)自適應(yīng)調(diào)度MAC協(xié)議。針對(duì)水下多發(fā)送多接收傳感器網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)中的中心控制節(jié)點(diǎn)作為一個(gè)智能體,定義了馬爾科夫模型,利用強(qiáng)化學(xué)習(xí)中的深度神經(jīng)網(wǎng)絡(luò)對(duì)發(fā)送節(jié)點(diǎn)的傳輸環(huán)境和傳輸策略進(jìn)行學(xué)習(xí)和訓(xùn)練,通過(guò)調(diào)度協(xié)議使得多個(gè)節(jié)點(diǎn)在合理的時(shí)隙內(nèi)完成數(shù)據(jù)傳輸,提高了信道利用率,減少了接收端的沖突和最大化網(wǎng)絡(luò)整體吞吐量。本文仿真了所提出的MAC協(xié)議的網(wǎng)絡(luò)吞吐量和數(shù)據(jù)包發(fā)送成功率,仿真結(jié)果顯示,本文算法在吞吐量、數(shù)據(jù)包發(fā)送成功率等性能方面均優(yōu)于傳統(tǒng)TDMA和SlottedAloha協(xié)議。
2"系統(tǒng)模型和強(qiáng)化學(xué)習(xí)
2.1"水聲傳感網(wǎng)絡(luò)模型
本文所定義的UASNs部署如圖1所示,假設(shè)網(wǎng)絡(luò)中有H個(gè)發(fā)送節(jié)點(diǎn),G個(gè)接收節(jié)點(diǎn),Hii=1,2,…,H和Gi為一對(duì)傳輸節(jié)點(diǎn),分別表示第i個(gè)發(fā)送節(jié)點(diǎn)和第i個(gè)接收節(jié)點(diǎn),節(jié)點(diǎn)間的傳播延遲定義為THi,Gi=dHi,Gi/c,dHi,Gi表示節(jié)點(diǎn)間的距離,c表示信號(hào)在水下的傳輸速度。本文將時(shí)隙長(zhǎng)度Tslot定義為節(jié)點(diǎn)間數(shù)據(jù)包傳輸所要消耗的時(shí)間均值,假設(shè)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)只能進(jìn)行半雙工通信,因此當(dāng)接收節(jié)點(diǎn)在同一時(shí)隙同時(shí)接收2個(gè)及以上數(shù)據(jù)包時(shí)會(huì)產(chǎn)生沖突。節(jié)點(diǎn)通信方式為單播通信,即節(jié)點(diǎn)發(fā)送的每個(gè)數(shù)據(jù)包都只有一個(gè)對(duì)應(yīng)的目的接收節(jié)點(diǎn)。
網(wǎng)絡(luò)中H個(gè)發(fā)送節(jié)點(diǎn)通過(guò)共享的上行鏈路信道將待傳輸?shù)臄?shù)據(jù)包傳輸?shù)礁髯詫?duì)應(yīng)的浮標(biāo)處,每個(gè)浮標(biāo)是一個(gè)接收節(jié)點(diǎn)。根據(jù)節(jié)點(diǎn)間的傳輸操作,本文提出了一種節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議,每個(gè)發(fā)送節(jié)點(diǎn)根據(jù)協(xié)議調(diào)度的時(shí)隙將數(shù)據(jù)包傳輸?shù)浇邮展?jié)點(diǎn)處,多個(gè)節(jié)點(diǎn)的傳輸不產(chǎn)生沖突。
2.2"深度強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)的基本過(guò)程是一個(gè)馬爾可夫決策過(guò)程(Markov"Decision"Process,MDP)[10],MDP是由五個(gè)不同元素構(gòu)成的集合,即{智能體(Agent),環(huán)境(Environment),狀態(tài)(State),動(dòng)作(Action),獎(jiǎng)勵(lì)(Reward)},其目標(biāo)是通過(guò)迭代選擇策略,最大化累計(jì)回報(bào)獎(jiǎng)勵(lì)。Qlearning是一種基于動(dòng)作價(jià)值函數(shù)的方法[11],而DQN算法利用深度神經(jīng)網(wǎng)絡(luò)(Deep"Neural"Network,DNN)的強(qiáng)大表征能力,把強(qiáng)化學(xué)習(xí)中的狀態(tài)作為神經(jīng)網(wǎng)絡(luò)模型的輸入,輸出的是每個(gè)動(dòng)作對(duì)應(yīng)的Qvalue,并通過(guò)策略更新得到下個(gè)時(shí)隙將要執(zhí)行的動(dòng)作。在DQN算法中,智能體在t時(shí)刻的狀態(tài)st下通過(guò)DNN得到智能體的動(dòng)作值函數(shù)Qπst,at;θ,θ為神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)。通過(guò)更新參數(shù)θ,獲得智能體的最優(yōu)動(dòng)作價(jià)值函數(shù),即DQN輸出Q值Qπ(st,at;θ)≈Qπ(st,at),Q值更新公式如下:
Qπ(st,at)←(1-λ1)Qπ(st,at)+λ1[rt+γmaxat+1∈AQπ(st+1,at+1)]
式中λ1∈(0,1)是學(xué)習(xí)速率,γ∈(0,1]是一個(gè)折扣因子。為了保持?jǐn)?shù)據(jù)迭代的穩(wěn)定性,文獻(xiàn)[12]提出在DQN算法中使用兩個(gè)神經(jīng)網(wǎng)絡(luò)模型,一個(gè)用于訓(xùn)練,另一個(gè)用于生成目標(biāo)值,分別被稱為評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。Qπ(st,at;θ)表示神經(jīng)網(wǎng)絡(luò)的輸出,用來(lái)評(píng)估當(dāng)前狀態(tài)—?jiǎng)幼鲗?duì)的價(jià)值,θ表示評(píng)估網(wǎng)絡(luò)的權(quán)重參數(shù)。在每次迭代中,評(píng)估網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)輸入,利用反向傳播算法來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)模型參數(shù)θ,使得模型能夠更好地預(yù)測(cè)真實(shí)的動(dòng)作價(jià)值。將智能體構(gòu)成經(jīng)驗(yàn)樣本Et=(st,at,rt,st+1)輸入回放記憶單元D中,當(dāng)D中存放足夠多樣本數(shù)據(jù)時(shí),從D中隨機(jī)抽取M個(gè)樣本Ec,使用目標(biāo)網(wǎng)絡(luò)計(jì)算Q的目標(biāo)值Qπ(st,at;θ),通過(guò)最小化損失函數(shù)來(lái)更新模型參數(shù),損失函數(shù)定義為:
L(θ)=1M∑st,at,rt,st+1y(rt,st+1)-Qπst,at;θ2
其中目標(biāo)函數(shù)計(jì)算為:
y(rt,st+1)=rt+γmaxat+1∈AQπst+1,at+1;θ
rt表示在狀態(tài)st下執(zhí)行動(dòng)作at所得到的獎(jiǎng)勵(lì),maxat+1∈AQπst+1,at+1;θ表示在狀態(tài)st+1下,從動(dòng)作集合A中選擇的一個(gè)執(zhí)行動(dòng)作at所對(duì)應(yīng)的最佳Qvalue。在獲得損失函數(shù)后,采用隨機(jī)梯度下降算法計(jì)算L(θ)的權(quán)值參數(shù)θ進(jìn)行更新迭代,更新公式如下:
θ=θ+λ1L(θ)θ
目標(biāo)網(wǎng)絡(luò)的參數(shù)θ由評(píng)估網(wǎng)絡(luò)的參數(shù)θ每完成一次時(shí)間步長(zhǎng)C更新來(lái)得到,這樣在一段時(shí)間內(nèi)進(jìn)行目標(biāo)網(wǎng)絡(luò)Q值不變的訓(xùn)練,以此來(lái)降低評(píng)估網(wǎng)絡(luò)Q值和目標(biāo)網(wǎng)絡(luò)Q值的相關(guān)性,保證目標(biāo)值計(jì)算的穩(wěn)定性。
3"提出的MAC協(xié)議
3.1"問(wèn)題描述
在UASNs的數(shù)據(jù)傳輸過(guò)程中,當(dāng)多發(fā)送節(jié)點(diǎn)進(jìn)行通信時(shí),一個(gè)合適的發(fā)送時(shí)隙受到距離、空時(shí)不確定性影響,難以預(yù)測(cè)在接收節(jié)點(diǎn)是否會(huì)發(fā)生碰撞。因此,本文將UASNs的節(jié)點(diǎn)調(diào)度問(wèn)題抽象為馬爾可夫離散過(guò)程,將網(wǎng)絡(luò)中的中心控制節(jié)點(diǎn)作為一個(gè)智能體,在數(shù)據(jù)傳輸過(guò)程中,智能體通過(guò)學(xué)習(xí)周圍環(huán)境的變化,給出決策,實(shí)現(xiàn)一種最優(yōu)的時(shí)隙調(diào)度選擇,以較高的信道利用率達(dá)到最大化網(wǎng)絡(luò)吞吐量。當(dāng)網(wǎng)絡(luò)中的發(fā)送節(jié)點(diǎn)i完成傳輸,則i在T個(gè)時(shí)隙內(nèi)的累計(jì)獎(jiǎng)勵(lì)定義為∑T=1ri,其中ri表示在每個(gè)時(shí)隙傳輸數(shù)據(jù)包的獎(jiǎng)勵(lì)值,定義數(shù)據(jù)包長(zhǎng)為M比特,通信速率為Vbit/s,則本文定義的吞吐量為:
Th=1T×Tslot×V∑Hi=1∑T=1(ri×M)
通過(guò)定義智能體MDP模型,尋找最優(yōu)策略π,從而最大化水聲傳感器網(wǎng)絡(luò)的吞吐量,本文以最大化網(wǎng)絡(luò)吞吐量構(gòu)建目標(biāo)函數(shù):
π=argmaxπTh
3.2"MDP模型定義
在本文提出的調(diào)度協(xié)議中,智能體與水下環(huán)境交互信息并進(jìn)行策略學(xué)習(xí)的框架如圖2所示。在馬爾科夫決策模型中,智能體在當(dāng)前時(shí)隙t觀察網(wǎng)絡(luò)狀態(tài)st∈S,根據(jù)策略π決定其動(dòng)作at∈A,網(wǎng)絡(luò)環(huán)境根據(jù)該執(zhí)行at∈A的效果優(yōu)劣情況,反饋給智能體即時(shí)獎(jiǎng)勵(lì)rt∈R,并進(jìn)入下一步的新?tīng)顟B(tài)st+1?;诜答伣Y(jié)果,智能體會(huì)采取下一步動(dòng)作at+1,由此獲得一組經(jīng)驗(yàn)值(at,st,rt,st+1)。在MDP過(guò)程中,智能體是通過(guò)訓(xùn)練足夠的經(jīng)驗(yàn)來(lái)學(xué)習(xí)最優(yōu)策略π,從而使期望的總折扣獎(jiǎng)勵(lì)最大。
本節(jié)定義MDP模型如下:
(1)動(dòng)作:在數(shù)據(jù)傳輸階段,本文定義每個(gè)時(shí)隙t的動(dòng)作是“調(diào)度不同的發(fā)送節(jié)點(diǎn)發(fā)送數(shù)據(jù)”。當(dāng)前時(shí)隙t中,定義集合at=Φi′t(i′=1,2,…,H),Φi′t表示第i′個(gè)發(fā)送節(jié)點(diǎn)的調(diào)度情況,即Φi′=1表示第i′個(gè)發(fā)送節(jié)點(diǎn)被調(diào)度,即該節(jié)點(diǎn)發(fā)送數(shù)據(jù)包,Φi′=0表示第i′個(gè)發(fā)送節(jié)點(diǎn)未被調(diào)度,即該節(jié)點(diǎn)不能發(fā)送數(shù)據(jù)包。定義動(dòng)作at=Φit∪φi∈[1,τ],φ為空集,表示調(diào)度值為1的發(fā)送節(jié)點(diǎn)集合,τ表示時(shí)隙t時(shí)被調(diào)度發(fā)送節(jié)點(diǎn)的個(gè)數(shù),即at中元素為1的個(gè)數(shù)。
(2)觀測(cè):發(fā)送節(jié)點(diǎn)Hi和接收節(jié)點(diǎn)Gi傳輸數(shù)據(jù)所需的時(shí)隙個(gè)數(shù)為η=「THi,GiTslot,本文定義Hi到Gi在第t+η時(shí)隙的觀測(cè)結(jié)果為οit+η∈S,F(xiàn),I,其中S表示數(shù)據(jù)包傳輸成功,F(xiàn)表示數(shù)據(jù)包在接收節(jié)點(diǎn)處發(fā)生碰撞,I表示沒(méi)有接收信息。那么在第t+η時(shí)隙所有被調(diào)度節(jié)點(diǎn)的觀測(cè)結(jié)果為o1t+η,o2t+η,…,oτt+η。
(3)狀態(tài):狀態(tài)定義為動(dòng)作觀測(cè)對(duì)Zit+2η=Φit,οit+2η,第t+2η時(shí)隙被調(diào)度節(jié)點(diǎn)的動(dòng)作觀測(cè)對(duì)為Zt+2η=Φ1t,o2t+2η,Φ2t,o2t+2η,…Φτt,o2t+2η。考慮到歷史狀態(tài)的影響,將節(jié)點(diǎn)i在t+2η時(shí)隙時(shí)的狀態(tài)sit定義為sit=Zit+2η-X+1,…,Zit+2η,X表示狀態(tài)歷史長(zhǎng)度,那么所有被調(diào)度的節(jié)點(diǎn)的狀態(tài)st為st=s1t,s2t,…,sτt。
(4)獎(jiǎng)勵(lì):智能體在每個(gè)時(shí)隙開(kāi)始時(shí)進(jìn)行節(jié)點(diǎn)選擇操作,根據(jù)觀測(cè)的結(jié)果來(lái)定義獎(jiǎng)勵(lì)函數(shù),獎(jiǎng)勵(lì)值表示歸一化的網(wǎng)絡(luò)吞吐量,取決于接收節(jié)點(diǎn)是否成功接收到數(shù)據(jù)包,rit+2η表示第i個(gè)被調(diào)度的發(fā)送節(jié)點(diǎn)的獎(jiǎng)勵(lì)值,定義如式,則t時(shí)隙所有被調(diào)度的發(fā)送節(jié)點(diǎn)的獎(jiǎng)勵(lì)值rt+2η定義如式:
rit+2η=0,ifοit+2η==〈ForI〉
1,ifοit+2η==〈S〉
rt+2η=∑τi=1rit+2η
3.3"節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議
本文提出的系統(tǒng)模型假設(shè)網(wǎng)絡(luò)數(shù)據(jù)傳輸均同步傳輸,即所有數(shù)據(jù)信息在每個(gè)時(shí)間間隙的起始位置進(jìn)行傳輸,并且在傳輸過(guò)程中數(shù)據(jù)包數(shù)量充足,每個(gè)時(shí)隙都有可用的數(shù)據(jù)包等待傳輸?;?.2節(jié)定義的MDP模型,智能體調(diào)度不同的發(fā)送節(jié)點(diǎn)發(fā)送數(shù)據(jù),以優(yōu)化網(wǎng)絡(luò)性能,利用DQN算法決策發(fā)送節(jié)點(diǎn)的調(diào)度策略,從而實(shí)現(xiàn)時(shí)隙調(diào)度選擇。
智能體對(duì)發(fā)送節(jié)點(diǎn)進(jìn)行調(diào)度,智能體在時(shí)隙t執(zhí)行動(dòng)作at,通過(guò)策略選擇可以在該時(shí)隙進(jìn)行調(diào)度發(fā)送的節(jié)點(diǎn)集合,即Φi=1的節(jié)點(diǎn)為可發(fā)送數(shù)據(jù)的節(jié)點(diǎn)。st+1表示狀態(tài)轉(zhuǎn)移到下一時(shí)隙,rt+1表示執(zhí)行動(dòng)作at后獲得的即時(shí)獎(jiǎng)勵(lì)。當(dāng)調(diào)度τ個(gè)發(fā)送節(jié)點(diǎn)傳輸數(shù)據(jù),利用DQN算法以迭代試錯(cuò)的方式迭代策略,根據(jù)公式計(jì)算得到對(duì)應(yīng)的Q值,從而設(shè)計(jì)一個(gè)基于動(dòng)作價(jià)值函數(shù)的優(yōu)化模型。所提算法通過(guò)計(jì)算不同動(dòng)作集合Φ1,…,Φi′,…,ΦH得到對(duì)應(yīng)的Q值,并選出最大值作為最優(yōu)解,通過(guò)最小化損失函數(shù)訓(xùn)練網(wǎng)絡(luò)參數(shù),進(jìn)而智能體更新選擇策略,從而實(shí)現(xiàn)發(fā)送節(jié)點(diǎn)之間的信息交互協(xié)調(diào),智能體獲得最大的回報(bào)獎(jiǎng)勵(lì),直到滿足條件停止迭代訓(xùn)練。具體的算法流程如下表所示。
節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議算法流程表
初始化算法參數(shù):學(xué)習(xí)率λ1∈(0,1),折扣因子γ∈(0,1),選擇概率ε,評(píng)估網(wǎng)絡(luò)Qπst,at;θ和目標(biāo)網(wǎng)絡(luò)Qπst+1,at+1;θ,經(jīng)驗(yàn)回放緩存D,小批量采樣規(guī)模B和目標(biāo)網(wǎng)絡(luò)參數(shù)更新周期Tc。
初始化環(huán)境和智能體狀態(tài)集合st。
for"t=1"to"Tm"do
輸入st到DQN計(jì)算Q值;
at=argmaxaQst,a;θ,概率1-ε
隨機(jī)動(dòng)作,概率ε;
執(zhí)行:at=Φit∪φ,i∈[1,τ],φ為空集;
獲得:o1t+η,o2t+η,…,oτt+η和Zt+2η=Φ1t,o2t+2η,Φ2t,o2t+2η,…Φτt,o2t+2η;
for"i=1"to"τ"do
計(jì)算:rit=0,ifοit==〈ForI〉
1,ifοit==〈S〉;
end"for
計(jì)算:rt+2η=∑τi=1rit+2η;
計(jì)算:st=s1t,s2t,…sτt,其中sit=Zit+2η-X+1,…,Zit+2η;
更新:st+1=st;
形成樣本數(shù)據(jù)〈st,at,rt,st+1〉,將樣本存儲(chǔ)到經(jīng)驗(yàn)回放緩存D中;
隨機(jī)從D中抽取小批量采樣規(guī)模B的樣本〈s′t,a′t,r′t,s′t+1〉訓(xùn)練;
根據(jù)式(2)~式(4)計(jì)算DQN權(quán)值參數(shù)θ;
每間隔C時(shí)間間隙進(jìn)行一次目標(biāo)網(wǎng)絡(luò)參數(shù)更新:θ=θ;
end"for
輸出:式(6)期望的調(diào)度策略
網(wǎng)絡(luò)中的發(fā)送節(jié)點(diǎn)會(huì)和水聲環(huán)境進(jìn)行交互,在根據(jù)網(wǎng)絡(luò)狀態(tài)做出調(diào)度決策后,調(diào)度對(duì)象將繼續(xù)完成數(shù)據(jù)包的傳輸任務(wù)。對(duì)于任意發(fā)送節(jié)點(diǎn)發(fā)送的數(shù)據(jù)包,能夠在其相應(yīng)接收節(jié)點(diǎn)接收,并且不會(huì)與其他節(jié)點(diǎn)的數(shù)據(jù)包發(fā)生碰撞,其條件為待接收數(shù)據(jù)包在到達(dá)接收節(jié)點(diǎn)和接收時(shí)間范圍內(nèi),沒(méi)有其他干擾數(shù)據(jù)包到達(dá)該接收節(jié)點(diǎn),表達(dá)分析如下:
假設(shè)任意發(fā)射節(jié)點(diǎn)Hi發(fā)送某個(gè)數(shù)據(jù)包的發(fā)送時(shí)刻為tistart,到達(dá)其相應(yīng)接收節(jié)點(diǎn)Gi時(shí)刻為tiend,節(jié)點(diǎn)間的傳播延遲及數(shù)據(jù)包時(shí)延分別為THi,Gi和Tidata=M/V,因此易知:
tiend=tistart+THi,Gi+Tidata
當(dāng)其他發(fā)送節(jié)點(diǎn)Hj(j≠i,j∈H)發(fā)送數(shù)據(jù)時(shí),接收節(jié)點(diǎn)Gi也會(huì)接收到傳輸數(shù)據(jù)。假設(shè)Hj的發(fā)送時(shí)刻和接收時(shí)刻分別為tjstart和tjend,數(shù)據(jù)包在傳輸過(guò)程的總時(shí)長(zhǎng)為THj,Gi+Tjdata,則Hi發(fā)送的數(shù)據(jù)包與Hj發(fā)送的數(shù)據(jù)包在Gi處不發(fā)生碰撞的條件是:
tistart+THi,Gi,tiend≠tjstart+THj,Gi,tjend"j≠i
4"協(xié)議仿真與分析
4.1"仿真環(huán)境
為驗(yàn)證本文算法的有效性,本文分別對(duì)吞吐量和發(fā)送數(shù)據(jù)包成功率進(jìn)行了驗(yàn)證。所有節(jié)點(diǎn)隨機(jī)分布在位于水下500m處的1000m×1000m的三維水下環(huán)境中,水下環(huán)境仿真節(jié)點(diǎn)總數(shù)為4個(gè),分別含有2個(gè)發(fā)送節(jié)點(diǎn)和2個(gè)目標(biāo)節(jié)點(diǎn)。每個(gè)固定節(jié)點(diǎn)的通信方式為全方向、半雙工。仿真時(shí)隙長(zhǎng)度0.2s,通信速率為1200bit/s,在初始仿真階段,假設(shè)網(wǎng)絡(luò)中的全部節(jié)點(diǎn)的時(shí)間已經(jīng)完成同步。聲速設(shè)為1500m/s,每個(gè)節(jié)點(diǎn)根據(jù)泊松分布生成數(shù)據(jù)包。仿真過(guò)程不考慮水下物理信道的惡劣通信環(huán)境導(dǎo)致的丟包,僅考慮由數(shù)據(jù)包碰撞引起的丟包情況。本文采用不同的評(píng)估指標(biāo)對(duì)MAC協(xié)議的性能進(jìn)行評(píng)估,分別為吞吐量和數(shù)據(jù)包發(fā)送成功率。假設(shè)發(fā)送節(jié)點(diǎn)Hi在T個(gè)時(shí)隙發(fā)送的數(shù)據(jù)包個(gè)數(shù)為Ni,則網(wǎng)絡(luò)負(fù)載load的定義如下:
load=1T×Tslot×V∑HiNi×M
發(fā)送成功率為T個(gè)時(shí)隙內(nèi)成功傳輸數(shù)據(jù)包的個(gè)數(shù)與總傳輸數(shù)據(jù)包的比值。
4.2"仿真結(jié)果分析
本文對(duì)所提的節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議與TDMA、SlottedAloha兩種協(xié)議的傳輸性能進(jìn)行了比較。
圖3比較了三種協(xié)議在不同數(shù)據(jù)包長(zhǎng)度情況下,吞吐量隨網(wǎng)絡(luò)負(fù)載的變化情況。從圖中可以看出,隨著數(shù)據(jù)包長(zhǎng)度的增加,三種協(xié)議網(wǎng)絡(luò)吞吐量變化趨勢(shì)相似,網(wǎng)絡(luò)吞吐量穩(wěn)定增加。其中,本文的節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議的網(wǎng)絡(luò)吞吐量大于TDMA協(xié)議和SlottedAloha協(xié)議的吞吐量。由于成功傳輸一個(gè)數(shù)據(jù)包所需時(shí)間的增加,盡管網(wǎng)絡(luò)吞吐量在增加,但是增長(zhǎng)趨勢(shì)已變緩慢。SlottedAloha協(xié)議中節(jié)點(diǎn)競(jìng)爭(zhēng)導(dǎo)致較嚴(yán)重的數(shù)據(jù)包碰撞問(wèn)題,降低了網(wǎng)絡(luò)吞吐量,而TDMA協(xié)議只在固定時(shí)隙發(fā)送數(shù)據(jù)包,網(wǎng)絡(luò)吞吐量相較于SlottedAloha協(xié)議更高。節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議避免空閑時(shí)隙的浪費(fèi),在相同時(shí)間內(nèi)可以接收更多的數(shù)據(jù)包,故節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議網(wǎng)絡(luò)吞吐量高于TDMA協(xié)議。
圖4比較了三種協(xié)議在不同數(shù)據(jù)包長(zhǎng)度下的數(shù)據(jù)包發(fā)送成功率的變化情況,由圖可知,三種協(xié)議的數(shù)據(jù)包發(fā)送成功率隨著數(shù)據(jù)包長(zhǎng)度的增長(zhǎng)而降低。SlottedAloha協(xié)議的發(fā)送成功率下降最快,TDMA協(xié)議和節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議的發(fā)送成功率趨勢(shì)相近。當(dāng)數(shù)據(jù)包長(zhǎng)度較小時(shí),數(shù)據(jù)包的傳播時(shí)延低,與其他數(shù)據(jù)包在信道中發(fā)生碰撞的概率小,因此數(shù)據(jù)包發(fā)送成功率高。當(dāng)數(shù)據(jù)包長(zhǎng)度增大時(shí),其占用信道的時(shí)間增加,在信道中與其他數(shù)據(jù)包產(chǎn)生碰撞概率隨之增加,因此數(shù)據(jù)包發(fā)送成功率會(huì)迅速降低。本文所提節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議利用神經(jīng)網(wǎng)絡(luò)根據(jù)學(xué)習(xí)網(wǎng)絡(luò)環(huán)境自主選擇調(diào)度節(jié)點(diǎn),通過(guò)策略學(xué)習(xí)避免碰撞的產(chǎn)生,因此節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議具有較高且相對(duì)穩(wěn)定的數(shù)據(jù)包發(fā)送成功率。
圖5表示節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議在不同數(shù)據(jù)包長(zhǎng)度情況下歸一化吞吐量隨著網(wǎng)絡(luò)負(fù)載的變化情況。從圖中可以發(fā)現(xiàn)數(shù)據(jù)包長(zhǎng)度最大的吞吐量比其他兩個(gè)低的吞吐量分別增加了22.9%和51.4%,這主要是由于學(xué)習(xí)階段花費(fèi)的時(shí)長(zhǎng)占整個(gè)網(wǎng)絡(luò)的仿真時(shí)間比重較小,對(duì)吞吐量的影響也較小。而網(wǎng)絡(luò)達(dá)到收斂后,節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議的網(wǎng)絡(luò)模型在單位時(shí)間內(nèi)發(fā)送數(shù)據(jù)包成功率增加,使其發(fā)送576bit數(shù)據(jù)包的網(wǎng)絡(luò)吞吐量會(huì)比288bit和144bit數(shù)據(jù)包的網(wǎng)絡(luò)吞吐量高。
結(jié)語(yǔ)
本文提出了一種基于強(qiáng)化學(xué)習(xí)的水下物聯(lián)網(wǎng)節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議,該協(xié)議能夠使智能體通過(guò)不斷學(xué)習(xí)選擇最佳傳輸時(shí)隙,以達(dá)到優(yōu)化傳輸性能的目的。在網(wǎng)絡(luò)達(dá)到收斂狀態(tài)時(shí),傳感器節(jié)點(diǎn)的動(dòng)作價(jià)值函數(shù)最大值也會(huì)收斂,從而實(shí)現(xiàn)數(shù)據(jù)包的最優(yōu)傳輸。為了驗(yàn)證算法的準(zhǔn)確性,分別從網(wǎng)絡(luò)的平均吞吐量、數(shù)據(jù)包發(fā)送成功率方面對(duì)協(xié)議進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本章提出的節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議在不同的網(wǎng)絡(luò)負(fù)載下,不同數(shù)據(jù)包長(zhǎng)度下,吞吐量及數(shù)據(jù)包發(fā)送成功率等方面均優(yōu)于TDMA和SlottedAloha協(xié)議。本文提出的節(jié)點(diǎn)自適應(yīng)調(diào)度協(xié)議是假設(shè)網(wǎng)絡(luò)中的傳感器節(jié)點(diǎn)是靜態(tài)的,而在一些特殊場(chǎng)景中節(jié)點(diǎn)是可以連續(xù)移動(dòng)的,未來(lái)將進(jìn)一步開(kāi)展對(duì)移動(dòng)節(jié)點(diǎn)時(shí)隙級(jí)并發(fā)調(diào)度算法的研究。
參考文獻(xiàn):
[1]CHEN"K,MA"M,CHENG"E,et"al.A"Survey"on"MAC"Protocols"for"Underwater"Wireless"Sensor"Networks[J].IEEE"Communications"Surveys"and"Tutorials,2014,16(3):14331447.
[2]MAO"J,CHEN"S,LIU"Y,et"al.LTMAC:A"locationbased"TDMA"MAC"protocol"for"smallscale"underwater"sensor"networks[C].proceedings"of"the"2015"IEEE"International"Conference"on"Cyber"Technology"in"Automation,Control,and"Intelligent"Systems(CYBER),2015:12751280.
[3]HSU"C"C,LAI"K"F,CHOU"C"F,et"al.STMAC:SpatialTemporal"MAC"Scheduling"for"Underwater"Sensor"Networks[C].proceedings"of"the"IEEE"INFOCOM"2009,2009:18271835.
[4]MOLINS"M.Slotted"FAMA:a"MAC"protocol"for"underwater"acoustic"networks[C].proceedings"of"the"Oceans,2006:17.
[5]MEI"H,WANG"H,SHEN"X,et"al.An"Efficient"Distributed"MAC"Protocol"for"Underwater"Acoustic"Sensor"Networks[J].IEEE"Sensors"Journal,2023,23(4):42674284.
[6]KHAN"Z"A,KARIM"O"A,ABBAS"S,et"al.Qlearning"based"energyefficient"and"void"avoidance"routing"protocol"for"underwater"acoustic"sensor"networks[J].Computer"Networks,2021(197):108309.
[7]PARK"S"H,MITCHELL"P"D,GRACE"D"J"I"A.Reinforcement"learning"based"MAC"protocol(UWALOHAQM)for"mobile"underwater"acoustic"sensor"networks[J].in"IEEE"Access,2020(9):59065919.
[8]YU"Y,WANG"T,LIEW"S"C"J"I"J"O"S"A"I"C.Deepreinforcement"learning"multiple"access"for"heterogeneous"wireless"networks[J].in"IEEE"Journal"on"Selected"Areas"in"Communications,2019,37(6):12771290.
[9]YU"Y,LIEW"S"C,WANG"T"J"I"T"O"M"C.Multiagent"deep"reinforcement"learning"multiple"access"for"heterogeneous"wireless"networks"with"imperfect"channels[J].in"IEEE"Transactions"on"Mobile"Computing,2021,21(10):37183730.
[10]ALAGOZ"O,HSU"H,SCHAEFER"A"J,et"al.Markov"Decision"Processes:A"Tool"for"Sequential"Decision"Making"under"Uncertainty[J].Medical"Decision"Making,2010,30(4):474483.
[11]CHEN"G,ZHAN"Y,SHENG"G,et"al.Reinforcement"LearningBased"Sensor"Access"Control"for"WBANs[J].in"IEEE"Access,2019(7):84838494.
[12]CHU"Y,KOSUNALP"S,MITCHELL"P"D,et"al.Application"of"reinforcement"learning"to"medium"access"control"for"wireless"sensor"networks[J].Engineering"Applications"of"Artificial"Intelligence,2015(46):2332.
作者簡(jiǎn)介:鄧玉茹(1979—"),女,漢族,河北霸州人,碩士研究生,講師,研究方向:電子信息工程技術(shù)。