耿天立, 高昂, 王琦, 段渭軍, 胡延蘇
(1.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710072; 2.物聯(lián)網(wǎng)技術(shù)及應(yīng)用國家地方聯(lián)合工程實驗室, 陜西 西安 710072;3.長安大學(xué) 電子與控制學(xué)院, 陜西 西安 710072)
隨著5G技術(shù)的落地,物聯(lián)網(wǎng)無線設(shè)備(WD)將迎來爆炸性增長。此時,時延和能耗便成為影響物聯(lián)網(wǎng)發(fā)展的重要因素。雖然,物聯(lián)網(wǎng)設(shè)備可以通過將計算密集型任務(wù)卸載至邊緣服務(wù)器運(yùn)行以降低處理延遲,然而現(xiàn)有的物聯(lián)網(wǎng)通信技術(shù)大都采用主動射頻單元,傳輸功耗和電路功耗高,無法實現(xiàn)低功耗高能效的信息傳輸。反向散射技術(shù)可以通過改變天線阻抗形成不同的反射狀態(tài),將自身信息調(diào)制到環(huán)境信號上實現(xiàn)被動式信息傳輸,既不需要高功耗的主動發(fā)射單元,也無須占用額外的頻譜。
無線驅(qū)動通信網(wǎng)絡(luò)(WPCN)是由反向散射通信和認(rèn)知無線電網(wǎng)絡(luò)兩種不同的無線通信技術(shù)相結(jié)合形成的一種無線網(wǎng)絡(luò)[1-2]。一方面,WD可以采用收集再傳輸(HTT)方式,即收集基站或者環(huán)境輻射能量進(jìn)行存儲,然后通過頻譜感知在基站和其他設(shè)備空閑時進(jìn)行主動傳輸;同時也可采用環(huán)境反向散射(AmBC)的方法被動傳輸[3-5]。
受限于設(shè)備復(fù)雜度和能耗限制,WD通常只配備一套收發(fā)單元,通過軟切換在HTT模式和AmBC模式間選擇;同時,WPCN中的多個WD采用時分多址方式進(jìn)行復(fù)用。因此,如何合理分配系統(tǒng)中設(shè)備主動傳輸和反向散射傳輸?shù)墓ぷ髂J郊捌鋵?yīng)的工作時間,從而實現(xiàn)最小的傳輸延遲,就顯得尤為必要[6]。目前,現(xiàn)有的研究大多采用凸優(yōu)化[1-2,7]、博弈論[8-9]和基于機(jī)器學(xué)習(xí)[10-12]的算法來最大化系統(tǒng)的網(wǎng)絡(luò)吞吐量或者經(jīng)濟(jì)收益。
凸優(yōu)化算法[1-2,7]僅考慮單個時間幀內(nèi)的時間分配,或者單用戶系統(tǒng)環(huán)境的優(yōu)化問題。但是,在實際應(yīng)用環(huán)境中,總是有多個用戶在同一時間卸載數(shù)據(jù),且需要多個時間幀來完成傳輸任務(wù)。博弈論算法[8-9]將時間分配優(yōu)化問題轉(zhuǎn)化為經(jīng)濟(jì)模型進(jìn)行求解,該算法中,次級發(fā)射機(jī)在綜合考慮網(wǎng)絡(luò)吞吐量和網(wǎng)關(guān)成本價格情況下確定反向散射時間,使經(jīng)濟(jì)效益達(dá)到最大化。遺憾的是,這些算法并沒有考慮到卸載數(shù)據(jù)量的大小。
文獻(xiàn)[10-12]采用基于強(qiáng)化學(xué)習(xí)的方法解決單用戶網(wǎng)絡(luò)吞吐量最大化問題,為復(fù)雜通信場景下的系統(tǒng)性能優(yōu)化提供了新的求解思路,但仍存在一些問題有待解決,例如:沒有考慮多用戶卸載數(shù)據(jù)大小的差異;同時,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法如Q學(xué)習(xí)(Q-learning)和深度Q網(wǎng)絡(luò)(DQN)只能在低維、離散的動作空間上進(jìn)行求解,并不適用討論環(huán)境中的多維、連續(xù)動作空間問題。
本文采用一種基于確定性策略梯度(DDPG)算法,對無線通信網(wǎng)絡(luò)中每個WD采取主動傳輸和反向散射傳輸兩種模式的時間分配在連續(xù)動作空間上進(jìn)行優(yōu)化,主要創(chuàng)新點(diǎn)包括:
1)與其他采用離散控制行為的強(qiáng)化學(xué)習(xí)算法不同,本文提出的基于DDPG深度強(qiáng)化學(xué)習(xí)方法能夠在連續(xù)動作空間內(nèi)搜索多個WD的最優(yōu)時間分配,并根據(jù)構(gòu)建的獎勵函數(shù)對當(dāng)前狀態(tài)下的分配策略進(jìn)行評估。
2)在動態(tài)數(shù)據(jù)卸載過程中,同時考慮了各個WD之間的公平性和最大化卸載數(shù)據(jù)量。本文算法基于以往經(jīng)驗的獎勵來優(yōu)化各移動設(shè)備的時間分配和傳輸模式,可以最小化卸載的延遲、最大化用戶公平性。
3)實驗數(shù)值結(jié)果表明,DDPG算法可在有限時間步長內(nèi)收斂,并且在不同實驗條件下,每個設(shè)備都能以最小的延遲同時完成數(shù)據(jù)卸載。與傳統(tǒng)的均分算法、貪心算法對比,DDPG算法可減少平均傳輸延遲77.4%和24.2%,并可有效提高WD的能耗效率。
圖1所示為多用戶數(shù)據(jù)卸載模型示意圖。圖1中:U1、U2、…、Uj、…、UN為環(huán)境中的WD,N為WD的數(shù)量;ta,j為Uj在主動傳輸階段(WIT)所分配到的時間長度;tb,j為Uj在能量收集階段(WET)所分配到的時間長度。由圖1可見,WPCN中存在一個混合訪問節(jié)點(diǎn)(HAP)和多個WD. 在下行鏈路上,HAP廣播主載波信號,為網(wǎng)絡(luò)中的WD提供用于能量收集和反向散射通信的環(huán)境載波,同時為網(wǎng)絡(luò)中的WD提供下行通信支持,如回傳數(shù)據(jù)卸載的處理結(jié)果;在上行鏈路上,作為數(shù)據(jù)卸載的接入點(diǎn),接收通過主動傳輸或反向散射傳輸卸載的數(shù)據(jù)。事實上,WD并不一定必須將數(shù)據(jù)卸載給HAP,也可以卸載到其他中繼設(shè)備。不失一般性,本文假設(shè)所有卸載的數(shù)據(jù)均通過HAP傳輸給邊緣服務(wù)器。
圖1 系統(tǒng)模型圖和時間幀分配示意圖Fig.1 Schematic diagram of communnication model and time allocation
由于反向散射是通過調(diào)整天線阻抗對主載波進(jìn)行反射而無法對載波頻率進(jìn)行調(diào)整的,網(wǎng)絡(luò)中所有的反向散射設(shè)備都只配備了1根天線,并以時分多址的復(fù)用方式工作于同一頻帶。HAP以Duty-cycling方式工作,每個時間幀為兩個階段。其中:
1) WET:當(dāng)HAP占用信道進(jìn)行下行傳輸時,WD只能選擇進(jìn)行能量收集或者采用反向散射模式進(jìn)行數(shù)據(jù)卸載;
2) WIT:當(dāng)HAP空閑時,WD可占用信道使用主動傳輸模式進(jìn)行數(shù)據(jù)卸載。
不失一般性,一個時間幀可被歸一化為單位長度1,用w表示W(wǎng)ET時間長度,則WIT時間長度為1-w.則有如下約束:
(1)
對于WD,一個WPCN時間幀內(nèi)卸載的數(shù)據(jù)由兩部分組成:WET反向散射卸載的數(shù)據(jù)和WIT主動傳輸?shù)臄?shù)據(jù)。因此,對于Uj,它在一個時間幀內(nèi)卸載的總數(shù)據(jù)量可表示為
lj=rb,jtb,j+ra,jta,j,
(2)
式中:rb,j和ra,j分別表示Uj在反向散射和主動發(fā)射模式下的數(shù)據(jù)傳輸速率。
在該多用戶數(shù)據(jù)卸載場景下,有如下合理假設(shè):
1)與卸載任務(wù)上行傳輸時間相比,從邊緣服務(wù)器返回處理結(jié)果至WD的回傳延遲非常小,可忽略不計[13]。
2)反向散射接收端通常是AmBC接收機(jī)和傳統(tǒng)接收機(jī)組成的協(xié)同接收機(jī),通過連續(xù)干擾消除的方法,在接收端HAP能夠從混合信號(即反向散射+下行傳輸信號)中恢復(fù)出反向散射信號。因此,可忽略HAP的主信號對反向散射信號的干擾[11]。而不同WD的散射信號之間仍然無法分離,因此WPCN系統(tǒng)中同一時刻只能有一個WD進(jìn)行反向散射通信。
3)在反向散射模式下,接收端換能器收集到的能量可以直接用于驅(qū)動反向散射和編解碼硬件單元,無須消耗額外能量[14]。
在WET同一時刻只能有一個WD通過反向散射的傳輸方式來卸載數(shù)據(jù),而其他WD仍然能夠收集能量。然而,由于譯碼器噪聲和上行信道噪聲會影響接收端的誤碼率[9],即
(3)
(4)
第j個反向散射二進(jìn)制對稱信道的容量為
Cj=1+εjlgεj+(1-εj)lg(1-εj),
(5)
假設(shè)反向散射的速率固定為Rb不變[7],則Uj在反向散射模式下的實際數(shù)據(jù)卸載速率為
rb,j=Cj·Rb.
(6)
當(dāng)HAP處于WIT時,WD可以使用自身電池中收集的能量以主動傳輸?shù)姆绞叫遁d數(shù)據(jù),多WD以時分多址的方式分別占用不同的時間長度ta,j來卸載數(shù)據(jù)。在這種模式下,WD應(yīng)用傳統(tǒng)的射頻無線通信技術(shù)進(jìn)行傳輸,其主動傳輸速率為
(7)
式中:B為主動傳輸?shù)膸?;Pa,j為主動傳輸功率。
WD通過電池存儲在WET采集的能量,并用于主動傳輸。因為忽略了反向散射電路的能量消耗,所以能量消耗ea,j主要由主動傳輸造成,即
ea,j=Pa,jta,j.
(8)
在WET,各個WD可以互不影響地采集能量,因此Uj在一個時間幀內(nèi)采集的能量eh,j為
eh,j=ηgjPH(w-tb,j),
(9)
式中:η表示能量轉(zhuǎn)化效率,η∈(0,1)。
用Ej(k)表示Uj在第k個時間幀結(jié)束后電池中存儲的能量,
Ej(k)=min {Emax,Ej(k-1)+eh,j(k)-ea,j(k)},
(10)
式中:Emax表示電池的最大容量。WD在WIT用于主動傳輸?shù)哪芰肯膽?yīng)該受到電池能量的限制,即
Pa,j(k)·ta,j(k)=ea,j(k)≤Ej(k-1)+eh,j(k).
(11)
本文的優(yōu)化目標(biāo)是在同時考慮公平性和能耗限制情況下最小化所有用戶的卸載時間。因此,定義以下度量指標(biāo):
(12)
假設(shè)采用三元組Tj(k){(tb,j,ta,j,Pa,j)}表示Uj在第k個時刻的數(shù)據(jù)卸載策略,則問題可以總結(jié)為以下優(yōu)化問題:
s.t.:
(13)
(14)
ea,j(k)≤Ej(k-1)+eh,j(k).
(15)
式中:K為完成數(shù)據(jù)卸載所用總時間;γ為衰減系數(shù),γ∈(0,1)。約束(13)式表示所有WD反向散射的時間總和不能超過WET時間;約束(14)式表示所有WD主動傳輸?shù)臅r間總和不能超過WIT時間;約束(15)式表示用于主動傳輸?shù)哪芰坎荒艹^電池中存儲的能量。
圖2 DDPG算法流程圖Fig.2 Flowchart of DDPG algorithm
作為一種無模型的深度強(qiáng)化學(xué)習(xí)算法,不同于其他強(qiáng)化學(xué)習(xí)算法,DDPG可以用來在連續(xù)的高維狀態(tài)空間以及動作空間上解決優(yōu)化問題。在DDPG中,用由狀態(tài)、動作和獎勵組成的元組(Sk,Ak,Rk,Sk+1)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練:
1)狀態(tài):表示在一個迭代回合中第k個時刻開始前對WPCN系統(tǒng)當(dāng)前環(huán)境信息的觀測結(jié)果:
Sk={E1(k),…,EN(k),data1(k),…,dataN(k)},
(16)
式中:dataj(k)為Uj截止到當(dāng)前時刻已經(jīng)卸載完成的數(shù)據(jù)總量。
2)動作:Ak={T1(k),…,TN(k)},即在第k個時間幀所有WD采取的卸載策略。
3)獎勵:Rk的計算如(12)式所示。
如圖2所示,DDPG中一共有4個網(wǎng)絡(luò):
1)actor當(dāng)前網(wǎng)絡(luò):負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)θμ的迭代更新,根據(jù)當(dāng)前狀態(tài)S選擇當(dāng)前動作A,與環(huán)境交互生成下一個狀態(tài)S′和獎勵R.
2)actor目標(biāo)網(wǎng)絡(luò):負(fù)責(zé)從經(jīng)驗回放緩存區(qū)采樣的下一狀態(tài)S′選擇下一動作A′.該網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θμ′定期從actor當(dāng)前網(wǎng)絡(luò)復(fù)制θμ更新。
3)critic當(dāng)前網(wǎng)絡(luò):負(fù)責(zé)價值網(wǎng)絡(luò)參數(shù)θQ的迭代更新,計算當(dāng)前Q值Q(S,A|θQ)。定義目標(biāo)Q值yk=R+γQ′(S′,A′|θQ′).
4)critic目標(biāo)網(wǎng)絡(luò):負(fù)責(zé)計算目標(biāo)Q值中的Q′(S′,A′|θQ′)部分。該網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θQ′定期從critic當(dāng)前網(wǎng)絡(luò)復(fù)制θQ更新。
與DQN直接將當(dāng)前網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)復(fù)制過來的硬更新方式不同,DDPG采取每次只更新一點(diǎn)點(diǎn)的軟更新方式,即
θμ′=τθμ+(1-τ)θμ′,
(17)
θQ′=τθQ+(1-τ)θQ′,
(18)
式中:τ為更新系數(shù)。這種更新方式可以大大提高學(xué)習(xí)的穩(wěn)定性。
actor當(dāng)前網(wǎng)絡(luò)采用確定性策略來產(chǎn)生確定性動作,損失梯度為
(19)
critic當(dāng)前網(wǎng)絡(luò)的損失函數(shù)與DQN一樣采用均方誤差:
Los=E[(yk-Q(S,A|θQ)2].
(20)
基于DDPG的反向散射卸載優(yōu)化算法具體步驟如下:
步驟1隨機(jī)初始化actor當(dāng)前網(wǎng)絡(luò)和critic當(dāng)前網(wǎng)絡(luò),令構(gòu)建actor和critic目標(biāo)網(wǎng)絡(luò),初始化經(jīng)驗回放緩存區(qū)。
步驟2從迭代回合數(shù)T=1開始循環(huán)執(zhí)行以下步驟。
步驟3初始化所有WD要卸載數(shù)據(jù)量大小,清零電池能量。
步驟4初始化一個均值為0、方差var=1的高斯噪聲n.
步驟5獲得初始觀測狀態(tài)S1.
步驟6從時刻k=1開始執(zhí)行步驟7~步驟16.
步驟7選擇動作Ak=μ(Sk|θμ)+n.
步驟8令var=var×0.999 5.
步驟9WD執(zhí)行動作并由(12)式計算獎勵Rk.
步驟10獲得新的狀態(tài)Sk.
步驟11將(Sk,Ak,Rk,Ak+1)保存到經(jīng)驗回放緩存區(qū)。
步驟12從經(jīng)驗回放緩存區(qū)隨機(jī)選取固定大小的樣本。
步驟13令yk=Rk+γQ′(Sk+1,μ′(Sk+1|θμ′)|θQ′).
步驟14由(20)式,通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播更新critic當(dāng)前網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θ.
步驟15由(19)式,通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播更新actor當(dāng)前網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)μ.
步驟16如果所有的WD完成數(shù)據(jù)卸載,則執(zhí)行步驟17;否則執(zhí)行步驟6.
步驟17如果T/C等于1,C為設(shè)定的目標(biāo)網(wǎng)絡(luò)參數(shù)更新間隔回合數(shù),執(zhí)行步驟18;否則,執(zhí)行步驟19.
步驟18通過(17)式、(18)式更新目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)μ′和θ′.
步驟19如果T等于設(shè)定的最大迭代回合數(shù),則結(jié)束算法迭代;否則執(zhí)行步驟2.
假設(shè)環(huán)境中有N=4個WD,隨機(jī)分布在以HAP為中心,直徑50 m~3 km的范圍內(nèi),其各自要卸載的數(shù)據(jù)大小Ln=[50 kb,100 kb,150 kb,200 kb].電池的最大容量Emax為5 mJ/3.3 V,反射系數(shù)ρ和能量轉(zhuǎn)化效率η都是0.8.一個HAP時間幀長度為1 s,并且WET和WIT的時長均為0.5,即w=0.5.調(diào)頻信號的帶寬和頻率分別為100 kHz和100 MHz.上行信道增益和下行信道增益分別為10-5和2×10-5.actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)參數(shù)如表1所示。
表1 DDPG網(wǎng)絡(luò)參數(shù)表Tab.1 DDPG neural network configuration
圖3 累積獎勵與完成卸載所用時間幀數(shù)的收斂情況Fig.3 Convergence of cumulative reward and frame number for completing data offioading
由圖3可知,基于DDPG的優(yōu)化算法進(jìn)行大約1 500次回合的學(xué)習(xí)后可以實現(xiàn)收斂,此時對應(yīng)的累積獎勵V=20,所需時間幀數(shù)為32.
圖4所示為當(dāng)反向散射速率從Rb=32 kbit/s下降至Rb=24 kbit/s時系統(tǒng)數(shù)據(jù)卸載的動態(tài)性能,即在指定回合下(第2 000個回合)每個時間幀內(nèi)的狀態(tài)和動作信息。
圖4 不同反向散射速率下系統(tǒng)的動態(tài)性能情況Fig.4 Dynamic performances of system at different backscattering rates
由圖4(a)可見,隨著反向散射速率的降低,系統(tǒng)卸載延遲從30個時間幀增加至45個時間幀。但受益于Jain公平指數(shù)的引入,所有WD仍可以在同一時刻完成各自的數(shù)據(jù)卸載。
由圖4(b)、圖4(c)可見,具有較大卸載數(shù)據(jù)量的U3和U4更傾向于采取反向散射傳輸模式,具有較小卸載數(shù)據(jù)量的U1和U2則更傾向于采用主動傳輸模式。
由圖4(d)可見,電池中的存儲能量Ej(k)非常低,表明大部分收集到的能量被用于主動傳輸,而過多的能量收集會造成反向散射時間的減少。
圖5所示為網(wǎng)絡(luò)隨著信噪比(SNR)和反向散射效率變化的靜態(tài)性能情況。
由圖5(a)可見,平均網(wǎng)絡(luò)吞吐量隨著SNR的增加而增加,同時數(shù)據(jù)卸載完成時間也隨之減少。值得注意的是,不同WD之間的平均網(wǎng)絡(luò)吞吐量并不相同,而是與自身要卸載數(shù)據(jù)量的大小呈正比。這是因為DDPG算法中引入了Jain公平指數(shù),來保證所有WD的數(shù)據(jù)卸載可以同時完成。
由圖5(b)可見,此時SNR固定為60 dB,而數(shù)據(jù)卸載完成的時間還與反向散射速率Rb以及轉(zhuǎn)換效率ρ有關(guān)。由(3)式和(4)式可知,這是因為更高的反向散射速率和反向散射系數(shù)可以得到更大的主動傳輸速率以及更低的誤碼率。
圖5 不同SNR和反向散射速率下的系統(tǒng)靜態(tài)性能情況Fig.5 Static performance of system at different SNRs and Rb
圖6比較了3種不同的優(yōu)化算法即均分算法、貪心策略算法和DDPG算法,在相同SNR下完成數(shù)據(jù)卸載所需的時間幀數(shù)、隨能量轉(zhuǎn)化率η的變化,以及完成數(shù)據(jù)卸載后電池中的剩余能量。
圖6 算法性能比較Fig.6 Performance comparison of different algorithms
由圖6可見:
1)在貪心算法中,只要某一個WD的電池中存儲有剩余能量,便會盡可能占用更多的時間進(jìn)行主動傳輸;均分策略算法不考慮多個WD之間要卸載數(shù)據(jù)量大小的差異,總是將時間平分給各個WD.
2)隨著SNR的增加,即信道條件變好,3種算法所需數(shù)據(jù)卸載完成時間均有顯著減少。但與傳統(tǒng)的均分算法、貪心算法對比,DDPG算法平均傳輸延遲減少了77.4%和24.2%,這主要是因為貪心算法只采取主動傳輸模式進(jìn)行數(shù)據(jù)卸載;均分策略算法雖然采取兩種傳輸模式,但是當(dāng)某一個WD完成其數(shù)據(jù)卸載后仍然會分配其時間,從而造成資源浪費(fèi)。
3)均分算法和貪心策略算法在完成數(shù)據(jù)卸載后,每個WD中的冗余能量均比DDPG算法高,表明其能量利用率低。尤其是對于卸載數(shù)據(jù)量較小的U1和U2更為顯著,以U1為例,與均分算法和貪心算法相比,其在DDPG算法下能量利用率可提高7.75倍和1.25倍。以上結(jié)果表明,本文DDPG算法能夠在同時考慮每個WD剩余要卸載數(shù)據(jù)量大小、電池剩余能量情況下進(jìn)行優(yōu)化時間分配,在每個時間幀內(nèi)最大化即時獎勵和未來獎勵,保證所有WD能夠在同一時刻完成數(shù)據(jù)卸載,并最大化能耗效率,以避免電池中積累過多冗余能量。
本文提出一種基于DDPG的數(shù)據(jù)卸載優(yōu)化算法,不僅可以在連續(xù)空間內(nèi)搜索最佳動作(即每個WD的卸載策略),且同時考慮了各個WD之間的公平性和其卸載數(shù)據(jù)量大小的差異性。實驗結(jié)果表明,本文所提出的算法在不同的反向散射系數(shù)、能量轉(zhuǎn)換效率、反向散射速率以及信道條件下都比傳統(tǒng)算法表現(xiàn)出了更好的性能,實現(xiàn)了最小的卸載延遲和更高的能耗效率。