張涌逸
(太原師范學(xué)院 計算機系,山西 晉中 030619)
相關(guān)學(xué)者有討論無線傳感器網(wǎng)絡(luò)功率控制的,但他們主要是從降低無線傳感器網(wǎng)絡(luò)的能耗方面來研究的[1]。本文討論無線的功率控制,是為了充分利用頻譜資源,認(rèn)知無線電頻譜分配行為有合作和非合作頻譜共享。由于無線傳感器網(wǎng)絡(luò)常常是某個機構(gòu)部署的,所以給頻譜合作共享帶來了可能。在認(rèn)知無線電中合作頻譜共享討論的比較多的是議價博弈和聯(lián)盟博弈,但本研究引入了多智能體強化學(xué)習(xí)的方法來討論無線傳感器網(wǎng)絡(luò)功率控制,實現(xiàn)一個無線傳感器網(wǎng)絡(luò)在功率控制情形全局頻譜獎勵最大化。
(1)
其中,Aku是信道增益。
如果在一個時間段上討論每個用戶群的發(fā)送功率問題。在完全競爭的時候,由于每個用戶群都想使得自己得收益最大化,最終每個用戶群都會用自己得最大發(fā)送功率來發(fā)送。這樣造成信道之間干擾很大。一個無線傳感器網(wǎng)絡(luò)常常是一個機構(gòu)部署的,這樣就給合作帶來了可能。本文不考慮一個用戶群收益最大化,而是考慮無線傳感器網(wǎng)絡(luò)收益全局最大化。
本文考慮一個由n個節(jié)點構(gòu)成的無線傳感器網(wǎng)絡(luò)(用N={0,1,…,n-1}表示),共用開放頻段,是一個隨時間變化得通信網(wǎng)絡(luò),節(jié)點之間得通信過程可用上面的鄰接矩陣Dt來表示。我們把時間劃分成一個個時隙,整個通信看成是一個馬爾可夫決策過程。此時MDP是一個四元組:。其中S為全局狀態(tài)的集合,可由鄰接矩陣Dt決定。A=P1×P2×…×Pn,Pi為節(jié)點i所在用戶群的功率。R=R1×R2×…×Rn,Rj為節(jié)點j的回報函數(shù),可用(1)式來計算。假設(shè)狀態(tài)和功率的選擇是全局性的,而回報只能在局部觀察到。
(2)
T是終點。
為實現(xiàn)目標(biāo),我們使用了文獻(xiàn)[3]中的完全去中心化MARL方法。在文獻(xiàn)[3]中使用了actor-critic算法,并且得到了下面的梯度公式。
定理[3](MARL的策略梯度定理)對于任何θ∈Θ,πθ:S×A→[0,1]是策略,讓J(θ)是在(2)中定義全局長期平均回報。qθ和Aθ行為價值函數(shù)和優(yōu)勢函數(shù)。定義了局部優(yōu)勢函數(shù):
(3)
(4)
則J(θ)的策略梯度可寫為:
ΔθjJ(θ)=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*qθ(s,a)]
=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*Iθ(s,a)]
(5)
在actor-critic 算法中,critic算法如下:
(6)
(7)
(8)
(9)
在actor-critic算法中,actor 算法如下:
(10)
(11)
(12)
根據(jù)上面的分析,給出算法如下:
Repeat:
for j∈{0,1,…,n-1} do
end for
Forj∈{0,1,…,n-1} do
end for
forj∈{0,1,…,n-1} do
end for
t←t+1。
一直到滿足條件。
上面的計算中需要輸出下一個時間步的功率pt+1,這會降低去中心化訓(xùn)練的效率。能不能只是用(st,pt,st+1)來更新參數(shù)?是可以的。事實上,可以用狀態(tài)值的TD-error來估計優(yōu)勢函數(shù)[3]:
這樣,需要估計J(θ)和Vθ。與前面的算法相似,每個節(jié)點的維護共享本地參數(shù)ut、wt,更新參數(shù):
(13)
(14)
(15)
(16)
上面的優(yōu)化問題與下式等價:
這兩式子的關(guān)系導(dǎo)致了為最小化目標(biāo)(16)參數(shù)κt的更新如下:
(17)
(17),(13),(14)和(15)構(gòu)成critic網(wǎng)絡(luò)的更新步。
acror網(wǎng)絡(luò)的更新步變?yōu)椋?/p>
(18)
綜上所述,一共有三部分參數(shù)需要滿足一致性約束,和前面的算法相比多了兩部分參數(shù)。與上面的算法類似,基于狀態(tài)值函數(shù)的TD-error算法的在線實現(xiàn)要求每個節(jié)點的空間復(fù)雜度為O(N+nj+L+F),在N很大的情況,大大降低了空間復(fù)雜度。具體算法與參考文獻(xiàn)[3]算法2類似,此處不再贅述。
為了使無線傳感器網(wǎng)絡(luò)能充分利用頻譜資源,我們在無線傳感器網(wǎng)絡(luò)中引入了認(rèn)知無線電的功能,同時利用了多智能提深度學(xué)習(xí)中的完全去中心化MARL算法來對無線傳感器的節(jié)點的無線傳輸功率進行控制來充分地利用頻譜資源,通過一些參數(shù)化函數(shù)來近似策略和值函數(shù),結(jié)合去中心化的網(wǎng)絡(luò)框架和函數(shù)擬合值函數(shù)[4],使得算法非常適合大規(guī)模的節(jié)點情,而且算法是分布式的,不需要集中控制,故適合大規(guī)模無線傳感器網(wǎng)絡(luò)。但在無線傳感器中引入認(rèn)知無線電和深度強化學(xué)習(xí)功能對無線傳感器網(wǎng)絡(luò)的軟硬件都提出了要求,增加了節(jié)點的成本。