李燁 司軻
摘 要:近年來,深度強化學習作為一種無模型的資源分配方法被用于解決無線網(wǎng)絡中的同信道干擾問題。然而,基于常規(guī)經(jīng)驗回放策略的網(wǎng)絡難以學習到有價值的經(jīng)驗,導致收斂速度較慢;而人工劃定探索步長的方式?jīng)]有考慮算法在每個訓練周期上的學習情況,使得對環(huán)境的探索存在盲目性,限制了系統(tǒng)頻譜效率的提升。對此,提出一種頻分多址系統(tǒng)的分布式強化學習功率控制方法,采用優(yōu)先經(jīng)驗回放策略,鼓勵智能體從環(huán)境中學習更重要的數(shù)據(jù),以加速學習過程;并且設計了一種適用于分布式強化學習、動態(tài)調(diào)整步長的探索策略,使智能體得以根據(jù)自身學習情況探索本地環(huán)境,減少人為設定步長帶來的盲目性。實驗結果表明,相比于現(xiàn)有算法,所提方法加快了收斂速度,提高了移動場景下的同信道干擾抑制能力,在大型網(wǎng)絡中具有更高的性能。
關鍵詞:分布式強化學習;頻分多址系統(tǒng);功率控制;貪心策略;優(yōu)先經(jīng)驗回放;動態(tài)步長調(diào)整
中圖分類號:TP929.5?? 文獻標志碼:A??? 文章編號:1001-3695(2023)12-039-3772-06
doi: 10.19734/j.issn.1001-3695.2023.03.0169
Distributed reinforcement learning based power control for frequency division multiple access systems
Abstract:In recent years, deep reinforcement learning has been used as a modelfree resource allocation method to solve the problem of cochannel interference in wireless networks. However, networks based on conventional experience replay strategies are difficult to learn valuable experiences, resulting in slower convergence speed. The manual method of determining the exploration step size does not take into account the learning situation of the algorithm in each training cycle, resulting in blind exploration of the environment and limited improvement of the system spectral efficiency. This paper proposed a distributed reinforcement learning power control method for frequency division multiple access systems, which adopted a priority experience replay strategy to encourage agents to learn more important data from the environment to accelerate the learning process. Moreover, this paper designed an exploration strategy with dynamic adjustment of step size suitable for distributed reinforcement learning. The strategy allowed agents to explore the local environment based on their own learning situation and hence reduced the blindness caused by manually setting step sizes. The experimental results show that compared to existing algorithms, the proposed method accelerates the convergence speed, improves the ability of cochannel interference suppression in mobile scenarios, and gains higher performance in large networks.
Key words:distributed reinforcement learning; frequency division multiple access system; power control; greedy strategy; priority experience replay; dynamic step size adjustment
0 引言
隨著蜂窩小區(qū)中用戶設備數(shù)量的不斷增長,用戶間通信的干擾管理已成為無線蜂窩網(wǎng)絡開發(fā)新興技術的關鍵問題。當用戶設備都處于同一子頻帶時,增加小區(qū)基站對某一用戶的發(fā)射功率可以提高該鏈路的數(shù)據(jù)傳輸速率,但同時也會對基站通信范圍內(nèi)的其他下行鏈路產(chǎn)生干擾。在移動性場景下,密集、不規(guī)則運動的用戶設備之間的干擾會更加明顯。功率控制是無線網(wǎng)絡中廣泛使用的干擾緩解方法,但當多個設備共享一個頻段時,該問題被認為是NPhard[1]。根據(jù)頻分多址的概念,處于不同頻率載波上的信號之間不會產(chǎn)生干擾[2],因此聯(lián)合頻帶選擇的功率控制方案對干擾抑制的效果會更優(yōu)。
對于單頻帶場景,分數(shù)規(guī)劃(FP)[3]和加權最小均方誤差(WMMSE)[4]應用于解決功率控制問題,以使速率等全局優(yōu)化目標達到接近最優(yōu)的結果。對于多頻帶場景,聯(lián)合頻帶選擇與功率控制的問題涉及到混合整數(shù)規(guī)劃[5]。這些方法都需要準確的數(shù)學模型,且作為集中式的迭代算法,需要瞬時的全局信道狀態(tài)信息(channel state information,CSI)。在用戶移動導致信道快速變化的實際場景中,以上方法的實現(xiàn)相當具有挑戰(zhàn)性[6]。
為此,業(yè)界基于純數(shù)據(jù)驅(qū)動的無模型強化學習方法針對功率控制問題展開研究[7]。對于單頻帶場景,文獻[8]提出了一種集中式訓練分布式執(zhí)行的架構,但該方法僅適用于離散控制策略,必須對功率域進行量化[9],引入了人為的量化誤差。文獻[10]提出了一種使用深度確定性策略梯度的actorcritic學習算法,使其適用于連續(xù)動作空間,但該方法僅可應用于非時變信道場景下。文獻[11]改進了該模型使之適用于單頻帶下的移動性場景,但該模型性能將隨設備數(shù)量的增長而顯著下降,不具有很好的擴展性。
對于多頻帶場景,文獻[12]采用深度Q網(wǎng)絡解決頻帶選擇與發(fā)射功率控制問題,但該方法引入量化誤差的同時,其動作空間是可用頻帶數(shù)與量化發(fā)射功率電平的笛卡爾積,導致網(wǎng)絡輸出層的大小和在訓練期間訪問的狀態(tài)動作對的數(shù)量隨頻帶數(shù)的增多而增長。此外,該方法不能解決同時包含離散和連續(xù)變量的問題。對此,文獻[13]進一步提出了一種由兩層學習策略組成的新方法,下層使用深度Q網(wǎng)絡負責離散子頻帶選擇,而上層使用深度確定性策略梯度進行連續(xù)功率分配。但該方法不適用于時變信道場景,且隨可用頻帶數(shù)量的增加,基于常規(guī)經(jīng)驗回放策略的網(wǎng)絡難以學習到有價值的經(jīng)驗,收斂速度較慢,不適用于大型移動網(wǎng)絡。對此,Schaul等人[14]在離散場景下的實驗顯示,相比在每輪學習中選取高價值經(jīng)驗,基于均勻抽樣的經(jīng)驗回放需要更多的更新次數(shù),這種趨勢隨著經(jīng)驗回放池的增大更為明顯,如圖1所示。因此,經(jīng)驗數(shù)據(jù)的選取策略對算法的學習效率有很大影響。
此外,Auer等人[15]指出,以恒值步長進行探索的貪心策略(εgreedy)會在訓練中產(chǎn)生誤差,且誤差隨訓練次數(shù)的增多而線性增長。由于最優(yōu)價值差在實踐中不可得,所以強化學習算法通常以固定衰減步長實現(xiàn)對環(huán)境的探索。文獻[16]使用固定的衰減步長獲得了總誤差與訓練次數(shù)的次線性關系。但這種人工劃定步長的方式?jīng)]有考慮算法在每個訓練周期上的學習情況,使得對環(huán)境的探索存在盲目性。
為了解決這些問題,本文提出一種分布式強化學習功率控制方法,設計適用于分布式架構下的優(yōu)先經(jīng)驗回放策略。通過更有效地利用計算資源,算法及時抽取重要經(jīng)驗數(shù)據(jù),從而加速收斂;此外,中心決策智能體將根據(jù)自身學習狀況對探索步長做自適應調(diào)整,且各分布式智能體的探索策略各不相同,以使分布式智能體能更充分有效地探索本地通信環(huán)境,為中心智能體的決策算法累積更多經(jīng)驗。
1 系統(tǒng)模型
考慮一個具有N條鏈路的蜂窩網(wǎng)絡,鏈路均勻分布在K個同質(zhì)六邊形小區(qū)單元中,共享M個頻帶。令N={1,…,n,…,N}與M={1,…,m,…,M}分別表示鏈路與頻帶索引的集合。鏈路n由發(fā)射機s與移動接收機r共同組成。發(fā)射機s作為小區(qū)基站位于六邊形小區(qū)中心,假設其通信范圍囊括小區(qū)邊界。將移動設備r的小區(qū)基站匹配狀態(tài)表示為Cn∈K。假設所有發(fā)射機與接收機都配置單根天線,且網(wǎng)絡是一個具有固定時隙持續(xù)時間T的完全同步的時隙系統(tǒng)。由于實際通信場景中可用頻帶的稀缺性,所以M< 設時隙t中,子頻帶m上從發(fā)射機s到接收機r的下行鏈路信道增益表示為 g(t)s→r,m=|h(t)s→r,m|2·α(t)s→r(1) 其中:h(t)s→r,m為小尺度瑞利衰落變量;αs→r為包含路徑損耗和對數(shù)正態(tài)陰影在內(nèi)的大規(guī)模衰落分量[18],其值隨接收機r的移動而變化: α(t)s→r=α(t)dB,s→r=PL(xs,x(t)r)+λ(t)s→r(2) 其中:xs為小區(qū)單元中心的二維坐標;x(t)r為移動設備在時隙t以小區(qū)單元為中心的實時二維坐標;PL(xs,x(t)r)為與距離相關的路徑損耗;λ(t)s→r為從xs到x(t)r的正態(tài)對數(shù)陰影: λ(t)s→r=ρ(t)n·λ(t-1)s→r+σ·e(t)k→n(3) 其中:σ為對數(shù)正態(tài)陰影標準差;e(t)k→n~N(0,1-(ρ(t)n)2)為陰影隨機更新過程,由獨立同分布的高斯變量組成;ρ(t)n為兩個連續(xù)對數(shù)陰影衰落的相關性: 其中:dcor為環(huán)境相關長度的定值;Δx(t)n為移動設備在當前時隙與上一時隙的距離差值: Δx(t)n=‖x(t)n-x(t-1)n‖2(5) 采用Jakes的衰落模型[19]來描述h(t)s→r,m,因此,每個信道的小尺度瑞利衰落變量作為一階復高斯馬爾可夫過程引入為 其中:ρr表示兩個連續(xù)衰落塊之間的相關性,為第一類零階貝塞爾函數(shù): ρ(t)r=J0(2π·f(t)d,r·T)(7) 其值取決于最大多普勒頻率: 其中:V(t)r代表設備r的移動速度; fc為載波頻率;c為真空環(huán)境光速;e(t)s→r,m為信道更新過程,是具有單位方差的獨立同分布圓對稱復高斯隨機變量。 使用二進制變量ξ(t)n,m來表示鏈路n在時隙t上對于子頻帶m的選擇情況,設發(fā)射機n在時隙t上的發(fā)射功率為p(t)n,則在時隙t上,選擇頻帶m為底層子頻帶選取方案時接收機n的信噪比為 其中:σ2為接收機n處的加性高斯白噪聲功率譜密度;分子項為鏈路c(t)所對應的發(fā)射器選取子頻帶m為載波頻帶時,對接收機n產(chǎn)生的下行鏈路信道增益;分母項則為其他的鏈路所對應的發(fā)射器選取子頻帶m為載波頻帶時,對接收器n產(chǎn)生的下行鏈路信道干擾。 假設歸一化帶寬,在時隙t上,鏈路c(t)n對應的發(fā)射器選取子頻帶m為載波頻帶時實現(xiàn)的下行鏈路頻譜效率為 對于給定的鏈路c(t)n,和速率最大化問題表述為 由于信道的變化使式(11)涉及混合整數(shù)規(guī)劃。即使對于給定的子頻帶分配方案ξ,該問題也被證明為NPhard[20]。 2 基于優(yōu)先經(jīng)驗回放的分布式強化學習控制方法 設智能體在每個時隙t下處于狀態(tài)s(t),并根據(jù)策略π(a(t),s(t))采取動作a(t),隨后按照狀態(tài)轉(zhuǎn)移概率p(s(t+1),s(t),a(t))進入下一個狀態(tài)s(t+1),同時從環(huán)境中獲得獎勵r(s(t),a(t))。上述四項構成的四元組稱為智能體在時隙t下的經(jīng)驗:e(t)=(s(t),a(t),r(t+1),s(t+1))。強化學習的目標是找到最優(yōu)策略π*,最大化從任意狀態(tài)或狀態(tài)—動作組合起始的期望折扣累計獎勵: 其中:γ∈(0,1)為折扣因子。假設智能體在任意時刻獲取的狀態(tài)s(t)是完整的環(huán)境狀態(tài),則以上過程被稱為馬爾可夫決策過程(Markov decision process,MDP)。 對于多頻帶場景下單智能體算法的動作空間維度隨鏈路總數(shù)呈指數(shù)增長的問題,文獻[13]提出一種通過收集所有分布式智能體的經(jīng)驗,集中訓練網(wǎng)絡中共享的全局策略參數(shù),并將該參數(shù)廣播至所有分布式智能體的集中式訓練分布式執(zhí)行的架構,解決了單智能體算法在復雜性和通信成本方面與傳統(tǒng)集中式優(yōu)化算法相似的缺點。同時,該架構下層使用DQN負責離散頻帶選擇、上層使用DDPG完成連續(xù)功率分配的分層策略,解決了網(wǎng)絡輸出層的大小隨頻帶數(shù)的增多而增長的問題。 由于分布式智能體的設置違反了馬爾可夫假設,故文獻[13]收集所有分布式智能體的經(jīng)驗存儲在一固定容量的回放池中進行均勻抽樣,以確保穩(wěn)定性。然而,對回放池中數(shù)據(jù)的均勻抽樣不利于算法及時學習重要信息。此外,在訓練過程中智能體應用貪心策略,以概率使用學習策略進行探索,存在一定的盲目性。為此,提出一種改進數(shù)據(jù)抽樣策略與探索策略的分布式強化學習控制方法,如圖2所示。 2.1 學習系統(tǒng)框架 在每個訓練周期開始時,將本地無線環(huán)境觀察狀態(tài)s(t)n輸入分布式智能體n的下層,輸出頻帶選擇動作a(t)n的同時,將經(jīng)驗e(t)n,m及其初始優(yōu)先級在容量為D的優(yōu)先經(jīng)驗回放池中存儲。中心決策智能體下層創(chuàng)建參數(shù)為target的目標網(wǎng)絡預測以下貝爾曼誤差中的目標值: L(,D)=Ee(t)n,m~D[y(r(t+1)n,s(t+1)n)-q(s(t)n,a(t)n;)]2(13) 其中:y(r(t+1)n,s(t+1)n)=r(t+1)n+γ*max q(s(t)n,a(t)n;target)。通過從回放池中優(yōu)先抽取B條經(jīng)驗進行梯度下降: 最小化式(13)更新DQN網(wǎng)絡。 2.2 強化學習設計 蜂窩通信中,在同一頻帶上的任意兩條鏈路間干擾都是相互的。鏈路n在時隙t、頻帶m上的一組干擾鄰居集由附近的鏈路索引組成。將蜂窩小區(qū)中的智能體與其匹配發(fā)射機所構成的鏈路按同頻帶、同時隙上接收到的信道增益g(t)i→n,m(i,n∈N,i≠n)進行降序排序,保留前c個鏈路索引作為集合I(t)n,m;按各路干擾信號進行降序排序并保留前c個索引作為集合O(t)n,m。設在時隙t開始時,智能體n可受到與其匹配接收機在每個子頻帶m上收集的最新本地信息。此外,移動接收機收集的信道測量值會延遲一個時隙。 2)本地狀態(tài)信息設計 對每一個分布式智能體而言,其本地狀態(tài)信息S(t)n,m可以為三個特征組的組合:第一個特征組包含智能體n的最新發(fā)射功率大小α(t-1)n,m*p(t-1)n、對全局目標的貢獻C(t-1)n和當前通信環(huán)境下子頻帶增益排序。對于每個i∈I(t)n;第二個特征組包含智能體i對智能體n(i≠n)的下行鏈路干擾g(t)i→n,m、干擾功率大小α(t-1)i,mg(t)i→n,mp(t-1)i和對全局目標的貢獻C(t-1)i;對于每個j∈O(t)n,第三個特征組將包含下行鏈路增益g(t)j→j,m、對全局目標的貢獻C(t-1)j以及信噪比γ(t)n→j,m[13]。 為了使本地狀態(tài)信息遵循更復雜的實際約束,本文在第一個特征組中增加了下行鏈路信道增益g(t)n→n,m、g(t-1)n→n,m與干擾加噪聲功率之和的最后兩個測量值,并且在第二、三個特征組中增加變量的歷史信息:g(t-1)i→n,m、α(t-2)i,mg(t-1)i→n,mp(t-2)i、C(t-2)i、g(t-1)j→j,m、γ(t-1)n→j,m、C(t-2)j。 算法上層負責子頻帶選擇策略,使用狀態(tài)變量S′(t)n={S(t)1,…,S(t)n,…,S(t)N}作為輸入,下層負責功率控制,使用S(t)n,S′(t)n={S(t)n,1,…,S(t)n,m,…,S(t)n,M}作為輸入。 π(t)n→o=log(1+γ(t)o(b(t),[…,p(t)n-1,0,p(t)n+1,…]T))-C(t)o(18) 則對于任意n∈N,其獎勵函數(shù)r(t+1)n為 2.3 基于分布式的優(yōu)先經(jīng)驗回放 針對移動場景下的問題,智能體在設備游走狀態(tài)中所觀測到的信息量將遠高于在靜止狀態(tài)下的觀測量,對于一些對算法學習更有價值的經(jīng)驗將不易于被及時地抽樣學習。這會導致算法需要經(jīng)過多次訓練才得以收斂,在分布式架構中,這一問題會提高架構的時間開銷成本。使用傳統(tǒng)經(jīng)驗回放的算法架構不易擴展至多頻帶場景。提出使用優(yōu)先經(jīng)驗回放來抽取高信息量樣本,并修改其抽樣邏輯以適配易于擴展的分布式架構。 設e(t)j=(s(t)j,a(t)j,r(t+1)j,s(t+1)j)為智能體j在t+1時產(chǎn)生的經(jīng)驗,算法模擬的網(wǎng)絡為Q*(sj,aj),而實際學習得到的網(wǎng)絡為Q(sj,aj;w)。優(yōu)先經(jīng)驗回放通過對回放池中每條經(jīng)驗e(t)j賦以一個權重,根據(jù)權重對回放池中的經(jīng)驗做非均勻抽樣。對于某一經(jīng)驗蘊涵邊界條件等重要信息時,會導致網(wǎng)絡對e(t)j的價值判斷不準確,相比于其他經(jīng)驗,此時的預測Q(sj,aj;w)嚴重偏離真實價值Q*(sj,aj)。但此類經(jīng)驗數(shù)量較少且智能體難以處理,應當給予e(t)j更高的權重以換取智能體對此類經(jīng)驗的關注。 真實價值Q*(sj,aj)對于算法而言不可知,可使用TD誤差[21]來代替|Q(sj,aj;w)-Q*(sj,aj)|: pj=|δj|+ε(21) 其中:ε為一很小的正數(shù),以保證所有經(jīng)驗都以非零概率被抽?。?2]。 由于優(yōu)先經(jīng)驗回放做非均勻抽樣導致算法產(chǎn)生了有偏估計,對經(jīng)驗的不同概率的抽樣使算法預測存在偏差。應相應調(diào)整學習率予以消除。設α為學習率,b為回放池中樣本個數(shù),調(diào)整學習率為 其中:β∈(0,1)為超參數(shù),在訓練中從0緩慢增長為1。 針對分布式架構,使用集中經(jīng)驗回放存儲器存儲各個智能體收集到的所有經(jīng)驗,通過不斷保存最高優(yōu)先級的經(jīng)驗以采樣對中心決策算法最有用的數(shù)據(jù)。經(jīng)驗回放池在分布式智能體間共享。因此,分布式部署下的任意智能體發(fā)現(xiàn)的高優(yōu)先級經(jīng)驗數(shù)據(jù)都可使整個系統(tǒng)受益。 此外,傳統(tǒng)優(yōu)先經(jīng)驗回放對于新收集到的經(jīng)驗會賦予最高優(yōu)先級,以使該經(jīng)驗在學習時被盡快采樣一次。這種抽樣方式不利于在分布式多智能體下擴展[23]:當智能體數(shù)量增長時,由于最新收集的數(shù)據(jù)在學習時具有最高優(yōu)先級,等待更新優(yōu)先級將導致對最新數(shù)據(jù)的短時關注,而無法學習歷史數(shù)據(jù)中真正有意義的高優(yōu)先級信息。 為了解決該問題,使分布式智能體在收集本地信息的同時,利用其本地策略計算收集到的該經(jīng)驗的初始優(yōu)先級,這可確保進入回放池中的數(shù)據(jù)具有更準確的優(yōu)先級,而無須中心學習者產(chǎn)生額外的計算費用。 2.4 分布式探索步長動態(tài)調(diào)整機制 針對人工劃定探索步長的盲目性問題,提出一種分布式的探索步長自適應動態(tài)調(diào)整(explore dynamic adjustment,EDA)機制,用于中心決策智能體的探索策略,而分布式智能體以中心決策智能體的學習效果為基準,調(diào)整本地探索策略,如圖3所示。 使用Et來表示中心決策智能體在訓練周期t下的學習狀況。該值為智能體在當前訓練周期和上一訓練周期的最大Q值之差(p,j∈D且p≠j): Et=Qcentremaxt(sp,ap;w)-Qcentremaxt-1(sj,aj;wt-1)(23) 期的探索應當調(diào)整衰減步長以盡量擺脫此探索策略; c)當Et=0時,認為學習已經(jīng)收斂或上一訓練周期的探索策略對于算法而言并非最佳策略,此時應當以當前衰減步長保持探索。 綜上,訓練周期i處探索策略參數(shù)ε的調(diào)整可表達為 在每個訓練周期的末尾,中心決策智能體將參數(shù)廣播給分布式部署的智能體。對于分布式架構,在每個訓練周期中各個智能體采用不同ε可以提高算法的性能[23]。設N為分布式智能體的個數(shù),為使智能體能充分探索各自本地環(huán)境以向回放池中累積更多樣化的經(jīng)驗數(shù)據(jù),每個分布式智能體i∈{0,…,N-1}對其本地環(huán)境的探索策略參數(shù)εidisperse為 其中:εidisperse與εicentre在每個訓練周期中保持不變。 3 實驗結果 3.1 參數(shù)設置 對于移動場景,使用Hass信道[11]進行模擬,每個設備的最大移動速度為2.5 m/s,且每個設備每秒在[-0.5,0.5] m/s、[-0.175,0.175] rad/s間隨機更新速度與方向。圖4為設備在5 000個訓練周期中的運動軌跡。 算法的超參數(shù)設置如表1所示。 根據(jù)LTE標準[24]將路徑損耗定義為 PL(xs,x(t)r)=-(128.1+37.6×lg(xs,x(t)r))(26) 3.2 移動場景下的控制效果 設M為可用子頻帶數(shù)量,K為小區(qū)單元數(shù)量,N為蜂窩小區(qū)中的鏈路數(shù)量。訓練分為3個階段,每階段持續(xù)5 000個訓練周期。在每階段訓練開始時,隨機抽樣一個新的部署,并重置學習率等參數(shù)。圖5(a)給出了頻帶數(shù)量對所提算法平均頻譜效率的影響。在單頻帶場景下,系統(tǒng)的平均頻譜效率最低。隨著可用頻帶數(shù)量的增長,相同小區(qū)單元與鏈路數(shù)量下的平均頻譜效率也隨之增長,這說明分層策略不僅在靜止場景下有效[13],在移動場景下也是有效的。 在相同部署條件的移動場景下,將所提算法(proposed)與隨機功率分配和頻帶選擇方法(random)、傳統(tǒng)集中迭代式算法[3](ideal FP)、單層聯(lián)合控制算法[11](joint)、基于常規(guī)經(jīng)驗回放策略的分層算法[13](ER)進行對比研究。此外,從所提算法中去掉動態(tài)步長調(diào)整策略,作為一種對比實驗方法(w/o EDA),以分析動態(tài)步長調(diào)整策略的有效性。 圖5(b)~(d)分別展示了子頻帶數(shù)量為1、4和8時所提算法與對比方法的性能。可以看出,random和ideal FP在各種場景的訓練過程中均沒有表現(xiàn)出性能上的明顯提升,在訓練結束時其性能低于所有其他方法,在本節(jié)后續(xù)分析中不做進一步討論。當M=1時,如圖5(b)所示,基于頻帶分配策略的方法(proposed、ER和w/o EDA)在平均頻譜效率上均未能超越傳統(tǒng)迭代式算法(ideal FP和joint);在收斂速度上proposed和w/o EDA略慢于其他方法;當M=4時,如圖5(c)所示,由于蜂窩網(wǎng)絡中的各鏈路在傳輸數(shù)據(jù)時有多個頻帶可供選擇,proposed和w/o EDA的平均頻譜效率和收斂速度均優(yōu)于joint,而joint則優(yōu)于ideal FP。圖5(b)和(c)說明,對中心決策智能體而言,當頻帶數(shù)量不多(M≤4)時,探索得到的經(jīng)驗數(shù)量少,常規(guī)的經(jīng)驗回放策略仍然能夠充分抽取由分布式智能體探索得到的經(jīng)驗數(shù)據(jù)(諸如邊界信息),達到與優(yōu)先經(jīng)驗回放近似的效果。當M=8時,圖5(d)顯示proposed和w/o EDA的平均頻譜效率和收斂速度明顯優(yōu)于其他方法。 3.3 優(yōu)先經(jīng)驗回放效果 在圖5(d)中,相比同為強化學習方法的ER、proposed與w/o EDA顯著提高了平均頻譜效率。為了進一步說明優(yōu)先經(jīng)驗回放的效果,圖6展示了在M=8,(K,N)=(5,20)下proposed、w/o EDA和ER的訓練平均獎勵值的變化。顯然,采用優(yōu)先經(jīng)驗回放的proposed和w/o EDA其獎勵曲線比ER更為平穩(wěn),且在7 500個訓練周期之后已基本收斂,而ER在整個訓練周期上未能趨于平緩。相比w/o EDA,proposed的訓練平均獎勵值波動更小,且顯示出更快的收斂速度。 3.4 步長自適應調(diào)整效果 對于各種強化學習方法而言,圖5(b)~(d)中的曲線重疊較為嚴重,為了更清晰地呈現(xiàn)實驗結果,表2給出了其在相同部署條件下最后200個訓練周期的平均鏈路頻譜效率??梢钥闯?,相比ER,在M=1和4時w/o EDA的平均鏈路頻譜效率要略低,而proposed則有改善;在M=8時,w/o EDA超越了ER,提升了0.16,proposed則提升了0.34。對中心決策智能體而言,proposed的步長自適應調(diào)整機制使得其可以根據(jù)實際學習情況調(diào)整對數(shù)據(jù)的探索,從而有助于找到最優(yōu)策略。 3.5 測試集表現(xiàn) 對所有算法測試其經(jīng)訓練的策略在不同頻帶數(shù)量情形下的性能,各次實驗采用隨機生成的部署方案,最后200個訓練周期的平均頻譜效率結果如表3所示。 相比于傳統(tǒng)迭代式算法,joint算法以增加輸出層為代價,換取了頻譜效率的提升。隨著頻帶數(shù)量的增多,基于頻帶分配策略的算法(proposed、ER和w/o EDA)取得了比joint更高的平均頻譜效率,這主要是由于joint的動作空間與輸出層的復雜性引起的。 相比于w/o EDA,ER在較少頻帶數(shù)場景(M≤4)下性能良好,而在較多頻帶數(shù)場景(M=8)下沒有表現(xiàn)出明顯優(yōu)勢。這是由于ER算法以均勻抽樣為策略的經(jīng)驗回放缺少對高信息量數(shù)據(jù)的關注,不易于學習最佳策略。 proposed在測試集所示的各種頻帶場景下都有高于其他算法的性能表現(xiàn)。proposed結合步長自適應調(diào)整和優(yōu)先經(jīng)驗回放,對回放池中的經(jīng)驗有針對地學習,避免了盲目探索,從而更快學習到最優(yōu)策略。 4 結束語 針對頻分多址系統(tǒng)移動場景下的同信道干擾問題,提出了一種聯(lián)合頻帶選取與功率控制的多智能體強化學習框架。優(yōu)先經(jīng)驗回放策略解決了常規(guī)經(jīng)驗回放策略難以學習到有價值的經(jīng)驗、導致收斂速度較慢的問題,而探索步長動態(tài)調(diào)整的機制避免了對環(huán)境探索的盲目性,智能體可根據(jù)學習情況采用更合理的探索行為。實驗結果表明,隨頻帶數(shù)量的增加,所提算法具有更好的收斂性能和更高的平均頻譜效率。未來將研究更易于調(diào)整的訓練和探索方案,以適應多智能體部署所帶來的環(huán)境非平穩(wěn)性。 參考文獻: [1]Luo Zhiquan,Zhang Shuzhong. Dynamic spectrum management: complexity and duality[J]. IEEE Journal of Selected Topics in Signal Processing,2008,2(1): 57-73. [2]Tan Junjie,Zhang Lin,Liang Yingchang. Deep reinforcement learning for channel selection and power control in D2D networks[C]//Proc of IEEE Global Communications Conference. Piscataway,NJ:IEEE Press,2019: 1-6. [3]Shen Kaiming,Yu Wei. Fractional programming for communication systems—Part I: power control and beamforming[J]. IEEE Trans on Signal Processing,2018,66(10): 2616-2630. [4]Sun Haoran,Chen Xiangyi,Shi Qingjiang,et al. Learning to optimize: training deep neural networks for interference management[J]. IEEE Trans on Signal Processing,2018,66(20): 5438-5453. [5]Tan Junjie,Liang Yingchang,Zhang Lin,et al. Deep reinforcement learning for joint channel selection and power control in D2D networks[J]. IEEE Trans on Wireless Communications,2020,20(2): 1363-1378. [6]Qin Zhijin,Ye Hao,Li Ye,et al. Deep learning in physical layer communications[J]. IEEE Wireless Communications,2019,26(2): 93-99. [7]Hu Qiang,Gao Feifei,Zhang Hao,et al. Deep learning for channel estimation: interpretation,performance,and comparison[J]. IEEE Trans on Wireless Communications,2020,20(4): 2398-2412. [8]Nasir Yasar Sinan,Guo Dongning. Multiagent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications,2019,37(10): 2239-2250. [9]Meng Fan,Chen Peng,Wu Lenan,et al. Power allocation in multiuser cellular networks: deep reinforcement learning approaches[J]. IEEE Trans on Wireless Communications,2020,19(10): 6255-6267. [10]Zhao Nan,Liu Zehua,Cheng Yiqiang. Multiagent deep reinforcement learning for trajectory design and power allocation in multiUAV networks[J]. IEEE Access,2020,8: 139670-139679. [11]Nasir Y S,Guo Dongning. Deep actorcritic learning for distributed power control in wireless mobile networks[C]//Proc of the 54th Asilomar Conference on Signals,Systems,and Computers. Piscataway,NJ:IEEE Press,2020: 398-402. [12]Lu Ziyang,Zhong Chen,Gursoy C. Dynamic channel access and power control in wireless interference networks via multiagent deep reinforcement learning[J]. IEEE Trans on Vehicular Technology,2021,71(2): 1588-1601. [13]Nasir Y S,Guo Dongning. Deep reinforcement learning for joint spectrum and power allocation in cellular networks[C]//Proc of IEEE GlobeCom Workshops. Piscataway,NJ:IEEE Press,2021: 1-6. [14]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay[EB/OL]. (2016). https://arxiv.org/abs/1511.05952. [15]Auer P,Cesa B N,F(xiàn)ischer P. Finitetime analysis of the multiarmed bandit problem[J]. Machine Learning,2002,47: 235-256. [16]李琛,李茂軍,杜佳佳. 一種強化學習行動策略εgreedy的改進方法[J]. 計算技術與自動化,2019,38(2): 141-145.(Li Chen,Li Maojun,Du Jiajia. A reinforcement learning action strategy εimprovement methods for greedy[J].Computing Technology and Automation,2019,38(2): 141-145.) [17]Nguyen T T,Nguyen N D,Nahavandi S. Deep reinforcement learning for multiagent systems: a review of challenges,solutions,and applications[J]. IEEE Trans on Cybernetics,2020,50(9): 3826-3839. [18]Ren Jinke,He Yinghui,Wen Dingzhu,et al. Scheduling for cellular federated edge learning with importance and channel awareness[J]. IEEE Trans on Wireless Communications,2020,19(11): 7690-7703. [19]Liang Le,Peng Haixia,Li Ye,et al. Vehicular communications: a physical layer perspective[J]. IEEE Trans on Vehicular Technology,2017,66(12): 10647-10659. [20]陳曉玉,周佳玲. 分布式強化學習在經(jīng)濟調(diào)度問題中的應用[J]. 控制工程,2022,29(3): 480-485.(Chen Xiaoyu,Zhou Jialing. Application of distributed reinforcement learning in economic scheduling problems[J]. Control Engineering,2022,29(3): 480-485.) [21]何斌,劉全,張琳琳,等. 一種加速時間差分算法收斂的方法[J]. 自動化學報,2021,47(7): 1679-1688.(He Bin,Liu Quan,Zhang Linlin,et al. A method for accelerating the convergence of time difference algorithms[J]. Acta Automatica Sinica,2021,47(7): 1679-1688.) [22]李艷,賀靜,武優(yōu)西. 種子節(jié)點貪婪擴張的重疊社區(qū)發(fā)現(xiàn)方法[J]. 小型微型計算機系統(tǒng),2019,40(5): 1115-1119.(Li Yan,He Jin,Wu Youxi. Overlapping community discovery method based on greedy expansion of seed nodes[J]. Journal of Chinese Computer System,2019,40(5): 1115-1119.) [23]Horgan D,Quan J,Budden D,et al. Distributed prioritized experience replay[EB/OL]. (2018). https://arxiv.org/abs/ 1803.00933. [24]Li Jing,Guo Dongning. A resource allocation and coordinated transmission scheme for large cellular networks[EB/OL]. (2020). https://arxiv.org/abs/ 2004.07949.