亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異構(gòu)云無線接入網(wǎng)下基于功率域NOMA的能效優(yōu)化算法

        2021-06-24 09:39:16李子煜管令進陳前斌
        電子與信息學(xué)報 2021年6期
        關(guān)鍵詞:優(yōu)化策略模型

        唐 倫 李子煜 管令進 陳前斌

        (重慶郵電大學(xué)通信與信息工程學(xué)院 重慶 400065)

        (重慶郵電大學(xué)移動通信技術(shù)重點實驗室 重慶 400065)

        1 引言

        隨著智能設(shè)備的爆炸性增長,諸如增強現(xiàn)實和虛擬現(xiàn)實等新興高速率服務(wù)以及構(gòu)建物聯(lián)網(wǎng)(Internet of Things, IoT)的海量設(shè)備,使得設(shè)計高效的能效通信系統(tǒng)迫在眉睫,進而實現(xiàn)綠色經(jīng)濟和可持續(xù)發(fā)展的運營。與4G系統(tǒng)相比,5G系統(tǒng)需要達到1 ms的時延、10倍的頻譜效率、100倍的能效以及1000倍的系統(tǒng)容量。作為有前景的新技術(shù)和網(wǎng)絡(luò)體系結(jié)構(gòu),異構(gòu)云無線接入網(wǎng)(Heterogeneous Cloud Radio Access Networks, H-CRAN)引起了業(yè)界和學(xué)術(shù)界的極大關(guān)注??梢灶A(yù)見,在H-CRAN中將采用各式的多址接入技術(shù),以減輕小區(qū)間和小區(qū)內(nèi)的干擾,并改善網(wǎng)絡(luò)頻譜效率和能效。作為一種新的多址方案,非正交多址接入(Non-Orthogonal Multiple Access, NOMA)被認為是有望顯著地改善5G移動通信網(wǎng)絡(luò)的頻譜效率和能效的候選方案。文獻[1]采用混合多址接入技術(shù)提高頻譜效率,NOMA技術(shù)中的非正交性具有高頻效、能效以及低傳輸時延的潛在優(yōu)勢。因此,本文在H-CRAN的下行傳輸場景下利用NOMA技術(shù)來最大化網(wǎng)絡(luò)能效。

        文獻[2]在H-CRAN下行傳輸場景下研究網(wǎng)絡(luò)能效性能,聯(lián)合優(yōu)化基站選擇、子載波分配和功率分配,構(gòu)建網(wǎng)絡(luò)能效最大化的目標函數(shù),利用連續(xù)凸近似理論進行求解,進而提高H-CRAN的能效性能。文獻[3]在異構(gòu)云無線接入網(wǎng)絡(luò)的場景下提出一種能效優(yōu)化算法,利用李雅普諾夫優(yōu)化理論和拉格朗日對偶分解方法對優(yōu)化問題進行求解。文獻[4]在H-CRAN下行鏈路場景下,建立了網(wǎng)絡(luò)總吞吐量最大化的隨機優(yōu)化模型,通過深度強化學(xué)習(xí)和遷移學(xué)習(xí)算法,智能化分配無線資源,提高網(wǎng)絡(luò)的穩(wěn)定性。

        盡管上述的文獻在無線資源分配上都取得了較好的研究成果,但仍然需要進一步的改進,主要存在3方面的問題:(1)多數(shù)工作忽略了NOMA技術(shù)帶來的頻譜效率和能效優(yōu)勢,同時沒有考慮前傳容量受限給接入網(wǎng)帶來的吞吐量瓶頸,進而與實際的網(wǎng)絡(luò)場景相脫離,無法取得合適的資源分配方案;(2)大多數(shù)研究仍采用傳統(tǒng)非線性優(yōu)化算法,當優(yōu)化問題出現(xiàn)高維狀態(tài)空間或動作空間時,可能會導(dǎo)致維度災(zāi)問題,使得優(yōu)化算法陷入局部最優(yōu)解;(3)盡管深度Q學(xué)習(xí)對無線資源的自優(yōu)化具有一定的幫助,但其需要對動作空間進行離散化處理,導(dǎo)致求解的資源分配策略非常不穩(wěn)定。此外,基于連續(xù)域的置信域策略優(yōu)化(Trust Region Policy Optimization, TRPO)算法產(chǎn)生的計算量較為龐大,導(dǎo)致算法性能得不到有效的提升。

        針對上述提出的問題,本文在H-CRAN下提出一種基于功率域-非正交多址接入(Power Domain Non-Orthogonal Multiple Access, PD-NOMA)的能效優(yōu)化算法。所提算法的主要創(chuàng)新點如下:(1)為提高網(wǎng)絡(luò)的頻譜效率和能效,聯(lián)合優(yōu)化用戶關(guān)聯(lián)、功率分配和資源塊(Resource Block, RB)分配,構(gòu)建用戶公平性和網(wǎng)絡(luò)能效的優(yōu)化模型;(2)針對無線網(wǎng)絡(luò)資源分配的復(fù)雜性和動態(tài)性難題,引入基于自學(xué)習(xí)的置信域策略優(yōu)化算法,大大降低了動作空間的維度,進而避免維度災(zāi)問題;(3)針對TRPO算法的標準解法產(chǎn)生的計算量較為龐大,采用近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法進行優(yōu)化求解,進一步提高算法效率。

        2 問題描述與系統(tǒng)模型

        2.1 基于PD-NOMA的異構(gòu)云無線接入網(wǎng)架構(gòu)

        考慮H-CRAN下行傳輸場景,如圖1所示,建立了一個基于NOMA的H-CRAN架構(gòu),遠端無線射頻單元(Remote Radio Head, RRH)具有天線模塊,只需執(zhí)行射頻處理以及簡單的基帶處理,主要的基帶信號處理以及上層協(xié)議功能均在集中式基帶單元(Base Band Unite, BBU)池中執(zhí)行,RRH通常部署在熱點區(qū)域負責(zé)海量數(shù)據(jù)業(yè)務(wù)的高速傳輸[5]。高功率節(jié)點(High Power Node, HPN)用于全網(wǎng)的控制信息分發(fā),突發(fā)業(yè)務(wù)以及即時信息等低速率數(shù)據(jù)信息也由HPN承載,確保業(yè)務(wù)的無縫覆蓋[6]。以此同時,采用基于PD-NOMA來提升頻譜效率和網(wǎng)絡(luò)能效,PD-NOMA允許不同用戶占用相同的頻譜、時間和空間等資源,通過主動引入干擾進一步地提升單用戶速率和系統(tǒng)的和速率,尤其是保障了小區(qū)邊緣用戶速率。

        2.2 無線通信模型

        圖1 基于PD-NOMA的異構(gòu)云無線接入網(wǎng)架構(gòu)

        2.3 前傳鏈路模型

        隨著移動設(shè)備的大量普及,移動流量也急劇增加,需要一種大容量、高可靠和低時延的傳輸網(wǎng)絡(luò)作為前傳網(wǎng)絡(luò),以此來滿足移動用戶越來越多的業(yè)務(wù)需求。在目前的前傳網(wǎng)絡(luò)選擇中,無源光網(wǎng)絡(luò)(Passive Optical Network, PON)具備低成本、大容量的特性,是一種高效可行的前傳網(wǎng)絡(luò)解決方案[7]。PON作為云無線接入網(wǎng)絡(luò)(Cloud-Radio Access Network, C-RAN)的前傳網(wǎng)絡(luò),不僅能夠滿足C-RAN架構(gòu)對前傳鏈路的傳輸要求,同時還能應(yīng)對5G網(wǎng)絡(luò)帶來的高可靠、低時延和低損耗的無線網(wǎng)絡(luò)需求。

        如圖2所示,PON是典型的一對多傳輸網(wǎng)絡(luò),其固有無源特性能夠為前傳鏈路提供極大的帶寬容量和較長距離覆蓋等優(yōu)勢,PON稱為H-CRAN中光前傳網(wǎng)絡(luò)的最佳選擇。因此,前傳容量限制的模型為

        圖2 前傳鏈路框圖

        其中,?m表示第m 個RRH的有效前傳容量。

        2.4 網(wǎng)絡(luò)能耗模型

        由于H-CRAN和傳統(tǒng)移動網(wǎng)絡(luò)的架構(gòu)不一樣,傳統(tǒng)網(wǎng)絡(luò)的能耗模型不一定適用于H-CRAN。因此,本文在H-CRAN中建立了完善的網(wǎng)絡(luò)能耗模型來描述RRHs, HPN, BBU池和前傳鏈路的能耗

        在建模前傳鏈路的能耗時,本文考慮的是基于時分復(fù)用的無源光傳輸網(wǎng)絡(luò),PON包括一個光線路終端(Optical Line Terminal, OLT),該終端通過單個光纖連接一組相關(guān)光網(wǎng)絡(luò)單元(Optical Network Unit, ONU)。根據(jù)文獻[8]的分析,前傳鏈路的總功耗為

        2.5 兩級隊列模型

        根據(jù)文獻[9]的分析,本文使用兩級隊列模型來描述從核心網(wǎng)傳輸數(shù)據(jù)給用戶。如圖3所示,核心網(wǎng)傳輸給用戶的業(yè)務(wù)數(shù)據(jù)首先進入基帶資源池,首先分配給BBUs內(nèi)的每個虛擬機。在VM的隊列長度中處理后,數(shù)據(jù)將被傳輸?shù)椒?wù)于用戶的RRHs,再通過無線通道傳輸?shù)接脩簟?/p>

        圖3 兩級隊列架構(gòu)

        本文將能效ηEE定義為整個網(wǎng)絡(luò)長期時間下的和速率與長期的能量消耗的比值。在業(yè)務(wù)隊列穩(wěn)定的前提下,基于PD-NOMA技術(shù)的H-CRAN中能效問題被建模為如下隨機優(yōu)化問題

        3 問題轉(zhuǎn)化與算法描述

        3.1 基于TRPO的能效優(yōu)化算法

        本文除了考慮約束條件外,還綜合考慮網(wǎng)絡(luò)功耗,于是資源分配問題變成了NP-hard問題,難以求出最優(yōu)解。根據(jù)文獻[12]的分析,深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)可以通過與動態(tài)環(huán)境進行交互獲取最優(yōu)解,從而提升系統(tǒng)的總能效,但它只能處理低維和離散的動作空間,不能直接應(yīng)用于連續(xù)域。因此,本節(jié)將引入基于連續(xù)性DRL的能效優(yōu)化算法,利用RL與無線網(wǎng)絡(luò)進行交互,并通過DL的非線性函數(shù)近似特征,使得基站做出滿足優(yōu)化目標的最佳決策。

        策略梯度算法的缺陷在于更新步長難以確定,當步長不合適時,更新的參數(shù)所對應(yīng)的資源分配策略是一個更不好的策略。因此,合適的步長對于整個H-CRAN系統(tǒng)是非常關(guān)鍵。本文的TRPO算法通過尋找使得回報獎勵函數(shù)單調(diào)遞增的步長,進而逐步完善網(wǎng)絡(luò)的資源分配策略,將新策略所對應(yīng)的回報函數(shù)分解成舊的策略所對應(yīng)的回報函數(shù)加上優(yōu)勢函數(shù)項,如式(18)所示

        3.2 近端策略優(yōu)化算法

        對于上述的目標函數(shù),為了求解出最佳的資源分配策略。首先,需要將目標函數(shù)進行1階近似;其次,利用泰勒級數(shù)對約束條件進行2次展開;最后利用共軛梯度的方法求解更新的參數(shù)。當選用深度神經(jīng)網(wǎng)絡(luò)表示策略參數(shù)時,TRPO的標準解法產(chǎn)生的計算量較為龐大[13],較難應(yīng)用到H-CRAN網(wǎng)絡(luò)的策略更新中。根據(jù)2017年OpenAI提出的PPO算法,其策略參數(shù)通過梯度估算進行迭代優(yōu)化。PPO不需要估算狀態(tài)轉(zhuǎn)移函數(shù),可以應(yīng)用于大規(guī)模的連續(xù)域控制問題,因此,本文將使用PPO算法對式(21)的目標函數(shù)進行優(yōu)化,獲得最優(yōu)的基站關(guān)聯(lián)策略、RB分配策略以及用戶功率分配策略。PPO是基于參考策略πθ0ld的η1階近似值來對πθ的參數(shù)進行局部優(yōu)化,兩者間的概率比表示為

        為了提高網(wǎng)絡(luò)的能效性能,Actor和Critic中神經(jīng)網(wǎng)絡(luò)的權(quán)重值都需要通過反復(fù)的學(xué)習(xí)來擬合復(fù)雜的環(huán)境特征,具體的訓(xùn)練模型如圖4所示。該過程通過最小化Critic神經(jīng)網(wǎng)絡(luò)的損失函數(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù):

        圖4 PPO算法框圖

        為了使Actor神經(jīng)網(wǎng)絡(luò)獲得最佳的策略,通過最大化Actor的神經(jīng)網(wǎng)絡(luò)損失函數(shù)來訓(xùn)練其權(quán)重參數(shù)

        其中,σ 為超參數(shù),取值為0.2,即:縮減該變化率在0.8~1.2之間,以保證策略更新不會過大。在Actor-old網(wǎng)絡(luò)中,其權(quán)重參數(shù)通過Actor-new網(wǎng)絡(luò)定期地進行賦值更新,具體的學(xué)習(xí)流程如表1所示。

        表1 近端策略優(yōu)化PPO訓(xùn)練Actor網(wǎng)絡(luò)參數(shù)算法

        通過算法1將PPO模型訓(xùn)練好后,可以獲取Actor神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)重參數(shù)。利用上述參數(shù),基站可以獲得最優(yōu)的策略來進行用戶關(guān)聯(lián)、RB分配以及功率分配,并且取得最大的能效性能。

        4 仿真與討論

        在這一節(jié)中,通過與深度Q 學(xué)習(xí)算法[14]和TRPO算法[13]的對比研究,詳細地分析所提算法的性能。

        4.1 參數(shù)設(shè)置

        本文設(shè)置的網(wǎng)絡(luò)拓撲大小為800×800 m2, 1個HPN放置在網(wǎng)絡(luò)中心位置,10個RRH均勻分布在網(wǎng)絡(luò)中,HUE用戶數(shù)為4, RUE用戶數(shù)為35,且均勻地分布在HPN和RRH上。在仿真中,系統(tǒng)的時隙長度 τ為10 ms,總帶寬為10 MHz,子載波數(shù)目設(shè)置為32,無線信道被建模為瑞利信道,噪聲功率密度為—174 dBm/Hz, HPN的路徑損耗模型為31.5+40.0 lg(d)、R R H 的路徑損失模型為31.5+35.0 lg(d)。HPN的最大發(fā)射功率為43 dBm,RRH的最大發(fā)射功率為29 dBm, RRH和HPN的靜態(tài)功率消耗分別為3.5 W和84 W。由于本文采用基于連續(xù)性的深度強化學(xué)習(xí)的算法來解決H-CRAN資源分配問題,還需要對神經(jīng)網(wǎng)絡(luò)中的參數(shù)進行訓(xùn)練,經(jīng)驗回放池的大小設(shè)置為5000,batch的大小為32。

        4.2 性能分析

        本節(jié)通過PPO算法的訓(xùn)練討論了batch大小和損失函數(shù)對無線網(wǎng)絡(luò)性能的影響。如圖5所示,不同batch大小會使得系統(tǒng)的能效性能表現(xiàn)出巨大的差異,在batch較小的情況下,網(wǎng)絡(luò)有可能會陷入局部最優(yōu)解,并且算法的收斂速度較為緩慢。因此,合適的batch大小是DL的訓(xùn)練非常重要,本文將batch大小選為32。

        圖6展示了不同到達率對用戶的平均隊列長度的影響,隨著仿真時隙的增加,平均隊列長度起始迅速增加,隨后趨于穩(wěn)定。這也說明了所提的PPO算法可以有效地保證系統(tǒng)隊列穩(wěn)定性。以外,在不同到達率的條件下,平均隊列長度會有所不同,隨著到達率的增加,平均隊列長度會越來越大。

        如圖7展示了不同算法下用戶數(shù)對網(wǎng)絡(luò)能效的影響,隨著用戶的增加,網(wǎng)絡(luò)的吞吐量將占主導(dǎo)地位,網(wǎng)絡(luò)能效越來越好。此外,由于PPO算法既解決了DQN算法無法應(yīng)用于連續(xù)性以及高維動作空間的問題,又大大降低了TRPO算法的計算復(fù)雜度,因此,PPO算法對無線網(wǎng)絡(luò)產(chǎn)生能效優(yōu)勢遠遠好于TRPO和DQN算法。如圖8所示,PPO算法較TRPO算法而言,計算復(fù)雜度更低,從而可以更加快速、合理地獲得最優(yōu)的資源分配策略,避免不必要的能耗浪費。PPO算法較DQN算法而言,完美地解決了DQN在連續(xù)型環(huán)境下需要離散化的問題,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以獲得更加完善的狀態(tài)信息,進而更合理地分配無線資源。

        圖5 PPO算法下不同batch的網(wǎng)絡(luò)能效

        圖6 不同到達率的平均隊列長度

        圖7 不同算法下的網(wǎng)絡(luò)能效

        圖8 不同算法下的網(wǎng)絡(luò)能耗

        5 結(jié)論

        本文在H-CRAN下行傳輸場景下,以隊列穩(wěn)定和前傳鏈路為約束,聯(lián)合優(yōu)化用戶關(guān)聯(lián)、RB分配和功率分配,構(gòu)建用戶公平和網(wǎng)絡(luò)能效的隨機優(yōu)化問題。將隨機優(yōu)化問題轉(zhuǎn)化為置信域策略優(yōu)化問題,通過自學(xué)習(xí)的方法求解最佳策略。此外,針對TRPO算法的標準解法產(chǎn)生的計算量較為龐大,采用PPO算法進行優(yōu)化求解。仿真結(jié)果表明,本文所提算法在保證隊列穩(wěn)定約束下,進一步提高了網(wǎng)絡(luò)的能效性能。

        猜你喜歡
        優(yōu)化策略模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        99久久精品自在自看国产| 最新露脸自拍视频在线观看| 久久96国产精品久久久| 国产精品午夜无码av天美传媒| 中文字幕在线久热精品| 亚洲av一区二区网址| 中文字幕一区二区三区日韩网| 亚洲女同精品一区二区久久| 五月色丁香婷婷网蜜臀av| 丰满岳妇乱一区二区三区| 欧美成人看片黄a免费看| 午夜免费福利一区二区无码AV| 日本精品少妇一区二区| 激情内射亚洲一区二区三区| 激烈的性高湖波多野结衣| 精品一区二区三区无码视频| 亚洲AV无码国产精品色午夜软件| 亚洲精品中文字幕91| 成年性生交大片免费看| 狠狠躁夜夜躁人人爽天天天天97| 欧美午夜精品久久久久久浪潮| 免费观看在线一区二区| 日韩精品一区二区在线天天狠天| 激情影院内射美女| 亚洲AV秘 片一区二区三| 在线观看国产av一区二区| 亚洲国产区中文在线观看 | 国产午夜精品av一区二区三| 国产精品激情自拍视频| 亚洲国产精品成人无码区| 国产成人精品三级91在线影院| 久久伊人中文字幕有码久久国产 | 国产综合精品久久99之一| 久久综合狠狠综合久久| 国产亚洲美女精品久久| 激情亚洲不卡一区二区| 国产在线视频一区二区天美蜜桃| 免费99精品国产自在在线| 福利视频一二区| 少妇人妻无一区二区三区| 国产激情综合在线观看|