亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        超密集異構網(wǎng)中的Q學習資源調(diào)度算法

        2019-09-23 07:10尼俊紅史上樂
        現(xiàn)代電子技術 2019年18期
        關鍵詞:宏基資源分配吞吐量

        尼俊紅,史上樂

        (華北電力大學 電子與通信工程系,河北 保定 071003)

        0 引 言

        超密集異構網(wǎng)絡被認為是提高系統(tǒng)吞吐量的有效方法[1]。在超密集網(wǎng)絡中,增加本地頻譜的重用可以應對覆蓋和容量增長的需求[2]。但所有基站(Base Station,BS)同時使用相同的頻率資源,小區(qū)間干擾(Inter-cell Interference,ICI)會變得很強,這將會導致信號干擾噪聲比(Signal to Interference plus Noise Ratio,SINR)的降低,從而限制系統(tǒng)的整體吞吐量[3]。因此,超密集部署中的干擾管理尤為重要。

        現(xiàn)階段對小區(qū)間干擾管理和增強學習算法應用的研究已取得一些成果。文獻[4]研究基于Q 學習的毫微微蜂窩系統(tǒng)的功率控制,提高了邊緣用戶的服務質(zhì)量。文獻[5]根據(jù)用戶密度和干擾水平進行區(qū)域劃分,針對不同的區(qū)域進行資源分配。文獻[6]提出一種分布式Q 學習算法,但由于毫微微蜂窩基站之間沒有信息交換,影響了調(diào)度速度。文獻[7]提出基于多主體的Q 學習方案,來提高小區(qū)邊緣用戶的吞吐量。文獻[8]提出一種分布式Q 學習算法在采用不同技術的接入節(jié)點之間進行卸載和接入。文獻[9]利用Q 學習在不同場景下進行資源分配,有效提高吞吐量,但由于收斂時間過長,在一定程度上影響了用戶通信。文獻[10]根據(jù)干擾對小小區(qū)進行分簇和資源正交化處理,但通過這樣的方式進行干擾協(xié)調(diào)是以降低整個系統(tǒng)的頻譜利用率為代價的。

        現(xiàn)有資源分配方面的研究多以小小區(qū)用戶為研究對象,研究如何對每個用戶進行合理的資源分配。本文主要工作體現(xiàn)在以下方面:

        1)將小基站進行分簇,簇內(nèi)用戶只接入簇內(nèi)小小區(qū)基站;

        2)將用戶變動作為觸發(fā)條件,聯(lián)合考慮了用戶接入和資源優(yōu)化問題,以系統(tǒng)吞吐量和能量效率為優(yōu)化目標,利用Q 學習方法來學習簇間資源調(diào)度和簇內(nèi)小小區(qū)資源分配的最佳策略;

        3)通過閾值因子和時間系數(shù)加快Q 表的收斂速度。

        1 系統(tǒng)模型

        本文考慮超密集異構網(wǎng)絡場景,研究區(qū)域中心有一個宏基站,其覆蓋范圍內(nèi)均勻分布著H個小小區(qū)基站。設蜂窩用戶設備(Cellular User Equipment,CUE)的數(shù)量為M,小小區(qū)用戶設備(Small-cell User Equipment,SUE)的數(shù)量為N,這些用戶隨機分布在系統(tǒng)覆蓋范圍內(nèi)。本文考慮超密集異構網(wǎng)絡的下行鏈路傳輸,由超密集網(wǎng)絡的定義可知[11],H>N。為了簡化接入過程,每個小小區(qū)只接入一個用戶,每個用戶選擇簇內(nèi)參考信號接收功率(Reference Signal Receiving Power,RSRP)最高的小區(qū)作為其服務小區(qū),若該小小區(qū)基站已經(jīng)存在服務用戶,則選擇簇內(nèi)其余小小區(qū)中參考信號接收功率最高的小小區(qū)進行接入。

        假設宏小區(qū)和小小區(qū)共享相同的信道環(huán)境,所有CUE 之間采用相互正交的頻譜資源,則存在兩種類型的干擾,即跨層干擾(宏小區(qū)和小小區(qū)之間)和同層干擾(小小區(qū)之間)。 就UDN 而言,同層干擾可能非常強,這極大地限制了小小區(qū)的容量。如何有效地將資源分配給H個小小區(qū)將是需要解決的主要問題。

        本文的優(yōu)化目標是通過尋找最佳的資源分配策略,在保持宏小區(qū)吞吐量的基礎上最大化小小區(qū)吞吐量。假設系統(tǒng)有NRB個資源塊(Resource Block,RB),定義Tp為系統(tǒng)的總吞吐量,即:

        式中,TUCE和TSUE分別表示系統(tǒng)內(nèi)所有 CUE 和 SUE 的吞吐量之和。用T mCUE表示第m個宏基站用戶單位帶寬的容量:

        式中:xim為資源占用指示變量,為 1 時表示第i個 SUE 占用與第m個CUE 相同的資源,為0 時表示不占用;P為宏基站的發(fā)射功率;pi為與第i個SUE 關聯(lián)的小小區(qū)基站的發(fā)射功率;σ2為高斯白噪聲;hcm為宏基站c 到第m個宏基站用戶的信道增益;him為第i個小小區(qū)用戶關聯(lián)的小基站到第m個CUE 的信道增益。綜上可得系統(tǒng)內(nèi)所有CUE 的吞吐量TCUE為:

        式中Bwi為第i個CUE 獲得的帶寬。類似地,系統(tǒng)內(nèi)所有SUE 的吞吐量TSUE為:

        資源分配的最終優(yōu)化目標即找到合適的資源占用指示變量矩陣X來最大化系統(tǒng)的總吞吐量Tp。其中,限制條件為:

        即:資源占用指示變量只等于0 或1;系統(tǒng)內(nèi)宏基站的信噪比不低于預先設定的蜂窩閾值下限SINRC_th。

        2 基于Q學習的資源調(diào)度算法

        引入Q 學習(Q-learning,QL)算法,以獲得最佳資源調(diào)度和分配策略。

        2.1 Q學習在資源分配下的參數(shù)

        Q 學習是增強學習的典型方法,已被證明可以收斂[12]。Q 學習的主體稱為代理,Q 學習代理必須具有以下參數(shù):

        S(S={s1,s2,…})是一組狀態(tài),A(A={a1,a2,…})是一組動作。本文中,在時刻t,對于某個SUE,狀態(tài)設定為st=(r,k,w)。對所有小小區(qū)基站按照位置進行均勻分簇,r表示用戶的位置處于哪一個小小區(qū)c簇內(nèi);k為用戶接入的小小區(qū)基站;w為此基站當前資源的占用狀態(tài)。將小小區(qū)可復用的連續(xù)資源塊依次分為W組,小小區(qū)用戶每次只占用一組,w=1,2,…,W,表示占用的資源組編號。

        在狀態(tài)s下,動作集被定義為表示在狀態(tài)s時,小基站k的資源分配行為,即重新分配哪一組資源塊給用戶,動作集的大小由可復用的資源組數(shù)量決定。

        γ(0<γ<1)是對學習過程有影響的折扣因子;α(0<α<1)是學習率,它定義了新學習知識對以前學習知識的影響。本文中,折扣因子和學習率的值經(jīng)過超參數(shù)優(yōu)化分別設置為0.87 和0.56。

        Q(s,a)函數(shù)是Q(s,a)表,它存儲狀態(tài)-動作對及其值。估計在狀態(tài)s下選擇動作a的預期獎勵,并根據(jù)獎勵更新Q(s,a)表的值。

        對于某個狀態(tài)s,根據(jù)固定策略選擇動作a,如下:

        因此,Q 學習的最終目標是獲得最優(yōu)策略π(s),為此,這里需要獲得最佳Q(s,a)表。對于在特定狀態(tài)下采取的每個動作,代理與環(huán)境交互并估計所選動作的獎勵,然后根據(jù)固定規(guī)則更新Q(s,a)表。 每次更新Q(s,a)表時,代理都可以從中學習。一旦Q(s,a)經(jīng)過多次學習后收斂,就得到最優(yōu)的Q(s,a)函數(shù)。

        假設在狀態(tài)st下執(zhí)行動作后,狀態(tài)變?yōu)閟t+1,Q(s,a)表可以更新如下:

        式中,r(st,at)是在狀態(tài)st下進行行動at的獎勵。如果此行動at可將狀態(tài)st變?yōu)轭A期的st+1,則r(st,at)獲得正值;否則r(st,at)獲得負值。

        獎勵函數(shù)反映了所采取行動實現(xiàn)目標的有效性。在本文中,將反饋Δ作為獎勵函數(shù)考慮的主要因素,并將能量效率作為輔助因素。式(9)、式(10)中的獎勵函數(shù)R1,R2分別反映系統(tǒng)的速率優(yōu)化目標和能效優(yōu)化目標。

        反饋Δ定義為:

        式中:Cave為所有小小區(qū)的平均吞吐量;Cth為小小區(qū)用戶最低速率需求。小小區(qū)的平均吞吐量越大,獎勵函數(shù)值就越大。

        總的獎勵函數(shù)為R1和R2的加權和,w1,w2為權值,分別設為0.9 和0.1。獎勵函數(shù)可表示為:

        此外,為了使算法保證足夠的公平性且能夠快速收斂,本文設置了隨機數(shù)x和閾值因子f,使代理在開始時隨機學習。x∈( 0,1 ),若x>f,則選取動作集中對應Q值最大的動作;反之,則隨機選取動作。f的值為:

        式中:f0為f的初始值,設為 0.8;td是從給用戶進行第一次資源分配以來經(jīng)過的調(diào)度周期。

        2.2 算法具體實現(xiàn)過程

        本文在宏小區(qū)范圍內(nèi)以集中方式進行資源調(diào)度和策略的學習,在為簇和小小區(qū)進行資源調(diào)度時,能夠更有效降低干擾的影響,實現(xiàn)近乎最優(yōu)的資源分配策略。

        由于每個小小區(qū)復用資源的變更都會相應地改變系統(tǒng)內(nèi)的干擾狀態(tài),Q 表未收斂時,若系統(tǒng)內(nèi)有新用戶進入或舊用戶離開,采用輪詢方式為小小區(qū)簇重新進行資源調(diào)度,并在每個調(diào)度周期對簇內(nèi)小小區(qū)進行資源分配策略的更改,循環(huán)往復直到Q 表收斂。當Q 表收斂后,直接根據(jù)Q 表為新用戶分配資源即可。

        3 仿真結果分析

        3.1 仿真參數(shù)

        本文采用的路徑損耗模型和基站設置參照文獻[13],其系統(tǒng)仿真環(huán)境參數(shù)如表1所示。

        表1 系統(tǒng)仿真參數(shù)Table 1 Simulation parameters of system

        本文提到的折扣因子γ和學習率α的值分別設置為0.87 和0.56,閾值因子f的初始值f0設為0.8。系統(tǒng)內(nèi)有50 個資源塊,每個資源塊180 kHz。宏基站覆蓋區(qū)域半徑為500 m。

        3.2 仿真結果

        圖1為系統(tǒng)中所有用戶的吞吐量之和隨小小區(qū)用戶數(shù)量變化的情況。本文設置了2 種對比算法,分別為隨機算法與比例公平算法。其中隨機算法為在其他條件不變的情況下,小小區(qū)用戶與QL 算法使用相同數(shù)量的資源,系統(tǒng)隨機為用戶進行分配。比例公平(Proportional Fair,PF)算法為資源分配中的經(jīng)典算法,它為每個用戶設定一個PF 度量值來表示他們的優(yōu)先級,對優(yōu)先級高的用戶進行優(yōu)先分配。如圖1所示,從整體趨勢來說,3 種算法的系統(tǒng)總吞吐量均隨著小小區(qū)用戶數(shù)量的增多而增加,但是隨著小小區(qū)用戶的增多,用戶之間的干擾有所上升,故而吞吐量的增加速度有所減緩。本文在QL 算法獎勵函數(shù)的設定中,將吞吐量作為優(yōu)化指標之一,使得每次算法迭代都會讓系統(tǒng)為用戶分配最優(yōu)的資源,從圖中可以看出QL 資源分配算法要優(yōu)于隨機算法與比例公平算法。圖2繪制了系統(tǒng)的能量效率在不同算法條件下隨小小區(qū)用戶數(shù)量的變動,系統(tǒng)能量效率為系統(tǒng)的總吞吐量與基站總能耗的比值。

        圖1 系統(tǒng)吞吐量隨小小區(qū)用戶數(shù)量變化Fig.1 Variation of system throughput with the number of small-cell users

        圖2 系統(tǒng)能量效率隨小小區(qū)用戶數(shù)量變化關系Fig.2 Variation of system energy efficiency with the number of small-cell users

        從圖2可知,當用戶數(shù)量增加時,用戶間干擾會變大,系統(tǒng)總吞吐量增加速度減緩,然而基站的能耗穩(wěn)定增加,所以圖中整體的系統(tǒng)能效趨勢變化是逐漸減少。QL 算法獎勵函數(shù)中將系統(tǒng)能效作為副優(yōu)化指標,從圖中可以看出QL 算法性能優(yōu)于其他兩種算法。

        圖3是Q 表累計回報總值隨算法迭代次數(shù)的變化曲線。圖4是固定小小區(qū)用戶數(shù)量為100 時,系統(tǒng)吞吐量隨算法迭代次數(shù)的變化曲線,體現(xiàn)Q 表的收斂情況。從圖中可以看出在算法執(zhí)行約80 000 次時,Q 表變化已經(jīng)十分微小,在約進行90 000 次時,Q 表基本趨于穩(wěn)定,可以證明此算法可以有效收斂。

        圖3 Q 表累計回報總值隨算法迭代次數(shù)變化關系Fig.3 Variation of Q table cumulative return value with the number of iterations of the algorithm

        圖4 系統(tǒng)吞吐量隨算法迭代次數(shù)變化關系Fig.4 Variation of system throughput with the number of iterations of the algorithm

        4 結 語

        本文針對超密集部署的場景,研究了異構系統(tǒng)的資源調(diào)度和分配問題。制定融合最大化系統(tǒng)總吞吐量和提高系統(tǒng)能效的優(yōu)化目標,設計基于超密集網(wǎng)絡的Q 學習資源調(diào)度算法,通過仿真對算法性能進行了驗證,并與經(jīng)典資源分配算法進行了對比。仿真結果表明本文提出的Q 學習資源調(diào)度算法在吞吐量、能量效率等方面均優(yōu)于其他算法,同時也驗證了Q 學習的選擇過程的可收斂性。由于采用集中式的學習方式,使得系統(tǒng)最初的收斂速度較慢,但依舊可以保證用戶的基本通信需求。如何對Q 學習進行更合理的狀態(tài)和行為空間設置,以及如何讓算法更快收斂,是本文后續(xù)工作的重點。

        猜你喜歡
        宏基資源分配吞吐量
        新研究揭示新冠疫情對資源分配的影響 精讀
        一種基于價格競爭的D2D通信資源分配算法
        超大屏顯示才是它的菜Acer(宏基)P5530
        2017年3月長三角地區(qū)主要港口吞吐量
        云環(huán)境下公平性優(yōu)化的資源分配方法
        2016年10月長三角地區(qū)主要港口吞吐量
        2016年11月長三角地區(qū)主要港口吞吐量
        咩兒駕到
        TD-LTE異構網(wǎng)絡時隙配置干擾仿真研究*
        2014年1月長三角地區(qū)主要港口吞吐量
        精品极品视频在线观看| 极品美女扒开粉嫩小泬| 久久频精品99香蕉国产| 亚洲中文有码一区二区| 国产精品久久久在线看| 99国产精品久久久蜜芽| 国产精品麻豆综合在线| 亚洲av套图一区二区| 精品一区二区在线观看免费视频| 热久久美女精品天天吊色| 欧美日韩亚洲精品瑜伽裤| 亚洲精品高清av在线播放| 两人前一后地插着她丰满| 亚洲国产精品无码久久98| 久久中文字幕乱码免费| 天堂av在线一区二区| 国产一区二区三区内射| 吃奶摸下激烈床震视频试看| 国产精品成人嫩妇| 亚洲不卡毛片在线观看| 国产亚洲av无码av男人的天堂| 国产激情内射在线影院| 国产视频网站一区二区三区| 亚洲hd高清在线一区二区| 国产精品日本一区二区在线播放| 国产精品对白交换视频| 久久精品国产亚洲av成人擦边| 中文字幕第一页人妻丝袜| 欧美丰满熟妇xxxx性| 久久精品国产99久久丝袜| 亚洲情精品中文字幕99在线| 中文字幕亚洲无线码在线一区| 国产精品亚洲综合色区韩国| 久久婷婷国产综合精品| 二区视频在线免费观看| 东京热人妻一区二区三区| 国产精品久久综合桃花网| 亚洲粉嫩视频在线观看| 男人女人做爽爽18禁网站| 国产福利免费看| 亚洲不卡毛片在线观看|