亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能算法的功率域NOMA系統(tǒng)功率分配方法研究*

        2018-09-03 01:48:02張少敏李立欣
        移動(dòng)通信 2018年8期
        關(guān)鍵詞:基站分配功率

        張少敏,李立欣**

        (西北工業(yè)大學(xué)電子信息學(xué)院,陜西 西安 710129)

        1 引言

        隨著智能終端的廣泛普及和移動(dòng)新業(yè)務(wù)的持續(xù)增長(zhǎng),無(wú)線傳輸速率的需求呈指數(shù)增加。為了滿足移動(dòng)通信不斷發(fā)展的需求,非正交多址(Non-Orthogonal Multiple Access,NOMA)技術(shù)已經(jīng)成為通信發(fā)展中一個(gè)重要的技術(shù)支撐。NOMA具有高可靠性、高吞吐量以及廣域覆蓋的特點(diǎn),而功率域NOMA因其可以為用戶分配不同的功率值從而實(shí)現(xiàn)多址接入而成為5G發(fā)展中的潛在候選者[1]。本文重點(diǎn)研究功率域NOMA中的功率分配問(wèn)題。

        由于功率分配與整個(gè)系統(tǒng)的能量效率密切相關(guān),因此在功率域NOMA的下行鏈路系統(tǒng)中,基站分配給用戶的功率是影響系統(tǒng)性能的因素之一。因此,本文主要通過(guò)優(yōu)化功率分配策略以提高系統(tǒng)的能量效率。

        在已有的研究中,已經(jīng)提出了多種不同的方法來(lái)解決功率分配問(wèn)題。通過(guò)建立可支持每個(gè)用戶數(shù)據(jù)速率要求的可行的發(fā)射功率范圍,文獻(xiàn)[2]提出了一種功率分配策略,以解決在使能量效率最大限度地滿足每個(gè)用戶所需的最低數(shù)據(jù)速率的過(guò)程中導(dǎo)致的非凸問(wèn)題。在文獻(xiàn)[3]中,通過(guò)引入松弛變量提出了一種基于約束凸優(yōu)化的迭代算法,以將非凸優(yōu)化問(wèn)題轉(zhuǎn)化為等價(jià)的兩個(gè)凸函數(shù)的差值問(wèn)題。這些方法的基本思路是將非凸問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題以解決功率分配問(wèn)題,但是計(jì)算復(fù)雜度仍然不容忽視。因此,找到一種低復(fù)雜度的方法解決功率分配問(wèn)題是很有必要的。

        隨著人工智能浪潮的到來(lái),越來(lái)越多的問(wèn)題可以通過(guò)機(jī)器學(xué)習(xí)來(lái)解決。作為機(jī)器學(xué)習(xí)的一個(gè)分支,強(qiáng)化學(xué)習(xí)算法因其可以通過(guò)一系列連續(xù)的決策實(shí)現(xiàn)特定的目標(biāo)而在很多領(lǐng)域都展現(xiàn)出了其巨大的優(yōu)勢(shì)。文獻(xiàn)[4]提出了在命名數(shù)據(jù)網(wǎng)絡(luò)(Named Data Networking)中使用強(qiáng)化學(xué)習(xí)算法的可行性。通過(guò)修改Q-learning算法解決固有問(wèn)題,設(shè)計(jì)和實(shí)施了IQ-learning(Interest Q-learning)和DQ-learning(Data Q-learning)策略,從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)并做出最佳的轉(zhuǎn)發(fā)選擇。文獻(xiàn)[5]針對(duì)混合能量異構(gòu)網(wǎng)絡(luò)中的用戶調(diào)度和資源分配研究了最優(yōu)策略,并且通過(guò)采用Actor-Critic強(qiáng)化學(xué)習(xí)算法來(lái)最大化整個(gè)網(wǎng)絡(luò)的能量效率。

        由于強(qiáng)化學(xué)習(xí)算法在決策優(yōu)化和動(dòng)態(tài)分配方面的優(yōu)勢(shì),針對(duì)功率域NOMA中的功率分配問(wèn)題,本文采用無(wú)模型強(qiáng)化學(xué)習(xí)算法,即采用強(qiáng)化學(xué)習(xí)算法預(yù)測(cè)基站分配給用戶的功率值,通過(guò)不斷的迭代來(lái)提高系統(tǒng)的能量效率。

        2 關(guān)鍵技術(shù)及基本算法

        2.1 非正交多址(NOMA)

        NOMA是一種新型的多址接入方式,在存在遠(yuǎn)近效應(yīng)和廣覆蓋多節(jié)點(diǎn)接入的場(chǎng)景特別是上行密集場(chǎng)景中,采用功率復(fù)用的非正交多址方式和傳統(tǒng)的正交多址方式相比,前者有明顯的性能優(yōu)勢(shì),更適合未來(lái)系統(tǒng)的部署。

        功率域NOMA是NOMA中的一個(gè)分支,在發(fā)送端采用疊加編碼(Superposition Coding,SC)的方式發(fā)送信息,主動(dòng)引入干擾;在接收端采用串行干擾消除(Successive Interference Cancellation,SIC)技術(shù)以實(shí)現(xiàn)多路檢測(cè)。與正交多址方式相比,雖然接收機(jī)復(fù)雜度有所提升,但可以獲得更高的頻譜效率。

        2.2 深度Q網(wǎng)絡(luò)(DQN)

        深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)是一種融合了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和Q-learning的算法。其中,CNN的輸入是原始數(shù)據(jù)(狀態(tài)),輸出則是每個(gè)動(dòng)作對(duì)應(yīng)的價(jià)值評(píng)估值函數(shù)(Q值);Q-learning是一種離線學(xué)習(xí),所以每次DQN更新的時(shí)候,可以隨機(jī)抽取一些之前的經(jīng)歷進(jìn)行學(xué)習(xí)。隨機(jī)抽取這種方法打亂了經(jīng)歷之間的相關(guān)性,使得神經(jīng)網(wǎng)絡(luò)的更新更有效率。DQN是第一個(gè)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)模型結(jié)合在一起從而成功地直接從高維的輸入中學(xué)習(xí)控制策略的算法。在DQN中,用一個(gè)價(jià)值網(wǎng)絡(luò)來(lái)表示評(píng)判模塊,價(jià)值網(wǎng)絡(luò)輸出Q(s,a),即狀態(tài)s下選擇動(dòng)作a的Q值?;趦r(jià)值網(wǎng)絡(luò),可以遍歷某個(gè)狀態(tài)s下每個(gè)動(dòng)作的價(jià)值,然后選擇價(jià)值最大的一個(gè)動(dòng)作輸出。在此過(guò)程中,使用隨機(jī)梯度下降方法來(lái)更新價(jià)值網(wǎng)絡(luò)。

        2.3 Actor-Critic

        Actor-Critic結(jié)合了以值為基礎(chǔ)(比如Q-learning)和以動(dòng)作為基礎(chǔ)(比如策略梯度)的兩類算法,將兩類算法的優(yōu)點(diǎn)融合在一起,既可以學(xué)習(xí)值函數(shù),也可以學(xué)習(xí)策略函數(shù)。Actor網(wǎng)絡(luò)用來(lái)學(xué)習(xí)策略函數(shù),產(chǎn)生選擇某一動(dòng)作的概率,Critic學(xué)習(xí)值函數(shù),然后給Actor反饋方差比較小的值函數(shù),之后Actor再根據(jù)Critic的反饋進(jìn)行更新。

        在Actor-Critic算法中,Agent根據(jù)Actor網(wǎng)絡(luò)的策略進(jìn)行動(dòng)作的選擇,之后將選擇的動(dòng)作作用于環(huán)境,而Critic網(wǎng)絡(luò)由環(huán)境得到的即時(shí)獎(jiǎng)賞更新值函數(shù),并得到時(shí)間差分誤差(Time Difference Error,TD Error),然后將TD Error反饋給Actor網(wǎng)絡(luò)以便更好地更新策略函數(shù)。

        3 系統(tǒng)模型

        在本文中,基于單小區(qū)無(wú)線蜂窩網(wǎng)絡(luò)的下行鏈路來(lái)建立模型,假設(shè)有單個(gè)基站和K個(gè)用戶,并且所有終端都配備單個(gè)天線,基站在總功率的約束下向所有用戶發(fā)送數(shù)據(jù)。假設(shè)信道服從瑞利衰落且其噪聲為加性高斯白噪聲(AWGN)。假定所有用戶的瞬時(shí)信道狀態(tài)信息(Channel Status Information,CSI)在基站處是已知的。為了不失一般性,把信道分類為0<|h1|2<|h2|2<…<|hk|2,其中hi(1<i<K)是第i個(gè)用戶的信道增益,并且始終保持第i個(gè)用戶的瞬時(shí)信道是最弱的。系統(tǒng)模型如圖1所示。NOMA方案允許在基站處的SC和用戶處的SIC技術(shù)的幫助下使用整個(gè)系統(tǒng)帶寬傳輸數(shù)據(jù)來(lái)同時(shí)為所有用戶提供服務(wù)。在功率域中執(zhí)行用戶復(fù)用,在接收機(jī)處采用SIC的方法消除多用戶干擾。具體而言,當(dāng)i<k時(shí),第k個(gè)用戶首先解碼第i個(gè)用戶的信息,然后按照i=1, 2, ...的順序從它的接收信號(hào)中減去這個(gè)信息,再對(duì)第i個(gè)用戶的信號(hào)進(jìn)行解碼;當(dāng)i>k時(shí),第i個(gè)用戶的消息被視為噪聲。第k個(gè)用戶的可實(shí)現(xiàn)速率表示為:

        B是系統(tǒng)的帶寬,基站處的總功率為P,αk表示基站分配給第k個(gè)用戶的功率與總功率的比值,且σ2是AWGN的功率,總的可實(shí)現(xiàn)速率可表示為:

        其中Rk是用戶k的速率,則整個(gè)系統(tǒng)的能量效率可以定義為系統(tǒng)的可實(shí)現(xiàn)總速率與總功率之比[6],即η=R/P。

        本文研究功率域NOMA中的功率分配策略,通過(guò)優(yōu)化基站分配給用戶的功率分配系數(shù)來(lái)提高系統(tǒng)的能量效率。基站分配給用戶的功率必須受限于系統(tǒng)的總功率P,同時(shí),為了能成功實(shí)現(xiàn)SIC解碼,用戶的功率必然受到用戶的功率的限制。因此,優(yōu)化能量效率的問(wèn)題可以表述如下:

        其中,pk=αkP,Pmax是系統(tǒng)的最大功率。

        圖1 功率域NOMA下行鏈路通信場(chǎng)景

        4 問(wèn)題形成

        強(qiáng)化學(xué)習(xí)的目標(biāo)是通過(guò)試錯(cuò)學(xué)習(xí)經(jīng)驗(yàn)將環(huán)境狀態(tài)映射到最佳行動(dòng)以最大化累積獎(jiǎng)賞。功率分配問(wèn)題可以表示為具有連續(xù)狀態(tài)和動(dòng)作空間的離散時(shí)間馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[7]。由于移動(dòng)環(huán)境中狀態(tài)轉(zhuǎn)移概率和所有狀態(tài)的期望獎(jiǎng)勵(lì)往往都是未知的,因此采用無(wú)模型強(qiáng)化學(xué)習(xí)算法在NOMA中制定功率分配問(wèn)題。

        一般情況下,M D P由一個(gè)四元數(shù)組表示,即M=<S, A, P, R>。

        S表示狀態(tài)空間,在功率域NOMA的功率分配問(wèn)題中將任意用戶的信噪比看作狀態(tài)空間,它由信道增益hi、功率分配系數(shù)αi以及AWGN的功率σi2決定,因此,第t步的狀態(tài)st(st∈S)可以定義為:

        A表示動(dòng)作空間,在功率域NOMA系統(tǒng)的功率分配問(wèn)題中,將增加或減少基站分配給用戶的功率看作動(dòng)作空間,因此,第t步的動(dòng)作at(at∈A)可以表示為:

        其中,-1表示減小基站給用戶分配的功率,反之則用1表示。

        P表示從某一狀態(tài)轉(zhuǎn)移到下一狀態(tài)的概率,在連續(xù)MDP中,使用狀態(tài)轉(zhuǎn)移概率密度函數(shù)f來(lái)描述概率P,即:

        其中,st+1表示在(t+1)步的狀態(tài)且st+1∈St+1?S。

        R表示獎(jiǎng)賞,即在狀態(tài)s下選擇動(dòng)作a得到的即時(shí)獎(jiǎng)賞。在功率域NOMA的功率分配問(wèn)題中,將即時(shí)獎(jiǎng)賞表示為:

        強(qiáng)化學(xué)習(xí)算法的基本框架如圖2所示。當(dāng)選定某一狀態(tài)s時(shí),Agent會(huì)采取一動(dòng)作a,將狀態(tài)s以概率P轉(zhuǎn)移到下一個(gè)狀態(tài)s′,此時(shí)環(huán)境將把即時(shí)獎(jiǎng)賞R反饋給Agent,不斷迭代直到結(jié)束。Agent的目標(biāo)就是在不斷的學(xué)習(xí)下使總獎(jiǎng)賞Rsum最大化,Rsum定義如下:

        其中γ是折扣因子,有γ∈(0, 1),Rt表示第t步的即時(shí)獎(jiǎng)賞。

        圖2 強(qiáng)化學(xué)習(xí)算法的基本框架

        4.1 DQN

        由圖2可知,環(huán)境反饋給Agent的獎(jiǎng)賞R和狀態(tài)s以及動(dòng)作a有關(guān),在DQN算法[8]中采用狀態(tài)動(dòng)作值函數(shù)Q(s, a)來(lái)描述獎(jiǎng)賞R與狀態(tài)s和動(dòng)作a的關(guān)系,定義如下:

        其中,π表示Agent學(xué)習(xí)到的策略。

        當(dāng)使用D Q N算法優(yōu)化功率分配策略時(shí),和Q-learning相比,DQN的狀態(tài)增多,所以采用值函數(shù)近似[9]的方法對(duì)狀態(tài)的維度進(jìn)行壓縮。在DQN算法中,用來(lái)近似狀態(tài)動(dòng)作值函數(shù)采用的方法通常是由神經(jīng)網(wǎng)絡(luò)構(gòu)造的函數(shù)逼近器,即Q值神經(jīng)網(wǎng)絡(luò)定義如下:

        其中,ω是神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。

        通過(guò)使損失函數(shù)最小化來(lái)訓(xùn)練ω,以得到最優(yōu)的ω。所以,在Q網(wǎng)絡(luò)中,使用均方差來(lái)定義的損失函數(shù)如下:

        其中,s′、a′表示下一步的狀態(tài)和動(dòng)作。

        然后計(jì)算L(ω)關(guān)于參數(shù)ω的梯度:

        因此采用隨機(jī)梯度下降的方法來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更新參數(shù),最終獲得最優(yōu)的參數(shù)ω。

        4.2 Actor-Critic

        對(duì)于一個(gè)給定的MDP,強(qiáng)化學(xué)習(xí)算法的最終目的是找到一個(gè)使長(zhǎng)期的獎(jiǎng)賞總和最大的策略π*:

        其中,E[.]表示期望值。

        當(dāng)使用Actor-Critic算法優(yōu)化功率分配策略時(shí),值函數(shù)和Q策略函數(shù)是分開(kāi)進(jìn)行更新的[10]。動(dòng)作狀態(tài)值函數(shù)表示從當(dāng)前狀態(tài)采取動(dòng)作的累積獎(jiǎng)賞的期望值,然后用給定的策略來(lái)選擇應(yīng)采取的動(dòng)作。Critic部分采用狀態(tài)動(dòng)作值函數(shù)來(lái)計(jì)算累積回報(bào),它可以表示為:

        很顯然,對(duì)于一個(gè)最優(yōu)的策略π*,最優(yōu)狀態(tài)動(dòng)作值函數(shù)為:

        其中,Rt表示第t步的獎(jiǎng)賞即系統(tǒng)的能量效率。

        狀態(tài)動(dòng)作值函數(shù)用于了解在狀態(tài)s下選取動(dòng)作a時(shí)的效果好壞,它可以分為兩部分:即時(shí)獎(jiǎng)賞和后續(xù)狀態(tài)的折扣值函數(shù):

        上述遞歸關(guān)系稱為貝爾曼方程[11],它可以用來(lái)計(jì)算Q(s, a)的真實(shí)值。

        TD Error可以通過(guò)在先前的狀態(tài)下產(chǎn)生的狀態(tài)動(dòng)作值函數(shù)Q(st, at)以及在Critic部分產(chǎn)生的狀態(tài)動(dòng)作值函數(shù)Rt+1+Q(st+1, at+1)計(jì)算,即:

        因此Critic部分更新?tīng)顟B(tài)動(dòng)作值函數(shù)如下:

        其中,αc表示Critic部分的學(xué)習(xí)速率。

        之后通過(guò)將TD Error反饋給Actor指導(dǎo)其對(duì)策略進(jìn)行更好地更新,其策略更新如下:

        其中,αa表示Critic部分的學(xué)習(xí)速率。

        如果每個(gè)動(dòng)作在每種狀態(tài)下執(zhí)行無(wú)限次,并且算法遵循貪婪的探索,則值函數(shù)Q(s)和策略函數(shù)π(s, a)最終將以1的概率分別收斂至最優(yōu)值函數(shù)Q*(s)和最優(yōu)策略π*,此時(shí)系統(tǒng)的能量效率也達(dá)到最優(yōu)。

        5 仿真結(jié)果及分析

        本節(jié)通過(guò)仿真來(lái)驗(yàn)證所提出的強(qiáng)化學(xué)習(xí)算法的有效性。在本文中,將基站分配給用戶的總功率歸一化為1 W,所有用戶共享的帶寬設(shè)置為1 Hz,功率分配系數(shù)αk∈[0, 1],折扣因子γ設(shè)置為0.9。

        圖3對(duì)比了所提出的強(qiáng)化學(xué)習(xí)算法的收斂性。DQN算法是基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法,它不會(huì)產(chǎn)生振蕩,但容易陷入局部最優(yōu),且收斂速度較慢。而Actor-Critic結(jié)合了以值為基礎(chǔ)的和以策略為基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法,收斂速度變快,但是要謹(jǐn)慎選擇學(xué)習(xí)速率以避免振蕩情況的發(fā)生。在Actor-Critic算法中,為了避免振蕩,學(xué)習(xí)速率一般都比較小,但是如果太小的話達(dá)到收斂需要很長(zhǎng)時(shí)間,因此學(xué)習(xí)速率的選擇必須很謹(jǐn)慎。

        圖3 不同算法的收斂性分析

        圖4對(duì)比了不同的算法隨著用戶數(shù)的增加能量效率的變化。由于Actor-Critic和DQN相比增加了以策略為基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法,因此不僅更新值函數(shù)而且更新策略函數(shù),最終得到一個(gè)更優(yōu)的功率分配策略。所以基于Actor-Critic算法的功率分配策略的能量效率比基于DQN算法功率分配策略的能量效率更好。但是隨著用戶數(shù)的增加,兩種算法都呈下降的趨勢(shì),用戶數(shù)到達(dá)一定值后,能量效率的值趨于平穩(wěn)。

        圖4 不同算法的能量效率

        6 結(jié)束語(yǔ)

        本文利用人工智能中的無(wú)模型強(qiáng)化學(xué)習(xí)算法對(duì)功率域NOMA中的功率分配問(wèn)題進(jìn)行建模。將功率分配過(guò)程看作一個(gè)MDP,采用DQN和Actor-Critic兩種強(qiáng)化學(xué)習(xí)算法對(duì)基站給用戶分配的功率進(jìn)行預(yù)測(cè),以找到較優(yōu)的功率分配策略,從而優(yōu)化系統(tǒng)的能量效率。仿真結(jié)果表明所采用的兩種算法都可以收斂,但相比之下Actor-Critic算法的收斂性優(yōu)于DQN且Actor-Critic算法具有較好的優(yōu)化效果。

        猜你喜歡
        基站分配功率
        『功率』知識(shí)鞏固
        功與功率辨
        追本溯源識(shí)功率
        應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
        做功有快慢功率來(lái)表現(xiàn)
        遺產(chǎn)的分配
        一種分配十分不均的財(cái)富
        績(jī)效考核分配的實(shí)踐與思考
        可惡的“偽基站”
        基于GSM基站ID的高速公路路徑識(shí)別系統(tǒng)
        天堂av在线一区二区| 国产精品_国产精品_k频道 | 大白屁股流白浆一区二区三区| 一本色道久久综合亚洲精品不| 免费看美女被靠到爽的视频 | 久久精品成人一区二区三区| 台湾无码av一区二区三区| 国产免费av片在线观看麻豆| 精品国产免费Av无码久久久| 日本熟妇高潮爽视频在线观看| 一区二区三区日本美女视频| 麻豆精品一区二区av白丝在线| 人妻聚色窝窝人体www一区| 色婷婷七月| av无码精品一区二区乱子| 成人在线视频亚洲国产| 手机在线亚洲精品网站| 国产裸拍裸体视频在线观看| 精品视频999| 亚洲一区有码在线观看| 亚洲一区在线观看中文字幕| 国产精品无圣光一区二区| a毛片全部免费播放| 视频一区二区三区中文字幕狠狠| 中文字幕隔壁人妻欲求不满| 中文字幕av免费专区| 在线精品国内视频秒播| 亚洲精品国产第一区三区| 国产精品偷窥熟女精品视频| 97精品国产手机| 国产三级精品三级国产| 91精品国产乱码久久久| 一区二区三区人妻少妇| 中文字幕久久熟女蜜桃 | 久久精品国产亚洲AⅤ无码| 一区二区三区人妻在线| 无码人妻丰满熟妇区免费| 精品无码中文视频在线观看| 91久久国产情侣真实对白| 免费人成网站在线视频| 无码va在线观看|