廖曉閩,嚴(yán)少虎,石嘉,譚震宇,趙鐘靈,李贊
(1. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西 西安 710071;2. 國防科技大學(xué)信息通信學(xué)院,陜西 西安 710106;3. 中國電子科技集團公司第二十九研究所,四川 成都 610036)
隨著無線網(wǎng)絡(luò)中通信設(shè)備數(shù)量的急劇增加和業(yè)務(wù)需求的多樣化,有限的頻譜資源與人們?nèi)找嬖鲩L的無線頻譜需求之間的矛盾日漸突出和加劇。當(dāng)前無線通信領(lǐng)域面臨著智能化、寬帶化、多元化、綜合化等諸多技術(shù)挑戰(zhàn),無線網(wǎng)絡(luò)環(huán)境變得日益復(fù)雜多樣和動態(tài)多變,此外,綠色網(wǎng)絡(luò)和智慧網(wǎng)絡(luò)等新概念的提出,使頻譜資源管理的優(yōu)化目標(biāo)日趨多樣化,因此,如何優(yōu)化頻譜利用,最大限度地實現(xiàn)頻譜資源的高效管理是當(dāng)前急需解決的重點問題。
傳統(tǒng)蜂窩網(wǎng)資源分配方法主要有博弈理論、拍賣機制、圖論著色理論、遺傳算法等。Huang等[1]將博弈理論應(yīng)用于小區(qū)間蜂窩網(wǎng)的頻譜分配,假設(shè)基站預(yù)先獲得且共享信道狀態(tài)信息(CSI,channel state information),將2個通信設(shè)備放置于相鄰小區(qū)的重疊區(qū)域,采用靜態(tài)重復(fù)的古諾博弈模型來求解納什均衡解,獲得最優(yōu)的頻譜效率,仿真模擬3種典型場景,通過求解一系列優(yōu)化方程式來獲得最優(yōu)分配策略。Wang等[2]提出了一種安全的頻譜拍賣機制,該機制綜合考慮頻譜屬性和拍賣特性,采用自適應(yīng)競價、信息加密和拍賣協(xié)議等方式,在提高頻譜利用率的同時,極大地提升頻譜拍賣機制的安全性。Yang等[3]采用圖論著色理論對全雙工設(shè)備到設(shè)備(D2D,device-to-device)蜂窩網(wǎng)進行頻譜和功率分配,構(gòu)造干擾感知圖,提出了一種基于圖論著色理論的資源共享方案,該方案以網(wǎng)絡(luò)吞吐量為優(yōu)化目標(biāo),算法收斂速度快,時間復(fù)雜度低。Takshi等[4]基于遺傳算法實現(xiàn) D2D蜂窩網(wǎng)中的頻譜和功率分配,通過同時搜索不同區(qū)間,獲得全局最優(yōu)的頻譜效率和干擾性能,而且蜂窩網(wǎng)用戶的信干噪比保持最低,對 D2D用戶數(shù)量沒有限制,并且采用信道預(yù)測方法來減少CSI信息的過載,算法具有較強的搜索性能。然而,隨著未來無線網(wǎng)絡(luò)向高密集、大數(shù)據(jù)、動態(tài)化、多目標(biāo)優(yōu)化等方向發(fā)展,傳統(tǒng)的蜂窩網(wǎng)資源分配方法不再適用,例如,傳統(tǒng)方法主要進行靜態(tài)優(yōu)化,很難適應(yīng)動態(tài)變化的環(huán)境;當(dāng)多目標(biāo)優(yōu)化問題為NP-hard問題時,求解困難;沒有發(fā)揮出大數(shù)據(jù)優(yōu)勢,無法充分挖掘隱藏在數(shù)據(jù)中的信息等。
當(dāng)前,以機器學(xué)習(xí)、深度學(xué)習(xí)為代表的新一代人工智能技術(shù)已廣泛應(yīng)用于醫(yī)療、教育、交通、安防、智能家居等領(lǐng)域,從最初的算法驅(qū)動逐漸向數(shù)據(jù)、算法和算力的復(fù)合驅(qū)動轉(zhuǎn)變,有效地解決了各類問題,取得了顯著成效。目前,機器學(xué)習(xí)在無線資源分配的研究還處于早期探索階段。例如,文獻[5]提出采用深度學(xué)習(xí)方法對 LTE中未授權(quán)頻譜進行預(yù)分配,利用長短期記憶(LSTM,long short-term memory)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)歷史經(jīng)驗信息,并利用學(xué)習(xí)訓(xùn)練好的LSTM網(wǎng)絡(luò)對未來某一窗口的頻譜狀態(tài)進行預(yù)測;文獻[6]采用深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)對認(rèn)知無線電中次用戶使用的頻譜資源和傳輸功率進行分配,最大化次用戶頻譜效率的同時,盡可能地減少對主用戶造成的干擾;文獻[7]將衛(wèi)星系統(tǒng)中的動態(tài)信道分配問題建模成馬爾可夫決策過程,采用深度卷積神經(jīng)網(wǎng)絡(luò)提取有用特征,對信道進行動態(tài)分配,有效地減少阻塞率,提高了頻譜效率。目前,機器學(xué)習(xí)方法可以充分利用大數(shù)據(jù)的優(yōu)勢,模擬人類的學(xué)習(xí)行為,挖掘數(shù)據(jù)隱藏信息,以獲取新的知識,然后對已有的知識結(jié)構(gòu)進行重組,不斷地改善自身的性能。此外,機器學(xué)習(xí)還可以實現(xiàn)動態(tài)實時交互,具有很強的泛化能力,在無線資源分配應(yīng)用中凸顯優(yōu)勢。
本文考慮優(yōu)化蜂窩網(wǎng)的傳輸速率和系統(tǒng)能耗,基于深度強化學(xué)習(xí)提出了一種全新的蜂窩網(wǎng)資源分配算法,該算法分為兩部分,即前向傳輸過程和反向訓(xùn)練過程。在前向傳輸過程中,考慮優(yōu)化蜂窩網(wǎng)傳輸速率,采用增廣拉格朗日乘子法,構(gòu)建頻率分配、功率分配和拉格朗日乘子的迭代更新數(shù)據(jù)流,在此基礎(chǔ)上,構(gòu)造DNN。在反向訓(xùn)練過程中,將能量效率作為獎懲值,構(gòu)建誤差函數(shù)來反向訓(xùn)練DNN的權(quán)值。前向傳輸過程和反向訓(xùn)練過程反復(fù)迭代,直到滿足收斂條件時,輸出最優(yōu)資源分配方案。本文所提算法可以通過調(diào)整誤差函數(shù)中的折扣因子來自主設(shè)置頻譜分配策略的偏重程度,收斂速度快,在傳輸速率和系統(tǒng)能耗的優(yōu)化方面明顯優(yōu)于其他算法,能夠有效地解決多目標(biāo)優(yōu)化問題。
考慮蜂窩網(wǎng)的下行鏈路,假設(shè)蜂窩移動通信系統(tǒng)中有M個微基站和N個授權(quán)移動用戶,用戶隨機分布在小區(qū)內(nèi),所有基站和用戶都為單天線系統(tǒng)。在每個小區(qū)內(nèi)采用正交頻分復(fù)用(OFDM,orthogonal frequency division multiplexing),每個頻率只分配給一個用戶使用,其他小區(qū)可以重復(fù)使用頻率,即采用完全頻率重用方案,因此從實際出發(fā),綜合考慮蜂窩網(wǎng)中所有基站對移動用戶造成的干擾情況。系統(tǒng)采用集中式控制,信道增益、噪聲功率等精確信道狀態(tài)信息未知,每個授權(quán)移動用戶僅將位置信息、干擾和傳輸速率通過導(dǎo)頻信號傳輸給中心控制節(jié)點,由中心控制節(jié)點制定頻譜分配方案。為了建設(shè)綠色網(wǎng)絡(luò),系統(tǒng)在最大化傳輸速率的過程中,還需要考慮能耗問題,具體的系統(tǒng)模型如圖1所示。
假設(shè)m={1,2,…,M}表示微基站的集合,n={1,2,…,N}表示移動用戶的集合,k={1,2,…,K}表示可用頻率的集合。基站m中的移動用戶n使用頻率k通信時,干擾信號為
圖1 系統(tǒng)模型
其中,Li,j表示移動用戶j與基站i的接入關(guān)系,若移動用戶j接入基站i,則Li,j=1 ,反之表示基站i內(nèi)頻率k的分配情況,若基站i把頻率k分給移動用戶j,則=1,反之=0;表 示基站i使用頻率k與用戶j通信時的功率;表示基站i使用頻率k與用戶n通信時的信道增益。
系統(tǒng)總體的傳輸速率可以表示為
采用文獻[8]提出的能量效率來衡量系統(tǒng)能耗,即將每焦耳的能量最多能攜帶多少比特(單位為bit/J)作為衡量標(biāo)準(zhǔn),則系統(tǒng)總體的能量效率可以表示為
根據(jù)系統(tǒng)優(yōu)化目標(biāo),在基站子載波發(fā)射功率之和滿足最大發(fā)射功率約束的條件下,要解決的多目標(biāo)優(yōu)化問題描述如式(4)~式(6)所示。
本文除了考慮傳輸速率外,還綜合考慮能耗,于是資源分配問題變成了NP-hard問題,難以求得最優(yōu)解。目前研究熱點是將該問題轉(zhuǎn)化為求解其次優(yōu)解,但是求解復(fù)雜度高,影響系統(tǒng)運行效率[9],本文采用深度強化學(xué)習(xí)方法來求解該問題。
深度強化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強化學(xué)習(xí)的決策能力相結(jié)合,不斷以試錯的方式與環(huán)境進行交互,通過最大化累積獎賞的方式來獲得最優(yōu)策略[10]。本文采用深度Q網(wǎng)絡(luò)(DQN,deep Q-network)來具體求解資源分配問題,核心思想是將值網(wǎng)絡(luò)作為評判模塊,基于值網(wǎng)絡(luò)來遍歷當(dāng)前觀測狀態(tài)下的各種動作,與環(huán)境進行實時交互,將狀態(tài)、動作和獎懲值存儲在記憶單元中,采用Q-learning算法來反復(fù)訓(xùn)練值網(wǎng)絡(luò),最后選擇能獲得最大價值的動作作為輸出?;谏疃葟娀瘜W(xué)習(xí)的資源分配算法的基本框架如圖2所示。
圖2 基于深度強化學(xué)習(xí)的資源分配算法的基本框架
在圖2中,st為算法進行到第t(t=1,2,...,T)步時所對應(yīng)的觀測,at為觀測st下所執(zhí)行的動作,rt為觀測st下執(zhí)行動作at后,所獲取的獎賞/懲罰,值網(wǎng)絡(luò)采用DNN來描述,即將DNN作為動作狀態(tài)值函數(shù)
算法采用Q-learning學(xué)習(xí)機制[11],主要根據(jù)如式(7)所示的迭代式來實現(xiàn)動作狀態(tài)值函數(shù)的優(yōu)化學(xué)習(xí)。
其中,αk是學(xué)習(xí)速率,γ∈(0,1)為折扣因子,s'為執(zhí)行動作at后獲得的觀測值,a′為動作集合∧中使得第k次迭代下的動作狀態(tài)值函數(shù)在觀測值s'下可執(zhí)行的動作。從式(7)可以看出,要實現(xiàn)動作狀態(tài)值函數(shù)的逼近,即
因此,本文將式(9)作為誤差函數(shù),通過求解誤差梯度,即采用梯度下降法來更新DNN中的參數(shù),求得動作狀態(tài)值函數(shù)的最優(yōu)解。
對于系統(tǒng)模型中給出的多目標(biāo)優(yōu)化問題,基于深度強化學(xué)習(xí)的資源分配算法主要分成 2個過程來求解,分別是前向傳輸過程和反向訓(xùn)練過程。在前向傳輸過程中,本文以傳輸速率最大化為優(yōu)化目標(biāo),利用式(4)和式(6)構(gòu)造 DNN;在反向訓(xùn)練過程中,將能量效率作為獎懲值,利用式(9)來反向訓(xùn)練DNN。
3.2.1 前向傳輸過程
構(gòu)造DNN是前向傳輸過程的核心,主要分成以下7個步驟。
1)考慮到每個微基站在所有信道上的發(fā)射功率之和不能超過其最大發(fā)射功率,依據(jù)式(4)和式(6),系統(tǒng)傳輸速率最優(yōu)化問題表示為
約束條件為
2)采用增廣拉格朗日乘子法將約束優(yōu)化問題轉(zhuǎn)化為無約束優(yōu)化問題,構(gòu)造的增廣拉格朗日函數(shù)表示為
其中,μ={μm,?m∈{ 1,2,… ,M}}為拉格朗日乘子,η為懲罰因子,從而把求解約束優(yōu)化問題轉(zhuǎn)化為求解無約束優(yōu)化問題,即
此外,拉格朗日乘子迭代方程式為
4)將移動用戶與基站的接入關(guān)系Lm,n和移動用戶干擾信息作為輸入,各基站內(nèi)頻率分配、功率分配和拉格朗日乘子μ根據(jù)式(15)m和式(16),依次迭代,形成如下數(shù)據(jù)流。
5)根據(jù)迭代更新數(shù)據(jù)流來構(gòu)造DNN,如圖3所示。DNN包括輸入層、頻率分配層、功率分配層、乘子層和輸出層,深度取決于頻率分配、功率分配和拉格朗日乘子μ的迭代更新次數(shù)。DNN中m頻率分配層和功率分配層的權(quán)值參數(shù)為信道增益和噪聲;非線性轉(zhuǎn)換函數(shù)分別為頻率分配、 功率分配和拉格朗日乘子μ的迭代更新方程式。m
6)初始化 DNN 的權(quán)值參數(shù),即將信道增益初始化為瑞利分布,將噪聲初始化為高斯 白噪聲。
7)在時刻t,將觀測到的蜂窩網(wǎng)用戶接入信息和干擾信息作為DNN的輸入,設(shè)定閾值θ 、D和最大迭代更新次數(shù)Q1,經(jīng)過DNN的前向傳輸后,當(dāng)或迭代更新次數(shù)達到最大迭代更新次數(shù)Q1時,在輸出層輸出一組數(shù)值,每一個數(shù)值對應(yīng)一種頻譜分配方案和功率分配方案,從輸出的數(shù)值中尋找出最大數(shù)值,并將最大數(shù)值所對應(yīng)的頻率分配方案和功率分配方案作為時刻t的資源分配策略。
3.2.2 反向訓(xùn)練過程
構(gòu)造誤差函數(shù)來訓(xùn)練DNN是反向訓(xùn)練過程的核心,主要分成以下5個步驟。
1)在執(zhí)行頻率分配方案和功率分配方案后,觀測系統(tǒng)能量效率,將能量效率作為獎懲值,即
3)依據(jù)式(9),構(gòu)建如式(18)所示的誤差函數(shù)。
其中,折扣因子 γ ∈ [ 0,1]決定了資源分配策略偏重程度,若采用反向傳播算法使用損失函數(shù)E趨于最小化,當(dāng)γ→0,神經(jīng)網(wǎng)絡(luò)當(dāng)前時刻輸出的動作狀態(tài)值函數(shù))趨近于獎懲值rt,即資源分配策略偏重于優(yōu)化系統(tǒng)能量效率;當(dāng)γ→ 1 ,獎懲值rt和神經(jīng)網(wǎng)絡(luò)下一時刻輸出的動作狀態(tài)值函數(shù)占有同樣的比重,此時資源分配策略綜合優(yōu)化系統(tǒng)能量效率和傳輸速率。
4)設(shè)定閾值θE,將損失函數(shù)值E與閾值θE進行比較。若損失函數(shù)值E≥θE,則執(zhí)行5),否則,將選定的頻譜分配方案和功率分配方案作為最優(yōu)資源管理策略,完成蜂窩網(wǎng)資源分配。
5)采用反向傳播算法,使損失函數(shù)值E趨于最小化,沿著損失函數(shù)梯度下降方向逐層修正信道增益和噪聲,若DNN的權(quán)值參數(shù)更新次數(shù)達 到限定的最大次數(shù)Q2,則將獲得的頻譜分配方案和功率分配方案作為最優(yōu)資源分配策略,完成蜂窩網(wǎng)資源分配,否則,修正好DNN的權(quán)值后,繼續(xù)執(zhí)行DNN的前向傳輸操作。
圖3 DNN的基本架構(gòu)
求得誤差函數(shù)關(guān)于權(quán)值修正的梯度后,利用式(21)更新DNN的權(quán)值
其中,λ為學(xué)習(xí)速率。
本文分別仿真分析了折扣因子對蜂窩網(wǎng)資源分配策略、基于深度強化學(xué)習(xí)的資源分配算法的收斂性和性能的影響,采用蒙特卡洛方法重復(fù)執(zhí)行1 000次,然后對結(jié)果取平均值。在每一次算法執(zhí)行過程中,蜂窩用戶均隨機分布在系統(tǒng)中,仿真參數(shù)如表1所示。
表1 仿真參數(shù)
首先,分析折扣因子對資源分配策略的影響。將可用子載波數(shù)設(shè)為4,圖4仿真了折扣因子在[0,1]內(nèi)的取值情況,顯示了折扣因子對蜂窩網(wǎng)資源分配策略的影響情況,當(dāng)折扣因子取值為0時,資源分配策略偏重于獎懲值,即偏重優(yōu)化能量效率,此時獲得的能量效率最高,傳輸速率最低。隨著折扣因子增大,誤差函數(shù)E中,動作狀態(tài)值函數(shù)占有比重越來越大,資源分配策略所獲得的傳輸速率越來越高,能量效率越來越低。當(dāng)折扣因子取值為1時,系統(tǒng)獲得的傳輸速率最高,能量效率最低。因此,在仿真過程中,可以根據(jù)資源分配策略的偏重程度來合理設(shè)置折扣因子。
圖4 折扣因子對資源分配策略的影響
其次,分析算法收斂性。將可用子載波數(shù)設(shè)為 4,算法運算速度取決于 DNN深度和反向訓(xùn)練DNN的次數(shù)。設(shè)定閾值 θD=θp= 0 .01,圖5顯示了DNN的深度。當(dāng)DNN的深度為6時,差值DNN輸出頻率分配方案和功率分配方案。設(shè)定閾值θE=0.001,圖6顯示了反向訓(xùn)練DNN的次數(shù)。當(dāng)反向訓(xùn)練次數(shù)達5次時,E< 0 .001,反向訓(xùn)練過程結(jié)束,輸出最優(yōu)的頻率分配方案和功率分配方案。
圖5 DNN的深度
圖6 DNN的反向訓(xùn)練次數(shù)
最后,分析算法性能。通過改變子信道數(shù),將本文提出的算法分別從傳輸速率和能量效率兩方面與隨機分配算法、貪婪算法進行比較。圖7和圖8分別給出了傳輸速率和能量效率比較結(jié)果。可以看出,當(dāng)折扣因子為1時,本文提出算法得到的資源分配策略偏重于優(yōu)化傳輸速率,系統(tǒng)獲得的傳輸速率接近于貪婪算法,但是獲得的能量效率高于貪婪算法;雖然獲得的能量效率低于隨機分配算法,但是傳輸速率高于隨機分配算法。當(dāng)折扣因子為 0時,本文提出算法得到的資源分配策略偏重于優(yōu)化能量效率,即獎懲值,雖然系統(tǒng)獲得的傳輸速率相對較低,但是系統(tǒng)獲得的能量效率高于貪婪算法和隨機分配算法。
圖7 傳輸速率
圖8 能量效率
為了提高蜂窩網(wǎng)傳輸速率的同時,盡可能地增大能量效率,本文討論了蜂窩網(wǎng)中的資源分配問題,提出了一種基于深度強化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法,該算法包括前向傳輸和反向訓(xùn)練2個過程。在前向傳輸過程中,主要構(gòu)建DNN,以最優(yōu)化傳輸速率;在反向訓(xùn)練過程中,將能量效率作為獎懲值,采用Q-learning機制來構(gòu)建誤差函數(shù),反向訓(xùn)練DNN中的權(quán)值參數(shù)。仿真結(jié)果顯示,本文提出的算法可以通過設(shè)置折扣因子,自主選擇資源分配策略的偏重程度,收斂速度快,在傳輸速率和系統(tǒng)能耗優(yōu)化方面都明顯優(yōu)于其他算法,有效地解決了蜂窩網(wǎng)資源分配多目標(biāo)優(yōu)化問題。