陳 斌 顧家驊 朱 敏 晏春平 周怡君 顧萍萍
(1.東南大學(xué) 電子科學(xué)與工程學(xué)院,江蘇 南京 210096;2.東南大學(xué) 移動(dòng)通信國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096;3.太倉(cāng)市同維電子有限公司 江蘇 太倉(cāng) 215400,4.東南大學(xué) 機(jī)械工程學(xué)院,江蘇 南京 210096)
隨著各種新興多媒體業(yè)務(wù)對(duì)網(wǎng)絡(luò)帶寬需求的日益增長(zhǎng),高效經(jīng)濟(jì)的無(wú)源光網(wǎng)絡(luò)(PON)已經(jīng)成為了“最后一公里”寬帶接入的一種成熟技術(shù),在全球范圍內(nèi)得到了廣泛鋪設(shè)[1].近年來(lái),正交頻分復(fù)用(OFDM)技術(shù)在光網(wǎng)絡(luò)研究領(lǐng)域獲得了令人矚目的發(fā)展勢(shì)頭[2].OFDM技術(shù)利用正交性,將發(fā)送的信號(hào)劃分為幾十個(gè),乃至數(shù)百個(gè)低速率、部分重疊但互不干擾的子載波信號(hào)[3].由于具有大容量、高效靈活的多地址訪問(wèn)、高頻譜效率等優(yōu)點(diǎn),基于OFDM技術(shù)的正交頻分多址無(wú)源光網(wǎng)絡(luò)(OFDMA-PON)已經(jīng)成為下一代光接入網(wǎng)絡(luò)有前途的解決方案之一[2,3].
通常,OFDMA-PON中每個(gè)子載波所承載的比特率遠(yuǎn)低于單個(gè)波長(zhǎng)的比特率,也遠(yuǎn)低于一個(gè)光網(wǎng)絡(luò)單元(ONU)的平均速率[2].這就意味著,要為每個(gè)ONU提供所需的帶寬,這就需要將多個(gè)子載波組合在一起,共同為該ONU提供載波服務(wù).在可用頻譜資源有限的情況下,服務(wù)于每一個(gè)ONU的子載波數(shù)量就要加以控制,否則會(huì)影響OFDMA-PON所提供的服務(wù)質(zhì)量(QoS),如延遲性能.我們知道,采用高階調(diào)制格式可以提高頻譜利用率,有助于減少所需的子載波的數(shù)量,進(jìn)而改善延遲性能[5].然而,為了保證一定的傳輸質(zhì)量,高階調(diào)制格式往往需要更多發(fā)射能量.據(jù)研究報(bào)道,ONU的功耗占OFDMA-PON能耗的60%至70%[6]. 在實(shí)際應(yīng)用中,盡可能降低網(wǎng)絡(luò)能耗,也是人們不斷追求的目標(biāo)之一. 因此,在OFDMA- PON中,考慮到調(diào)制格式配置的動(dòng)態(tài)子載波分配(DSA)算法會(huì)極大地影響網(wǎng)絡(luò)性能,如信道利用率、業(yè)務(wù)延遲和網(wǎng)絡(luò)能耗等[4].
為了提高OFDMA-PON資源分配的效率,早期工作[3,4,7-9]主要基于二維資源的聯(lián)合DSA算法被提出,即時(shí)隙(TS)和子載波(SC)的分配.文獻(xiàn)[3]在OFDMA-PON提出了一種加權(quán)DSA調(diào)度算法來(lái)減少終端無(wú)線數(shù)據(jù)包延遲.文獻(xiàn)[4]提出的算法在動(dòng)態(tài)帶寬分配上結(jié)合了流量預(yù)測(cè)技術(shù)來(lái)降低延遲.文獻(xiàn)[7]針對(duì)OFDMA-PON的上行資源分配問(wèn)題,利用離線調(diào)度框架來(lái)分析子載波信道利用率和總授權(quán)時(shí)間.文獻(xiàn)[8]提出了一種在距離自適應(yīng)OFDMA-PON中的公平感知DSA算法.文獻(xiàn)[9]提出了一種異構(gòu)OFDMA-PON中的動(dòng)態(tài)帶寬分配框架,并開發(fā)了基于權(quán)重分布的ONU調(diào)度新算法.但是,以上這些DSA算法都沒有考慮子載波調(diào)制格式的靈活分配,也沒有考慮ONU發(fā)射功率的優(yōu)化配置.
文獻(xiàn)[5]考慮了OFDMA-PON中時(shí)隙TS,子載波SC和調(diào)制格式這三維資源,通過(guò)在每個(gè)時(shí)隙中實(shí)現(xiàn)子載波和調(diào)制格式的最佳分配,來(lái)最小化ONU的發(fā)射功率.文獻(xiàn)[6]同樣研究了虛擬子載波(VS),TS和調(diào)制格式的聯(lián)合分配,通過(guò)多維資源的靈活重配置來(lái)最大程度地節(jié)省能耗.文獻(xiàn)[10]通過(guò)共享OFDM調(diào)制模塊來(lái)提高波分復(fù)用正交頻分復(fù)用-無(wú)源光網(wǎng)絡(luò)(WDM-OFDM-PON)的能量效率.文獻(xiàn)[11]提出一種距離自適應(yīng)帶寬分配方案,實(shí)現(xiàn)低成本大容量長(zhǎng)距離OFDMA-PON.但是上述這些方案并未考慮OFDMA-PON所需滿足的服務(wù)質(zhì)量,如ONU請(qǐng)求業(yè)務(wù)延遲.
最近,深度強(qiáng)化學(xué)習(xí)(DRL)已成功地應(yīng)用于資源管理的一些復(fù)雜決策問(wèn)題,在提高通信網(wǎng)絡(luò)性能方面引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.文獻(xiàn)[12,13]中研究了5G網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的切片準(zhǔn)入策略,以最大程度地提高基礎(chǔ)架構(gòu)提供商的利潤(rùn).文獻(xiàn)[14]從廣義的角度,針對(duì)網(wǎng)絡(luò)多種資源優(yōu)化配置問(wèn)題,演變成“裝箱”問(wèn)題,并通過(guò)DRL工具來(lái)解決,以最大程度地減少工作延遲.文獻(xiàn)[15]提出了一種基于DRL的C-RAN中的聯(lián)合BBU布局和路由策略,以最大程度地利用資源.文獻(xiàn)[16]提出了一種基于DRL的策略來(lái)提高彈性光網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)整體性能.
在本文中,據(jù)我們所知,我們首次應(yīng)用DRL技術(shù)來(lái)解決OFDMA-PON中的動(dòng)態(tài)子載波分配DSA問(wèn)題. 提出的基于DRL的DSA算法可以根據(jù)不同ONU請(qǐng)求的帶寬需求,聯(lián)合動(dòng)態(tài)分配可用的子載波數(shù)量、時(shí)隙和調(diào)制格式,以最大程度地降低ONU功耗和ONU請(qǐng)求的延遲.
圖1顯示OFDMA-PON系統(tǒng)的物理架構(gòu). OFDMA-PON系統(tǒng)具有3個(gè)組成部分:位于中心局(CO)的光線路終端(OLT),基于光分離器(Splitter)的無(wú)源光分配網(wǎng)絡(luò)(ODN)和位于用戶端的多個(gè)ONU.OLT通過(guò)ODN將來(lái)自中心局的下行業(yè)務(wù)數(shù)據(jù)流廣播給每個(gè)ONU.ONU有選擇地接收由OLT廣播的下行數(shù)據(jù),并將其發(fā)送給用戶.OLT通過(guò)ODN從每個(gè)ONU收集上行數(shù)據(jù).上/下行數(shù)據(jù)業(yè)務(wù)通過(guò)多個(gè)OFDM子載波進(jìn)行傳輸. 在本文中,我們專注于OFDMA-PON系統(tǒng)的上行鏈路傳輸,其中OFDM符號(hào)由正交子載波承載,為不同的ONU選擇不同的調(diào)制格式,分配不同的時(shí)隙和子載波信道,每個(gè)子載波信道包括一個(gè)或多個(gè)子載波SC.
圖1 OFDMA-PON系統(tǒng)結(jié)構(gòu)
首先本文對(duì)OFDMA-PON系統(tǒng)進(jìn)行建模,一共有N個(gè)子載波SC和K個(gè)ONU,并且每個(gè)SC在每個(gè)時(shí)隙內(nèi)只能被一個(gè)ONU占用.一個(gè)ONU所使用的多個(gè)SC必須是相鄰的,并且這些SC的開始/結(jié)束時(shí)間均相等.因此,如圖2所示,可以將分配每個(gè)ONU的SC和TS資源,表示為一個(gè)矩形.而且,對(duì)于某一個(gè)ONU業(yè)務(wù)請(qǐng)求來(lái)說(shuō),采用不同的調(diào)制格式,所需的子載波的數(shù)量會(huì)發(fā)生變化,表示分配資源的矩形也會(huì)發(fā)生變化.因此,ONU的發(fā)射功率和整體平均延遲也將有所不同.例如,如果ONU選擇一個(gè)低階的調(diào)制格式,雖然ONU的發(fā)射功率會(huì)較低,但分配給該ONU的子載波數(shù)量就會(huì)增加,從而產(chǎn)生較高的業(yè)務(wù)延遲.反之亦然.由此可見,調(diào)制格式的不同選擇,使得ONU的發(fā)射功率和ONU的平均延遲是相互聯(lián)系的.要在OFDMA-PON中實(shí)現(xiàn)高效的DSA算法,需要謹(jǐn)慎的時(shí)隙TS,子載波SC和調(diào)制格式的聯(lián)合分配.
圖2 三個(gè)可選調(diào)制格式下的兩個(gè)待處理的ONU請(qǐng)求的狀態(tài)表示示例
bk表示為分配給第k個(gè)ONU的某種調(diào)制格式,同時(shí)也表示為在這種調(diào)制格式下,每一個(gè)OFDM調(diào)制符號(hào)所代表的比特?cái)?shù).bk取值為1,2,…,M,其中M是每個(gè)OFDM調(diào)制符號(hào)代表的最大比特?cái)?shù).這表明對(duì)應(yīng)的調(diào)制格式是從BPSK到2M-QAM.本文假設(shè)分配給一個(gè)ONU的所有子載波的調(diào)制格式都相同.
如文獻(xiàn)[6]中所述,電功率占ONU的總發(fā)射功率的很大一部分,因此本文也同樣忽略了ONU的光功率.在一個(gè)時(shí)隙TS內(nèi),Pk表示第k個(gè)ONU支持給定誤碼率(BER)Pe下的bk比特/符號(hào),單個(gè)子載波SC所需的發(fā)射功率[6]
(1)
(2)
其中Tk是第k個(gè)ONU請(qǐng)求的持續(xù)時(shí)間,ceil上取整函數(shù)表示為第k個(gè)ONU所需的子載波數(shù),Rk是第k個(gè)ONU的數(shù)據(jù)速率請(qǐng)求(單位為比特),fSC是每一個(gè)子載波SC所占據(jù)的頻譜帶寬(單位為Hz). 式(2)可見bk的值越大,說(shuō)明采用越高階的調(diào)制格式,頻譜利用率越大,所需的子載波頻譜資源SC就越少,可以讓更多的ONU業(yè)務(wù)請(qǐng)求得到SC資源分配,從而降低業(yè)務(wù)的平均延遲時(shí)間;但要滿足一定的BER要求,所需要ONU信號(hào)發(fā)射功率也會(huì)增加(可由式(1)所示),反之亦然.
我們的優(yōu)化目標(biāo)是,為每一個(gè)ONUk∈{1,2,…,K}分配最優(yōu)的bk,從而聯(lián)合最小化ONU請(qǐng)求的平均等待時(shí)間和平均發(fā)射功率.
(3)
如圖3所示,深度強(qiáng)化學(xué)習(xí)方法是一個(gè)典型的馬爾可夫決策過(guò)程[13].強(qiáng)化學(xué)習(xí)的目標(biāo)是:給定一個(gè)馬爾可夫決策過(guò)程,尋找最優(yōu)策略.DRL中的學(xué)習(xí)者或決策者被稱為代理,與代理交互的代理外的所有部分,被稱為環(huán)境.代理選擇某些動(dòng)作,然后環(huán)境響應(yīng)這些動(dòng)作并向代理反映新的環(huán)境.代理和環(huán)境在一系列離散時(shí)間步驟中相互作用相互影響.具體地說(shuō),在每一個(gè)時(shí)間步t,代理會(huì)觀察一些狀態(tài)St,并在當(dāng)前狀態(tài)的基礎(chǔ)上選擇一個(gè)動(dòng)作At.在一個(gè)時(shí)間步以后,作為該動(dòng)作的結(jié)果,代理接收到新的獎(jiǎng)勵(lì)Rt+1,并且環(huán)境的狀態(tài)轉(zhuǎn)換為St+1.在馬爾可夫決策過(guò)程中,St+1和Rt+1的每個(gè)可能值的概率僅取決于緊接在前的狀態(tài)St和動(dòng)作At.狀態(tài)必須包括有關(guān)過(guò)去的代理和環(huán)境互動(dòng)所有方面的信息.
圖3 強(qiáng)化學(xué)習(xí)中基于深度神經(jīng)網(wǎng)絡(luò)(DNN)策略的代理-環(huán)境交互
本節(jié)利用DRL策略網(wǎng)絡(luò),經(jīng)過(guò)不斷地迭代訓(xùn)練,為每一個(gè)ONUk分配最優(yōu)調(diào)制格式bk,以最大程度地減少ONU請(qǐng)求的平均業(yè)務(wù)延遲和平均功耗.DRL算法可以生成大量訓(xùn)練數(shù)據(jù),同時(shí)將復(fù)雜的系統(tǒng)和決策建模為深度神經(jīng)網(wǎng)絡(luò).下面將定義DRL策略網(wǎng)絡(luò)的三要素:狀態(tài),動(dòng)作和獎(jiǎng)勵(lì).
狀態(tài):不同的圖像表示系統(tǒng)的狀態(tài),包括當(dāng)前已分配的系統(tǒng)資源情況,等待配置的ONU請(qǐng)求信息,以及在待辦事項(xiàng)隊(duì)列(Backlog Queue)中的候選配置的ONU請(qǐng)求信息.圖2中最左邊的圖像表示已分配的ONU請(qǐng)求,并從當(dāng)前時(shí)間步開始,持續(xù)T時(shí)間步,直到所有ONU請(qǐng)求配置完成.這些圖像中的不同顏色表示不同的ONU請(qǐng)求.例如,圖2的已分配方案中,紅色圖塊表示已成功配置的2個(gè)TS、2個(gè)SC的ONU請(qǐng)求.等待配置的ONU請(qǐng)求圖像表示采用不同的調(diào)制方式所需分配的SC和TS資源.例如,圖2右側(cè)為等待配置中的ONU請(qǐng)求圖像,當(dāng)采用不同調(diào)制格式時(shí),所需的SC和TS資源要求也不同.ONU請(qǐng)求1(Request Slot 1)要求兩個(gè)TS的持續(xù)時(shí)間,當(dāng)采用BPSK調(diào)制格式時(shí),需要4個(gè)SC資源,當(dāng)采用4-QAM時(shí),則需要2個(gè)SC資源,或采用8-QAM時(shí),則僅僅需要1個(gè)SC資源.按照先來(lái)先處理的原則,按序處理Backlog Queue中最先到達(dá)的d個(gè)ONU請(qǐng)求,以使代理中的神經(jīng)網(wǎng)絡(luò)輸入可以表示為有限且固定的狀態(tài)(圖2中d=2)[14].這樣,不僅可以減少延遲,還可以限制動(dòng)作空間,從而使強(qiáng)化學(xué)習(xí)更加有效.
動(dòng)作:在每個(gè)時(shí)間步,代理中的調(diào)度程序可以調(diào)度d個(gè)ONU請(qǐng)求的任何子集,并有M種可選的調(diào)制格式(一個(gè)ONU請(qǐng)求僅選擇一種調(diào)制格式).這就需要2^(d×M)的動(dòng)作空間,這個(gè)動(dòng)作空間非常大,可能會(huì)使強(qiáng)化學(xué)習(xí)非常具有挑戰(zhàn)性.在圖2中,為了大大降低動(dòng)作空間的規(guī)模,可以允許調(diào)度程序在每個(gè)時(shí)間步執(zhí)行多個(gè)動(dòng)作.給定動(dòng)作空間由{?,1×1,1×2,…,i×j,…,d×M}表示,其中元素a=i×j表示調(diào)度程序選擇第i個(gè)請(qǐng)求槽中ONU請(qǐng)求,并采用第j種調(diào)制格式,并試圖把該請(qǐng)求的資源塊放置在SC和TS資源圖像中的適當(dāng)位置;a=φ表示在當(dāng)前時(shí)間步中調(diào)度程序選擇到無(wú)效動(dòng)作,即不選擇任何ONU請(qǐng)求進(jìn)行資源配置.當(dāng)調(diào)度程序選擇到無(wú)效動(dòng)作或當(dāng)前可用資源不能滿足ONU請(qǐng)求時(shí),時(shí)間步長(zhǎng)向前移動(dòng)一步,可用資源圖像也向上移動(dòng)一步.新到達(dá)的ONU請(qǐng)求將通知調(diào)度程序并同時(shí)對(duì)請(qǐng)求槽狀態(tài)進(jìn)行更新.
這樣,調(diào)度程序可以在同一時(shí)間步執(zhí)行多個(gè)動(dòng)作,完成多個(gè)ONU請(qǐng)求的配置,使得動(dòng)作空間保持線性(d×M)[14].
獎(jiǎng)勵(lì):通過(guò)獎(jiǎng)勵(lì)來(lái)給代理提供反饋,以尋求實(shí)現(xiàn)所需目標(biāo)的最佳策略.優(yōu)化目標(biāo)是通過(guò)為所有ONU請(qǐng)求聯(lián)合分配時(shí)隙TS、子載波SC和調(diào)制格式,盡可能減少ONU請(qǐng)求的平均業(yè)務(wù)延遲和平均功耗.在單個(gè)時(shí)間步t中,強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)設(shè)置為
(4)
本文通過(guò)很多輪迭代來(lái)訓(xùn)練代理中的策略網(wǎng)絡(luò).在每一輪迭代中,固定數(shù)量的ONU請(qǐng)求到達(dá)并根據(jù)策略進(jìn)行資源配置.當(dāng)所有ONU請(qǐng)求都執(zhí)行完成時(shí),本輪訓(xùn)練終止.表1顯示了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的偽代碼.為了訓(xùn)練出通用的策略,訓(xùn)練過(guò)程中隨機(jī)生成多個(gè)ONU請(qǐng)求集(第2行),對(duì)每個(gè)ONU請(qǐng)求集進(jìn)行多輪探索(第3行),使用當(dāng)前探索策略,以得到可能的動(dòng)作概率空間,選擇某一種動(dòng)作,并使用產(chǎn)生的獎(jiǎng)勵(lì)值來(lái)進(jìn)一步改進(jìn)探索策略.具體地說(shuō),我們記錄每輪探索所有時(shí)間步的狀態(tài),動(dòng)作和獎(jiǎng)勵(lì)信息,并使用這些值來(lái)計(jì)算每一輪探索每個(gè)時(shí)間步t的累積折扣獎(jiǎng)勵(lì).
表1 訓(xùn)練算法偽代碼
仿真參數(shù)設(shè)置:ONU請(qǐng)求根據(jù)伯努利過(guò)程到達(dá),到達(dá)率λ(即每個(gè)時(shí)間步到達(dá)一個(gè)新的ONU請(qǐng)求的概率)從0到 1變化,步長(zhǎng)為0.1.本文考慮32個(gè)SC通道,總帶寬為1.28 GHz,則每一個(gè)子載波SC通道帶寬為0.04 GHz.每一個(gè)ONU請(qǐng)求可選擇調(diào)制格式為4種:BPSK,4-QAM,8-QAM和16-QAM.優(yōu)化目標(biāo)中兩個(gè)指標(biāo)的權(quán)重設(shè)置為相同,α=β=0.5.ONU請(qǐng)求的持續(xù)時(shí)間設(shè)置為:80%ONU請(qǐng)求的持續(xù)時(shí)間在1t和3t之間均勻選擇;而其余的20%ONU請(qǐng)求從10t到15t之間均勻選擇.ONU的帶寬需求Rk設(shè)置在(0.32,4.48)Gb/s范圍內(nèi)均勻分布.
在該算法中,本文使用具有33個(gè)神經(jīng)元的完全連接的隱藏層和總共532323個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò).DRL代理使用的“圖像”長(zhǎng)20個(gè)時(shí)間步,每次仿真持續(xù)50個(gè)時(shí)間步.在當(dāng)前時(shí)間步,代理只調(diào)度最先達(dá)到的d個(gè)ONU請(qǐng)求(d=8),采用不同調(diào)制格式,同時(shí)也不斷更新在待辦事項(xiàng)隊(duì)列中的ONU請(qǐng)求. 待辦事項(xiàng)隊(duì)列的長(zhǎng)度設(shè)置為64個(gè)ONU請(qǐng)求.在每次訓(xùn)練迭代中,本文使用50個(gè)不同的請(qǐng)求集,并對(duì)每個(gè)請(qǐng)求集并行運(yùn)行10個(gè)蒙特卡洛模擬進(jìn)行探索.更新策略網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)率被設(shè)置為0.001.
提出的靈活選擇調(diào)制格式的DRL方案與四種固定調(diào)制格式的基準(zhǔn)方案進(jìn)行比較:(1) 隨機(jī)Random算法,它隨機(jī)選擇請(qǐng)求;(2) 最短請(qǐng)求優(yōu)先算法(SRF)[6],它按ONU請(qǐng)求的持續(xù)時(shí)間升序排列,(3) Packer算法[17],它根據(jù)工作需求和資源可用性之間的排列順序分配資源;(4) Teris算法[17],綜合了SRF算法和Packer算法的優(yōu)勢(shì).這四個(gè)基準(zhǔn)啟發(fā)性算法采用固定的調(diào)制格式,該調(diào)制格式是滿足ONU最大帶寬需求的最小階調(diào)制格式,以此來(lái)盡可能減少發(fā)射功率.
由于ONU的數(shù)據(jù)速率請(qǐng)求Rk∈[0.32,4.48]Gb/s,4種基準(zhǔn)算法的固定調(diào)制格式被設(shè)置為16-QAM才能滿足所有ONU的數(shù)據(jù)速率需求.圖4比較了ONU請(qǐng)求到達(dá)率變化時(shí)的總獎(jiǎng)勵(lì)、業(yè)務(wù)延遲和發(fā)射功率.與Packer和Random算法相比,SRF算法在獎(jiǎng)勵(lì)和業(yè)務(wù)延遲方面均具有更好的性能.在低負(fù)載下,SRF性能類似于Packer算法.隨著負(fù)載的增加,SRF和Packer算法之間的差異不斷增加,SRF接近Teris.因?yàn)楸M管Packer為大帶寬需求的ONU保留的資源比SRF多,但大帶寬需求的ONU卻更多,這直接導(dǎo)致Packer的延遲性能最差.Teris結(jié)合了它們的優(yōu)勢(shì),勝過(guò)SRF和Packer算法.如圖4所示,在高負(fù)載條件下,DRL在這三個(gè)指標(biāo)方面的表現(xiàn)要優(yōu)于上述4種啟發(fā)式算法.這是因?yàn)镈RL學(xué)會(huì)了為不同帶寬需求的ONU請(qǐng)求靈活分配調(diào)制格式的能力,以節(jié)省功率;并為將來(lái)的ONU請(qǐng)求保留一些資源,以降低ONU請(qǐng)求平均等待時(shí)間,因此總獎(jiǎng)勵(lì)也是最高的.
圖4 ONU的數(shù)據(jù)速率請(qǐng)求Rk∈[0.32,4.48] Gb / s和α=β=0.5的測(cè)試結(jié)果
圖5描述了當(dāng)ONU請(qǐng)求到達(dá)率為1時(shí),DRL代理如何學(xué)習(xí)訓(xùn)練迭代.在迭代開始時(shí),DRL代理沒有任何先驗(yàn)知識(shí).DRL代理的行為類似于隨機(jī)策略,并且行為比基準(zhǔn)算法差.隨著迭代的進(jìn)行,DRLmax和DRLmean的值都隨著DNN的連續(xù)訓(xùn)練而增加.經(jīng)過(guò)約100次訓(xùn)練迭代后,DRL得知可以通過(guò)為一些小請(qǐng)求保留一些資源并使用更低階的調(diào)制格式來(lái)增加總獎(jiǎng)勵(lì),然后DRL繼續(xù)嘗試增加總獎(jiǎng)勵(lì),直到經(jīng)過(guò)1500次迭代后,DRLmax和DRLmean之間的差距越來(lái)越小并逐漸收斂到穩(wěn)定值,這表明此時(shí)系統(tǒng)已達(dá)到最佳狀態(tài).圖5(b)和(c)中的仿真結(jié)果表明,DRL方案實(shí)現(xiàn)了更好的ONU業(yè)務(wù)延遲,又盡可能地降低發(fā)射功率.值得一提的是,這四種基準(zhǔn)啟發(fā)性算法,不需要上述的迭代學(xué)習(xí)過(guò)程,但性能明顯低于我們提出的基于DRL的DSA算法;同時(shí),我們也看到,提出的DSA算法在迭代1500次之后就很快達(dá)到最佳狀態(tài),算法復(fù)雜度較低,收斂速度較快,所付出的時(shí)間成本在OFDMA-PON動(dòng)態(tài)資源調(diào)度過(guò)程中可忽略不計(jì).
圖5 ONU的數(shù)據(jù)速率請(qǐng)求Rk∈[0.32,4.48] Gb/s和α=β=0.5的訓(xùn)練結(jié)果
本文在OFDMA-PON中提出了一種基于DRL的新穎的三維DSA算法,聯(lián)合配置了ONU請(qǐng)求的時(shí)隙TS,子載波SC和調(diào)制格式,該算法同時(shí)優(yōu)化了ONU請(qǐng)求的平均延遲和平均功耗.從仿真結(jié)果可以看出,與SRF等四種基準(zhǔn)調(diào)度算法相比,本文提出的基于DRL的DSA算法可以顯著減少平均延遲和平均功耗,并且可以通過(guò)直接從經(jīng)驗(yàn)自學(xué)策略中提高自身配置性能,是一種非常靈活的資源優(yōu)化配置工具.